Extras din curs
Diagrame de dispersie. Reprezentarea grafică a unei dependenţe liniare.
În statistică se evidenţiază caracterisitici (media, variaţia, abaterea standard etc. ) ale unei singure variabile (punctajul obţinut de studenţi la un test; numărul de rebuturi dintr-un lot de fabricaţie etc.). Adesea, este însă necesar să se determine modul în care doi parametri se influenţează reciproc, pentru aceiaşi populaţie statisitcă (relaţia dintre numărul de ore de studiu ale ununi student şi rezultatele obţinute la test; relaţia dintre adâncimea de aşchiere şi forţa de aşchiere etc.).
O reprezentare grafică, des utilizată pentru a evidenţia dependenţa dintre două variabile o constituie diagrama de împrăştiere (dsipersie) - scatter plot. Fiecare punct de pe diagramă reprezintă valori ale celor două variabile, una pentru axa OX, şi alta pentru axa OY.
Cea mai simplă relaţie de dependenţă dintre două variabile o reprezintă cea de tip liniar:
(1)
Ecuaţia (1) reprezintă ecuaţia unei drepte care trece cât de aproape este posibil de punctele din grafic: a reprezintă panta dreptei;
b – punctul de intersecţie dintre axa ordonatei şi dreaptă.
Cea mai empirică modalitate de a găsi ecuaţia dreptei este aceea de a realiza diagrama de împrăştiere la o scară convenabil aleasă (pentru OX şo OY) şi de a găsi dreapta cea mai apropiată de punctele de pe diagramă. Valorile lui a şi b se determină, observând pe dreapta trasată care este variaţia valorilor lui Y, la o variaţie presatbilită a lui X (de regulă se consideră valorile extreme).
Ex.:
Un grup de studenţi au încercat să găsească relaţia de depenedenţă dintre diametrul unor recipiente (suc, cafea etc.) şi circumferinţa acestora.
Datele sunt prezentate în tabel:
Obiect Diametru
[cm] Circumferinţă
[cm]
Cutie orange juice 3,0 10,0
Cutie cafea (mică) 5,0 16,0
Cutie de suc de roşii 10,8 32,5
Cutie cafea (mare) 13,0 40,0
Cutie compot ananas 10,0 32,3
Cutie de supă 6,8 21,0
Lumânare 4,5 18,0
Se remarcă faptul că o creştere a lui x cu 10 unităţi a avut ca rezultat o creştere a lui Y cu 30,75 unităţi.
Deci: , iar b = 0 (X = 0 Y = 0).
Rezultatul nu este precis, deoarece se ştie că a trebuie să fie egal cu (3,1416).
Convenţional, în statistică se notează cu Y (yi) – ordonata datelor statistice (experimentale) şi cu Y’ (Yi) - ordonată punctelor de pe curba ce aproximează cel mai bine aceste date.
De ex., pentru X = 4,5 Y = 18 şi Y’ = 13,8 ( ), ceea ce demonstrează că eroarea de estimaţie (Y – Y’) este mare.
Eroarea de estimaţie se mai numeşte şi rezidual.
3.2 Regresie prin metoda celor mai mici pătrate
Regresia reprezintă tehnica generală de ajustare a datelor experimentale la o curbă teoretică dată.
Metoda de regresie cea mai cunoscută este metoda celor mai mici pătrate (MCMP), care constă în minimizarea sumei pătratelor distanţelor punctelor observate la o curbă de ajustare.
În cazul a trei variabile, procedeul este similar şi se ajunge la o suprafaţă de ajustare.
• Regresie (ajustare) liniară
Se consideră două variabile x şi y între care se presupune că există o legătură de forma y = f (x).
Experimental, au fost determinate perechile de valori reale (xi, yi):
xi x1 x2 … xi … xn
yi y1 y 2 … y i … y n
Dacă se pune problema ajustării acestor date după o dreaptă: Y = a + bx, numită dreaptă de regresie, atunci pentru fiecare punct experimental va exista o valoare corespunzătoare pe dreaptă: Yi = a + bxi .
Dreapta de regresie se apropie cel mai mult de punctele experimentale; iar abaterile absolute ale punctelor dreptei de regresie faţă de valorile reale sunt:
yi - Yi = yi - (a + bxi) = yi - a - bxi (5)
Parametrii a şi b se determină din condiţia ca suma pătratelor abaterilor să fie minimă, adică:
(6)
Preview document
Conținut arhivă zip
- Explorarea Datelor Statistice
- Curs_5_ST.IC.doc
- Curs_6_ST.IC.doc
- Exam2_ST.IC.doc