Središnja tendencija vs disperzija
U opisnoj i inferencijskoj statistici koristi se nekoliko indeksa za opisivanje skupa podataka koji odgovaraju njegovoj središnjoj tendenciji, disperziji i nakrivljenosti: tri najvažnija svojstva koja određuju relativni oblik distribucije skupa podataka.
Što je središnja tendencija?
Središnja tendencija odnosi se i nalazi središte raspodjele vrijednosti. Srednja vrijednost, način rada i medijan najčešće su korišteni indeksi za opis središnje tendencije skupa podataka. Ako je skup podataka simetričan, tada se medijan i sredina skupa podataka podudaraju jedan s drugim.
S obzirom na skup podataka, srednja vrijednost izračunava se zbrajanjem zbroja svih podataka i potom dijeljenjem s brojem podataka. Na primjer, mase 10 ljudi (u kilogramima) mjere se na 70, 62, 65, 72, 80, 70, 63, 72, 77 i 79. Tada prosječna težina deset osoba (u kilogramima) može biti izračunava se na sljedeći način. Zbroj utega je 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Srednja vrijednost = (zbroj) / (broj podataka) = 710/10 = 71 (u kilogramima). Podrazumijeva se da odljevci (točke podataka koji odstupaju od normalnog trenda) imaju tendenciju utjecaja na srednju vrijednost. Dakle, samo u prisutnosti outliersa sredstva neće dati ispravnu sliku o središtu skupa podataka.
Medijan je podatkovna točka pronađena na točnoj sredini skupa podataka. Jedan od načina izračunavanja medijana je slanje podatkovnih točaka uzlaznim redoslijedom, a zatim pronalazak podatkovne točke u sredini. Na primjer, ako je jednom naručen prethodni skup podataka izgleda kao 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Prema tome, (70 + 72) / 2 = 71 je u sredini. Iz ovoga se vidi da medijan ne mora biti u skupu podataka. Na medijan ne utječe prisutnost odmetnika. Stoga će medijan služiti kao bolje mjerilo središnje tendencije u prisustvu odmarajućih.
Način je vrijednost koja se najčešće pojavljuje u skupu podataka. U prethodnom primjeru vrijednosti 70 i 72 se javljaju dva puta, pa su oba načina. To pokazuje da u nekim distribucijama postoji više od jedne modalne vrijednosti. Ako postoji samo jedan način, za skup podataka se kaže da je unimodalni, u tom slučaju je skup podataka bimodalni.
Što je disperzija?
Disperzija je količina širenja podataka o središtu distribucije. Raspon i standardno odstupanje najčešće su mjere disperzije.
Raspon je jednostavno najveća vrijednost minus najniža vrijednost. U prethodnom primjeru najviša vrijednost je 80, a najniža vrijednost 62, pa je raspon 80-62 = 18. No raspon ne daje dovoljnu sliku o disperziji.
Da bismo izračunali standardno odstupanje, najprije se izračunavaju odstupanja vrijednosti podataka od srednje vrijednosti. Srednja vrijednost odstupanja korijenskog kvadrata naziva se standardnim odstupanjem. U prethodnom primjeru, odstupanja od srednje vrijednosti su (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, (80 - 71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 i (79 - 71) = 8. Zbroj kvadrat odstupanja je (-1)2 + (-9)2 + (-6)2 + 12 + 92 + (1)2 + (-8)2 + 12 + 62 + 82 = 366. Standardno odstupanje je √ (366/10) = 6,05 (u kilogramima). Ako se skup podataka ne iskrivi, iz toga se može zaključiti da je većina podataka u intervalu 71 ± 6,05, a u konkretnom je primjeru zaista tako.
Koja je razlika između središnje tendencije i disperzije? • Središnja tendencija odnosi se i nalazi središte raspodjele vrijednosti • Disperzija je količina širenja podataka o središtu skupa podataka.
|