Standardno odstupanje i varijacija su statističke mjere rasipanja
Formula za standardno odstupanje i varijancu često se izražava koristeći:
Varijansa skupa n podjednako vjerojatne vrijednosti mogu se zapisati kao:
Standardno odstupanje je kvadratni korijen varijance:
Formule s grčkim slovima izgledaju zastrašujuće, ali to je manje komplicirano nego što se čini. Da biste to učinili u jednostavnim koracima:
To daje varijansu. Uzmite kvadratni korijen varijance da biste pronašli standardno odstupanje.
Ovaj odličan video s Akademije Khan objašnjava pojmove varijance i standardne devijacije:
Recimo da skup podataka uključuje visinu šest maslačaka: 3 inča, 4 inča, 5 inča, 4 inča, 11 inča i 6 inča.
Prvo pronađite srednju vrijednost podataka: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5
Dakle, srednja visina je 5,5 inča. Sada su nam potrebna odstupanja, pa pronalazimo razliku svake biljke od srednje vrijednosti: -2,5, -1,5, -,5, -1,5, 5,5, 1,5
Sada kvadrat svako odstupanje i pronađite njihov zbroj: 6,25 + 2,25 + .25 + 2,25 + 30,25 + 2,25 = 43,5
Sada podijelite zbroj kvadrata prema broju podatkovnih točaka, u ovom slučaju biljke: 43,5 / 6 = 7,25
Dakle, varijanca ovog skupa podataka je 7,25, što je prilično proizvoljni broj. Da biste ga pretvorili u mjerenje u stvarnom svijetu, uzmite kvadratni korijen 7,25 i pronađite standardno odstupanje u inčima.
Standardno odstupanje je oko 2,69 inča. To znači da je za uzorak bilo koji maslačak unutar 2,69 inča od prosjeka (5,5 inča) "normalan".
Odstupanja su kvadratna kako bi se spriječilo da negativne vrijednosti (odstupanja ispod srednje vrijednosti) ponište pozitivne vrijednosti. To funkcionira jer negativni broj kvadrata postaje pozitivna vrijednost. Ako ste imali jednostavan skup podataka s odstupanjima od srednje vrijednosti +5, +2, -1 i -6, zbroj odstupanja ispostavit će se kao nula ako vrijednosti nisu u kvadratu (tj. 5 + 2 - 1 - 6 = 0).
Varijanca se izražava kao matematička disperzija. Budući da je to proizvoljni broj u odnosu na izvorna mjerenja skupa podataka, teško je to vizualizirati i primijeniti u stvarnom smislu. Pronalaženje varijance obično je samo posljednji korak prije pronalaska standardnog odstupanja. Vrijednosti varijance ponekad se koriste u financijskim i statističkim formulama.
Standardno odstupanje, izraženo u izvornim jedinicama skupa podataka, mnogo je intuitivnije i bliže vrijednostima izvornog skupa podataka. Najčešće se koristi za analizu demografije ili uzoraka stanovništva kako bi se dobio osjećaj o onom što je normalno u populaciji.
U normalnoj distribuciji, oko 68% populacije (ili vrijednosti) padne unutar 1 standardnog odstupanja (1σ) od prosjeka, a oko 94% padne unutar 2σ. Vrijednosti koje se razlikuju od srednje vrijednosti za 1.7σ ili više, obično se smatraju zaostalom.
U praksi, sustavi kvalitete poput Six Sigma pokušavaju smanjiti broj pogrešaka tako da pogreške postanu neuobičajeno. Izraz "šest sigma procesa" proizlazi iz ideje da ako jedna ima šest standardnih odstupanja između srednje vrijednosti procesa i najbliže granice specifikacije, praktički nijedna stavka neće uspjeti ispuniti specifikacije.[1]
U stvarnim se aplikacijama skupovi podataka obično predstavljaju uzorke populacije, a ne cijele populacije. Nešto izmijenjena formula koristi se ako se zaključci za cijelu populaciju izvode iz djelomičnog uzorka.
"Uzorak standardnog odstupanja" koristi se ako je sve uzorak, ali želite dati izjavu o standardnom odstupanju populacije iz kojeg je uzorak izvučen
Jedina metoda formule standardnog odstupanja uzorka razlikuje se od formule standardnog odstupanja u nazivniku "-1".
Koristeći primjer maslačka, ova bi formula trebala biti ako bismo uzorkovali samo 6 maslačaka, ali željeli smo upotrijebiti taj uzorak za navođenje standardnog odstupanja za cijelo polje sa stotinama maslačaka..
Zbroj kvadrata sada bi bio podijeljen sa 5 umjesto 6 (n - 1), što daje odstupanje od 8,7 (umjesto 7,25), a uzorak standardnog odstupanja od 2,95 inča, umjesto 2,69 inča za izvorno standardno odstupanje. Ova promjena se koristi za pronalaženje pogreške u uzorku (u ovom slučaju 9%).