Ero keskihajonnan ja vakiovirheen välillä

esittely

standardi Dpoikkeama (SD) ja Sstandardimalliset Error (SE) ovat näennäisesti samankaltaisia ​​terminologioita; ne ovat kuitenkin käsitteellisesti niin erilaisia, että niitä käytetään tilastollisessa kirjallisuudessa melkein keskenään. Molempia termejä edeltää yleensä plus-miinus-symboli (+/-), joka osoittaa tosiasian, että ne määrittelevät symmetrisen arvon tai edustavat arvoalueita. Aina, molemmat termit esiintyvät mitattujen arvojen sarjan keskiarvolla (keskiarvolla).

Mielenkiintoista on, että SE: llä ei ole mitään tekemistä standardien, virheiden tai tieteellisen tiedon välittämisen kanssa.

Yksityiskohtainen tarkastelu SD: n ja SE: n alkuperästä ja selityksestä paljastaa, miksi ammattilaisista tilastotieteilijöistä ja niitä, jotka käyttävät sitä kurittaisesti, molemmat yleensä erehtyvät.

Vakiopoikkeama (SD)

SD on kuvaileva tilastot, jotka kuvaavat jakauman leviämistä. Mittarina on hyödyllistä, kun tiedot jaetaan normaalisti. Se on kuitenkin vähemmän hyödyllistä, kun tiedot ovat erittäin vinossa tai bimodaalisia, koska se ei kuvaa hyvin hyvin jakauman muotoa. Tyypillisesti käytämme SD: tä ilmoittamalla näytteen ominaisuuksia, koska aiomme kuvata kuinka paljon tiedot vaihtelevat keskiarvon mukaan. Muita hyödyllisiä tilastotietoja tiedon leviämisen kuvaamiseksi ovat kvartiilienväliset alueet, 25. ja 75. prosenttipisteet, ja tietoalue.

Kuva 1. SD on mitta datan leviämisestä. Kun tiedot ovat näytteitä normaalisti jakautuneesta jakaumasta, niin odotetaan, että kaksi kolmasosaa tiedoista on yhden standardipoikkeaman keskiarvosta..

Varianssi on a kuvaileva tilastot myös, ja se määritellään standardipoikkeaman neliöksi. Sitä ei yleensä ilmoiteta kuvaaessa tuloksia, mutta se on matemaattisesti jäljitettävämpi kaava (ts. Neliöpoikkeamien summa) ja sillä on merkitys tilastojen laskemisessa.

Esimerkiksi, jos meillä on kaksi tilastotietoa P & Q tunnetuilla variansseilla var(P) & var(Q), sitten summan varianssi P + Q on yhtä suuri kuin varianssien summa: var(P) +var(Q). Nyt on selvää, miksi tilastotieteilijät haluavat puhua variansseista.

Mutta standardipoikkeamilla on tärkeä merkitys leviämiselle, varsinkin kun tiedot jaetaan normaalisti: Välin keskiarvo +/ - 1 SD voidaan odottaa vangitsevan 2/3 näytteestä, ja aikavälin keskiarvo +- 2 SD voidaan odottaa ottavan 95% näytteestä.

SD antaa indikaattorin siitä, kuinka kauan yksittäiset vastaukset kysymykseen vaihtelevat tai “poikkeavat” keskiarvosta. SD kertoo tutkijalle, kuinka hajautetut vastaukset ovat - keskittyvätkö ne keskiarvoon vai ovatko hajallaan ja leveät? Arvioivatko kaikki vastaajat vastauksesi tuotteesi keskellä asteikkoasi vai hyväksyivätkö jotkut sitä ja toiset hylkäsivät sen?

Harkitse kokeilua, jossa vastaajia pyydetään arvioimaan tuote attribuuttien sarjassa 5-pisteisessä asteikossa. Kymmenestä vastaajaryhmästä (merkinnät A - J) alla ”hyvää vastinetta rahalle” oli 3,2 SD: n ollessa 0,4 ja ”tuotteen luotettavuuden” keskiarvo 3,4 ja SD: n 2,1..

Ensi silmäyksellä (kun tarkastellaan vain keinoja) vaikutti siltä, ​​että luotettavuus arvioitiin arvoa korkeammaksi. Mutta korkeampi SD luotettavuuden kannalta voisi viitata (kuten alla olevassa jaossa näkyy), että vastaukset olivat hyvin polarisoituneita, missä useimmilla vastaajilla ei ollut luotettavuusongelmia (arvioivat ominaisuudeksi ”5”), mutta pienemmällä, mutta tärkeällä vastaajien segmentillä oli luotettavuusongelma ja antoi ominaisuudelle ”1”. Pelkästään keskiarvon tarkasteleminen kertoo vain osan tarinasta, mutta tutkijoihin keskitytään useimmiten tähän. Vastausten jakautuminen on tärkeää harkita, ja SD tarjoaa siitä arvokkaan kuvaavan mitan.

Vastaaja Hyvää vastinetta rahalle Tuotteen luotettavuus
3 1
B 3 1
C 3 1
D 3 1
E 4 5
F 4 5
G 3 5
H 3 5
minä 3 5
J 3 5
Tarkoittaa 3.2 3.4
Std. dev. 0,4 2.1

Ensimmäinen kysely: Vastaajat arvioivat tuotteen viiden pisteen asteikolla

Kaksi hyvin erilaista vastejakaumaa 5-pisteisellä asteikolla voi tuottaa saman keskiarvon. Harkitse seuraavaa esimerkkiä, jotka osoittavat vastearvot kahdelle eri arvosanalle.

Ensimmäisessä esimerkissä (luokitus “A”) SD on nolla, koska KAIKKI vastaukset olivat tarkalleen keskiarvo. Yksittäiset vastaukset eivät poikenneet ollenkaan keskiarvosta.

Luokituksessa “B”, vaikka ryhmän keskiarvo on sama (3.0) kuin ensimmäisen jakauman, keskihajonta on suurempi. Vakiopoikkeama 1,15 osoittaa, että yksittäiset vasteet, keskimäärin *, olivat hiukan yli yhden pisteen päässä keskiarvosta.

Vastaaja Arvosana “A” Arvosana “B”
3 1
B 3 2
C 3 2
D 3 3
E 3 3
F 3 3
G 3 3
H 3 4
minä 3 4
J 3 5
Tarkoittaa 3.0 3.0
Std. dev. 0.00 1.15

Toinen kysely: Vastaajat arvioivat tuotteen viiden pisteen asteikolla

Toinen tapa tarkastella SD: tä on piirtämällä jakauma vastausten histogrammina. Jakelu, jolla on matala SD, näyttäisi korkeana kapeana muotona, kun taas suuri SD osoittaisi laajemman muodon.

SD ei yleensä ilmaise ”oikea tai väärä” tai “parempi tai huonompi” - alempi SD ei välttämättä ole toivottavampi. Sitä käytetään puhtaasti kuvaavana tilastona. Se kuvaa jakaumaa suhteessa keskiarvoon.

TSD: tä koskeva tekninen vastuuvapauslauseke

SD: n ajattelu ”keskimääräiseksi poikkeamaksi” on erinomainen tapa ymmärtää käsitteellisesti sen merkitys. Sitä ei kuitenkaan lasketa todellisena keskiarvona (jos se olisi, kutsumme sitä ”keskimääräiseksi poikkeamaksi”). Sen sijaan se on “standardisoitu”, melko monimutkainen menetelmä arvon laskemiseksi käyttämällä neliöiden summaa.

Käytännössä laskenta ei ole tärkeää. Suurin osa taulukko-ohjelmista, laskentataulukoista tai muista tiedonhallintatyökaluista laskee SD: n sinulle. Tärkeämpää on ymmärtää, mitä tilastot välittävät.

Vakiovirhe

Vakiovirhe on inferential tilasto, jota käytetään verrattaessa otoskeskiarvoja (keskiarvoja) populaatioiden välillä. Se on mitta tarkkuus näytteen keskiarvosta. Otoksen keskiarvo on tilasto, joka on johdettu tiedoista, joilla on taustalla oleva jakauma. Emme voi visualisoida sitä samalla tavalla kuin tietoja, koska olemme suorittaneet yhden kokeen ja meillä on vain yksi arvo. Tilastollinen teoria kertoo meille, että näytteen keskiarvo (suurelle ”tarpeeksi” näytteelle ja muutamissa säännöllisyysolosuhteissa) jakautuu likimain normaalisti. Tämän normaalijakauman keskihajonta on nimeltään vakiovirhe.

Kuvio 2. Jakelu alaosassa edustaalähettää datan jakauman, kun taas yläosassa oleva jakauma on näytteen keskiarvon teoreettinen jakauma. SD: n arvo 20 on tietojen leviämisen mittari, kun taas 5: n arvoinen SE on epävarmuuden mitta näytteen keskiarvon ympärillä.

Kun haluamme verrata hoidon A vs. hoidon B kahden näytekokeen tulosten keskiarvoja, meidän on arvioitava, kuinka tarkasti olemme mitanneet keskiarvot.

Oikeastaan ​​olemme kiinnostuneita siitä, kuinka tarkasti olemme mitanneet eron näiden kahden välineen välillä. Kutsumme tätä mittaa eron vakiovirheeksi. Et voi yllättyä kuullessasi, että näytevälineiden eron vakiovirhe on välineen standardivirheen funktio:

Nyt kun olet ymmärtänyt, että keskiarvon keskivirhe (SE) ja jakauman keskihajonta (SD) ovat kaksi erilaista petoa, saatat ihmetellä, kuinka he sekoittuivat ensinnäkin. Vaikka ne eroavat käsitteellisesti, niillä on yksinkertainen suhde matemaattisesti:

,missä n on datapisteiden lukumäärä.

Huomaa, että vakiovirhe riippuu kahdesta komponentista: näytteen keskihajonnasta ja näytteen koosta n. Tällä on intuitiivinen merkitys: mitä suurempi näytteen keskihajonta, sitä vähemmän tarkkaamme voimme olla arviomme todellisesta keskiarvosta.

Lisäksi mitä suurempi on otoskoko, sitä enemmän tietoja meistä on väestöstä ja mitä tarkemmin voimme arvioida todellisen keskiarvon.

SE on osoitus keskiarvon luotettavuudesta. Pieni SE on osoitus siitä, että otoksen keskiarvo heijastaa tarkemmin todellista väestökeskiarvoa. Suurempi otoskoko johtaa yleensä pienempaan SE: hen (kun taas näytteen koko ei vaikuta SD: hen).

Suurin osa kyselytutkimuksesta koostuu otoksen ottamisesta väestöstä. Sitten teemme päätelmiä populaatiosta kyseisestä näytteestä saatujen tulosten perusteella. Jos otettiin toinen näyte, tulokset eivät todennäköisesti vastaa tarkalleen ensimmäistä näytettä. Jos luokitusominaisuuden keskiarvo oli 3,2 yhdellä näytteellä, se voi olla 3,4 toisessa samankokoisessa näytteessä. Jos ottaisimme äärettömän määrän näytteitä (samankokoisia) väestöstämme, voisimme näyttää havaitut keinot jakautumisena. Voisimme sitten laskea kaikkien näytteen keskiarvojemme keskiarvon. Tämä keskiarvo olisi yhtä suuri kuin todellinen väkiluku. Voimme myös laskea näytteen keskiarvojen jakauman SD: n. Tämän näytteen keskiarvon jakauman SD on kunkin yksittäisen näytteen keskiarvon SE.

Meillä on siis merkittävin havainto: SE on väestön keskiarvon SD.

Näyte Tarkoittaa
1st 3.2
2nd 3.4
3rd 3.3
4th 3.2
5th 3.1
... . ... .
... . ... .
... . ... .
... . ... .
... . ... .
Tarkoittaa 3.3
Std. dev. 0,13

Taulukko, joka kuvaa SD: n ja SE: n välistä suhdetta

Nyt on selvää, että jos tämän jakauman SD auttaa meitä ymmärtämään, kuinka kaukana otoksen keskiarvo on todellisesta populaatiokeskiarvosta, niin voimme tämän avulla ymmärtää, kuinka tarkka yksittäisen näytteen keskiarvo on suhteessa todelliseen keskiarvoon. Se on SE: n ydin.

Todellisuudessa olemme ottaneet vain yhden näytteen väestöstämme, mutta voimme käyttää tätä tulosta arvioidaksemme havaitun otoksen keskiarvon luotettavuutta.

Itse asiassa SE kertoo meille, että voimme olla 95% vakuuttuneita siitä, että havaitun otoksen keskiarvo on plus tai miinus noin 2 (itse asiassa 1,96) vakiovirheet populaation keskiarvosta.

Seuraava taulukko näyttää vastausten jakautumisen ensimmäisestä (ja ainoasta) tutkimuksellemme käytetystä näytteestä. Kun se on 0,13, se on suhteellisen pieni, joten se osoittaa, että keskiarvomme on suhteellisen lähellä koko väestömme todellista keskiarvoa. Virhemarginaali (95%: n luottamusmäärällä) keskiarvomme kohdalla on (suunnilleen) kaksinkertainen arvoon (+/- 0,26), mikä kertoo meille, että todellinen keskiarvo on todennäköisimmin välillä 2,94 - 3,46.

Vastaaja luokitus
3
B 3
C 3
D 3
E 4
F 4
G 3
H 3
minä 3
J 3
Tarkoittaa 3.2
Std. erehtyä 0,13

Yhteenveto

Monet tutkijat eivät ymmärrä eroa standardipoikkeaman ja vakiovirheen välillä, vaikkakin ne sisältyvät yleensä tietoanalyysiin. Vaikka varsinaiset laskelmat keskihajonnasta ja vakiovirheestä näyttävät hyvin samanlaisilta, ne edustavat kahta hyvin erilaista, mutta toisiaan täydentävää mittaa. SD kertoo meille jakauman muodostasi, kuinka lähellä yksittäiset data-arvot ovat keskiarvosta. SE kertoo meille, kuinka lähellä otoksen keskiarvo on koko väestön todelliseen keskiarvoon. Yhdessä ne auttavat tuottamaan kattavamman kuvan kuin pelkkä keskiarvo voi kertoa meille.