Kysymys:
Poikkeavien havaitseminen keskihajonnoilla
Amarald
2012-09-26 07:28:06 UTC
view on stackexchange narkive permalink

Seuraan kysymystäni täällä ja mietin, onko vakaita näkemyksiä standardipoikkeaman käytöstä poikkeamien havaitsemiseksi (esimerkiksi mikä tahansa datapiste, joka on yli 2 keskihajontaa, on poikkeava).

Tiedän, että tämä riippuu tutkimuksen kontekstista, esimerkiksi tietopiste, 48 kg, on varmasti poikkeava vauvojen painotutkimuksessa, mutta ei aikuisten painotutkimuksessa.

Poikkeamat ovat seurausta useista tekijöistä, kuten tietojen syöttövirheistä. Minun tapauksessani nämä prosessit ovat vankkoja.

Sanotte: "Minun tapauksessani nämä prosessit ovat vankkoja". Tarkoittaa mitä? Oletko varma, että sinulla ei ole tietojen syöttövirheitä?
Täällä on niin paljon hyviä vastauksia, että en ole varma, mikä vastaus hyväksytään! Kaikki ohjeet tästä ovat hyödyllisiä
Valitse yleensä se, jonka mielestäsi vastaat kysymykseesi suorimmin ja selkeämmin, ja jos se on liian vaikea kertoa, menisin eniten ääniä saaneeseen. Jopa on hieman tuskallista päättää kumpi, on tärkeää palkita joku, joka vietti aikaa vastata.
P.S. Voisitteko selventää muistiinpanolla, mitä tarkoitatte "nämä prosessit ovat vankkoja"? Se ei ole kriittinen vastauksille, jotka keskittyvät normaaluuteen jne., Mutta mielestäni sillä on jonkin verran merkitystä.
Poikkeukset eivät ole mallittomia.Yhden mallin epätavallinen poikkeama voi olla täysin tavallinen kohta toisessa.Ensimmäisen kysymyksen tulisi olla "miksi yrität havaita poikkeavuuksia?"(sen sijaan, että tekisit jotain muuta, kuten käyttötapoja, jotka ovat vankkoja heille), ja toinen olisi "mikä tekee havainnosta poikkeavan sovelluksessasi?"
Glen_b: n kommenttiin lisääminen, josta olen samaa mieltä, tulee monimutkaisemmaksi monimuuttujatietojen kanssa.Artikkelissani "Vaikutusfunktio ja sen soveltaminen tietojen validointiin" keskustellaan tästä yhdessä reaalimaailman sovellusten kanssa.Se ilmestyi American Journal of Mathematical and Management Sciences -lehdessä vuonna 1982.
Neljä vastused:
Peter Flom
2012-09-26 16:33:00 UTC
view on stackexchange narkive permalink

Jotkut poikkeamat ovat selvästi mahdottomia . Mainitset 48 kg vauvan painosta. Tämä on selvästi virhe. Se ei ole tilastollinen kysymys, se on aineellinen asia. Ihmisvauvoja ei ole 48 kg. Mikä tahansa tilastollinen menetelmä tunnistaa tällaisen pisteen.

Henkilökohtaisesti sen sijaan, että luotan mihinkään testiin (jopa sopiviin testeihin, kuten @Michael suositteli), kuvaan tiedot graafisesti. Sen osoittaminen, että tietty data-arvo (tai arvot) on epätodennäköistä joissakin oletetuissa jakaumissa, ei tarkoita, että arvo on väärä, ja siksi arvoja ei pitäisi poistaa automaattisesti vain siksi, että ne ovat äärimmäisiä.

Lisäksi ehdottamasi sääntö (2 SD keskiarvosta) on vanha sääntö, jota käytettiin päivinä ennen kuin tietokoneet tekivät asioista helppoja. Jos N on 100 000, niin odotat varmasti melkoisen arvon, joka on yli 2 SD keskiarvosta, vaikka normaali jakauma olisi täydellinen.

Mutta entä jos jakelu on väärä? Oletetaan, että populaatiossa kyseinen muuttuja ei ole normaalijakautunut, mutta sillä on painavammat hännät?

Mikä on suurin vauvan painon arvo, jota pidät mahdollisena?
Minä en tiedä. Mutta voisi etsiä levyn. Answers.comin mukaan (nopeasta Googlesta) se oli 23,12 kiloa, syntynyt kahdelle vanhemmalle, joilla oli jättimäinen. Jos tekisin tutkimusta, tarkistan tarkemmin.
Entä jos tietoja ei voida tarkastaa visuaalisesti (ts. Se voi olla osa automaattista prosessia?)
Lisää kaaviot automaatioon jotenkin.
Michael R. Chernick
2012-09-26 07:58:41 UTC
view on stackexchange narkive permalink

Kyllä. Se on huono tapa "havaita" oultiereita. Normaalisti jaetun datan tapauksessa tällainen menetelmä kutsuisi 5% täysin hyvistä (mutta hieman äärimmäisistä) havainnoista "poikkeaviksi". Myös kun sinulla on näyte koosta n ja etsit erittäin korkeita tai matalia havaintoja kutsuttaaksesi niitä poikkeaviksi, katsot todella äärimmäisen järjestyksen tilastoja. Normaalisti jakautuneen näytteen maksimia ja minimiä ei normaalisti jaeta. Joten testin tulisi perustua ääripäiden jakautumiseen. Sitä Grubbsin testi ja Dixonin suhdetesti tekevät, kuten olen maininnut useita kertoja aiemmin. Jopa silloin, kun käytät asianmukaista testiä poikkeaville, havaintoa ei tule hylätä vain siksi, että se on epätavallisen äärimmäinen. Sinun tulisi tutkia, miksi äärimmäinen havainto tapahtui ensin.

Aivan "huono" kuin H0: n hylkääminen matalan p-arvon perusteella.
Harvey Motulsky
2012-09-26 23:22:53 UTC
view on stackexchange narkive permalink

Kun kysyt, kuinka monta keskihajontaa keskiarvosta potentiaalinen poikkeama on, älä unohda, että poikkeama itse nostaa SD: tä ja vaikuttaa myös keskiarvon arvoon. Jos sinulla on N arvoa, etäisyyden suhde keskiarvoon jaettuna SD: llä ei voi koskaan ylittää (N-1) / sqrt (N). Tämä on tietysti eniten pienillä näytteillä. Esimerkiksi, jos N = 3, mikään poikkeama ei voi olla suurempi kuin 1,155 * SD keskiarvosta, joten on mahdotonta, että mikään arvo voi koskaan olla enemmän kuin 2 SD keskiarvosta. (Tämä edellyttää tietysti, että lasket SD-näytteen käsillä olevista tiedoista, eikä sinulla ole teoreettista syytä tietää populaation SD: tä.)

Grubbsin kriittiset arvot testi laskettiin tämän huomioon ottamiseksi ja riippuvat siten otoksen koosta.

P auritus
2012-09-26 18:01:44 UTC
view on stackexchange narkive permalink

Mielestäni asiayhteys on kaikki. Annetussa esimerkissä kyllä ​​selvästi 48 kg painava vauva on virheellinen, ja kahden vakiopoikkeaman käyttö saisi tämän tapauksen kiinni. Ei ole kuitenkaan syytä ajatella, että kahden standardipoikkeaman (tai minkä tahansa muun SD-kerrannaisen) käyttö on tarkoituksenmukaista muille tiedoille. Esimerkiksi, jos tarkastelet torjunta-ainejäämiä pintavesissä, kahden keskihajonnan ylittävät tiedot ovat melko yleisiä. Nämä erityisen korkeat arvot eivät ole "poikkeavuuksia", vaikka ne olisivatkin kaukana keskiarvosta, koska ne johtuvat sateista, viimeaikaisista torjunta-aineista jne. Voit tietysti luoda muita "nyrkkisääntöjä" (miksi ei 1,5 × SD tai 3,1415927 × SD?), Mutta rehellisesti sanottuna tällaisia ​​sääntöjä on vaikea puolustaa, ja niiden onnistuminen tai epäonnistuminen vaihtelee tutkittavien tietojen mukaan. Mielestäni arvostelukyvyn ja logiikan käyttö subjektiivisuudesta huolimatta on parempi tapa päästä eroon syrjäytymisistä mielivaltaisen säännön sijaan. Tässä tapauksessa et tarvinnut 2 × SD-muistia 48 kg: n poikkeaman havaitsemiseksi - pystyit perustelemaan sen. Eikö se ole ylivoimainen menetelmä? Jos mielivaltaiset säännöt ovat parempia, jos et voi päättää asiasta?



Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 3.0-lisenssistä, jolla sitä jaetaan.
Loading...