Kysymys:
Tilastollinen päätelmä, kun otos "on" populaatio
pbneau
2010-09-13 23:35:24 UTC
view on stackexchange narkive permalink

Kuvittele, että sinun on raportoitava vuosittain tietyn kokeen suorittaneiden ehdokkaiden määrä. Kohderyhmän erityispiirteiden vuoksi näyttää melko vaikealta päätellä havaittua menestysprosenttia esimerkiksi laajemmalle väestölle. Joten saatat ajatella, että nämä tiedot edustavat koko väestöä.

Ovatko testitulokset osoittaneet, että miesten ja naisten osuudet ovat erilaiset? Vaikuttaako testi, jossa verrataan havaittuja ja teoreettisia osuuksia, oikein, koska katsot koko väestön (eikä otoksen)?

Viisi vastused:
#1
+32
ars
2010-09-14 00:30:10 UTC
view on stackexchange narkive permalink

Tästä voi olla erilaisia ​​mielipiteitä, mutta käsittelen populaatiotietoja otoksena ja otaksun hypoteettisen populaation, minkä jälkeen tekisin päätelmiä tavalliseen tapaan. Yksi tapa ajatella tätä on, että kerätyistä tiedoista vastaa taustalla oleva tiedonkehitysprosessi, "populaatio" -jakauma.

Tässä tapauksessa tämä saattaa olla vieläkin järkevämpää, koska sinulla on kohortteja tulevaisuudessa. Silloin väestösi on todella kohortteja, jotka suorittavat testin myös tulevaisuudessa. Tällä tavalla voit ottaa huomioon ajalliset vaihtelut, jos sinulla on tietoja yli vuoden ajan, tai yrittää ottaa huomioon piilevät tekijät virhemallisi avulla. Lyhyesti sanottuna voit kehittää rikkaampia malleja, joilla on suurempi selitysvoima.

Juuri törmäsin tähän viestiin A Gelmanilta, * Kuinka tilastollinen analyysi eroaa, kun analysoidaan koko väestöä näytteen sijasta? *, Http://j.mp/cZ1WSI. Hyvä lähtökohta eri mieltä "superväestön" käsitteestä.
@chl: mielenkiintoinen - muistuttaa minua siitä, että Gelmanilla oli ANOVA-artikkelissaan keskustelu äärellisen / superpopulaation päättelystä, joka on verrattavissa kiinteisiin / satunnaisiin vaikutuksiin [http://www.stat.columbia.edu/~gelman/research/published /econanova3.pdf].
+1 Palasin juuri asiaan uudelleen (Googlen kautta). Luulen, että vastauksesi on paikalla.
#2
+26
Joris Meys
2010-09-14 01:12:57 UTC
view on stackexchange narkive permalink

Jos olet todella positiivinen, sinulla on koko väestö, ei edes tarvitse mennä tilastoihin. Sitten tiedät tarkalleen kuinka suuri ero on, eikä ole mitään syytä testata sitä enää. Klassinen virhe on tilastollisen merkitsevyyden käyttäminen "relevanttina" merkityksinä. Jos otit populaation, ero on siinä.

Jos taas muotoilet hypoteesi, ehdokkaat voidaan nähdä otoksena mahdollisista ehdokkaista, mikä mahdollistaisi tilastollisen testauksen . Tässä tapauksessa testaat yleensä, poikkeavatko miehet ja naiset käsiteltävässä testissä.

Kuten ars sanoi, voit käyttää usean vuoden testejä ja lisätä aikaa satunnaiskertoimena. Mutta jos kiinnostuksesi todellakin liittyy näiden ehdokkaiden eroihin tässä testissä, et voi käyttää yleistystä ja testaus on järjetöntä.

#3
+17
Brett
2010-09-14 23:15:21 UTC
view on stackexchange narkive permalink

Perinteisesti tilastollista päättelyä opetetaan todennäköisyysotosten ja otantavirheiden luonteen yhteydessä. Tämä malli on merkittävyystestin perusta. On kuitenkin muitakin tapoja mallintaa systemaattisia poikkeamia sattumasta, ja käy ilmi, että parametriset (näytteisiin perustuvat) testimme ovat yleensä hyviä likiarvoja näistä vaihtoehdoista.

Hypoteesien parametritestit perustuvat otantateoriaan arvioiden tuottamiseksi todennäköisestä virheestä. Jos tietyn kokoinen näyte otetaan populaatiosta, näytteenoton systemaattisen luonteen tuntemus tekee testauksesta ja luottamusvälistä merkityksellistä. Populaatiossa otantateoria ei yksinkertaisesti ole merkityksellistä eikä testeillä ole merkitystä perinteisessä mielessä. Päätelmästä ei ole hyötyä, ei ole mitään pääteltävää, on vain asia ... itse parametri.

Jotkut kiertävät tämän vetoamalla superpopulaatioihin, joita nykyinen väestönlaskenta edustaa. Minusta nämä vetoomukset eivät ole vakuuttavia - parametriset testit lähtevät todennäköisyyden otannasta ja sen ominaisuuksista. Tietyn ajan väestö voi olla otos suuremmasta väestöstä ajan ja paikan mukaan. En kuitenkaan näe mitään tapaa, jolla voisi perustellusti väittää, että tämä on satunnainen (tai yleisemmin mikä tahansa todennäköisyyden muoto) näyte. Ilman todennäköisyysnäytettä otantateoriaa ja testauksen logiikkaa ei yksinkertaisesti voida soveltaa. Voit yhtä hyvin testata mukavuusnäytteen perusteella.

On selvää, että hyväksyäksemme testauksen populaatiota käytettäessä meidän on luoputtava näiden testien perusteista näytteenottomenettelyissä. Yksi tapa tehdä tämä on tunnistaa läheinen yhteys näytteen teoreettisten testiemme - kuten t, Z ja F - ja satunnaistamismenettelyjen välillä. Satunnaistamistestit perustuvat käsillä olevaan otokseen. Jos kerään tiedot miesten ja naisten tuloista, todennäköisyysmalli ja virhearvioidemme perusta ovat toistuvat satunnaiset todellisten tietoarvojen allokoinnit. Voisin verrata havaittuja eroja ryhmien välillä jakautumiseen tämän satunnaistamisen perusteella. (Teemme tätä koko ajan muuten kokeissa, joissa satunnainen otanta populaatiomallista on harvoin tarkoituksenmukaista.) testit. Joten mielestäni populaatioiden testit ovat viime kädessä hyödyllisiä ja mielekkäitä tässä yhteydessä ja voivat auttaa erottamaan systemaattisen satunnaisuuden vaihtelusta - aivan kuten otospohjaisissa testeissä. Siellä käytetty logiikka on hieman erilainen, mutta sillä ei ole paljon vaikutusta testien käytännön merkitykseen ja käyttöön. Tietenkin saattaa olla parempi käyttää vain satunnaistamis- ja permutaatiotestejä, koska ne ovat helposti saatavilla kaikilla nykyaikaisilla laskentatehoillamme.

+1 järkevästä keskustelusta; muutama piste kuitenkin. Johtopäätökset eivät ole käytettävissä populaatioanalyysissä, mutta monissa mallintamistapauksissa epäilen, onko joku * väestötietojen alusta - usein ei ole kovin vaikeaa reikiä. Joten se ei ole * aina * vetoomus superväestölle keinona käyttää päätelmiä. "Superpopulaation" sijasta parempi tapa on olettaa datan tuottamisprosessi, joka tuottaa esimerkiksi vuosittaisen testin kyseisistä kohorteista. Siellä syntyy stokastinen komponentti.
Mielestäni tässä ei ole erimielisyyksiä, paitsi väestöanalyysin perusteettoman koneiston puuttuminen. Satunnaistamistestit ovat sovellettavissa populaatioihin, ja niillä voidaan kohtuudella testata, johtuuko datan tuottamisprosessi todennäköisesti satunnaisesta tuottamisprosessista verrattuna systemaattiseen generointiprosessiin. Ne eivät oleta satunnaista otantaa ja ovat melko suora testi sattumalta vs. systemaattinen vaihtelu. Perinteiset testimme kestävät melko hyvin heitä.
Se on totta: "päättelykoneiden puute". Huolimaton sanamuoto minulta, varsinkin kun pidin vastauksessasi pitämästäsi kohdasta satunnaistamistesteistä.
anteeksi. Minulla on vaikeuksia ymmärtää, kuinka laskisin permutaatiot ja mitä johtopäätöksiä voin tehdä heille.
Eikö bootstrapping ole kelvollinen vaihtoehto?Kuinka käynnistysstrappaus ei ratkaise tarvetta tehdä kumpi tahansa näistä oletuksista?
#4
+4
dca
2016-06-19 22:43:18 UTC
view on stackexchange narkive permalink

Oletetaan, että tulokset osoittavat, että ehdokkaat eroavat sukupuolen mukaan. Esimerkiksi testien suorittaneiden osuus on seuraava: 40% naisia ​​ja 60% miehiä. Ehdottaa ilmeistä, että 40% on erilainen kuin 60%. Nyt on tärkeää päättää: 1) kiinnostava väestösi; 2) miten havaintosi liittyvät kiinnostavaan väestöön. Tässä on joitain yksityiskohtia näistä kahdesta asiasta:

  1. Jos kiinnostunut populaatio on vain tarkkailemasi ehdokkaat (esim. 100 yliopistoon vuonna 2016 hakenutta ehdokasta), ei tarvitse ilmoittaa tilastollisia merkitsevyystestejä. Tämä johtuu siitä, että kiinnostavasta populaatiosta otettiin täydellinen otos ... kaikki mitä välität, ovat 100 ehdokasta, joista sinulla on täydelliset tiedot. Toisin sanoen 60% on piste, erilainen kuin 40%. Millainen kysymys tähän vastaukseen kuuluu, olivatko 100-vuotiaiden joukossa sukupuolieroja, jotka hakivat ohjelmaa? Tämä on kuvaileva kysymys ja vastaus on kyllä.

  2. Monet tärkeät kysymykset koskevat kuitenkin sitä, mitä tapahtuu eri asetuksissa. Toisin sanoen monet tutkijat haluavat luoda menneisyyden suuntauksia, jotka auttavat meitä ennustamaan (ja sitten suunnittelemaan) tulevaisuutta. Esimerkkikysymys tältä osin olisi: Kuinka todennäköisiä ehdokkaiden tulevat testit todennäköisesti eroavat sukupuolen mukaan? Kiinnostava populaatio on silloin laajempi kuin yllä olevassa skenaariossa 1. Tässä vaiheessa tärkeä kysymys on: edustavatko havaitsemasi tiedot todennäköisesti tulevia trendejä? Tämä on päättelevä kysymys, ja alkuperäisen julisteen antamien tietojen perusteella vastaus on: emme tiedä.

Yhteenvetona voidaan todeta, mitä tilastoja ilmoitat kysymykseen, johon haluat vastata.

Perustutkimuksen suunnittelusta voi olla hyötyä (kokeile tätä: http://www.socialresearchmethods.net/kb/design.php). Superpopulaatioiden ajattelu voi olla hyödyllistä, jos haluat tarkempaa tietoa (tässä on artikkeli, joka voi auttaa: http://projecteuclid.org/euclid.ss/1023798999#ui-tabs-1).

#5
+2
James
2010-09-14 19:58:43 UTC
view on stackexchange narkive permalink

Jos pidät mitä tahansa mittaustasi satunnaisena prosessina, niin kyllä ​​tilastolliset testit ovat merkityksellisiä. Otetaan esimerkiksi kolikon kääntäminen 10 kertaa nähdäksesi, onko se oikeudenmukainen. Saat 6 päätä ja 4 häntää - mitä päätät?

En todellakaan ymmärrä, kuinka johtopäätös kolikon heittämisestä liittyy kysymykseen. Ehkä voisit laajentaa hieman tältä osin? Tilastolliset testit näyttävät olevan merkityksellisiä siltä osin kuin ne auttavat päätelemään havaituista tuloksista suuremmalle väestölle, olipa kyseessä sitten vertailu- tai yleinen populaatio. Kysymys näyttää olevan seuraava: Ottaen huomioon, että otos on lähellä testaajien joukkoa tietyn ajan (tässä, yhden vuoden), onko klassinen päättely oikea tapa tehdä päätös mahdollisista eroista yksilötasolla?
@chl Kyllä, mutta näyttää siltä, ​​että OP yrittää päätellä taustalla olevan onnistumisen todennäköisyyttä. Testeissä verrataan havaittuja osuuksia teoreettiseen jakaumaan sen määrittämiseksi, onko tietyllä luotettavuustasolla eroa. Testaat minkä tahansa muodon satunnaisuutta, ei vain näytteenottovirheiden satunnaisuutta.


Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 2.0-lisenssistä, jolla sitä jaetaan.
Loading...