Kysymys:
Mitä viitteitä tulisi mainita tukeakseen 30 käyttöä riittävän suurena otoskokona?
Lan
2010-09-10 22:07:39 UTC
view on stackexchange narkive permalink

Olen lukenut / kuullut monta kertaa, että vähintään 30 yksikön otoskokoa pidetään "suurena otoksena" (normaaliolettamukset keskiarvoista ovat yleensä voimassa CLT: n vuoksi ...). Siksi kokeissani tuotan yleensä 30 yksikön näytteet. Voitteko antaa minulle viitteitä, jotka on mainittava käytettäessä otoskokoa 30?

Ilman viittausta arvioitavien parametrien lukumäärään tai vastaavaan malliin, jonka kanssa työskentelet, näyttää melko vaikealta antaa sinulle selkeä vastaus.
N = 30: n hyväksymistä pienten ja suurten näytteiden rajana ei tueta millään tilastollisella tekniikalla.
Neljä vastused:
#1
+43
Carlos Accioly
2010-09-11 00:42:17 UTC
view on stackexchange narkive permalink

Itse asiassa "maaginen numero" 30 on harhaluulo. Katso Jacob's Cohenin ihastuttava artikkeli Asiat, jotka olen oppinut (toistaiseksi) (Am. Psych. Joulukuu 1990 45 # 12, s. 1304-1312). Tämä myytti on hänen ensimmäinen esimerkki siitä, kuinka "jotkut oppimasi asiat eivät ole niin".

[toiset tohtoriehdokkaistani] tekivät väitöskirjan [otoksella] vain 20 tapausta ryhmää kohti. ... [L] ater havaitsin ... että kahden itsenäisen ryhmän keskiarvon vertaamiseksi $ n = 30 $ ryhmää kohti pyhitetyn kahden tailed $. 05 $ -tasolla, todennäköisyys, että keskikokoinen vaikutus merkitään merkittäväksi ... t -testillä oli vain $. 47 $ . Siten oli suunnilleen kolikon läppä, saisiko merkittävä tulos, vaikka todellisuudessa vaikutuksen koko oli mielekäs. ... [Ystäväni] päätyi merkityksettömiin tuloksiin - joilla hän ryhtyi purkamaan tärkeän psykoanalyyttisen teorian haaran.

Kaunis viite - ja paikka asiaankuuluvassa. Kiitos.
@whuber Muistatko mikä paperi se oli?Linkki on jo rikki.Ehkä tämä http://psych.colorado.edu/~willcutt/pdfs/Cohen_1990.pdf "Asiat, joita olen oppinut (toistaiseksi)"?Vuosi vastaa viallisen linkin URL-osoitteessa olevaa vuotta.
@Amoeba Tallensin tämän paperin, kun luin sen, joten voin vahvistaa, että löysit sen, mitä tarkoitit.Olen päivittänyt tämän vastauksen sisällyttämään viittauksen linkkisi kanssa.
@Carlos Accioly Olen päivittänyt sen uudella linkillä, koska edellinen linkki oli rikki.
#2
+39
user1108
2010-09-10 22:44:59 UTC
view on stackexchange narkive permalink

Pienien ja suurten näytteiden välisen rajan valinta n = 30 on vain nyrkkisääntö. Tätä arvoa lainaa (noin) kirjoja on paljon, esimerkiksi Hoggin ja Tanisin Todennäköisyys ja tilastollinen päättely (7e) sanoo "suurempi kuin 25 tai 30".

Minulle kerrottu tarina oli, että ainoa syy, miksi 30 pidettiin hyvänä rajana, johtui siitä, että sen avulla oppilaiden t taulukot oppikirjojen takaosassa sopivat hienosti yhdelle sivulle. Tämä ja kriittiset arvot (Studentin t ja Normal välillä) ovat pois päältä vain noin 0,25: een, df = 30 - df = ääretön. Käsi laskennassa erolla ei ollut merkitystä.

Nykyään on helppo laskea kaikenlaisten asioiden kriittiset arvot 15 desimaalin tarkkuudella. Tämän lisäksi meillä on resampling- ja permutaatiomenetelmiä, joille emme ole rajoittuneet parametrisiin populaatiojakaumiin.

Käytännössä en koskaan luota n = 30. Piirrä data . Aseta normaalijakauma päällekkäin, jos haluat. Arvioi visuaalisesti, onko normaali approksimaatio sopiva (ja kysy, tarvitaanko likiarvostusta todella). Jos näytteiden luominen tutkimusta varten ja lähentäminen on pakollista, luo tarpeeksi otoskokoa, jotta likiarviointi olisi mahdollisimman lähellä (tai niin lähellä kuin laskennallisesti mahdollista).

Tässä on sivu siitä, kuinka hyvä t-jakauman normaali likiarvo on n = 30. http://www.johndcook.com/normal_approx_to_t.html
#3
+9
bhm
2010-09-10 23:41:43 UTC
view on stackexchange narkive permalink

IMO, kaikki riippuu siitä, mihin haluat käyttää näytettä. Kaksi "typerää" esimerkkiä havainnollistaakseni mitä tarkoitan: Jos sinun on arvioitava keskiarvo, 30 havaintoa on enemmän kuin tarpeeksi. Jos sinun on arvioitava lineaarinen regressio 100 ennustimella, 30 havaintoa ei ole tarpeeksi lähellä.

#4
+9
user603
2010-09-11 00:05:05 UTC
view on stackexchange narkive permalink

Enimmäkseen mielivaltainen nyrkkisääntö. Tämä väite riippuu useista tekijöistä, jotta se olisi totta. Esimerkiksi tietojen jakamisesta. Jos tiedot ovat peräisin esimerkiksi Cauchysta, edes 30 ^ 30 havaintoa eivät riitä keskiarvon arvioimiseen (tällöin edes ääretön havaintojen määrä ei riitä aiheuttamaan $ \ bar {\ mu} ^ {(n)} $ lähentymään). Tämä luku (30) on väärä myös, jos piirtämäsi arvot eivät ole toisistaan ​​riippumattomia (taas saatat huomata, että lähentymistä ei ole lainkaan otoksen koosta riippumatta).

Yleisemmin CLT tarvitsee olennaisesti kaksi pylvästä:

  1. että satunnaismuuttujat ovat riippumattomia: että voit järjestää havainnot uudelleen menettämättä tietoja *.
  2. että rv tulevat jakaumasta, jolla on rajalliset toiset momentit: mikä tarkoittaa, että keskimääräisen ja sd: n klassiset estimaattorit taipumus lähentyä otoksen koon kasvaessa.

(Molemmat olosuhteet voivat olla jonkin verran heikentyneet, mutta erot ovat suurimmaksi osaksi teoreettisia)

Esimerkkisi kuvaa luotettavien tilastojen arvoa. * Näytteen mediaani * arvioi Cauchyn jakautumiskaivon sijaintiparametrin. Voidaan väittää, että heikoin lenkki käytettäessä t-testiä 30 näytteen kanssa on t-testi, ei 30 näytettä.
John:> "Voidaan väittää, että heikoin lenkki käytettäessä t-testiä 30 näytteen kanssa on t-testi, ei 30 näytettä". Todella totta, ja myös oletus, että data on * iid *. Mediaani on myös MLE Cauchyn hajautetuille satunnaismuuttujille (ja siten tehokas), mutta yleensä tarvitset yli 30 havaintoa.
Kaikki CLT-versiot eivät perustu identtiseen jakeluun eivätkä edes riippumattomuuteen. Perusopiskelijoille opetetut perusopetukset tekevät usein, mutta on versioita, jotka eivät tee molempia oletuksia, esim. [Lyapunov CLT] (http://en.wikipedia.org/wiki/Central_limit_theorem#Lyapunov_CLT) olettaa itsenäisyyden, mutta ei identtisiä jakaumia, ja riippumattomuusolosuhteita voidaan myös rentouttaa, esimerkiksi [katso täältä] (http: // fi .wikipedia.org / wiki / Central_limit_theorem # CLT_under_weak_dependence). Se 'uudelleenjärjestely' ei myöskään ole sama kuin itsenäisyys. Jotkut riippuvuuden muodot eivät perustu järjestykseen.
Näytekoko 50 000 ei ole riittävä, jotta CLT toimisi riittävän hyvin laskemaan luottamusväli log-normaalijakauman keskiarvolle.


Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 2.0-lisenssistä, jolla sitä jaetaan.
Loading...