Kysymys:
Miksi ANOVA: ta opetetaan / käytetään ikään kuin se olisi erilainen tutkimusmenetelmä kuin lineaarinen regressio?
user28
2010-07-23 20:17:57 UTC
view on stackexchange narkive permalink

ANOVA vastaa lineaarista regressiota käyttämällä sopivia nuken muuttujia. Johtopäätökset ovat samat riippumatta siitä, käytätkö ANOVA: ta vai lineaarista regressiota.

Onko niiden vastaavuuden valossa mitään syytä, miksi ANOVA: ta käytetään lineaarisen regression sijasta?

Huomaa: Olen erityisen kiinnostunut kuulemaan tekniset syyt ANOVA: n käytölle lineaarisen regression sijaan.

muokkaus

Tässä on yksi esimerkki yksisuuntaisen ANOVA: n käytöstä. Oletetaan, että haluat tietää, onko urosten ja naisten keskimääräinen pituus sama. Hypoteesisi testaamiseksi kerätään tietoja satunnaisesta miehistä ja naisista (eli 30 kappaletta) ja suoritetaan ANOVA-analyysi (ts. Sukupuolten ja virheiden neliösumman summa) sen selvittämiseksi, onko vaikutusta.

Voit käyttää lineaarista regressiota tämän testaamiseen seuraavasti:

Määritä: $ \ text {Gender} = 1 $, jos vastaaja on mies ja $ 0 $ muuten. $$ \ text {Height} = \ text {Siepattu} + \ beta * \ text {Sukupuoli} + \ text {virhe} $$ missä: $ \ text {virhe} \ sim \ mathcal N (0, \ sigma ^ 2) $

Sitten testi siitä, onko $ \ beta = 0 $ vastaava testi hypoteesiisi.

Jos en erehdy, lineaarinen regressio on arvio kertoimista, jotka määrittelevät hyvän lineaarisen kartan X: stä Y: hen. ANOVA on testi tietääksesi, onko X: ssä merkittäviä eroja, kun Y ottaa kaksi erilaista arvoa. Voitteko selittää meille, miksi luulet heidän olevan samat?
ANOVA voidaan nähdä "syntaktisena sokerina" erityiselle lineaarisen regressiomallin alaryhmälle. ANOVA: ta käyttävät säännöllisesti tutkijat, jotka eivät ole tilastotieteilijöitä koulutuksen avulla. Ne ovat nyt "institutionaalisia", ja on vaikea muuttaa niitä takaisin käyttämään yleisempää esitystä ;-)
Hyvästi kommenttisi, mutta kokeilijat ovat vielä hullumpia kuin luulin, jos tämä on heille syntaktista sokeria! Mikä versio on intuitiivisempi .... ANOVA-hypoteesitesti $ \ beta $: Onko selitetyn varianssin ja selittämättömän varianssin suhde riittävän korkea? T-testi regressiomallin $ \ beta $ termillä: Onko $ \ beta $ vaikutus riittävän erilainen kuin nolla? Ja jälkimmäisen formulaation avulla saat myös muutoksen suunnan. Ja jos joudut muuttamaan tietoja, voit muuttaa parametriarvion takaisin fyysisesti merkitykselliseksi määräksi. Toisin kuin SS.
Katso myös https://stats.stackexchange.com/questions/268006/whats-the-difference-between-regression-and-analysis-of-variance
Viisi vastused:
#1
+56
Graham Cookson
2010-07-23 20:35:56 UTC
view on stackexchange narkive permalink

Ekonomistina varianssianalyysi (ANOVA) opetetaan ja ymmärretään yleensä suhteessa lineaariseen regressioon (esim. Arthur Goldbergerin A-kurssi ekonometriassa ). Taloustieteilijät / ekonometristit pitävät ANOVAa tyypillisesti mielenkiintoisina ja haluavat siirtyä suoraan regressiomalleihin. Lineaaristen (tai jopa yleistettyjen lineaaristen) mallien näkökulmasta ANOVA jakaa kertoimet eriin, joista jokainen erä vastaa ANOVA-terminologian "vaihtelulähdettä".

Yleensä voit kopioida saamasi päätelmät. ANOVA: sta regressiota käyttäen, mutta ei aina OLS-regressiota. Monitasoisia malleja tarvitaan hierarkkisten tietorakenteiden, kuten "split-plot-mallien", analysointiin, joissa ryhmien välisiä vaikutuksia verrataan ryhmätasoisiin virheisiin ja ryhmän sisäisiä vaikutuksia verrataan datatason virheisiin. Gelmanin artikkelissa [1] käsitellään yksityiskohtaisesti tätä ongelmaa ja todetaan tehokkaasti, että ANOVA on tärkeä tilastollinen työkalu, jota tulisi silti opettaa sen itsensä vuoksi.

Erityisesti Gelman väittää että ANOVA on tapa ymmärtää ja jäsentää monitasoisia malleja. Siksi ANOVA ei ole vaihtoehto regressiolle, vaan työkaluna monimutkaisten korkean ulottuvuuden päätelmien yhteenvetoon ja tutkimustietojen analysointiin.

Gelman on arvostettu tilastotieteilijä, ja hänen näkemykselleen tulisi antaa jonkin verran luottoa. Lineaarinen regressio palvelisi kuitenkin melkein kaikkea tekemääni empiiristä työtä yhtä hyvin, joten putosin tiukasti leiriin katsellakseni sitä hieman turhana. Jotkut tieteenalat, joilla on monimutkainen opintosuunnitelma (esim. Psykologia), saattavat pitää ANOVAa hyödyllisenä.

[1] Gelman, A. (2005). Varianssianalyysi: miksi se on tärkeämpää kuin koskaan (keskustelun kanssa). Annals of Statistics 33, 1–53. doi: 10.1214 / 009053604000001048

Kiitos Gelman-viitteestä. Luen hänen paperinsa. Mutta emmekö voi analysoida monitasoisia malleja käyttämällä klassista suurinta todennäköisyyttä? Olen samaa mieltä siitä, että OLS on tehoton / sopimaton monitasoisille malleille.
@Srikant - monitasoisen tiedon käsittelemiseksi on monia tapoja, ja Gelman on "kentän kuningas". Hänen ajatuksensa on, että ANOVA on yksinkertainen / selkeä menetelmä monimutkaisten ja hierarkkisten tietorakenteiden tai tutkimussuunnitelmien avainominaisuuksien kaappaamiseen ja ANOVA on yksinkertainen / selkeä tapa esittää keskeiset tulokset. Tässä mielessä sen rooli on täydentävä tai tutkiva.
+1 mukavasta selkeästä vastauksesta. Kappale 3 on lähinnä se, mitä minulle opetettiin biologian perustutkintona, painottaen jatkuvien ja kategoristen itsenäisten muuttujien yhdistämisen helppoutta ANOVA-kehyksessä.
#2
+24
ars
2010-07-23 23:42:05 UTC
view on stackexchange narkive permalink

Luulen, että Grahamin toinen kappale tulee asian ytimeen. Epäilen, että se ei ole niinkään tekninen kuin historiallinen, mikä johtuu todennäköisesti " tilastollisista menetelmistä tutkijoiden työntekijöille" ja työkalun helpon opettamisen / soveltamisen ei-tilastotieteilijöille kokeellisissa analyyseissä, joihin liittyy erillisiä tekijöitä , eikä syventyä mallin rakentamiseen ja siihen liittyviin työkaluihin. Tilastoissa ANOVAa opetetaan yleensä erityisenä regressiotapauksena. (Mielestäni tämä on samanlainen kuin miksi biostatistiikka on täynnä lukemattomia samannimisiä "testejä" sen sijaan, että korostettaisiin mallin rakentamista.)

#3
+14
Michael R. Chernick
2012-08-18 20:29:37 UTC
view on stackexchange narkive permalink

Sanoisin, että jotkut teistä käyttävät termiä regressio, kun sinun pitäisi käyttää yleistä lineaarista mallia. Mielestäni regressio on glm, johon liittyy jatkuvia kovariaatteja. Kun jatkuvia kovariaatteja yhdistetään näennäismuuttujiin, joita tulisi kutsua kovarianssianalyyseiksi. Jos käytetään vain näennäismuuttujia, viittaamme siihen erityiseen glm-muotoon varianssianalyysinä. Luulen, että varianssianalyysillä on erillinen toinen merkitys, koska menetelmä testaa merkittäviä kertoimia glm: ssä varianssin hajoamisen mallitermikomponenteiksi ja virhetermikomponenteiksi.

(+1) Olen myös heti huomannut epäselvän terminologian "regressio" koko keskustelun ajan.
(+1) GLM voi olla paras tapa erottaa eri merkitykset. On myös huomattava, että ANOVA: n historiassa käytettiin laskentamenetelmiä, jotka peittävät OLS: n ja ANOVA: n välisen suhteen. Nimikkeistö voi siis olla perusteltu historiallisista syistä.
#4
+10
Ηλίας
2010-10-13 13:53:32 UTC
view on stackexchange narkive permalink

ANOVA: ta voidaan käyttää kategoristen selittävien muuttujien (tekijöiden) kanssa, jotka ottavat enemmän kuin 2 arvoa (tasoa), ja antaa perustestin, että keskimääräinen vaste on sama jokaiselle arvolle. Tämä välttää regressio-ongelman, kun useita pareittain suoritettavia t-testejä suoritetaan näiden tasojen välillä:

  • Useat t-testit kiinteällä 5%: n merkitsevyystasolla saisivat noin 5% niistä antamaan vääriä tuloksia.
  • Nämä testit eivät ole riippumattomia toisistaan. A-tasojen vertaaminen B-tasoihin liittyy A-arvojen vertaamiseen C-arvoihin, koska A-tietoja käytetään molemmissa testeissä.

On parempi käyttää kontrasteja erilaisissa yhdistelmissä tekijätasot, jotka haluat testata.

Voit halutessasi selventää tätä vastausta; kirjoitettuna näen 3 ongelmaa. Ensimmäiset 2 ovat hiukan nirsoita, mutta niitä tulisi silti muokata, kolmas on sisällöllinen tämän keskustelun yhteydessä. (1) ANOVA: ta voidaan käyttää vain kahden ryhmän kanssa (vaikka suurin osa ihmisistä sitten suorittaa vain t-testin). (2) useita t-testejä w / $ \ alpha = .05 $ tuottaa asymptoottisesti tyypin I virheitä 5%: lle kontrasteista, joissa * todellista eroa ei ole *; kuinka monta virhettä tapahtuu riippuu siitä, kuinka monta nollaa on totta.
(3) vastauksesi merkitsee sitä, että moninkertaisen vertailun ongelma koskee OLS-regressiota, jota ei, kun se suoritetaan oikein. Oikea tapa testata tekijä regressiokontekstissa on testata sisäkkäinen malli siten, että kaikki tekijänuket pudotetaan koko malliin nähden kaikkien tekijänukien mukana. Tämä testi on identtinen ANOVA: n suorittaman testin kanssa. On totta, että sinun ei pitäisi käyttää yksittäisten nuken muuttujien testejä (epäilen sitä, mitä yrität kuvata tässä).
#5
+4
Jamal
2013-10-19 21:30:46 UTC
view on stackexchange narkive permalink

ANOVA testaat, onko populaatiomäärien välillä merkittäviä eroja olettaen, että verrataan enemmän kuin kahta populaatiotilannetta, aiot käyttää F-testiä.

Regressioanalyysissä rakennat mallin itsenäisten muuttujien ja riippuvan muuttujan välille. Jos sinulla on yksi itsenäinen muuttuja, jolla on neljä tasoa, voit käyttää kolmea muuttujaa ja suorittaa regressiomallin. Regressiomallin F-testi, jota käytetään regressiomallin merkitsevyyden testaamiseen, on sama kuin F, jonka saat testattaessa populaatiokeskiarvojen välistä eroa. Jos suoritat vaiheittaisen regression, jotkut nuken muuttujat saattavat pudota mallista ja F-arvo poikkeaa siitä, kun suoritat ANOVA-testin.

Tämä tekee ANOVA: sta testimenettelyn ja regressiosta mallinnusmenettelyn, jossa voit suorittaa testejä. Mutta ANOVA: lla on myös taustalla oleva malli riippumatta siitä, korostetaanko sitä kaikissa johdantohoidoissa. Joten tämä vastaus ei kuvaa mitään eroa niiden välillä. Sitä ei myöskään käsitellä kysymyksessä, minkä vuoksi heitä opetetaan erilaisiksi vahvasta yhtäläisyydestä riippumatta.


Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 2.0-lisenssistä, jolla sitä jaetaan.
Loading...