Kysymys:
Mitä etuja Poissonin regressiolla on tässä tapauksessa lineaariseen regressioon verrattuna?
Emily
2013-02-04 05:11:47 UTC
view on stackexchange narkive permalink

Minulle on annettu tietojoukko, joka sisältää yhden lukion opiskelijoiden ansaitsemien palkintojen määrän, jossa ennustettujen ansaintojen lukumäärät sisältävät ohjelman tyypin, johon opiskelija oli ilmoittautunut, ja lopputentin pisteet matematiikka.

Mietin, voisiko joku kertoa minulle, miksi lineaarinen regressiomalli ei ehkä sovellu tässä tapauksessa ja miksi olisi parempi käyttää Poissonin regressiota? Kiitos.

Neljä vastused:
conjugateprior
2013-02-04 16:36:59 UTC
view on stackexchange narkive permalink

Kolme pistettä Poisson vs. normaali regressiosta, kaikki koskevat mallin määrittelyä:

Ennustimien muutosten vaikutus

Jatkuvalla ennustimella, kuten matematiikkatestipisteet Poissonin regressio (tavallisella lokilinkillä) tarkoittaa, että ennustimen yksikkömuutos johtaa prosentuaaliseen muutokseen palkintojen määrässä, eli 10 lisäpistettä matematiikkakokeessa liittyy esim. 25 prosenttia enemmän palkintoja. Tämä riippuu opiskelijoiden ennustettavien palkintojen määrästä. Sitä vastoin Normaali regressio yhdistää 10 pistettä enemmän kiinteään määrään, eli 3 lisäpalkintoa kaikissa olosuhteissa. Sinun pitäisi olla tyytyväinen tähän oletukseen, ennen kuin käytät mallia, joka tekee siitä. (fwiw mielestäni se on hyvin kohtuullista, modulo seuraava kohta.)

Opiskelijoiden käsittely ilman palkintoja

Ellei palkintoja ole todella paljon paljon opiskelijoita, palkintosi ovat enimmäkseen melko alhaiset. Itse ennustan nollainflaation, ts. Useimmat opiskelijat eivät saa mitään palkintoja, niin paljon nollia, ja jotkut hyvät opiskelijat saavat melkoisen määrän palkintoja. Tämä sekaantuu Poisson-mallin oletuksiin ja on ainakin yhtä huono Normal-mallille.

Jos sinulla on kohtuullinen määrä dataa, nolla-paisutettu tai este-malli olisi luonnollinen. Tämä on kaksi mallia, jotka on sidottu toisiinsa: yksi ennustaa, saako opiskelija palkintoja, ja toinen ennustamaan, kuinka monta hän saa, jos hän saa ollenkaan (yleensä jonkinlainen Poisson-malli). Odotan kaiken toiminnan olevan ensimmäisessä mallissa.

Palkintojen yksinoikeus

Lopuksi pieni huomautus palkinnoista. Jos palkinnot ovat yksinomaisia, ts. Jos yksi opiskelija saa palkinnon, mikään muu opiskelija ei voi saada palkintoa, niin lopputuloksesi yhdistetään yksi laskenta opiskelijalle laskee kaikkien muiden mahdollisen määrän. Onko tämä syytä huolestua, riippuu palkintorakenteesta ja opiskelijaryhmän koosta. Jättäisin sen huomiotta ensimmäisellä kierroksella.

Yhteenvetona voidaan todeta, että Poisson hallitsee mukavasti Normalia erittäin lukemattomia lukuun ottamatta, mutta tarkista Poissonin oletukset, ennen kuin nojaa siihen voimakkaasti johtopäätösten tekemiseksi, ja ole valmis siirtymään tarvittaessa hieman monimutkaisempaan malliluokkaan.

Korone
2013-02-04 05:36:43 UTC
view on stackexchange narkive permalink

Poissonin regressio olisi sopivampi tässä tapauksessa, koska vastauksesi on jonkin laskenta.

Yksinkertaisesti sanottuna mallinnamme, että yksittäisen opiskelijan palkintojen lukumäärä jakautuu poisson-jakeluun. ja että jokaisella opiskelijalla on oma $ \ lambda $ poisson -parametrin. Poissonin regressio yhdistää sitten tämän parametrin selittäviin muuttujiin eikä lukumäärään.

Tämä on normaalia lineaarista regressiota parempi syy virheisiin. Jos mallimme on oikea ja jokaisella opiskelijalla on oma $ \ lambda $, niin tietylle $ \ lambda $: lle odotamme poisson-jakaumaa sen ympärillä - ts. Epäsymmetristä jakaumaa. Tämä tarkoittaa, että epätavallisen korkeat arvot eivät ole yhtä yllättäviä kuin epätavallisen matalat.

Normaali lineaarinen regressio olettaa normaalit virheet keskiarvon ympärillä ja siten painottaa ne yhtä suuresti. Tämä tarkoittaa sitä, että jos opiskelijalla on odotettavissa oleva määrä palkintoja 1, on yhtä todennäköistä, että hän saa -2 palkintoa kuin 3 palkintoa: tämä on selvästi hölynpölyä ja mitä poisson on rakennettu vastaamaan. >

Dimitriy V. Masterov
2013-02-04 05:48:41 UTC
view on stackexchange narkive permalink

Palkintojen tavallinen pienimmän neliösumman regressio ennustajille tuottaa yhdenmukaiset parametriestimaatit, kunhan palkintojen ehdollinen keskiarvo on ennustimissa lineaarinen. Mutta tämä on usein riittämätöntä, koska se antaa ennustettujen palkintojen määrän olla negatiivinen (jopa ennustajien kohtuullisten arvojen osalta), mikä ei ole järkevää. Ihmiset yrittävät usein korjata tämän ottamalla luonnollisen palkintolokin ja käyttämällä OLS: ää. Mutta tämä epäonnistuu, koska jotkut opiskelijat eivät saa palkintoja, joten sinun on käytettävä jotain sellaista kuin $ \ ln (palkinnot + 0,5) $, mutta tämä luo omat ongelmansa, koska oletettavasti välität palkinnoista, ja uudelleenmuunnos ei ole triviaalia .

Koska odotettujen palkintojen määrä kasvaa hyvin suureksi, OLS: n pitäisi toimia paremmin @Coronen hahmottamista syistä. Wobegon-järvellä OLS on oikea tie.

Jos odotettu lukumäärä on pieni ja paljon nollia, käytän Poissonia, jolla on vakaat vakiovirheet negatiivisen binomimallin yli. NB-regressio antaa vahvat oletukset varianssista, joka esiintyy kertoimia tuottavissa ensiluokkaisissa olosuhteissa. Jos nämä oletukset eivät täyty, kertoimet itse voivat olla saastuneita. Poisson-tapausta ei ole.

Peter Flom
2013-02-04 17:54:23 UTC
view on stackexchange narkive permalink

@corone nostaa hyviä pisteitä, mutta huomaa, että Poisson on todella epäsymmetrinen vain, kun $ \ lambda $ on pieni. Jopa $ \ lambda $ = 10, se on melko symmetrinen e..g.

  set.seed (12345) pois10 <- rpois (1000, 10) juoni (tiheys (pois10)) kirjasto (hetket) vinous (pois10)  

osoittaa vinoutta 0,31, mikä on melko lähellä nollaa.

Pidän myös @conjugateprior -kohdista. Kokemukseni mukaan on harvinaista, että Poissonin regressio sopii hyvin; Päätän yleensä joko negatiivisella binomilla tai nollalla täytetyllä mallilla.



Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 3.0-lisenssistä, jolla sitä jaetaan.
Loading...