Kysymys:
Onko olemassa intuitiivista selitystä sille, miksi monikollineaarisuus on ongelma lineaarisessa regressiossa?
user28
2010-08-03 03:42:33 UTC
view on stackexchange narkive permalink

Wikissä käsitellään ongelmia, joita syntyy, kun monikollinaarisuus on lineaarisen regressiokysymyksen aihe. Perusongelma on monikollinaarisuus johtaa epävakaaseen parametriestimaattiin, mikä tekee erittäin vaikeaksi arvioida riippumattomien muuttujien vaikutusta riippuvaisiin muuttujiin.

Ymmärrän ongelmien tekniset syyt (ei ehkä pysty kääntämään $ X 'X $, huonosti ilmastoitu $ X' X $ jne.), Mutta etsin intuitiivisempaa (ehkä geometrista?) Selitystä tälle kysymykselle.

Onko geometrista vai kenties muuta muotoa helposti ymmärrettävä selitys sille, miksi monikollineaarisuus on ongelmallista lineaarisen regressiotilanteen yhteydessä?

Todella hieno kysymys. Paras tapa ymmärtää jotain on monista selityssuunnista.
Katso myös aiheeseen liittyvä kysymys ja visuaalinen selitys osoitteessa http://stats.stackexchange.com/q/70899/3277
Yhdeksän vastused:
#1
+97
Rob Hyndman
2010-08-03 03:59:09 UTC
view on stackexchange narkive permalink

Harkitse yksinkertaisinta tapausta, jossa $ Y $ regressiotyyppiin $ X $ ja $ Z $ nähden ja jossa $ X $ ja $ Z $ korreloivat erittäin positiivisesti. Sitten $ X $: n vaikutusta $ Y $: een on vaikea erottaa $ Z $: n vaikutuksesta $ Y $: een, koska mikä tahansa $ X $: n kasvu liittyy yleensä $ Z $: n nousuun.

Toinen tapa tarkastella tätä on harkita yhtälöä. Jos kirjoitamme $ Y = b_0 + b_1X + b_2Z + e $, kerroin $ b_1 $ on $ Y $: n lisäys jokaisesta yksikön lisäyksestä $ X $: ssa pitäen samalla $ Z $ vakiona. Mutta käytännössä on usein mahdotonta pitää $ Z $: ta vakiona ja positiivinen korrelaatio $ X $: n ja $ Z $: n välillä tarkoittaa, että yksikön kasvuun $ X $: ssa liittyy yleensä jonkin verran nousua $ Z $: ssa samanaikaisesti.

Samanlainen, mutta monimutkaisempi selitys pätee myös muihin monikollineaarisuuden muotoihin

+1 Äärimmäisen patologinen tapaus, jossa $ X = Z $ korostaa tätä edelleen. $ Y = b_0 + b_1 X + b_2 Z + e $ ja $ Y = b_0 + (b_1 + b_2) X + 0 Z + e $ eivät olisi erotettavissa.
+1 Pidän tästä vastauksesta, koska yksi yleisimmistä ohjekysymyksistä on, miksi silloin $ b_1> 0 $ ja $ b_2 <0 $. Päätelmässä on otettava huomioon realistiset panokset.
#2
+32
Snackrifice
2010-08-10 13:04:22 UTC
view on stackexchange narkive permalink

Söin kerran sushia ja ajattelin, että se voisi olla hyvä intuitiivinen osoitus huonosti hoidetuista ongelmista. Oletetaan, että halusit näyttää jollekulle koneen, jossa on kaksi keppiä, jotka koskettavat heidän pohjaansa.

Luultavasti pidät tikkuja kohtisuorassa toisiinsa nähden. Kaikenlaisen kätesi tärinän vaikutus lentokoneeseen saa sen heiluttamaan hieman sen ympärillä, mitä toivoit näyttää ihmisille, mutta tarkkaillessasi sinua jonkin aikaa he saavat hyvän käsityksen siitä, mitä konetta aiot osoittaa.

Oletetaan kuitenkin, että viet tikkujen päät lähemmäksi toisiaan ja katsot käsien tärinän vaikutusta. Sen muodostama kone nousee paljon villimmin. Yleisönne on katsottava kauemmin saadakseen hyvän käsityksen siitä, mitä lentokonetta yrität osoittaa.

+1 Mielestäni tämä vastaa suoraan kysymykseen. Koska vaikka monikollinaarisuus vaikuttaa tulkintaan. Miksi se on ongelma, on arvioinnin vakaus.
+1 Tämän kommentin (ja vain tämän kommentin koskaan Stackoverflow-historiassa) lähettämiseen käyttäjänimellä Snackrifice.
Olen lukenut tämän kommentin luultavasti kymmenen kertaa usean vuoden kompastumisen aikana, enkä vieläkään ole varma, mitä sanot.Minkälaisesta "koneesta" puhut?Mitä tarkoitat "[koneen, jonka aiot aioit demonstroida?"
#3
+21
ars
2010-08-03 04:26:03 UTC
view on stackexchange narkive permalink

Geometrisen lähestymistavan on otettava huomioon $ Y $: n pienin neliöprojektio $ X $: n ulottamaan alitilaan.

Oletetaan, että sinulla on malli:

$ E [Y | X] = \ beta_ {1} X_ {1} + \ beta_ {2} X_ {2} $

Arviointitilamme on vektorien $ X_ {1} $ ja $ X_ {määrittämä taso 2} $ ja ongelmana on löytää $ (\ beta_ {1}, \ beta_ {2}) $ vastaavat koordinaatit, jotka kuvaavat vektoria $ \ hat {Y} $, $ Y $: n pienimmän neliön projektio kyseinen kone.

Oletetaan nyt, että $ X_ {1} = 2 X_ {2} $, eli ne ovat kolineaarisia. Sitten $ X_ {1} $: n ja $ X_ {2} $: n määrittämä alatila on vain viiva, ja meillä on vain yksi vapausaste. Emme siis voi määrittää kahta arvoa $ \ beta_ {1} $ ja $ \ beta_ {2} $ kuten meiltä kysyttiin.

Olen äänestänyt kauan sitten, mutta luin vastauksesi uudelleen muistuttaen siitä, että pidin aina Christensenin * lentokonevastauksista monimutkaisiin kysymyksiin * (http://j.mp/atRp9w).
@chl: siisti, aion ehdottomasti tarkistaa sen sitten. :)
mikään vastaus, joka alkaa sanalla "ota huomioon pienin neliö, jonka projektio ulottuu alitilaan", ei ole intuitiivinen.
#4
+14
Charlie
2012-08-20 22:23:47 UTC
view on stackexchange narkive permalink

Kaksi ihmistä työntää kiviä mäkeä ylös. Haluat tietää kuinka kovaa kukin heistä ajaa. Oletetaan, että katsot heidän työntyvän yhteen kymmenen minuutin ajan ja kivilohko liikkuu 10 jalkaa. Teikö ensimmäinen kaveri kaiken työn ja toinen vain väärennti sen? Tai päinvastoin? Tai 50-50? Koska molemmat voimat toimivat täsmälleen samaan aikaan, et voi erottaa kummankin voimaa erikseen. Voit sanoa vain, että heidän yhteenlaskettu voima on 1 jalka minuutissa.

Kuvittele nyt, että ensimmäinen kaveri työntää minuutin itse, sitten yhdeksän minuuttia toisen kaverin kanssa, ja viimeinen minuutti on vain toinen kaveri työntää. Nyt voit käyttää arvioita voimista ensimmäisellä ja viimeisellä minuutilla selvittääksesi kunkin henkilön voiman erikseen. Vaikka he työskentelevät edelleen suurelta osin samaan aikaan, se, että eroja on vähän, antaa sinulle arvion jokaisen voimasta.

Jos näit jokaisen miehen työntyvän itsenäisesti kymmenen minuuttia , se antaisi sinulle tarkemmat arviot voimista kuin jos voimissa olisi suuri päällekkäisyys.

Jätän lukijalle harjoituksen laajentaa tapausta koskemaan yhtä ylämäkeen työntävää miestä ja toista alamäkeen (se toimii edelleen).

Täydellinen monikoleaarisuus estää sinua arvioimasta voimia erikseen; lähellä monikolineaarisuutta antaa sinulle suurempia vakiovirheitä.

#5
+6
Abhijit
2010-08-04 20:37:41 UTC
view on stackexchange narkive permalink

Ajattelen tätä todella tiedon suhteen. Oletetaan, että kullakin $ X_ {1} $: lla ja $ X_ {2} $: lla on jonkin verran tietoa $ Y $: sta. Mitä enemmän korrelaatit $ X_ {1} $ ja $ X_ {2} $ ovat keskenään, sitä enemmän tietosisältö $ Y $: sta $ X_ {1} $: sta ja $ X_ {2} $: sta on samanlainen tai päällekkäinen se, että täydellisesti korreloiville $ X_ {1} $ ja $ X_ {2} $, se on todellakin sama tietosisältö. Jos nyt laitamme $ X_ {1} $ ja $ X_ {2} $ samaan (regressiomalliin) malliin selittämään $ Y $, malli yrittää "jakaa" tiedot, jotka ($ X_ {1} $, $ X_ {2} $) sisältää noin $ Y $ jokaiselle $ X_ {1} $ ja $ X_ {2} $, jokseenkin mielivaltaisella tavalla. Tätä ei ole oikeastaan ​​hyvä tapa jakaa, koska tietojen jakaminen johtaa silti siihen, että mallin ($ X_ {1} $, $ X_ {2} $) kokonaisinformaatio pidetään mallissa (täydellisesti korreloivien $ X $ ' s, tämä on todellakin tapaus, jota ei voida tunnistaa). Tämä johtaa epävakaisiin yksittäisiin arvioihin yksittäisille kertoimille $ X_ {1} $ ja $ X_ {2} $, jos tarkastellaan ennustettuja arvoja $ b_ {1} X_ {1} + b_ {2} X_ {2 } $ monissa ajoissa ja arviot $ b_ {1} $ ja $ b_ {2} $, nämä ovat melko vakaita.

#6
+4
Tal Galili
2010-08-03 07:28:37 UTC
view on stackexchange narkive permalink

Oma (hyvin) maallikon intuitioni tähän on, että OLS-malli tarvitsee tietyn tason "signaalia" X-muuttujassa sen havaitsemiseksi, se antaa "hyvän" ennusteen Y: lle. Jos sama "signaali" levitetään monien X: n yli (koska ne ovat korreloineet), mikään korreloivista X: istä ei voi antaa riittävästi "todistetta" (tilastollinen merkitsevyys) siitä, että se on todellinen ennustaja.

Edelliset (upeat) vastaukset hyvää työtä selitettäessä miksi näin on.

#7
+3
Young
2012-08-20 20:24:55 UTC
view on stackexchange narkive permalink

Oletetaan, että kaksi ihmistä teki yhteistyötä ja teki tieteellisiä löytöjä. On helppo kertoa heidän ainutlaatuinen panoksensa (kuka mitä teki), kun kaksi on täysin erilainen henkilö (toinen on teoriapari ja toinen hyvä kokeilussa), vaikka se on vaikeaa erottaa heidän ainutlaatuiset vaikutuksensa (regressiokertoimet), kun he ovat kaksoset, jotka toimivat samalla tavalla.

#8
+2
Mitch Flax
2010-08-03 07:20:32 UTC
view on stackexchange narkive permalink

Jos kaksi regresoria korreloivat täydellisesti, niiden kertoimia on mahdotonta laskea; on hyödyllistä pohtia, miksi niitä olisi vaikea tulkita jos voimme laskea ne . Itse asiassa tämä selittää, miksi on vaikea tulkita muuttujia, jotka eivät ole täydellisessä korrelaatiossa, mutta jotka eivät myöskään ole todella riippumattomia.

Oletetaan, että riippuvainen muuttujamme on päivittäinen kalan tarjonta New Yorkissa, ja riippumattomat muuttujamme sisältää yhden siitä, satako sateita sinä päivänä ja toisen sinä päivänä ostetun syötin määrästä. Mitä emme ymmärrä keräämällä tietoja, on se, että joka kerta, kun sataa, kalastajat eivät osta syöttiä, ja joka kerta, kun ei, he ostavat jatkuvasti syötin. Joten syötti ja sade korreloivat täydellisesti, ja kun suoritamme regressiomme, emme voi laskea niiden kertoimia. Todellisuudessa Bait ja Rain eivät todennäköisesti ole täysin korreloineet toisiinsa, mutta emme halua sisällyttää heitä molempia regressoreiksi puhdistamatta jotenkin heidän endogeenisuudestaan.

#9
+1
Christoph Hanck
2015-12-30 14:48:19 UTC
view on stackexchange narkive permalink

Luulen, että nuken muuttujaloukku tarjoaa uuden hyödyllisen mahdollisuuden havainnollistaa miksi monikollinaarisuus on ongelma. Muista, että se syntyy, kun mallissa on vakio ja täydellinen nukkesarja. Sitten nuken summa laskee yhteen, vakion, niin monikollineaarisuuden.

Esim. nuken miehille ja yhden naisille:

$$ y_i = \ beta_0 + \ beta_1Man_i + \ beta_2Woman_i + u_i $$

$ \ beta_1 $ on odotettu muutos $ Y $: ssa, joka syntyy muuttamalla $ Man_i $ 0: sta 1: een. Samoin $ \ beta_2 $ on odotettu muutos $ Y $: ssa, joka syntyy muuttamalla $ Woman_i $ 0: sta 1: een.

Mutta mitä $ \ beta_0 $ sitten on tarkoitus edustaa ...? Se on $ E (y_i | Mies_i = 0, Nainen_i = 0) $, joten odotettavissa oleva tulos henkilöille, jotka eivät ole miehiä eikä naisia ​​... on todennäköisesti turvallista sanoa, että käytännössä kaikissa kohtaamissasi aineistoissa ei ole hyödyllinen kysymys :-).



Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 2.0-lisenssistä, jolla sitä jaetaan.
Loading...