Kysymys:
Mikä on ero korrelaation ja yksinkertaisen lineaarisen regression välillä?
Neil McGuigan
2010-08-26 04:53:00 UTC
view on stackexchange narkive permalink

Tarkoitan erityisesti Pearsonin tuotteen ja hetken korrelaatiokerrointa.

Huomaa, että yksi näkökulma regressioiden ja korrelaatioiden väliseen suhteeseen voidaan erottaa vastauksestani: [Mitä eroa on lineaarisen regressioon tekemisellä y: llä x: llä vs. x: llä y: llä?] (Http://stats.stackexchange.com/questions / 22718 // 22721 # 22721).
Kymmenen vastused:
#1
+117
Jeromy Anglim
2010-08-26 07:48:15 UTC
view on stackexchange narkive permalink

Mitä eroa on $ X $: n ja $ Y $: n välisellä korrelaatiolla ja lineaarisella regressiolla, joka ennustaa $ Y $: n $ X $: sta?

Ensinnäkin joitain yhtäläisyyksiä :

  • standardoitu regressiokerroin on sama kuin Pearsonin korrelaatiokerroin
  • Pearsonin korrelaatiokertoimen neliö on sama kuin $ R ^ 2 $ yksinkertaisessa lineaarisessa regressiossa
  • Yksinkertainen lineaarinen regressio tai korrelaatio ei vastaa syy-yhteyden kysymyksiin suoraan. Tämä kohta on tärkeä, koska olen tavannut ihmisiä, joiden mielestä yksinkertainen regressio voi maagisesti sallia päätelmän siitä, että $ X $ aiheuttaa $ Y $.

Toiseksi joitain eroja vahva>:

  • Regressioyhtälöä (eli $ a + bX $) voidaan käyttää ennusteiden tekemiseen $ Y $: lle $ X $ -arvojen perusteella
  • Vaikka korrelaatio viittaa tyypillisesti lineaariseen suhteeseen, se voi viitata muihin riippuvuuden muotoihin, kuten polynomi- tai todella epälineaariset suhteet
  • Vaikka korrelaatio viittaa tyypillisesti Pearsonin korrelaatiokertoimeen, on olemassa myös muita korrelaatiotyyppejä, kuten Spearman .
Hei Jeromy, kiitos selityksestäsi, mutta minulla on vielä kysymys: Entä jos minun ei tarvitse tehdä ennusteita ja haluan vain tietää, kuinka lähellä kaksi muuttujaa ovat ja mihin suuntaan / vahvuuteen? Onko näiden kahden tekniikan avulla vielä erilainen?
@yue86231 Sitten kuulostaa siltä, ​​että korrelaatiomitta olisi sopivampi.
(+1) Samankaltaisuuksiin voi olla hyödyllistä lisätä, että hypoteesin vakiotestit "korrelaatio = 0" tai vastaavasti "kaltevuus = 0" (regressiolle kummassakin järjestyksessä), kuten "lm" suorittaaja "cor.test" merkinnässä "R" tuottaa samanlaiset p-arvot.
Olen samaa mieltä siitä, että @whuber: n ehdotus olisi lisättävä, mutta mielestäni on perustason tasolla huomautettava, että regressiokaltevuuden * merkki * ja korrelaatiokerroin ovat samat.Tämä on luultavasti yksi ensimmäisistä asioista, joita useimmat ihmiset oppivat korrelaation ja "parhaiten sopivan linjan" välisestä suhteesta (vaikka he eivät vielä kutsuisi sitä "regressioksi"), mutta mielestäni se on syytä huomata.Eroihin se, että saat saman vastauskorrelaation X Y: n kanssa tai päinvastoin, mutta että Y: n regressio X: ssä on erilainen kuin X: n regressio Y: ssä, saattaa myös mainita.
#2
+36
Harvey Motulsky
2010-08-26 08:21:46 UTC
view on stackexchange narkive permalink

Tässä on vastaus, jonka lähetin graphpad.com-verkkosivustolle:

Korrelaatio ja lineaarinen regressio eivät ole samat. Harkitse näitä eroja:

  • Korrelaatio kvantifioi asteen, johon kaksi muuttujaa liittyy. Korrelaatio ei sovi riviin tietojen läpi.
  • Korrelaation kanssa sinun ei tarvitse miettiä syytä ja seurausta. Määrität yksinkertaisesti, kuinka hyvin kaksi muuttujaa liittyvät toisiinsa. Regressiossa sinun on mietittävä syy ja seuraus, koska regressioviiva määritetään parhaaksi tavaksi ennustaa Y X: stä.
  • Korrelaation avulla ei ole väliä kumpi kahdesta muuttujasta soitat "X" ja jota kutsut "Y": ksi. Saat saman korrelaatiokertoimen, jos vaihdat nämä kaksi. Lineaarisella regressiolla ratkaisulla, minkä muuttujan kutsut X: ksi ja jota kutsut Y: ksi, on paljon merkitystä, koska saat toisen parhaiten sopivan linjan, jos vaihdat nämä kaksi. Linja, joka ennustaa parhaiten Y: n X: stä, ei ole sama kuin viiva, joka ennustaa Y: n X: stä (ellei sinulla ole täydellisiä tietoja ilman sironta).
  • Korrelaatiota käytetään melkein aina, kun mitataan molempia muuttujia. Se on harvoin tarkoituksenmukaista, kun yksi muuttuja on jotain, jota kokeellisesti manipuloit. Lineaarisella regressiolla X-muuttuja on yleensä jotain, jota kokeellisesti manipuloit (aika, pitoisuus ...) ja Y-muuttuja mitataan.
"parhaalla tavalla ennustaa Y X: stä X: llä" ei ole mitään tekemistä syyn ja seurauksen kanssa: X voi olla Y: n syy tai päinvastoin. Syy voi johtua syistä seurauksiin (deduktio) tai seurauksista syihin (sieppaus).
"saat toisen parhaiten sopivan linjan, jos vaihdat nämä kaksi" on hieman harhaanjohtava;standardoidut kaltevuudet ovat samat molemmissa tapauksissa.
#3
+26
russellpierce
2010-08-26 11:37:23 UTC
view on stackexchange narkive permalink

Yhden lineaarisen regressioen ennustajan tapauksessa standardoidulla kaltevuudella on sama arvo kuin korrelaatiokertoimella. Lineaarisen regressioiden etuna on, että suhde voidaan kuvata siten, että voit ennustaa (kahden muuttujan välisen suhteen perusteella) ennustetun muuttujan pisteet, kun ennustavan muuttujan tietty arvo on määritetty. Erityisesti yksi tieto, lineaarinen regressio antaa sinulle, että korrelaatio ei ole leikkaus, ennustetun muuttujan arvo, kun ennustaja on 0.

Lyhyesti - ne tuottavat identtisiä tuloksia laskennallisesti, mutta ovat enemmän elementtejä, jotka pystyvät tulkitsemaan yksinkertaisessa lineaarisessa regressiossa. Jos olet kiinnostunut yksinkertaisesti kuvaamaan kahden muuttujan välisen suhteen suuruutta, käytä korrelaatiota - jos olet kiinnostunut ennustamaan tai selittämään tuloksiasi tietyillä arvoilla, haluat todennäköisesti regressiota.

"Erityisesti yksi tieto, lineaarinen regressio antaa sinulle, että korrelaatio ei ole leikkaus" ... Erittäin suuri ero!
No, kun katsotaan sitä, on totta, että regressio tarjoaa sieppauksen, koska se on oletusarvo monille tilastopaketeille.Regressio voidaan helposti laskea ilman sieppausta.
Kyllä, regressio voidaan helposti laskea ilman sieppausta, mutta sillä olisi harvoin merkitystä: https://stats.stackexchange.com/questions/102709/when-forcing-intercept-of-0-in-linear-regression-is-hyväksyttävä-suositeltava / 102712 # 102712
@kjetilbhalvorsen Paitsi tapauksen, jonka olen kuvannut, kun asennat standardoitua kaltevuutta.Sieppaus termi standardoidussa regressioyhtälössä on aina 0. Miksi?Koska sekä IV että DV on standardoitu yksikköpisteisiin - seurauksena leikkaus on määritelmällisesti 0. Täsmälleen tapaus, jonka kuvaat vastauksessasi. (vastaa IV: n ja DV: n standardointia).Kun sekä IV että DV on standardoitu arvoon 0, sieppaus on määritelmän mukaan 0.
#4
+13
vonjd
2018-05-05 16:05:26 UTC
view on stackexchange narkive permalink

Kaikki tähän mennessä annetut vastaukset tarjoavat tärkeitä oivalluksia, mutta ei pidä unohtaa, että voit muuttaa parametrit toisiksi:

Regressio: $ y = mx + b $

Yhteys regressioparametrien ja korrelaation, kovarianssin, varianssin, keskihajonnan ja keskiarvojen välillä: $$ m = \ frac {Cov (y, x)} {Var (x)} = \ frac {Cor (y, x) \ cdot Sd (y)} {Sd (x)} $$ $$ b = \ bar {y} -m \ bar {x} $$

Joten voit muuttaa molemmat toisiksi skaalaamalla ja siirtämällä niiden parametreja.

Esimerkki R: stä:

  y <- (4.17, 5.58, 5.18, 6.11, 4.50, 4.61, 5.17, 4.53, 5.33, 5.14)
x <- c (4,81, 4,17, 4,41, 3,59, 5,87, 3,83, 6,03, 4,89, 4,32, 4,69)
lm (y ~ x)
##
## Puhelu:
## lm (kaava = y ~ x)
##
## Kertoimet:
## (Sieppaus) x
## 6,5992 -0,3362
(m <-cov (y, x) / var (x)) # regressiokulma
## [1] -0,3362361
cor (y, x) * sd (y) / sd (x) # sama korrelaation kanssa
## [1] -0,3362361
keskiarvo (y) - m * keskiarvo (x) # sieppaus
## [1] 6.599196
 
#5
+11
syeda maryium fatima
2010-10-22 14:17:26 UTC
view on stackexchange narkive permalink

Korrelaatioanalyysi kvantifioi vain kahden muuttujan välisen suhteen ohittamalla riippuvan muuttujan ja itsenäisen muuttujan. Mutta ennen appliyng-regressiota on jouduttava arvioimaan, minkä muuttujan vaikutus toiseen muuttujaan haluat tarkistaa.

#6
+3
radia
2012-09-21 00:18:40 UTC
view on stackexchange narkive permalink

Korrelaatiosta voimme saada vain indeksin, joka kuvaa kahden muuttujan välisen lineaarisen suhteen; regressiossa voimme ennustaa useamman kuin kahden muuttujan välisen suhteen ja sen avulla tunnistaa mitkä muuttujat x voivat ennustaa tulosmuuttujan y .

#7
+3
Carlo Lazzaro
2013-12-11 17:31:42 UTC
view on stackexchange narkive permalink

Lainaten Altmanin pääosastoa "Lääketieteellisen tutkimuksen käytännön tilastot" Chapman & Hall, 1991, sivu 321: "Korrelaatio pienentää tietojoukon yhdeksi luvuksi, jolla ei ole suoraa yhteyttä todellisiin tietoihin. Regressio on paljon hyödyllisempi menetelmä, jonka tulokset liittyvät selvästi saatuun mittaukseen. Suhteen vahvuus on selkeä, ja epävarmuus voidaan nähdä selvästi luottamusvälistä tai ennustusvälistä "

Vaikka olen myötämielinen Altmanin kanssa - regressiomenetelmät ovat usein sopivampia kuin korrelaatio monissa tapauksissa, tämä lainaus asettaa olkamiehen argumentin.OLS-regressiossa tuotettu informaatio on vastaava kuin korrelaatiolaskennassa käytettävät tiedot (kaikki ensimmäinen ja toinen kaksimuuttujamomentti ja niiden standardivirheet), ja korrelaatiokerroin antaa samat tiedot kuin regressiokaltevuus.Nämä kaksi lähestymistapaa eroavat toisistaan jonkin verran olettamiensa tietomallien ja tulkinnan suhteen, mutta eivät Altmanin väittämillä tavoilla.
#8
+1
Kanon Das Zinku
2014-10-22 21:57:46 UTC
view on stackexchange narkive permalink

Regressioanalyysi on tekniikka kahden muuttujan välisen suhteen seurauksen selvittämiseksi. Korrelaatioanalyysi on tekniikka, jolla tutkitaan kahden muuttujan välisen suhteen kvantifiointia.

Tervetuloa CV: hen!Ottaen huomioon, että vastauksia tähän kysymykseen on jo niin paljon, haluatko tutustua niihin ja nähdä, lisääkö sinun jotain uutta?Jos sinulla on enemmän sanottavaa, voit muokata sitä tekemään niin.
#9
  0
Jdub
2012-06-20 00:51:58 UTC
view on stackexchange narkive permalink

Korrelaatio on suhteen vahvuuden indeksi (vain yksi luku). Regressio on analyysi (mallin parametrien arviointi ja niiden tilastollinen tilastollinen testi) tietyn toiminnallisen suhteen riittävyydestä. Korrelaation koko riippuu siitä, kuinka tarkkoja regressioennusteet ovat.

Ei se ei ole.Korrelaatio antaa meille rajoitetun suhteen, mutta se ei liity siihen, kuinka tarkat ennusteet voivat olla.R2 antaa sen.
#10
-3
shakir sabir
2014-08-14 13:28:47 UTC
view on stackexchange narkive permalink

Korrelaatio on termi tilastoissa, joka määrittää, onko näiden kahden välillä yhteys ja sitten suhteiden aste. Sen alue on välillä -1 - +1. Regressio tarkoittaa paluuta kohti keskiarvoa. Regressiosta ennustamme arvon pitämällä yhden muuttujan riippuvaisena ja toisen riippumattomana, mutta pitäisi olla selvää, minkä muuttujan arvon haluamme ennustaa.

Hei, @shakir, ja tervetuloa Cross Validatediin!Luultavasti huomasit, että tämä on vanha kysymys (vuodelta 2010), ja siihen on jo annettu seitsemän (!) Vastausta.Olisi hyvä varmistaa, että uusi vastauksesi lisää keskusteluun jotain tärkeää, jota ei ole aiemmin käsitelty.Tällä hetkellä en ole varma, että näin on.


Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 2.0-lisenssistä, jolla sitä jaetaan.
Loading...