Kysymys:
Miksi hypoteesien testauksessa käytetään T-jakaumaa lineaarisen regressiokertoimen avulla?
Nate Parke
2017-06-19 23:18:38 UTC
view on stackexchange narkive permalink

Käytännössä tavallisen T-testin käyttäminen lineaarisen regressiokertoimen merkityksen tarkistamiseksi on yleistä käytäntöä.Laskennan mekaniikka on mielestäni järkevää.

Miksi T-jakaumaa voidaan käyttää lineaarisen regressiohypoteesin testauksessa käytetyn standarditestitestin mallintamiseen?Tavallinen testitilasto, johon viittaan tässä:

$$ T_ {0} = \ frac {\ widehat {\ beta} - \ beta_ {0}} {SE (\ widehat {\ beta})} $$

Täydellinen ja täydellinen vastaus tähän kysymykseen on melko pitkä, olen varma.Joten kun odotat jonkun ratkaisevan tämän, saat melko hyvän käsityksen siitä, miksi näin on, katsomalla joitain muistiinpanoja, jotka löysin verkosta täältä: https://onlinecourses.science.psu.edu/stat501/node/297.Huomaa erityisesti, että $ t ^ 2 _ {(n − p)} = F _ {(1, n − p)} $.
En voi uskoa, että tämä ei ole kopio, ja silti kaikki myönteiset äänet (sekä kysymyksestä että vastauksista) ... Entä [tämä] (https://stats.stackexchange.com/questions/117406/proof-that-kertoimet-in-ols-mallissa-seurata-jakelussa-nkd)?Tai ehkä se ei ole kaksoiskappale, mikä tarkoittaa, että on (tai oli tähän päivään asti) superperusaiheita, joita ei ole vielä käsitelty ristiin validoidun lähes seitsemän vuoden aikana ... Vau ...
@RichardHardy Hmm, se kuulostaa kaksoiskappaleelta.Vaikka se on tarkempi, kysymys on nimenomaan: _ "Kuinka voin todistaa, että $ \ hat \ beta_i $, $ \ frac {\ hat {\ beta} _i - \ beta_i} {s _ {\ hat {\ beta} _i}} \ sim t_ {n-k} $ "_
Kaksi vastused:
francium87d
2017-06-19 23:48:17 UTC
view on stackexchange narkive permalink

Ymmärtääksesi miksi käytämme t-jakaumaa, sinun on tiedettävä, mikä on $ \ widehat {\ beta} $: n ja jäännösneliösumman ($ RSS $) taustalla oleva jakauma, koska nämä kaksi yhdessä antavat sinulle t-jakauma.

Helpompi osa on $ \ widehat {\ beta} $: n jakelu, joka on normaalijakauma - nähdäksesi tämän huomautuksen, että $ \ widehat {\ beta} $ = $ (X ^ {T} X) ^ {- 1} X ^ {T} Y $, joten se on $ Y $ lineaarinen funktio missä $ Y \ sim N (X \ beta, \ sigma ^ {2} I_ {n}) $. Tämän seurauksena se on myös normaalisti jaettu, $ \ widehat {\ beta} \ sim N (\ beta, \ sigma ^ {2} (X ^ {T} X) ^ {- 1}) $ - ilmoita minulle, jos tarvitsevat apua $ \ widehat {\ beta} $: n jakauman johtamiseen.

Lisäksi $ RSS \ sim \ sigma ^ {2} \ chi ^ {2} _ {n-p} $, jossa $ n $ on havaintojen määrä ja $ p $ on regressiossasi käytettyjen parametrien määrä. Todiste tästä on hieman enemmän mukana, mutta myös suoraviivainen (katso todiste täältä Miksi RSS on jaettu chi-neliö kertaa n-p?).

Tähän asti olen tarkastellut kaikkea matriisi / vektorimerkinnässä, mutta käytämme yksinkertaisuuden vuoksi $ \ widehat {\ beta} _ {i} $ ja sen normaalijakaumaa, joka antaa meille: \ begin {yhtälö} \ frac {\ widehat {\ beta} _ {i} - \ beta_ {i}} {\ sigma \ sqrt {(X ^ {T} X) ^ {- 1} _ {ii}}} \ sim N (0 , 1) \ end {yhtälö}

Lisäksi $ RSS $: n khi-neliöjakaumasta on seuraava: \ begin {yhtälö} \ frac {(n-p) s ^ {2}} {\ sigma ^ {2}} \ sim \ chi ^ {2} _ {n-p} \ end {yhtälö}

Tämä oli yksinkertaisesti ensimmäisen chi-neliön lausekkeen uudelleenjärjestely ja on riippumaton $ N (0,1) $: sta. Lisäksi määritellään $ s ^ {2} = \ frac {RSS} {n-p} $, joka on puolueeton estimaatti mallille $ \ sigma ^ {2} $. $ T_ {np} $ -määrityksen määritelmän mukaan normaalijakauman jakaminen itsenäisellä khi-neliöllä (sen vapausasteiden yli) antaa sinulle t-jakauman (todiste: Normaali jaettuna $ \ sqrt {\ chi ^ 2 (s) / s} $ antaa sinulle t-jakauman - todistuksen), että:

\ begin {yhtälö} \ frac {\ widehat {\ beta} _ {i} - \ beta_ {i}} {s \ sqrt {(X ^ {T} X) ^ {- 1} _ {ii}}} \ sim t_ {n-p} \ end {yhtälö}

Missä $ s \ sqrt {(X ^ {T} X) ^ {- 1} _ {ii}} = SE (\ widehat {\ beta} _ {i}) $.

Kerro minulle, onko sillä järkeä.

mikä loistava vastaus!voisitko selittää miksi \ alkaa {yhtälö} \ frac {\ widehat {\ beta} _ {i} - \ beta_ {i}} {\ sigma \ sqrt {(X ^ {T} X) ^ {- 1} _ {ii}}} \ sim N (0, 1) \ end {yhtälö}?
se ei ole muuta kuin normalisointi, esim. $ \ frac {\ bar {x} - \ mu} {\ sigma / \ sqrt {n}} $.francium87d antoi jo $ \ beta $ s -jakauman.
Aksakal
2017-06-20 00:03:37 UTC
view on stackexchange narkive permalink

Vastaus on itse asiassa hyvin yksinkertainen: käytät t-jakelua, koska se on suunnilleen suunniteltu nimenomaan tätä tarkoitusta varten.

Ok, tässä on vivahde, että sitä ei ole suunniteltu erityisesti lineaariselle regressiolle. Gosset esitti populaatiosta otetun näytteen jakamisen. Piirrät esimerkiksi mallin $ x_1, x_2, \ pisteet, x_n $ ja lasket sen keskiarvon $ \ bar x = \ sum_ {i = 1} ^ n x_i / n $. Mikä on keskiarvon $ \ bar x $ jakauma?

Jos tiesit todellisen (populaation) keskihajonnan $ \ sigma $, sanoisit, että muuttuja $ \ xi = (\ bar x- \ mu) \ sqrt n / \ sigma $ on normaalista normaalista jakauma $ \ mathcal N (0,1) $. Ongelma on, että et yleensä tiedä $ \ sigma $, ja pystyt vain arvioimaan sen $ \ hat \ sigma $. Joten Gosset selvitti jakelun, kun korvaat $ \ sigma $: lla $ \ hat \ sigma $ nimittäjässä, ja jakelua kutsutaan nyt hänen nimimerkkinään "Student t".

Lineaarisen regression tekniset yksityiskohdat johtavat tilanteeseen, jossa voimme arvioida kerroinestimaatin $ \ hat \ sigma_ \ beta $ keskivirheen $ \ hat \ sigma_ \ beta $, mutta emme tiedä todellista $ \ sigma $ -arvoa, siksi opiskelijoiden t-jakaumaa sovelletaan myös tässä.



Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 3.0-lisenssistä, jolla sitä jaetaan.
Loading...