Lineaarisessa mallissa $ y = \ beta_0 + x \ beta + \ varepsilon $ kutistumistermi on aina $ P (\ beta) $.
Mistä syystä emme pienennä puolueellisuuden termiä $ \ beta_0 $? Pitäisikö meidän pienentää ennakkoluuloja hermoverkkomalleissa?
Lineaarisessa mallissa $ y = \ beta_0 + x \ beta + \ varepsilon $ kutistumistermi on aina $ P (\ beta) $.
Mistä syystä emme pienennä puolueellisuuden termiä $ \ beta_0 $? Pitäisikö meidän pienentää ennakkoluuloja hermoverkkomalleissa?
Tilastollisen oppimisen elementit , kirjoittanut Hastie et al. määritä harjanteen regressio seuraavasti (jakso 3.4.1, yhtälö 3.41): $$ \ hat \ beta {} ^ \ mathrm {ridge} = \ underset {\ beta} {\ mathrm {argmin}} \ left \ {\ sum_ { i = 1} ^ N (y_i - \ beta_0 - \ sum_ {j = 1} ^ p x_ {ij} \ beta_j) ^ 2 + \ lambda \ sum_ {j = 1} ^ p \ beta_j ^ 2 \ oikea \} , $$ ts. sulkevat nimenomaisesti sieppaustermin $ \ beta_0 $ harjanteen rangaistuksesta.
Sitten he kirjoittavat:
[...] huomaavat, että sieppaus $ \ beta_0 $ on jätetty rangaistuksen ulkopuolelle. Sieppauksen rangaistus tekisi menettelyn riippuvaiseksi alkuperälle, joka on valittu $ Y $: lle; ts. vakion $ c $ lisääminen kuhunkin kohteeseen $ y_i $ ei yksinkertaisesti johtaisi ennusteiden siirtymiseen samalla määrällä $ c $.
Todellakin, Sieppaustermin läsnäolo, lisäämällä $ c $ kaikkiin $ y_i $: iin yksinkertaisesti johtaa siihen, että $ \ beta_0 $ kasvaa myös $ c $: lla ja vastaavasti kaikki ennustetut arvot $ \ hat y_i $ kasvavat myös $ c $: lla. Tämä ei pidä paikkaansa, jos sieppauksesta rangaistaan: $ \ beta_0 $ täytyy kasvaa alle $ c $.
Itse asiassa lineaarisella regressiolla on useita mukavia ja käteviä ominaisuuksia, jotka riippuvat sen olemassaolosta oikea (avaamaton) sieppausaika. Esim. $ y_i $: n keskiarvo ja $ \ hat y_i $: n keskiarvo ovat yhtä suuret, ja (tästä syystä) korrelaatiokerroin neliön neliössä $ R $ on yhtä suuri kuin määrityskerroin $ R ^ 2 $: $$ (R) ^ 2 = \ cos ^ 2 (\ hattu {\ mathbf y}, \ mathbf y) = \ frac {\ | \ hattu {\ mathbf y} \ | ^ 2} {\ | \ mathbf y \ | ^ 2} = R ^ 2, $$ katso esim tämä säike selitykseen: Useiden korrelaatiokertoimien $ R $ ja määrityskertoimien $ R ^ 2 $ geometrinen tulkinta.
Sieppauksen rangaistus johtaisi siihen, että kaikkea tätä ei olisi totta enää.
Muista kutistumisen tai laillistamisen tarkoitus. Tarkoituksena on estää oppimisalgoritmi sopimasta liikuntatiedot tai vastaavasti - estää mielivaltaisesti suurten parametriarvojen valitseminen. Tämä on todennäköisempää aineistoille, joissa on enemmän kuin muutama harjoitteluesimerkki melun läsnä ollessa (erittäin mielenkiintoinen keskustelu melun esiintymisestä ja sen vaikutuksista on käsitelty Yaser Abu-Mustafan julkaisussa "Learning from Data"). Meluisasta datasta opittu malli ilman laillistamista toimii todennäköisesti huonosti joillakin näkymättömillä datapisteillä.
Tässä mielessä kuvitellaan, että sinulla on 2D-datapisteitä, jotka haluat luokitella kahteen luokkaan. Kun kaikki muut kuin bias-parametrit on korjattu, bias-termin vaihtelu vain siirtää rajaa ylös tai alas. Voit yleistää tämän suuremman ulottuvuuden tilaan.
Oppimisalgoritmi ei voi asettaa mielivaltaisesti suuria arvoja ennakkoarvolle, koska tämä johtaa mahdollisesti bruttohäviöarvoon (malli ei sovi harjoitustietoihin). Toisin sanoen tietyn harjoittelusarjan perusteella et (tai oppimisalgoritmi) ei voi siirtää tasoa mielivaltaisesti kauas todellisesta.
Joten ei ole mitään syytä pienentää ennakkoarvotermiä, oppimisalgoritmia löytää hyvän ilman ylirasituksen vaaraa.
Viimeinen huomautus: Eräässä artikkelissa huomasin, että työskennellessäsi suuriaulotteisissa tiloissa luokitusta varten, ei ole tiukkaa tarvetta mallita ennakkoluuloja. Tämä saattaa toimia lineaarisesti erotettavissa olevan datan kohdalla, koska lisäämällä enemmän ulottuvuuksia on enemmän mahdollisuuksia erottaa nämä kaksi luokkaa.
Sieppausaika ei ole ehdottomasti immuuni kutistumiselle. Yleinen "kutistumisen" (eli laillistamisen) muotoilu asettaa laillistustermin häviöfunktioon, esimerkiksi:
$ RSS (\ beta) = \ | y_i - X_i \ beta \ | ^ 2 $
$ RegularizedLoss (\ beta) = RSS (\ beta) - \ lambda f (\ beta) $
Missä $ f (\ beta) $ liittyy yleensä lebesgue-normiin ja $ \ lambda $ on skalaari, joka kontrolloi kuinka paljon painoa laskemme kutistumistermiin.
Laittamalla kutistumistermi menetysfunktioon näin, se vaikuttaa kaikkiin mallin kertoimet. Epäilen, että kysymyksesi syntyy sekaannuksesta merkinnöissä, joissa $ \ beta $ (muodossa $ P (\ beta) $) on kaikkien kertoimien vektori, mukaan lukien $ \ beta_0 $. Lineaarinen mallisi olisi todennäköisesti kirjoitettu paremmin nimellä $ y = X \ beta + \ epsilon $, jossa $ X $ on "suunnittelumatriisi". Tarkoitan, että se on sinun tietosi, ja $ 1: n sarake $ on vasemmalla käden puolella (ottaa sieppaus).
En voi nyt puhua hermoverkkojen laillistamisesta. On mahdollista, että hermoverkoissa haluat välttää esijännitteen kutistumisen tai suunnitella muuten laillistettu häviöfunktio eri tavalla kuin edellä kuvattu formulaatio. En vain tiedä. Epäilen kuitenkin vahvasti, että painot ja ennakkoluulot ovat laillistettu yhdessä.
En ole varma, että David Marxin yllä oleva vastaus on aivan oikea; Andrew Ng: n mukaan bias / intercept-kerrointa ei yleensä soviteta lineaarisessa regressiossa, eikä missään tapauksessa ole, onko se laillistettu vai ei, ole merkittävää eroa.
Annan yksinkertaisimman selityksen ja laajennan sitten.
Oletetaan, että kutistut nollaan, niin mallistasi tulee käytännössä: $$ y_t = \ varepsilon_t $$ Vain yksi ongelma tässä mallissa: $ E [\ varepsilon_t] = E [y_t] \ ne 0 $, mikä rikkoo lineaarisen regression eksogeenisuusoletusta. Arvioiduilla kertoimilla ei siis ole hyviä ominaisuuksia, kuten puolueettomuutta.
Tämä osoittaa sieppauksen päätarkoituksen: vangita keskiarvo. Mielestäni monet ihmiset eivät ymmärrä sieppauksen merkitystä lineaarisessa regressiossa. Sitä katsotaan usein alaspäin ennustajan "todellisen" $ \ beta $: n vähemmän seksikkääksi pikkuveljeksi. Kuten tiedät "regressiosta alkuperän kautta", leikkauksen pudottaminen mallista johtaa usein ei-toivottuihin seurauksiin.
Täydellisyyden vuoksi, jos kutistat kaikki vilpittömät kertoimet $ \ beta $ ja pidät sieppauksen $ \ beta_0 $ poissa, saat tämän: $$ y_t = \ beta_0 + \ varepsilon_t $$ $$ E [y_t] = \ beta_0 + E [\ varepsilon_t] $$ Täällä meillä on edelleen $ E [\ varepsilon_t] = 0 $, koska sieppaus tallentaa datan keskiarvon $ \ beta_0 = \ mu = E [y_t] $.
Tämä malli ei ole yhtä seksikäs kuin alkuperäinen malli, se on itse asiassa melko typerä. Se on kuitenkin legitiimi malli. Voit käyttää sitä esimerkiksi ANOVA: lla.
Lopuksi sinun on pidettävä sieppaus poissa kutistumiselta, jotta se tekee tarkoituksensa: kuvaa sarjan keskiarvo $ \ beta_0 = E [y_t] $