Kysymys:
Onko mitään syytä suosia AIC: tä tai BIC: tä muihin nähden?
russellpierce
2010-07-24 01:49:12 UTC
view on stackexchange narkive permalink

AIC ja BIC ovat molemmat menetelmät mallin sopivuuden arvioimiseksi, ja niistä rangaistaan ​​arvioitujen parametrien lukumäärän perusteella. Ymmärtääkseni BIC rankaisee malleja enemmän ilmaisparametreista kuin AIC. Onko kriteerien tiukkuuteen perustuvan mieltymyksen lisäksi muita syitä suosia AIC: tä BIC: n sijaan tai päinvastoin?

Mielestäni on tarkoituksenmukaisempaa kutsua tätä keskustelua ominaisuusvalinnaksi tai kovariaattivalinnaksi. Minulle mallivalinta on paljon laajempi, mikä sisältää virheiden jakautumisen, linkkitoiminnon muodon ja kovariaattien muodon määrittelyn. Kun puhumme AIC: stä / BIC: stä, olemme tyypillisesti tilanteessa, jossa kaikki mallinrakennuksen näkökohdat ovat kiinteät, paitsi kovariaattien valinta.
Päätös tietyistä kovariaateista sisällyttää malliin kulkee yleensä termillä mallivalinta, ja otsikossa on useita kirjoja, joissa on mallin valinta, jotka ensisijaisesti päättävät, minkä mallin kovariaatit / parametrit sisällytetään malliin.
En tiedä, koskeeko kysymyksesi nimenomaan filogeeniaa (bioinformatiikkaa), mutta jos on, tämä tutkimus voi antaa ajatuksia tästä näkökulmasta: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2925852/
[Yhdistetty kysymys kysyy myös osaamis- ja innovaatioyhteisöstä] (https://stats.stackexchange.com/questions/15621/interpretation-of-aic-bic-and-kic?noredirect=1&lq=1), päivitä kysymyksen teksti ja ilmoitaosaamis- ja innovaatioyhteisön määritelmä, pref linkillä.
Olen hylännyt osaamis- ja innovaatioyhteisön muokkauksen, koska se ei vastaa nykyistä kysymystä ja tekee nykyisistä vastauksista puutteellisia.Kysymys osaamis- ja innovaatioyhteisöistä voidaan avata erikseen, jotta osaamis- ja innovaatioyhteisöt voidaan verrata AIC: hen tai BIC: ään.Tällöin täsmennä myös mikä osaamis- ja innovaatioyhteisö (koska kyseiseen lyhenteeseen vastaa useita tietokriteerejä).
@russellpierce: En ole se OP, mutta kuten näitte, sitä jo kysyttiin (ilman osaamis- ja innovaatioyhteisön määritelmää) ja se sulautui tähän.Etsin jopa osaamis- ja innovaatioyhteisön määritelmiä, mutta en löytänyt hyvää.Voitteko ainakin linkittää joitain tänne?
@smci Olen lisännyt https://stats.stackexchange.com/questions/383923/what-is-the-most-common-kic-how-does-it-work, jotta ihmiset voivat kaivaa osaamis- ja innovaatioyhteisöön liittyviä kysymyksiä, joskiinnostunut.
Kaksitoista vastused:
#1
+189
Dave Kellen
2010-07-27 17:31:57 UTC
view on stackexchange narkive permalink

Kysymyksesi tarkoittaa, että AIC ja BIC yrittävät vastata samaan kysymykseen, mikä ei ole totta. AIC yrittää valita mallin, joka kuvaa parhaiten tuntematonta, korkean ulottuvuuden todellisuutta. Tämä tarkoittaa, että todellisuus ei ole koskaan harkittavissa olevissa ehdokasmalleissa. Päinvastoin, BIC yrittää löytää TOSI-mallin ehdokkaiden joukosta. Minusta on varsin outoa oletus, että todellisuus on ilmentynyt yhdessä mallista, jonka tutkijat rakensivat matkan varrella. Tämä on todellinen ongelma BIC: lle.

On kuitenkin monia tutkijoita, jotka sanovat, että BIC on parempi kuin AIC, käyttäen argumenttina mallien palautussimulaatioita. Nämä simulaatiot koostuvat datan tuottamisesta malleista A ja B ja molempien tietojoukkojen sovittamisesta sitten kahteen malliin. Yliasennus tapahtuu, kun väärä malli sopii dataan paremmin kuin tuottava. Näiden simulaatioiden tarkoituksena on nähdä, kuinka hyvin AIC ja BIC korjaavat nämä ylivarusteet. Yleensä tulokset viittaavat siihen, että AIC on liian liberaali ja suositsee silti usein monimutkaisempaa, väärää mallia yksinkertaisemman, todellisen mallin sijaan. Ensi silmäyksellä nämä simulaatiot näyttävät olevan todella hyviä argumentteja, mutta ongelmana on, että ne ovat merkityksettömiä AIC: lle. Kuten sanoin aiemmin, AIC ei katso, että mikään testattavista ehdokasmalleista olisi todella totta. AIC: n mukaan kaikki mallit ovat likiarvoja todellisuuteen, eikä todellisuus saa koskaan olla alhainen. Ainakin alhaisempi kuin jotkut ehdokasmallit.

Suosittelen käyttämään sekä AIC: tä että BIC: ää. Useimmiten he sopivat suositellusta mallista, kun eivät, vain ilmoittavat siitä.

Jos olet tyytymätön sekä AIC: hen että BIC: ään ja sinulla on vapaa-aikaa sijoittaa, etsi Minimum Description Length (MDL), täysin erilainen lähestymistapa, joka poistaa AIC: n ja BIC: n rajoitukset. MDL: stä johtuu useita toimenpiteitä, kuten normalisoitu suurin todennäköisyys tai Fisher Informationin lähentäminen. MDL: n ongelma on sen matemaattisesti vaativa ja / tai laskennallisesti intensiivinen.

Jos kuitenkin haluat pitää kiinni yksinkertaisista ratkaisuista, hyvä tapa arvioida mallin joustavuutta (varsinkin kun parametrien määrä on sama, jolloin AIC ja BIC ovat hyödyttömiä) on Parametric Bootstrap, mikä on melko helppoa toteuttaa. Tässä on linkki siihen liittyvään artikkeliin.

Jotkut täällä kannattavat ristivalidoinnin käyttöä. Henkilökohtaisesti olen käyttänyt sitä ja minulla ei ole mitään sitä vastaan, mutta ongelmana on, että valinta näytteen leikkaussäännön joukosta (jätä yksi ulos, K-taitto jne.) On periaatteeton.

Eroa voidaan tarkastella puhtaasti matemaattisesta näkökulmasta - BIC johdettiin log P: n (data) asymptoottisena laajenemisena, jossa todelliset malliparametrit otetaan näytteistä mielivaltaisen, mihinkään ei kadonnut aikaisemmin, AIC johdettiin samalla tavalla todellisten parametrien ollessa kiinteät
Sanoit, että "on monia tutkijoita, jotka sanovat, että BIC on parempi kuin AIC, käyttäen argumenttina mallien palautussimulaatioita. Nämä simulaatiot koostuvat tietojen tuottamisesta malleista A ja B ja sitten molempien tietojoukkojen sovittamisesta kahteen malliin." Olisitko niin ystävällinen osoittamaan joitain viitteitä. Olen utelias heistä! :)
En usko tämän viestin väitteitä.
En ole täysin samaa mieltä Daven kanssa etenkin siitä, että tavoitteet ovat erilaiset. Luulen, että molemmat menetelmät näyttävät löytävän mallille hyvän ja jossain mielessä optimaalisen muuttujien joukon. Emme käytännössä koskaan oleta, että voimme rakentaa "täydellisen" mallin. Luulen, että puhtaasti todennäköisyydellisessä mielessä, jos oletetaan, että on olemassa "oikea" malli, BIC on johdonmukainen ja AIC ei. Tällä matemaattiset tilastotieteilijät tarkoittavat, että otoksen koon kasvaessa äärettömyyteen BIC löytää sen todennäköisyydellä 1.
Luulen, että siksi jotkut ihmiset ajattelevat, että AIC ei tarjoa tarpeeksi ankaraa rangaistusta.
(-1) Suuri selitys, mutta haluaisin kyseenalaistaa väitteen. @Dave Kellen Voisitteko antaa viitteen mihin ajatus siitä, että TOSI-mallin on oltava BIC-sarjassa? Haluaisin tutkia asiaa, koska [tässä kirjassa] (http://books.google.es/books/about/Model_Selection_and_Multimodel_Inference.html?id=BQYR6js0CC8C&redir_esc=y) kirjoittajat antavat vakuuttavan todistuksen siitä, että tämä ei ole tapauksessa.
Nämä diat http://myweb.uiowa.edu/cavaaugh/ms_lec_2_ho.pdf sanovat, että AIC olettaa, että generoiva malli kuuluu ehdokasmallien joukkoon.
keskustelu @gui11aume:: n kommentista http://stats.stackexchange.com/questions/205222/does-bic-try-to-find-a-true-model
Kun tutkitaan AIC-todistusta, todellisen mallin on oltava voimassa, jotta rangaistusaika on yhtä suuri kuin lineaarisesti riippumattomien parametrien määrä.Muuten se on yhtä suuri kuin $ \ text {Trace} (J ^ {- 1} I) $, jossa $ J $ on pistemäärän varianssi, ja $ I $ on lokitodennäköisyyden hessianin odotus.odotukset, jotka arvioidaan totuuden perusteella, mutta log-todennäköisyydet ovat väärin määritellystä mallista.En ole varma, miksi monet lähteet kommentoivat, että AIC on riippumaton totuudesta.Minulla oli myös tämä vaikutelma, kunnes olen todella työskennellyt johdon läpi.
Erinomainen vastaus, mutta olen täysin eri mieltä väitteestä "todellisuuden ei pitäisi koskaan olla matalan ulottuvuuden".Tämä riippuu siitä, mihin "tieteeseen" käytät yoru-malleja
#2
+83
John L. Taylor
2010-07-24 05:07:07 UTC
view on stackexchange narkive permalink

Vaikka AIC ja BIC ovat molemmat suurimman todennäköisyyden estimaatin mukaisia ​​ja rankaisevat ilmaisia ​​parametreja yrittäessään torjua liikaa sopimista, ne tekevät sen tavalla, joka johtaa huomattavasti erilaisiin käyttäytymisiin. Tarkastellaan yhtä yleisesti esitettyä menetelmäversiota (jonka tulokset muodostavat normaalisti jakautuneet virheet ja muut hyvin käyttäytyvät oletukset):

  • AIC = -2 * ln (todennäköisyys ) + 2 * k,

ja

  • BIC = -2 * ln (todennäköisyys) + ln (N) * k,

missä:

  • k = mallin vapausasteet
  • N = havaintojen määrä

Ryhmän paras vertailumalli on malli, joka minimoi nämä pisteet molemmissa tapauksissa. On selvää, että AIC ei riipu suoraan otoksen koosta. Lisäksi yleisesti ottaen AIC aiheuttaa vaaran siitä, että se saattaa ylivarustaa, kun taas BIC aiheuttaa vaaran siitä, että se voi alikäyttää, yksinkertaisesti sen perusteella, miten ne rankaisevat vapaita parametreja (2 * k AIC: ssä; ln (N) * k BIC: ssä). Diakronisesti, kun tietoja lisätään ja pisteet lasketaan uudelleen, suhteellisen matalalla N: llä (7 ja vähemmän) BIC sietää vapaita parametreja paremmin kuin AIC, mutta vähemmän suvaitsevaa korkeammalla N (koska N: n luonnollinen logaritmi voittaa 2). p>

Lisäksi AIC pyrkii löytämään parhaan likimääräisen mallin tuntemattomaan tiedonkehitysprosessiin (minimoimalla arvioitu arvioitu KL-divergenssi). Sellaisena se ei lähene todennäköisyydestä todelliseen malliin (olettaen, että yksi on läsnä arvioidussa ryhmässä), kun taas BIC lähentyy, kun N pyrkii äärettömään.

Joten, kuten monissa metodologisissa kysymyksissä, jotka on suositeltava riippuu siitä, mitä yrität tehdä, mitä muita menetelmiä on käytettävissä, ja onko jokin hahmoteltuista ominaisuuksista (lähentyminen, suhteellinen suvaitsevaisuus vapaiden parametrien suhteen, minimoiden odotettavissa olevat KL-erot) vai ei, puhuuko tavoitteillesi.

mukava vastaus. AIC: n ja BIC: n mahdollinen vaihtoehtoinen vaihtoehto on, että AIC: n mukaan "väärät vaikutukset" eivät tule helpommin havaittaviksi otoksen koon kasvaessa (tai että emme välitä, jos väärät vaikutukset tulevat malliin), BIC sanoo, että he tekevät. Voi nähdä OLS: n näkökulmasta, kuten Rafteryn vuonna 1994 julkaisemassa, vaikutuksesta tulee AIC: ssä suunnilleen "merkittävä" (ts. Suositellaan suurempaa mallia), jos sen t-tilasto on suurempi kuin $ | t |> \ sqrt {2} $, BIC, jos sen t- tilasto on suurempi kuin $ | t |> \ sqrt {log (n)} $
Hyvä vastaus, +1. Pidän erityisesti varoituksesta siitä, onko todellinen malli todella läsnä arvioidussa ryhmässä. Väitän, että "todellinen malli" ei ole _ koskaan olemassa. (Box & Draper sanoi, että "kaikki mallit ovat vääriä, mutta jotkut ovat hyödyllisiä", ja Burnham & Anderson kutsuvat tätä "kapeneviksi vaikutuskokoiksi".) Siksi minua ei vaikuta BIC: n lähentyminen epärealististen oletusten perusteella ja enemmän AIC: n tavoite parhaalla mahdollisella arvolla niiden mallien joukossa, joita todella tarkastelemme.
#3
+73
Rob Hyndman
2010-07-24 08:58:58 UTC
view on stackexchange narkive permalink

Nopea selitykseni on

  • AIC on paras ennustamiseen, koska se vastaa asymptoottisesti ristivalidointia.
  • BIC on paras selitys, koska se mahdollistaa johdonmukaisen arvioinnin datan luomisen prosessista.
AIC vastaa K-kertaista ristivalidointia, BIC vastaa jätä yksi-yksi ristiin-validointia. Silti molemmat lauseet ovat voimassa vain lineaarisen regressiotapauksen yhteydessä.
mbq, se on AIC / LOO (ei LKO tai K-kertainen), enkä usko, että Stone 1977: n todiste perustuisi lineaarisiin malleihin. En tiedä BIC-tuloksen yksityiskohtia.
ars on oikea. Se on AIC = LOO ja BIC = K-kertainen, missä K on monimutkainen otoskoon funktio.
Onnittelut, olet saanut minut; Olin kiireessä kirjoittamassa sitä ja joten tein tämän virheen, ilmeisesti näin Rob kirjoitti. Neverthelss se on vuodelta Shao 1995, jossa oletettiin, että malli on lineaarinen. Analysoin Stone, silti luulen, että sinulla, ars, voi olla oikeassa, koska alallani LOO: lla on yhtä huono maine kuin erilaisilla * IC: llä.
Wikipedian kuvaus (http://fi.wikipedia.org/wiki/Cross-validation_(statistics)#K-fold_cross-validation) tekee vaikutelman, että K-kertainen ristivalidointi on tavallaan kuin toistuva simulaatio parametrien vakaus. Ymmärrän, miksi AIC: n odotetaan olevan vakaa LOO: n kanssa (koska LOO voidaan helposti suorittaa tyhjentävästi), mutta en ymmärrä, miksi BIC olisi vakaa K-kertaisella, ellei K ole myös tyhjentävä. Tekeekö K: n arvon taustalla oleva kompleksinen kaava tyhjentävän? Vai tapahtuuko jotain muuta?
BIC vastaa myös ristivalidointia, mutta "oppimisen" tyyppistä ristivalidointia. BIC: n osalta CV-menettely on ennustaa ensimmäinen havainto ilman tietoja (pelkkä ennakkotieto). Sitten "opi" ensimmäisestä havainnosta ja ennusta toinen. Ota sitten oppia ensimmäisestä ja toisesta ja ennusta kolmas ja niin edelleen. Tämä pätee edustus $ p (D_1 \ pisteet D_n | MI) = p (D_1 | MI) \ prod_ {i = 2} ^ {n} p (D_i | D_1 \ pisteet D_ {i-1} MI) vuoksi $
#4
+17
Frank Harrell
2011-04-30 07:01:02 UTC
view on stackexchange narkive permalink

Kokemukseni mukaan BIC johtaa vakavaan vajaakuntoisuuteen ja AIC toimii yleensä hyvin, kun tavoitteena on maksimoida ennakoiva syrjintä.

Erittäin viivästynyt, mutta koska tämä on edelleen Google-listalla, haluatko tarkentaa, millä alueella työskentelet?Olen vain utelias, jos verkkotunnuksella on jokin vaikutus, jota meidän pitäisi tarkastella.
@verybadatthis:: n kliininen biostatistiikka (vain google "Frank Harrell", hänellä on läsnäolo verkossa)
#5
+13
NRH
2011-04-30 10:49:45 UTC
view on stackexchange narkive permalink

Brian Ripleyn informatiivinen ja saatavilla oleva AIC: n ja BIC: n "johdannainen" löytyy täältä: http://www.stats.ox.ac.uk/~ripley/Nelder80.pdf

Ripley antaa joitain huomautuksia matemaattisten tulosten taustalla olevista oletuksista. Toisin kuin jotkut muut vastaukset osoittavat, Ripley korostaa, että AIC perustuu oletukseen, että malli on totta. Jos malli ei ole totta, yleinen laskelma paljastaa, että "parametrien lukumäärä" on korvattava monimutkaisemmalla määrällä. Jotkut viitteet on annettu Ripleys-dioissa. Huomaa kuitenkin, että lineaariselle regressiolle (tarkalleen ottaen tunnetulla varianssilla) yleensä monimutkaisempi määrä yksinkertaistuu yhtä suureksi kuin parametrien lukumäärä.

(+1) Ripley on kuitenkin väärässä siinä vaiheessa, kun hän sanoo, että mallit on oltava sisäkkäin. Ei ole tällaista rajoitusta Akaiken alkuperäiselle johdannolle tai, selvemmin sanottuna, johdolle, joka käyttää AIC: tä Kullback-Leibler-divergenssin estimaattorina. Itse asiassa paperissa, jonka parissa työskentelen, osoitan jonkin verran "empiirisesti", että AIC: tä voidaan käyttää jopa kovarianssirakenteiden mallivalinnassa (eri parametrien lukumäärä, selvästi ei-sisäkkäiset mallit). Tuhansista aikasarjojen simulaatioista, joita juoksin eri kovarianssirakenteilla, AIC ei mene väärin ...
... jos "oikea" malli on tosiasiallisesti mallisarjassa (tämä tarkoittaa kuitenkin myös sitä, että malleissa, joita työskentelen, estimaattorin varianssi on hyvin pieni ... mutta se on vain tekninen yksityiskohta).
@Néstor, olen samaa mieltä. Kohta sisäkkäisten mallien suhteen on outo.
Kun kovarianssirakenteita valitaan pituussuuntaiselle tiedolle (sekoitetut mallit tai yleistetyt pienimmät neliöt), AIC voi helposti löytää väärän rakenteen, jos ehdokasrakenteita on enemmän kuin 3.Jos jos niitä on enemmän kuin 3, joudut käyttämään käynnistyshihnaa tai muita keinoja sopeutuaksesi mallin epävarmuuteen, joka aiheutuu rakenteen valitsemisesta AIC: n avulla.
#6
+8
user88
2010-07-24 02:23:18 UTC
view on stackexchange narkive permalink

Ainoa ero on, että BIC on AIC laajennettuna ottamaan huomioon objektien (näytteiden) määrä. Sanoisin, että vaikka molemmat ovat melko heikkoja (verrattuna esimerkiksi ristivalidointiin), on parempi käyttää AIC: tä, kuin useammat ihmiset tuntevat lyhenteen - en todellakaan ole koskaan nähnyt paperia tai ohjelmaa, jossa BIC käyttää (myönnän silti, että olen puolueellinen ongelmiin, joissa tällaiset kriteerit eivät yksinkertaisesti toimi).

Muokkaa: AIC ja BIC vastaavat ristivalidointia, jos kaksi tärkeää oletusta - kun ne ovat määritelty, joten kun malli on suurin todennäköisyys ja kun olet kiinnostunut vain mallin suorituskyvystä harjoitustiedoissa. Jos osa tiedoista romahtaa jonkinlaiseen yksimielisyyteen, ne ovat täysin kunnossa.
Jos tehdään ennustekone jostakin reaalimaailman ongelmasta, ensimmäinen on väärä, koska harjoitusjoukko edustaa vain pienen osan tietoa ongelmasta olet tekemisissä, joten et vain pysty optimoimaan malliasi; toinen on väärä, koska oletat, että mallisi käsittelee uudet tiedot, joita et edes voi odottaa harjoittelusarjan olevan edustava. Ja tätä varten keksittiin CV; simuloida mallin käyttäytymistä riippumattomien tietojen kohdalla. Mallin valinnassa CV antaa sinulle paitsi laadun likiarvon myös laadun approksimaation jakauman, joten sillä on tämä suuri etu, että se voi sanoa "En tiedä, mitä uusia tietoja tulee, kumpi tahansa voi olla paremmin."

Tarkoittaako tämä, että tietyille otoskokoille BIC voi olla vähemmän tiukka kuin AIC?
Stringent ei ole paras sana tässä, vaan suvaitsevaisempi parametreille; silti, yup, tavallisille määritelmille (luonnollisella lokilla) se tapahtuu 7 tai vähemmän kohteelle.
AIC vastaa asymptoottisesti ristivalidointia.
@Rob Voitteko antaa viitteen? Epäilen, onko se yleinen.
@Rob Sillä mitä löysin, tämä pätee vain lineaarisiin malleihin.
@mbq. Ajattelin Shao 1995: tä, joka on todellakin vain lineaarisia malleja. En tiedä, onko tulos laajennettu muihin malleihin.
@mbq - En ymmärrä, miten ristivalidointi voittaa edustamattomuuden ongelman. Jos harjoitustietosi eivät ole edustavia tulevaisuudessa saamiesi tietojen kanssa, voit tarkistaa kaikki haluamasi tiedot, mutta ne eivät edusta "yleistysvirhettä", jota todellisuudessa kohtaat (kuten " true "uutta tietoa ei edusta koulutustietojen mallinnamaton osa). Edustavan tietojoukon saaminen on elintärkeää, jos aiot tehdä hyviä ennusteita.
@probabilityislogic Toki; Yritin tässä selittää, että * IC-pohjainen valinta voi mitätöityä katsomalla CV: n näkökulmasta; tietenkin CV voi olla yhtä helppo rikkoa huonon otoksen valinnan avulla. Tämä ei kuitenkaan auta valitsemaan parempaa mallia.
@mbq - mielestäni näytät "hylkäävän" IC-pohjaisen valinnan vaihtoehdon perusteella, joka ei korjaa ongelmaa. Ristivahvistus on hyvä (vaikkakin laskenta on sen arvoista?), Mutta epäedustavaa tietoa ei voida käsitellä datapohjaisen prosessin avulla. Ainakin ei luotettavasti. Sinulla on oltava ennakkotietoja, jotka kertovat, miten ne ovat epäedustavia (tai yleisemmin, mitä loogisia yhteyksiä "epäedustavan" tiedoilla on todellisiin tuleviin tietoihin, joita havaitset).
@probabilityislogic No, näytän, että IC sux verrattuna CV: hen, joten se tosiasia, että CV sux tekee vain IC suxista vielä enemmän. Mutta olet oikeassa, että olen väärinkäyttänyt sanaa "edustaja" vastauksessa - yritän korjata sen. Ja itse asiassa olen mallin valinnan yleinen kieltäjä =)
@mbq - mallin keskimääräinen ftw!
#7
+5
Amanda
2010-07-24 04:38:20 UTC
view on stackexchange narkive permalink

Kuten mainitsit, AIC ja BIC ovat menetelmiä rangaista malleista, joissa regressorimuuttujia on enemmän. Näissä menetelmissä käytetään rangaistustoimintoa, joka on mallin parametrien lukumäärän funktio.

  • AIC: tä sovellettaessa rangaistustoiminto on z (p) = 2 p .

  • Kun käytetään BIC-koodia, rangaistustoiminto on z (p) = p ln ( n ), joka perustuu rangaistuksen tulkitsemiseen ennakkotiedot (tästä syystä nimi Bayesian Information Criterion).

Kun n on suuri, nämä kaksi mallia tuottavat melko erilaisia ​​tuloksia. Sitten BIC soveltaa paljon suurempaa rangaistusta monimutkaisille malleille ja johtaa siten yksinkertaisempiin malleihin kuin AIC. Kuitenkin, kuten Wikipedia on BIC: ssä todetaan:

on huomattava, että monissa sovelluksissa ... BIC yksinkertaisesti vähentää valinnan todennäköisyyttä suurimmaksi osaksi, koska parametrien lukumäärä on yhtä kiinnostaville malleille.

Huomaa, että AIC vastaa myös ML: ää, kun ulottuvuus ei muutu. Vastauksestasi tuntuu siltä, ​​että tämä on tarkoitettu vain BIC: lle.
#8
+5
probabilityislogic
2011-05-13 19:06:44 UTC
view on stackexchange narkive permalink

AIC: n ja BIC: n välillä ei ole paljon eroa siitä, mitä voin kertoa. Ne ovat molemmat matemaattisesti käteviä likiarvoja , jotka voidaan tehdä mallien tehokkaan vertailun kannalta. Jos ne antavat sinulle erilaisia ​​"parhaita" malleja, se tarkoittaa todennäköisesti sitä, että sinulla on suuri epävarmuus mallista, mikä on tärkeämpää huolehtia siitä, pitäisikö sinun käyttää AIC: tä vai BIC: tä. Pidän henkilökohtaisesti BIC: stä paremmin, koska se kysyy enemmän (vähemmän) mallista, jos sillä on enemmän (vähemmän) tietoja parametriensa mukaiseksi - ikään kuin opettaja pyytää korkeampaa (matalampaa) suorituskykyä, jos heidän oppilaansa on enemmän (vähemmän ) aika oppia aiheesta. Minusta tämä tuntuu vain intuitiiviselta tekemältä. Mutta sitten olen varma, että myös AIC: lle on olemassa yhtä intuitiivisia ja pakottavia argumentteja, koska sen yksinkertainen muoto on.

Nyt, kun teet likiarvon, on varmasti joitain ehtoja, kun nämä likiarvot ovat roskaa. Tämä näkyy varmasti AIC: ssä, jossa on monia "säätöjä" (AICc) tiettyjen olosuhteiden huomioon ottamiseksi, jotka tekevät alkuperäisestä likiarvosta huonon. Tämä pätee myös BIC: ään, koska on olemassa monia muita tarkempia (mutta silti tehokkaita) menetelmiä, kuten Fully Laplace Approximations Zellnerin g-priorien seoksiin (BIC on likiarvo integraalien Laplace-approksimaatiomenetelmään).

Yksi paikka, jossa he molemmat ovat paskaa, on, kun sinulla on huomattavaa ennakkotietoa tietyn mallin parametreista. AIC ja BIC rankaisevat tarpeettomasti malleja, joissa parametrit ovat osittain tiedossa verrattuna malleihin, jotka edellyttävät parametrien arviointia tiedoista.

Yksi mielestäni tärkeä huomata on, että BIC ei oleta "aitoa" mallia, joka a) on olemassa tai b) sisältyy mallijoukkoon. BIC on yksinkertaisesti likiarvo integroidulle todennäköisyydelle $ P (D | M, A) $ (D = Data, M = malli, A = oletukset). Vain kertomalla aikaisemmalla todennäköisyydellä ja normalisoimalla, saat $ P (M | D, A) $. BIC kuvaa yksinkertaisesti datan todennäköisyyttä, jos symbolin $ M $ mukainen ehdotus on totta. Joten loogisesta näkökulmasta data tukee yhtä lailla mitä tahansa ehdotusta, joka johtaisi BIC: ään likiarvona. Joten jos ilmoitan ehdotuksiksi $ M $ ja $ A $.

$$ \ begin {array} {l | l} M_ {i}: \ text {i-malli on paras kuvaus data} \\ A: \ text {pois otettavasta K-mallien joukosta, yksi niistä on paras} \ end {array} $$

Ja jatka sitten samojen todennäköisyysmallien määrittämistä (samat parametrit, samat tiedot, samat likiarvot jne.), saan saman BIC-arvojoukon. Ainoastaan ​​liittämällä jonkinlainen ainutlaatuinen merkitys loogiseen kirjaimeen "M" ihminen vetää epäolennaisiin kysymyksiin "todellisesta mallista" ("todellisen uskonnon" kaiut). Ainoa asia, joka "määrittelee" M: n, ovat matemaattiset yhtälöt, jotka käyttävät sitä laskelmissaan - ja tuskin koskaan erotetaan yhtä ja yhtä määritelmää. Voisin yhtä lailla esittää ennusteen M: stä ("i: n malli antaa parhaat ennusteet"). En henkilökohtaisesti näe, miten tämä muuttaisi todennäköisyyksiä ja siten kuinka hyvä tai huono BIC tulee olemaan (AIC myös tässä asiassa - vaikka AIC perustuu eri johdokseen)

Ja lisäksi , mikä on vialla lauseessa Jos todellinen malli on harkitsemassani joukossa, on 57% todennäköisyys, että se on malli B . Näyttää tarpeeksi järkevältä minulle, tai voit käyttää "pehmeämpää" versiota on 57% todennäköistä, että malli B on paras harkittavasta joukosta

Viimeinen kommentti: Luulen, että löydät niin paljon mielipiteitä AIC / BIC: stä kuin on ihmisiä, jotka tietävät niistä.

#9
+4
user2875
2011-01-23 20:11:10 UTC
view on stackexchange narkive permalink

AIC: tä tulisi käyttää harvoin, koska se on oikeastaan ​​voimassa vain asymptoottisesti. Lähes aina on parempi käyttää AICc: tä (AIC, jonka c -suunta on rajallinen näytekoko). AIC pyrkii yliparametroimaan: tämä ongelma vähenee huomattavasti AICc: n kanssa. Tärkein poikkeus AICc: n käyttöön on, kun taustalla olevat jakaumat ovat voimakkaasti leptokurtisia. Lisätietoja tästä on Burnham & Andersonin kirjassa Mallivalinta .

Joten mitä sanot, on se, että AIC ei rankaise parametreja riittävästi, joten sen käyttö kriteereinä voi johtaa yliparametrointiin. Suosittelemme sen sijaan AICc: n käyttöä. Palatakseni tämän takaisin kysymykseeni, koska BIC on jo tiukempi kuin AIC, onko olemassa syytä käyttää AICc: tä BIC: n sijaan?
Mitä tarkoitat AIC: llä, on asymptoottisesti voimassa. Kuten John Taylor huomautti, AIC on epäjohdonmukainen. Luulen, että hänen Coommensa, jotka erottavat AIC: n ja BIC: n, ovat parhaita. En näe näiden kahden olevan samat kuin ristivalidointi. Niillä kaikilla on mukava ominaisuus, jonka he yleensä saavuttavat huippunsa mallissa, jossa on vähemmän kuin muuttujien enimmäismäärä. Mutta he kaikki voivat valita erilaisia ​​malleja.
#10
+4
Peter Flom
2011-09-16 14:48:21 UTC
view on stackexchange narkive permalink

AIC ja BIC ovat tietokriteerejä mallien vertailussa. Kukin yrittää tasapainottaa mallin sopivuuden ja simulaation ja kukin rankaisee eri parametrien lukumäärää.

AIC on Akaike-tietokriteeri, kaava on $$ \ text {AIC} = 2k - 2 \ ln (L) $$ missä $ k $ on parametrien lukumäärä ja $ L $ on suurin todennäköisyys; tällä kaavalla pienempi on parempi. (Muistan, että jotkut ohjelmat tuottavat päinvastaisen $ 2 \ ln (L) - 2k $, mutta en muista yksityiskohtia)

BIC on Bayesin tietokriteeri, kaava on $$ \ text {BIC } = k \ ln (n) - 2 \ ln (L) $$ ja se suosii enemmän yksinkertaisia ​​malleja kuin AIC

En ole kuullut KIC: stä.

eivät myöskään ole kuulleet KIC: stä, mutta AIC: lle ja BIC: lle on syytä tarkastella linkitettyä kysymystä tai etsiä AIC: tä. http://stats.stackexchange.com/q/577/442
(Tämä vastaus yhdistettiin kaksoiskysymyksestä, jossa pyydettiin tulkintaa myös osaamis- ja innovaatioyhteisöstä.)
Malleja ei tarvitse sisäkkäin verrata AIC: hen tai BIC: ään.
#11
+2
Tom Wenseleers
2019-06-25 15:22:21 UTC
view on stackexchange narkive permalink

Hyvin lyhyesti:

  • AIC minimoi ennustevirheen suunnilleen ja on asymptoottisesti samanlainen kuin jätä ristiin validointi (LOOCV) (Stone 1977). Se ei kuitenkaan ole johdonmukainen, mikä tarkoittaa, että vaikka hyvin suuri tietomäärä ( $ n $ menee äärettömään) ja jos todellinen malli on ehdokasmallien joukossa, Todellisen mallin valitsemisen todennäköisyys AIC-kriteerin perusteella ei lähestyisi 1. Sen sijaan se säilyttäisi liikaa ominaisuuksia.
  • BIC on arvio integroidusta marginaalitodennäköisyydestä $ P (D | M, A) (D = data, M = malli, A = oletukset) $ , mikä tasaisen priorin alla vastaa mallin etsimistä, joka maksimoi $ P (M | D, A) $ . Sen etuna on, että se on johdonmukainen, mikä tarkoittaa, että erittäin suurella tietomäärällä ( $ n $ menee äärettömään) ja jos todellinen malli on ehdokasmallien joukossa Todennäköisen mallin valitsemisen todennäköisyys BIC-kriteerin perusteella lähestyisi 1. Tämä johtaisi ennusteen suorituskykyyn vain vähän, jos $ n $ olisi pieni. BIC vastaa myös jätä-k-out-ristivalidointia (LKOCV), jossa $ k = n [1−1 / (log (n) -1)] $ , $ n = $ otoskokolla (Shao 1997). BIC: stä on kuitenkin monia eri versioita, jotka johtuvat siitä, että marginaalitodennäköisyydelle tehdään erilaisia ​​likiarvoja tai oletetaan erilaiset priorit. Esim. EBIC käyttää kaikkien mahdollisten mallien aikaisempaa yhtenäistä mallia kuten alkuperäisessä BIC: ssä, ennalta kiinteän kokoisten mallien yhtenäisyyttä ( Chen & Chen 2008), kun taas BICq käyttää Bernouillin jakelua, jossa määritetään etukäteen jokaisen sisällytettävän parametrin todennäköisyys.

Huomaa, että L0: n rankaisemien GLM: ien yhteydessä (jossa rangaistaan ​​mallisi log-todennäköisyyttä lambda * * nollakertoimien lukumäärän eli mallikerroiesi L0-normin perusteella) avulla voit optimoida AIC: n tai BIC-tavoite suoraan, kuten $ lambda = 2 $ AIC: lle ja $ lambda = log (n) $ kohteelle BIC, mikä tehdään l0ara R -paketissa. Minulle tämä on järkevämpää kuin mitä he esimerkiksi tee, jos kyseessä on LASSO tai elastinen nettoregressio glmnetissä, jossa yhden tavoitteen (LASSO tai elastinen nettoregressio) optimointia seuraa säännöllisyysparametrien viritys johonkin muuhun tavoitteeseen (mikä esim. minimoi ristivalidoinnin ennustusvirheen, AIC tai BIC).

Syed (2011) sivulla 10 huomautuksia "Voimme myös yrittää saada intuitiivisen käsityksen asymptoottisesta vastaavuudesta huomauttamalla, että AIC minimoi likimääräisen mallin ja todellisen Kullback-Leibler-eron. Kullback-Leibler-divergenssi ei ole etäisyysmittaus jakaumien välillä, vaan todellakin mittaa tiedon menetystä, kun likimääräistä mallia käytetään maadoitetun todellisuuden mallintamiseen. jotta voidaan tehdä ennuste yhdelle havainnolle. Toisin sanoen $ n −1 $ -havaintoja arvioidun mallin stand-upeina suhteessa yksittäiseen "todellisuutta" edustavaan havaintoon. voi ajatella tämän oppivan mahdollisimman suuren määrän tietoa, joka voidaan saada datasta menetettäessä tappiota. Annetaan riippumattomia ja identtisesti jakautuneita havaintoja, jotka voidaan suorittaa $ n $ yli vahvistusjoukot johtavat asymptoottisesti un puolueellinen arvio. "

Huomaa, että LOOCV-virhe voidaan myös laskea analyyttisesti jäännöksistä ja hatun matriisin diagonaalista tarvitsematta tosiasiallisesti suorittaa ristivalidointia.Tämä olisi aina vaihtoehto AIC: lle LOOCV-virheen asymptoottisena likiarvona.

Rviitteet

Stone M. (1977) Asymptoottinen vastaavuus mallin valinnassa ristivalidoinnilla ja Akaiken kriteerillä.Journal of the Royal Statistical Society -sarja B. 39, 44–7.

Shao J. (1997) Asymptoottinen teoria lineaariselle mallin valinnalle.Statistica Sinica 7, 221-242.

Paljon parempi ymmärrys kuin monet muut täällä olevat viestit.Jos ihmiset ovat kiinnostuneita lukemaan lisää tästä (ja vaihtoehdosta, joka todennäköisesti ylittää AIC / BIC: n), suosittelen lukemaan tämän artikkelin Andrew Gelman et al: http://www.stat.columbia.edu/~gelman/tutkimus / julkaistu / waic_understand3.pdf
#12
+1
Saily_Shah
2020-03-19 14:26:11 UTC
view on stackexchange narkive permalink
  • AIC ja BIC ovat molemmat rangaistavan todennäköisyyden kriteerejä. Ne kirjoitetaan yleensä muodossa [-2logL + kp], jossa L on todennäköisyysfunktio, p on mallin parametrien määrä ja k on 2 AIC: lle ja log (n) BIC: lle.
  • AIC on arvio vakiosta, johon lisätään suhteellinen etäisyys datan tuntemattoman todellisen todennäköisyystoiminnon ja mallin sovitetun todennäköisyystoiminnon välillä, joten alemman AIC tarkoittaa, että mallin katsotaan olevan lähempänä totuutta.
  • BIC on arvio mallin takimmaisen todennäköisyyden funktion todellisuudesta tietyssä Bayesin kokoonpanossa, joten alempi BIC tarkoittaa, että mallin katsotaan olevan todennäköisempi todellinen malli.
  • Molemmat kriteerit perustuvat erilaisiin oletuksiin ja asymptoottisiin likiarviointeihin.
  • AIC: llä on aina mahdollisuus valita liian iso malli n: stä riippumatta. BIC: llä on hyvin vähän mahdollisuuksia valita liian iso malli, jos n on riittävä, mutta sillä on suuremmat mahdollisuudet valita A: lle kullekin n: lle liian pieni malli.

Viitteet:

  1. https://www.youtube.com/watch?v=75BOMuXBSPI
  2. https://www.methodology.psu.edu/resources/AIC-vs-BIC/


Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 2.0-lisenssistä, jolla sitä jaetaan.
Loading...