Onko koneoppimisesta vähemmän hyötyä syy-yhteyden ymmärtämisessä ja siten vähemmän mielenkiintoisessa yhteiskuntatieteessä?

NRH

2011-11-09 17:28:44 UTC

view on stackexchange narkive permalink

IMHO: lla ei ole muodollisia eroja, jotka erottaisivat koneoppimisen ja tilastot perustavanlaatuisella mallien sovittamisella tietoihin. Mallien valinnassa, mallien sovittamisen tietoihin tavoitteisiin voi liittyä kulttuurieroja, ja joissakin tapauksissa tulkintoja laajennetaan.

ja jokaiselle $ i $ mallin $ M_i $ tuntematon komponentti $ \ theta_i $ (parametrit voivat olla äärettömät).

$ M_i $: n sovittaminen tietoihin on melkein aina matemaattinen optimointiongelma, joka koostuu tuntemattoman komponentin $ \ theta_i $ optimaalisen valinnan löytämisestä, jotta $ M_i $ sovittaa tiedot jonkin suosikkitoiminnon mittaamana.

Mallien $ M_i $ valinta on vähemmän vakio, ja käytettävissä on useita tekniikoita. Jos mallin sovittamisen tavoite on puhtaasti ennustava, mallin valinta tehdään pyrkimällä saamaan hyvä ennustava suorituskyky, kun taas jos ensisijaisena tavoitteena on tulkita tuloksena olevia malleja, voidaan muiden mallien yli valita helpommin tulkittavat mallit, vaikka niiden malli olisi ennustavan voiman odotetaan olevan huonompi.

Mikä voisi olla nimeltään old school tilastollisen mallin valinta, perustuu tilastollisiin testeihin, mahdollisesti yhdistettynä vaiheittaisiin valintastrategioihin. keskittyy tyypillisesti odotettuun yleistysvirheeseen, joka arvioidaan usein ristivalidoinnilla. Mallin valinnan nykyinen kehitys ja ymmärtäminen näyttävät kuitenkin lähestyvän yhteistä pohjaa, katso esimerkiksi Mallin valinta ja Mallin keskiarvo.

Syy-yhteyden päätteleminen malleista

Asian ydin on miten voimme tulkita mallia? Jos saadut tiedot ovat huolellisesti suunnitellusta kokeesta ja malli on riittävä, on uskottavaa, että voimme tulkita muuttujan muutoksen vaikutuksen mallissa syy-seurauksena ja jos toistamme kokeen ja puutumme tähän tiettyyn muuttujaan voimme odottaa tarkkailevan arvioitua vaikutusta. Jos tiedot ovat kuitenkin havainnoivia, emme voi odottaa, että mallissa arvioidut vaikutukset vastaavat havaittavia interventiovaikutuksia. Tämä edellyttää lisäoletuksia riippumatta siitä, onko malli "koneoppimismalli" vai "klassinen tilastomalli".

Voi olla, että ihmiset ovat kouluttaneet klassisten tilastomallien käyttöä keskittyen muuttujan parametrien estimaatteihin. ja vaikutuskoon tulkinnoilla on vaikutelma, että kausaalinen tulkinta on pätevämpi tässä yhteydessä kuin koneoppimisen puitteissa. Sanoisin, ettei ole.

Syy-seurausalue tilastoissa ei oikeastaan poista ongelmaa, mutta se tekee olettamukset, joihin syy-johtopäätökset perustuvat. Niitä kutsutaan testaamattomiksi oletuksiksi . Judea Pearlin julkaisu Syy-johtopäätös tilastoista: Katsaus on hyvä lukea. Suurin vaikutus syy-päätelmistä on menetelmien kokoaminen syy-vaikutusten arvioimiseksi oletusten perusteella, jos tosiasiallisesti on havaitsemattomia sekoittajia, mikä on muuten suuri huolenaihe. Katso yllä olevan Helmipaperin osa 3.3. Edistyneempi esimerkki löytyy artikkelista Marginal Structural Models and Causal Inference in Epidemiology.

Aihekysymys on, pitävätkö testaamattomat oletukset paikkansa. Ne eivät ole tarkkaan testattavissa, koska emme voi testata niitä tietojen avulla. Oletusten perustelemiseksi tarvitaan muita argumentteja.

Esimerkkinä koneoppimisen ja kausaalisen päättelyn kohtaamispaikoista, ideat kohdennetusta maksimaalisen todennäköisyyden arvioinnista , jotka on esitetty Mark van der Laanin julkaisussa Kohdennettu suurin todennäköisyysoppiminen Daniel Rubin hyödyntää koneoppimistekniikoita tyypillisesti ei-parametrisessa arvioinnissa, jota seuraa "kohdistaminen" kiinnostavaan parametriin. Jälkimmäinen voi hyvinkin olla parametri, jolla on syy-tulkinta. Superopiskelijan idea on luottaa voimakkaasti koneoppimistekniikoihin kiinnostavien parametrien arvioimiseksi. Mark van der Laanin (henkilökohtainen viestintä) on tärkeä asia, että klassiset, yksinkertaiset ja "tulkittavat" tilastomallit ovat usein vääriä, mikä johtaa puolueellisiin arvioihin ja liian optimistiseen arvioiden epävarmuuden arviointiin.

Kiitos tästä uskomattomasta vastauksesta ... Odotan innolla kaikkien antamiesi linkkien seuraamista. Yksi viipyvä kysymys on tekniikoista. Onko havaintodataa varten koneoppimisen analogia jotain instrumentaalista muuttujaa? Lisäksi - mikä muuttujan satunnaistaminen olisi koneoppimisvaihtoehto suhteessa yksinkertaiseen t-testiin erojen välillä? Tarvitaanko koneoppimisen vastaustekniikkaa, mitä etua sillä olisi?

@dchandler, Kokemukseni instrumentaalimuuttujien suhteen on hyvin rajallinen, mutta en jälleen kerran näe mitään virallista syytä erottaa koneoppimista ja tilastomenetelmiä * mallin sovittamisesta *, joten voit hyvin sisällyttää instrumentaaliset muuttujat, jos se palvelee tarkoitusta. Mielestäni mielenkiintoisin syy-yhteyteen liittyvä asia on intervention vaikutus. Kyse on pohjimmiltaan ennusteista, mutta ehkä ei havaintotietojen jakautumisesta.

@dchandler, toiseen kysymykseen, en sanoisi sitä kysymykseksi koneoppimisen menetelmien ja tilastomenetelmien keskinäisestä suhteesta. $ T $ -testi lasketaan vastaamaan kysymykseen: Onko tiedoissa todisteita siitä, että hylätään nollahypoteesi, jonka mukaan keskiarvot ovat samat? Voimme keskustella pitkään siitä, onko tämä mielenkiintoista, ja jopa siitä, tarjoavatko $ t $ -testi ja vastaava $ p $ -arvo hyvän vastauksen, mutta mielestäni ei ole mitään syytä kysyä onko koneoppimisvaihtoehto.

Minkälaisia tilastoja koneoppiminen kuitenkin käytettäisi intervention jälkeen? Kokeellisen suunnittelun perustilastot ovat yleensä aivokuolematonta (vertaamalla keskiarvoja t-testin avulla). Ekonometriassa voidaan oletetusti yrittää palauttaa erilaisia kvantiileja tai hoitovaikutusten jakautumista. Mitä koneoppimisanalyysi tekisi keinojen vertaamisen lisäksi?

Aivojen kuollut helppo on laskea jotain, mikä ei ole niin helppoa, on perustella vaaditut oletukset. Markin TMLE-lähestymistapa on vaikutuskokojen (yleensä mielenkiinnon kohteena olevien parametrien, ehkä interventiovaikutusten, ehkä havaintovaikutusten) arviointi ja tarjoaa rehelliset luottamusvälit vähemmän rajoittavilla malliehdotuksilla. Joustavaa mallin sovitusta ristivalidointiin perustuvalla mallivalinnalla käytetään rajoittavan ja väärän parametrisen mallin välttämiseksi.

Nick Sabbe

2011-11-09 14:34:16 UTC

view on stackexchange narkive permalink

On olemassa (melko rajallinen) joukko tilastollisia työkaluja ns. "syy-päättelyyn". Ne on suunniteltu tosiasiallisesti arvioimaan syy-suhteita, ja niiden on osoitettu tekevän tämän oikein. Erinomainen, mutta ei sydämen (tai aivojen) sileälle.

Sen lisäksi kyky syy-yhteyden merkitsemiseen on monissa tapauksissa paljon seurausta suunnittelustasi kuin tekniikoistasi. käsillä: jos hallitset kokeilusi 'kaikkia' muuttujia ja näet jotain tapahtuvaa aina, kun muutat (vain) yhtä muuttujaa, on järkevää kutsua tapahtunutta asiaa 'seuraukseksi' muutoksellesi ( valitettavasti todellisessa tutkimuksessa näitä ääritapauksia esiintyy harvoin. Toinen intuitiivinen, mutta järkevä päättely on aikaperusteista: jos muutat muuttujaa satunnaisesti (mutta hallitusti) ja toinen muuttuu seuraavana päivänä, syy-yhteys on myös kulman takana.

Kaikki toinen kappale olennaista toimii riippumatta siitä, mitä menetelmiä käytät muuttujien muuttuessa missä olosuhteissa, joten ainakin teoriassa ei ole mitään syytä, miksi koneoppiminen (ML) olisi huonompi kuin tilastopohjaiset menetelmät.

Vastuuvapauslauseke : erittäin subjektiivinen kappale seuraa

Kokemukseni mukaan ML-tekniikat päästetään kuitenkin liian usein vain läpikotaisin harkitsematta sitä, mistä tiedot ovat peräisin tai miten ne on kerätty (eli jättämättä huomiotta suunnittelua). Tällöin lopputulos nousee niin usein, mutta syy-yhteydestä on erittäin vaikeaa sanoa jotain hyödyllistä. Tämä tulee olemaan täsmälleen sama, kun jokin tilastollisesti vakaa menetelmä suoritetaan samoille tiedoille. Henkilöt, joilla on vahva tilastotausta, on kuitenkin koulutettu suhtautumaan kriittisesti näihin asioihin, ja jos kaikki menee hyvin, he välttävät nämä sudenkuopat. Ehkä se on yksinkertaisesti ML: n tekniikoiden varhaisen (mutta huolimattoman) käyttöönottajan ajattelutapa (tyypillisesti ei uusien tekniikoiden kehittäjät, vaan ne, jotka haluavat 'todistaa' joitain tuloksia heidän kanssaan kiinnostuksen kohteellaan), joka on antanut ML: lle huonon maineen tässä tili. (huomaa, että en sano, että tilastot ovat parempia kuin ML, tai että kaikki ihmiset, jotka tekevät ML: tä, ovat huolimattomia ja ne, jotka tekevät tilastoja)

Paljon kiitoksia vastauksesta. Pidän todella selityksestäsi siitä, kuinka syy-yhteys on enemmän seurausta suunnittelusta kuin tekniikoista. Yksi kysymys tekniikoista on kuitenkin se, onko koneoppimiseen jotain instrumentaalisia muuttujia. Lisäksi - mikä muuttujan satunnaistaminen olisi koneoppimisvaihtoehto suhteessa yksinkertaiseen t-testiin erojen välillä?

John Doucette

2011-11-09 11:48:51 UTC

view on stackexchange narkive permalink

Katson, että taloustieteessä ja muissa yhteiskuntatieteissä käytetyt mallit ovat hyödyllisiä vain siltä osin kuin niillä on ennustava voima reaalimaailmassa - malli, joka ei ennusta todellista maailmaa, on vain fiksu matematiikka. Suosikki sanani kollegoille on, että "data on kuningas".

Minusta näyttää siltä, että kysymyksesi herättää kahta kritiikkiä ennakoivasta lähestymistavasta. Ensinnäkin huomautat, että koneoppimistekniikoiden tuottamat mallit eivät välttämättä ole tulkittavissa . Toiseksi ehdotat, että yhteiskuntatieteiden käyttämät menetelmät ovat hyödyllisempiä kausaalisuhteiden paljastamiseksi kuin koneoppiminen.

Ensimmäisen kohdan käsittelyyn ehdotan seuraavaa vastalauseita. Koneoppimisen nykyinen villitys suosii menetelmiä (kuten SVM: t ja NN), joita maallikon ei ole lainkaan helppo ymmärtää. Tämä ei tarkoita, että kaikilla koneoppimistekniikoilla on tämä ominaisuus. Esimerkiksi kunnioitettavaa C4.5-päätöksentekopuuta käytetään edelleen laajalti 20 vuotta kehityksen viimeisen vaiheen saavuttamisen jälkeen, ja se tuottaa tuotoksena useita luokittelusääntöjä. Väittäisin, että tällaiset säännöt soveltuvat paremmin tulkinnalle kuin log-kerrointen kaltaiset käsitteet, mutta se on subjektiivinen väite. Joka tapauksessa tällaiset mallit ovat tulkittavissa.

Ottaessani huomioon toista kohtaa myönnän, että jos koulut koneoppimismallia yhdessä ympäristössä ja testaat sitä toisessa, se todennäköisesti epäonnistuu, mutta ei ole mitään syytä olettaa etukäteen, että tämä ei päde myös perinteisempään malliin: jos rakennat mallisi yhden oletussarjan alle ja arvioit sen sitten toisen alle, saat huonoksi tuloksia. Lauseen valinta tietokoneohjelmoinnista: "roskat sisään, roskat ulos" pätee yhtä hyvin sekä koneoppimiseen että suunniteltuihin malleihin.

Dikran Marsupial

2011-11-09 19:33:33 UTC

view on stackexchange narkive permalink

Ei. Syy-johtopäätös on koneoppimisen aktiivinen tutkimusalue. Katso esimerkiksi tämän työpajan ja tämän prosessia. Huomautan kuitenkin, että vaikka kausaalinen päättely tai mallin tulkinta on ensisijainen etusi, on silti hyvä kokeilla läpinäkymätöntä, puhtaasti ennustavaa lähestymistapaa rinnakkain, jotta tiedät, onko olemassa merkittävä suoritusrangaistus vaatimaan tulkittava malli.

tulkittavissa? Tarkoitatko mahdollisesti tulkittavaa?

drevicko

2011-11-11 11:17:44 UTC

view on stackexchange narkive permalink

En toista niitä hyviä kohtia, jotka on jo esitetty muissa vastauksissa, mutta haluaisin lisätä hieman erilainen näkökulma. Se, mitä sanon täällä, on jonkin verran filosofista, eikä välttämättä ole peräisin ammattikokemuksesta, vaan fysiikan, monimutkaisen systeemiteorian ja koneoppimisen (ja minun on myönnettävä, pääosin perustutkintotilastoista) sekakohtaisesta taustasta.

Yksi olennainen ero koneoppimisen ja klassisen tilastollisen lähestymistavan välillä (josta olen tietoinen) on tehdyissä oletuksissa. Klassisessa tilastossa monet oletukset taustalla olevista prosesseista ja jakautumisista ovat kiinteät, ja niitä pidetään itsestään selvinä. Koneoppimisessa nämä oletukset valitaan nimenomaisesti kullekin mallille, mikä johtaa paljon laajempaan mahdollisuuksiin ja ehkä enemmän tietoisuuteen tehdyistä oletuksista.

Näemme yhä enemmän, että järjestelmät ympärillämme oleva maailma käyttäytyy monimutkaisilla, epälineaarisilla tavoilla ja että monet prosessit eivät noudata normaaliolettamuksia jne. Väitän, että joustavan mallin oletusten moninaisuuden vuoksi koneoppimismenetelmät johtavat usein vankempaan malliin tällaisissa tapauksissa.

On olemassa vahvoja malliehdotuksia, jotka on rakennettu lauseisiin, kuten "suuruus vaikutus "," syy-yhteys "ja" missä määrin yksi muuttuja vaikuttaa tulokseen ". Monimutkaisessa järjestelmässä (kuten taloudessa) nämä oletukset pätevät vain tietyssä mahdollisten järjestelmätilojen ikkunassa. Joillakin havaittavilla kohteilla ja prosesseilla tämä ikkuna voi olla suuri, mikä johtaa suhteellisen vankkoihin malleihin. Muiden kanssa se voi olla pieni tai jopa tyhjä. Ehkä suurin vaara on keskitie: malli saattaa näyttää toimivan, mutta järjestelmän muuttuessa epäonnistuu äkillisin ja yllättävin tavoin.

Koneoppiminen ei ole ihmelääke. Pidän sitä pikemminkin uusien tapojen etsimisenä merkityksistä havainnoistamme, etsimällä uusia paradigmoja, joita tarvitaan, jotta voimme käsitellä tehokkaasti monimutkaisuutta, jonka alamme kokea ympäröivässä maailmassa.