IMHO: lla ei ole muodollisia eroja, jotka erottaisivat koneoppimisen ja tilastot perustavanlaatuisella mallien sovittamisella tietoihin. Mallien valinnassa, mallien sovittamisen tietoihin tavoitteisiin voi liittyä kulttuurieroja, ja joissakin tapauksissa tulkintoja laajennetaan.
ja jokaiselle $ i $ mallin $ M_i $ tuntematon komponentti $ \ theta_i $ (parametrit voivat olla äärettömät). $ M_i $: n sovittaminen tietoihin on melkein aina matemaattinen optimointiongelma, joka koostuu tuntemattoman komponentin $ \ theta_i $ optimaalisen valinnan löytämisestä, jotta $ M_i $ sovittaa tiedot jonkin suosikkitoiminnon mittaamana.
Mallien $ M_i $ valinta on vähemmän vakio, ja käytettävissä on useita tekniikoita. Jos mallin sovittamisen tavoite on puhtaasti ennustava, mallin valinta tehdään pyrkimällä saamaan hyvä ennustava suorituskyky, kun taas jos ensisijaisena tavoitteena on tulkita tuloksena olevia malleja, voidaan muiden mallien yli valita helpommin tulkittavat mallit, vaikka niiden malli olisi ennustavan voiman odotetaan olevan huonompi.
Mikä voisi olla nimeltään old school tilastollisen mallin valinta, perustuu tilastollisiin testeihin, mahdollisesti yhdistettynä vaiheittaisiin valintastrategioihin. keskittyy tyypillisesti odotettuun yleistysvirheeseen, joka arvioidaan usein ristivalidoinnilla. Mallin valinnan nykyinen kehitys ja ymmärtäminen näyttävät kuitenkin lähestyvän yhteistä pohjaa, katso esimerkiksi Mallin valinta ja Mallin keskiarvo.
Syy-yhteyden päätteleminen malleista
Asian ydin on miten voimme tulkita mallia? Jos saadut tiedot ovat huolellisesti suunnitellusta kokeesta ja malli on riittävä, on uskottavaa, että voimme tulkita muuttujan muutoksen vaikutuksen mallissa syy-seurauksena ja jos toistamme kokeen ja puutumme tähän tiettyyn muuttujaan voimme odottaa tarkkailevan arvioitua vaikutusta. Jos tiedot ovat kuitenkin havainnoivia, emme voi odottaa, että mallissa arvioidut vaikutukset vastaavat havaittavia interventiovaikutuksia. Tämä edellyttää lisäoletuksia riippumatta siitä, onko malli "koneoppimismalli" vai "klassinen tilastomalli".
Voi olla, että ihmiset ovat kouluttaneet klassisten tilastomallien käyttöä keskittyen muuttujan parametrien estimaatteihin. ja vaikutuskoon tulkinnoilla on vaikutelma, että kausaalinen tulkinta on pätevämpi tässä yhteydessä kuin koneoppimisen puitteissa. Sanoisin, ettei ole.
Syy-seurausalue tilastoissa ei oikeastaan poista ongelmaa, mutta se tekee olettamukset, joihin syy-johtopäätökset perustuvat. Niitä kutsutaan testaamattomiksi oletuksiksi . Judea Pearlin julkaisu Syy-johtopäätös tilastoista: Katsaus on hyvä lukea. Suurin vaikutus syy-päätelmistä on menetelmien kokoaminen syy-vaikutusten arvioimiseksi oletusten perusteella, jos tosiasiallisesti on havaitsemattomia sekoittajia, mikä on muuten suuri huolenaihe. Katso yllä olevan Helmipaperin osa 3.3. Edistyneempi esimerkki löytyy artikkelista Marginal Structural Models and Causal Inference in Epidemiology.
Aihekysymys on, pitävätkö testaamattomat oletukset paikkansa. Ne eivät ole tarkkaan testattavissa, koska emme voi testata niitä tietojen avulla. Oletusten perustelemiseksi tarvitaan muita argumentteja.
Esimerkkinä koneoppimisen ja kausaalisen päättelyn kohtaamispaikoista, ideat kohdennetusta maksimaalisen todennäköisyyden arvioinnista , jotka on esitetty Mark van der Laanin julkaisussa Kohdennettu suurin todennäköisyysoppiminen Daniel Rubin hyödyntää koneoppimistekniikoita tyypillisesti ei-parametrisessa arvioinnissa, jota seuraa "kohdistaminen" kiinnostavaan parametriin. Jälkimmäinen voi hyvinkin olla parametri, jolla on syy-tulkinta. Superopiskelijan idea on luottaa voimakkaasti koneoppimistekniikoihin kiinnostavien parametrien arvioimiseksi. Mark van der Laanin (henkilökohtainen viestintä) on tärkeä asia, että klassiset, yksinkertaiset ja "tulkittavat" tilastomallit ovat usein vääriä, mikä johtaa puolueellisiin arvioihin ja liian optimistiseen arvioiden epävarmuuden arviointiin.