Kysymys:
Mikä on päätöspuiden heikko puoli?
Łukasz Lew
2010-08-05 15:42:44 UTC
view on stackexchange narkive permalink

Päätöksentekopuut näyttävät olevan hyvin ymmärrettävä koneoppimismenetelmä, jonka luomisen jälkeen ihminen voi helposti tarkastaa, mikä on suuri etu joissakin sovelluksissa.

Mitkä ovat päätöksentekopuiden käytännölliset heikkoudet?

Neljä vastused:
#1
+37
Simon Byrne
2010-08-05 17:08:24 UTC
view on stackexchange narkive permalink

Tässä on pari, jonka voin ajatella:

  • He voivat olla erittäin herkkiä pienille tietojen häiriöille: pieni muutos voi johtaa dramaattisesti erilaiseen puuhun.
  • Ne sopivat helposti liikaa. Tämä voidaan kumota validointimenetelmillä ja karsimisella, mutta tämä on harmaa alue.
  • Heillä voi olla ongelmia otoksen ulkopuolisissa ennusteissa (tämä liittyy siihen, että he eivät ole sileitä).

Jotkut näistä liittyvät monikollinaarisuuden ongelmaan: kun molemmat muuttujat selittävät molemmat, päätöksentekopuu valitsee ahneimmin parhaan, kun taas monet muut menetelmät käyttävät he molemmat. Yhdistelmämenetelmät, kuten satunnaiset metsät, voivat kumota tämän jossain määrin, mutta menetät ymmärtämisen helppouden.

Suurin ongelma on kuitenkin ainakin mielestäni periaatteellisen todennäköisyyskehyksen puuttuminen. . Monilla muilla menetelmillä on esimerkiksi luottamusvälejä, takajakaumia jne., Jotka antavat meille jonkinlaisen käsityksen mallin hyvyydestä. Päätöspuu on viime kädessä ad hoc -heuristinen, mikä voi silti olla erittäin hyödyllinen (ne ovat erinomaisia ​​virheiden lähteiden löytämiseen tietojenkäsittelyssä), mutta on olemassa vaara, että ihmiset käsittelevät lähtöä "oikeana" mallina (minun mielestäni kokemusta, tätä tapahtuu paljon markkinoinnissa).

ML-näkökulmasta puita voidaan testata samalla tavalla kuin mitä tahansa muuta luokitusta (esimerkiksi CV). Silti se osoittaa pikemminkin, että tapahtui raskasta ylivarustusta ;-) Myös RF ei pääse monikolinesuoruudesta, koska se on yhtenäinen, vaan koska sen puut ovat optimaalisia.
Katso todennäköisyyspuitteet päätöksentekopuista DTREE: stä (osoite: http://www.datamining.monash.edu.au/software/dtree/index.shtml), joka perustuu artikkeliin "Wallace CS & Patrick JD," koodaus Päätöspuut ', koneoppiminen, 11, 1993, s. 7-22 ".
Eikö myöskään ole mahdollista saada CI: tä (ennusteita varten) käynnistyshihnan avulla?
@Simon Byrne, minulla on kysymys kommenttisi "Suurin ongelma on kuitenkin ainakin mielestäni periaatteellisen todennäköisyyskehyksen puuttuminen". Anteeksi tietämättömyyteni, mutta voisitteko osoittaa minulle joitakin käytännön periaatteellisia todennäköisyyskehyksiä (erityisesti luokittelun yhteydessä). Olen erittäin kiinnostunut päätöksentekopuiden rajoituksista.
Yksi esimerkki @AmV,: stä olisi logistinen regressio: voimme käyttää sitä, että jokainen havainto tulee binomiaalista saadaksesi luotettavuus / uskottavat intervallit ja tarkistamaan mallin oletukset.
#2
+25
Rob Hyndman
2010-08-05 16:58:42 UTC
view on stackexchange narkive permalink

Yksi haitta on, että kaikkien termien oletetaan olevan vuorovaikutuksessa. Eli sinulla ei voi olla kahta itsenäisesti käyttäytyvää selittävää muuttujaa. Jokainen puun muuttuja pakotetaan olemaan vuorovaikutuksessa kaikkien puun yläpuolella olevien muuttujien kanssa. Tämä on erittäin tehotonta, jos on muuttujia, joilla ei ole lainkaan vuorovaikutusta tai heikko vuorovaikutus.

ihmettelen, onko tämä käytännöllinen rajoitus - muuttujalle, joka vaikuttaa vain heikosti luokitteluun, intuitio on, että Puu ei todennäköisesti jakaudu muuttujaan (ts. se ei tule olemaan solmu), mikä puolestaan se on näkymätön siltä osin kuin päätöksentekopuun luokitus menee.
Tarkoitan heikkoja vuorovaikutuksia, ei heikkoja vaikutuksia luokitteluun. Vuorovaikutus on suhde kahden ennustemuuttujan välillä.
Tämä voi olla tehotonta, mutta puurakenne pystyy käsittelemään sen.
Siksi sanoin tehoton eikä puolueellinen tai väärä. Jos sinulla on paljon tietoja, sillä ei ole väliä paljon. Mutta jos sovitat puun muutamaan sadaan havaintoon, oletetut vuorovaikutukset voivat vähentää suuresti ennustettavuutta.
Olla samaa mieltä; Halusin vain korostaa sitä. Silti uskon, että ennustavan tarkkuuden väheneminen voidaan poistaa käyttämällä asianmukaista koulutusta; filogenetiikassa samanlainen ongelma (ahneus) vähenee, kun Monte Carlo skannaa mahdollisen puun tilaa suurimman todennäköisyyden löytämiseksi - en tiedä onko tilastoissa samanlaista lähestymistapaa, luultavasti kukaan ei häirinnyt tätä ongelmaa sellaisessa laajuus.
#3
+12
doug
2010-08-05 17:47:46 UTC
view on stackexchange narkive permalink

Vastaukseni on suunnattu CART: iin (C 4.5 / C 5 -toteutukset), vaikka en usko, että se rajoittuu siihen. Oletan, että tämä on OP: n mielessä - se on yleensä mitä joku tarkoittaa sanoessaan "Päätöspuu".

Päätöspuiden rajoitukset :


Huono suorituskyky

'Suorituskyvyllä' ei tarkoita tarkkuutta, vaan suoritusnopeutta . Syy siihen, miksi se on huono, on, että sinun täytyy 'piirtää puu' joka kerta, kun haluat päivittää CART-mallisi - tiedot on luokiteltu jo koulutetulle puulle, jonka haluat lisätä puuhun (ts. Käyttää harjoitteludatapiste) edellyttää, että aloitat ylikurssilta - harjoittelun instansseja ei voida lisätä asteittain, kuten useimpien muiden valvottujen oppimisalgoritmien tapauksessa. Ehkä paras tapa todeta tämä on se, että päätöksentekopuita ei voida kouluttaa online-tilassa, pikemminkin vain eräajona. Ilmeisesti et huomaa tätä rajoitusta, jos et päivitä luokitinta, mutta sitten odotan, että resoluutio laskee.

Tämä on merkittävää, koska esimerkiksi monikerroksisille perceptroneille se voi aloittaa tietojen luokittelun, kun se on koulutettu. että tietoja voidaan käyttää myös jo koulutetun luokittelijan virittämiseen, vaikka päätöksentekopuiden kanssa sinun on opittava uudestaan ​​koko tietojoukolla (koulutuksessa käytetyt alkuperäiset tiedot ja mahdolliset uudet esiintymät).


Huonotarkkuus muuttujien monimutkaisissa suhteissa oleville tiedoille

Päätöspuut luokittelevat tuntemattoman luokan tietopisteen vaiheittaisen arvioinnin, yhden solmun kerrallaan, alkaen juurisolmu ja päättyy päätesolmuun. Ja jokaisessa solmussa on vain kaksi mahdollisuutta (vasen-oikea), joten on olemassa muuttujasuhteita, joita päätöksentekopuut eivät vain voi oppia.


Käytännössä rajoitettu luokitukseen vahva>

Päätöspuut toimivat parhaiten, kun heitä koulutetaan osoittamaan tietopiste luokalle - mieluiten yksi vain muutamasta mahdollisesta luokasta. En usko, että minulla olisi koskaan ollut mitään menestystä päätöksentekopuun käytössä regressiotilassa (ts. Jatkuva tuotos, kuten hinta tai odotetut elinkaaren tuotot). Tämä ei ole muodollinen tai luontainen rajoitus, vaan käytännöllinen. Suurimmaksi osaksi päätöksentekopuita käytetään tekijöiden tai erillisten tulosten ennustamiseen.


Huono tarkkuus jatkuvien odotusmuuttujien kanssa

Jälleen, periaatteessa on ok olla itsenäisiä muuttujia, kuten "latausaika" tai "määrä päivää edellisestä verkko-ostoksesta "- muuta vain jakokriteeri varianssiksi (se on yleensä Information Entropy tai Gini-epäpuhtaus erillisille muuttujille), mutta kokemukseni mukaan päätöksentekopuut toimivat harvoin hyvin tässä tapauksessa. Poikkeuksia ovat tapaukset, kuten "opiskelijan ikä", joka näyttää jatkuvalta, mutta käytännössä arvoalue on melko pieni (varsinkin jos ne ilmoitetaan kokonaislukuina).

+1 hyvästä soittokulmasta, joka ei yleensä riitä pelaamiseen.Olen nähnyt päätöksentekopuiden törmänneen suorituskykyongelmiin useilla ohjelmistoalustoilla, jotka on suunniteltu suurille tietojoukoille (kuten SQL Server), ainakin verrattuna muihin tiedonlouhintamenetelmiin.Tämä on ohi koko esille nostamasi uudelleenkoulutusongelma.Se näyttää pahenevan tapauksissa, joissa esiintyy ylikuntoa (vaikka niin voidaan sanoa monista muista kaivosalgoritmeista).
#4
+11
gung - Reinstate Monica
2012-06-29 04:27:55 UTC
view on stackexchange narkive permalink

Täällä on hyviä vastauksia, mutta olen yllättynyt siitä, että yhtä asiaa ei ole korostettu. CART ei tee mitään jakeluoletuksia tiedoista, etenkään vastemuuttujasta. Sitä vastoin esimerkiksi OLS-regressio (jatkuville vastemuuttujille) ja logistinen regressio (joillekin kategorisille vastemuuttujille) tee vahvoja oletuksia; tarkemmin sanottuna OLS-regressio olettaa, että vaste jakautuu ehdollisesti normaalisti, ja logistinen olettaa, että vaste on binomi- tai multinomi.

CART: n puuttuminen tällaisista oletuksista on kaksiteräinen miekka. Kun nämä oletukset eivät ole perusteltuja, tämä antaa lähestymistavalle suhteellisen edun. Toisaalta, kun nämä oletukset pitävät paikkansa, tiedoista voidaan poimia enemmän tietoja ottamalla nämä tosiasiat huomioon. Toisin sanoen, tavanomaiset regressiomenetelmät voivat olla informatiivisempia kuin CART, kun oletukset ovat totta.



Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 2.0-lisenssistä, jolla sitä jaetaan.
Loading...