Kysymys:
Viisi parasta luokittelijaa, jotka ensin kokeilevat
Oben Sonne
2011-02-25 15:45:02 UTC
view on stackexchange narkive permalink

Ilmeisten luokitteluominaisuuksien, kuten

  • laskennalliset kustannukset,
  • odotettavissa olevien ominaisuuksien / tunnisteiden tietotyypit ja
  • soveltuvuus tietyille tietojoukot,

mitkä ovat viisi (tai 10, 20?) luokittelijaa, joita ensin kokeilla uudella tietojoukolla ei vielä tiedetä paljoa ( esim. semantiikka ja yksittäisten piirteiden korrelaatio)? Yritän yleensä Naive Bayesia, lähintä naapuria, päätöksentekopuuta ja SVM: ää, vaikka minulla ei ole mitään hyvää syytä tähän valintaan kuin tunnen heidät ja enimmäkseen ymmärrän niiden toimintaa.

Luulen, että pitäisi valita luokittelijat, jotka kattavat tärkeimmät yleiset luokittelutavat. Minkä vaihtoehdon suosittelisit kyseisen kriteerin mukaan tai muusta syystä?


PÄIVITÄ: Vaihtoehtoinen muotoilu tälle kysymykselle voisi olla: "Mikä yleinen luokittelun lähestymistapoja on olemassa ja mitkä erityiset menetelmät kattavat tärkeimmät / suosituimmat / lupaavimmat? "

Mielestäni tämä on kopio (http://stats.stackexchange.com/questions/3458/alternatives-to-classification-trees-with-better-predictive-e-g-cv-performanc). Ainoa lisäarvo kysymykselle voisi tässä olla "luokittelijoiden valintaperusteet" (mikä tekisi kysymyksestä hyvin yleisen). Jos se on kaksoiskappale, äänestä sulkemisen puolesta, muuten äänestä cw: tä)
@steffen: Viitattu kysymyksesi on hyödyllinen, mutta mielestäni se ei ole kopio. Itse asiassa kysymykseni on melko yleinen. En etsi ratkaisua tiettyyn ongelmaan, mutta yleisistä syistä, miksi oppijoita käytetään - päivitän kysymykseni vastaavasti.
Kolme vastused:
user88
2011-02-25 21:05:58 UTC
view on stackexchange narkive permalink

Satunnainen metsä

Nopea, kestävä, hyvä tarkkuus, useimmissa tapauksissa mitään viritettävää, ei vaadi normalisointia, immuuni kollineaarisuudelle, tuottaa melko hyvän virhearvioinnin ja hyödyllisen tärkeysjärjestyksen harjoittelun sivuvaikutuksena, triviaalisesti rinnakkainen, ennustaa silmänräpäyksessä.

Haitat: hitaampia kuin triviaalit menetelmät, kuten kNN tai NB, toimii parhaiten samanlaisilla luokilla, huonompi tarkkuus kuin SVM ongelmissa, jotka edellyttävät epätoivoisesti ytimen temppua, on kova musta -laatikko, ei tee kahvia.

@mbq (+1) Luokan epätasapainosta voimme silti luottaa ositettuun näytteenottoon pussituksen aikana.
@mbq, ei tee kahvia? Se on kaupan rikkoja siellä.
Kiitos vihjeestä * Random Forests *. Mutta kokeisitko vain niitä? Entä jos et ole tyytyväinen tuloksiin? Minkä luokittelijan haluaisit kokeilla muuta? Tai mitä vastaat, jos joku kysyy: "Miksi et kokeillut muita menetelmiä?"
@Oben No, ymmärsin, että teet eräänlaisen yhden luokittelijan vastausta kohti.
@mbq: Ei oikeastaan, mutta se osoittautuu tällaiseksi uima-altaaksi. Luultavasti en tehnyt itsestäni riittävän selvää kysymyksessä. Halusin itse asiassa tietää, mitä luokittelusarjaa on ensin kokeiltava, kattamaan erilaiset yleiset luokitusmenetelmät (erilaisilla vahvuuksilla ja heikkouksilla). Kysyn aina itseltäni, pitäisikö minun kokeilla uusia luokittelijoita. Tieto siitä, että kokeilemani edustavat jo tyypillisimpiä / lupaavimpia lähestymistapoja, auttaisi tässä. Mutta sitä varten minun on tiedettävä, mihin luokitusryhmiin tämä pätee. (En ole kaukana tilastojen asiantuntijasta, joten kerro minulle, onko mieleni täällä hieman vääntynyt)
"huonompi tarkkuus kuin SVM ongelmissa, jotka edellyttävät epätoivoisesti ytimen temppua" mikä on "ytimen temppu"?
@Zach http: // fi.wikipedia.org / wiki / Kernel_trick; monet keinotekoiset geometriset ongelmat kuuluvat tähän luokkaan.
[Tämä on ylimääräinen selitys ytimen temppuista] (http://www.eric-kim.net/eric-kim-net/posts/1/kernel_trick.html)
Dikran Marsupial
2011-02-25 18:01:32 UTC
view on stackexchange narkive permalink

Gaussin prosessiluokittelija (ei käytä Laplace-approksimaatiota), mieluiten marginalisoinnilla eikä hyperparametrien optimoinnilla. Miksi?

  1. koska ne antavat todennäköisyysluokituksen
  2. voit käyttää ytintoimintoa, jonka avulla voit käyttää suoraan ei-vektoritietoja ja / tai sisällyttää asiantuntijatietoja
  3. he käsittelevät epävarmuutta sovitettaessa mallia oikein, ja voit levittää epävarmuuden päätöksentekoprosessiin
  4. yleensä erittäin hyvällä ennustetulla suorituskyvyllä.

Haittapuolet

  1. hidas
  2. vaatii paljon muistia
  3. epäkäytännöllistä suurissa ongelmissa.

Ensimmäinen vaihtoehto olisi kuitenkin laillistettu logistinen regressio tai harjanteen regressio [ilman ominaisuuden valintaa] - useimmissa ongelmissa hyvin yksinkertaiset algoritmit toimivat melko hyvin ja niitä on vaikeampaa erehtyä (käytännössä erot suorituskyvyssä algoritmien välinen ero on pienempi kuin niitä ajavan käyttäjän väliset erot suorituskyvyssä).

Simone
2011-02-25 18:16:40 UTC
view on stackexchange narkive permalink

Itse kun lähestyt uutta tietojoukkoa, sinun tulisi alkaa seurata koko ongelmaa. Ensinnäkin hanki jakauma kategorioille ja keskimääräisille ja keskihajonnoille jokaiselle jatkuvalle ominaisuudelle. Sitten:

  • Poista ominaisuuksia, joista puuttuu yli X% arvoja;
  • poista kategorisia ominaisuuksia, kun tietty arvo saa yli 90-95% suhteellisesta taajuudesta;
  • Poista jatkuvia ominaisuuksia CV = std / mean<0.1;
  • Hanki parametrisijoitus, esim. ANOVA jatkuvalle ja Chi-neliö kategoriselle;
  • hanki merkittävä alajoukko ominaisuuksista;

Sitten jaoin luokittelutekniikat yleensä kahteen sarjaan: valkoinen laatikko ja musta laatikko tekniikka. Jos sinun on tiedettävä luokittelijan toiminta, sinun on valittava ensimmäisestä joukosta, esim. Päätöksentekopuut tai sääntöihin perustuvat luokittelijat.

Jos sinun on luokiteltava uudet tietueet rakentamatta mallia, tulisi ottaa katse innokkaalle oppijalle, esim. KNN.

Sen jälkeen on mielestäni parempi saada kynnys tarkkuuden ja nopeuden välillä: Neuraaliverkko on hieman hitaampi kuin SVM.

Tämä on viiden parhaan luokittelutekniikkani:

  1. päätöksentekopuu;
  2. sääntöpohjaiset luokittelijat;
  3. SMO (SVM);
  4. naiivit Bayes;
  5. Neuroverkot.
-1 Ehdottomasti virheellinen työnkulku suurille p pienille n, FS: n ylikunto on taattu.
eikö kNN ole laiska oppija eikä innokas (koska et itse tee mitään, ennen kuin sinun on todella tehtävä, kun luokiteltava malli tulee esiin)? Kaikilla esikäsittelyillä, jotka teet ennen luokittelijan soveltamista, on todennäköisesti suurempi vaikutus suorituskykyyn kuin luokittelijoiden välinen ero. Ominaisuuden valinta on erityisen vaikeaa (johtaa helposti yliasennukseen), ja SVM: n kaltaiset menetelmät, joissa on laillistettu, toimivat yleensä paremmin ilman ominaisuuksien valintaa. En todellakaan suosittele hermoverkkoja, aivan liian monta potentiaalista sudenkuoppaa.


Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 2.0-lisenssistä, jolla sitä jaetaan.
Loading...