Mitä hyötyä on jatkuvan ennustemuuttujan hajottamisesta?

Tom

2013-08-31 10:32:30 UTC

view on stackexchange narkive permalink

Mietin, mikä arvo on jatkuvan ennustemuuttujan ottamisessa ja sen hajottamisessa (esim. kvintiileiksi) ennen sen käyttöä mallissa.

Minusta näyttää siltä, että yhdistämällä muuttuja menetämme tietoja.

Onko tämä vain mallintaa ei-lineaarisia vaikutuksia? b>

1) Ei. Olet oikeassa, että yhdistäminen menettää tietoja. Sitä tulisi välttää, jos mahdollista. 2) Yleensä käyräfunktio, joka on yhdenmukainen tietojen taustalla olevan teorian kanssa, on edullinen.

En tiedä eduista, mutta on olemassa useita [laajalti tunnustettuja vaaroja] (http://stats.stackexchange.com/a/41233/805)

Vastahakoinen argumentti sille, toisinaan: Se voi yksinkertaistaa kliinistä tulkintaa ja tulosten esittämistä - esim. verenpaine on usein neliöllinen ennustaja, ja lääkäri voi tukea raja-arvojen käyttöä matalalle, normaalille ja korkealle verenpaineelle ja saattaa olla kiinnostunut näiden laajojen ryhmien vertailusta.

@user20650: En ole aivan varma, että ymmärsin sinut, mutta eikö olisi parempi sopia parhaaseen malliin kuin pystyt, ja sitten käyttää kyseisen mallin ennusteita sanomaan mitä haluat sanoa laajoista ryhmistä? Tutkimukseni 'korkean verenpaineen ryhmällä' ei välttämättä ole samaa painejakaumaa kuin väestöllä, joten niiden tulokset eivät yleisty.

@scortchi: Olen samaa mieltä siitä, että usein ei ole hyödyllistä käyttää todellisia tietoja raja-arvojen päättämisessä - mutta esimerkissäni on yleisesti sovittuja paineita (~ +/-), jotka osoittavat kliinisesti hyper- ja hypo-jännitteitä sekä normaalin alueen. Kuinka kauan näiden kynnysten ylittävä tai alle jää, arvo ei välttämättä ole yhtä tärkeää lääkärille kuin se, että ne on saavutettu. Hyväksy myös, että luokitteleminen ei ole suositeltavaa, mutta jos tarkoituksena on yksinkertaisesti esittää assosiaatioita tuloksella, on (mielestäni) joskus vaikeaa esittää epälineaarisia assosiaatioita selkeällä, helposti tulkittavalla tavalla ....

@user20650: Kuten kaikki esitykset, se riippuu yleisöstä. Pelkkä kaavio ennustajista vs. sovitetut vastaukset asiakkaille, jotka haluavat vain mallin yleiskatsauksen / aistin tarkistuksen yksityiskohtiin rajoituksista, solmujen lukumäärästä ja sijainnista tilastollisesti kehittyneille. Jos ennustajille tai vastauksille on tärkeitä viitearvoja, kuten usein on, keskustelen mallin käyttäytymisestä suhteessa niihin, esittelen ne kaavioissa ja joskus lasken niiden väestöjakauman ja mallin mukaan.

@user20650: Joka tapauksessa selittämällä välttämättä monimutkaiset asiat parhaalla mahdollisella tavalla työn mukana. En odottaisi, että lääkäri laittaa minut leikkaukseen sen sijaan, että antaa minulle lääkkeitä vain siksi, että hänen on helpompi selittää osan ruumiini leikkaaminen kuin selittää, miten lääke toimii.

Yksinkertaistettu kliininen tulkinta on mirage.Luokiteltujen jatkuvien muuttujien vaikutusten arvioilla ei ole tunnettua tulkintaa.

Katso myös https://stats.stackexchange.com/questions/104402/what-is-the-justification-for-unsupervised-discretization-of-continuous-variable