Kysymys:
Mitä hyötyä on jatkuvan ennustemuuttujan hajottamisesta?
Tom
2013-08-31 10:32:30 UTC
view on stackexchange narkive permalink

Mietin, mikä arvo on jatkuvan ennustemuuttujan ottamisessa ja sen hajottamisessa (esim. kvintiileiksi) ennen sen käyttöä mallissa.

Minusta näyttää siltä, ​​että yhdistämällä muuttuja menetämme tietoja.

  • Onko tämä vain mallintaa ei-lineaarisia vaikutuksia? b>
1) Ei. Olet oikeassa, että yhdistäminen menettää tietoja. Sitä tulisi välttää, jos mahdollista. 2) Yleensä käyräfunktio, joka on yhdenmukainen tietojen taustalla olevan teorian kanssa, on edullinen.
En tiedä eduista, mutta on olemassa useita [laajalti tunnustettuja vaaroja] (http://stats.stackexchange.com/a/41233/805)
Vastahakoinen argumentti sille, toisinaan: Se voi yksinkertaistaa kliinistä tulkintaa ja tulosten esittämistä - esim. verenpaine on usein neliöllinen ennustaja, ja lääkäri voi tukea raja-arvojen käyttöä matalalle, normaalille ja korkealle verenpaineelle ja saattaa olla kiinnostunut näiden laajojen ryhmien vertailusta.
@user20650: En ole aivan varma, että ymmärsin sinut, mutta eikö olisi parempi sopia parhaaseen malliin kuin pystyt, ja sitten käyttää kyseisen mallin ennusteita sanomaan mitä haluat sanoa laajoista ryhmistä? Tutkimukseni 'korkean verenpaineen ryhmällä' ei välttämättä ole samaa painejakaumaa kuin väestöllä, joten niiden tulokset eivät yleisty.
@scortchi: Olen samaa mieltä siitä, että usein ei ole hyödyllistä käyttää todellisia tietoja raja-arvojen päättämisessä - mutta esimerkissäni on yleisesti sovittuja paineita (~ +/-), jotka osoittavat kliinisesti hyper- ja hypo-jännitteitä sekä normaalin alueen. Kuinka kauan näiden kynnysten ylittävä tai alle jää, arvo ei välttämättä ole yhtä tärkeää lääkärille kuin se, että ne on saavutettu. Hyväksy myös, että luokitteleminen ei ole suositeltavaa, mutta jos tarkoituksena on yksinkertaisesti esittää assosiaatioita tuloksella, on (mielestäni) joskus vaikeaa esittää epälineaarisia assosiaatioita selkeällä, helposti tulkittavalla tavalla ....
@user20650: Kuten kaikki esitykset, se riippuu yleisöstä. Pelkkä kaavio ennustajista vs. sovitetut vastaukset asiakkaille, jotka haluavat vain mallin yleiskatsauksen / aistin tarkistuksen yksityiskohtiin rajoituksista, solmujen lukumäärästä ja sijainnista tilastollisesti kehittyneille. Jos ennustajille tai vastauksille on tärkeitä viitearvoja, kuten usein on, keskustelen mallin käyttäytymisestä suhteessa niihin, esittelen ne kaavioissa ja joskus lasken niiden väestöjakauman ja mallin mukaan.
@user20650: Joka tapauksessa selittämällä välttämättä monimutkaiset asiat parhaalla mahdollisella tavalla työn mukana. En odottaisi, että lääkäri laittaa minut leikkaukseen sen sijaan, että antaa minulle lääkkeitä vain siksi, että hänen on helpompi selittää osan ruumiini leikkaaminen kuin selittää, miten lääke toimii.
Yksinkertaistettu kliininen tulkinta on mirage.Luokiteltujen jatkuvien muuttujien vaikutusten arvioilla ei ole tunnettua tulkintaa.
Katso myös https://stats.stackexchange.com/questions/104402/what-is-the-justification-for-unsupervised-discretization-of-continuous-variable
Seitsemän vastused:
Scortchi - Reinstate Monica
2013-08-31 13:34:40 UTC
view on stackexchange narkive permalink

Olet oikeassa molemmissa asioissa. Katso Frank Harrellin sivulta täältä pitkä luettelo jatkuvien muuttujien yhdistämisen ongelmista. Jos käytät muutama säiliö, heität paljon tietoa ennustimista; Jos käytät monia, sinulla on taipumus sovittaa wiggles sujuvaan, ellei lineaariseen suhteeseen, & käyttää paljon vapausasteita. Yleensä on parempi käyttää ennustajiin polynomeja ($ x + x ^ 2 + \ ldots $) tai rihmoja (paloittain polynomeja, jotka liittyvät tasaisesti). Binning on oikeastaan ​​vain hyvä idea, kun odotat katkeamisen vastauksessa leikkauspisteissä - sanotaan lämpötila, jolla jokin kiehuu, tai lakisääteinen ajo-ikä, &, kun vastaus on tasainen niiden välillä ..

Arvo? - No, se on nopea & helppo tapa ottaa kaarevuus huomioon ottamatta sitä mieltä. & malli voi hyvinkin olla tarpeeksi mihin sitä käytät. Se pyrkii toimimaan hyvin, kun sinulla on paljon tietoa ennustajien lukumäärään verrattuna, kukin ennustaja on jaettu useisiin luokkiin; tässä tapauksessa kussakin ennustuskaistassa vastealue on pieni & keskimääräinen vaste on määritetty tarkasti.

[Muokkaa vastauksena kommentteihin:

Joskus käytetään tavallisia raja-arvoja kentän sisällä jatkuvaa muuttujaa varten: esim lääketieteessä verenpaineen mittaukset voidaan luokitella mataliksi, keskisuuriksi tai korkeiksi. Tällaisten raja-arvojen käyttämiseen voi olla monia hyviä syitä, kun esität tai käytät mallia. Erityisesti päätöksentekosäännöt perustuvat usein vähemmän tietoihin kuin malliin, &ia on ehkä sovellettava yksinkertaisesti. Mutta ei seuraa, että nämä raja-arvot sopivat ennustajien yhdistämiseen, kun sovit malliin.

Oletetaan, että jokin vaste vaihtelee jatkuvasti verenpaineen mukaan. Jos määrität korkean verenpaineryhmän ennustajaksi tutkimuksessasi, arvioimaasi vaikutus on keskimääräinen vaste kyseisen ryhmän yksilöiden tiettyihin verenpaineisiin nähden. Se ei arvio korkeasta verenpaineesta kärsivien ihmisten tai toisen tutkimuksen korkean verenpaineryhmän ihmisten keskimääräisestä vasteesta, ellei ryhdy erityisiin toimenpiteisiin sen tekemiseksi. Jos verenpaineen jakautuminen väestössä tiedetään, kuten kuvittelen, niin on parempi laskea korkean verenpaineen omaavien ihmisten keskimääräinen vaste väestössä sen mallin ennusteiden perusteella, jossa verenpaine on jatkuva muuttuja. Raakalevitys tekee mallistasi vain suunnilleen yleistettävissä.

Jos sinulla on kysyttävää vastausten käyttäytymisestä raja-arvojen välillä, sovi paras malli, jonka ensin pystyt, & käyttää sitä sitten vastaamaan niihin. ]

[Esityksen osalta; Mielestäni tämä on punainen silli:

(1) Esityksen helppous ei oikeuta huonoja mallintamispäätöksiä. (Ja niissä tapauksissa, joissa binning on hyvä mallintamispäätös, se ei tarvitse ylimääräisiä perusteluja.) Tämä on varmasti itsestään selvää. Kukaan ei koskaan suosittele tärkeän vuorovaikutuksen poistamista mallista, koska sitä on vaikea esittää.

(2) Mikä tahansa malli sopii, voit silti esittää sen tulokset luokkiin, jos luulet auttaa tulkinnassa. Vaikka ...

(3) Sinun on oltava varovainen varmistaaksesi, että se ei auta mis -tulkintaa yllä mainituista syistä.

(4) Ei ole itse asiassa vaikeaa esittää epälineaarisia vastauksia. Henkilökohtainen mielipide, selvästi, &-yleisöt eroavat toisistaan; mutta en ole koskaan nähnyt kaaviota sovitetuista vastearvoista vs. ennustearvot hämmentää joku vain siksi, että se on kaareva. Vuorovaikutukset, logit, satunnaiset vaikutukset, monikollinaarisuus ... - näitä kaikkia on paljon vaikeampaa selittää.]

[@Rolandin esiin tuoma lisäpiste on ennustajien mittaustarkkuus; hän ehdottaa, luulen, että luokittelu voi olla sopiva, kun ne eivät ole erityisen tarkkoja. Terve järki saattaa ehdottaa, ettet paranna asioita palauttamalla ne vielä vähemmän tarkasti, &-järki olisi oikeassa: MacCallum ym. (2002), "Kvantitatiivisten muuttujien dikotomisoinnista", Psykologiset menetelmät , 7 , 1, s. 17–19.]

Erinomaiset kommentit yleiseen ongelmaan. Tässä on tärkeää levittää perusteellisesti kvantitatiivista ajattelua varten. Kynnysten ylittämiseen on jo panostettu liikaa, esim. jonkin tason katastrofin yläpuolella, jonkin tason mukavuuden alapuolella.
Haastaisin ketään osoittamaan kaikkien lääkäreiden käyttämien raja-arvojen validoinnin.
On syytä huomata, että tällä yhdistämismenetelmällä on joitain etuja muilla alueilla - se on erityisen suosittu yhdistettynä suuriin hermoverkoihin multimodaalijakaumien, kuten ajoneuvon suunnan, ennustamiseksi.Katso esimerkiksi https://arxiv.org/abs/1612.00496.
Tom
2014-01-20 08:31:42 UTC
view on stackexchange narkive permalink

Osa tästä vastauksesta, jonka olen oppinut kysymisen jälkeen, on se, että ei yhdistäminen ja yhdistäminen pyrkii vastaamaan kahteen hieman erilaiseen kysymykseen - Mikä on tietojen muutos? ja Mikä onko ero pienimmän ja suurimman välillä? .

Ei yhdistäminen sanoo "tämä on määrällistä määritystä tiedoissa havaitusta trendistä" ja yhdistäminen sanoo "Minulla ei ole tarpeeksi tietoa sanomaan kuinka paljon tämä muuttuu jokaisella lisäyksellä, mutta voin sanoa yläosa on erilainen kuin alaosa ".

Roland
2013-09-04 01:26:52 UTC
view on stackexchange narkive permalink

Kliinikkona mielestäni vastaus riippuu siitä, mitä haluat tehdä. Jos haluat tehdä parhaan sovituksen tai tehdä parhaan säädön, voit käyttää jatkuvia ja neliönmuuttujia.

Jos haluat kuvata ja kommunikoida monimutkaisia ​​assosiaatioita ei-tilastollisesti suuntautuneelle yleisölle, luokiteltujen muuttujien käyttö on parempi, hyväksymällä, että saatat antaa joitakin hieman puolueellisia tuloksia viimeisen desimaalin tarkkuudella. Käytän mieluummin vähintään kolmea luokkaa epälineaaristen assosiaatioiden näyttämiseen. Vaihtoehto on tuottaa kuvaajia ja ennustettuja tuloksia tietyissä pisteissä. Sitten saatat joutua tuottamaan kaavioperheen kutakin jatkuvaa kovariaattia varten, mikä voi olla mielenkiintoista. Jos pelkäät saada liikaa ennakkoluuloja, luulen, että voit testata molemmat mallit ja nähdä, onko ero tärkeä vai ei. Sinun on oltava käytännöllinen ja realistinen.

Luulen voivamme ymmärtää, että monissa kliinisissä tilanteissa laskelmamme eivät perustu tarkkoihin tietoihin, ja kun esimerkiksi määrään lääkettä aikuiselle, en tee sitä joka tapauksessa tarkoilla mg: lla / kilo leikkauksen ja lääkehoidon välillä on vain hölynpölyä).

Miksi analogia on hölynpölyä? Koska jatkuvien muuttujien luokittelu ei koskaan tuota merkittävästi huonompia malleja? Tai siksi, että huomattavasti huonomman mallin käytöllä ei ole koskaan käytännön seurauksia?
@Roland ei yksinkertaisesti ole näin. Katkaisuista saadut arviot ovat yksinkertaisia, koska ihmiset eivät ymmärrä, mitä arviot arvioivat. Tämä johtuu siitä, että he eivät arvioi tieteellistä määrää, ts. Määrää, jolla on merkitystä näytteen tai kokeen ulkopuolella. Esimerkiksi korkea: matala kertoimien suhde tai keskimääräinen ero kasvaa, jos lisäät potilaisiin, joiden arvot ovat erittäin korkeita tai erittäin matalia. Katkaisujen käyttö merkitsee myös sitä, että biologia on epäjatkuvaa, mikä ei ole asia.
@Scortchi Vaihto lääketieteellisestä kirurgiseen hoitoon, koska se on helpompi selittää (onko se todella?), Ikään kuin korvattaisiin ikä korkeudella selittävänä muuttujana.
Olen samaa mieltä dikotisoitujen muuttujien välttämisestä. Kliininen lääketiede ei ole kivitiedettä, jossa viimeinen desimaali on tärkeä. Malleissa, joissa työskentelen, tulokset muuttuvat viimeisen desimaalin tarkkuudella vain, jos käytän ikä / ikä -luokkia jatkuvina ja neliönmuuttujina, mutta lisää assosiaatioiden ymmärtämistä ja viestittävyyttä valtavasti.
cjthompson
2014-10-06 08:31:10 UTC
view on stackexchange narkive permalink

Kuten edellisissä julisteissa on mainittu, on parasta välttää jatkuvan muuttujan kahtiajakoa. Vastauksena kysymykseesi on kuitenkin tapauksia, joissa jatkuvan muuttujan dikotomisoinnilla on etuja.

Esimerkiksi, jos tietyssä muuttujassa on puuttuvat arvot merkittävälle osalle väestöä, mutta sen tiedetään olevan erittäin ennakoiva ja puuttuvilla arvoilla itsessään on ennustearvo. Harkitse esimerkiksi luottopisteytysmallissa muuttujaa, sanotaanpa keskimääräinen pyörivä luottotase (joka myönsi, ei ole teknisesti jatkuva, mutta tässä tapauksessa heijastaa normaalijakaumaa, joka on riittävän lähellä käsiteltäväksi sellaisenaan), joka sisältää puuttuvat arvot noin 20 prosentille hakijapoolista tietyillä kohdemarkkinoilla. Tällöin tämän muuttujan puuttuvat arvot edustavat erillistä luokkaa - ne, joilla ei ole avointa, luottolimiittiä; Näiden asiakkaiden käyttäytyminen on täysin erilaista verrattuna esimerkiksi niihin, joilla on käytettävissä olevia luottolimiittejä, mutta joilla ei ole säännöllistä saldoa. Jos sen sijaan nämä puuttuvat arvot hylätään tai lasketaan, se voi rajoittaa mallin ennakointikykyä.

Toinen dikotomisoinnin etu: sitä voidaan käyttää vähentämään merkittävien poikkeamien vaikutuksia, jotka vääristävät kertoimia, mutta edustavat realistisia tapauksia joita on käsiteltävä. Jos poikkeamat eivät poikkea suurelta osin muista lähimpien prosenttipisteiden arvoista, mutta vääristävät parametreja tarpeeksi marginaalisen tarkkuuden aikaansaamiseksi, voi olla hyödyllistä ryhmitellä ne arvoilla, joilla on samanlaiset vaikutukset.

Joskus jakauma soveltuu luonnollisesti luokkaryhmään, jolloin dikotomisaatio antaa sinulle suuremman tarkkuuden kuin jatkuva funktio.

Kuten aiemmin mainittiin, esityksen helppous voi yleisöstä riippuen olla suurempi kuin menetys tarkkuudella. Luottopisteytyksen käyttämiseksi jälleen esimerkkinä, käytännössä korkea sääntelyaste tekee käytännön esimerkin toisinaan diskretisoinnista. Vaikka korkeampi tarkkuus voi auttaa luotonantajaa vähentämään tappioita, ammattilaisten on myös katsottava, että sääntelyviranomaisten (jotka voivat pyytää tuhansia sivuja mallidokumentaatiota) ja kuluttajien, joille luottotiedot evätään, on laillisesti oikeus saada mallit helposti ymmärrettäviksi. selitys miksi.

Kaikki riippuu käsillä olevasta ongelmasta ja tiedoista, mutta on varmasti tapauksia, joissa dikotomisaatiolla on omat etunsa.

Dichotomization on asettaminen kahteen lokeroon - tarkoitatko diskretisointia?
Molemmissa kahdessa ensimmäisessä esimerkissä diskretisointi yrittää bluffata tiensä juhliin tarttumalla vilpittömään vieraaseen.** Älä hämää. ** (1) Jos haluat mallintaa, että sinulla ei ole avointa luottolimiittiä erillisenä luokkana, käytä vain nuken muuttujaa osoittaaksesi kyseisen ehdon ja määritä mikä tahansa * vakio * -arvo keskimääräiselle uusiutuvalle luottosaldolle..(2) Jos haluat kohdella tiettyjä äärimmäisiä ennustearvoja identtisesti "suurina" tai "pieninä", katkaise ne;ei tarvitse pilata muita arvoja.Kolmas tapaus on kiistaton - lisää esimerkkejä.
Nguyen
2017-02-22 07:54:32 UTC
view on stackexchange narkive permalink

Jos muuttujalla on vaikutus tietyllä kynnyksellä, luo uusi muuttuja yhdistämällä se on hyvä asia.Säilytän molemmat muuttujat, alkuperäisen ja yhdistävän, ja tarkistan, mikä muuttuja on parempi ennustaja.

DWin
2018-01-23 23:43:43 UTC
view on stackexchange narkive permalink

Olen sitoutunut fani Frank Harrellin neuvosta, jonka mukaan analyytikoiden tulisi vastustaa jatkuvan tiedon ennenaikaista diskretisointia. Ja minulla on useita vastauksia CV: stä ja SO: sta, jotka osoittavat, kuinka visualisoida jatkuvien muuttujien välistä vuorovaikutusta, koska mielestäni se on vielä arvokkaampi tutkimuslinja. Minulla on kuitenkin myös todellinen kokemus lääketieteellisessä maailmassa esteistä noudattaa näitä neuvoja. Usein on houkuttelevia jakoja, joita sekä lääkärit että muut kuin kliinikot odottavat "jakautumiseksi". Tavanomainen "normaalin yläraja" on yksi tällainen "luonnollinen" jakopiste. Ensinnäkin ensin tarkastellaan suhteiden tilastollista perustaa ja sitten ilmoitetaan havaintojen sisällöstä sellaisilla ehdoilla, joita yleisö odottaa ja voi helposti ymmärtää. Huolimatta "allergiastani" baarialueille, ne ovat erittäin yleisiä tieteellisessä ja lääketieteellisessä keskustelussa. Joten yleisöllä on todennäköisesti valmiita kognitiivisia malleja niiden käsittelyyn ja he voivat integroida tulokset tietopohjaansa.

Lisäksi ennustinmuuttujien epälineaaristen muotojen mallinnettujen vuorovaikutusten graafinen esittäminen edellyttää ääriviivapiirrosten tai lankakehysten esitysten esittämistä, joita suurimmalla osalla yleisöstä on vaikeuksia sulattaa. Olen löytänyt lääketieteen ja suuren yleisön vastaanottavaisemmiksi esityksille, jotka ovat diskretisoineet ja segmentoineet tuloksia. Joten oletan johtopäätöksen, että jakaminen tehdään oikein sen jälkeen, kun tilastollinen analyysi on valmis; ja se tehdään esittelyvaiheessa.

DaL
2015-10-19 11:42:46 UTC
view on stackexchange narkive permalink

Jatkuvien muuttujien yhdistäminen aiheuttaa usein levottomuuden tunteen vahingoittumisesta menetetyn tiedon takia. Sen lisäksi, että voit sitoa tiedon menetyksen, voit saada tietoa ja saada enemmän etuja.

Jos käytät yhdistämistä ja haet luokiteltuja muuttujia, saatat pystyä soveltamaan oppimisalgoritmeja, joita ei sovelleta jatkuviin muuttujiin. Tietojoukko saattaa sopia paremmin yhteen näistä algoritmeista, joten tässä on ensimmäinen etusi.

Ajatus arvioida yhdistämisen aiheuttama tappio perustuu paperiin "PAC-oppiminen epäolennaisilla attribuuteilla". Oletetaan, että konseptimme on binaarinen, jotta voimme jakaa näytteet positiivisiksi ja negatiivisiksi. Kullekin negatiivisen ja positiivisen näytteen parille käsitteen ero voidaan selittää erolla yhdessä ominaisuudessa (tai muuten sitä ei voida selittää annetuilla ominaisuuksilla). Ominaisuuserojen joukko on joukko mahdollisia selityksiä käsite-eroille, joten tiedot, joita käytetään käsitteen määrittämiseen. tarvitaan (suhteessa oppimisalgoritmeihin, jotka toimivat tällaisten vertailujen avulla) .Jos luokittelumme on hyvin tiukka, meillä on todennäköisesti pienempi joukko mahdollisia selityksiä, mutta pystymme mittaamaan tarkasti, kuinka paljon ja missä menetämme. Tämä antaa meille mahdollisuuden vaihtaa roskakorien lukumäärä vs. selitysjoukot.

Tähän mennessä olemme nähneet, ettemme voi menettää luokittelun takia, mutta jos harkitsemme tällaisen vaiheen soveltamista, haluaisimme hyötyä . Voimme todellakin hyötyä luokittelusta.

Monet oppimisalgoritmit, joita pyydetään luokittelemaan otos arvoilla, joita ei näy junajoukossa, pitävät arvoa tuntemattomana. Siksi saamme roskakorin "tuntematon", joka sisältää KAIKKI arvot, joita ei ole nähty junan aikana (tai edes tarpeeksi). Tällaisissa algoritmeissa tuntemattomien arvoparien välistä eroa ei käytetä luokituksen parantamiseen. Vertaa pareitasi yhdistämisen jälkeen tuntemattomiin pareihin ja katso, onko yhdistäminen hyödyllinen ja mitä sinä todella sait.

Voit arvioida tuntemattomien arvojen yleisyyden tarkistamalla kunkin ominaisuuden arvojakauman. Ominaisuus oli arvoja, jotka näkyvät vain muutaman kerran, ja huomattava osa niiden jakautumisesta ovat hyviä ehdokkaita binningiin. Huomaa, että monissa tilanteissa sinulla on monia ominaisuuksia tuntemattomalla, mikä lisää todennäköisyyttä, että näyte sisältää tuntemattoman arvon. Kaikkia tai monia ominaisuuksia käsittelevät algoritmit ovat alttiita virheille tällaisissa tilanteissa.

A. Dhagat ja L. Hellerstein, "PAC-oppiminen merkityksettömillä ominaisuuksilla", julkaisussa 'Proceedings of the IEEE Symp. tietojenkäsittelytieteen säätiöstä ', 1994. http://citeseer.ist.psu.edu/dhagat94pac.html



Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 3.0-lisenssistä, jolla sitä jaetaan.
Loading...