Olet oikeassa molemmissa asioissa. Katso Frank Harrellin sivulta täältä pitkä luettelo jatkuvien muuttujien yhdistämisen ongelmista. Jos käytät muutama säiliö, heität paljon tietoa ennustimista; Jos käytät monia, sinulla on taipumus sovittaa wiggles sujuvaan, ellei lineaariseen suhteeseen, & käyttää paljon vapausasteita. Yleensä on parempi käyttää ennustajiin polynomeja ($ x + x ^ 2 + \ ldots $) tai rihmoja (paloittain polynomeja, jotka liittyvät tasaisesti). Binning on oikeastaan vain hyvä idea, kun odotat katkeamisen vastauksessa leikkauspisteissä - sanotaan lämpötila, jolla jokin kiehuu, tai lakisääteinen ajo-ikä, &, kun vastaus on tasainen niiden välillä ..
Arvo? - No, se on nopea & helppo tapa ottaa kaarevuus huomioon ottamatta sitä mieltä. & malli voi hyvinkin olla tarpeeksi mihin sitä käytät. Se pyrkii toimimaan hyvin, kun sinulla on paljon tietoa ennustajien lukumäärään verrattuna, kukin ennustaja on jaettu useisiin luokkiin; tässä tapauksessa kussakin ennustuskaistassa vastealue on pieni & keskimääräinen vaste on määritetty tarkasti.
[Muokkaa vastauksena kommentteihin:
Joskus käytetään tavallisia raja-arvoja kentän sisällä jatkuvaa muuttujaa varten: esim lääketieteessä verenpaineen mittaukset voidaan luokitella mataliksi, keskisuuriksi tai korkeiksi. Tällaisten raja-arvojen käyttämiseen voi olla monia hyviä syitä, kun esität tai käytät mallia. Erityisesti päätöksentekosäännöt perustuvat usein vähemmän tietoihin kuin malliin, &ia on ehkä sovellettava yksinkertaisesti. Mutta ei seuraa, että nämä raja-arvot sopivat ennustajien yhdistämiseen, kun sovit malliin.
Oletetaan, että jokin vaste vaihtelee jatkuvasti verenpaineen mukaan. Jos määrität korkean verenpaineryhmän ennustajaksi tutkimuksessasi, arvioimaasi vaikutus on keskimääräinen vaste kyseisen ryhmän yksilöiden tiettyihin verenpaineisiin nähden. Se ei arvio korkeasta verenpaineesta kärsivien ihmisten tai toisen tutkimuksen korkean verenpaineryhmän ihmisten keskimääräisestä vasteesta, ellei ryhdy erityisiin toimenpiteisiin sen tekemiseksi. Jos verenpaineen jakautuminen väestössä tiedetään, kuten kuvittelen, niin on parempi laskea korkean verenpaineen omaavien ihmisten keskimääräinen vaste väestössä sen mallin ennusteiden perusteella, jossa verenpaine on jatkuva muuttuja. Raakalevitys tekee mallistasi vain suunnilleen yleistettävissä.
Jos sinulla on kysyttävää vastausten käyttäytymisestä raja-arvojen välillä, sovi paras malli, jonka ensin pystyt, & käyttää sitä sitten vastaamaan niihin. ]
[Esityksen osalta; Mielestäni tämä on punainen silli:
(1) Esityksen helppous ei oikeuta huonoja mallintamispäätöksiä. (Ja niissä tapauksissa, joissa binning on hyvä mallintamispäätös, se ei tarvitse ylimääräisiä perusteluja.) Tämä on varmasti itsestään selvää. Kukaan ei koskaan suosittele tärkeän vuorovaikutuksen poistamista mallista, koska sitä on vaikea esittää.
(2) Mikä tahansa malli sopii, voit silti esittää sen tulokset luokkiin, jos luulet auttaa tulkinnassa. Vaikka ...
(3) Sinun on oltava varovainen varmistaaksesi, että se ei auta mis -tulkintaa yllä mainituista syistä.
(4) Ei ole itse asiassa vaikeaa esittää epälineaarisia vastauksia. Henkilökohtainen mielipide, selvästi, &-yleisöt eroavat toisistaan; mutta en ole koskaan nähnyt kaaviota sovitetuista vastearvoista vs. ennustearvot hämmentää joku vain siksi, että se on kaareva. Vuorovaikutukset, logit, satunnaiset vaikutukset, monikollinaarisuus ... - näitä kaikkia on paljon vaikeampaa selittää.]
[@Rolandin esiin tuoma lisäpiste on ennustajien mittaustarkkuus; hän ehdottaa, luulen, että luokittelu voi olla sopiva, kun ne eivät ole erityisen tarkkoja. Terve järki saattaa ehdottaa, ettet paranna asioita palauttamalla ne vielä vähemmän tarkasti, &-järki olisi oikeassa: MacCallum ym. (2002), "Kvantitatiivisten muuttujien dikotomisoinnista", Psykologiset menetelmät , 7 , 1, s. 17–19.]