Sen arvoista:
sekä rpart
että ctree
suorittavat rekursiivisesti yksimuuttujajaot riippuvan muuttujan perusteella arvot kovariaattisarjassa. rpart
ja niihin liittyvät algoritmit käyttävät yleensä informaatiomittareita (kuten Gini-kerroin) nykyisen kovariaatin valitsemiseksi.
ctree
, kirjoittajien mukaan (katso chlin kommentit) vältetään seuraavat rpart
(ja niihin liittyvät menetelmät) muuttujien valintapoikkeamat: He valitsevat yleensä muuttujia, joilla on monia mahdollisia jakaumia tai monia puuttuvat arvot. Toisin kuin muut, ctree
käyttää merkitsevyystestausmenetelmää muuttujien valitsemiseksi sen sijaan, että valitsisi muuttujan, joka maksimoi tietomäärän (esim. Gini-kerroin).
Merkitsevyystesti tai parempi: algoritmin jokaisessa alussa lasketut useat merkitsevyystestit (valitse kovariaatti - valitse jako - toistuminen) ovat permutaatiotestejä, ts. " testitilastojen jakauma nollahypoteesin perusteella saadaan laskemalla testitilaston kaikki mahdolliset arvot havaittujen datapisteiden etikettien uudelleenjärjestelyjen mukaisesti. " (wikipediaartikkelista).
Seuraavaksi testitilasto: se lasketaan riippuvan muuttujan ja kovariaattien muunnoksista (mukaan lukien identiteetti eli ei muunnosta). Voit valita minkä tahansa useista muunnoksista molemmille muuttujille. DV: n (riippuvainen muuttuja) muutosta kutsutaan vaikutusfunktioksi , josta kysyit.
Esimerkkejä (otettu paperista):
- jos sekä DV että kovariaatit ovat numeerisia, voit valita identiteettimuunnokset ja laskea korrelaatiot kovariaatti ja kaikki mahdolliset DV-arvojen permutaatiot. Sitten lasket p -arvon tästä permutaatiotestistä ja verrataan sitä muiden kovariaattien p -arvoihin.
- jos sekä DV että kovariaatit ovat nimellisiä (järjestämättömiä kategorioita), testitilastot lasketaan varautumistaulukosta.
- voit helposti muodostaa muun tyyppisiä testitilastoja kaikenlaisista muunnoksista (mukaan lukien henkilöllisyysmuunnos) tästä yleisestä kaavasta.
pieni esimerkki permutaatiotestistä R
:
need (gtools) dv <- c (1,3,4,5,5); kovariaatti <- c (2,2,5,4,5) # kaikki mahdolliset dv: n permutaatiot, pituus (120): perms <- permutaatiot (5,5, dv, set = EPÄTOSI) # laskee nyt korrelaatiot kaikille permeille kovariaatti: cors <- soveltaa (perms, 1, function (perms_row) cor (perms_row, covariate)) cors <- cors [järjestys (cors)] # nyt p-arvo: vertaa cor (dv, kovariaatti) # lajiteltuun vektoriin kaikista permutaatiokorrelaatioista pituus (cors [cors> = cor (dv, kovariate)]) / length (cors) # tulos: [1] 0,1, eli p-arvo 0,1 # Huomaa, että tämä on yksipuolinen testi koodi>
Oletetaan, että sinulla on joukko kovariaatteja, ei vain yhtä kuin yllä. Laske sitten jokaiselle kovariaatille p -arvot, kuten yllä olevassa kaaviossa, ja valitse se, jolla on pienin p -arvo. Haluat laskea p -arvot suoraan korrelaatioiden sijaan, koska sinulla voi olla erilaisia kovariaatteja (esim. Numeerisia ja kategorisia).
Kun olet valinnut kovariaatin, nyt tutkia kaikki mahdolliset jaot (tai usein jotenkin rajoitettu määrä kaikista mahdollisista jakoista, esimerkiksi vaatimalla vähäinen määrä DV-elementtejä ennen jakoa) arvioimalla uudelleen permutaatioon perustuva testi.
ctree
sisältää useita mahdollisia muunnoksia sekä DV: lle että kovariaateille (katso ohjeet Transformations
-paketista party
).
niin yleensä suurin ero näyttää olevan se, että ctree
käyttää kovariaattivalintamallia, joka perustuu tilastoteoriaan (ts. valinta permutaatioon perustuvilla merkitsevyystesteillä) ja välttää siten mahdollisen harhaa rpart
, muuten ne näyttävät samanlaisilta; esim. ehdollisia päättelypuita voidaan käyttää satunnaismetsien perusopiskelijoina.
Tämä on suunnilleen niin paljon kuin saan. Lisätietoja sinun täytyy lukea paperit. Huomaa, että suosittelen, että tiedät todella, mitä olet tekemässä, kun haluat käyttää minkäänlaista tilastollista analyysiä.