Kysymys:
Kuinka jakelun epätasaisuus mitataan?
JJC
2012-04-04 14:00:34 UTC
view on stackexchange narkive permalink

Yritän laatia mittarin, jolla mitataan jakelun epätasaisuudet käynnissä olevalle kokeelle. Minulla on satunnaismuuttuja, jonka pitäisi jakautua tasaisesti useimmissa tapauksissa, ja haluaisin pystyä tunnistamaan (ja mahdollisesti mittaamaan) esimerkkejä tietojoukoista, joissa muuttuja ei ole tasaisesti jakautunut jonkin marginaalin sisällä.

Esimerkki kolmesta datasarjasta, joissa kussakin on 10 mittausta, jotka edustavat mitattavan tapahtuman esiintymistiheyttä, voi olla jotain tällaista:

  a: [10% 11 % 10% 9% 9% 11% 10% 10% 12% 8%] b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%] c: [3% 2% 60 % 2% 3% 7% 6% 5% 5% 7%] <-- epätasainen: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]  

Haluaisin pystyä erottamaan c: n kaltaiset jakaumat a: sta ja b: stä ja mitata c: n poikkeaman tasaisesta jakaumasta. Vastaavasti, jos on olemassa mittari sille, kuinka tasainen jakauma on (vakio poikkeama lähellä nollaa?), Voin kenties käyttää sitä erottamaan suuret varianssit. Tietoillani voi kuitenkin olla vain yksi tai kaksi poikkeamaa, kuten yllä olevassa c esimerkissä, enkä ole varma, onko se helposti havaittavissa tällä tavalla.

Voin hakkerata jotain tehdäksesi tämän ohjelmistossa, mutta etsin tilastollisia menetelmiä / lähestymistapoja tämän perustelemiseksi muodollisesti. Otin luokan vuosia sitten, mutta tilastot eivät ole minun alueeni. Tämä näyttää olevan jotain, jolla pitäisi olla hyvin tunnettu lähestymistapa. Anteeksi, jos jokin näistä on täysin luupää. Kiitos etukäteen!

Aiheeseen liittyvät: http://stats.stackexchange.com/questions/66186/statistical-interpretation-of-maximum-entropy-distribution/245198#245198
Neljä vastused:
MånsT
2012-04-04 14:19:00 UTC
view on stackexchange narkive permalink

Jos sinulla ei ole vain taajuuksia, vaan todelliset lukemat, voit käyttää $ \ chi ^ 2 $ sopivuus-testiä jokaiselle datasarjalle. Erityisesti haluat käyttää testiä erilliseen tasaiseen jakautumiseen. Tämä antaa sinulle hyvän testin , jonka avulla voit selvittää, mitkä datasarjat eivät todennäköisesti ole muodostuneet tasaisesta jakaumasta, mutta ei tarjoa mittaa yhtenäisyyttä.

On olemassa muita mahdollisia lähestymistapoja, kuten kunkin sarjan entropian laskeminen - yhtenäinen jakauma maksimoi entropian, joten jos entropia on epäilyttävän matala, päätelisi, että sinulla ei todennäköisesti ole tasaista jakaumaa . Se toimii jossain mielessä yhtenäisyyden mittana.

Toinen ehdotus olisi käyttää sellaista mittaria kuin Kullback-Leibler-divergenssi, joka mittaa kahden jakauman samankaltaisuutta.

Minulla on pari kysymystä vastauksestasi: 1. Miksi sanot, että chi-neliö ei anna yhtenäisyyttä? Eikö tasaisuudella varustettu sopivuuskoe ole yhdenmukaisuuden mitta? 2. Mistä voimme tietää, milloin meidän tulisi käyttää joko chi-neliötä tai entropiaa?
@kanzen_master: Luulen, että khi-neliön tilasto voidaan nähdä yhtenäisyyden mittarina, mutta sillä on joitain haittoja, kuten lähentymisen puute, riippuvuus mielivaltaisesti sijoitetuista roskakorista, että odotettavissa olevien lukumäärä soluissa on riittävän suuri jne. Mikä mitta / koe on käytettävä, on kuitenkin makukysymys, eikä entropia ole myöskään ongelmaton (erityisesti on olemassa useita erilaisia ​​arvioita jakauman entropiasta). Minulle entropia näyttää olevan vähemmän mielivaltainen toimenpide ja sitä on helpompi tulkita.
Onko todellakin välttämätöntä saada todelliset laskelmat?Eikö testi toimi suoraan taajuuksilla?
@MichaelMior: tarvitset laskelmat [chi-neliön tilaston] laskemiseksi (https://fi.wikipedia.org/wiki/Goodness_of_fit#Categorical_data).
@MånsT Mutta miksi taajuuksia ei voitu käyttää sen sijaan?
Peter Flom
2012-04-04 15:11:52 UTC
view on stackexchange narkive permalink

@MansT: n hyvien ideoiden lisäksi voit ehdottaa muita toimenpiteitä, mutta se riippuu siitä, mitä tarkoitat epätasaisuudella. Tarkastellaan yksinkertaisuutta tarkastelemalla 4 tasoa. Täydellinen tasaisuus on helppo määritellä:

25 25 25 25

mutta mikä seuraavista on epätasaisempi?

20 20 30 30 tai20 20 25 35

vai ovatko ne yhtä epäyhtenäisiä?

Jos luulet niiden olevan yhtä epätasaisia, voit käyttää mittayksikköä, joka perustuu normaalista poikkeamien absoluuttisten arvojen summaan , skaalataan suurimmalla mahdollisella arvolla. Sitten ensimmäinen on 5 + 5 + 5 + 5 = 20 ja toinen on 5 + 5 + 0 + 10 = 20. Mutta jos toinen on mielestäsi epätasaisempi, voit käyttää jotain neliöpoikkeamien perusteella, jolloin ensin saa 25 + 25 + 25 + 25 = 100 ja toisen 25 + 25 + 0 + 100 = 150.

Näytät tulkitsevasi "tasaisesti jakautuneen" "tasa-arvoiseksi", Peter. Onko tämä OP: n aikomus, on pätevä asia tuoda esiin, mutta sen pitäisi todellakin näkyä kommenttina kysymykseen.
Hei @whuber Se näytti siltä, ​​mitä hän tarkoitti kysymyksestä. Mitä muuta se voi tarkoittaa?
"Yhtä" tarkoittaa, että CDF on $ F (x) = 1 $ for $ x \ ge \ mu $, $ F (x) = 0 $ for $ x \ lt \ mu $, kun taas "uniform" tarkoittaa $ F (x) = (x- \ alpha) / \ theta $ hintaan $ x \ [[alfa, \ alpha + \ theta] $. * Määrität * "täydellisen yhtenäisyyden" ensimmäisessä mielessä, kun taas vakiotilastollinen merkitys on toinen.
@whuber, näyttää siltä, ​​että ensimmäinen asia on lähempänä sitä, mitä alkuperäinen juliste tarkoitti "yhtenäisellä". Tarkasteltaessa sitä uudelleen näyttää siltä, ​​että hän käytti "yhtenäistä" tarkoittamaan "matala varianssi".
Siinä vain, Macro: emme voi todellakaan sanoa. Kysymys on selvitettävä, ennen kuin se ansaitsee vastauksen, IMHO. Hyväksytty vastaus viittaa siihen, että OP käytti "yhtenäistä" tilastollisessa vakiomaisessa mielessä.
user495285
2014-04-01 02:33:27 UTC
view on stackexchange narkive permalink

Tässä on yksinkertainen heuristinen: jos oletat, että elementit missä tahansa vektorisummassa ovat $ 1 $ (tai yksinkertaisesti normalisoit jokaisen elementin summalla tämän saavuttamiseksi), tasaisuus voidaan esittää L2-normilla, joka vaihtelee välillä $ \ frac { 1} {\ sqrt d} $ - $ 1 $, vektorien ulottuvuuden ollessa $ d $.

Alaraja $ \ frac {1} {\ sqrt d} $ vastaa yhtenäisyyttä ja ylärajaa vektoriin $ 1 $ -hot.

Jos haluat skaalata tämän pisteeksi välillä 0 $ $ - $ 1 $, voit käyttää $ \ frac {n * \ sqrt d - 1} {\ sqrt d - 1} $, jossa $ n $ on L2-normi.

Esimerkki, joka on muokattu omistasi elementeillä, joiden summa on $ 1 $, ja kaikki vektorit, joilla on sama ulottuvuus yksinkertaisuuden vuoksi:

  0.10 0,11 0,10 0,09 0,09 0,11 0,10 0,10 0,12 0,080,10 0,10 0,10 0,08 0,12 0,12 0,09 0,09 0,12 0,080,03 0,02 0,61 0,02 0,03 0,07 0,06 0,05 0,06 0,05  

Seuraavasta saadaan 0,0028 dollaria, 0,0051 dollaria $ ja $ 0.4529 $ riveille:

  d = koko (m, 2); i = 1: koko (m); disp ((normi (m (i,:)) * sqrt (d) -1) / (sqrt (d) -1)); loppu  
Se toimii hienosti. Mutta miksi (tai missä olosuhteissa) sen pitäisi olla parempi kuin mikä tahansa muu $ L_p $ -normi tai muita tässä säikeessä tarjottuja ratkaisuja?
@whuber, jota en tiedä enkä tiedä mitään tutkimusta tästä. Pohjimmiltaan se on jotain, jota olen käyttänyt heuristisena, joka saattaa sopia OP: n jälkeen, enkä oikeastaan ​​väitä, että se olisi ensisijainen lähestymistapa.
@whuber - Voitteko selvittää teoreettisesti, miksi tämä toimii niin hyvin.Minun on mainittava tämä.
@user495285 - Tämä näyttää toimivan suoraan arvojen eikä vain taajuuksien kanssa.Kokemuksenne mukaan on parempi käyttää sitä vain taajuuksien kanssa vai onko okei käyttää sitä suoraan vektorissa.
@Ketan Suosittelen, ettet mainitse tätä viestiä, koska se on heuristinen ja teoreettisesti tuettu.(Koska se ei perustu otantavaihteluiden huomioon ottamiseen, ei ole mitään tapaa kertoa - ilman lisäanalyyseja - onko se mitään hyvää.) Tapahtuu kuitenkin, että $ L_2 $ -normilla on yksinkertainen algebrallinen yhteys$ \ chi ^ 2 $ -tilastoon, jota käytetään [sopivuuskokeiden hyvyydessä:] (http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm) * se * voi olla syy siihensopivat epätasaisuuden mittaamiseen.
Okei.En mainitse näitä linkkejä.Etsin intuitiota, jonka voin sitten selittää omin sanoin.Voisitko selittää tämän L2-normien yksinkertaisen algebrallisen yhteyden chi-neliön tilastoon hieman yksityiskohtaisemmin?Halutessasi voit tehdä sen vastaamalla tähän kysymykseen: http://stats.stackexchange.com/questions/248772/why-does-the-l2-norm-heuristic-work-in-measuring-uniformity-of-todennäköisyys-distr
Tämä vastaa periaatteessa pisteiden keskihajonnan laskemista.Jos arvoja tarkastellaan $ d $ -mittauspisteen koordinaateina, niin $ L_2 $ -normi on vain etäisyys origosta (tai vastaavasti vektorin suuruus).Kunkin koordinaatin neliöinti vastaa varianssin laskemista, ja neliöjuuren operaatio $ L_2 $ -normilla on aivan kuin muunnetaan varianssi keskihajonnaksi.Tämä heuristiikka ei ole parempi tai huonompi kuin vain laskea kunkin luettelon keskihajonta ja ottaa pienin.
lakinsm
2016-01-05 14:29:27 UTC
view on stackexchange narkive permalink

törmäsin tähän äskettäin ja lisäämään @ user495285: n vastaukseen, sikäli kuin ymmärrän sen:

Kun arvot normalisoidaan ja lasketaan yhteen, niin yhtenäinen jakauma on yksikköpallo in $ \ mathbb {R} ^ n $, ja mikä lasketaan käyttämällä $ L_p $ -normia, on poikkeama yksikköpallosta käyttämällä tietyn $ p $: n etäisyysmittaa, eli poikkeama yhtenäisestä jakaumasta $ \: ssa. mathbb {R} ^ n $, jossa geometrinen etäisyysmitta $ p $.

Normi ​​$ L_2 $ asettaa suuremman painon suurille poikkeamille yksikköpallosta missä tahansa ulottuvuudessa, kun taas pienemmät arvot $ p $ place vähemmän painoa suurilla poikkeamilla.

Kun taustalla oleva jakauma on yksikköpallo, osoittaja on nolla seuraavassa yhtälössä: $$ \ frac {n \ sqrt {d} - 1} {\ sqrt {d } - 1} $$, jossa $ n $ on $ L_2 $ -normi ja $ d $ on vektorin pituus.

Uskon, että geometristen mittojen hyödyllisyys pätee, kun jokainen tilan sijainti (ulottuvuus) kuvatun oletetaan mitattavan ekvivalentilla sca: lla les, esim. kaikki potentiaalisesti samanlaiset jakaumat. Samat oletukset, jotka perustuvat emästen muutokseen, kuten PCA / SVD, ovat todennäköisesti samanlaisia ​​tässä. Mutta sitten taas en ole matemaatikko, joten jätän sen avoimemmaksi tietoisemmille.

Kuulostaa hyödylliseltä.Voisitteko antaa minulle viitteitä, jotta voin ymmärtää tämän paremmin?Minun on todella mainittava tämä.
Voisit mainita minkä tahansa lineaarisen algebratekstin, joka peittää Lp-normin;tämä on hyvin yleinen aihe geometriassa: kuinka lasketaan etäisyys kahden pisteen välillä N-ulotteisessa tilassa.Sinun ei ehkä tarvitse edes mainita sitä alastasi riippuen.


Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 3.0-lisenssistä, jolla sitä jaetaan.
Loading...