Yritän laatia mittarin, jolla mitataan jakelun epätasaisuudet käynnissä olevalle kokeelle. Minulla on satunnaismuuttuja, jonka pitäisi jakautua tasaisesti useimmissa tapauksissa, ja haluaisin pystyä tunnistamaan (ja mahdollisesti mittaamaan) esimerkkejä tietojoukoista, joissa muuttuja ei ole tasaisesti jakautunut jonkin marginaalin sisällä.
Esimerkki kolmesta datasarjasta, joissa kussakin on 10 mittausta, jotka edustavat mitattavan tapahtuman esiintymistiheyttä, voi olla jotain tällaista:
a: [10% 11 % 10% 9% 9% 11% 10% 10% 12% 8%] b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%] c: [3% 2% 60 % 2% 3% 7% 6% 5% 5% 7%] <-- epätasainen: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]
Haluaisin pystyä erottamaan c: n kaltaiset jakaumat a: sta ja b: stä ja mitata c: n poikkeaman tasaisesta jakaumasta. Vastaavasti, jos on olemassa mittari sille, kuinka tasainen jakauma on (vakio poikkeama lähellä nollaa?), Voin kenties käyttää sitä erottamaan suuret varianssit. Tietoillani voi kuitenkin olla vain yksi tai kaksi poikkeamaa, kuten yllä olevassa c esimerkissä, enkä ole varma, onko se helposti havaittavissa tällä tavalla.
Voin hakkerata jotain tehdäksesi tämän ohjelmistossa, mutta etsin tilastollisia menetelmiä / lähestymistapoja tämän perustelemiseksi muodollisesti. Otin luokan vuosia sitten, mutta tilastot eivät ole minun alueeni. Tämä näyttää olevan jotain, jolla pitäisi olla hyvin tunnettu lähestymistapa. Anteeksi, jos jokin näistä on täysin luupää. Kiitos etukäteen!