Et voi ja et. Kuvittele, että sinulla on satunnaismuuttuja todennäköisyysjakaumasta Q. Mutta ystäväsi Bob ajattelee, että tulos tulee todennäköisyysjakaumasta P. Hän on rakentanut optimaalisen koodauksen, joka minimoi odotettujen bittien määrän, jota hänen on käytettävä kertomaan sinulle tulokset. Mutta koska hän rakensi koodauksen P: stä eikä Q: stä, hänen koodinsa ovat pidempiä kuin tarpeen. KL-divergenssi mittaa, kuinka kauan koodit ovat pidempiä.
Oletetaan nyt, että hänellä on kolikko ja hän haluaa kertoa sinulle saadun lopputuloksen. Koska pää ja häntä ovat yhtä todennäköisiä, hän antaa heille molemmat 1-bittiset koodit. 0 päätä, 1 häntä. Jos hän saa hännän hännän pään hännän, hän voi lähettää 1 1 0 1. Nyt, jos hänen kolikonsa laskeutuu reunalle, hän ei voi kertoa sinulle! Mikään hänen lähettämästään koodista ei toimisi. Tässä vaiheessa KL-divergenssi hajoaa.
Koska KL-divergenssi hajoaa, sinun on joko käytettävä toista mittaria tai muita todennäköisyysjakaumia. Se, mitä sinun pitäisi tehdä, riippuu todella siitä, mitä haluat. Miksi verrataan todennäköisyysjakaumia? Mistä todennäköisyysjakaumasi tulevat, arvioidaanko ne datasta?
Sanot todennäköisyysjakaumiesi olevan jotenkin luonnollisen kielen asiakirjoista ja haluat verrata luokkien pareja.
Ensin , Suosittelisin symmetristä sukulaisuusmittaa. Tälle sovellukselle kuulostaa siltä, että A on samanlainen kuin B, koska B on samanlainen kuin A. Se on melko yleistä NLP: ssä.
Jos haluat pitää kiinni KL: stä, yksi asia, jonka voisit tehdä, on arvioida todennäköisyysfunktio molemmista asiakirjoista ja nähdä sitten kuinka monta ylimääräistä bittiä tarvitset keskimäärin kumpaankin asiakirjaan. Tämä on (P || (P + Q) / 2 + Q || (P + Q) / 2) / 2