Kysymys:
Tosielämän esimerkkejä Markovin päätöksentekoprosesseista
Karl Morrison
2015-04-07 15:24:49 UTC
view on stackexchange narkive permalink

Olen katsellut paljon opetusvideoita, ja ne näyttävät samanlaisilta. Tämä esimerkki: https://www.youtube.com/watch?v=ip4iSMRW5X4

Ne selittävät tilat, toiminnot ja todennäköisyydet, jotka ovat hyviä. Henkilö selittää sen ok, mutta en vain näytä saavan otetta mihin sitä käytettäisiin tosielämässä. En ole vielä törmännyt yhtään luetteloon. Yleisin näen on shakki.

Voidaanko sitä käyttää ennustamaan asioita? Jos on, minkä tyyppisiä asioita? Voiko se löytää kuvioita äärettömän määrän tietoja? Mitä tämä algoritmi voi tehdä minulle.

Bonus: Tuntuu myös siltä, ​​että MDP: n tarkoituksena on päästä yhdestä tilasta toiseen, onko totta?

üks vastaus:
agold
2015-10-23 21:44:09 UTC
view on stackexchange narkive permalink

Markovian päätöksentekoprosessi liittyy todellakin siirtymiseen valtiosta toiseen, ja sitä käytetään pääasiassa suunnitteluun ja päätöksentekoon.

Teoria

Vain toistamalla teoria nopeasti, MDP on:

$$ \ text {MDP} = \ langle S, A, T, R, \ gamma \ rangle $$

missä $ S $ ovat tiloja, $ A $ toiminnot, $ T $ siirtymätodennäköisyydet (ts. todennäköisyydet $ Pr (s '| s, a) $ siirtyä tilasta toiseen, kun toiminto on annettu), $ R $ palkkiot ( tietyn tilan ja mahdollisesti toiminnan), ja $ \ gamma $ on alennustekijä, jota käytetään vähentämään tulevien palkkioiden merkitystä.

Joten, jotta voit käyttää sitä, sinulla on oltava ennalta määritelty:

  1. Tilat : nämä voivat viitata esimerkiksi ruudukkokarttoihin robotiikassa tai esimerkiksi ovi auki ja ovi kiinni .
  2. Toiminnot : kiinteä joukko toimintoja, kuten esimerkiksi mennä pohjoiseen, etelään, itään jne. robotille tai avata ja sulkea ovi.
  3. Siirtymätodennäköisyydet : todennäköisyys siirtyä tilasta toiseen tietyn toiminnan aikana . Esimerkiksi mikä on avoimen oven todennäköisyys, jos toiminta on avoin . Täydellisessä maailmassa myöhempi voi olla 1,0, mutta jos se on robotti, se ei olisi onnistunut käsittelemään ovenkahvaa oikein. Toinen esimerkki liikkuvan robotin tapauksessa olisi toiminto pohjoinen , joka useimmissa tapauksissa tuo sen ruudukon soluun pohjoiseen, mutta joissakin tapauksissa se olisi voinut liikkua liikaa ja saavuttaa seuraavan esimerkiksi solu.
  4. Palkinnot : niitä käytetään suunnittelun ohjaamiseen. Ruudukkoesimerkin tapauksessa saatamme haluta mennä tiettyyn soluun, ja palkkio on suurempi, jos tulemme lähemmäksi. Oven esimerkin tapauksessa avoin ovi voi antaa korkean palkkion.

Kun MDP on määritelty, käytäntö voidaan oppia tekemällä Arvon iteraatio tai Käytännön iteraatio, joka laskee odotetun palkkion kullekin osavaltiolle. Käytäntö antaa sitten tilakohtaisesti parhaan (MDP-mallin mukaan) toiminnon.

Yhteenvetona voidaan todeta, että MDP on hyödyllinen, kun haluat suunnittele tehokas toimintakokonaisuus, jossa toimintasi eivät aina ole 100% tehokkaita.

Kysymyksesi

Voidaanko sitä käyttää ennustamaan asioita?

Kutsun sitä suunnitteluksi, en ennustamiseksi, kuten esimerkiksi regressio.

Jos on, minkä tyyppisiä asioita?

Katso esimerkkejä.

Voiko se löytää malleja loputtomasta datamäärästä?

MDP: itä käytetään vahvistamisen oppimiseen, jotta voit löytää malleja, joita tarvitset valvomaton oppiminen. Ja ei, et voi käsitellä ääretöntä määrää tietoa. Itse asiassa käytännön löytämisen monimutkaisuus kasvaa eksponentiaalisesti tilojen lukumäärän kanssa $ | S | $ .

Mitä tämä algoritmi voi tehdä minulle.

Katso esimerkkejä.

Esimerkkejä MDP-sovelluksista

Ja on vielä melkoisia malleja. Vielä mielenkiintoisempi malli on osittain havaittavissa oleva Markovian päätöksentekoprosessi, jossa tilat eivät ole täysin näkyviä, ja sen sijaan havaintoja käytetään käsityksen saamiseksi nykytilasta, mutta tämä ei kuulu tämä kysymys.

Lisätietoja

Stokastinen prosessi on markovilainen (tai sillä on Markov-ominaisuus), jos ehdollinen todennäköisyysjakauma Tulevien valtioiden määrä riippuu vain nykyisestä tilasta, ei aikaisemmista (ts. ei edellisten tilojen luettelosta).

Tämä on luultavasti selkein vastaus, jonka olen koskaan nähnyt Cross Validated -ohjelmassa.
Onko sinulla mahdollisuutta korjata linkit?Jotkut heistä näyttävät olevan rikki tai vanhentuneita.
Joten mitä tahansa prosessia, jolla on määritelty "tilat", "toimet", "siirtymätodennäköisyydet" ja "palkkiot", kutsutaan Markovianiksi?


Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 3.0-lisenssistä, jolla sitä jaetaan.
Loading...