Markovian päätöksentekoprosessi liittyy todellakin siirtymiseen valtiosta toiseen, ja sitä käytetään pääasiassa suunnitteluun ja päätöksentekoon.
Teoria
Vain toistamalla teoria nopeasti, MDP on:
$$ \ text {MDP} = \ langle S, A, T, R, \ gamma \ rangle $$
missä $ S $ ovat tiloja, $ A $ toiminnot, $ T $ siirtymätodennäköisyydet (ts. todennäköisyydet $ Pr (s '| s, a) $ siirtyä tilasta toiseen, kun toiminto on annettu), $ R $ palkkiot ( tietyn tilan ja mahdollisesti toiminnan), ja $ \ gamma $ on alennustekijä, jota käytetään vähentämään tulevien palkkioiden merkitystä.
Joten, jotta voit käyttää sitä, sinulla on oltava ennalta määritelty:
- Tilat : nämä voivat viitata esimerkiksi ruudukkokarttoihin robotiikassa tai esimerkiksi ovi auki ja ovi kiinni .
- Toiminnot : kiinteä joukko toimintoja, kuten esimerkiksi mennä pohjoiseen, etelään, itään jne. robotille tai avata ja sulkea ovi.
- Siirtymätodennäköisyydet : todennäköisyys siirtyä tilasta toiseen tietyn toiminnan aikana . Esimerkiksi mikä on avoimen oven todennäköisyys, jos toiminta on avoin . Täydellisessä maailmassa myöhempi voi olla 1,0, mutta jos se on robotti, se ei olisi onnistunut käsittelemään ovenkahvaa oikein. Toinen esimerkki liikkuvan robotin tapauksessa olisi toiminto pohjoinen , joka useimmissa tapauksissa tuo sen ruudukon soluun pohjoiseen, mutta joissakin tapauksissa se olisi voinut liikkua liikaa ja saavuttaa seuraavan esimerkiksi solu.
- Palkinnot : niitä käytetään suunnittelun ohjaamiseen. Ruudukkoesimerkin tapauksessa saatamme haluta mennä tiettyyn soluun, ja palkkio on suurempi, jos tulemme lähemmäksi. Oven esimerkin tapauksessa avoin ovi voi antaa korkean palkkion.
Kun MDP on määritelty, käytäntö voidaan oppia tekemällä Arvon iteraatio tai Käytännön iteraatio, joka laskee odotetun palkkion kullekin osavaltiolle. Käytäntö antaa sitten tilakohtaisesti parhaan (MDP-mallin mukaan) toiminnon.
Yhteenvetona voidaan todeta, että MDP on hyödyllinen, kun haluat suunnittele tehokas toimintakokonaisuus, jossa toimintasi eivät aina ole 100% tehokkaita.
Kysymyksesi
Voidaanko sitä käyttää ennustamaan asioita?
Kutsun sitä suunnitteluksi, en ennustamiseksi, kuten esimerkiksi regressio.
Jos on, minkä tyyppisiä asioita?
Katso esimerkkejä.
Voiko se löytää malleja loputtomasta datamäärästä?
MDP: itä käytetään vahvistamisen oppimiseen, jotta voit löytää malleja, joita tarvitset valvomaton oppiminen. Ja ei, et voi käsitellä ääretöntä määrää tietoa. Itse asiassa käytännön löytämisen monimutkaisuus kasvaa eksponentiaalisesti tilojen lukumäärän kanssa $ | S | $ .
Mitä tämä algoritmi voi tehdä minulle.
Katso esimerkkejä.
Esimerkkejä MDP-sovelluksista
- Valkoinen , DJ (1993) mainitsee suuren luettelon sovelluksista:
- Sadonkorjuu: kuinka paljon väestön jäseniä on jätettävä jalostukseen.
- Maatalous: kuinka paljon istutetaan sää ja maaperän tila.
- Vesivarastot: pidä oikea vesitaso säiliöissä.
- Tarkastus, huolto ja korjaus: milloin vaihdetaan / tarkastetaan iän, kunnon jne. perusteella
- Osto ja tuotanto: kuinka paljon tuottaa kysynnän perusteella.
- Jonot: lyhennä odotusaikaa.
- ...
- Rahoitus: päättää, kuinka paljon varastoon investoidaan.
- Robotiikka:
Ja on vielä melkoisia malleja. Vielä mielenkiintoisempi malli on osittain havaittavissa oleva Markovian päätöksentekoprosessi, jossa tilat eivät ole täysin näkyviä, ja sen sijaan havaintoja käytetään käsityksen saamiseksi nykytilasta, mutta tämä ei kuulu tämä kysymys.
Lisätietoja
Stokastinen prosessi on markovilainen (tai sillä on Markov-ominaisuus), jos ehdollinen todennäköisyysjakauma Tulevien valtioiden määrä riippuu vain nykyisestä tilasta, ei aikaisemmista (ts. ei edellisten tilojen luettelosta).