Kuinka määritetään hermoverkon ennusteen luottamus?

Kysymys:

Kuinka määritetään hermoverkon ennusteen luottamus?

John

2016-11-24 00:07:13 UTC

view on stackexchange narkive permalink

Oletan, että kysymykseni havainnollistamiseksi minulla on harjoitusjoukko, jossa syötteellä on jonkin verran melua, mutta lähtö ei esimerkiksi;

  # Harjoitustiedot [1.02, 1.95,2.01, 3.06]: [1.0] [2.03, 4.11, 5.92, 8.00]: [2.0] [10.01, 11.02, 11.96, 12.04]: [1.0] [2.99, 6.06, 9.01, 12.10]: [3.0]  koodi>

tässä tulos on syötetaulukon kaltevuus, jos se ei olisi äänetön (ei varsinainen kaltevuus).

Verkon koulutuksen jälkeen lähdön tulisi näyttää tältä tältäannettu syöttö.

  # Odotettu lähtö [1.01, 1.96, 2.00, 3.06]: 95%: n luottamusväli [0.97, 1.03] [2.03, 4.11, 3.89, 3.51]: 95%: n luottamusväli/ [2.30, 4.12]

Kysymykseni on, kuinka hermoverkko voidaan luoda siten, että se palauttaa ennustetun arvon ja luottamuksen tason, kuten varianssin tai luottamusvälin?

Jos etsit aikaväliä, joka sisältää tulevaisuuden * toteutuksen *, etsit [tag: ennustusväli], ei [tag: luottamusväli], joka liittyy havaitsemattomiin * parametreihin *.Tämä sekoitetaan usein.

Yhdeksän vastused:

Stephan Kolassa

2016-11-24 14:57:55 UTC

view on stackexchange narkive permalink

Kuulostaa siltä, että etsit ennustusväliä, ts. aikaväliä, joka sisältää ennalta määritetyn prosenttiosuuden tulevista toteutuksista. (Katso ero tagien wikien kohdista ennustusväli ja luottamusväli.)

Paras panoksesi toimii todennäköisesti suoraan NN: n kanssa arkkitehtuurit, jotka eivät tuota yhden pisteen ennusteita, mutta kokonaiset ennustavat jakaumat . Sitten voit purkaa halutut ennustevälit (tai keskiarvo- tai mediaanipisteennusteet) näistä jakaumista. Minä ja muut olemme väittäneet, että ennustavat jakaumat ovat paljon hyödyllisempiä kuin pisteennusteet, mutta rehellisesti sanottuna en ole vielä nähnyt paljon työtä ennakoivissa jakaumissa hermoverkoilla, vaikka olen pitänyt silmäni avautuvat. Tämä paperi kuulostaa olevan hyödyllinen. Haluat ehkä etsiä vähän, ehkä myös käyttämällä muita avainsanoja, kuten "ennustejakaumat" tai "ennustavat tiheydet" ja vastaavia.

Siitä huolimatta sinun kannattaa tutkia Michael Feindtin NeuroBayes-algoritmi, joka käyttää Bayesin lähestymistapaa ennustamaan ennustavia tiheyksiä.

Tämä voi olla toinen hyödyllinen paperi - hermoverkko, joka oppii jakaumat: https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0ahUKEwjdyovF8Z3TAhUhw1QKHRkHC1gQFgghMAA&url=https%2.nips.cc% 2Fpaper% 2F3-valvottu-todennäköisyysjakaumien oppiminen hermoverkkojen mukaan.pdf & usg = AFQjCNGp2xFiftVn136-Q7nqfudBTWEs5g & sig2 = u_oPIHY3EYDrXrueBA6p0g & bvm.1 & bvm.1

@Stephan: Linkki on kuollut: (

@MatthewDrury: mitä linkkiä tarkoitat?Kaikki kolme toimivat hyvin minulle.

Voitteko johtaa meidät yksinkertaiseen Ternsorflow-esittelyyn / esimerkkiin, jossa on NN Predictive Distributions?

@MartinThøgersen: anteeksi, ei, en käytä Tensorflowia ...

mp85

2016-11-24 00:18:38 UTC

view on stackexchange narkive permalink

En ole varma, voitko laskea yhden ennusteen luottamusvälin, mutta voit todellakin laskea koko tietojoukon virhesuhteen luottamusvälin (voit yleistää tarkkuuden ja minkä tahansa muun mittaamasi mittauksen suhteen)./ p>

Jos $ e $ on virhesuhteesi luokitellessasi joitain tietoja $ S $, joiden koko on $ n $, 95%: n luottamusväli virhetasolle antaa: $$ e \ pm 1.96 \ sqrt {\frac {e \, (1-e)} {n}} $$.

(katso Tom Mitchellin kirja "Machine Learning", luku 5.)

MUOKKAA

Arvaa, että minun on ilmoitettava yleisempi tapaus, joka on: $$ e \ pm z_N \ sqrt {\ frac {e \, (1-e)} {n}},$$, jossa $ z_N $: n yleiset valinnat on lueteltu seuraavassa taulukossa:

  luotettavuustaso 80% 90% 95% 98% 99% zN: n arvot 1,28 1,64 1,96 2,33 2,58

Tämä edellyttäisi, että asymptoottinen jakautuminen on normaalia

Suurille näytekokoille (mikä on melko yleistä ML: ssä) on yleensä turvallista olettaa, että.Tiivistämistä ei tarvinnut, kysy vain selvennystä, mutta no.

utobi

2016-11-24 02:01:09 UTC

view on stackexchange narkive permalink

Ennustevälit (PI) ei-parametrisissa regressioissa &-luokitusongelmia, kuten hermoverkkoja, SVM: iä, satunnaisia metsiä jne., on vaikea rakentaa.Haluaisin kuulla muita mielipiteitä tästä.

Sikäli kuin tiedän, muodollinen ennustus (CP) on kuitenkin ainoa periaatteellinen menetelmä kalibroidun PI: n muodostamiseksi ennustamista varten ei-parametrisissa regressio- ja luokitusongelmissa.CP-opetusohjelma on esitetty Shfer & Vovk (2008), J.Koneoppimisen tutkimus 9 , 371-421 [pdf]

etal

2016-11-24 13:08:59 UTC

view on stackexchange narkive permalink

En tiedä mitään tapaa tehdä se tarkalla tavalla.

Kiertotapa voi olla olettaa, että sinulla on gaussista melua, ja saada hermoverkko ennakoimaan keskiarvo $ \ mu $ ja varianssi $ \ sigma $.Kustannustoiminnossa voit käyttää NLPD-arvoa ( negatiivinen lokitodennäköisyystiheys ).Datapisteelle $ (x_i, y_i) $ tulee olemaan $ - \ log N (y_i- \ mu (x_i), \ sigma (x_i)) $.Tällöin $ \ mu (x_i) $ yrittää ennustaa $ y_i $: si ja $ \ sigma (x_i) $ ovat pienempiä, kun sinulla on enemmän luottamusta, ja isompi, kun sinulla on vähemmän.

Tarkistakuinka hyvät oletuksesi vahvistustiedoista saatat haluta katsoa $ \ frac {y_i- \ mu (x_i)} {\ sigma (x_i)} $ nähdäksesi, noudattavatko ne karkeasti $ N (0,1) $.Testitiedoissa haluat jälleen maksimoida testitietojesi todennäköisyyden, jotta voit käyttää NLPD-mittareita uudelleen.

@D.W.ei, koska kun $ \ sigma \ rightarrow + \ infty $, jakauma alkaa muodostaa yhtenäistä nollatiheyttä kaikissa pisteissä.Sitten datapisteidesi todennäköisyystiheys menee 0: een ja siten sen loki menee äärettömyyteen, mikä tekee menetyksestä ääretön.

Onko kukaan nähnyt konkreettisia esimerkkejä NN: n käyttämisestä log-todennäköisyyden perusteella koulutetun jakauman parametrien tuottamiseen?

Miss Palmer

2017-10-21 17:38:31 UTC

view on stackexchange narkive permalink

Ennustevälien suoraan antamiseksi on julkaistu vuoden 2011 julkaisu ' Comprehensive Review of Neural Network-Based Prediction Intervals'

He vertaavat neljää lähestymistapaa:

1: Delta-menetelmä 2: Bayesin menetelmä 3: Keskimääräinen varianssiarvio 4: Bootstrap

Samat kirjoittajat jatkoivat alemman ylärajan arviointimenetelmän kehittämistä hermoverkkopohjaisten ennustusintervallien rakentamiseksi, joka tuottaa suoraan ala- ja ylärajan NN: stä.Valitettavasti se ei toimi backpropin kanssa, mutta viimeaikainen työ mahdollisti tämän, korkealaatuiset ennustusvälit syvälle oppimiselle.

Vaihtoehtona suoraan ennustevälien antamiselle Bayesin hermoverkot (BNN) mallintavat epävarmuutta NN: n parametreissa ja sieppaavat siten epävarmuuden ulostulossa.Tätä on vaikea tehdä, mutta suosittuja menetelmiä ovat MC-keskeyttämisen suorittaminen ennustehetkellä tai yhdistäminen.

Se on itse asiassa melko helppo tehdä se Bayesian Deep Learning -sovelluksella.Katso esimerkiksi http://edwardlib.org/tutorials/bayesian-neural-network

Tony S

2016-11-24 13:20:34 UTC

view on stackexchange narkive permalink

En ole kuullut mistään menetelmästä, joka antaisi luottamusvälin hermoverkon ennusteelle.Virallisen metodologian puutteesta huolimatta näyttää siltä, että sellaisen rakentaminen saattaa olla mahdollista.En ole koskaan yrittänyt tätä tarvittavan laskentatehon takia, enkä väitä, että tämä toimisi varmasti, mutta yksi menetelmä, joka saattaa toimia pienessä hermoverkossa (tai räjähtävän nopean GPU-tehon kanssa, se voisi toimia kohtuullisen kokoisissa verkoissa)) olisi ottaa harjoitussarja uudelleen ja rakentaa monia samankaltaisia verkkoja (sanoa 10000 kertaa) samoilla parametreilla ja alkuasetuksilla ja rakentaa luottamusvälit kunkin käynnistysverkossa olevan verkon ennusteiden perusteella.

Esimerkiksi, 10 000 verkostossa, jotka on koulutettu yllä kuvatulla tavalla, saatetaan saada 2,0 (kun pyöristetään hermoverkon regressioennusteet) 9 000 näistä aikoista, joten ennustaisit 2,0: n 90%: n luottamusvälillä.Voit sitten rakentaa joukon CI: itä jokaiselle tehdylle ennustukselle ja valita raportoitavan tilan ensisijaiseksi CI: ksi.

Olisin utelias, miksi tästä ehdotuksesta äänestettiin, koska se on olennaisesti käynnistysnauhaa hieman epätavanomaisella tavalla (ongelman pyöristävän komponentin avulla on helppo tarkistaa, kuinka luottavainen hermoverkko on ennusteen suhteen).En todellakaan haittaa äänestystä alaspäin, jos joku äänestäjistä selittää tämän, miksi tämä ei ole pätevä ratkaisu ehdotettuun kysymykseen.Oppin itse ja arvostan palautetta!

En äänestänyt alas, mutta siitä, mitä ymmärrän, ehdotettu menetelmä tuottaisi intervallit, jotka sieppaavat mallin ennustetut arvot, tämä ei ole sama kuin aikavälit, jotka sieppaavat todelliset arvot.

user1141008

2018-07-01 00:33:56 UTC

view on stackexchange narkive permalink

On todella tapoja tehdä tämä käyttämällä keskeyttämistä.Suorita arviointi keskeyttämisen ollessa käytössä (se on yleensä pois käytöstä arviointia varten, mutta kytketty päälle harjoittelun aikana) ja suorita arviointi useita kertoja.

Useiden erien tulosten jakaumaa voidaan käyttää luottamusvälinä.

Katso artikkeli " Pudotus Bayesin lähentämisenä: mallin epävarmuuden esittäminen syvässä oppimisessa" Katso youtube-esitys Andrew Rowan - Bayesin syvällinen oppiminen Edwardin kanssa (ja temppu Dropoutin avulla)

bruziuz

2018-04-28 00:47:25 UTC

view on stackexchange narkive permalink

Ei ole mitään, kaikki ML-mallit eivät tarkoita ilmiön ymmärtämistä, vaan interpolointimenetelmiä toivon "kanssa, että se toimii". Aloita tällaisilla kysymyksillä luottamus, vankka melu ei ole vastauksia.

Joten saadaksesi jotain, käytä erilaista soveltavaa ja perustietoa:

Käytä hallintaa (ja tee oletus dynamiikasta)
Käytä kuperaa optimointia (jossa on joitain lisäehtoja toiminnalle)
Käytä matematiikkatilastoja (alustavilla oletuksilla jakaumista)
Käytä signaalinkäsittelyä (joidenkin oletusten mukaan signaali on kaistarajoitettu)

Tutkija käyttää joitain alustavia oletuksia (kutsutaan aksioomiksi) saadakseen jotain.

Ei ole mitään tapaa antaa luottamusta ilman alustavaa oletusta, joten ongelma ei ole DL-mehtodissa, mutta se on ongelma kaikissa menetelmissä, jotka yrittävät interpoloida ilman KAIKKI alustavia oletuksia - algebran kautta ei ole mahdollista johtaa jotain älykkäästi ilman oletus.

NN ja erilaiset ML-menetelmät on tarkoitettu nopeaan prototyyppien luomiseen luomaan "jotain", joka näyttää toimivan "joskus" tarkistettuna ristivalidoinnilla.

Vielä syvemmällä regressioliitin E [Y | X] tai sen arvio voi olla ehdottoman virheellinen ongelma ratkaista (ehkä pdf-muodossa Y = E [Y | X]: ssä on minimi, ei maksimi), ja niitä on sellaisia hienovaraisia asioita.

Haluan myös muistuttaa kahta tekoälyn / ML: n ratkaisemattomaa ongelmaa, joka voidaan jostain syystä unohtaa kauneuslauseiden taakse:

(1) Se on interpolointimenetelmiä, ei ekstrapolointia - sillä ei ole kykyä käsitellä uusia ongelmia

(2) kukaan ei tiedä miten mikä tahansa malli käyttäytyy tiedoissa, jotka eivät ole peräisin samasta jakelusta (mies banaanipuvussa jalankulkijoiden paikallistamista varten)

entä virheen mallintaminen harjoitustietojoukosta "ennustamaan" virhe johtopäätökseksi?

Jopa oletetaan, että se on lisäaine "ennustaa_mean" + "ennustaa_virhe".Voit kuvitella minkä tahansa kaavan ennustaa signaali ja virhe erikseen.Mutta vielä kerran - jos "vain interpoloimme", emme voi sanoa jotain luottavaisesti.Ennustamme pinnan lämpötilan.Kyllä, voit sanoa tämän ennusteen "20" ja virheennusteen "5".Joten siinä sanotaan, että mielestäni todellinen vastaus on valheessa [20-5, 20 + 5], mutta jotta ymmärtäisimme todella, mitä se tarkoittaa, meidän on ymmärrettävä todellinen ilmiö ja matemaattinen malli.Ja ML ei ole kyse molemmista.Muut alueet tekevät joitain alustavia oletuksia.

SebK

2019-07-13 02:11:25 UTC

view on stackexchange narkive permalink

Tämä artikkeli on mielenkiintoinen esitys keskeyttämiseen perustuvasta tekniikasta:

http://mlg.eng.cam.ac.uk/yarin/blog_3d801aa532c1ce.html

ⓘ

Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 3.0-lisenssistä, jolla sitä jaetaan.

about - legalese

Loading...