Suuremmat vahvistusjoukot antavat tarkemmat arviot otoksen ulkopuolisesta suorituskyvystä. Mutta kuten olet huomannut, arvio voi jossain vaiheessa olla niin tarkka kuin tarvitset, ja voit tehdä karkeita ennusteita validointinäytteen koosta, joka sinun on saavutettava siihen pisteeseen.
Yksinkertaisen oikean / virheellisen luokitustarkkuuden saavuttamiseksi voit laskea estimaatin keskivirheen muodossa $ \ sqrt {p (1 − p) / n} $ (Bernouillin muuttujan keskihajonta), jossa $ p $ on oikean luokituksen todennäköisyys, ja $ n $ on vahvistusjoukon koko. Tietenkään et tiedä $ p $, mutta sinulla voi olla jonkinlainen käsitys sen alueesta. Esim. Oletetaan, että odotat tarkkuuden olevan 60-80% ja haluat, että arvioidesi vakiovirhe on alle 0,1%:
$$
\ sqrt {p (1 − p) / n} <0.001
$$
Kuinka suuri $ n $ (vahvistusjoukon koko) pitäisi olla? Saat $ p = 0,6 $ saamme:
$$
n > \ frac {0,6-0,6 ^ 2} {0,001 ^ 2} = 240 000
$$
Saat $ p = 0,8 $ saamme:
$$
n > \ frac {0,8-0,8 ^ 2} {0,001 ^ 2} = 160 000
$$
Joten tämä kertoo meille, että voit päästä eroon käyttämällä alle 5% viidestä miljoonasta datanäytteestäsi validointiin. Tämä prosenttiosuus laskee, jos odotat parempaa suorituskykyä tai varsinkin jos olet tyytyväinen otoksen ulkopuolisen suorituskykyennusteen pienempään vakiovirheeseen (esim. $ P = 0,7 $ ja sinänsä < 1%, tarvitset vain 2100 validointinäytteet tai alle kaksikymmentä prosenttia tiedoistasi).
Nämä laskelmat esittelevät myös Timin vastauksessaan esittämän asian, jonka mukaan arvioidesi tarkkuus riippuu vahvistusjoukon absoluuttisesta koosta (ts. $ n $) sen sijaan, että se vastaisi harjoittelusarjaa.
(Lisäksi voin lisätä, että oletan tässä olevan edustava otanta. Jos tietosi ovat hyvin heterogeenisiä, sinun on ehkä käytettävä suurempia vahvistusjoukkoja vain varmistaaksesi, että validointitiedot sisältävät kaikki samat ehdot jne. kuin junasi & testitiedot.)