Kysymys:
Miksi vankat (ja kestävät) tilastot eivät ole korvanneet klassisia tekniikoita?
doug
2010-08-03 12:49:34 UTC
view on stackexchange narkive permalink

Liiketoiminnan ongelmien ratkaisemisessa datan avulla on tavallista, että ainakin yksi keskeinen oletus klassisten tilastojen alapuolella olevista tekijöistä on virheellinen. Suurimman osan ajasta kukaan ei viitsi tarkistaa näitä oletuksia, jotta et koskaan tiedä.

Esimerkiksi se, että niin monet yleisistä verkkomittareista ovat "pitkähäntäisiä" (suhteessa normaalijakaumaan), on nyt niin hyvin dokumentoitu, että pidämme sitä itsestäänselvyytenä. Toinen esimerkki verkkoyhteisöistä - jopa yhteisöissä, joissa on tuhansia jäseniä, on hyvin dokumentoitu, että ylivoimaisesti suurin osuus panoksesta / osallistumisesta moniin näistä yhteisöistä johtuu vähäisestä "super-avustajien" ryhmästä. (Esim. Muutama kuukausi sitten, heti kun SO-sovellusliittymä oli saatavilla beta-versiossa, StackOverflow -jäsen julkaisi lyhyen analyysin API: n kautta keräämistään tiedoista; hänen johtopäätöksensä - alle yksi prosentti SO: n jäsenistä on suurin osa SO : n toiminnasta (oletettavasti kysymysten esittäminen ja niihin vastaaminen), toinen 1–2% vastasi loput, ja ylivoimainen enemmistö jäsenistä ei tee mitään).

Tämäntyyppiset jakaumat - jälleen useammin sääntö kuin poikkeus - mallinnetaan usein parhaiten teholaki -tiheysfunktiolla. Tämän tyyppisissä jakaumissa jopa keskirajalauseketta on ongelmallista soveltaa.

Ottaen huomioon analyytikoiden mielenkiinnon kohteena olevan tällaisen populaation runsauden ja ottaen huomioon, että klassiset mallit toimivat näillä tiedoilla todistettavasti huonosti, ja koska että vankat ja kestävät menetelmät ovat olleet jonkin aikaa (uskon vähintään 20 vuotta) - miksi niitä ei käytetä useammin? (Mietin myös, miksi en käytä niitä useammin, mutta se ei oikeastaan ​​ole kysymys CrossValidated.)

Kyllä, tiedän sen oppikirjojen luvut on omistettu kokonaan luotettaville tilastoille, ja tiedän, että on olemassa (muutama) R-pakettia ( robustbase on se, jonka tunnen ja käytän) jne.

Ja kuitenkin ottaen huomioon näiden tekniikoiden ilmeiset edut, ne ovat usein selvästi parempia työkaluja työhön - miksi niitä ei käytetä paljon useammin ? Eikö meidän pitäisi odottaa vankkojen (ja vastustuskykyisten) tilastojen käyttävän paljon useammin (ehkä jopa oletettavasti) verrattuna klassisiin analogeihin?

Ainoa olennainen (ts. Tekninen) selitys, jonka olen kuullut, on vankka tekniikoista (samoin kuin vastustuskykyisissä menetelmissä) puuttuu klassisten tekniikoiden teho / herkkyys. En tiedä, onko tämä todellakin totta joissakin tapauksissa, mutta tiedän, että se ei ole totta monissa tapauksissa.

Viimeinen ennakkosana: kyllä, tiedän, että tällä kysymyksellä ei ole yhtä todistettavasti oikea vastaus; hyvin harvat kysymykset tällä sivustolla tekevät. Lisäksi tämä kysymys on aito tutkimus; se ei ole tekosyy edetä näkökulmasta - minulla ei ole näkemystä täällä, vain kysymys, johon toivon oivaltavia vastauksia.

Nassim Nicholas Talebin kirjoittama Black Swann kertoo miksi finanssimaailmassa on käytetty yksinkertaisia ​​malleja ja mihin vaaroihin se on johtanut. Erityinen vika on hyvin matalien todennäköisyyksien rinnastaminen nollaan ja normaalin jakauman sokea soveltaminen riskienhallinnassa!
Moniin oletuksiin perustuvat testit ovat tehokkaampia, kun nämä oletukset täyttyvät. Voimme testata poikkeaman merkityksen olettaen, että havainnot ovat IID Gaussin, mikä antaa keskiarvon tilastona. Vähemmän rajoittava joukko oletuksia käskee meitä käyttämään mediaania. Voimme mennä pidemmälle ja olettaa, että havainnot korreloivat entistä vankemmaksi. Mutta jokainen vaihe vähentää testimme tehoa, ja jos emme tee mitään oletuksia, testi on hyödytön. Vankat testit tekevät implisiittisesti oletuksia tiedoista ja ovat parempia kuin klassiset vain, kun nämä oletukset vastaavat todellisuutta paremmin
Neljätoista vastused:
#1
+69
John D. Cook
2010-08-03 17:22:58 UTC
view on stackexchange narkive permalink

Tutkijat haluavat pieniä p-arvoja, ja voit saada pienempiä p-arvoja, jos käytät menetelmiä, jotka tekevät vahvempia jakautumisoletuksia. Toisin sanoen ei-vankat menetelmät antavat sinun julkaista enemmän papereita. Tietysti useampi näistä julkaisuista voi olla vääriä positiivisia, mutta julkaisu on julkaisu. Se on kyyninen selitys, mutta se on joskus pätevä.

"joskus" on aliarviointia ... kirjoittajien logiikka ei ole usein niin suoraa, mutta ärsyke / palkinto -skenaario on sellainen, että ihmiset tekevät sen ehdollisena
En tutkijat ole epärehellisiä niin paljon kuin toimimalla tietämättömyydestä. He eivät ymmärrä, mitä tilastot tarkoittavat tai mitä oletuksia he tarvitsevat, mutta kuten sanoitte, he ymmärtävät selvästi ärsykkeen / palkkion: p> 0,05 => ei julkaisua.
Sinun on myös esitettävä jotain, jonka "vallassa olevat" (päättäjät, valvojat, arvioijat) ymmärtävät. Siksi sen on oltava yhteisellä kielellä, joka kehittyy melko hitaasti, koska nämä ihmiset ovat yleensä vanhempia ja vastustuskykyisempiä muutoksille, suurelta osin, koska se saattaa mitätöidä heidän tähänastisen uransa!
Hyvä pointti. "Ymmärrän p-arvot. Anna minulle vain p-arvo." Ironista kyllä, he eivät todennäköisesti * ymmärrä * p-arvoja, mutta se on toinen asia.
En usko, että tämä on kategorisesti totta. Ainakin olen kuullut, että nykyaikaiset ei-parametrit uhraavat usein hyvin vähän voimaa, jos sellaista on. AFAIK, tehohäviö on voimakkainta testeissä, joihin liittyy rankimuunnoksia, jotka ovat tuskin kaikkialla vahvojen menetelmien joukossa.
#2
+43
conjugateprior
2010-10-28 23:14:53 UTC
view on stackexchange narkive permalink

Joten "klassiset mallit" (mitä ne ovatkin - oletan, että tarkoitat jotain yksinkertaisia ​​oppikirjoissa opetettuja ja ML: n arvioimia malleja) epäonnistuvat joissakin, ehkä monissa todellisen maailman tietojoukoissa.

Jos malli epäonnistuu, sen korjaamiseen on kaksi perustapaa:

  1. Tee vähemmän oletuksia (vähemmän mallia)
  2. Tee enemmän oletuksia (enemmän malli)

Vankat tilastot, näennäistodennäköisyys ja GEE-lähestymistavat ottavat ensimmäisen lähestymistavan muuttamalla arviointistrategiaa sellaiseksi, jossa malli ei pidä kaikkia datapisteitä (vankka) tai ei tarvitse luonnehtivat kaikki tietojen näkökohdat (QL ja GEE).

Vaihtoehtona on yrittää rakentaa malli, joka mallintaa nimenomaisesti kontaminoituvien tietopisteiden lähteen tai alkuperäisen mallin virheellisiksi näyttävät näkökohdat, samalla kun arviointimenetelmä pidetään ennallaan.

Jotkut suosivat intuitiivisesti ensimmäistä (se on erityisen suosittua taloustieteessä) ja toiset intuitiivisesti jälkimmäistä (se on erityisen suosittu bayesilaisten keskuudessa, jotka ovat yleensä onnellisempia monimutkaisemmilla malleilla, varsinkin kun tajuavat menevänsä käyttää joka tapauksessa simulointityökaluja päätelmiin).

Rasvapäällysteiset oletukset, esim. negatiivisen binomin käyttäminen poissonin tai t: n sijaan normaalin sijasta kuuluvat toiseen strategiaan. Suurin osa "vankka tilasto" -nimellä varustetuista asioista kuuluu ensimmäiseen strategiaan.

Käytännössä arvioiden johtaminen ensimmäiselle strategialle realistisesti monimutkaisista ongelmista näyttää olevan melko vaikeaa. Ei siksi, että se ei tee niin, mutta se on ehkä selitys sille, miksi sitä ei tehdä kovin usein.

+1. Erittäin hyvä selitys. Uskon myös, että jotkut "vankat" menetelmät ovat melko tapauskohtaisia ​​(katkaistut keinot) ja että "vankka" on sidottu menetelmän tiettyyn näkökohtaan eikä ole yleinen laatu, mutta monet ihmiset tulkitsevat "vankan" tarkoittavan "en ei tarvitse huolehtia tiedoistani, koska menetelmäni on vankka ".
Hyvä vastaus. Minua häiritsee, että niin monet vastaukset keskittyvät vakaiden tilastojen ymmärtämisen vaikeuksiin tai kannustimiin olettamusten rikkomisen huomiotta jättämisestä. He jättävät huomiotta [siellä olevat ihmiset] (http://www.tandfonline.com/doi/abs/10.1198/000313006X152207), jotka tietävät, että on tapauksia, joissa tarvitaan vankkoja tilastoja ja kun ei.
#3
+29
csgillespie
2010-08-03 22:03:59 UTC
view on stackexchange narkive permalink

Ehdotan, että se on myöhässä opetuksessa. Useimmat ihmiset joko oppivat tilastoja yliopistossa tai yliopistossa. Jos tilastot eivät ole ensimmäinen tutkintosi ja olet suorittanut matematiikan tai tietojenkäsittelytieteen tutkinnon, kattavat todennäköisesti vain perustilastomoduulit:

  1. Todennäköisyys
  2. Hypoteesitestaus
  3. Regressio

Tämä tarkoittaa, että ongelman kohdalla yrität käyttää tietämyksesi ongelman ratkaisemiseen.

  • Tiedot eivät ole normaaleja - ota lokit.
  • Datalla on ärsyttäviä poikkeavuuksia - poista ne.

Ellet kompastu johonkin. muuten, on vaikea tehdä jotain parempaa. Googlen käyttäminen on todella vaikeaa löytää jotain, jos et tiedä miten sitä kutsutaan!

Luulen, että kaikilla tekniikoilla kestää jonkin aikaa, ennen kuin uudemmat tekniikat suodattuvat. Kuinka kauan tavallisten hypoteesitestien ottaminen osaksi standardin mukaista tilastotietojen opetussuunnitelmaa?

BTW, tilastotutkinnolla opetuksessa on edelleen viive - vain lyhyempi!

Mutta tämä herättää mielenkiintoisen pedagogisen ongelman, ainakin psykologiassa, koska sikäli kuin tiedän, suurin osa alallani käytetyistä johdantotilastokirjoista ei oikeastaan ​​keskustella vankoista toimenpiteistä muuten kuin syrjään.
Tämä on totta, ja myös psykologiassa ei-parametristen ja ei-normaalien välillä on ärsyttävää sekaannusta, mikä näyttää estävän ymmärtämistä.
Jotkut meistä psykologeista ovat vain hämmentyneitä kaikesta tilastollisesta! :)
#4
+21
Wesley Burr
2010-08-06 08:06:42 UTC
view on stackexchange narkive permalink

Jokainen, joka on koulutettu tilastotietojen analysointiin kohtuullisella tasolla, käyttää säännöllisesti luotettavien tilastojen käsitteitä . Useimmat tutkijat tietävät tarpeeksi etsimään vakavia poikkeamia ja tietojen tallennusvirheitä; epäiltyjen datapisteiden poistamispolitiikka juontaa juurensa 1800-luvulle Lord Rayleighin, G.G. Stokes ja muut ikäisensä. Jos kysymys on:

Miksi tutkijat eivät käytä nykyaikaisempia menetelmiä sijainnin, mittakaavan, regressio jne. -Arvioiden laskemiseen?

niin vastaus on annettu yllä - menetelmiä on pitkälti kehitetty viimeisten 25 vuoden aikana, sanotaan 1985 - 2010. Uusien menetelmien oppimisen viivästyminen sekä hitaus lisäävät "myytin", jonka mukaan sokeassa käytössä ei ole mitään vikaa klassiset menetelmät. John Tukey kommentoi, että vain käyttämäsi robust / resistentit menetelmät eivät ole tärkeitä - tärkeintä on käyttää joitain. On täysin asianmukaista käyttää sekä klassisia että vankkoja / kestäviä menetelmiä rutiininomaisesti ja huolehtia vain, kun ne eroavat toisistaan ​​tarpeeksi. Mutta kun ne poikkeavat , sinun tulisi ajatella kovaa .

Jos sen sijaan kysymys on:

Mikseivät tutkijat pysähdy ja kysy tietoja tiedoistaan ​​sen sijaan, että käyttäisivät sokeasti erittäin epävakaita arvioita?

sitten vastaus kuuluu koulutukseen. On aivan liian monta tutkijaa, joita ei koskaan koulutettu asianmukaisesti tilastoihin. Yhteenvetona yleinen luottamus p-arvoihin "tilastollisen merkitsevyyden" olennaisena ja lopullisena.

@Kwak: Huber arviot 1970-luvulta ovat vankkoja sanan klassisessa merkityksessä: ne vastustavat syrjäytyneitä. Ja alenevat estimaattorit ovat tosiasiallisesti hyvissä ajoin ennen 1980-lukua: Princetonin kestävyystutkimus (vuonna 1971) sisälsi kaksisuuntaisen sijaintiarvion, redescending estimaatin.

http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1043351251Vapaa käytettävissä oleva asiakirja, jonka kirjoitti Peter Huber John Tukeyn panoksesta vankkaan tilastoon. Kohtuullisen helppo lukea, kevyt kaavoihin.
#5
+20
Carlos Accioly
2010-08-04 01:26:23 UTC
view on stackexchange narkive permalink

Tilastot ovat työkalu ei-tilastollisesti ajatteleville tutkijoille, ja he eivät vain välitä.

Yritin kerran auttaa lääketieteen artikkelissa, jonka entinen vaimoni oli kirjoittanut yhdessä. Kirjoitin useita sivuja, joissa kuvailin tietoja, mitä se ehdotti, miksi tietyt havainnot oli jätetty pois tutkimuksesta ... ja johtava tutkija, lääkäri, heitti kaiken pois ja pyysi jotakuta laskemaan p-arvon, mikä on kaikki mitä hän (ja melkein kaikki, jotka lukisivat artikkelin) välittivät.

#6
+12
robin girard
2010-08-03 14:05:57 UTC
view on stackexchange narkive permalink

Annan vastauksen kahteen suuntaan:

  1. vankkoja asioita ei välttämättä merkitä kestäviksi. Jos uskot kestävyyden kaikkea vastaan, olet naiivi.
  2. Tilastollisia lähestymistapoja, jotka jättävät kestävyyden ongelman, ei joskus ole mukautettu todelliseen maailmaan, mutta ne ovat usein arvokkaampia (käsitteenä) kuin keittiöön näyttävät algoritmit.

  • developpment

    Ensinnäkin luulen, että tilastossa on paljon hyviä lähestymistapoja (löydät ne R-paketeista, ei välttämättä jotka ovat luonnostaan ​​vankkoja ja testattuja todellisilla tiedoilla, ja se, että et löydä algoritmia jossain mainitaan "vankka", ei tarkoita, että se ei ole vankka. Joka tapauksessa, jos luulet olevasi vankka tarkoittaa universaalia, et koskaan löydä mitään vankkaa menettelytapaa (ei ilmaista lounasta), sinulla on oltava jonkin verran tietoa / asiantuntemusta analysoiduista tiedoista voidaksesi käyttää mukautettua työkalua tai luoda mukautetun mallin. / p>

    Toisaalta jotkut tilastolliset lähestymistavat eivät ole vankkoja, koska ne on omistettu yhdelle ainoalle mallityypille. Mielestäni on hyvä joskus työskennellä laboratoriossa yrittää ymmärtää asioita. On myös hyvä käsitellä ongelmaa erikseen ymmärtääkseen, mihin ongelmaan ratkaisumme on ... matemaatikko toimii näin. Esimerkki Gaussin mallielokantista: kritisoidaan niin paljon, koska gaussilainen oletus ei koskaan toteudu, mutta se on tuonut 75% käytännössä tilastossa nykyään käytetyistä ideoista. Luuletko kaiken tämän olevan kirjoituspaperia julkaisu- tai hukkumissäännön noudattamiseksi (mistä en pidä, olen samaa mieltä)?

  • #7
    +11
    JoFrhwld
    2010-08-04 23:12:24 UTC
    view on stackexchange narkive permalink

    Kuten joku, joka on oppinut vähän tilastoja omaa tutkimusta varten, arvaan, että syyt ovat pedagogisia ja inertiaalisia.

    Olen havainnut omalla alallani, että järjestys, jossa opetetut aiheet heijastavat alan historiaa. Ne ideat, jotka tulivat ensin, opetetaan ensin ja niin edelleen. Niille ihmisille, jotka sukeltavat tilastoihin vain pintapuolista opetusta varten, tämä tarkoittaa, että he oppivat klassiset tilastot ensin ja todennäköisesti viimeisenä. Sitten, vaikka he oppivatkin enemmän, klassiset jutut kiinni heidän kanssaan paremmin ensisijaisuusvaikutusten vuoksi.

    Kaikki tietävät myös, mikä on kahden näytteen t-testi. Vähemmän kuin kaikki tietävät, mikä on Mann-Whitney tai Wilcoxon Rank Sum -testi. Tämä tarkoittaa sitä, että minun on käytettävä vain vähän energiaa selittäessäni, mikä on vankka testi, eikä minun tarvitse tehdä mitään klassisella testillä. Tällaiset olosuhteet johtavat ilmeisesti siihen, että vähemmän ihmisiä käyttää vankkoja menetelmiä kuin pitäisi.

    #8
    +9
    David Rebelo
    2011-01-04 05:00:02 UTC
    view on stackexchange narkive permalink

    Wooldridge "Johdava ekonometria - nykyaikainen lähestymistapa" 2E s.261.

    Jos heteroskedastiikkuutta tukevat vakiovirheet pätevät useammin kuin tavalliset OLS-standardivirheet, miksi häiritsemme tavanomaisia ​​vakiovirheitä ollenkaan? ... Yksi syy siihen, että niitä käytetään edelleen poikkileikkaustöissä, on se, että jos homoskedastisuuden oletus pätee ja virheet jakautuvat normaalisti, niin tavallisilla t-tilastoilla on tarkat t-jakaumat otoksen koosta riippumatta. Vankat vakiovirheet ja vankat t-tilastot ovat perusteltuja vain otoksen koon kasvaessa. Pienillä otoskokoilla vankalla t-tilastolla voi olla jakaumia, jotka eivät ole kovin lähellä t-jakaumaa, ja jotka voivat heittää päätelmämme pois. Suurissa otoskokoissa voimme tehdä tapauksen raportoida aina vain poikkileikkaussovelluksissa vain heteroskedastiikkuutta tukevat vakiovirheet, ja tätä käytäntöä noudatetaan yhä enemmän soveltavassa työssä.

    Huonoja uutisia täällä: http://pan.oxfordjournals.org/content/23/2/159
    #9
    +7
    Joe
    2010-08-30 19:11:06 UTC
    view on stackexchange narkive permalink

    Vaikka ne eivät sulje pois toisiaan, mielestäni Bayesin tilastojen kasvava suosio on osa sitä. Bayesin tilastoilla voidaan saavuttaa paljon samoja tavoitteita priorien ja mallien keskiarvottamisen avulla, ja ne ovat yleensä hieman vankempia käytännössä.

    #10
    +6
    mirror2image
    2011-05-12 13:12:00 UTC
    view on stackexchange narkive permalink

    En ole tilastotieteilijä, kokemukseni tilastoista on melko rajallinen, käytän vain vankkoja tilastoja tietokoneen näkemisessä / 3D-rekonstruktiossa / posees-arvioinnissa. Tässä on käsitykseni ongelmasta käyttäjän näkökulmasta:

    Ensinnäkin vankat tilastot käyttivät paljon tekniikassa ja tieteessä kutsumatta sitä "vankaksi tilastoksi". Monet ihmiset käyttävät sitä intuitiivisesti, tullakseen siihen mukautettaessa tiettyä menetelmää todelliseen ongelmaan. Esimerkiksi iteratiiviset uudelleenpainotetut vähiten neliöt ja leikatut keskiarvot / leikattu pienin neliö, joita käytetään yleisesti, että vain käyttäjä ei tiedä käyttäneensä vankkoja tilastoja - ne vain tekevät menetelmästä käyttökelpoisen todellisille, ei-synteettisille tiedoille.

    Toiseksi sekä intuitiivisia että tietoisia vankkoja tilastoja käytetään käytännössä aina, kun tulokset ovat todennettavissa tai jos olemassa selvästi näkyviä virhemittareita. Jos normaalijakaumalla saatu tulos on ilmeisesti pätemätön tai väärä, ihmiset alkavat lyödä painoa, leikata, ottaa näytteitä, lukea paperia ja lopulta käyttää vankkoja estimaattoreita, tietävätkö he termin tai eivät. Toisaalta, jos tutkimuksen lopputulos on vain joitain grafiikoita ja kaavioita, eikä tulosten tarkistamiseksi ole mitään epäherkkiä, tai jos normaali tilastotieto tuottaa tarpeeksi hyvää - ihmiset eivät vain vaivaudu.

    Viimeiseksi, vankkojen tilastojen hyödyllisyydestä teoriana - vaikka teoria itsessään on hyvin mielenkiintoinen, se ei usein anna mitään käytännön etuja. Suurin osa luotettavista arvioista on melko triviaalia ja intuitiivista, usein ihmiset keksivät ne uudelleen ilman mitään tilastotietoa. Teoria, kuten hajoamispisteiden estimointi, asymptootit, datan syvyys, heterosaskavuus jne. Mahdollistavat tietojen syvemmän ymmärtämisen, mutta useimmissa tapauksissa se on vain tarpeetonta. Yksi suuri poikkeus on vankan tilastojen ja puristusanturien risteys, jotka tuottavat uusia käytännön menetelmiä, kuten "ristikkä"

    #11
    +5
    Andy W
    2011-01-05 01:39:25 UTC
    view on stackexchange narkive permalink

    Tietämykseni vakaista estimaattoreista koskee vain vankkoja regressioparametrien vakiovirheitä, joten kommenttini koskee vain niitä. Ehdotan, että ihmiset lukevat tämän artikkelin,

    Ns. "Huber Sandwich Estimator" ja "Robust Standard -virheet": Freedman, A. DavidThe American Statistician, Voi. 60, nro 4. (marraskuu 2006), s. 299-302. doi: 10.1198 / 000313006X152207 ( PDF-versio)

    Olen erityisen huolissani näistä lähestymistavoista, että ne eivät ole väärässä, vaan yksinkertaisesti häiritsemällä suurempia ongelmia. Siksi olen täysin samaa mieltä Robin Girardin vastauksesta ja hänen maininnastaan ​​"ei ilmaista lounasta".

    #12
    +3
    JohnRos
    2011-11-07 23:15:35 UTC
    view on stackexchange narkive permalink

    Luotettavien tilastojen edellyttämä laskenta ja todennäköisyys on (yleensä) vaikeampaa, joten (a) teoriaa on vähemmän ja (b) sitä on vaikea ymmärtää.

    #13
    +2
    Christoph Hanck
    2015-04-13 16:48:44 UTC
    view on stackexchange narkive permalink

    Olen yllättynyt siitä, että Gauss-Markov-teemaa ei mainita tässä pitkässä vastausten luettelossa.

    Lineaarisessa mallissa, jossa on pallovirheitä (jotka pitkin sisältää olettamuksen siitä, ettei poikkeamia ole äärellisen varianssin kautta), OLS on tehokas lineaaristen puolueettomien estimaattoreiden luokassa - on (rajoittavia, olla varma) ehtoja, joissa "et voi tehdä paremmin kuin OLS".

    En väitä, että tämän pitäisi olla perusteltua OLS: n käyttämiselle melkein koko ajan, mutta se vaikuttaa varmasti miksi (varsinkin kun on hyvä tekosyy keskittyä niin paljon OLS: ään opetuksessa).

    No, kyllä, mutta siinä oletetaan, että varianssin minimointi on asiaankuuluva kriteeri, ja raskailla hännillä se ei välttämättä ole niin!
    Varma.Halusin vain lisätä mielestäni ehkä tunnetuimman syyn ajatella, että OLS on hyödyllinen tekniikka ymmärrettävien syiden luetteloon, miksi vankat tekniikat eivät ole * korvanneet sitä: on tapauksia, joissa sinun ei pitäisi korvata sitä.
    #14
      0
    ayorgo
    2018-04-19 15:20:00 UTC
    view on stackexchange narkive permalink

    Oletan, että vankat tilastot eivät koskaan ole riittäviä, ts. jotta nämä vakaat tilastot olisivat vakaita, ohita osa jakelutiedoista.Epäilen, ettei se ole aina hyvä asia. Toisin sanoen tietojen lujuuden ja menetyksen välillä on kompromissi.

    Esim.mediaani on vahva, koska (toisin kuin keskiarvo) se käyttää tietoa vain puolet elementeistä (erillisessä tapauksessa): $$ mediaani (\ {1, 2, 3, 4, 5 \}) = 3 = mediaani (\ {0,1, 0,2, 3, 4000, 5000 \}) $$

    Katso https://stats.stackexchange.com/questions/74113/when-is-the-median-more-affected-by-sampling-error-than-the-mean tilanteesta, jossa mediaani on erittäin herkkä ja keskiarvoon hyvin käyttäytynyt.


    Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 2.0-lisenssistä, jolla sitä jaetaan.
    Loading...