Kysymys:
Täydelliset aineelliset esimerkit toistettavasta tutkimuksesta käyttäen R: tä
Jeromy Anglim
2010-08-21 09:58:12 UTC
view on stackexchange narkive permalink

Kysymys: Onko olemassa hyviä esimerkkejä toistettavasta tutkimuksesta R: n avulla, jotka ovat vapaasti saatavilla verkossa?

Ihanteellinen esimerkki: Erityisesti ihanteelliset esimerkit antaisivat:

 • raakatiedot (ja mieluiten metatiedot, jotka selittävät tietoja),
 • kaikki R-koodit, mukaan lukien tietojen tuonti, käsittely, analyysit ja tuotoksen luominen,
 • Sweave tai jokin muu lähestymistapa lopullisen tuotoksen linkittämiseksi lopulliseen asiakirjaan,
 • Kaikki muodossa, joka on helposti ladattavissa ja käännettävissä lukijan tietokoneelle.

Ihannetapauksessa esimerkki olisi päiväkirjaartikkeli tai opinnäytetyö, jossa painopiste on todellisuudessa sovelletussa aiheessa tilastollisen opetuksen sijaan.

Syyt kiinnostuksen kohteena: Olen erityisen kiinnostunut lehtiartikkeleiden ja opinnäytetyöiden sovelletuista aiheista, koska näissä tilanteissa syntyy useita lisäkysymyksiä:

 • Tietojen puhdistamiseen ja käsittelyyn liittyviä kysymyksiä,
 • Ongelmia syntyy metatietojen hallintaan,
 • lehdillä ja opinnäytetyöillä on usein tyylin ohjaavat odotukset taulukoiden ja kuvien ulkonäöstä ja muotoilusta,
 • monissa lehdissä ja opinnäytetyöissä on usein laaja valikoima analyyseja, jotka herättävät ongelmia työnkulun (eli kuinka sekvenssianalyysit) ja käsittelyajan (esim. välimuistianalyysien kysymykset jne.) suhteen.

Täydellisten työskentelyesimerkkien näkeminen voisi tarjota hyvää opetusmateriaalia tutkijoille, jotka aloittavat toistettavissa oleva tutkimus.

Viisitoista vastused:
#1
+15
Dirk Eddelbuettel
2010-08-21 19:03:04 UTC
view on stackexchange narkive permalink

Frank Harrell on lyönyt rumpua toistettavissa olevissa tutkimuksissa ja raporteissa monien, monien vuosien ajan. Voit aloittaa tältä wiki-sivulta, jossa luetellaan paljon muita resursseja, mukaan lukien julkaistu tutkimus ja joka kattaa myös Charles Geyerin sivun.

#2
+12
Spacedman
2011-07-28 13:08:34 UTC
view on stackexchange narkive permalink

Biostatistics-lehdessä on Associate Editor for Repucucibility, ja kaikki sen artikkelit on merkitty seuraavasti:

Reproducible Research

Uusittavissa oleva tutkimuskäytäntömme on, että lehden lehdissä on oltava leijamerkintä D, jos niiden perustana olevat tiedot ovat vapaasti saatavilla, C jos kirjoittajien koodi on vapaasti saatavilla, ja R jos sekä tietoja että koodia on saatavilla, ja Associate Editor for Reproducibility osaa käyttää niitä tulosten toistamiseen paperissa. Tiedot ja koodi julkaistaan ​​sähköisesti lehden verkkosivustolla lisämateriaaleina.

http://biostatistics.oxfordjournals.org/

Kuinka hyvä idea on, että?

http://biostatistics.oxfordjournals.org/content/12/1/18.abstract mukana tulee R-paketti täydennyksissä, jotka tekevät analyysi - en ole vielä kokeillut sitä itse. En myöskään voi selvittää, missä avoimuusluokitus on määritetty. Lähetän assosiaatioeditorille joitain kysymyksiä ...

[muokkaa]

Apulaiseditori Roger Peng kertoo minulle, että luultavasti ei ole mitään tapaa löytää uusittavia papereita saamatta PDF-tiedostoa. Hän osoitti minulle tätä, jossa on mukava iso R-kirjain (joka ei tarkoita R-luokiteltuja kuten elokuvat) toistettavuuden vuoksi:

http://biostatistics.oxfordjournals.org/ content / 10/3 / 409.abstrakti

Päiväkirja itsessään ei tietenkään ole ilmainen ... #fail

Barry

on hienoa nähdä päiväkirja priorisoiden uusittavuutta. Oletko nähnyt hyviä esimerkkejä R-merkinnällä varustetuista artikkeleista?
He eivät priorisoi sitä julkaisemista varten, mielestäni he haluavat vain korostaa sitä. Muokataan vastaustani esimerkillä.
#3
+10
John D. Cook
2010-09-02 16:15:56 UTC
view on stackexchange narkive permalink

NCI60-kemoterapian ennustajien uusimattomuus

Tämä on toistettavissa oleva analyysi, joka osoittaa uutisissa olevan paperin toistettavuuden puutteen. Kliininen tutkimus, joka perustuu uusimattoman paperin vääriä johtopäätöksiin, keskeytettiin, aloitettiin uudelleen, keskeytettiin uudelleen, ... Se on hyvä esimerkki uusittavissa olevasta analyysistä uutisissa.

#4
+10
Jake
2010-11-12 03:30:56 UTC
view on stackexchange narkive permalink

Minulla on muutama tällainen esimerkki tutkimustyösivullani. (Minulla ei ole oikeutta lähettää useampaa kuin yhtä hyperlinkkiä uutena jäsenenä. Joten kuvaan vain kyseisen sivuston paperit.)

(1) "Effects Manifest in Randomized Experiments" käyttää R: n vinjettiä. järjestelmään.

(2) "Effects Attributing to Cluster Randomized Get-Out-The-Vote -kampanja" oli monimutkaisempi paperi, johon sisältyi aikaa vieviä simulaatioita. Käytimme Makefile-pohjaista järjestelmää ja lähetimme sen Dataverseen.

(3) "EDA for HLM" oli aikaisin yritys. Laitoin vain tiedot ja niihin liittyvät Sweave-tiedostot tarballiin.

Yksi ongelma, jonka löysimme JASA-arkistoa luodessamme, oli se, että CRAN-pakettien versiot ja oletusarvot muuttuivat. Joten siihen arkistoon sisällytämme myös käyttämiemme pakettien versiot. Vinjettipohjainen järjestelmä todennäköisesti rikkoutuu, kun ihmiset vaihtavat pakettejaan (eivät ole varmoja siitä, miten ylimääräiset paketit sisällytetään Compendium-pakettiin).

Mietin lopuksi, mitä tehdä, kun R itse muuttuu. Onko olemassa tapoja tuottaa esimerkiksi virtuaalikone, joka toistaa koko paperille käytetyn laskentaympäristön niin, että virtuaalikone ei ole valtava?

Toivon kuitenkin, että nämä esimerkit auttavat. Ainakin ne osoittavat joitain omia kokeilujani tällä alueella.

(Tässä on joitain pelkkää tekstiä sisältäviä hyperlinkkejä.)

 [2]: http://jakebowers.org/manifesteffects- compendium-howto.txt [3]: http://hdl.handle.net/1902.1/12174 [4]: ​​http://hdl.handle.net/1902.1/13376 
Esität mielenkiintoisia kysymyksiä. Olen lähettänyt erillisen kysymyksen lainaamalla sinua: http://stats.stackexchange.com/questions/4466/how-to-increase-longer-term-reproducibility-of-research-particularly-using-r-and
#5
+9
Jeromy Anglim
2010-11-11 12:22:29 UTC
view on stackexchange narkive permalink

Koenker ja Zeileis tarjoavat verkkosivun, jossa on suhteellisen täydellinen esimerkki. He jakavat:

 • Rnw (Sweave-koodi)
 • R-analyysikoodi
 • lopullinen PDF
 • keskustelu versiohallintakysymyksistä
#6
+8
csgillespie
2010-08-22 02:59:56 UTC
view on stackexchange narkive permalink

Kirjoitimme artikkelin, jossa selitettiin, kuinka R / Bioconductoria käytetään analysoitaessa mikroharmaa. Paperi on kirjoitettu Sweavessa ja kaikki kaavioiden luomiseen käytetyt koodit sisältyvät täydentävään materiaaliin.

Gillespie, CS, Lei, G., Boys, RJ, Greenall, AJ, Wilkinson, DJ, 2010 . Hiiva-ajan kurssin mikrorake-tietojen analysointi BioConductorilla: tapaustutkimus käyttämällä hiivaa2 Affymetrix-matriiseja BMC Research Notes, 3:81.

#7
+7
ars
2010-08-21 10:47:10 UTC
view on stackexchange narkive permalink

Charles Geyerin Sweaven sivulla on esimerkki opinnäytetyöstä, joka täyttää joitain vaatimuksiasi (raakatiedot ovat yksinkertaisesti R-paketista, mutta R / sweave-koodi ja lopullinen PDF ovat saatavilla ):

Yun Ju Sungin opinnäytetyön teoriaa käsittelevä teos Monte Carlo Likelihood Inference for Missing Data Models (preprint) sisälsi laskennan esimerkkejä. Jokainen paperin numero ja jokainen juoni otettiin (leikkaa ja liitä, minun on myönnettävä) Sweavessa tehdystä "lisämateriaalit" -asiakirjasta.

( lähde tiedosto on linkitetty Lisämateriaalit paperille -osiossa.)

Tiedän törmänneeni ainakin yhteen R-esimerkkiin selaamalla ReproducibleResearch.net -materiaalia sivu aiemmin, mutta valitettavasti ei kirjanmerkkiä.

#8
+5
Jeromy Anglim
2011-06-16 20:12:18 UTC
view on stackexchange narkive permalink

Simon Jackmanilla on erityisen hyödyllinen esimerkki tutkimuksen tulosten analysoinnista: "Amerikkalaiset ja australialaiset 10 vuotta syyskuun 11. päivän jälkeen". Siinä on useita esimerkkejä taulukoiden ja kuvien integroinnista.

Hän on tehnyt Sweave-asiakirjan ja PDF-raportin tämän blogiviestin kautta.

Vaikka raakatietoja ei toimiteta (sikäli kuin voin kertoa), joten varsinaisten Sweave-esimerkkien suorittaminen ei ole mahdollista, mielestäni Sweave-koodin tutkiminen voi oppia melko vähän.

#9
+5
Jeromy Anglim
2011-07-28 12:11:43 UTC
view on stackexchange narkive permalink

Neil Saunders analysoi konferenssiin liittyviä online-vuorovaikutuksia. Useita ominaisuuksia, jotka tekevät siitä hyödyllisen Sweave-esimerkin, ovat:

 • Rnw-tiedosto tarjotaan
 • Kaaviot luodaan käyttämällä ggplot
 • Hyvä koko ja helposti ymmärrettävä verkkotunnus

Materiaalit ovat saatavilla täältä:

#10
+4
Shane
2010-08-21 12:15:44 UTC
view on stackexchange narkive permalink

Olen aiemmin löytänyt hyviä ja lähetän, kun kaivan ne, mutta joitain nopeita yleisiä ehdotuksia:

 1. Voit löytää mielenkiintoisia esimerkkejä etsimällä google avainsanoilla ja ext: rnw (joka etsii tiedostoja, joilla on sweave-laajennus). Tässä on esimerkkihaku. Tämä on kolmas hakutulokseni tulos: http://www.ne.su.se/paper/araietal_source.Rnw. Tässä on toinen esimerkki haustani: http://www.stat.umn.edu/geyer/gdor/.
 2. Monissa R-paketeissa on mielenkiintoisia vinjettejä, jotka vastaavat olennaisesti samaa. Esimerkki: https://r-forge.r-project.org/scm/viewvc.php/paper/maxLik.Rnw
#11
+4
user88
2010-08-21 12:30:48 UTC
view on stackexchange narkive permalink

Katso myös Journal Of Statistics Software; he kannustavat tekemään papereita Sweavessa.

Ei, ei muodollisesti - LaTeX-lähetys on rohkaisevaa, mutta jos katsot [ohjesivua] (http://www.jstatsoft.org/instructions), se ei sisällä sanaa Sweave. Kirjoittajat käyttävät sitä ja / tai lähettävät R-koodin paperin mukana, mutta minulle tämä toistaa Shanen näkemyksen pakettineigneteista.
Ok, silti useimmat lähettäjät käyttävät sitä (myös päiväkirjatyylissä on Swave.sty); Suurin ongelma on, että Rnw-tiedostoja ei ole julkaistu, Sweaven tekemissä paperissa on Stangle-tulosteet.
#12
+4
Jeromy Anglim
2011-01-01 16:35:18 UTC
view on stackexchange narkive permalink

Robert Gentleman kirjoitti paperin nimeltä "Reproducible Research: A Bioinformatics Case Study"

Se toteuttaa lyhyen joukon analyyseja R-pakettina ja käyttää Sweaveä. Sweaven käyttöä yleisemmin.

Katso artikkelisivun "Liittyvät tiedostot" osiosta kaikkien käytettyjen tiedostojen ja kansioiden arkistotiedosto.

Viite:

 • Gentleman, Robert (2005) "Reproducible Research: A Bioinformatics Case Study", Statistics Applications in Genetics and Molecular Biology: Vol. 4: Iss. 1 artiklan 2 kohta.
 • DOI: 10.2202 / 1544-6115.1034
 • Saatavilla osoitteessa: http://www.bepress.com/sagmb/vol4/iss1/art2
#13
+4
Tim
2011-08-31 06:51:26 UTC
view on stackexchange narkive permalink

http://genome.cshlp.org/content/early/2011/06/09/gr.117523.110/suppl/DC1

Mukava paperi laboratorion kaveri. Meidän PI oli melko tyytyväinen, kun tälle tuli jotain fanipostia muistuttavaa. Nyt kaikilla ryhmän julkaisuilla on LaTeX / Sweave -ohjelmassa esitetyt täydentävät menetelmät. Myös jotkut paperit (ei voi päättää, pidetäänkö minun LyX / Sweavessa vai taitetaanko ja tee vain lisäosat Sweavessa).

#14
+3
zzr
2010-11-05 17:26:46 UTC
view on stackexchange narkive permalink

Esimerkkien ja käytäntöjen etsiminen on hyvä tapa oppia, mutta halusin vain mainita, että toistettavuudella ei ole pelkästään teknistä / skriptien uudelleenkäynnistyspuolta, vaan myös koodityyliä ja jäsentelyä, sivutoimintojen minimointi ydinfunktioissa jne. I henkilökohtaisesti huomasi, että Chambersin kirjaohjelmisto tietojen analysointia varten antaa ymmärtää syvällisempiä tekniikoita, jotka auttavat välttämään luotettavuus- ja toistettavuusongelmia R-kooditasolla.

#15
+2
WojciechF
2017-03-23 19:00:50 UTC
view on stackexchange narkive permalink

jos tarvitset edelleen upean esimerkin täysin UUDELLEEN TUOTETTAVISTA analyysistä ja PAPERIN, käytä tätä repoa.

@jscamac teki hienoa työtä tekemällä analyysinsa tuotettavaksi, ja minä vahvisti sen henkilökohtaisesti.

Voit käyttää R-toimintoja, kuten paketti remake , toistettavuuden varmistamiseksi.

Varo / laskelmien suorittaminen kestää noin tunnin.

Sen kaikki käsikirjoitukset ja lopputuloksena LaTeX-paperi kuvilla.Tämä Q & A käännettiin automaattisesti englanniksi.Alkuperäinen sisältö on saatavilla stackexchange-palvelussa, jota kiitämme cc by-sa 2.0-lisenssistä, jolla sitä jaetaan.
Loading...