Ehkä tästä on hyötyä joillekin ihmisille, joilla on sama intuitiivinen ymmärrys. Olemme kaikki nähneet jotain tällaista:
Nämä tiedot ovat oletettavasti riippumattomia, mutta niillä on selvästi korrelaatio ( $ r = 0,66 $ ). "Luulin, että riippumattomuus merkitsee nolla korrelaatiota!" opiskelija sanoo.
Kuten muut ovat jo huomauttaneet, sample-arvot korreloivat, mutta se ei tarkoita, että population: llä ei ole nolla-korrelaatiota.
Näiden kahden on tietysti oltava riippumattomia - kun otetaan huomioon, että Nicolas Cage esiintyi ennätyksellisessä 10 elokuvassa tänä vuonna, meidän ei pitäisi sulkea paikallista uima-allasta kesäksi turvallisuussyistä.
Mutta kun tarkistamme, kuinka monta ihmistä hukkuu tänä vuonna, on pieni mahdollisuus, että ennätykselliset 1000 ihmistä hukkuvat tänä vuonna.
Tällaisen korrelaation saaminen on epätodennäköistä. Ehkä yksi tuhannesta. Mutta se on mahdollista, vaikka nämä kaksi ovat itsenäisiä. Mutta tämä on vain yksi tapaus. Ajattele, että siellä on miljoonia mahdollisia mitattavia tapahtumia, ja voit nähdä mahdollisuuden, että kahden todennäköisyydet, jotka antavat korkean korrelaation, ovat melko korkeat (joten yllä olevien kaltaisten kaavioiden olemassaolo).
Toinen tapa tarkastella sitä on, että kahden itsenäisen tapahtuman takaaminen aina korreloimattomilla arvoilla on itsessään rajoittavaa. Kun otetaan huomioon kaksi itsenäistä noppaa ja ensimmäisen tulokset, toiselle noppalle on tietty (huomattava) tulosjoukko, joka antaa jonkin verran nollakorrelaatiota. Toisen noppan tulosten rajoittaminen nolla korrelaatioon ensimmäisen kanssa on selkeä riippumattomuuden rikkomus, koska ensimmäisten noppien heitot vaikuttavat nyt tulosten jakautumiseen.