Dit is het meest technische deel van deze webquest. Je gaat onderzoeken wat de begrippen "correlatie" en "regressie" inhouden, en hoe je een exacte maat kunt berekenen die uitdrukt hoe sterk 2 variabelen met elkaar samenhangen.
In het vorige deel heb je intuïtief een uitspraak gedaan over de mate van samenhang tussen twee variabelen. Maar... dit is wiskunde, dus daar hebben we ook een numerieke maat voor, de correlatiecoëfficiënt. Deze wordt over het algemeen aangeduid met r.
Let op: Soms wordt (om redenen waar we niet op in zullen gaan) r^2 gebruikt in plaats van r. Je moet bij het lezen van websites e.d. dus steeds even oppassen welke van de twee gebruikt wordt.
- Ga naar http://illuminations.nctm.org/imath/912/LinearRelationships/. Daar vind je een applet waarin je zelf punten kunt tekenen. Nadat je op de "Show Line" knop hebt geklikt, wordt de best passende lijn getekend, en wordt r berekend. Onderzoek hoe de puntenwolk moet liggen om r zo groot/klein mogelijk te maken. Wat lijken de minimaal/maximaal mogelijke waarden voor r te zijn? Wanneer wordt r = 0? Beschrijf voor de verschillende gevallen (min, max en nul) ook hoe de best passende lijn loopt en/of hoe de lijn verband houdt met de puntenwolk.
- Zoek uit, met hulp van de Bronnen pagina, hoe de correlatiecoëfficiënt precies berekend wordt. Daar zijn verschillende manieren voor: kies er één die je het best bevalt of die het makkelijkst lijkt. Beschrijf precies hoe dat werkt. Welke waarden kan r aannemen? Bereken tot slot voor de kleine tabel uit Deel 1 de correlatiecoëfficiënt.
Alle resultaten die je hierboven hebt gevonden worden in het werkstuk exact beschreven. Met 'exact' bedoelen we dan: zo nauwkeurig, zonder details over te slaan, dat een klasgenoot die niets van dit onderwerp weet het probleemloos zou kunnen volgen. Zorg dat je "to the point" bent, zeker in je wiskundige deel (derde punt hierboven). Geen "en dan gaan we x uitrekenen en dat doen we dan zoals ik hieronder heb opgeschreven", maar "We berekenen x: ". Dit soort wiskunde is vooral rekenwerk en weinig gebabbel. Bovenstaand deel past waarschijnlijk op 1 kantje.
De correlatiecoëfficiënt is een maat voor de mate van samenhang tussen twee variabelen. Stel nu dat je hebt ontdekt dat er bij warm weer meer ijs wordt verkocht dan bij koude weer - een positieve correlatie dus. Nou is het vandaag 28 graden - nogal warm dus. Je zou nu willen dat je een "intelligente schatting" van de verwachte hoeveelheid verkocht ijs kon geven. Aan r alleen heb je dan niet genoeg - die zegt alleen maar dat er vandaag waarschijnlijk tamelijk veel ijs verkocht zal worden.
Je bent al een paar keer die "best passende" lijn tegen gekomen, de regressielijn. Dat is het middel dat je kunt gebruiken om uit een gegeven x een bijbehorende y te voorspellen. Die voorspelling zal nooit perfect zijn: het gaat tenslotte om een puntenwolk die "losjes" om de lijn heen ligt, dus er is een bepaalde foutmarge. Maar dat weerhoudt ons er niet van om, met enige voorzichtigheid, dergelijke voorspellingen te doen.
- Om met dat laatste te beginnen: schrijf een stukje over het volgende:
Als r = 0, hoe loopt de regressielijn dan? Wat betekent dat voor de voorspellende waarde van die regressielijn? M.a.w.: als r = 0, en je zou een x in de vergelijking van de lijn invullen, hoe 'informatief' is dan de y die je berekent?
Bij welke waarden(n) van r is de voorspellende kracht van deze lijn het grootst? Beargumenteer aan de hand van het voorgaande dat "regressie plegen" (de regressielijn bepalen) niet altijd zinvol is. Wanneer is het zinvol en wanneer niet?- De regressielijn wordt bepaald met "de kleinste kwadratenmethode". Zoek uit wat dat inhoudt en leg het in je eigen woorden uit. Hier komt dus nog helemaal geen rekenwerk aan te pas - het gaat om het idee. Gebruik bijvoorbeeld de "kleinste kwadraten applet" van de Bronnen pagina om een beetje gevoel te krijgen voor wat er aan de hand is.
- Met de hand de kleinste kwadratensom bepalen is allesbehalve praktisch. Gelukkig zijn er rekenmethoden die wel te doen zijn (ook al zijn de meesten ook niet erg fijn). Voor het bepalen van de regressielijn, die uiteraard van de vorm y=ax+b is, heb je twee gegevens nodig: a (de r.c.) en b (het snijpunt met de y-as). Zoek uit hoe deze a en b berekend worden bij het bepalen van de regressielijn.
Opmerking: er zijn verschillende manieren om deze lijn te bepalen, de ene eenvoudiger dan de andere. Kijk uit dat je niet de moeilijkste er uit pikt... (Hint: de laatste formule uit Deel 1 komt ergens terug op één van de webpagina's van de Bronnen pagina). Let ook op het volgende: Engelstalige pagina's gebruiken nogal eens andere letters voor a en b, zoals m en b, of b en c, of... Even je hoofd er bij houden dus.- Neem weer de kleine tabel uit Deel 1. Bepaal de regressielijn. Als het goed is komt een deel van de vergelijking van de lijn je bekend voor uit Deel 1...
- Neem nogmaals de Test en SAT scores uit deel 1. Je hebt daar toen op het oog een regressielijn getekend en daar een formule voor opgesteld. Bereken nu de echte regressielijn. Vergelijk je eerdere 'gok' met wat je nu vindt.
Als je denkt dat wiskundigen dit soort dingen telkens met de hand zitten uit te rekenen, dan vergis je je toch lelijk. Er is (gelukkig!) software die dit soort vermoeiend rekenwerk van je kan overnemen. Je hebt zelfs al software die dat kan, in de vorm van je grafische rekenmachine.
- Zoek uit hoe je op je GR de correlatiecoëfficiënt en de regressievergelijking kunt laten uitrekenen. Beschrijf in een paar woorden hoe dat werkt. Controleer of je rekenwerk aan de kleine tabel uit Deel 1 correct was (zowel corr.coëf. als regressielijn). Als je een TI-83 hebt: zoek in je manual "DiagnosticOn" op: waarom wil je dat dat aanstaat?
Opmerking: op de Bronnen pagina staat een link naar een Engelstalige TI-83 uitleg. Die uitleg is erg goed, maar houdt zich ook bezig met dingen die er hier minder toe doen, zoals het tekenen van de puntenwolk en regressielijn. Het enige waar het wat mij betreft om gaat, is het berekenen van r, en a en b van de lijn.- Ga nog eens naar de website uit Deel 1, met de Test en SAT scores. Bereken met de GR correlatiecoëfficiënt en regressielijn. Als het goed is komen je resultaten precies overeen met wat er op die website staat (en met wat je twee punten hiervoor met de hand berekend had). Ga na dat dat het geval is (Let op: de website heeft het over RSquare - dus r-kwadraat - in plaats van r. Ook wordt er in de tabel met resultaten gesproken over 'intercept': dat is het snijpunt met de y-as).
- Ga naar http://www.amstat.org/publications/jse/archive.htm. Daar staat ergens "Diamond Ring Pricing Using Linear Regression", met een bijbehorend gegevensbestand (diamond.dat) en tekstbestand met uitleg (diamond.txt). Neem het gewicht (karaat) van de diamanten als x en de prijs als y. Bepaal (met de GR) r en de vergelijking van de regressielijn. Wat is nu de voorspelling voor de prijs van een diamanten ring van 0,22 karaat? Denk je dat deze voorspelling erg betrouwbaar is, of juist niet? Geef een korte maar duidelijke motivatie.
Alle resultaten die je hierboven hebt gevonden worden in het werkstuk weer exact beschreven. En alweer: zorg dat je "to the point" bent.
Ga nu weer terug naar de Proces hoofdpagina.
home| introductie | taak | proces | evaluatie | conclusie | bronnen | email
(c) H.J. Veenstra 2003