Vous êtes sur la page 1sur 21

Statistiek extra college

Tips in R
Met b.v :>?t.test ga je naar de hulppagina voor de t.test. Je kunt ? heel handig gebruiken om uit te zoeken welke argumenten er precies nodig zijn bij elke test. Kan ook gebruikt worden bij datasets: dus bijv: >?Saheart brengt je naar een pagina waar alles wordt uitgelegd over de dataset. (in R zelf kan je ook >str() gebruiken om direct de variabelen te krijgen.

Writing a report:
Introduction Exploratory analysis Formal analysis Conclusion Discussion

Writing a report: introduction


Zeer kort inleiding stukje. Onderzoeksvraag: vaak iets in de zin van to what extent can we model [y] by [x] of which variables have the biggest impact on [x]? (kan ook bij exploratory analysis)Beschrijf de dataset: waar gaat het over? Welke variabelen zijn er in totaal aanwezig? Hoe groot is de population? )

Writing a report: exploratory analysis


Het doel is om alle basic eigenschappen van de dataset op een rijtje te zetten. Met name door graphs, barcharts, boxplots en dergelijke. Let wel op dat je hier geen enkele tests uitvoert. In principe gaat het puur om het kijken naar de data. Korte regel: bij exploratory analysis doe je geen enkele berekening! (also: in welke vorm is de data? -> beslissend voor type graph. (continuous, binomial, categorical etc) )

Boxplots als je 2 of meer groepen hebt, en je continuous data wilt vergelijken.

Writing a report: exploratory analysis


Single boxplot als je de verdeling wilt bekijken: (kijkend naar outliers, influential points etc.)

Writing a report: exploratory analysis


Normality en algemene distribution door boxplots of density plots (in R: >plot(density(x))

Writing a report: formal analysis:


Hier ga je echt met de data aan de slag, en ga je de tests uitvoeren.
1: wat voor data heb ik? (continuous, binomial, categorical, etc) 2: wat moet ik uitzoeken? (vergelijking tussen groepen? Voorspellen van variabele? Impact van een var op de andere? 3: welke tests zijn uberhaupt van toepassing? (als je met proportions werkt is een t.tests bijv niet van toepassing.) 4: welk van deze tests heb ik nodig om de uitkomst te krijgen die ik wil? (vergelijken van means? ANalysis Of VAriance? Opstellen linear model?) 5:welke extra arguments zijn van toepassing? (paired? Var.equal? )

Writing a report: formal analysis


MODEL ASSUMPTIONS in linear regression:
3 main assumptions:
1:Relationship between covariate and response is linear 2:variance of error is reasonably constant 3: error is normally distributed.

In R: simply >plot(lm( [response] ~ [covariates] ))

Writing a report: formal analysis


Relationship between covariate and response is linear: or less so

Writing a report: formal analysis


Variance of error is constant: Not constant(trompetvorm) : or less so

Writing a report: formal analysis


3: error is normally distributed:

Writing a report:conclusion
Beschrijf de resultaten van de tests die je hebt uitgevoerd. Maak je voorlopig niet bijster veel zorgen als je model assumptions niet geweldig holden, of als het een slechte fit is. Hier laat je puur zien wat de uitkomsten zijn van de tests, en wat ze betekenen voor de data en onderzoeksvraag. (met name interpretatie van de data is belangrijk!)

Writing a report: discussion


Hier kan je soort buiten het hele experiment gaan bespreken wat er fout is. Dus vooral de model assumptions, of de model fit. Bespreek ook tot in welke mate de data dus anders genterpreteerd zou kunnen worden. Of er andere variabelen zijn die het model nog niet in achting had genomen, etc.

Linear Models (linear regression)


Res.lm = lm(response ~ covariable) hoe benvloed de covariable de response? = 0 + 1 (in boek staan de details uitgelegd over handmatig berekenen van de coevariates)

Linear Models (linear regression)


Res.lm = lm(response ~ covariable) Interpreteren van output:

Linear Models (linear regression)


Res.lm = lm(longevity ~ thorax) Interpreteren van output: 0 = 61.86 1 = 145.28

Linear Models (linear regression)


0 = 61.86 (=intercept) 1 = 145.28 Oftewel: per increase van 1 thorax length unit, verlengt het de longevity met 145.28 dagen.

Linear Models (linear regression)


0 = 61.86 (=intercept) 1 = 145.28 Zijn beide significant!!

Geeft aan dat er mogelijk nog andere variabelen aanwezig zijn die het model benvloeden. En dat de variabelen die je op dit moment gebruikt geen geweldige fit zijn. (R2 = 1 is perfecte fit. Onder de 0.70 wordt het al minder)

adjusted R-squared : 0.3926

Linear Models (linear regression)

Different types of linear models:


Simple: lm(response ~ covariate) Multiple: lm(response ~ cov1 + cov2) Polynomial: lm(response ~ cov1 + I(cov2^2)) Interactions: lm(response ~ cov1 * cov2) Categorical (ancova): lm(response ~ cov1 + factor(cov2) ) Logistic: lm(factor(response) ~ cov1 + cov2)) (also logistic: lm(factor(response) ~ cov1 + factor(cov2))

Vous aimerez peut-être aussi