Vous êtes sur la page 1sur 22

Modul 2.

1: Methoden und Analyseverfahren

Zusammenfassung Statistik Kurseinheit 1 (Beschreibende Statistik) Kap. 1- 5


SEMESTER: SS12 AUTOR: Liquidacao

1. Statistik, Daten und statistische Methoden 1.2 Aufgaben und Teilbereiche der Statistik
Aufgaben der Statistik

Erhebung von Daten Beschreibung und Visualisierung Identifikation von Aufflligkeiten Ableitung von Schlssen

Mehrdeutigkeit des Begriffs Statistik Teilbereiche der Statistik: Innerhalb der Statistik gibt es zwei Bereiche: 1. Beschreibende Statistik (Deskriptive Statistik) a. Umfasst numerische und grafische Verfahren zur Charakterisierung und Prsentation von Daten. b. Explorative Statistik: Data mining Sammlung von Daten um Aufflligkeiten zu beobachten 2. Schlieende oder induktive Statistik a. Zieht Schlussfolgerungen aus Daten. b. Diese werden als Ausprgungen von Zufallsvariablen interpretiert und durch Wahrscheinlichkeitsmodelle beschrieben.

Grundlage des Verwaltungsrechts ist das Verfassungsrecht, was entsprechend durch das GG verkrpert wird. Auf dessen Grundlage gibt es die drei staatlichen Gewalten, nmlich die gesetzgebende Gewalt (Legislative), die ausfhrende Gewalt (Exekutive oder eben die Verwaltung) und die richterliche Gewalt (Judikative).

1.3 Methodenkompetenz als Lernziel


Methodenkompetenz als Basis fr datengesttzte Entscheidungsfindung

2. Grundbegriffe der Statistik


Planung Erhebung Aufbereitung Und Auswertung von Daten

Grundbegriffe ( Buch S. 14 ff)

Objekte auf die sich die statistische Untersuchung bezieht, nennt man statistische Einheiten oder Merkmalstrger. Menge aller statistischen Einheiten nennt man Grundgesamtheit. Eigenschaften einer statistischen Einheit nennt man Merkmale oder Variablen Die mglichen Werte, die ein Merkmal annehmen kann, nennt man Merkmalsausprgung.

Wenn man aus einer Grundgesamtheit nach einem bestimmten Auswahlverfahren eine Teilmenge auswhlt, spricht man von einer Stichprobe. Die Wert, die man fr ein Merkmal in einer Grundgesamtheit oder einer Teilmenge einer Population beobachtet, nennt man Urwerte, Primrdaten oder Rohdaten. Urliste

2.2 Merkmalsklassifikationen und Skalen


Einteilung von Merkmalen nach der Anzahl der Ausprgungen Diskretes Merkmal: ist ein Merkmal, das nur endlich viele Ausprgungen oder aber hchsten abzhlbar viele Ausprgungen annehmen kann. Zhlvariablen sind stets diskret. o Bsp.: Anzahl der Fachsemester, Gteklassen, Alter, Anzahl der zu einem Haushalt gehrenden Personen. Stetiges Merkmal: ist dadurch gekennzeichnet, dass die Ausprgungen ein Intervall bilden. Fr jede zwei Merkmalsausprgungen eines stetigen Merkmals gilt, dass auch alle Zwischenwerte angenommen werden. o Zeitangaben, Lngen, Gewichte, Krpergre

Einteilung von Merkmalen nach der Skalierung

Skala Nominalskala

Art verschiedene Kategorien keine Reihenfolge fr die einzelnen Ausprgungen definiert Rangfolge bzw. Rangordnung festlegbar aber: keine Angaben ber die Abstnde zwischen den Ausprgungen mglich Rangfolge definiert wie bei Ordinalskala gleich groe Skalenabschnitte Nullpunkt willkrlich, aber festlegbar

Beispiele mnnlich / Weiblich Farben ja /nein vorkommen (hufig, selten, nie) Geschmack (sehr gut, gut, befriedigend) - Temperaturskala in Celcius ( hat keinen natrlichen Nullpunkt; Aussagen wie 20 Grad sind doppelt so viel wie 10 Grad sind nicht sinnvoll) Preis eines Artikels ( es knnen sinnvolle Verhltniszahlen berechnet werden ( also 10 sind doppelt so viel wie 5 ) Haushaltsgre in Personen Krpergre in cm

Ordinalskala (rangskaliert)

Intervallskala ( Kardinalskala ) -metrisch

Verhltnisskal a -metrisch

wie Intervallskala aber: natrlicher Nullpunkt vorhanden

Bsp.:
Nominal X Ordinal Intervall Verhltnis X X X X X X

Geschlecht Alter in Lebensjahren Mathematik Zensuren Temperatur in C Platzierung im Wettlauf Gehalt in Beruf

Bsp.: Notwendiges Skalenniveau - Welches Skalenniveau ist mindestens erforderlich, damit folgende Aussagen zutreffen?

Nominal Ein Messwert ist grer als ein anderer. Ein Messwert ist doppelt so gro. Zwei Messwerte sind ungleich. (x1-x2) < (x3 - x4) Die Differenz zweier Messwerte ist gleich. Ein Messwert liegt zwischen zwei anderen. Ein Messwert ist gleich einem anderen.

Ordinal X

Intervall

Verhltnis

X X X X X X

Einteilung von Merkmalen nach dem Typ der Ausprgung Typ der Merkmalsausprgung (Kategorie oder Zahl). Wenn die Ausprgungen Kategorien sind, spricht man von einem qualitativen Merkmal. Die Merkmalsausprgung en spiegeln hier eine Qualitt wider, keine Intensitt oder ein Ausma. (Nominal oder ordinal skaliert) Sind die Ausprgungen eines Merkmals echte Zahlen, so liegt ein quantitatives Merkmal vor.

2.3 Operationalisierung von Merkmalen


Bevor eine Variable anhand einer Messskala gemessen wird, muss ihre Messbarkeit gesichert sein. Dies geschieht durch die Operationalisiserung bezeichnete Festlegung von Messanweisung. Qualittsbewertung fr Messverfahren Die Beurteilung der Qualitt von Messverfahren erfolgt anhand von drei Kriterien. Es sind dies die Objektivitt (intersubjektive Nachvollziehbarkeit), die Reliabilitt (Messgenauigkeit) sowie die Validitt ( Gltigkeit) des Verfahrens. Von letzterer spricht man, wenn wirklich das gemessen wird, was man messen will. Validitt bezieht sich also auf den inhaltlichen Aspekt der Messung, whrend die Reliabilitt auf die technische Ebene abstellt. Ein nicht-reliables Messverfahren ist i. a. auch nicht-valide und auch ein hochreliables Messverfahren kann wenig valide sein. Letzteres trit zu, wenn ein

Verfahren zwar etwas genau misst, aber inhaltlich etwa anderes erfasst als erfasst werden sollte.

3. Datengewinnung und Auswahlverfahren 3.1 Erhebungsarten und Studiendesigns


Fr empirische berprfung von Forschungsfragen werden Daten benitigt, d.h. beobachtete Werte eines Merkmals oder mehrere Merkmale in einer Grund- ode Teilgesamtheit von Merkmalstrgern. Die Gewinnung von Daten bezeichnet man als Datenerhebung, die Planung Erhebungsdesign. Primrdaten sind Daten, die eigens fr die Untersuchung eigenstndig gewonnen wurden. Sekundrdaten sind Daten, die aus schon vorhandenen Quellen gewonnen wurden.

Varianten der Befragung Eine mndliche Befragung kann unstrukturiert, teilstrukturiert oder strukturiert erfolgen. Eine unstrukturierte Befragung hat einen oenen Charakter und kann Varianten der Befragung ohne Fragebogen realisiert werden. Bei teilstrukturierten und strukturierten Interviews ist die Befragung teilweise oder ganz standardisiert. Dies lsst sich durch die Verwendung von Fragebgen mit teilweise oder vollstndig geschlossenen Fragen erreichen. ... ( S. 21 ff) Klassifikation von Erhebungen nach dem zeitlichen Zusammenhang der Daten - Querschnittsreihe: Wenn an verschiedenen Merkmalstrgern zu einem festen Zeitpunkt die Ausprgung eines Merkmals erfasst werden. - Zeitreihe: Verfolgt man ein Merkmal an einer statistischen Einheit im Zeitverlauf. - Panel: Kombiniert Querschnitts- und Zeitreihenanalyse. Eine weitere Klassifikation fr Erhebungen bezieht sich auf den Umfang der erhobenen Daten. Bei der Vollerhebung werden alle Elemte einer Grundgesamtheit in die Erhebung eingebzogen, whrend man bei einer Teilerhebung oder Stichprobenerhebung nur Daten fr eine Teilmenge der fr die jeweilige Fragestellung relevanten Grundgesamtheit heranzieht.

3.2 Stichprobenauswahl
Formal ist eine geschichtete Stichprobenauswahl ein zweistuges Auswahlverfahren, bei der eine Grundgesamtheit mit N Elementen zunchst anhand eines Hilfsmerkmals der Schichtungsvariablen in L disjunkte Teilgesamtheiten des Umfangs N1 , N2 , . . . ,NL zerlegt wird (N1 + N2 + .. + NL = N ), aus denen im zweiten Schritt Zufallsstichproben des Umfangs n1 , n2 , . . . ,nL gezogen werden (n1 + n2 + .. + nL = n). Je nachdem, ob der Anteil ni Ni (i = 1, 2, .., L) der einer Schicht entnommenen Stichprobenelemente fest ist oder nicht, liegt eine proportional geschichtete Stichprobe resp. eine disproportional geschichtete Stichprobe vor. Abbildung 3.4 zeigt eine Grundgesamtheit von N = 50 Elementen, bei der zunchst eine Zerlegung in drei Schichten mit den Umfngen N1 = 25, N2 = 15, N3 = 10 und dann in jeder Schicht eine zum Schichtumfang proportionale Zufallsstichprobe gezogen wird. Bei dem Illustrationsbeispiel betrgt der Auswahlsatz 20 % der Elemente einer Schicht.

Bei einer disproportional geschichteten Stichprobe ist die Auswahlwahrscheinlichkeit der Stichprobenelemente innerhalb einer Schicht konstant, nicht aber von Schicht zu Schicht. Man muss hier die Stichprobenelemente beim Rckschluss auf die Grundgesamtheit gewichten die Gewichte sind dabei zu den Auswahlwahrscheinlichkeiten reziprok. Disproportionale Schichtung wird z. B. angewendet, wenn Schichten dnn besetzt sind. Bei geschichteten Zufallsstichproben wird eine Grundgesamtheit anhand eines Hilfsmerkmals (Schichtungsvariable) in disjunkte Teilmengen zerlegt. Manchmal zerfllt aber eine Grundgesamtheit auf natrliche Weise, also von vorneherein, in disjunkte Teilgesamtheiten, die hier Klumpen genannt werden. Bei einer Grundgesamtheit von Schlern knnten die Klumpen durch Klassenverbnde und bei Tieren durch Herden gegeben sein. In solchen Fllen zieht man manchmal ein anderes zweistuges Auswahlverfahren heran, die sog. Klumpenstichprobe. Hier wird im ersten Schritt eine Zufal lsstichprobe aus der Menge al ler Klumpen gezogen. Im zweiten Schritt werden dann al le Elemente der ausgewhlten Klumpen untersucht. In der Praxis, etwa in der Markt- und Meinungsforschung, werden Stichproben nicht immer zufllig, sondern auf der Basis einer Systematik ausgewhlt. Ein Beispiel fr ein systematisches Stichprobenauswahlverfahren ist die Quotenauswahl. Bei dieser versucht man eine Stichprobe durch Vorgabe von Quoten bezglich eines meist soziokonomischen Merkmals, z. B. Geschlecht oder Alter, so zu erzeugen, dass die Stichprobe hinsichtlich dieses Merkmals damit allerdings nicht zwingend auch hinsichtlich des eigentlich interessierenden Untersuchungsmerkmals eine Art verkleinertes Abbild der Grundgesamtheit darstellt.

3.3 Trger amtlicher und nicht-amtlicher Statistik


Organisation der amtlichen Statistik in Deutschland Fr Datensammlungen, die ganz Deutschland betreen, ist das Statistische Bundesamt zustndig, fr regionale Daten die Statistischen Landesmter. Daneben gibt es auch einige kommunale Statistikmter. Nur wenige amtliche Statistiken werden unter direkter Kontrolle von Ministerien gefhrt, etwa die Arbeitsmarktstatistik der Bundesagentur fr Arbeit, bei der das Bundesministerium fr Arbeit und Soziales Mitverantwortung trgt. Trger nicht-amtlicher Statistik Whrend die Trger der amtlichen Statistik eine Informationspicht gegenber der entlichkeit haben, gilt dies nicht fr die Trger der nicht-amtlichen Statistik.

Die grten Wirtschaftsforschungsinstitute in Deutschland sind das Institut fr Wirtschaftsforschung (IFO) in Mnchen, das Deutsche Institut fr Wirtschaftsforschung (DIW) in Berlin, das Rheinisch-Westflische Institut fr Wirtschaftsforschung in Essen (RWI), das Institut fr Weltwirtschaft in Kiel (IfW) und das Institut fr Wirtschaftsforschung Hal le (IWH). Internationale Trger amtlicher Statistik - Eurostat - Europische Amt fr Statistik

4. Univariate Hufigkeitsverteilung 4.1 Absolute und relative Hufigkeiten


Univariate oder multivariate Datenanalyse: Je nachdem, ob man Daten fr ein Merkmal oder fr mehrere Merkmale auswertet, spricht man von univariater oder multivariater Datenanalyse. (Betrachtet sei eine Erhebung, bei der fr ein beliebig skaliertes Merkmal X an n Merkmalstrgern oder Untersuchungseinheiten jeweils die Merkmalsausprgung festgestellt wird. Die beobachteten oder gemessenen Merkmalswerte x1 , . . . , xn konstituieren die Urliste. Da sich die Urliste hier auf ein einziges Merkmal bezieht, liegt eine univariate Urliste vor. In dieser knnen Werte mehrfach auftreten. Dieser Fall tritt z. B. bei diskreten Merkmalen auf, wenn die Lnge n der Urliste die Anzahl k der mglichen Merkmalsausprgungen berschreitet.)

Verteilung von absoluten und relativen Hufigkeiten Urlisten werden mit wachsender Lnge n und sich wiederholenden Merkmalswerten rasch unbersichtlich. Es empehlt sich dann, die in den Rohdaten enthaltene Information durch Angabe von Hugkeiten fr die Merkmalsausprgungen oder, bei gruppierten Daten, fr Klassenbesetzungshugkeiten zusammenzufassen. Hat man ein diskretes Merkmal mit Ausprgungen a, . . . , ak, so ist die im Folgenden mit

hi := h(ai ) i = 1, 2, . . . , k
bezeichnete absolute Hugkeit fr die Ausprgung ai die Anzahl der Elemente der Urliste, die mit dem Wert ai bereinstimmen. Absolute Hugkeiten haben den Nachteil, dass sie von der Lnge n der Urliste abhngen. Um Hugkeiten auch fr Datenstze unterschiedlichen Umfangs direkt vergleichbar zu machen, teilt man die absoluten Hugkeiten durch den Umfang n der Beobachtungsreihe. Die resultierenden relativen Hugkeiten

reprsentieren Anteile, die man auch oft in Form von Prozentwerten ausweist (Multiplikation mit 100).1 Hugkeiten lassen sich, wie anhand von Beispiel 4.1 illustriert, in Tabellenform ausweisen. Dabei resultieren Hugkeitsverteilungen fr absolute oder relative Hugkeiten. Eine Hugkeitsverteilung fr ein Merkmal X wird auch als em-

pirische Verteilung fr dieses Merkmal bezeichnet. Es ist sofort einsichtig, das sich die absoluten Hugkeiten zu n und die relativen Hugkeiten zu 1 addieren. Im Vorcomputerzeitalter wurden fr absolute Hugkeiten anstelle von Zahlen auch manchmal Strichlisten verwendet, also z. B. anstelle von 7 geschrieben. Diese Verfahrensweise bot sich aber allenfalls bei kleinen Werten h(ai) an. Buch S.67 ff

Absolute Hufigkeit

Relative Hufigkeit

Weiteres Beispiel im Skript S. 37

Visualisiserung univariater Hufigkeitsverteilungen Kreisdiagramm: Dabei werden die absoluten oder relativen Hufigkeiten durch Kreissektoren reprsentiert. Stabdiagramm: Hufigkeiten werden durch vertikale dicke Stbe (Striche) dargestellt. Beim Sulendiagramm durch vertikale dicke Stbe (rechtecke) dargestellt. Beispiel aus Skript S. 38

4.2 Die empirische Verteilungsfunktion


Vorausgehend wurde die absolute Hufigkeitsverteilung resp. Relative Hufigkeitsverteilung thematisiert. Sie gibt Aufschluss darber, wie oft jede Ausprgung in einem Datensatz vorkommt. Wenn die Merkmalswerte metrisch oder zumindest ordinalskaliert sind, also eine natrliche Rangordnung erklrt ist, will man oft auch wissen, wieviele Werte unterhalb oder oberhalb eines Schwellenwertes x liegen. Bei einem Datensatz, der den hchsten erreichten Bildungsabschluss einer Personengruppe beschreibt (ordinalskaliertes Merkmal hchster erreichter Bildungsabschluss), kann man z. B. fragen, wieviele Personen einen Abschluss unterhalb eines Hochschulabschlusses haben, also die Hochschulreife oder einen darunter liegenden Abschluss besitzen. Beim n-fachen Wrfeln mit einem Wrfel kann man etwa an der Hugkeit von Ergebnissen interessiert sein, die die Augenzahl 5 unterschreiten. Eine Antwort auf solche Fragen liefert die absolute oder relative kumulierte Hugkeitsverteilung. Betrachtet sei also ein zumindest ordinalskaliertes Merkmal X mit Ausprgungen a1 , . . . , ak . Fr das Merkmal liegen n Beobachtungen xi vor (i = 1, 2, . . . , n), die bereits aufsteigend geordnet seien. Die absolute kumulierte Hugkeitsverteilung fr X ergibt sich, wenn man fr einen beliebigen reellen Wert x die Anzahl der Beobachtungen ermittelt, die x nicht berschreiten. Formal ergibt sich diese kumulierte Hugkeitsverteilung H (x) als Summe der absoluten Hugkeiten h(ai ), die der Bedingung ai x gengen. Die Funktion H (x) ist also fr x < a1 Null, springt in x = a1 auf den Wert h(a1 ) und bleibt auf diesem Niveau bis zur Stelle x = a2 , an der sie auf den Wert h(a1 ) + h(a2 ) springt usw. Die absolute kumulierte Hugkeitsverteilung H (x) fr ein Merkmal X ist somit eine monoton steigende Treppenfunktion, die jeweils in x = ai um den Betrag hi nach oben springt. Formal lsst sich H (x) wie folgt schreiben:

Die relative kumulierte Hugkeitsverteilung F (x) resultiert, wenn man H (x) durch den Umfang n des Datensatzes dividiert:

5. Kenngren univariater empirischer Verteilungen 5.1 Lagemae


Modalwert/ Modus Xmod Zur Charakterisierung des Zentrums einer Verteilug werden Lageparameter herangezogen. Der Modus lsst sich immer anwenden, also auch bei Merkmalen, deren Ausprgung nur Kategorien sind (qualitative Merkmale). Er ist definiert als die Merkmalsausprgung mit der grten Hufigkeit. Beispiel aus Skript In Beispiel 4.1 (ZDF-Politbarometer vom 16. Oktober 2009, Merkmal Parteiprferenz)war die Ausprgung a1 (Prferenz fr die CDU/CSU) mit der grten Hugkeit verbunden, d. h. hier ist xmod = a1 . Anhand von Abbildung 4.4 lsst sich der Modus leicht bestimmen, weil die Hugkeit h(a1 ) deutlich grer als alle anderen Hugkeiten war. Wren zwei Hugkei- ten, z. B. h(a1 ) und h(a2 ) gleich gro, htte man eine zweigipige Hugkeitsverteilung und es gbe zwei Modalwerte (Modi). Der Modus ist also nur dann eindeutig erklrt, wenn die Hugkeitsverteilung ein eindeutig bestimmtes Maximum aufweist. Aus Buch S. 79

Median/Zentralwert Bezeichnet den Wert, der in der Mitte einer der Gre des betrachteten Merkmals nach angeordneten Folge aller untersuchten Merkmalsausprgungen steht. ( Zahlenwerte sind unwichtig) - Bei ungeraden n: einfach abzulesen. Beispiel 1 1 2 3 5, Me = 2 - Bei geraden n: Mittelwert bilden; Beispiel 1 1 2 3 5 6, Me= 2,5 Fr gerade n gilt: Bei geradem n existiert kein mittleres Element. Deshalb ermittelt man Me aus den Ausprgungen der beiden Elemente, die der Mitte am nchsten stehen, mithilfe des arithmetischen Mittels. Fr die Folge der Ausprgungen 1 ... 1 .... 2 ... | .... 3 .... 5 ... 6 gilt somit Me = 2 + 3 / 2 = 2,5 Der Median teilt die Hugkeitsverteilung in 2 Hlften. Die ersten 50% der Merkmalstrger besitzen eine Merkmalsausprgung, die kleiner ist als der Median, die restlichen eine, die gleich oder grer ist.

Quartile hnlich wie der Median, Unterteilung aber in 4 Teile (25%, 50%, 75%, 100%) Mittelwert (arithmetisches Mittel)

Merkmalen anwendbar und ergibt sich, idem man alle Werte x1, x2, ..., xn eines Datensatzes addiert und die resultierende Summe durch n dividiert: Formel:

x (X-Strich) =

x1+ x2 + ...+ xn = n

mit den Merkmalsausprgungen x1, x2 ... xn und der Anzahl der Beobachtung n

!
Das arithmetisches Mittel X-Strich ist die Summe aller beobachteten Merkmalsausprgungen, geteilt durch deren Anzahl. Der Mittelwert bercksichtigt demnach alle Werte eines Datensatzes mit gleichem Gewicht

Elemente eines Datensatzes eingehen. Wenn man also bei einem Datensatz den grten Wert xmax=X(n) deutlich vergrert, hat dies nur auf den Mittelwert einen Effekt. Der Mittelwert reagiert demnach, anders als der Median, empfindlich gegenber extremen Werten. Man spricht dabei von einer hheren Sensivitt oder auch von einer geringeren ! Robustheit des Mittelwerts gg. Ausreiern, d.h. gg auffllig groen oder kleinen Beobachtungswerten. Gewogenes arithmetisches Mittel Kommen verschiedene Merkmalsausprgungen mehrfach vor, so wird zur einfacheren Berechnung des Mittelwerts die Formel fr das gewogene arithmetische Mittel herangezogen:

1 , whrend in die Berechnung eines Medians nur ein oder zwei zentrale n

x gew

x1h1 + x 2 h2 + ...+ x k hk x1h1 + x 2 h2 + ...+ x k hk 1 k = = = " x i hi h1 + h2 + ...+ hk n n i=1

Beispiel aus Buch S. 79 Benutz Werten die Angaben aus dem Beispiel auf S. 74. Dabei stellen die Ausprgungen die Zimmer da (1 bis 6 Zimmer) und die Anzahl der Auftrge die Beobachtungen. Insgesamt also n sind 200 Auftrge vorhanden. Das arithmetische Mittel hier gewogenes arithmetisches Mittel - lsst sich wie folgt berechnen:

x gew. =

Somit haben die sanierten Altbauwohnungen eine durchschnittliche Gre von 3,2 Zimmern.

1" 20 + 2 " 54 + 3 " 50 + 4 " 6 + 5 " 2 + 6 "18 = 3,2 200

In der Wochenzeitung Die Zeit, Ausgabe vom 11. 4. 2002, fand man in Ergnzung des Beitrags Big Oil regiert von Th. Fischermann die nachstehende Tabelle mit umweltrelevanten Kennzahlen fr die USA, Deutschland, Japan, China und Indien. Die Daten beziehen sich auf das Jahr 1999 und stammen von der Internationalen Energieagentur.

Man erkennt, dass die USA vergleichsweise grozgig Energie verbrauchen und C O2 emittieren. Gedanklich stelle man sich 5 Personen vor, je eine Person aus den Lndern USA, Deutschland, Japan, China und Indien, fr die jeweils die in Tabelle 5.1 angegebenen Verbrauchs-

Gibt es einen besten Lageparameter? Welchen der vorgestellten Lageparameter sollte man aber verwenden? Hierzu gibt es keine allgemeingltige Ausage. Die Antwort hngt sowohl von der Skalierung des Merkmals ab als auch von der jeweiligen Fragestellung. Bei einem nominalskalierten Merkmal kann man nur den Modalwert verwenden. Bei einem metrisch skalierten Merkmal hat man schon drei Alternativen, nmlich den Modalwert, den Median und den Mittelwert und es ist zu berlegen, wie robust die zu berechnende Kenngre gegenber Extremwerten sein soll. Bei einem kleinen Datensatz fr das Merkmal Bruttoverdienst (in Euro / Stunde) kann z. B. ein einziger Extremwert den Mittelwert erheblich beeinussen. Hier kann dann der Median aussagekrftiger sein, whrend der Modalwert i. a. wenig Information liefert, vor allem wenn die Verdienste auf Cent genau ausgewiesen werden.

Bei metrisch skalierten Daten wird oft nicht nur ein Lageparameter berechnet, weil ein zweiter Parameter, etwa der Median zustzlich neben dem Mittelwert, noch zustzliche Information ber die empirische Verteilung eines Datensatzes liefern kann. Bei einer Einkommensverteilung kann man z. B. x-Strich und x-Schlange vergleichen und hieraus Aussagen zur Symmetrie oder Asymmetrie der Verteilung ableiten.

5.2 Streuungsmae
Zur Charakterisierung von Merkmalen, fr die Abstnde zwischen Merkmalsausprgungen erklrt sind, also bei quantitativen Merkmalen (metrische Merkmalsskalierung), muss man somit noch Kenngren heranziehen, die die Streuung innerhalb des Datensatzes messen. Ein besonders einfach Streuungsma fr metrisch skalierte Merkmale ist die Spannweite R eines Datensatzes. Um diese zu berechnen, ordnet man wie bei der Berechnung des Medians den Datensatz zunchst nach aufsteigender Gre. Die Spannweite ergibt sich dann aus dem geordneten Datensatz x(1), x(2),..., x(n) als Differenz aus dem grten Wert x(n) und dem kleinsten Wert x(1): R:= x(n) x(1). Die Spannweite hat den Nachteil, dass sie eine hohe Empndlichkeit bzw. eine geringe Robustheit gegenber Ausreiern besitzt. ndert man in einem Datensatz den maximalen oder den minimalen Wert stark, wirkt sich dies auch massiv auf den Wert von R aus. Varianz (oder Stichprobenvarianz s2, oder empirische Varianz) In die Varianz gehen die Abweichungen xi x-Strich der Merkmalswerte vom Mittelwert x-Strich ein. Die Varianz bildet den Mittelwert aus dem quadrierten Abweichungen (xi xStrich)2, d.h. es gilt

Aus Buch S. 80 ff

Aus Buch: Die Beschreibung der Mitte der Hufigkeitsverteilung, bspw. Mit dem arithmetischen Mittel, kann durch Mazahlen ergnzt werden, die zum Ausdruck bringen, wie stark die beobachteten Merkmalsausprgungen von dieser Mitte abweichen (um diese Mitte streuen). Gebruchliche Streuungsmae sind die Varianz und Standardabweichung.

Weiter Beispiele im Skript S. 57 f 5.3 Quantile und Boxplots

Quantile und Boxplots siehe Skript S. 59 ff.

Vous aimerez peut-être aussi