Académique Documents
Professionnel Documents
Culture Documents
1. Statistik, Daten und statistische Methoden 1.2 Aufgaben und Teilbereiche der Statistik
Aufgaben der Statistik
Erhebung von Daten Beschreibung und Visualisierung Identifikation von Aufflligkeiten Ableitung von Schlssen
Mehrdeutigkeit des Begriffs Statistik Teilbereiche der Statistik: Innerhalb der Statistik gibt es zwei Bereiche: 1. Beschreibende Statistik (Deskriptive Statistik) a. Umfasst numerische und grafische Verfahren zur Charakterisierung und Prsentation von Daten. b. Explorative Statistik: Data mining Sammlung von Daten um Aufflligkeiten zu beobachten 2. Schlieende oder induktive Statistik a. Zieht Schlussfolgerungen aus Daten. b. Diese werden als Ausprgungen von Zufallsvariablen interpretiert und durch Wahrscheinlichkeitsmodelle beschrieben.
Grundlage des Verwaltungsrechts ist das Verfassungsrecht, was entsprechend durch das GG verkrpert wird. Auf dessen Grundlage gibt es die drei staatlichen Gewalten, nmlich die gesetzgebende Gewalt (Legislative), die ausfhrende Gewalt (Exekutive oder eben die Verwaltung) und die richterliche Gewalt (Judikative).
Objekte auf die sich die statistische Untersuchung bezieht, nennt man statistische Einheiten oder Merkmalstrger. Menge aller statistischen Einheiten nennt man Grundgesamtheit. Eigenschaften einer statistischen Einheit nennt man Merkmale oder Variablen Die mglichen Werte, die ein Merkmal annehmen kann, nennt man Merkmalsausprgung.
Wenn man aus einer Grundgesamtheit nach einem bestimmten Auswahlverfahren eine Teilmenge auswhlt, spricht man von einer Stichprobe. Die Wert, die man fr ein Merkmal in einer Grundgesamtheit oder einer Teilmenge einer Population beobachtet, nennt man Urwerte, Primrdaten oder Rohdaten. Urliste
Skala Nominalskala
Art verschiedene Kategorien keine Reihenfolge fr die einzelnen Ausprgungen definiert Rangfolge bzw. Rangordnung festlegbar aber: keine Angaben ber die Abstnde zwischen den Ausprgungen mglich Rangfolge definiert wie bei Ordinalskala gleich groe Skalenabschnitte Nullpunkt willkrlich, aber festlegbar
Beispiele mnnlich / Weiblich Farben ja /nein vorkommen (hufig, selten, nie) Geschmack (sehr gut, gut, befriedigend) - Temperaturskala in Celcius ( hat keinen natrlichen Nullpunkt; Aussagen wie 20 Grad sind doppelt so viel wie 10 Grad sind nicht sinnvoll) Preis eines Artikels ( es knnen sinnvolle Verhltniszahlen berechnet werden ( also 10 sind doppelt so viel wie 5 ) Haushaltsgre in Personen Krpergre in cm
Ordinalskala (rangskaliert)
Verhltnisskal a -metrisch
Bsp.:
Nominal X Ordinal Intervall Verhltnis X X X X X X
Geschlecht Alter in Lebensjahren Mathematik Zensuren Temperatur in C Platzierung im Wettlauf Gehalt in Beruf
Bsp.: Notwendiges Skalenniveau - Welches Skalenniveau ist mindestens erforderlich, damit folgende Aussagen zutreffen?
Nominal Ein Messwert ist grer als ein anderer. Ein Messwert ist doppelt so gro. Zwei Messwerte sind ungleich. (x1-x2) < (x3 - x4) Die Differenz zweier Messwerte ist gleich. Ein Messwert liegt zwischen zwei anderen. Ein Messwert ist gleich einem anderen.
Ordinal X
Intervall
Verhltnis
X X X X X X
Einteilung von Merkmalen nach dem Typ der Ausprgung Typ der Merkmalsausprgung (Kategorie oder Zahl). Wenn die Ausprgungen Kategorien sind, spricht man von einem qualitativen Merkmal. Die Merkmalsausprgung en spiegeln hier eine Qualitt wider, keine Intensitt oder ein Ausma. (Nominal oder ordinal skaliert) Sind die Ausprgungen eines Merkmals echte Zahlen, so liegt ein quantitatives Merkmal vor.
Verfahren zwar etwas genau misst, aber inhaltlich etwa anderes erfasst als erfasst werden sollte.
Varianten der Befragung Eine mndliche Befragung kann unstrukturiert, teilstrukturiert oder strukturiert erfolgen. Eine unstrukturierte Befragung hat einen oenen Charakter und kann Varianten der Befragung ohne Fragebogen realisiert werden. Bei teilstrukturierten und strukturierten Interviews ist die Befragung teilweise oder ganz standardisiert. Dies lsst sich durch die Verwendung von Fragebgen mit teilweise oder vollstndig geschlossenen Fragen erreichen. ... ( S. 21 ff) Klassifikation von Erhebungen nach dem zeitlichen Zusammenhang der Daten - Querschnittsreihe: Wenn an verschiedenen Merkmalstrgern zu einem festen Zeitpunkt die Ausprgung eines Merkmals erfasst werden. - Zeitreihe: Verfolgt man ein Merkmal an einer statistischen Einheit im Zeitverlauf. - Panel: Kombiniert Querschnitts- und Zeitreihenanalyse. Eine weitere Klassifikation fr Erhebungen bezieht sich auf den Umfang der erhobenen Daten. Bei der Vollerhebung werden alle Elemte einer Grundgesamtheit in die Erhebung eingebzogen, whrend man bei einer Teilerhebung oder Stichprobenerhebung nur Daten fr eine Teilmenge der fr die jeweilige Fragestellung relevanten Grundgesamtheit heranzieht.
3.2 Stichprobenauswahl
Formal ist eine geschichtete Stichprobenauswahl ein zweistuges Auswahlverfahren, bei der eine Grundgesamtheit mit N Elementen zunchst anhand eines Hilfsmerkmals der Schichtungsvariablen in L disjunkte Teilgesamtheiten des Umfangs N1 , N2 , . . . ,NL zerlegt wird (N1 + N2 + .. + NL = N ), aus denen im zweiten Schritt Zufallsstichproben des Umfangs n1 , n2 , . . . ,nL gezogen werden (n1 + n2 + .. + nL = n). Je nachdem, ob der Anteil ni Ni (i = 1, 2, .., L) der einer Schicht entnommenen Stichprobenelemente fest ist oder nicht, liegt eine proportional geschichtete Stichprobe resp. eine disproportional geschichtete Stichprobe vor. Abbildung 3.4 zeigt eine Grundgesamtheit von N = 50 Elementen, bei der zunchst eine Zerlegung in drei Schichten mit den Umfngen N1 = 25, N2 = 15, N3 = 10 und dann in jeder Schicht eine zum Schichtumfang proportionale Zufallsstichprobe gezogen wird. Bei dem Illustrationsbeispiel betrgt der Auswahlsatz 20 % der Elemente einer Schicht.
Bei einer disproportional geschichteten Stichprobe ist die Auswahlwahrscheinlichkeit der Stichprobenelemente innerhalb einer Schicht konstant, nicht aber von Schicht zu Schicht. Man muss hier die Stichprobenelemente beim Rckschluss auf die Grundgesamtheit gewichten die Gewichte sind dabei zu den Auswahlwahrscheinlichkeiten reziprok. Disproportionale Schichtung wird z. B. angewendet, wenn Schichten dnn besetzt sind. Bei geschichteten Zufallsstichproben wird eine Grundgesamtheit anhand eines Hilfsmerkmals (Schichtungsvariable) in disjunkte Teilmengen zerlegt. Manchmal zerfllt aber eine Grundgesamtheit auf natrliche Weise, also von vorneherein, in disjunkte Teilgesamtheiten, die hier Klumpen genannt werden. Bei einer Grundgesamtheit von Schlern knnten die Klumpen durch Klassenverbnde und bei Tieren durch Herden gegeben sein. In solchen Fllen zieht man manchmal ein anderes zweistuges Auswahlverfahren heran, die sog. Klumpenstichprobe. Hier wird im ersten Schritt eine Zufal lsstichprobe aus der Menge al ler Klumpen gezogen. Im zweiten Schritt werden dann al le Elemente der ausgewhlten Klumpen untersucht. In der Praxis, etwa in der Markt- und Meinungsforschung, werden Stichproben nicht immer zufllig, sondern auf der Basis einer Systematik ausgewhlt. Ein Beispiel fr ein systematisches Stichprobenauswahlverfahren ist die Quotenauswahl. Bei dieser versucht man eine Stichprobe durch Vorgabe von Quoten bezglich eines meist soziokonomischen Merkmals, z. B. Geschlecht oder Alter, so zu erzeugen, dass die Stichprobe hinsichtlich dieses Merkmals damit allerdings nicht zwingend auch hinsichtlich des eigentlich interessierenden Untersuchungsmerkmals eine Art verkleinertes Abbild der Grundgesamtheit darstellt.
Die grten Wirtschaftsforschungsinstitute in Deutschland sind das Institut fr Wirtschaftsforschung (IFO) in Mnchen, das Deutsche Institut fr Wirtschaftsforschung (DIW) in Berlin, das Rheinisch-Westflische Institut fr Wirtschaftsforschung in Essen (RWI), das Institut fr Weltwirtschaft in Kiel (IfW) und das Institut fr Wirtschaftsforschung Hal le (IWH). Internationale Trger amtlicher Statistik - Eurostat - Europische Amt fr Statistik
Verteilung von absoluten und relativen Hufigkeiten Urlisten werden mit wachsender Lnge n und sich wiederholenden Merkmalswerten rasch unbersichtlich. Es empehlt sich dann, die in den Rohdaten enthaltene Information durch Angabe von Hugkeiten fr die Merkmalsausprgungen oder, bei gruppierten Daten, fr Klassenbesetzungshugkeiten zusammenzufassen. Hat man ein diskretes Merkmal mit Ausprgungen a, . . . , ak, so ist die im Folgenden mit
hi := h(ai ) i = 1, 2, . . . , k
bezeichnete absolute Hugkeit fr die Ausprgung ai die Anzahl der Elemente der Urliste, die mit dem Wert ai bereinstimmen. Absolute Hugkeiten haben den Nachteil, dass sie von der Lnge n der Urliste abhngen. Um Hugkeiten auch fr Datenstze unterschiedlichen Umfangs direkt vergleichbar zu machen, teilt man die absoluten Hugkeiten durch den Umfang n der Beobachtungsreihe. Die resultierenden relativen Hugkeiten
reprsentieren Anteile, die man auch oft in Form von Prozentwerten ausweist (Multiplikation mit 100).1 Hugkeiten lassen sich, wie anhand von Beispiel 4.1 illustriert, in Tabellenform ausweisen. Dabei resultieren Hugkeitsverteilungen fr absolute oder relative Hugkeiten. Eine Hugkeitsverteilung fr ein Merkmal X wird auch als em-
pirische Verteilung fr dieses Merkmal bezeichnet. Es ist sofort einsichtig, das sich die absoluten Hugkeiten zu n und die relativen Hugkeiten zu 1 addieren. Im Vorcomputerzeitalter wurden fr absolute Hugkeiten anstelle von Zahlen auch manchmal Strichlisten verwendet, also z. B. anstelle von 7 geschrieben. Diese Verfahrensweise bot sich aber allenfalls bei kleinen Werten h(ai) an. Buch S.67 ff
Absolute Hufigkeit
Relative Hufigkeit
Visualisiserung univariater Hufigkeitsverteilungen Kreisdiagramm: Dabei werden die absoluten oder relativen Hufigkeiten durch Kreissektoren reprsentiert. Stabdiagramm: Hufigkeiten werden durch vertikale dicke Stbe (Striche) dargestellt. Beim Sulendiagramm durch vertikale dicke Stbe (rechtecke) dargestellt. Beispiel aus Skript S. 38
Die relative kumulierte Hugkeitsverteilung F (x) resultiert, wenn man H (x) durch den Umfang n des Datensatzes dividiert:
Median/Zentralwert Bezeichnet den Wert, der in der Mitte einer der Gre des betrachteten Merkmals nach angeordneten Folge aller untersuchten Merkmalsausprgungen steht. ( Zahlenwerte sind unwichtig) - Bei ungeraden n: einfach abzulesen. Beispiel 1 1 2 3 5, Me = 2 - Bei geraden n: Mittelwert bilden; Beispiel 1 1 2 3 5 6, Me= 2,5 Fr gerade n gilt: Bei geradem n existiert kein mittleres Element. Deshalb ermittelt man Me aus den Ausprgungen der beiden Elemente, die der Mitte am nchsten stehen, mithilfe des arithmetischen Mittels. Fr die Folge der Ausprgungen 1 ... 1 .... 2 ... | .... 3 .... 5 ... 6 gilt somit Me = 2 + 3 / 2 = 2,5 Der Median teilt die Hugkeitsverteilung in 2 Hlften. Die ersten 50% der Merkmalstrger besitzen eine Merkmalsausprgung, die kleiner ist als der Median, die restlichen eine, die gleich oder grer ist.
Quartile hnlich wie der Median, Unterteilung aber in 4 Teile (25%, 50%, 75%, 100%) Mittelwert (arithmetisches Mittel)
Merkmalen anwendbar und ergibt sich, idem man alle Werte x1, x2, ..., xn eines Datensatzes addiert und die resultierende Summe durch n dividiert: Formel:
x (X-Strich) =
x1+ x2 + ...+ xn = n
mit den Merkmalsausprgungen x1, x2 ... xn und der Anzahl der Beobachtung n
!
Das arithmetisches Mittel X-Strich ist die Summe aller beobachteten Merkmalsausprgungen, geteilt durch deren Anzahl. Der Mittelwert bercksichtigt demnach alle Werte eines Datensatzes mit gleichem Gewicht
Elemente eines Datensatzes eingehen. Wenn man also bei einem Datensatz den grten Wert xmax=X(n) deutlich vergrert, hat dies nur auf den Mittelwert einen Effekt. Der Mittelwert reagiert demnach, anders als der Median, empfindlich gegenber extremen Werten. Man spricht dabei von einer hheren Sensivitt oder auch von einer geringeren ! Robustheit des Mittelwerts gg. Ausreiern, d.h. gg auffllig groen oder kleinen Beobachtungswerten. Gewogenes arithmetisches Mittel Kommen verschiedene Merkmalsausprgungen mehrfach vor, so wird zur einfacheren Berechnung des Mittelwerts die Formel fr das gewogene arithmetische Mittel herangezogen:
1 , whrend in die Berechnung eines Medians nur ein oder zwei zentrale n
x gew
Beispiel aus Buch S. 79 Benutz Werten die Angaben aus dem Beispiel auf S. 74. Dabei stellen die Ausprgungen die Zimmer da (1 bis 6 Zimmer) und die Anzahl der Auftrge die Beobachtungen. Insgesamt also n sind 200 Auftrge vorhanden. Das arithmetische Mittel hier gewogenes arithmetisches Mittel - lsst sich wie folgt berechnen:
x gew. =
Somit haben die sanierten Altbauwohnungen eine durchschnittliche Gre von 3,2 Zimmern.
In der Wochenzeitung Die Zeit, Ausgabe vom 11. 4. 2002, fand man in Ergnzung des Beitrags Big Oil regiert von Th. Fischermann die nachstehende Tabelle mit umweltrelevanten Kennzahlen fr die USA, Deutschland, Japan, China und Indien. Die Daten beziehen sich auf das Jahr 1999 und stammen von der Internationalen Energieagentur.
Man erkennt, dass die USA vergleichsweise grozgig Energie verbrauchen und C O2 emittieren. Gedanklich stelle man sich 5 Personen vor, je eine Person aus den Lndern USA, Deutschland, Japan, China und Indien, fr die jeweils die in Tabelle 5.1 angegebenen Verbrauchs-
Gibt es einen besten Lageparameter? Welchen der vorgestellten Lageparameter sollte man aber verwenden? Hierzu gibt es keine allgemeingltige Ausage. Die Antwort hngt sowohl von der Skalierung des Merkmals ab als auch von der jeweiligen Fragestellung. Bei einem nominalskalierten Merkmal kann man nur den Modalwert verwenden. Bei einem metrisch skalierten Merkmal hat man schon drei Alternativen, nmlich den Modalwert, den Median und den Mittelwert und es ist zu berlegen, wie robust die zu berechnende Kenngre gegenber Extremwerten sein soll. Bei einem kleinen Datensatz fr das Merkmal Bruttoverdienst (in Euro / Stunde) kann z. B. ein einziger Extremwert den Mittelwert erheblich beeinussen. Hier kann dann der Median aussagekrftiger sein, whrend der Modalwert i. a. wenig Information liefert, vor allem wenn die Verdienste auf Cent genau ausgewiesen werden.
Bei metrisch skalierten Daten wird oft nicht nur ein Lageparameter berechnet, weil ein zweiter Parameter, etwa der Median zustzlich neben dem Mittelwert, noch zustzliche Information ber die empirische Verteilung eines Datensatzes liefern kann. Bei einer Einkommensverteilung kann man z. B. x-Strich und x-Schlange vergleichen und hieraus Aussagen zur Symmetrie oder Asymmetrie der Verteilung ableiten.
5.2 Streuungsmae
Zur Charakterisierung von Merkmalen, fr die Abstnde zwischen Merkmalsausprgungen erklrt sind, also bei quantitativen Merkmalen (metrische Merkmalsskalierung), muss man somit noch Kenngren heranziehen, die die Streuung innerhalb des Datensatzes messen. Ein besonders einfach Streuungsma fr metrisch skalierte Merkmale ist die Spannweite R eines Datensatzes. Um diese zu berechnen, ordnet man wie bei der Berechnung des Medians den Datensatz zunchst nach aufsteigender Gre. Die Spannweite ergibt sich dann aus dem geordneten Datensatz x(1), x(2),..., x(n) als Differenz aus dem grten Wert x(n) und dem kleinsten Wert x(1): R:= x(n) x(1). Die Spannweite hat den Nachteil, dass sie eine hohe Empndlichkeit bzw. eine geringe Robustheit gegenber Ausreiern besitzt. ndert man in einem Datensatz den maximalen oder den minimalen Wert stark, wirkt sich dies auch massiv auf den Wert von R aus. Varianz (oder Stichprobenvarianz s2, oder empirische Varianz) In die Varianz gehen die Abweichungen xi x-Strich der Merkmalswerte vom Mittelwert x-Strich ein. Die Varianz bildet den Mittelwert aus dem quadrierten Abweichungen (xi xStrich)2, d.h. es gilt
Aus Buch S. 80 ff
Aus Buch: Die Beschreibung der Mitte der Hufigkeitsverteilung, bspw. Mit dem arithmetischen Mittel, kann durch Mazahlen ergnzt werden, die zum Ausdruck bringen, wie stark die beobachteten Merkmalsausprgungen von dieser Mitte abweichen (um diese Mitte streuen). Gebruchliche Streuungsmae sind die Varianz und Standardabweichung.