Data analysis in Germany

Damit ist dieses Buch auch für Biometriker, Ökonometriker,Psychometriker und andere „Metriker“ geeignet kurz für alle, die Datenanalysieren möchten.Die Auswahl der Befehle, Optionen und

Trang 2

Datenanalyse mit Stata

Trang 4

http://dnb.dnb.de abrufbar.

www.degruyter.com

Trang 5

Die fünfte Auflage von „Datenanalyse mit Stata“ enthält eine Reihe vonModernisierungen der Stata-Syntax und anderen Darstellungen um denText lesefreundlicher zu machen Eine Reihe von Fehlern wurdenkorrigiert und die Datensätze in das neue Stata 14 Format überführt,welches Unicode unterstützt und daher Umlaute in Variablennamenzulässt Nutzer älterer Stata-Versionen (12 und 13) können die Daten derDaten der vorangegangenen Auflage ohne Einschränkung verwenden.Darüber hinaus haben wir uns bei der Gliederung von Kapitel 5 zum

„Erstellen und Verändern von Variablen“ stärker an den Bedürfnissen vonNeueinsteigern orientiert indem wir das schwierige Thema zumrekodieren mit by, _n, _N und expliziten Subscripten weiter nach hintengerückt haben Wir bieten nun einen systematischeren Zugang zumUmgang mit „Missing Values“ und haben einen neuen Abschnitt zumThema „Unicode“ in Kapitel „Daten lesen und schreiben“ erstellt (Abschni

tt 11.7)

Lehrbücher, und besonders solche, die als Texte zum Selbstlernenangelegt sind, profitieren immer vom Feedback durch Leser.Ausdrücklich bedanken wollen wir uns daher für die Zuschriftenfolgender Personen: T Bock, B Boessl, T Creutz, I Dammasch, J.Demuth, Y Eggenschwiler, T Fechner, A von Flüe, J Galanis, V Jovic,

A Kadow, K Kriemann, S Krückel, P Leppert, M Sarközi, A Schmidt, S.Scheurle, J Schulz, A Sehnert, M Siahpush, F Simmen, S Späthe, B.Sulayman-Willie, H Tauchmann, und F Wieser Besonderern Dankschulden wir D Enzmann und M Krawietz, die uns beide eine besonderslange Fehlerliste zukommen haben lassen

Viele Faktoren tragen dazu bei, dass aus einem Lehrbuch ein gutesLehrbuch wird Ein Lehrbuch in Datenanalyse braucht gute Daten Dankgebührt deshalb der SOEP-Gruppe am Deutschen Institut fürWirtschaftsforschung (DIW), und ganz besonders Jan Goebel UnserenArbeitgebern, der Universität Potsdam, dem JPSM, dem IAB und derUniversität Mannheim, danken wir dafür, dass sie so wunderbareArbeitsbedingungen für uns bereitstellen Unseren Kollegen S Grau, M

Trang 6

Krawietz, S Munnes, A Rolf, C Saalbach, T Sawert, C Thewes dankenwir für Ihre Kritik und Mitarbeit Unseren Familien und Freundendanken wir für ihre Unterstützung und Geduld.

Für den Inhalt – und die Fehler – aller Teile dieses Buches sind wirbeide zu gleichen Teilen verantwortlich Sie erreichen uns unter der E-Mail-Adresse kkstata@web.de, und wir freuen uns über alle Hinweise aufFehler und Verbesserungsvorschläge

Ulrich Kohler

Frauke Kreuter

Oktober 2016

Trang 12

12.3.6 Bilden von Variablen unbekannter Anzahl12.3.7 Voreinstellungen

12.3.8 Erweiterte Makrofunktionen

12.3.9 Veränderungen am Datensatz vermeiden12.3.10 Help-Files

Trang 13

„Datenanalyse mit Stata“ ist kein reines Befehls-Handbuch, vielmehrwerden an praktischen Beispielen alle Schritte einer Datenanalysevorgeführt und erklärt Die Beispiele beziehen sich auf Themen deröfentlichen Diskussion (Einkommensungleichheit zwischen Männernund Frauen, Wahlergebnisse etc.) oder der direkten Umgebung dermeisten Leser (z.B Mieten und Wohnbedingungen) Dies erlaubt denVerzicht auf sozialwissenschaftliche Theorien zur Begründung derAnalysebeispiele und den Rückgrif auf den „gesundenMenschenverstand“ Betonen möchten wir, dass dieser lediglich alsPlatzhalter für fundiertere Theorie steht, ohne die Datenanalyseunmöglich ist Wir haben in unseren Lehrveranstaltungen die Erfahrunggemacht, dass dieses Vorgehen eine interdisziplinäre Anwendungerleichtert Damit ist dieses Buch auch für Biometriker, Ökonometriker,Psychometriker und andere „Metriker“ geeignet kurz für alle, die Datenanalysieren möchten.

Die Auswahl der Befehle, Optionen und statistischen Verfahren istkeineswegs erschöpfend, soll aber ein grundlegendes Verständnis vonStata an die Hand geben Die meisten Stata-Fragen, die über dieses Buchhinaus auftreten, sollten nach der Lektüre selbstständig gelöst werdenkönnen

Allen Lesern, Anfängern wie auch Fortgeschrittenen, empfehlen wireindringlich diese Einleitung und das Kapitel „Das erste Mal“aufmerksam zu lesen, denn beide dienen als Hilfe und Wegweiser für dasgesamte Buch Anfänger sollten das Buch „von vorne nach hinten“durcharbeiten und dabei am Rechner unsere Beispiele nachvollziehen

„Umsteiger“ von anderen Statistikprogrammen können sich mit Hilfe der

Trang 14

zahlreichen Querverweise des Kapitels ihren eigenen Weg durch dasBuch bahnen Versierte Stata-Nutzer werden von dem ausführlichenIndex profitieren und beim Nachschlagen vielleicht die eine oder anderebisher nicht bekannte „Zauberei“ entdecken oder sich auf dieProgrammierung eigener Befehle stürzen Alle, denen Stata (noch) nichtzur Verfügung steht, sind eingeladen, die Analysekapitel zu lesen undvielleicht sogar den einen oder anderen Hinweis (z.B zur Diagnostik) indie Sprache des ihnen verfügbaren Statistikprogramms zu übersetzen.

Aufbau

„Das erste Mal“ (Kapitel 1) zeigt die Durchführung einiger typischerArbeiten statistischer Datenanalyse mit Stata Anfänger der Datenanalysebekommen dabei ein Gespür für Stata vermittelt und einigeGrundbegriffe wie z.B Variablen, Fälle oder fehlende Werte erläutert.Erfahrenen Anwendern anderer Datenanalyseprogramme ermöglichtdieses Kapitel einen raschen Einstieg in Stata Sie finden zahlreicheQuerverweise, wodurch es als ausführliches Inhaltsverzeichnis verwendetwerden kann Das übrige Buch gliedert sich daran anschließend in dreiTeile:

Die Kapitel 2–6 dienen der Einführung in die grundlegendenWerkzeuge von Stata In den übrigen Teilen des Buches werden dieseWerkzeuge als bekannt vorausgesetzt bzw wird auf die entsprechendenStellen in diesem Teil verwiesen Die Darstellung der Stata-Grundlagenkann nicht ohne Verfahren erfolgen, die erst im zweiten Teil des Bucheserklärt werden Wir haben uns jedoch bemüht, für diesen Zweck nurleicht Verständliches wie Mittelwerte und Kreuztabellen zu verwenden Kapitel 2 zeigt, wie Datenanalyse – nicht nur mit Stata – betrieben werdensollte: nachvollziehbar und jederzeit reproduzierbar Die hierfürnotwendigen Hilfsmitteln in Stata sind „Do-Files“, ohne die eineernstzunehmende Datenanalyse nicht denkbar ist Kapitel 3 führt in dieallgemeine Befehlssprache von Stata ein Es kann zügig gelesen und imVerlauf des Buches zum Nachschlagen verwendet werden Kapitel 4 zeigt,wie die Ergebnisse statistischer Berechnungen in Stata für spätereBefehle genutzt werden können In Kapitel 5 werden die Befehle zumErstellen und Verändern von Variablen vorgestellt Den Abschluss desersten Teils bildet Kapitel 6, das Grafiken einführt Wir betrachten

Trang 15

im zweiten Teil des Buches häufig zurückgreifen werden Einige der in Kapitel 6 beschriebenen Möglichkeiten werden erst bei der Präsentation derErgebnisse relevant Dieses Kapitel kann deshalb zunächst relativ raschdurchgearbeitet und später bei Bedarf genauer gelesen werden

In den Kapiteln 7–10 wird gezeigt, wie Datenanalyse konkret aussehenkann Den Anfang macht Kapitel 7 mit der Darstellung von Techniken zurBeschreibung und zum Vergleich von Verteilungen Kapitel 8 behandeltdas Thema der statistischen Inferenz, d.h., die Frage, inwiefernStatistiken, die in einem Datensatz berechnet werden, eine Aussageerlauben, die über den jeweiligen Datensatz hinausgehen Kapitel 9 führt

in die lineare Regressionsanalyse ein Dabei wird das Verfahren zunächstallgemein erläutert und dann an einem praktischen Beispiel vorgeführt.Daran anschließend werden die statistischen Voraussetzungen für dieGültigkeit der Ergebnisse und die Möglichkeiten zu ihrer Überprüfungaufgezeigt Die Verfeinerung der Modelle sowie ein Ausblick aufweiterführende Verfahren runden das Kapitel ab Kapitel 10, in demRegressionsmodelle für kategoriale abhängige Variablen beschriebenwerden, hat zur Betonung der Ähnlichkeiten dieser Verfahren dengleichen Aufbau

In den Kapiteln 11–13Anwendern benötigt werden, für viele aber früher oder später vonInteresse sein dürften Kapitel 11 erläutert das „Lesen“ und „Schreiben“von Daten, die nicht als Stata-Dateien vorliegen In den meistenLehrbüchern zu Datenanalyseprogrammen steht dieses Kapitel amAnfang Wir haben jedoch die Erfahrung gemacht, dass die meistenAnfänger zunächst nicht mit systemfremden Daten oder der Eingabeselbst erhobener Daten konfrontiert werden wollen Kapitel 12 stelltzunächst einige spezielle Konzepte vor, mit denen Do-Files füraufwendige Datenanalysen optimiert werden können Die hierzuverwendeten Werkzeuge können auch dazu genutzt werden, eigene Stata-Befehle in Form sog „Ado-Files“ zu schreiben Diese werden in derzweiten Hälfte des Kapitels behandelt Die Tatsache, dass jederAnwender von Stata eigene Stata-Befehle programmieren kann, hat dazugeführt, dass es zusätzlich zum ofiziellen Stata eine Vielzahl von Befehlengibt, die kostenfrei über das Internet bezogen werden können DieFundstellen für diese Befehle sowie weitere Ressourcen rund um Statafinden Sie in Kapitel 13

Trang 16

Datenanalyse lernt man nur, indem man Daten selbst analysiert Deshalbliefern wir Ihnen über das Internet Datensätze, mit denen Sie alle indiesem Buch besprochenen Befehlszeilen selbst anwenden können undsollen Die meisten verwenden verfremdete Daten des Sozio-oekonomischen Panels (kurz SOEP bzw GSOEP) Daneben verwendenwir eine Reihe weiterer kleinerer Datensätze Sie können dieseDatensätze entweder direkt mit Stata herunterladen, oder als Zip-Archivmit einem Internet-Browser Falls Sie Schwierigkeiten haben, mit Hilfeeiner der beiden vorgeschlagenen Methoden an die Dateien zu kommen,können Sie uns gerne kontaktieren.1

Unabhängig davon, wie Sie die Daten herunterladen wollen, sollten Siezunächst den Ordner/das Verzeichnis2

p 1) Falls Sie auf einem Macintosh oder Unix-System arbeiten oderunsere Daten an einer anderen Stelle auf Ihrem Computer speichernwollen als unter c:\data\kk, ändern Sie diese Pfadangabe entsprechendab

Diese Befehle laden alle benötigten Datensätze für die nachfolgenden

Trang 17

Hinweis: Nutzer von Stata 12 oder 13 ersetzen bitte kk4 in den obigen

Befehlen durch kk3

– Alternativ sind die Daten auch als Zip-Archiv gespeichert, das Sieherunterladen können, indem Sie folgende Adresse in Ihren Internet-Browser eingeben:

http://www.stata-press.com/data/kk4/kk4.zip

Speichern Sie die Datei kk.zip in das vorstehend ertellte Verzeichnis.Entpacken Sie danach kk zip mit Hilfe eines Programms zumEntpacken von Zip-Archiven Solche Programme sind auf modernenComputern normalerweise bereits installiert und können durchRechtsklick auf die Datei kk zip gestartet werden Suchen Sie imKontextmenü nach Stichworten wie „WinZip“, „7Zip“, „PK-Zip“ odereinfach „Extrahieren“

Bei den Beispielen in diesem Buch gehen wir davon aus, dass IhrArbeitsverzeichnis in Stata das Verzeichnis ist, in das Sie unserDateipaket gespeichert und entpackt haben Nur wenn dies der Fall ist,funktionieren alle Beispiele fehlerfrei Wie Sie feststellen können, inwelchem Arbeitsverzeichnis Sie sich gerade befinden, erläutern wirebenfalls in Kapitel 1 Beachten Sie bitte auch, dass Sie unsere Datensätzenicht versehentlich mit veränderten Versionen desselben Datensatzesüberschreiben Vermeiden Sie darum die Eingabe des Befehls save,replace, wenn Sie mit unseren Datensätzen arbeiten

Man kann es nicht oft genug betonen: Datenanalyse lernt man nur,indem man Daten selbst analysiert Wir legen Ihnen deshalb nahe,unsere Analysebeispiele beim Lesen des Textes mit Statanachzuvollziehen Immer wenn Sie eine Zeile in dieser Schrift sehen, diemit einem Punkt eingeleitet wird, sollten Sie diese Zeile in Stataeingeben

Trang 18

Dabei ist es wichtig, dass Sie alle Befehle eingeben, da diese innerhalbeines Kapitels aufeinander aufbauen und sich viele Befehle nur dannausführen lassen, wenn die vorangegangenen eingegeben wurden Diesist vor allem dann problematisch, wenn Sie aus zeitlichen Gründen einKapitel nicht an einem Stück durcharbeiten können Sollte dies der Fallsein, geben Sie bitte den Befehl

Die Übungen am Ende jedes Kapitels verwenden entweder diemitgelieferten Datensätze oder verweisen auf Datensätze, die vonStataCorp im Internet zur Verfügung gestellt werden.3In Stata könnendiese Datensätze mit dem Befehl webuse aufgerufen werden Dies setztjedoch voraus, dass Ihr Computer über eine Internetverbindung verfügt.Ist dies nicht der Fall müssen die jeweiligen Daten über einen anderenComputer manuell heruntergeladen werden

Dieses Buch enthält sehr viele Grafiken von denen fast alle mit Stataerstellt wurden In den meisten Fällen befinden sich die dazunotwendigen Stata-Befehle im Text Einige der Grafiken sind relativaufwendig, in diesen Fällen haben wir unserem Datenpaket Do-Filesbeigelegt, mit denen die jeweiligen Abbildungen erstellt werden können.Die Namen der Do-Files geben wir als Fußnote unterhalb der Grafik an.Wenn es uns an manchen Stellen nicht gelungen sein sollte, einenStata-Befehl hinreichend zu erklären, oder Sie einfach nur mehr zu einemStata-Befehl erfahren wollen, können und sollten Sie zunächst dieHilfefunktionen von Stata verwenden Diese werden wir in Kapitel 1

erläutern Darüber hinaus lohnt sich ein Blick in die Handbücher, diesowohl in gedruckter Form wie auch als PDF-Datei zugänglich sind Wirverweisen auf die Stata-Handbücher in derselben Art, wie es auch in derHilfefunktion von Stata (help) zu finden ist: Zum Beispiel verweist die

Abkürzung [R] summarize auf den Eintrag zum Befehl summarize im alphabetisch geordneten „Reference Manual“ und [U] 18 bezeichnet das

18 Kapitel des User’s Guide Jedem Eintrag im Reference Manual

Trang 19

Hinweise für Lehrende

Dieses Buch wurde als Skript in drei Veranstaltungstypen getestet:Veranstaltungen zur Einführung in die Datenanalyse, zur Regression undzur Analyse kategorialer Daten Die kurze Darstellung dieserVeranstaltungstypen bezieht sich auf Vorlesungen (1,5 Stunden proSitzung), die in einem Computer-Labor gehalten wurden

Für den Kurs „Einführung in die Datenanalyse mit Stata“ empfehlenwir den Einstieg über Kapitel 1 Diese Sitzung kann gut interaktivgestaltet werden, indem die Studierenden aufgefordert werden,nacheinander die einzelnen Befehle einzugeben und jeweils zuvor oder

im Anschluss deren Bedeutung erklärt wird Die unabhängigenVariablen, mit deren Hilfe die Stabilität der Einkommensungleichheitzwischen Männern und Frauen untersucht wird, wurden bisher alle vonden Studierenden selbst genannt, so dass die schrittweise Analyse alsFrage- und Antwortspiel durchgegangen werden kann Am Ende derersten Sitzung sollten die Studierenden ihre Befehle speichern und alsHausaufgabe einen funktionsfähigen und kommentierten Do-Fileerzeugen; hilfreich ist hierbei die Vorlage eines von Ihnen erstellten Do-File-Musters

Die beiden darauf folgenden Sitzungen sollten die Kapitel 3 bis 5

abarbeiten und können nach diesem Einstieg problemlos etwas

„trockener“ unterrichtet werden Jedem wird einleuchten, dass manzunächst einmal die „Sprache“ des Programms lernen muss Diese beidenSitzungen sollten nicht interaktiv, sondern blockweise unterrichtetwerden, sprich: Die einzelnen Abschnitte der Kapitel sollten am Stückvorgestellt werden Am Ende jedes Abschnitts sollte den Studierenden dieMöglichkeit gegeben werden, die Befehle „nachzutippen“ und die oft erstdabei auftretenden Fragen zu stellen Bei Zeitmangel kann auf die Abschnitte 3.3 und 5.8 verzichtet werden Explizit eingeplant werden solltenhingegen Beispiele und eine ausführliche Besprechung der Abschnitte 3.2

und 5.5.1 Beide enthalten ungewohnte, aber äußerst mächtigeWerkzeuge für den versierten Umgang mit Stata Eine Übung der Inhaltedes Grafik-Kapitels wird höchstens eine weitere Sitzung beanspruchen.Zwei Sitzungen sollten für Kapitel 7 eingeplant werden Als Ergänzungeignet sich eine von D Bentley entwickelte Übungsaufgabe.4Die dazu

Trang 20

Die Diskussion statistischer Inferenz sollte mindestens zwei Sitzungen

in Anspruch nehmen Das Material aus Kapitel 8 liefert die notwendigeBasis für eine praxisnahe Diskussion über Stichprobenverteilungen DerAbschnitt über multiple Imputationen kann bei einem Einführungskursausgelassen werden

Drei weitere Sitzungen sollten für Kapitel 9 eingeplant werden.Erfahrungsgemäß ist es auch mit einem Einsteigerkurs möglich, die Abschnitte 9.1, 9.2 und 9.3 jeweils in einer Sitzung zu behandeln.Selbstverständlich können dabei nur die wichtigsten Dinge angesprochenwerden Als hilfreich hat es sich erwiesen, die Berechnung derRegressionen mit den Anscombe-Daten als Hausaufgabe vor derDiagnostik-Sitzung lösen zu lassen

Die beiden vorletzten Sitzungen eines „normalen“ Semesters sollten mit

Kapitel 11 gefüllt werden Als Abschluss-Sitzung bietet sich Kapitel 12 an,

da dort weitere Hinweise auf Hilfestellungen zur Datenanalyse gegebenwerden

Viele der Ideen, die wir für unser Buch entwickelt haben, wurden vom

UCLA Department of Statistics für kurze Statistical Computing Labs

aufgegrifen Für Einführungskurse in die Statistik finden sich dortnützliche Ergänzungen zu diesem Buch Weitere Informationen sindunter http://www.stat.ucla.edu/labs/ zu finden, einschließlich denKursen für ältere Versionen von Stata

Neben dieser allgemeinen Einführung in die Datenanalyse kann mitdem vorliegenden Material ein Kurs zur „Regressionsanalyse“ (Kapitel 9)oder zur „Analyse kategorialer Daten“ (Kapitel 10) angeboten werden Fürbeide Kurse ist es hilfreich, die erste Sitzung mit Kapitel 1 zu beginnen.Stata-Unkundigen kann damit ein kurzer Überblick über die Arbeitsweisemit diesem Programm gegeben werden Gleichzeitig liefert es Hinweisedarauf, wie später auftretende Fragen anhand der Online-Hilfe geklärtwerden können Als Abschluss-Sitzung beider Veranstaltungen ist Kapitel

13 zu empfehlen In Kursen zur Analyse kategorialer Daten sitzterfahrungsgemäß ein sehr heterogenes Publikum mit unterschiedlichemErfahrungshorizont Bevor Sie mit Kapitel 10 beginnen, sollte deshalbzunächst der Abschnitt 9.1 bearbeitet werden Dieser knüpft nur an dasvielleicht längst vergessene Wissen zurückliegender Mathematikstunden

an – in der Regel lassen sich die Zuhörer aber überzeugen, dass sie schoneinmal in der Lage waren, eine Gerade zu zeichnen

Trang 21

1 „Das erste Mal“

Herzlich willkommen! Wir wollen Sie einladen, uns auf einer Tourd’Horizon durch einige typische Anwendungen computergestützterDatenanalyse zu begleiten, auf der wir Sie mit einigen Grundstrukturenvon Stata vertraut machen Wir haben in dieses Kapitel zahlreicheQuerverweise eingefügt, so dass fortgeschrittene Anwender vonDatenanalyseprogrammen nach dieser ersten Einführung leicht zwischenden verschiedenen Kapiteln des Buches hin- und herspringen können,

um Lösungen für spezielle Probleme zu finden Wenn Sie noch nie miteinem Datenanalyseprogramm gearbeitet haben, empfehlen wir Ihnen,den Text zunächst fortlaufend zu lesen, auch wenn Sie dabei einigeKommandos oder statistische Verfahren nicht gleich verstehen Bittelassen Sie sich davon nicht entmutigen Vollziehen Sie trotzdem jedenunserer Schritte nach Sie werden dadurch Erfahrungen im Umgang mit

Stata sammeln, sich an unseren Jargon gewöhnen und einen groben

Eindruck erhalten, wie Datenanalyse aussehen kann Falls Sie währenddieses Kapitels auf Fragen stoßen, die Sie besonders interessieren, führenunsere Querverweise Sie zu den entsprechenden Stellen im Buch

Bevor wir mit der Sitzung beginnen, noch eine kurze Bemerkung: Statawird im Wesentlichen durch eine „Kommandozeile“ gesteuert In derKommandozeile werden Befehle in Form von Buchstaben, Zahlen undWorten eingegeben Obwohl seit der Stata-Version 8.0 die Anwahl derBefehle über Menüs möglich ist, werden wir nicht auf die Menüführungdes Programms eingehen Dies hat vier Gründe: Erstens glauben wir,dass sich die Menüs selbst erklären Wenn Sie wissen, nach welchenFunktionen Sie suchen, werden Sie das dazugehörige Menü finden.Zweitens entspricht es der gängigen Praxis unter Stata-Nutzern,Kommandos durch Abdruck von Befehlen zu kommunizieren und nichtdurch Beschreibung von Mausklicks auf Menüs, Reiter und Knöpfe, diezumindest teilweise betriebssystemspezifisch sind Drittens erleichtertunser Vorgehen den Übergang zur Verwendung sog „Do-Files“ und damit

zum richtigen wissenschaftlichen Arbeiten Und schließlich viertens: Wir

glauben, Sie werden mehr Freude an Stata haben, wenn Sie sich ganz auf

Trang 22

1.1 Aufruf von Stata

Naturgemäß beginnt eine Stata-Sitzung mit dem Aufruf des Programms.Wir gehen hier davon aus, dass Stata wie im „Getting-Started-Handbuch“beschrieben installiert ist Wenn Sie an einem PC mit demBetriebssystem Windows arbeiten, rufen Sie Stata wie folgt auf:

Danach sollte die voreingestellte Bildschirmansicht von Stataerscheinen Sie besteht aus fünf Fenstern: Dem Ergebnisfenster in derMitte („Results“), dem „Review“-Fenster (links), dem Variablenfenster(rechts oben), dem „Properties“-Fenster (rechts unten) und demEingabefenster unterhalb des Ergebnisfensters („Command“) Letztereswerden wir im Folgenden auch als „Kommandozeile“ bezeichnen

1.2 Gestalten der Bildschirmansicht

Anstatt die einzelnen Fenster zu erklären, möchten wir Sie zunächsteinmal bitten, die Bildschirmansicht zu verändern In diesem Kapitelwerden wir uns ganz auf das Ergebnis- und das Eingabefensterkonzentrieren Um den Inhalt dieser Fenster gut lesen zu können,empfiehlt es sich, eine andere Schriftart zu wählen Klicken Sie dazu mitder rechten Maustaste in das Ergebnisfenster Im darauf erscheinenden

Menü wählen Sie Fonts und dann die gewünschte Schriftart.6 Wenn Sieeine größere Schrift verwenden, kann es passieren, dass die Angaben imErgebnisfenster nicht mehr vollständig lesbar sind Ziehen Sie dann dasErgebnisfenster mit der Maus auf, bis der Text wieder im Ganzen lesbarist Falls dies – was wahrscheinlich ist – nicht möglich ist, weil das Stata-

Trang 23

Fenster zu klein ist, um das Ergebnisfenster auf die gewünschte Größe zubringen, führen Sie die gleiche Prozedur mit dem Stata-Fenster selbstdurch Stata für Windows hat zahlreiche Optionen zum Verändern des

Fenster-Layouts, die in [GS] 2 The Stata user interface beschrieben

sind

Ihre veränderte Bildschirmansicht wird als Voreinstellung für spätereSitzungen gespeichert, sobald Sie Stata beenden Wenn Sie dieursprüngliche Bildschirmansicht wieder herstellen möchten, verwenden

Sie das Menü Edit → Preferences → Load Preference Set →

Bildschirmeinstellungen speichern und verwalten wollen, lesen Sie [GS]

17 Setting font and window preferences.

1.3 Erste Analysen

Eingabe von Befehlen

Nun können wir beginnen Bitte tippen Sie den Buchstaben d und

drücken Sie danach die Eingabetaste Im Ergebnisfenster erscheint

folgender Text:

Sie haben gerade Ihr erstes Stata-Kommando eingegeben Der Buchstabe

d ist eine Abkürzung für den Befehl describe, mit dem Datensätze näherbeschrieben werden Da Sie im Augenblick noch mit keinem Datensatzarbeiten, ist das natürlich uninteressant Interessant ist aber, dass inStata durch ein oder mehrere Buchstaben (bzw Worte) Befehleeingegeben werden Die Eingabe eines Befehls wird mit der Eingabetasteabgeschlossen

Wir werden Sie übrigens jeweils durch folgende Schreibweise um dieEingabe eines Befehls bitten Immer wenn Sie ein Wort in dieser Schrift

sehen, das durch einen Punkt eingeleitet wird, sollten Sie das Wort in das

Eingabefenster schreiben und danach die Eingabetaste drücken Tippen

Trang 24

Sie das Wort aber ohne den einleitenden Punkt ein und übernehmen Sie die Groß- und Kleinschreibung Stata ist Case- Sensitive, d.h.,

Großbuchstaben haben eine andere Bedeutung als Kleinbuchstaben Imfolgenden Beispiel tippen Sie also bitte describe in die Kommandozeileein

describe

Datensätze und Arbeitsspeicher

Das Ergebnis des describe-Befehls ist nicht ganz so uninteressant wieoben behauptet Grundsätzlich gibt describe Informationen über dieAnzahl von Variablen (Spalten) und Beobachtungen (Zeilen) desgeladenen Datensatzes.7 Da noch keine Daten geladen wurden, zeigtdescribe, dass der Datensatz weder Variablen („vars“) nochBeobachtungen („obs“) hat

Außerdem wird angezeigt, wie groß der im Arbeitsspeicher geladeneDatensatz ist Im Gegensatz zu vielen anderen Datenanalyseprogrammenlädt Stata den Datensatz direkt in den Arbeitsspeicher des Computers.Der Großteil des Arbeitsspeichers ist für die Daten reserviert, währendTeile des Programms nur bei Bedarf geladen werden Dies gewährleisteteinen schnellen Datenzugrif und ist einer der Gründe für die hoheRechengeschwindigkeit von Stata

Der Arbeitsspeicher Ihres Computers setzt der Größe derbearbeitbaren Datensätze natürliche Grenzen.8 Große Datensätze könnendarum eventuell erst nach dem Einbau zusätzlichen Arbeitsspeichersbearbeitet werden Bei der heute üblichen Ausstattung mitArbeitsspeichern tritt das Problem zu großer Datensätze jedoch eherselten auf

Was Sie außer dem Zukauf von Arbeitsspeicher in derartigen Fällen tunkönnen, erfahren Sie in Abschnitt 11.6 auf Seite 445

Trang 25

nichts weiter angegeben wird, für Lese-und Schreibzugrife verwendet.

Für diesen Schritt empfehlen wir ausnahmsweise die Verwendung des

Menüs und zwar insbesondere wenn Sie Ihre Daten an einer anderenStelle gespeichert haben, als von uns vorgeschlagen:9 Klicken Sie File →

Change working directory und wählen Sie dann mit der Maus das

Verzeichnis aus, in das Sie unser Dateipaket gespeichert haben

Wenn Sie unserer Empfehlung gefolgt sind und die Datensätze in dasVerzeichnis c:\data\kk kopiert haben, oder sie auch ohne graphischeBenutzerführung genau wissen, wo Ihre Daten gespeichert sind, könnenSie natürlich auch die Kommandozeile verwenden Der Befehl zumWechsel des Arbeitsverzeichnisses heißt Befehl cd – eine Abkürzung für

„change directory“ In den meisten Fällen schreibt man hinter den Befehlden vollständigen Namen des Verzeichnisses (Ordners), in das manwechseln möchte Wenn der Verzeichnisname Leerzeichen enthält,müssen Sie den Namen jedoch Anführungszeichen setzen In unseremFall genügt demnach

cd c:/data/kk

Wir verwenden hier übrigens den vorwärtsgewandten Schrägstrich zurAbtrennung von Ordnern, da dieser bei allen Betriebssystemenfunktioniert Unter Macintosh kann der Schrägstrich durch denDoppelpunkt ersetzt werden Windows-Anwender können auch den

Trang 26

Abhängig vom Betriebssystem kann die Ausgabe auf Ihrem Bildschirmetwas anders aussehen Nicht sehen werden Sie auch die Zeile mit „"“ Mitdieser Zeile wollen wir deutlich machen, dass wir Teile aus der Ausgabeweggelassen haben, um Platz zu sparen.

Stata teilt die Liste der Dateien in Bildschirmseiten ein Durch dasWort more in der untersten Zeile des Ergebnisfensters wird Ihnenmitgeteilt, dass die Liste fortgesetzt wird Durch Drücken derEingabetaste können Sie die jeweils nächste Zeile ansehen, durch jedeandere Taste die gesamte nächste Bildschirmseite Mit der Laufleiste amRande des Ergebnisfensters können Sie „zurückblättern“

Unter den Dateien, die Ihnen durch dir angezeigt werden, sollte sichauch die Datei data1.dta befinden Falls Ihnen die Liste zu lang ist,können Sie diese mit

dir *.dta

beschränken oder sich mit dir data1.dta lediglich die gesuchte Dateianzeigen lassen Wenn Sie sicher sind, dass Sie sich im richtigenVerzeichnis befinden, können Sie data1.dta laden:

use data1

Der Befehl use dient dazu, Datensätze in den Arbeitsspeicher zu laden.Die Syntax ist denkbar einfach: Nach use folgt der Name der Datei, diegeladen werden soll Wenn die Datei die Dateinamenerweiterung(Extension) dta hat, genügt es, den Namen ohne Erweiterung anzugeben.Das Laden von Datensätzen wird in Kapitel 11 ausführlich beschrieben.Vor allem, wenn Sie keine Stata-Systemdateien haben, werden Sie diesenAbschnitt als hilfreich empfinden Grundsätzliche Hinweise zur Eingabevon Dateinamen finden Sie in Abschnitt 3.1.8

Trang 27

65 sog Variablen („vars“), die im Wesentlichen Antworten auf Frageneines Fragebogens sind.

Im Folgenden werden wir die Begrife „Befragte“, „Fälle“,

„Beobachtungen“ oder „Untersuchungseinheiten“ im Austauschverwenden In der Regel bezeichnen diese Begrife die Einheiten, für dieVariablen gesammelt wurden Eine Erläuterung dieser und andererBegrife findet sich in Abschnitt 11.1

Schauen wir uns nun die Variablenliste an, die durch describeausgegeben wurde Die erste Variable in der Liste trägt den Namenpersnr Dabei handelt es sich nicht um die Antwort auf eine Frage,

Trang 28

sondern um eine willkürlich vergebene unveränderlichePersonennummer In den anderen Variablen des Datensatzes finden sichAngaben über den Haushalt des jeweiligen Befragten, das Bundesland, indem der oder die Befragte wohnt, das Geschlecht, das Geburtsjahr derBefragten und vieles mehr Um sich einen Überblick über den Namenund den Inhalt aller Variablen zu verschafen, müssen Sie weiterblättern(zur Erinnerung: Sie können durch die Eingabetaste um eine Zeile unddurch jede andere Taste um eine Bildschirmseite vorrücken).

Wir wollen uns hier zunächst nur mit einem Teil der Variablenbefassen Wir interessieren uns weniger für die Angaben über dieWohnung der Befragten, vielmehr wollen wir unseren Fokus auf dasEinkommen und den Erwerbsstatus der Befragten richten Deshalbsollten Sie alle Variablen vom Jahr des Einzugs (ymove) bis zur letztenVariablen, den „cross sectional weights“ (xweigths) löschen:

drop ymove-xweights

Betrachten der Daten

Jetzt sollten Sie sich die Daten etwas genauer anschauen Hierzu könntenSie z.B den gesamten Datensatz – Fall für Fall – auflisten:

Trang 29

Wir werden Ihnen gleich zeigen, wie Sie die Ausgabe von list verkürzenkönnen Zunächst jedoch einige Hinweise zu dem, was Sie vor sich sehen:Der erste Fall des Datensatzes ist ein 1932 geborener verheirateter Mannaus Nordrhein-Westfalen Er besitzt einen Hauptschulabschluss, hat eineBerufsausbildung und ist mittlerweile in Rente.

Der zweite Fall ist eine 1939 geborene verheiratete Frau Sie lebt imselben Haushalt wie der erste Befragte, es handelt sich alsowahrscheinlich um seine Ehefrau Bei beiden Befragten steht in derVariable income ein Punkt Dies bedeutet, dass der Wert für dieseVariable bei diesen beiden Befragten nicht bekannt ist Dafür kann esmehrere Gründe geben Es könnte zum Beispiel sein, dass den Befragtendie entsprechende Frage gar nicht gestellt wurde oder dass sie diese

Trang 30

Frage nicht beantworten wollten Wir nennen so etwas eine „fehlendeAngabe“ oder einen „Missing“.

Weiter hinten in diesem Kapitel zeigen wir Ihnen, wie man solcheMissings erzeugt (S 20) Mehr zum Umgang mit fehlenden Werten inStata finden Sie in Abschnitt 5.2 Einige Anmerkungen zum allgemeinenUmgang mit fehlenden Werten finden sich auf Seite 425

Befehle unterbrechen und Befehle wiederholen

Da nicht alle Fälle des Datensatzes auf eine Bildschirmseite passen,werden Sie einige Male weiterblättern müssen, um alle 5.411 Befragtendes Datensatzes kennenzulernen Bevor Sie aber durch alle Befragtendurchblättern, lesen Sie bitte weiter

Das Betrachten des Datensatzes mit dem list-Befehl ist wenig hilfreich.Schon bei relativ kleinen Datensätzen ist die Informationsflut zu groß,

um aufgenommen zu werden Dennoch kann es manchmal sinnvoll sein,einen kurzen Blick auf die ersten Fälle zu werfen Hier wäre es abernützlich, sich nur die ersten Fälle anzeigen zu lassen und so dasDurchblättern bis zum letzten Fall zu vermeiden Dies kann mit der Taste

q für „quit“ erreicht werden Immer wenn more auf dem Bildschirm

Die Variablenliste

Eine andere Möglichkeit, die Fülle von Informationen des list-Befehls zubegrenzen, ist die Angabe einer „Variablenliste“ Mit der Variablenlistewird die Durchführung eines Befehls auf bestimmte Variablenbeschränkt Die Variablenliste wird stets an den eigentlichen Befehlangehängt So erhalten Sie z.B die Informationen über die VariablenGeschlecht (gender) und Einkommen (income) mit:

list sex income

Trang 31

Um Schreibarbeit zu sparen, können Sie den zuvor eingegebenen Befehl mit der Bild-nach-oben-Taste oder durch einen Klick auf den

list-entsprechenden Befehl im Review-Fenster in die Kommandozeile holenund dann die Variablenliste anfügen Eine andere Art, Schreibarbeit zu

minimieren, ist, den Befehl selbst durch den Buchstaben l abzukürzen.

Stata-Befehle sind normalerweise kurz Einige davon lassen sich jedochweiter abkürzen Mehr dazu erfahren Sie in Abschnitt 3.1.1 Sie könnenübrigens auch die Variablennamen abkürzen Dafür gibt es eineallgemeine Regel, die wir Ihnen in Abschnitt 3.1.2 vorstellen werden.Alle 5.411 Beobachtungen anzusehen, ist sicher nicht die beste Art,einen Eindruck über die Einkommensverteilung von Männern undFrauen zu bekommen Es wird so z.B nur schwer zu beurteilen sein, obmehr Frauen oder mehr Männer in den unteren Einkommensgruppensind

Die In-Bedingung

Um einen ersten Eindruck über das Verhältnis von Einkommen undGeschlecht zu bekommen, könnte man Einkommen und Geschlecht fürdie zehn Befragten ansehen, die am wenigsten verdienen In diesem Fallwürde man zunächst den Datensatz nach Einkommen sortieren und danneine entsprechende Liste der ersten zehn Fälle erstellen:

Mit der in-Bedingung kann list auf bestimmte Fälle eingegrenztwerden Doch nicht nur list, sondern fast alle Stata-Befehle lassen sich

Trang 32

mit der in-Bedingung kombinieren Die in-Bedingung folgt dabei stetsder Variablenliste (bzw., wenn diese weggelassen wird, dem Befehl).Angesprochen wird dabei die Position eines Falles im Datensatz DieWerte aller Variablen für den ersten Fall erhält man mit:

list in 1

Die entsprechenden Angaben für den zweiten bis vierten Fall erhalten Siedurch die Eingabe von

list in 2/4

Maßgeblich für die Position im Datensatz ist dabei die augenblicklicheSortierung Diese kann durch den Befehl sort verändert werden Da obennach der Variablen income – dem Einkommen – sortiert wurde, befindensich die Befragten mit dem niedrigsten Einkommen an der ersten Stelle

im Datensatz Zwischen Beobachtungen, die dasselbe Einkommen haben,wird die Position zufällig festgelegt Durch sort income sex können Sieinnerhalb gleicher Einkommenswerte nach dem Geschlecht sortieren.Weitere Informationen zu den in-Bedingungen finden Sie in Abschnitt 3.1.4

Zusammenfassende Maßzahlen

Meistens ist man nicht an den Variablenausprägungen der einzelnenFälle interessiert Stattdessen versucht man, die in einer Variableenthaltene Information in einer Maßzahl zusammenzufassen Diebekannteste Maßzahl ist sicher der arithmetische Mittelwert Derarithmetische Mittelwert wird mit dem summarize-Befehl berechnet DieSyntax von summarize folgt demselben Prinzip wie die Syntax von list:Nach der Eingabe des Befehls folgt die Angabe einer Variablenliste, mitder festgelegt wird, für welche Variablen der Mittelwert ausgegebenwerden soll

Für das Einkommen sieht der Befehl wie folgt aus:

Das Ergebnis von summarize ist eine Tabelle, die neben dem

Trang 33

arithmetischen Mittel („Mean“) die Fallzahl („Obs“), dieStandardabweichung („Std Dev.“), den kleinsten („Min“) und den größtenWert („Max“) enthält.

Statt für die insgesamt 5.411 Befragten im Datensatz wird die Tabellenur für 4.779 Befragte berechnet Für die übrigen 632 Personen ist imDatensatz keine Information über das Einkommen gespeichert – siehaben einen „Missing“ beim Einkommen Das durchschnittlicheJahreseinkommen 2009 der Personen mit einer Einkommensangabebeträgt 20.540,6 € Der Mindestwert ist 0, d.h., mindestens eine Personhat kein persönliches Einkommen Das höchste Jahreseinkommen allerPersonen mit Angaben im Datensatz beträgt 897.756 € DieStandardabweichung beträgt 37.422 €

Wie bei list können Sie auch bei summarize mehr als eine Variableangeben Sie erhalten dann die entsprechenden Maßzahlen für allegenannten Variablen Durch Weglassen der Variablenliste sprechen Siealle Variablen im Datensatz an:

Weitere Maßzahlen sowie zahlreiche grafische Darstellungen fürVerteilungen werden in Kapitel 7 beschrieben

Die If-Bedingung

Nehmen Sie einmal an, Sie möchten wissen, ob sich das durchschnittlicheEinkommen der Männer von dem der Frauen unterscheidet DieseAufgabe lässt sich – unter anderem – mit Hilfe einer if-Bedingung lösen.Durch eine if-Bedingung können Sie die Berechnung des Durchschnittseiner Variablen in Abhängigkeit von den Werten einer anderen Variablen

Trang 34

durchführen Um in diesem Fall die if-Bedingung ausnutzen zu können,

müssen Sie allerdings wissen, dass der Wert des Geschlechts für

männlich 1 und der für weiblich 2 ist Wie Sie zu dieser Information

Fast alle Befehle in Stata lassen sich an eine if -Bedingung knüpfen.Wie die in-Bedingung folgt die Angabe der if -Bedingung stets dem Befehlund – falls vorhanden – der Variablenliste Falls eine if-Bedingung undeine in-Bedingung verwendet wird, spielt deren Reihenfolge keine Rolle.Die if-Bedingung kann grundsätzlich auch kompliziertere Ausdrückeenthalten, insbesondere Verknüpfungen mit dem logischen „und“ bzw

„oder“ Diese werden wir in Abschnitt 3.1.5 ausführlich besprechen

Definieren von fehlenden Werten

Gerade haben wir gesehen, dass Männer im Durchschnitt deutlich mehr

Trang 35

verdienen als Frauen, nämlich 28.191 € gegenüber 13.323 € Gleichzeitiggibt es jedoch einige Befragte ohne jegliches Einkommen, und Sie werden

zu Recht einwenden, dass Frauen häufiger kein persönliches Einkommenhaben als Männer Sinnvoller wäre es daher, nur diejenigen Personen fürden Vergleich heranzuziehen, die überhaupt ein persönlichesEinkommen haben Zu diesem Zweck können Sie die if-Bedingung z.B

durch ein logisches und erweitern (vgl Abschn 3.1.5)

Eine andere Möglichkeit ist, den Inhalt der Einkommensvariablen so

zu verändern, dass ein Einkommen von Null als Missing deklariert wird.Hier würden die Fälle ohne Einkommen bei der Berechnung automatischausgeschlossen werden Hierzu dient der Befehl mvdecode Mit demBefehl:

setzen Sie alle Fälle mit der Ausprägung 0 auf der Einkommens-Variableauf Missing Damit werden diese Fälle automatisch aus allennachfolgenden Analysen ausgeschlossen Wie Sie diese Definition wiederrückgängig machen können, erfahren Sie in Abschnitt 5.2 Einigeallgemeinere Bemerkungen zum Umgang mit fehlenden Werten findensich auf Seite 425 im Kapitel 11

Das Befehls-Präfix by

Nun wollen wir Ihnen zeigen, wie Sie mit Hilfe des Befehls-Präfixes bydie oben gezeigten Tabellen mit nur einem Kommando erstellen können.Als Befehls-Präfixe bezeichnen wir Befehle, die vor den eigentlichenStata-Befehl gestellt und von diesem durch einen Doppelpunkt getrenntwerden Das Befehls-Präfix by besteht aus dem Präfix selbst und einerVariablenliste, die wir hier als „By-Liste“ bezeichnen werden Das Präfix

by bewirkt, dass der eigentliche Stata-Befehl für alle Kategorien derVariablen aus der By-Liste wiederholt wird Voraussetzung ist allerdings,dass der Datensatz zuvor nach den Variablen der By-Liste sortiert wurde.Hier ist ein Beispiel:

Trang 36

Dies ist im Wesentlichen dieselbe Ausgabe wie auf Seite 19 Die Wertehaben sich etwas verändert; dies ist aber eine Folge der Veränderung derEinkommensvariable mit mvdecode Durch das Befehls-Präfix by wurdenlediglich die Überschriften über den Tabellen verändert Gegenüber derEingabe mit if-Bedingungen bietet die By-Konstruktion einige Vorteile.Der wichtigste ist, dass Sie die Werte der Kategorien nicht kennenmüssen Bei Verwendung von by ist es unwichtig, ob das Geschlecht mitden Werten 1 und 2 oder z.B mit 0 und 1 vercodet wurde.11 Danebenspart by Schreibarbeit, insbesondere wenn die Variable mehr als zweiAusprägungen hat Schließlich erlaubt by die Angabe mehrerer Variablen

in der By-Liste In diesem Fall wird der Stata-Befehl für alleKombinationen der Kategorien der By-Liste wiederholt

Das Befehls-Präfix by ist eines der interessanteren Werkzeuge vonStata Insbesondere in Verbindung mit den Befehlen zur Bildung undVeränderung von Variablen ergeben sich Anwendungsmöglichkeiten, dieauch erfahrene Anwender von Datenanalyseprogrammen überraschendürften Mehr hierzu finden Sie in den Abschnitten 3.2.1 und 5.5.1

Befehlsoptionen

Zurück zu der Beschreibung der Einkommensverteilung von Männernund Frauen Man kann argumentieren, dass der arithmetischeMittelwert, die Standardabweichung sowie Minimum und Maximumnicht genügen, um die Einkommensverteilungen der beiden Teilgruppen

zu vergleichen Mit dem summarize-Befehl können deshalb auch nochweitere Maßzahlen angefordert werden Dazu benötigt man jedoch ein

Trang 37

Im Gegensatz zu den bisher vorgestellten Elementen von Befehlen haben Optionen nur eine befehlsspezifische Bedeutung Fürjeden Befehl gibt es andere Optionen mit entsprechend unterschiedlichenBedeutungen Gemeinsam ist den Optionen aber, dass sie durch einKomma eingeleitet werden Allgemein gilt: Nach dem Stata-Befehl, derdurch Präfix, Variablenliste, if- oder in-Bedingung näher spezifiziertworden sein kann (aber nicht muss), folgt das Komma und danach inwillkürlicher Reihenfolge die Liste der gewünschten Optionen

Stata-Der summarize-Befehl hat nur wenig Optionen Die wichtigste ist detail– abgekürzt d Mit dieser Option erhalten Sie eine Reihe von Perzentilen,darunter den Median (das 50%- Perzentil), das erste und dritte Quartil,das Bruttoeinkommen der Personen mit den niedrigsten und höchsten

Einkommen sowie die drei sog Momente Varianz, Schiefe und Kurtosis:

Für die Optionen ist es unwichtig, wie der jeweilige Stata-Befehlaufgebaut ist Man kann beliebige Variablenlisten oder eine if- bzw in-Bedingung einführen oder ein Präfix voranstellen – die Funktionsweiseeiner Option ist stets dieselbe Mit

by sex: summarize income if edu==4, detail

können Sie sich dessen vergewissern Wenn Sie diesen Befehl eingeben,können Sie die Einkommensunterschiede zwischen Männern und Frauenfür Befragte auf unterschiedlichem Bildungsniveau ermitteln Sie werdendabei feststellen, dass es auch bei Befragten mit AbiturEinkommensungleichheit zwischen Männern und Frauen gibt

Allgemeine Hinweise zu Optionen finden Sie in Abschnitt 3.1.3

Trang 38

Neben einfachen Maßzahlen sind Häufigkeitsverteilungen undKreuztabellen – wir wollen hier von ein- oder zweidimensionalenHäufigkeitstabellen sprechen – die häufigsten Werkzeuge elementarerDatenanalyse Der Stata-Befehl zur Erzeugung von Häufigkeitstabellen

lautet tabulate Zusammen mit diesem Befehl muss eine Variablenliste

bestehend aus maximal zwei Variablen angegeben werden Wenn Sie nureine Variable angeben, erhalten Sie eine eindimensionaleHäufigkeitstabelle der angegebenen Variable:

Wenn Sie zwei Variablen angeben, erhalten Sie eine zweidimensionaleHäufigkeitsverteilung:

Die zuerst eingegebene Variable bildet dabei die Zeilen, die zweiteVariable die Spalten der Kreuztabelle In die Zellen der Tabelle werdendie absoluten Häufigkeiten geschrieben, was aber mit entsprechendenOptionen verändert werden kann Von zentraler Bedeutung sind dieOptionen row und column, mit denen die Ausgabe von Zeilen- undSpaltenprozenten angefordert wird Daneben gibt es Optionen fürKennzahlen über die Stärke des Zusammenhangs Wie schon beimsummarize-Befehl können Sie alle diese Optionen frei mit if - oder in-Bedingungen und Befehls-Präfixen kombinieren Nachfolgend einBeispiel mit Spaltenprozenten, bei der wir zusätzlich die Ausgabe der

Trang 39

Grafiken

Grafiken sind ein mächtiges Werkzeug zur Darstellung von Daten ZumBeispiel eignet sich der „Box-Plot“ besonders gut dazu, um die Verteilungeiner Variable zwischen verschiedenen Gruppen zu vergleichen Wirverwenden den Box-Plot hier zum Vergleich des Einkommens vonPersonen mit unterschiedlichem Erwerbsstatus

graph box income if income <= 250000, over(emp)

Der Grafik-Befehl besteht aus dem Befehl graph box, demVariablennamen income sowie der Angabe der Gruppierungsvariable(over(emp)) Ausführliche Informationen zur Erstellung von Grafikenerhalten Sie in Kapitel 6

Das Ergebnis des Befehls wird im Grafikfenster dargestellt AlleGruppen zeigen eine rechtsschiefe Einkommensverteilung mitzahlreichen Ausreißern Die Linie in der Mitte der Box ist der Median desEinkommens An ihm lässt sich ablesen, dass Vollzeiterwerbstätige über

Trang 40

ein höheres Einkommen verfügen als alle anderen Gruppen Das hatnatürlich Konsequenzen für den Befund, dass Frauen im Durchschnittweniger verdienen als Männer Denn wenn Frauen häufigerteilzeitbeschäftigt wären, hätten sie vielleicht nur deshalb ein niedrigeresBruttoeinkommen Die Einkommensungleichheit zwischen Männern undFrauen könnte somit als Resultat von Entscheidungen zwischenEhepartnern aufgefasst werden und nicht als Diskriminierung amArbeitsplatz Für weitere Analysen der Einkommensungleichheit solltenwir darum den Erwerbsstatus kontrollieren.

Haben Sie genug gesehen? Dann klicken Sie einfach in dasAusgabefenster und das Grafikfenster verschwindet in den Hintergrund

Sie können es mit Strg-6 jederzeit wieder aufrufen.

Die Hilfefunktionen

Ausgehend von den Ergebnissen, die wir im vorhergehenden Abschnitterhalten haben, scheint es sinnvoll, den Erwerbsstatus der Befragten beider Analyse der Einkommensunterschiede zu berücksichtigen Teilweiseist das bereits durch den Ausschluss der Personen ohne Einkommengeschehen Dies berührt jedoch nicht das Problem derTeilzeitbeschäftigten Eine Möglichkeit, das Geschlecht und denErwerbsstatus der Befragten gleichzeitig zu berücksichtigen, bietet dielineare Regression

Das Verfahren der linearen Regressionsanalyse wird ausführlich in Kapitel 9 besprochen Die nachfolgenden Abschnitte sind – so hofen wir –auch dann verständlich, wenn Sie mit diesem Verfahren nicht vertrautsind

Unglücklicherweise kennen Sie den Befehl für die lineare Regression

im Augenblick noch nicht Dies ist eine durchaus übliche Situation: Manerfährt von einem bestimmten statistischen Verfahren und möchtewissen, ob es in Stata eine entsprechende Prozedur gibt In solchen Fällenhilft der Befehl search

Mit search wird eine spezielle Datei nach den Begrifen durchsucht, dieSie eingeben Wenn search fündig geworden ist, wird Ihnen eine Listevon Einträgen zu Ihrem Suchwort angezeigt Groß- und Kleinschreibungspielt bei den eingegebenen Begrifen übrigens ausnahmsweise keineRolle Die durchsuchte Datei heißt stata key und findet sich im Stata-Programmverzeichnis Die Datei wird regelmäßig ergänzt Sie sollten siedeshalb immer wieder erneuern, um die Funktion von search voll

Định dạng
Số trang	658
Dung lượng	44,16 MB
File đính kèm	2. data analysis_germany.rar (28 MB)