9 Hình: lệnh hist price Chúng ta v a thực hiện một số thao tác phân tích dữ liệu cơ ản, bao g m mở dữ liệu, tìm hiểu thông tin v các bi n trong bộ dữ liệu, tính thống kê t ng bi n, dựng
Trang 1*****
BÀI GIẢNG TIN HỌC ỨNG DỤNG TRONG KINH TẾ
Biên soạn: Th.S Trần Văn Khiêm
Hà Nội, 2015
Trang 21
Nội dung
Phần 1: Thông tin môn học 4
Thông tin cơ bản 4
Mục tiêu, vai trò môn học 4
Người dạy 4
Thời gian và thời lượng học kì vọng 4
Cách kiểm tra 5
Phần 2: Nội dung môn học 5
1 Giới thiệu chung 5
2 Giới thiệu Stata 6
Làm quen với Stata 6
Giới thiệu Stata 9
Giao diện của Stata, do file, log file, dta file 10
Sử dụng công cụ hướng dẫn trong Stata 22
Cấu trúc lệnh trong Stata 22
Tài liệu học Stata 25
3 Dữ liệu trong Stata 25
Dữ liệu trong St t 25
Nh p ữ liệu gộp ữ liệu x ữ liệu 28
Tạo i n th y i i n 32
Mô tả dữ liệu 33
Mô tả tương qu n c c i n 35
Làm việc với th trong St t 36
4 Mô hình tuy n tính với Stata 38
Ph n t ch trước ph n t ch h i quy 38
Ph n t ch h i quy 39
Tính fitted value, phần ư thực hiện ư o n 41
T nh t c ộng ri ng củ i n ộc l p 43
Kiểm nh giả thuy t 44
H i quy với i n c t goric l 44
Mở rộng mô h nh sử ụng i n nh phương i n tương t c 45
Kiểm nh giả thi t của mô hình h i quy tuy n t nh cơ ản 45
Trang 3Mô h nh GLS 49
Mô h nh tuy n tính với Instrumental variable 50
5 Phân tích chuỗi thời gian với Stata 51
Quản lý dữ liệu thời gian trên Stata 51
Mô hình tuy n tính với dữ liệu thời gian 52
Phân tích breakpoint trên dữ liệu chuỗi thời gian 53
Công cụ phân tích Box-Jenkins 54
Mô hình VAR 56
6 Mô hình cho bi n phụ thuộc không liên tục với Stata 57
Mô h nh x c suất tuy n t nh với bi n phụ thuộc binary 57
Mô h nh Pro it v logit với bi n phụ thuộc hai lựa chọn 58
Dự o k t quả 58
T nh t c ộng t ng phần 58
Kiểm nh 59
Mô hình probit và logit với bi n phụ thuộc dạng khác (ordered và multinomial) 59
7 Giới thiệu R 59
Làm quen với R 59
Kh i niệm v l ch sử R 65
iểm mới củ R so với St t 65
Gi o iện v c c công cụ hỗ trợ R 66
T m ki m trợ gi p tr n R 76
C ch R hoạt ộng v xử l lỗi 76
Thông tin kh c v R 77
8 Ki n thức cơ ản v R 79
C c ạng ữ liệu trong R 79
C c ối tượng lưu trữ dữ liệu cơ ản 80
L p tr nh nh hướng ối tượng trong R 90
Vi t phương tr nh tr n R 91
C u lệnh kiểm so t control st t m nt 93
9 Một số thủ thu t data tidying với R 96
Nh p dữ liệu bảng t file 96
Hoạt ộng data tidying 99
Trang 43
Một số thủ thu t làm sạch dữ liệu với R 101
10 Khám phá dữ liệu 105
ôi n t v kh m ph ữ liệu 105
V s o n n ng th khi kh m ph ữ liệu 106
C c hệ thống th trong R 107
Sử ụng th ể kh m ph ữ liệu 112
11 Phân tích h i quy 113
H i quy tuy n t nh 113
Sử ụng k t quả h i quy 114
Thực hiện kiểm nh tr n R 115
Lưu v công thức trong lệnh lm( ) 117
Phân tích chuỗi thời gi n với R 118
12 L p trình phục vụ nghiên cứu kinh t 120
Một số nh hướng khi vi t một chương tr nh m y t nh 120
Vi t chương tr nh ph n t ch mô h nh h i quy 123
Mở rộng chương tr nh 123
Phần 3: Tài liệu tham khảo 124
Phần 4: Một số thu t ngữ hữu ích 124
Trang 5Phần 1: Thông tin môn học
Thông tin cơ ản
- Mã số môn học: AIBA315
- Số tín chỉ: 3
- Môn học trước: Kinh t lượng I, Tin học ại cương
Mục tiêu, vai trò môn học
- T ng quan môn học: y l môn học cơ ản v ứng dụng tin học trong kinh t ược thi t k cho sinh viên với ki n thức cơ ản v kinh t lượng và sử dụng máy tính So với môn học tin học ại cương môn học này t p trung vào cách sử dụng một số phần m m
ể xử lý, phân tích dữ liệu phục vụ nghiên cứu kinh t
- Mục tiêu học: Thứ nhất, sinh viên nắm ược cách sử dụng phần m m St t v R ể nh p
dữ liệu, xử lý dữ liệu, phân tích dữ liệu, kiểm nh giả thuy t ư ự o n Thứ hai, sinh viên bi t cách tìm hiểu v công cụ phân tích dữ liệu trên máy tính thông qua các lệnh tìm
ki m trợ giúp Thứ ba, sinh viên học ược một số thủ thu t trong l p trình trên R
- Liên k t với các môn học khác: Môn học gi p người học áp dụng các ki n thức lý thuy t kinh t lượng vào phân tích dữ liệu thực t , chuẩn b cho người học những kĩ năng cần thi t ể học sâu thêm v kinh t lượng, thống kê, l p tr nh Kĩ năng c ược trong môn học là cần thi t trong quá trình làm nghiên cứu khoa học và vi t khóa lu n của sinh viên
- Cơ hội ngh nghiệp: Lượng dữ liệu m con người cần xử l ng tăng trưởng ngày càng
nh nh ng thời việc sử dụng dữ liệu trong dự báo, quản l ng ng y c ng ph bi n Vì
v y kĩ năng sử dụng các phần m m xử lý và phân tích dữ liệu kĩ năng l m qu n với một phần m m mới là rất quan trọng Ngày nay, nhi u công việc yêu cầu người làm việc phải bi t sử dụng một trong các phần m m phân tích dữ liệu thông dụng như St t R
Người dạy
- Giảng viên bộ môn Kinh t
Thời gian và thời lượng học kì vọng
- Thời gian diễn ra các bu i học: xem thời khóa biểu
- Thời lượng các bu i học: 45 giờ
- Tự học trước và sau bu i học: 60 giờ
- Chuẩn b cho kiểm tra giữa kỳ: 15 giờ
Trang 65
Cách kiểm tra
- iểm nh: iểm danh trong các bu i học
- Kiểm tra giữa kì: Làm bài trên giấy, có sử dụng máy vi tính
- Thi cuối kì: Làm bài trên giấy, có sử dụng máy vi tính
Phần 2: Nội dung môn học
1 Giới thiệu chung
y l môn học cơ ản v ứng dụng tin học trong kinh tế ược thi t k cho sinh viên với ki n
thức cơ ản v kinh t lượng và sử dụng máy tính So với môn học tin học ại cương môn học này t p trung vào cách sử dụng một số phần m m ể xử lý, phân tích dữ liệu phục vụ nghiên cứu kinh t
Thu t ngữ “tin học”: Tin học là một ngành khoa học chuyên nghiên cứu quá trình tự ộng hóa việc t chức lưu trữ và xử lý thông tin của một hệ thống máy tính Với cách hiểu hiện nay, tin học bao hàm tất cả các nghiên cứu và kỹ thu t c li n qu n n việc mô phỏng, bi n i và tái tạo thông tin
Máy tính, hệ thống máy tính bao g m các thi t b ược l p tr nh ể có thể thực hiện các phép toán một cách tự ộng V y các thi t b như m y vi t nh m y t nh ỏ t i iện thoại i ộng, tủ lạnh, một số n i cơm iện, một số quạt iện… u là máy tính Trong môn này, chúng ta ứng dụng các phần m m xử lý và phân tích dữ liệu trong hoạt ộng phân tích dữ liệu kinh t , nghiên cứu kinh t y l một phần nhỏ trong ứng dụng tin học trong kinh t
Vì sao phải sử dụng máy tính: Máy tính thực hiện ược những hoạt ộng lặp i lặp lại một cách chính xác, nhanh chóng và ti t kiệm hơn con người nhi u lần Ví dụ: một máy tính bỏ túi thực hiện một ph p t nh như ^ trong nháy mắt r p số cụ thể n 1/1000000 (hoặc hơn v tốn năng lượng không ng kể Một người thực hiện phép tính này có thể mất vài chục phút, phải sử dụng bảng tra cứu, giấy nháp, và tốn năng lượng hơn m y t nh nhi u lần Trong quá trình nghiên cứu kinh t , lợi th của máy tính sẽ ược thể hiện khi chúng ta phải xử lý dữ liệu với h ng trăm quan sát trở lên Ngày nay, khả năng t nh to n của máy tính là không thể thi u ối với hầu h t các hoạt ộng phân tích và xử lý dữ liệu
Máy tính không thể l m i u gì trong nghiên cứu kinh t : Chúng ta sẽ thấy rằng c c chương
tr nh như St t R không thể tự thu th p dữ liệu, không bi t bi n mục tiêu và bi n ộc l p là bi n
Trang 7nào, không bi t chọn mô h nh n o ể phân tích dữ liệu Các hoạt ộng n y o người sử dụng chương tr nh thực hiện Tuy nhi n con người ng ph t triển các máy tính chuyên thu th p dữ liệu, vì chúng có thể thực hiện việc n y u ặn, tốn t năng lượng, có thể gửi dữ liệu với nh dạng chuẩn tới nơi xử lý ngay l p tức Các nhà tâm lý học sử dụng m y t nh ể o lường ộ thỏa dụng củ c nh n C c chương tr nh m y tính tự chọn mô hình phân tích dữ liệu khi bi t bi n mục ti u ng trở nên ph bi n Trong hiện tại, việc o c i g i n mục ti u l g … vẫn do con người quy t nh Tuy nhi n trong tương l i c thể m y t nh cũng thực hiện cả những hoạt ộng này
Trong chương tr nh học ại học ch ng t ược làm quen với quy tr nh như s u: người nghiên cứu xuất phát t vấn kinh t xã hội, ư r chủ nghiên cứu, l p k hoạch và thực hiện thu
th p dữ liệu, xử lý và phân tích dữ liệu ư r k t lu n v xuất chính s ch phương n Chương tr nh m y t nh th m gi v o công oạn xử lý và phân tích dữ liệu Nhi u phần m m có thể ược sử dụng, ví dụ như St t R SPSS Evi ws St tgr phics MATLAB SAS… Trong môn học này, chúng ta tìm hiểu Stata và R Tuy nhi n người học cần hiểu y không phải hai chương tr nh xử lý và phân tích dữ liệu duy nhất, vì v y cần học sâu thêm v St t R cũng như tìm hiểu thêm v c c chương tr nh m y t nh kh c
2 Giới thiệu Stata
Làm quen với Stata
C ch ơn giản nhất ể mở chương tr nh St t ở một số m y t nh l click p v o iểu tượng Stata, có hình dạng như s u:
Hình: Biểu tượng cho chương tr nh St t phi n ản 12 C c chương tr nh St t phi n ản khác
có biểu tượng với hình dạng tương tự
ể tắt chương tr nh St t ch ng t c thể click vào biểu tượng dấu X ở góc trên, bên phải của cửa s Stata (xem hình minh họa)
Trang 9Chúng ta nh p lần lượt t ng lệnh trong các lệnh sau, r i nhấn Enter:
Trang 109
Hình: lệnh hist price Chúng ta v a thực hiện một số thao tác phân tích dữ liệu cơ ản, bao g m mở dữ liệu, tìm hiểu thông tin v các bi n trong bộ dữ liệu, tính thống kê t ng bi n, dựng một số th ể hiểu thêm
v phân phối của một số bi n Cụ thể: Lệnh sysuse auto.dta nhằm mở một bộ dữ liệu; Lệnh d nhằm mô tả các bi n; Lệnh sum tính các thống kê cho các bi n trong bộ dữ liệu; Lệnh hist price nhằm dựng th histogram v bi n price; Lệnh hist mpg dựng th histogram v bi n mpg; Lệnh scatter mpg price dựng th mpg theo price
Giới thiệu Stata
Stata là một phần m m phân tích dữ liệu ược vi t và bán bởi St t Corp St t c c c t nh năng cho ph p người dùng quản lý dữ liệu, phân tích dữ liệu, xây dựng th , giả l p, ước lượng mô hình h i quy v cũng hỗ trợ l p trình
St t ược thi t k thân thiện với người dùng là nhà nghiên cứu xã hội: kinh t , khoa học chính
tr , khoa học xã hội, sức khỏe cộng ng… Gi o iện củ St t cho ph p người dùng với ít ki n thức tin học có thể thực hiện các hoạt ộng phân tích dữ liệu cần thi t
Gi ể mua Stata bản 14 (bản mới nhất) trong một năm cho người Việt Nam là t 300 USD n
450 USD Gi ể mua một phiên bản Stata trọn ời l 600 n 900 USD
Trang 11StataCorp thường cho ra mắt các phiên bản mới 2 năm một lần Phiên bản mới nhất là phiên bản Stata 14, ra mắt vào 07/4/2015 Các phiên bản St t thường c t nh ng nhất v lệnh, tức là lệnh vi t ở phiên bản cũ c thể chạy ược trên phiên bản Stata mới (trong khi có một số lệnh ở phiên bản mới chư c ở phiên bản cũ Ch ng t ng sử dụng phiên bản Stata 12
Trên th giới St t ược sử dụng bởi nhi u t chức giáo dục, t chức chính phủ, t chức quốc
t
Hình: Website Stata.com
Giao diện của Stata, do file, log file, dta file
Giao diện mặc định của Stata có thanh thực ơn th nh công cụ và 5 cửa s thành phần sau:
Cửa s Command: Cửa s ể chúng ta gõ lệnh của mình Lệnh sẽ ược phần m m thực hiện; Cửa s Results: Khi lệnh ược phần m m thực hiện, k t quả và các thông báo sẽ ược hiển th ở cửa s này; Cửa s Review: Bao g m danh sách các lệnh m ch ng t ã thực hiện t khi mở cửa
s làm việc của Stata Chúng ta có thể ch nh ược nh s ch n y x i c c lệnh không cần
thi t); Cửa s Variables: Bao g m tên các bi n trong bộ dữ liệu m ch ng t ng sử dụng; Cửa
s Properties: Thuộc tính của một bi n thuộc bộ dữ liệu
Trang 1211
Hình: cửa s chính của Stata, bao g m các cửa s con
Thanh thực đơn của Stata bao gồm các lựa chọn sau: File: Bao g m các thao tác liên quan
n file dữ liệu và file log; Edit: Bao g m c c th o t c li n qu n n cửa s Results, tùy chỉnh cửa s r sults v th …; Data: Bao g m c c th o t c li n qu n n xử lý dự liệu, tạo dữ liệu;
Graphics: Bao g m các thao tác dựng th ; Statistics: Bao g m các thao tác phân tích dữ liệu; User: Người dùng có thể tự thi t k nội dung trong lựa chọn này (ch ng t chư cần quan tâm
tới lựa chọn này); Window: Cho ph p người ng i u chỉnh các cửa s thành phần và mở cửa
s tiện ích mới; Help: Các ngu n trợ giúp cho người dùng, thông tin v phần m m St t ng sử
dụng
Hình: Thanh thực ơn của Stata
Trang 13Lựa chọn file trong thanh thực đơn bao g m: Open: Mở file dữ liệu uôi t ; Save: Lưu
chỉnh sửa dữ liệu làm việc; Save As: Lưu ữ liệu làm việc vào file mới; View…: ọc nội dung file (chúng ta ít dùng lựa chọn này); Do…: Thực thi ngầm các lệnh trong một file do;
Filename…: Lấy a chỉ ầy ủ của một file; Change Working Directory…: Th y i a chỉ thư
mục làm việc của Stata; Log: Bao g m các thao tác nhằm lưu giữ nội dung trong cửa s k t quả;
Import: Nh p dữ liệu t ngu n khác không phải file dta; Export: Xuất dữ liệu ra dạng file khác
.dta; Print: In nội dung trong cửa s Result; Example Datasets…: Thao tác dẫn n các bộ dữ liệu ví dụ; Recent Datasets: Các bộ dữ liệu mở gần y; Exit: Thoát Stata
Hình: lựa chọn File trong thanh thực ơn
Lựa chọn edit trên thanh thực đơn bao g m: Copy: s o ch p oạn kí tự ược lựa chọn trên
cửa s R sults lưu trong ộ nhớ clip o r ưới dạng kí tự); Copy Table: S o ch p oạn ký tự lưu trong ộ nhớ ưới dạng bảng); Copy Table as HTML: S o ch p oạn ký tự lưu trong ộ nhớ ưới dạng bảng, vi t theo kiểu html); Copy as Picture: S o ch o oạn kí tự lưu trong ộ nhớ ưới dạng hình ảnh); Paste: ư c c nội ung lưu trữ trong clipboard vào cửa s command;
Clear Results: xóa nội dung trong cửa s Results; Find: tìm nội dung trong cửa s Results; Find
Trang 1413
Next: Ti p tục tìm trong cửa s Results; Table Copy Options: tùy chỉnh khi sao chép k t quả t
cửa s Results; Preferences: tùy chỉnh giao diện Stata, giao diện cửa s th , sử dụng v lưu
giao diện mẫu, Chỉnh cách mở file dta, log file, do file
Hình: Lựa chọn edit trên trang thực ơn
Lựa chọn data trên trang thực đơn: Lựa chọn này bao g m nhi u th o t c ng ể xử lý dữ
liệu Một số thao tác chính: Describe data: bao g m các lệnh mô tả bi n, mô tả nội dung dữ liệu;
Data Editor: Mở cửa s data editor Có hai dạng cửa s : cửa s ể xem dữ liệu và cửa s ể
chỉnh sửa dữ liệu; Create or Change data: chứa t p hợp các thao tác có thể sử dụng ể tạo hoặc
th y i dữ liệu; Variable Manager: Mở cửa s variable manager – ng ể chỉnh tên bi n,
nhãn…; Data Utilities: Thao tác cho phép chỉnh sửa tên, nhãn dữ liệu (giá tr , bi n, bộ dữ liệu) Hữu ch cho người xử lý dữ liệu thô; Sort: sắp x p dữ liệu; Combine Datasets: k t hợp nhi u bộ
dữ liệu vào với nhau; Matrices, Mata language và Matrices, ado language: lựa chọn liên quan
n phép toán ma tr n; Other utilities: Các tiện ch kh c như l p dữ liệu thời gian biểu, tính
ph p t nh…
Trang 15Hình: lựa chọn data trên thanh thực ơn
Lựa chọn Graphic trên thanh thực đơn: Lựa chọn Graphics bao g m các công cụ xây dựng
th Các công cụ chính bao g m: Twoway graph: xây dựng th cơ ản nhất, có hai trục;
Bar chart, Dot Chart, Pie Chart, Histogram, Box plot: Tùy chọn ể xây dựng c c th khác
nhau (phụ thuộc vào tên của lựa chọn); Contour plot: lựa chọn ể xây dựng dạng th Contour (thể hiện 3 bi n); Scatter plot matrix: c c th sc tt r plot ược x p ưới trên trang dạng ma
tr n; Các lựa chọn ể dựng th phục vụ thống k th thể hiện phân phối th phân tích
mô hình h i quy th cho chuỗi thời gi n… ; Table of Graphs: k t hợp nhi u th với nhau;
Trang 1615
Manage Graphs: quản l th lưu th , sử t n… ; Change scheme/size: th y i kích
thước, hình ảnh một th
Hình: Lựa chọn Graphic trên thanh thực ơn
Lựa chọn Statistic trên thanh thực đơn: Lựa chọn Statistics là nội dung chính của Stata, bao
g m các lựa chọn cho phép chúng ta phân tích dữ liệu sử dụng các lệnh thống kê và các mô hình
h i quy, thực hiện ph n t ch s u ước lượng h i quy; Chúng ta có thể thấy c ch ặt tên các lựa chọn phù hợp với người học v kinh t lượng: lựa chọn chia thành các chủ như mô h nh tuy n
Trang 17tính, bi n phụ thuộc là bi n m, mô hình với chuỗi thời gian, panel t …; Nội dung cụ thể của lựa chọn này sẽ ược giới thiệu trong các bài học sau
Hình: Lựa chọn Statistics trên thanh thực ơn
Lựa chọn Window trên thanh thực đơn bao g m: Command, Results, Review, Variables, Properties: lần lượt là các lựa chọn ể mở các cửa s thành phần với t n tương ứng Các lệnh
Trang 1817
th ng hoạt ộng; Viewer: lựa chọn ể quản lý các cửa s vi w r ng hoạt ộng; Data
editor, do-file editor, Variables Manager: mở (hoặc quản lý) các cửa s data editor, do-file
editor, variables manager
Lựa chọn Help trên thanh thực đơn bao g m: PDF Documentation: Mở file PDF chứ hướng
dẫn sử dụng Stata; Advice và Contents: truy c p vào các nội ung hướng dẫn; Search: tìm ki m hướng dẫn bằng t khóa; Stata Command: tìm ki m hướng dẫn v một lệnh trên Stata; News:
C c tin li n qu n n Stata (tin của StataCorp, khóa học v St t … ; Resources: các tài nguyên
li n qu n n Stata; SJ and User-written Programs: thông tin v các công cụ mở rộng Stata do người dùng vi t; What’s New?: Sự i mới của phiên bản Stata bạn ng c ; Check for Updates (không sử dụng): tìm bản c p nh t cho Stata; About Stata: thông tin chung v phần m m Stata
Thanh công cụ trên cửa sổ Stata: Thanh công cụ chứa những lựa chọn cơ ản nhất: mở file dữ
liệu mới; lưu fil ữ liệu, in k t quả ở cửa s Results; mở và quản lý log file; mở cửa s viewer; quản lý các cửa s th ; mở do-file editor; mở cửa s data editor (dạng chỉnh sử ược); mở cửa s data editor (dạng chỉ xem); mở cửa s quản lý bi n Variables manager; Clear –more– Condition: xem toàn bộ nội ung ược tạo ra ở cửa s Results; Break: D ng lệnh ng ược thực hiện
Hình: Thanh công cụ trên Stata
Các file tiện ích cho Stata: Chúng ta tìm hiểu 3 dạng file tiện ích cho stata: Do file, log file, dta
file Chúng lần lượt ược sử dụng ể lưu trữ lệnh lưu trữ k t quả lưu trữ dữ liệu Ngoài 3 dạng fil tr n St t còn lưu th và k t quả ước lượng trong dạng file riêng
Do file: “ o” file là một dạng fil t xt ược sử dụng ể lưu trữ các lệnh Stata Tên file có dạng
x mpl o Fil ược mở bằng Stata do-fil itor như h nh ưới) hoặc phần m m ọc và chỉnh sử fil t xt như Not p File do có thể ược lưu ở mọi nơi t y th ch khi làm việc với
m y t nh nh trường, chúng ta có thể tạo một thư mục ở các ĩ không reset ( :D, thi t b lưu trữ dữ liệu c nh n ể lưu fil o
Trang 19Cách tạo do file: Cách 1: mở do-file editor (một o fil ược tạo ra trong bộ nhớ tạm thời, cho phép bạn vi t nội ung fil Khi ng o-file editor, bạn sẽ ược lựa chọn liệu c lưu fil không); Cách 2: sử dụng khi bạn muốn lưu một số lệnh St t ã ng: chọn một số lệnh trong phần review, click chuột phải, chọn send to do-file editor
Hình: do file editor Cách mở và sử dụng do file editor: Chúng ta mở do file bằng cách vào Stata, chọn do file editor Tại cửa s Do-file editor, chọn Open (thông qua kí hiệu open ở thanh công cụ hoặc
File>open hoặc nhấn Ctrl + O S u khi fil ược mở, chúng ta có thể thực hiện c c th o t c như
chạy một số lệnh, hoặc chỉnh sử v lưu c p nh t vào o fil ã chọn C ch ơn giản nhất ể
chạy một số lệnh là chọn các lệnh và nhấn Ctrl + D tương ương với “thực hiện các lệnh ã
chọn” N u chúng ta muốn chạy các lệnh mà không hiện k t quả ra cửa s Result, chọn các lệnh
và nhấn Ctrl + R Ngo i r ể chỉnh sửa nội dụng o fil ch ng t cũng c thể ng c c phương
pháp chỉnh sửa file text khác (các bạn có thể sử dụng phần m m text editor, hoặc vi t chương
tr nh m y t nh ể vi t ra do file)
Chúng ta cần phân biệt giữa do file và ado file: Stata có cung cấp một dạng fil t xt kh c ể
Trang 20Log file là dạng file (có thể l fil c nh dạng, hoặc là file chỉ có kí tự (file text) ) Chúng ta sử
dụng log fil ể lưu trữ k t quả trong cửa s Results của Stata Có hai dạng log file: Dạng uôi log là dạng log fil lưu trữ k t quả ưới dạng chuỗi kí tự không c nh dạng, còn dạng uôi smcl là dạng log fil lưu trữ k t quả ưới dạng c nh dạng (giống như nh dạng k t quả trên cửa s Results)
Trang 21Hình: Mở file log bằng cách sử dụng thanh thực ơn Tính t thời iểm tạo log file, các k t quả sẽ ược lưu trữ v o fil Ch ng t ng fil ể d ng việc lưu k t quả: Cách 1: Stata > file > log > close; Cách 2: Sử dụng biểu tượng trên toolbar; Cách 3: Dùng lệnh: log close
Trang 2221
H nh: ng fil log sử dụng thanh thực ơn Chúng ta có thể tạm d ng việc ghi k t quả v o log fil : V o fil > log > susp n ể tạm d ng việc ghi k t quả S u ch ng t c thể v o fil > log > r sum ể ti p tục ghi k t quả vào file log
Chúng ta có thể nối ti p fil log cũ ằng cách sử dụng lệnh với tùy chọn là append: log
using “D:\stata\example.smcl”, append ể mở file log, chúng ta có thể vào
Stata, chọn Fil > Log > Vi w… Khi một cửa s mở ra yêu cầu chúng ta nh p tên file (hình minh họa) Chúng ta có thể sử dụng n t Brows ể tìm file cần x m Fil log cũng c thể ược xem thông qua text editor
Hình: Cửa s yêu cầu nh p tên file log cần xem
Trang 23.dta file: File dta là dạng fil lưu trữ dữ liệu và các thông tin liên quan của Stata (nhãn của bi n,
nhãn của giá tr trong bi n… uôi fil ạng này là dta
Chúng ta có thể lưu ữ liệu vào file dta bằng cách chọn File>Save hoặc Save As (lệnh Save sẽ lưu th y i dữ liệu v o fil t ng ược mở; lệnh Save As cho phép chúng ta chọn giữa lưu file dta mới hoặc ghi è l n một trong những fil t ã c Ch ng t cũng c thể lưu ữ liệu bằng lệnh
Chúng ta có thể mở file dta bằng cách chọn Fil > Op n s u chọn file cần mở Cách sử dụng biểu tượng open trên thanh công cụ hoặc dùng lệnh cũng c thể ược áp dụng
Sử dụng công cụ hướng dẫn trong Stata
Stata cung cấp tài liệu hỗ trợ người dùng sử dụng các lệnh tr n St t ể tìm trợ giúp v một lệnh (khi bi t tên của lệnh người dùng có thể dùng lệnh: help tên.lệnh (ví dụ: help describe Ch ng t cũng c thể sử dụng lựa chọn trên thanh thực ơn: h lp > Comm n Khi không bi t rõ tên lệnh, chúng ta có thể tìm trợ giúp thông qua lệnh: search t khóa (ví dụ: search categorical variable regression) Lệnh này không chỉ tìm trợ giúp v lệnh mà còn tìm các nội dung liên quan tới t khóa (xem hình minh họa)
Hình: k t quả t lệnh search categorical variable regression
Cấu trúc lệnh trong Stata
Trang 2423
[Tiền.tố : ] tên.lệnh [danh.sách.biến] [= biểu.thức] [if
biểu.thức.logic] [in khoảng.quan.sát] [weight = tên.biến] [using
“tên.file”] [ , tùy.chọn]
Trong : Các y u tố trong dấu ngoặc vuông […] có thể không có, tùy theo yêu cầu của t ng
lệnh Các kí tự ược in m cần ược giữ nguyên trong lệnh Các y u tố khác, ví dụ như tên.biến, biểu.thức… ược sử i cho t ng lệnh Tiền.tố là các lệnh l m th y i hoạt ộng của lệnh chính Các tiền.tố có thể áp dụng cho nhi u lệnh Các tùy.chọn ược liệt kê sau dấu phẩy th y i hoạt ộng của lệnh chính Các tùy chọn này phụ thuộc vào t ng lệnh
Cách viết tên biến, tên lệnh: Khi ặt tên bi n và khi sử dụng bi n, chúng ta cần chú ý rằng
Stata phân biệt giữa vi t hoa và vi t thường Phần m m sẽ hiểu x và X là hai bi n khác nhau Khi người dùng sử dụng bi n và các y u tố trong các lệnh người ng ược phép vi t tắt sử dụng một số chữ c i ầu tiên của các tên lệnh và tên bi n n u không có lệnh khác hay bi n khác
có thể ược vi t tắt theo cùng cách Ví dụ: lệnh describe có thể ược vi t tắt thành d; lệnh summarize có thể ược vi t tắt thành sum; tên bi n x12345 có thể ược vi t tắt thành x n u không có bi n khác bắt ầu bằng x ể vi t t n ầy ủ của một bi n, chúng ta có thể click p vào tên bi n trong cửa s Variables
H nh: Click p v o i n trong cửa s con V ri l s ể vi t t n ầy ủ của bi n v o cửa s
command
Trang 25Lệnh có nhiều dòng: Khi vi t lệnh vào do file, chúng ta có thể gặp trường hợp lệnh quá dài
Khi ch ng t c thể cho lệnh thành nhi u òng ể dễ ọc hơn ể Stata không hiểu rằng các dòng của lệnh là các lệnh riêng biệt, chúng ta cần k t thúc mỗi dòng (tr dòng cuối của lệnh) bằng dấu ///
ầu các dòng sau của lệnh cần ược lùi vào một khoảng cách nhất nh ể chúng ta phân biệt
y không phải là lệnh mới Mặc dù chúng ta có thể chọn khoảng cách lùi tùy ý, khoảng cách lùi
v o ầu dòng tốt là 1 lần tab, giúp file do dễ nh n hơn
ọc thêm v vấn này trong Stata User Guide – mục 16: do-file)
Chú giải trong Stata: Dòng chữ trong do file bắt ầu bằng dấu * sẽ không ược stata coi là
lệnh và vì th chương tr nh sẽ bỏ qua Chúng ta có thể sử dụng t nh năng n y ể vi t các chú giải, giúp nội dung file do dễ hiểu hơn cho người ọc khác hoặc cho ch ng t trong tương l i
St t cũng sẽ bỏ qu oạn kí tự trong do file nằm giữa dấu /* và */
Toán tử trong Stata:
Toán tử số học: Stata có các toán tử số học: +, - (cộng và tr ), *, / (nhân và chia), ^ mũ
Ngoặc tròn và ngoặc vuông ( (…) và […] u có thể sử dụng như ngoặc trong phép toán thông thường Ngoặc nhọn ({…} c nghĩ kh c ngoặc nhọn trong phép toán số học nên không thể ược sử dụng khi vi t phép toán Phép tính chứa giá tr không x c nh hoặc không thể tính ra ược k t quả chi cho 0… th k t quả là giá tr không x c nh (ví dụ: 5 + = ) Stata còn có các hàm toán học: sqrt( ), exp( ), log( ) tương ương với ln( ) … Chúng ta có thể xem thêm v hàm bằng lệnh help function Ví dụ v toán tử số học: x + y; x/y; (x+y^(x*y))/(x-y)
Toán tử chuỗi kí tự: toán tử + và * có thể áp dụng với chuỗi kí tự Toán tử + liên k t hai chuỗi
kí tự với nhau, toán tử * nhân một chuỗi kí tự lên một số lần nhất nh St t cũng cấp một số hàm xử lý chuỗi kí tự ví dụ như h m string( ), hàm upper( ) Ví dụ v toán tử chuỗi kí tự: “one” + “two”; “baby”*3
Toán tử so sánh: == (so sánh bằng, khác với kí hiệu “=” c nghĩ l g n gi tr của v phải cho
v trái), >, <, >=, <= (lớn hơn nhỏ hơn lớn hơn hoặc bằng, nhỏ hơn hoặc bằng), != (khác) Toán tử so sánh trả v k t quả TRUE tương ương với 1) hoặc FALSE tương ương với 0) Ví dụ: 5>.; 5<.; ==
Trang 2625
Giá tr không x c nh ược cho là giá tr lớn hơn tất cả các giá tr khác
Toán tử logic: & (và), | (hoặc), ! (khác) Toán tử logic nh gi số khác 0 là TRUE và 0 là
FALSE
Tài liệu học Stata
Các tài liệu tự học Stata g m có: K t quả tìm ki m t công cụ tìm ki m; Các tài liệu trợ giúp (help); File hướng dẫn; Vi o hướng dẫn trên Youtube; Stata FAQ (thắc mắc củ người dùng Stata và giải p); Sách v sử dụng Stata (một số s ch ược liệt kê trên trang chủ của Stata) Lưu v cách tìm hiểu St t : St t cho ph p người dùng sử dụng câu lệnh hoặc sử dụng lựa chọn trong m nu ể thực hiện phân tích dữ liệu Mỗi cách ti p c n c ưu iểm v nhược iểm riêng
Cách ti p c n sử dụng câu lệnh: Ưu iểm: Hiểu và sử dụng câu lệnh trực ti p cho phép chúng ta tạo do file, nắm bắt nội ung o fil nh nh hơn; Hiểu câu lệnh giúp chúng ta học công cụ mới trên Stata dễ ng hơn v c c hướng dẫn s ch gi o tr nh u hướng dẫn thực hành thông qua câu lệnh); Không b lệ thuộc vào kiểu giao diện o cũng không phụ thuộc vào một phần
m m xử lý dữ liệu Nhược iểm: Thời gian làm quen với cách sử dụng câu lệnh dài hơn
Cách ti p c n sử dụng lựa chọn trong thanh thực ơn: Ưu iểm: Thời gian làm quen với chương trình ngắn hơn c thể bắt ầu phân tích ngay; Một số giao diện của công cụ ược thi t k giúp người dùng hiểu thêm v các tùy chọn Nhược iểm: Phụ thuộc vào một kiểu giao diện, khó làm quen với các phần m m xử lý dữ liệu kh c; Người dùng không quen sử dụng do file
Do những ưu v nhược iểm trên, chúng ta sẽ tìm hiểu Stata chủ y u thông qua cách ti p c n sử dụng câu lệnh Chúng ta sẽ tham khảo thêm nội dung công cụ trong thanh thực ơn
3 Dữ liệu trong Stata
Dữ liệu trong St t
Các loại dữ liệu trong Stata: St t lưu trữ dữ liệu ở hai dạng chính: số thực và chuỗi kí tự
(numeric và string) Số thực bao g m các dạng sau: Byte: Chi m 1 byte bộ nhớ lưu trữ số
nguyên t -127 n 100; Int: Chi m 2 byte bộ nhớ lưu trữ số nguyên t -32767 n 32740; Long: Chi m 4 byte bộ nhớ lưu trữ số nguyên t -2147483647 n 2147483620; Float: Chi m 4 byte bộ nhớ lưu trữ số thực t -1.7014x10^38 n 1.7014x10^38.; Double: Chi m 8 byte bộ nhớ lưu trữ số thực t -8.9885x10^307 n 8.9885x10^307 T những dữ kiện trên,
Trang 27chúng ta có thể thấy dữ liệu số trong St t ược chia thành nhi u dạng nhằm ti t kiệm bộ nhớ, phù hợp với các yêu cầu khác nhau củ người dùng
Stata có nhi u cách hiển th số khác nhau: dạng khoa học (ví dụ: 1.00e+03), dạng cố nh (ví dụ: 1000.00), dạng ph thông (ví dụ: 1000 St t cho ph p i u chỉnh cách hiển th số, số chữ số tối thiểu và tối s u ấu phẩy, số chữ số tối thiểu phải c trước dấu phẩy Chúng ta có thể i u chỉnh cách hiển th số bằng c ch i u chỉnh nh dạng bi n: Sau khi nh p bộ dữ liệu vào Stata, chọn Data > Variables Manager Trong phần Variable Properties, thuộc tính Format, chọn
“Cr t …” Cửa s ược mở r cho ph p ch ng t i u chỉnh cách hiển th của số
Hình: Mở cửa s Variable Manager và chỉnh sử nh dạng dữ liệu
Chuỗi kí tự trong Stata ược chia thành rất nhi u dạng: các dạng str# t str1 n str244
Dạng str# lưu trữ tối # k tự và chi m # byte trên bộ nhớ
Phiên bản c p nh t ti p theo của Stata (Stata 13) mở rộng khả năng lưu trữ chuỗi kí tự Một phần
tử chuỗi kí tự trong Stata 13 có thể c 0 n 2000,000,000 kí tự (1.8 Gb)
Stata không có dạng dữ liệu ri ng ể lưu trữ bi n ngày tháng, bi n logic, bi n factor (categorical) Chúng ta sẽ thấy y l iểm khác biệt so với khi làm việc với R Bi n chỉ ngày tháng trong Stata là bi n số thực với nh dạng là thời gian Thực nghiệm: Chúng ta vào Data > Variable Manager Trong cửa s variable manager, phần Variable properties, phần Format, chọn
Trang 28Bi n categorical trong Stata là bi n số thực Khi sử dụng bi n categorical trong các mô hình ví
dụ như mô h nh h i quy, chúng ta phải sử dụng kí hiệu “i.” ở ầu tên bi n ể phân biệt bi n categorical với bi n liên tục Ví dụ: i.religion, i.ethnic (vì religion – tôn giáo hay ethnic – dân tộc là các bi n categorical) Nhãn của giá tr l t nh năng trong St t nhằm làm rõ nội dung của bi n categorical Ví dụ: Bi n religion có 3 giá tr 1, 2, 3, giá tr 1 có nhãn là
“Christian”, giá tr 2 có nhãn là “Islam”, giá tr 3 có nhãn là “Other” Chúng ta có thể
th y i nhãn của các giá tr của một bi n bằng Variable Manager > Value label Tuy nhiên việc
Trang 29một bi n có nhãn cho các giá tr không th y i việc Stata mặc nh hiểu bi n này là bi n liên tục mà không phải là bi n categorical
Hình: chỉnh sửa nhãn của giá tr trong bi n bằng Variable Manager > Value Label
Nh p ữ liệu gộp ữ liệu x ữ liệu
Nhập dữ liệu:
Nhập dữ liệu từ file dta: N u file dữ liệu ược lưu ưới dạng file dta, chúng ta có thể mở file
bằng cách chọn File > Open, chọn tên file cần mở ch ng t cũng c thể mở dữ liệu bằng biểu tượng Open trên thanh công cụ hoặc bằng lệnh “use”) Khi mở file mới, dữ liệu cũ trong môi trường làm việc của Stata sẽ mặc nh b x i V v y ch ng t n n lưu th y i dữ liệu cũ trước khi mở dữ liệu mới
Trang 3029
Hình: Mở file dữ liệu sử dụng biểu tượng Open trên thanh công cụ
Nhập dữ liệu trực tiếp vào Stata bằng data editor: Chúng ta có thể nh p dữ liệu vào bảng
trên Stata bằng cách mở data editor (sử dụng lệnh edit, hoặc vào Data > data editor > edit, hoặc
sử dụng biểu tượng của data editor (edit) trên thanh công cụ) Khi cửa s t itor ã mở, chúng ta có thể sửa các ô trên bảng, hoặc i n (paste) dữ liệu ã ược sao chép vào bảng Lưu : Khi ch ng t i n dữ liệu vào bảng trên data editor t òng ầu tiên, chúng ta sẽ ược hỏi:
ch ng t coi òng ầu tiên của bộ dữ liệu ược sao chép là dữ liệu hay là tên bi n
Trang 31Hình: Nh p dữ liệu bằng cách dùng cửa s data editor
Nhập dữ liệu từ Excel file, text file, dữ liệu từ một số nguồn khác: Stata hỗ trợ việc nh p dữ
liệu t ngu n khác file dta Chúng ta vào file, chọn Import, chọn ngu n dữ liệu cần nh p (ví dụ: file excel) Cửa s mới xuất hiện bao g m một số tùy chọn ể nh p dữ liệu vào Stata
Gộp dữ liệu:
Stata cho phép gộp dữ liệu theo các cách: append, merge, joinby, cross
Lệnh append có tác dụng thêm các quan sát t một bảng vào bảng ng ược mở
Lệnh merge có tác dụng thêm các thuộc tính của một bảng vào bảng ng ược mở (chúng ta
có thể sử dụng bi n ch kh ể k t nối quan sát giữa các bảng) N u bi n chìa khóa không phải
là bi n nh n diện trong một bảng thì khi gộp dữ liệu theo lệnh merge, số quan sát sẽ tăng l n (Bi n nh n diện là bi n mà giá tr của nó ở mỗi quan sát trong bảng là duy nhất)
Lệnh joinby: Sử dụng một số bi n ch kh ể chia các quan sát trong các bảng thành các nhóm, r i t các nhóm này sẽ nhân ra số qu n s t tương ứng trong bảng k t quả Ví dụ, bộ dữ liệu ng mở có nhóm 1 g m 2 quan sát, bộ dữ liệu tr n ĩ c nh m 1 g m 3 quan sát bảng
k t quả sẽ có 2x3 = 6 quan sát thuộc nhóm 1
Trang 32Hình: Công cụ gộp dữ liệu trên thanh thực ơn
Xóa dữ liệu:
Có hai cách ti p c n khi xóa dữ liệu: Cách thứ nhất l x c nh ối tượng cần xóa (sử dụng lệnh drop); Cách ti p c n thứ h i l x c nh ối tượng cần giữ (sử dụng lệnh keep ối tượng ở
y c thể hiểu là các quan sát hoặc các bi n
Xóa/giữ quan sát: Chúng ta có thể x c nh các quan sát cần ư v o lệnh bằng lệnh if hoặc in
Ví dụ: drop if x ==5 c nghĩ l x c c qu n s t c gi tr bi n x bằng 5; drop in 10/20 c nghĩ l x c c qu n s t t số thứ tự 10 n 20 Lưu : Lệnh chính ở y l x (drop) hoặc giữ (keep nhưng c c lệnh kh c như list cũng chấp nh n ầu vào là các lệnh if
Trang 33hoặc in Lệnh drop/keep với các quan sát có thể ược nh p vào cửa s Command hoặc truy
c p trên thanh thực ơn: t > cr t or change data > drop or keep observations
Xóa biến: Chúng ta có thể liệt kê các bi n cần xóa/giữ sau tên lệnh Ví dụ: drop x1 x2 x3
Tạo i n th y i i n
Tạo biến: Stata cho phép chúng ta tạo bi n bằng nhi u cách Lệnh thường ược sử dụng ể tạo
bi n là lệnh generate (có thể ược vi t tắt thành gen) và lệnh egen (mở rộng cho lệnh generate) Hai lệnh này và một số lệnh kh c ể tạo bi n có thể ược sử dụng bằng cách nh p lệnh vào cửa s command hoặc truy c p t thanh thực ơn: t > cr t or ch ng ta Ví dụ
v lệnh generate: gen x = 1+y (tạo bi n x với giá tr ở mỗi quan sát là là giá tr y ở quan sát cộng với 1); gen less5 = x < 5 (tạo bi n less5 với giá tr 1 n u x < 5); gen m =
(tạo bi n m với mọi giá tr u chư x c nh) Ví dụ v lệnh egen như s u: egen t =
fill(1/2) (tạo bi n mới tên là t, với giá tr theo thứ tự t trên xuống l 1 2 3… ; egen differ = diff(x1 x2) (tạo bi n mới là differ, với giá tr là 1 n u x1 khác x2, giá tr là 0
n u x1 == x2); egen rank1 = rank(x1) (tạo bi n mới là rank1, với giá tr tương ứng với thứ hạn của giá tr x1 của quan sát)
Thay đổi giá trị của biến: Chúng ta có thể sử dụng t itor ể th y i t ng giá tr nhưng
cách này không hiệu quả trong phần lớn trường hợp Lệnh thường ược ng ể th y i giá tr của bi n là lệnh replace Ví dụ v lệnh replace: replace x = y + 1 (thay th tất cả giá tr
của x bằng k t quả của y +1); replace x = 0 if x == (thay th giá tr không x c nh
bằng giá tr 0) Lệnh recode là một lệnh kh c thường ược ng ể th y i bi n categorical hoặc tạo ra bi n categorical mới Lệnh này thay các nhóm giá tr khác nhau của một bi n bằng một giá tr mới
Ví dụ v recode: recode x (1 = 0) (2= 1) (else = 10) (Vi t lại bi n x, giá tr 1
i thành 0, 2 thành 1, các giá tr khác (else, hoặc chúng ta có thể dùng kí hiệu * i thành 10); recode x (1 2 = 1 low) (3 4 = 2 high), generate(y1) (Vi t bi n y1 t
bi n x, giá tr 1 và 2 củ x i thành 1 của y1 và có nhãn là low, giá tr 3 và 4 củ x i thành 2 của y1 và có nhãn là high); encode x, gen(y) (vi t bi n y t bi n x, mỗi giá tr của y tương ứng với 1 giá tr của x)
Chuyển biến kí tự thành biến thời gian: Giá tr chuỗi kí tự như “30 pr16” “j n1999”
“2000q1” c thể ược chuyển thành giá tr c nh dạng thời gian thông qua lệnh date( ),
Trang 3433
monthly( ), và quarterly( ) Chúng ta k t hợp lệnh generate và các lệnh chuyển giá tr
tr n ể tạo bi n mới t bi n chuỗi kí tự chỉ thời gian Ví dụ: gen time1 = monthly(x,
“my”) sử dụng bi n chuỗi kí tự x, chứa các giá tr như “j n2000” tạo thành bi n mới time1
Bi n tim 1 chư c nh dạng thời gian, nên chúng ta sử dụng lệnh format time1 %tm tương ương với việc vào Variable Manager và chỉnh nh dạng bi n time1) N u bi n x chứa giá tr như “2000j n” th y v “j n2000” trong monthly( ) chúng ta phải ng “ym” ể xác
nh cách vi t trong x
Chuyển biến kí tự thành biến Categorical: Chúng ta có thể sử dụng lệnh r co ể tạo bi n
categorical mới t bi n chuỗi kí tự Cú pháp lệnh với bi n chuỗi kí tự là x: recode x, gen(y) tạo bi n y là bi n số thực, các giá tr củ y ược ặt tên sử dụng giá tr của x
Thay đổi tên và nhãn của biến: Lệnh rename và lệnh l l cho ph p ch ng t th y i tên và
nhãn của bi n (nhãn của bi n là một chuỗi kí tự giúp b sung các thông tin v bi n) Ví dụ v lệnh rename và lệnh label: rename exp experience i tên bi n exp thành bi n experience); label variable experience “year of experience” (tạo nhãn
“y r of xp ri nc ” cho i n experience); label variable experience (xóa nhãn của
bi n experience)
Thay đổi nhãn của giá trị của biến: Lệnh recode cho phép cung cấp nhãn cho giá tr của bi n
(xem phần trên) Lệnh label define k t hợp với label values có thể ược sử dụng ể
th y i nhãn của giá tr của bi n nhưng c ch sử dụng khá phức tạp ể th y i nhãn của giá
tr , chúng ta sử dụng cửa s Variable Manager Phần variable properties, value label cho phép chúng ta chọn một trong những bộ nhãn ã c ể ặt cho bi n Ch ng t cũng c thể tạo một bộ nhãn cho giá tr ở y
Mô tả dữ liệu
Lệnh describe, codebook, inspect, summarize, tabulate là các lệnh ph
bi n ể mô tả dữ liệu Lệnh describe mô tả dữ liệu trong một bộ dữ liệu, bao g m các thông tin: nơi lưu trữ bộ dữ liệu, số bi n, số quan sát, kích cỡ bộ dữ liệu, tên t ng bi n, dạng dữ liệu nh dạng, nhãn của các bi n, nhãn của giá tr của bi n Lệnh describe có thể ược vi t tắt bằng chữ
c i “ ” trong cửa s lệnh
Trang 35Hình: K t quả lệnh describe Lệnh codebook mô tả nội dung của các bi n trong bộ dữ liệu Lệnh trả v khoảng giá tr ơn v ,
dạng dữ liệu, số giá tr riêng biệt và nhi u thông tin kh c ể mô tả nội dung của một số bi n,
chúng ta dùng lệnh codebook và b sung tên bi n cần mô tả Ví dụ: codebook x y
Sorted by: foreign
foreign byte %8.0g origin Car type
gear_ratio float %6.2f Gear Ratio
displacement int %8.0g Displacement (cu in.)
turn int %8.0g Turn Circle (ft.)
length int %8.0g Length (in.)
weight int %8.0gc Weight (lbs.)
trunk int %8.0g Trunk space (cu ft.)
headroom float %6.1f Headroom (in.)
rep78 int %8.0g Repair Record 1978
mpg int %8.0g Mileage (mpg)
price int %8.0gc Price
make str18 %-18s Make and Model
variable name type format label variable label
storage display value
size: 3,182 (_dta has notes)
vars: 12 13 Apr 2013 17:45
obs: 74 1978 Automobile Data
Contains data from G:\Stata\ado\base/a/auto.dta
examples: "Cad Deville"
unique values: 74 missing "": 0/74
type: string (str18), but longest is str17
make Make and Model
codebook make
Trang 3635
Hình: k t quả lệnh codebook với bi n make Lệnh inspect mô tả nội dung của bi n nhằm giúp làm quen với dữ liệu mới K t quả bao g m các thông tin: số giá tr ương m ằng 0, số giá tr là số nguyên và số giá tr không nguyên, số giá tr chư x c nh, số giá tr riêng biệt, và một th histogram nhỏ
Hình: K t quả lệnh inspect với bi n price Lệnh summarize mô tả các số liệu thống kê dựa vào các giá tr của bi n K t quả bao g m các thông tin như gi tr trung bình, giá tr lớn nhất, nhỏ nhất, sai số chuẩn
Lệnh t ul t ược sử dụng ể mô tả bi n categorical Cú pháp tabulate x (hoặc tab x) trả v các giá tr của x, tần suất của mỗi giá tr , tỉ lệ phần trăm của quan sát có giá tr trong
t ng số qu n s t th histogram và boxplot có thể giúp ích trong việc mô tả một bi n Chúng
ta sử dụng lệnh như s u: th histogram: hist x (hist là vi t tắt của lệnh, x là bi n ể dựng
th ; th boxplot: graph box x
tab x y với x và y là hai bi n categorical trả v bảng với giá tr của t ng ô tương ứng với số quan sát có một giá tr x và y nhất nh Các tùy chọn ng ch l nofreq, col và row
Trang 37tab x, summarize(z) với x là bi n categorical trả v bảng với giá tr t ng ô là số liệu thống kê của bi n z khi bi t x bằng một giá tr nhất nh
tab x y, summarize(z) với x và y là bi n categorical trả v bảng với giá tr t ng ô là số liệu thống kê của bi n z khi bi t x và y bằng một giá tr nhất nh
Hình: k t quả lệnh của một lệnh tabulate Lệnh correlate (vi t tắt l corr t nh tương qu n của t ng cặp bi n trong một danh sách bi n Lệnh corr không nên áp dụng với bi n categorical Ví dụ lệnh: corr x y z t
th scatter plot và line plot có thể ược ng ể khám phá mối quan hệ của nhi u bi n ể xây dựng th giữa 2 bi n x y, chúng ta dùng lệnh: scatter y x hoặc lin y x ể xây dựng
th giữa nhi u bi n, chúng ta dùng lệnh với dạng tương tự ví dụ: twoway (scatter y x) (scatter z x) (scatter m x); hoặc: twoway (line y x) (line z x)
Làm việc với th trong St t
Cửa s th của Stata có công cụ cho phép chúng ta sử th ã vẽ lưu th , mở th ã lưu ể chỉnh sử th thông qua cửa s th của Stata, chúng ta có thể click vào biểu tượng start graph editor trên thanh công cụ hoặc sử dụng thanh thực ơn của cửa s th : file > start graph editor Khi ng chỉnh sử th , cửa s chính của Stata sẽ b ng ăng ể ti p tục làm
3 3 3 3 3 15 48507.187 46778.774 50121.581 41255.001 32553.359 50490.544 Total 72286.667 123920 154900 103266.67 67123.333 104299.33
1 1 1 1 1 5
0 0 0 0 0 26682.409 Perot 39035 74352 97587 55764 32219 59791.4
1 1 1 1 1 5
0 0 0 0 0 46939.238 Bush 49878 130116 176586 130116 96658 116670.8
1 1 1 1 1 5
0 0 0 0 0 45264.085 Clinton 127947 167292 190527 123920 72493 136435.8
1992 <$15k $15-30k $30-50k $50-75k $75k+ Total voted for, Family Income
Candidate
Means, Standard Deviations and Frequencies of pop
tab candidat inc, sum( pop)
Trang 3837
chúng ta cần click vào biểu tượng stop graph editor trên thanh công cụ hoặc vào File > stop graph editor (start graph editor và stop graph editor có chung biểu tượng)
Hình: Chỉnh sử th bằng cách nhấn vào biểu tượng Start Graph Editor
Khi th ã chỉnh sử ược, chúng ta có thể thực hiện c c th o t c như chỉnh sửa kích thước
th , chỉnh sử c c ối tượng tr n th , chỉnh sửa các nhãn, màu sắc, kí hiệu củ c c ối tượng
tr n th
ể lưu lại th , chúng ta chọn File > save hoặc File > save as Biểu tượng s v cũng c tr n thanh công cụ th củ St t n n ược lưu ở dạng c uôi gph ể chúng ta có thể ti p tục chỉnh sử Tuy nhi n ch ng t cũng c thể lưu th ưới dạng ảnh uôi fil l jpg png…
ể mở th trong Stata, chúng ta mở cửa s th của Stata, chọn File > open, và chọn th cần mở Cách tiện lợi hơn ể mở th là sử dụng lệnh graph display Hoặc n u hệ i u h nh ã
bi t mở fil uôi gph ằng Stata, chúng ta chỉ cần click p v o fil gph tr n win ow xplor r
Trang 39Ghép đồ thị trên Stata: Chúng ta có thể ghép nhi u th trên Stata bằng cách dùng lệnh graph
combine Ví dụ: ể k t nối 2 th ược lưu trong thư mục làm việc của Stata là g1.gph và g2.gph, chúng ta sử dụng lệnh: graph combine g1.gph g2.gph
Tùy chọn rows(#) hoặc cols(#) gi p x c nh số hàng hoặc số cột tr n th ghép
N u th không nằm trong thư mục làm việc, chúng ta cần x c nh a chỉ củ c c th
4 Mô hình tuy n tính với Stata
Trong bài này, chúng ta sẽ tìm hiểu cách thực hiện phân tích dữ liệu sử dụng mô hình tuy n tính
cơ ản v ước lượng OLS Ch ng t cũng tìm hiểu v cách phân tích dữ liệu trước ước lượng và
s u ước lượng Các công cụ xây dựng th của Stata sẽ ược sử dụng nhằm giúp chúng ta hiểu thêm v dữ liệu
Ph n t ch trước ph n t ch h i quy
Theo quy trình nghiên cứu, s u khi ã x c nh ược chủ nghiên cứu, chúng ta thực hiện thu
th p dữ liệu, phân tích dữ liệu, thực hiện kiểm nh v ư r c c suy lu n xuất chính sách Trình bày nghiên cứu cũng l một khâu quan trọng trong hoạt ông nghi n cứu
Stata cung cấp các công cụ ể phân tích dữ liệu, kiểm nh ư r suy lu n th ược tạo ra bởi Stata có thể ược sử dụng trong báo cáo nghiên cứu
Sau khi thu th p ược dữ liệu trước i v o ph n t ch h i quy, chúng ta cần nắm ược tổng quan
về dữ liệu Một số câu hỏi gợi ý: Số quan sát trong dữ liệu, số bi n trong dữ liệu là bao nhiêu?
Phạm vi quan sát v a lí và thời gian? Các bi n ã ở ng ạng chư ? C i n nào cần chuyển dạng không?
Sau khi tìm hiểu t ng quan dữ liệu chúng ta xem xét nội dung từng biến: Số giá tr không xác
nh là bao nhiêu? Sự phân phối giá tr của các bi n? Số liệu thống kê cho t ng bi n? Chúng ta
cũng cần xem xét nội dung từng biến trong từng nhóm quan sát (nếu dữ liệu được chia
thành các nhóm quan sát): Trong t ng nhóm quan sát, số liệu thống kê cho các bi n quan
trọng là gì? Sự phân phối giá tr của t ng bi n trong t ng nhóm có khác nhau không?
Lưu ý khi phân tích trước phân tích hồi quy: Chúng ta cần lưu lại các lệnh ã sử dụng ể
phân tích, k t quả phân tích, nh n xét sau t ng ước Khi thực hiện th y i dữ liệu, cần lưu lại lệnh ã sử dụng tr nh y rõ l o th y i dữ liệu th y i dữ liệu ph bi n là xóa quan sát do
có giá tr chư x c nh Khi ã th y i dữ liệu, các số liệu thống k trước không còn ch nh xác, vì v y chúng ta cần thực hiện lại một số lệnh như summarize Việc so sánh các số liệu
Trang 40Hình: k t quả ước lượng cho mô hình wage = const + a*wage + e
Đọc bảng kết quả: Bảng k t quả chia ra làm 3 phần: bảng ANOVA (phân tích sai số) ở phía
trên, bên trái của bảng k t quả, bảng t ng quan v mô hình ở phía trên, bên phải, bảng k t quả ước lượng ở ph ưới của bảng k t quả
_cons 7.204669 .1094804 65.81 0.000 6.989953 7.419385 union 1.469625 .2209702 6.65 0.000 1.036252 1.902999 wage Coef Std Err t P>|t| [95% Conf Interval] Total 32613.4424 1877 17.3753023 Root MSE = 4.1212 Adj R-squared = 0.0225 Residual 31862.1856 1876 16.9841074 R-squared = 0.0230 Model 751.256803 1 751.256803 Prob > F = 0.0000 F( 1, 1876) = 44.23 Source SS df MS Number of obs = 1878 reg wage union