1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Bài giảng tin học ứng dụng trong kinh tế

126 32 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 126
Dung lượng 4,29 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

9 Hình: lệnh hist price Chúng ta v a thực hiện một số thao tác phân tích dữ liệu cơ ản, bao g m mở dữ liệu, tìm hiểu thông tin v các bi n trong bộ dữ liệu, tính thống kê t ng bi n, dựng

Trang 1

*****

BÀI GIẢNG TIN HỌC ỨNG DỤNG TRONG KINH TẾ

Biên soạn: Th.S Trần Văn Khiêm

Hà Nội, 2015

Trang 2

1

Nội dung

Phần 1: Thông tin môn học 4

Thông tin cơ bản 4

Mục tiêu, vai trò môn học 4

Người dạy 4

Thời gian và thời lượng học kì vọng 4

Cách kiểm tra 5

Phần 2: Nội dung môn học 5

1 Giới thiệu chung 5

2 Giới thiệu Stata 6

Làm quen với Stata 6

Giới thiệu Stata 9

Giao diện của Stata, do file, log file, dta file 10

Sử dụng công cụ hướng dẫn trong Stata 22

Cấu trúc lệnh trong Stata 22

Tài liệu học Stata 25

3 Dữ liệu trong Stata 25

Dữ liệu trong St t 25

Nh p ữ liệu gộp ữ liệu x ữ liệu 28

Tạo i n th y i i n 32

Mô tả dữ liệu 33

Mô tả tương qu n c c i n 35

Làm việc với th trong St t 36

4 Mô hình tuy n tính với Stata 38

Ph n t ch trước ph n t ch h i quy 38

Ph n t ch h i quy 39

Tính fitted value, phần ư thực hiện ư o n 41

T nh t c ộng ri ng củ i n ộc l p 43

Kiểm nh giả thuy t 44

H i quy với i n c t goric l 44

Mở rộng mô h nh sử ụng i n nh phương i n tương t c 45

Kiểm nh giả thi t của mô hình h i quy tuy n t nh cơ ản 45

Trang 3

Mô h nh GLS 49

Mô h nh tuy n tính với Instrumental variable 50

5 Phân tích chuỗi thời gian với Stata 51

Quản lý dữ liệu thời gian trên Stata 51

Mô hình tuy n tính với dữ liệu thời gian 52

Phân tích breakpoint trên dữ liệu chuỗi thời gian 53

Công cụ phân tích Box-Jenkins 54

Mô hình VAR 56

6 Mô hình cho bi n phụ thuộc không liên tục với Stata 57

Mô h nh x c suất tuy n t nh với bi n phụ thuộc binary 57

Mô h nh Pro it v logit với bi n phụ thuộc hai lựa chọn 58

Dự o k t quả 58

T nh t c ộng t ng phần 58

Kiểm nh 59

Mô hình probit và logit với bi n phụ thuộc dạng khác (ordered và multinomial) 59

7 Giới thiệu R 59

Làm quen với R 59

Kh i niệm v l ch sử R 65

iểm mới củ R so với St t 65

Gi o iện v c c công cụ hỗ trợ R 66

T m ki m trợ gi p tr n R 76

C ch R hoạt ộng v xử l lỗi 76

Thông tin kh c v R 77

8 Ki n thức cơ ản v R 79

C c ạng ữ liệu trong R 79

C c ối tượng lưu trữ dữ liệu cơ ản 80

L p tr nh nh hướng ối tượng trong R 90

Vi t phương tr nh tr n R 91

C u lệnh kiểm so t control st t m nt 93

9 Một số thủ thu t data tidying với R 96

Nh p dữ liệu bảng t file 96

Hoạt ộng data tidying 99

Trang 4

3

Một số thủ thu t làm sạch dữ liệu với R 101

10 Khám phá dữ liệu 105

ôi n t v kh m ph ữ liệu 105

V s o n n ng th khi kh m ph ữ liệu 106

C c hệ thống th trong R 107

Sử ụng th ể kh m ph ữ liệu 112

11 Phân tích h i quy 113

H i quy tuy n t nh 113

Sử ụng k t quả h i quy 114

Thực hiện kiểm nh tr n R 115

Lưu v công thức trong lệnh lm( ) 117

Phân tích chuỗi thời gi n với R 118

12 L p trình phục vụ nghiên cứu kinh t 120

Một số nh hướng khi vi t một chương tr nh m y t nh 120

Vi t chương tr nh ph n t ch mô h nh h i quy 123

Mở rộng chương tr nh 123

Phần 3: Tài liệu tham khảo 124

Phần 4: Một số thu t ngữ hữu ích 124

Trang 5

Phần 1: Thông tin môn học

Thông tin cơ ản

- Mã số môn học: AIBA315

- Số tín chỉ: 3

- Môn học trước: Kinh t lượng I, Tin học ại cương

Mục tiêu, vai trò môn học

- T ng quan môn học: y l môn học cơ ản v ứng dụng tin học trong kinh t ược thi t k cho sinh viên với ki n thức cơ ản v kinh t lượng và sử dụng máy tính So với môn học tin học ại cương môn học này t p trung vào cách sử dụng một số phần m m

ể xử lý, phân tích dữ liệu phục vụ nghiên cứu kinh t

- Mục tiêu học: Thứ nhất, sinh viên nắm ược cách sử dụng phần m m St t v R ể nh p

dữ liệu, xử lý dữ liệu, phân tích dữ liệu, kiểm nh giả thuy t ư ự o n Thứ hai, sinh viên bi t cách tìm hiểu v công cụ phân tích dữ liệu trên máy tính thông qua các lệnh tìm

ki m trợ giúp Thứ ba, sinh viên học ược một số thủ thu t trong l p trình trên R

- Liên k t với các môn học khác: Môn học gi p người học áp dụng các ki n thức lý thuy t kinh t lượng vào phân tích dữ liệu thực t , chuẩn b cho người học những kĩ năng cần thi t ể học sâu thêm v kinh t lượng, thống kê, l p tr nh Kĩ năng c ược trong môn học là cần thi t trong quá trình làm nghiên cứu khoa học và vi t khóa lu n của sinh viên

- Cơ hội ngh nghiệp: Lượng dữ liệu m con người cần xử l ng tăng trưởng ngày càng

nh nh ng thời việc sử dụng dữ liệu trong dự báo, quản l ng ng y c ng ph bi n Vì

v y kĩ năng sử dụng các phần m m xử lý và phân tích dữ liệu kĩ năng l m qu n với một phần m m mới là rất quan trọng Ngày nay, nhi u công việc yêu cầu người làm việc phải bi t sử dụng một trong các phần m m phân tích dữ liệu thông dụng như St t R

Người dạy

- Giảng viên bộ môn Kinh t

Thời gian và thời lượng học kì vọng

- Thời gian diễn ra các bu i học: xem thời khóa biểu

- Thời lượng các bu i học: 45 giờ

- Tự học trước và sau bu i học: 60 giờ

- Chuẩn b cho kiểm tra giữa kỳ: 15 giờ

Trang 6

5

Cách kiểm tra

- iểm nh: iểm danh trong các bu i học

- Kiểm tra giữa kì: Làm bài trên giấy, có sử dụng máy vi tính

- Thi cuối kì: Làm bài trên giấy, có sử dụng máy vi tính

Phần 2: Nội dung môn học

1 Giới thiệu chung

y l môn học cơ ản v ứng dụng tin học trong kinh tế ược thi t k cho sinh viên với ki n

thức cơ ản v kinh t lượng và sử dụng máy tính So với môn học tin học ại cương môn học này t p trung vào cách sử dụng một số phần m m ể xử lý, phân tích dữ liệu phục vụ nghiên cứu kinh t

Thu t ngữ “tin học”: Tin học là một ngành khoa học chuyên nghiên cứu quá trình tự ộng hóa việc t chức lưu trữ và xử lý thông tin của một hệ thống máy tính Với cách hiểu hiện nay, tin học bao hàm tất cả các nghiên cứu và kỹ thu t c li n qu n n việc mô phỏng, bi n i và tái tạo thông tin

Máy tính, hệ thống máy tính bao g m các thi t b ược l p tr nh ể có thể thực hiện các phép toán một cách tự ộng V y các thi t b như m y vi t nh m y t nh ỏ t i iện thoại i ộng, tủ lạnh, một số n i cơm iện, một số quạt iện… u là máy tính Trong môn này, chúng ta ứng dụng các phần m m xử lý và phân tích dữ liệu trong hoạt ộng phân tích dữ liệu kinh t , nghiên cứu kinh t y l một phần nhỏ trong ứng dụng tin học trong kinh t

Vì sao phải sử dụng máy tính: Máy tính thực hiện ược những hoạt ộng lặp i lặp lại một cách chính xác, nhanh chóng và ti t kiệm hơn con người nhi u lần Ví dụ: một máy tính bỏ túi thực hiện một ph p t nh như ^ trong nháy mắt r p số cụ thể n 1/1000000 (hoặc hơn v tốn năng lượng không ng kể Một người thực hiện phép tính này có thể mất vài chục phút, phải sử dụng bảng tra cứu, giấy nháp, và tốn năng lượng hơn m y t nh nhi u lần Trong quá trình nghiên cứu kinh t , lợi th của máy tính sẽ ược thể hiện khi chúng ta phải xử lý dữ liệu với h ng trăm quan sát trở lên Ngày nay, khả năng t nh to n của máy tính là không thể thi u ối với hầu h t các hoạt ộng phân tích và xử lý dữ liệu

Máy tính không thể l m i u gì trong nghiên cứu kinh t : Chúng ta sẽ thấy rằng c c chương

tr nh như St t R không thể tự thu th p dữ liệu, không bi t bi n mục tiêu và bi n ộc l p là bi n

Trang 7

nào, không bi t chọn mô h nh n o ể phân tích dữ liệu Các hoạt ộng n y o người sử dụng chương tr nh thực hiện Tuy nhi n con người ng ph t triển các máy tính chuyên thu th p dữ liệu, vì chúng có thể thực hiện việc n y u ặn, tốn t năng lượng, có thể gửi dữ liệu với nh dạng chuẩn tới nơi xử lý ngay l p tức Các nhà tâm lý học sử dụng m y t nh ể o lường ộ thỏa dụng củ c nh n C c chương tr nh m y tính tự chọn mô hình phân tích dữ liệu khi bi t bi n mục ti u ng trở nên ph bi n Trong hiện tại, việc o c i g i n mục ti u l g … vẫn do con người quy t nh Tuy nhi n trong tương l i c thể m y t nh cũng thực hiện cả những hoạt ộng này

Trong chương tr nh học ại học ch ng t ược làm quen với quy tr nh như s u: người nghiên cứu xuất phát t vấn kinh t xã hội, ư r chủ nghiên cứu, l p k hoạch và thực hiện thu

th p dữ liệu, xử lý và phân tích dữ liệu ư r k t lu n v xuất chính s ch phương n Chương tr nh m y t nh th m gi v o công oạn xử lý và phân tích dữ liệu Nhi u phần m m có thể ược sử dụng, ví dụ như St t R SPSS Evi ws St tgr phics MATLAB SAS… Trong môn học này, chúng ta tìm hiểu Stata và R Tuy nhi n người học cần hiểu y không phải hai chương tr nh xử lý và phân tích dữ liệu duy nhất, vì v y cần học sâu thêm v St t R cũng như tìm hiểu thêm v c c chương tr nh m y t nh kh c

2 Giới thiệu Stata

Làm quen với Stata

C ch ơn giản nhất ể mở chương tr nh St t ở một số m y t nh l click p v o iểu tượng Stata, có hình dạng như s u:

Hình: Biểu tượng cho chương tr nh St t phi n ản 12 C c chương tr nh St t phi n ản khác

có biểu tượng với hình dạng tương tự

ể tắt chương tr nh St t ch ng t c thể click vào biểu tượng dấu X ở góc trên, bên phải của cửa s Stata (xem hình minh họa)

Trang 9

Chúng ta nh p lần lượt t ng lệnh trong các lệnh sau, r i nhấn Enter:

Trang 10

9

Hình: lệnh hist price Chúng ta v a thực hiện một số thao tác phân tích dữ liệu cơ ản, bao g m mở dữ liệu, tìm hiểu thông tin v các bi n trong bộ dữ liệu, tính thống kê t ng bi n, dựng một số th ể hiểu thêm

v phân phối của một số bi n Cụ thể: Lệnh sysuse auto.dta nhằm mở một bộ dữ liệu; Lệnh d nhằm mô tả các bi n; Lệnh sum tính các thống kê cho các bi n trong bộ dữ liệu; Lệnh hist price nhằm dựng th histogram v bi n price; Lệnh hist mpg dựng th histogram v bi n mpg; Lệnh scatter mpg price dựng th mpg theo price

Giới thiệu Stata

Stata là một phần m m phân tích dữ liệu ược vi t và bán bởi St t Corp St t c c c t nh năng cho ph p người dùng quản lý dữ liệu, phân tích dữ liệu, xây dựng th , giả l p, ước lượng mô hình h i quy v cũng hỗ trợ l p trình

St t ược thi t k thân thiện với người dùng là nhà nghiên cứu xã hội: kinh t , khoa học chính

tr , khoa học xã hội, sức khỏe cộng ng… Gi o iện củ St t cho ph p người dùng với ít ki n thức tin học có thể thực hiện các hoạt ộng phân tích dữ liệu cần thi t

Gi ể mua Stata bản 14 (bản mới nhất) trong một năm cho người Việt Nam là t 300 USD n

450 USD Gi ể mua một phiên bản Stata trọn ời l 600 n 900 USD

Trang 11

StataCorp thường cho ra mắt các phiên bản mới 2 năm một lần Phiên bản mới nhất là phiên bản Stata 14, ra mắt vào 07/4/2015 Các phiên bản St t thường c t nh ng nhất v lệnh, tức là lệnh vi t ở phiên bản cũ c thể chạy ược trên phiên bản Stata mới (trong khi có một số lệnh ở phiên bản mới chư c ở phiên bản cũ Ch ng t ng sử dụng phiên bản Stata 12

Trên th giới St t ược sử dụng bởi nhi u t chức giáo dục, t chức chính phủ, t chức quốc

t

Hình: Website Stata.com

Giao diện của Stata, do file, log file, dta file

Giao diện mặc định của Stata có thanh thực ơn th nh công cụ và 5 cửa s thành phần sau:

Cửa s Command: Cửa s ể chúng ta gõ lệnh của mình Lệnh sẽ ược phần m m thực hiện; Cửa s Results: Khi lệnh ược phần m m thực hiện, k t quả và các thông báo sẽ ược hiển th ở cửa s này; Cửa s Review: Bao g m danh sách các lệnh m ch ng t ã thực hiện t khi mở cửa

s làm việc của Stata Chúng ta có thể ch nh ược nh s ch n y x i c c lệnh không cần

thi t); Cửa s Variables: Bao g m tên các bi n trong bộ dữ liệu m ch ng t ng sử dụng; Cửa

s Properties: Thuộc tính của một bi n thuộc bộ dữ liệu

Trang 12

11

Hình: cửa s chính của Stata, bao g m các cửa s con

Thanh thực đơn của Stata bao gồm các lựa chọn sau: File: Bao g m các thao tác liên quan

n file dữ liệu và file log; Edit: Bao g m c c th o t c li n qu n n cửa s Results, tùy chỉnh cửa s r sults v th …; Data: Bao g m c c th o t c li n qu n n xử lý dự liệu, tạo dữ liệu;

Graphics: Bao g m các thao tác dựng th ; Statistics: Bao g m các thao tác phân tích dữ liệu; User: Người dùng có thể tự thi t k nội dung trong lựa chọn này (ch ng t chư cần quan tâm

tới lựa chọn này); Window: Cho ph p người ng i u chỉnh các cửa s thành phần và mở cửa

s tiện ích mới; Help: Các ngu n trợ giúp cho người dùng, thông tin v phần m m St t ng sử

dụng

Hình: Thanh thực ơn của Stata

Trang 13

Lựa chọn file trong thanh thực đơn bao g m: Open: Mở file dữ liệu uôi t ; Save: Lưu

chỉnh sửa dữ liệu làm việc; Save As: Lưu ữ liệu làm việc vào file mới; View…: ọc nội dung file (chúng ta ít dùng lựa chọn này); Do…: Thực thi ngầm các lệnh trong một file do;

Filename…: Lấy a chỉ ầy ủ của một file; Change Working Directory…: Th y i a chỉ thư

mục làm việc của Stata; Log: Bao g m các thao tác nhằm lưu giữ nội dung trong cửa s k t quả;

Import: Nh p dữ liệu t ngu n khác không phải file dta; Export: Xuất dữ liệu ra dạng file khác

.dta; Print: In nội dung trong cửa s Result; Example Datasets…: Thao tác dẫn n các bộ dữ liệu ví dụ; Recent Datasets: Các bộ dữ liệu mở gần y; Exit: Thoát Stata

Hình: lựa chọn File trong thanh thực ơn

Lựa chọn edit trên thanh thực đơn bao g m: Copy: s o ch p oạn kí tự ược lựa chọn trên

cửa s R sults lưu trong ộ nhớ clip o r ưới dạng kí tự); Copy Table: S o ch p oạn ký tự lưu trong ộ nhớ ưới dạng bảng); Copy Table as HTML: S o ch p oạn ký tự lưu trong ộ nhớ ưới dạng bảng, vi t theo kiểu html); Copy as Picture: S o ch o oạn kí tự lưu trong ộ nhớ ưới dạng hình ảnh); Paste: ư c c nội ung lưu trữ trong clipboard vào cửa s command;

Clear Results: xóa nội dung trong cửa s Results; Find: tìm nội dung trong cửa s Results; Find

Trang 14

13

Next: Ti p tục tìm trong cửa s Results; Table Copy Options: tùy chỉnh khi sao chép k t quả t

cửa s Results; Preferences: tùy chỉnh giao diện Stata, giao diện cửa s th , sử dụng v lưu

giao diện mẫu, Chỉnh cách mở file dta, log file, do file

Hình: Lựa chọn edit trên trang thực ơn

Lựa chọn data trên trang thực đơn: Lựa chọn này bao g m nhi u th o t c ng ể xử lý dữ

liệu Một số thao tác chính: Describe data: bao g m các lệnh mô tả bi n, mô tả nội dung dữ liệu;

Data Editor: Mở cửa s data editor Có hai dạng cửa s : cửa s ể xem dữ liệu và cửa s ể

chỉnh sửa dữ liệu; Create or Change data: chứa t p hợp các thao tác có thể sử dụng ể tạo hoặc

th y i dữ liệu; Variable Manager: Mở cửa s variable manager – ng ể chỉnh tên bi n,

nhãn…; Data Utilities: Thao tác cho phép chỉnh sửa tên, nhãn dữ liệu (giá tr , bi n, bộ dữ liệu) Hữu ch cho người xử lý dữ liệu thô; Sort: sắp x p dữ liệu; Combine Datasets: k t hợp nhi u bộ

dữ liệu vào với nhau; Matrices, Mata language và Matrices, ado language: lựa chọn liên quan

n phép toán ma tr n; Other utilities: Các tiện ch kh c như l p dữ liệu thời gian biểu, tính

ph p t nh…

Trang 15

Hình: lựa chọn data trên thanh thực ơn

Lựa chọn Graphic trên thanh thực đơn: Lựa chọn Graphics bao g m các công cụ xây dựng

th Các công cụ chính bao g m: Twoway graph: xây dựng th cơ ản nhất, có hai trục;

Bar chart, Dot Chart, Pie Chart, Histogram, Box plot: Tùy chọn ể xây dựng c c th khác

nhau (phụ thuộc vào tên của lựa chọn); Contour plot: lựa chọn ể xây dựng dạng th Contour (thể hiện 3 bi n); Scatter plot matrix: c c th sc tt r plot ược x p ưới trên trang dạng ma

tr n; Các lựa chọn ể dựng th phục vụ thống k th thể hiện phân phối th phân tích

mô hình h i quy th cho chuỗi thời gi n… ; Table of Graphs: k t hợp nhi u th với nhau;

Trang 16

15

Manage Graphs: quản l th lưu th , sử t n… ; Change scheme/size: th y i kích

thước, hình ảnh một th

Hình: Lựa chọn Graphic trên thanh thực ơn

Lựa chọn Statistic trên thanh thực đơn: Lựa chọn Statistics là nội dung chính của Stata, bao

g m các lựa chọn cho phép chúng ta phân tích dữ liệu sử dụng các lệnh thống kê và các mô hình

h i quy, thực hiện ph n t ch s u ước lượng h i quy; Chúng ta có thể thấy c ch ặt tên các lựa chọn phù hợp với người học v kinh t lượng: lựa chọn chia thành các chủ như mô h nh tuy n

Trang 17

tính, bi n phụ thuộc là bi n m, mô hình với chuỗi thời gian, panel t …; Nội dung cụ thể của lựa chọn này sẽ ược giới thiệu trong các bài học sau

Hình: Lựa chọn Statistics trên thanh thực ơn

Lựa chọn Window trên thanh thực đơn bao g m: Command, Results, Review, Variables, Properties: lần lượt là các lựa chọn ể mở các cửa s thành phần với t n tương ứng Các lệnh

Trang 18

17

th ng hoạt ộng; Viewer: lựa chọn ể quản lý các cửa s vi w r ng hoạt ộng; Data

editor, do-file editor, Variables Manager: mở (hoặc quản lý) các cửa s data editor, do-file

editor, variables manager

Lựa chọn Help trên thanh thực đơn bao g m: PDF Documentation: Mở file PDF chứ hướng

dẫn sử dụng Stata; Advice và Contents: truy c p vào các nội ung hướng dẫn; Search: tìm ki m hướng dẫn bằng t khóa; Stata Command: tìm ki m hướng dẫn v một lệnh trên Stata; News:

C c tin li n qu n n Stata (tin của StataCorp, khóa học v St t … ; Resources: các tài nguyên

li n qu n n Stata; SJ and User-written Programs: thông tin v các công cụ mở rộng Stata do người dùng vi t; What’s New?: Sự i mới của phiên bản Stata bạn ng c ; Check for Updates (không sử dụng): tìm bản c p nh t cho Stata; About Stata: thông tin chung v phần m m Stata

Thanh công cụ trên cửa sổ Stata: Thanh công cụ chứa những lựa chọn cơ ản nhất: mở file dữ

liệu mới; lưu fil ữ liệu, in k t quả ở cửa s Results; mở và quản lý log file; mở cửa s viewer; quản lý các cửa s th ; mở do-file editor; mở cửa s data editor (dạng chỉnh sử ược); mở cửa s data editor (dạng chỉ xem); mở cửa s quản lý bi n Variables manager; Clear –more– Condition: xem toàn bộ nội ung ược tạo ra ở cửa s Results; Break: D ng lệnh ng ược thực hiện

Hình: Thanh công cụ trên Stata

Các file tiện ích cho Stata: Chúng ta tìm hiểu 3 dạng file tiện ích cho stata: Do file, log file, dta

file Chúng lần lượt ược sử dụng ể lưu trữ lệnh lưu trữ k t quả lưu trữ dữ liệu Ngoài 3 dạng fil tr n St t còn lưu th và k t quả ước lượng trong dạng file riêng

Do file: “ o” file là một dạng fil t xt ược sử dụng ể lưu trữ các lệnh Stata Tên file có dạng

x mpl o Fil ược mở bằng Stata do-fil itor như h nh ưới) hoặc phần m m ọc và chỉnh sử fil t xt như Not p File do có thể ược lưu ở mọi nơi t y th ch khi làm việc với

m y t nh nh trường, chúng ta có thể tạo một thư mục ở các ĩ không reset ( :D, thi t b lưu trữ dữ liệu c nh n ể lưu fil o

Trang 19

Cách tạo do file: Cách 1: mở do-file editor (một o fil ược tạo ra trong bộ nhớ tạm thời, cho phép bạn vi t nội ung fil Khi ng o-file editor, bạn sẽ ược lựa chọn liệu c lưu fil không); Cách 2: sử dụng khi bạn muốn lưu một số lệnh St t ã ng: chọn một số lệnh trong phần review, click chuột phải, chọn send to do-file editor

Hình: do file editor Cách mở và sử dụng do file editor: Chúng ta mở do file bằng cách vào Stata, chọn do file editor Tại cửa s Do-file editor, chọn Open (thông qua kí hiệu open ở thanh công cụ hoặc

File>open hoặc nhấn Ctrl + O S u khi fil ược mở, chúng ta có thể thực hiện c c th o t c như

chạy một số lệnh, hoặc chỉnh sử v lưu c p nh t vào o fil ã chọn C ch ơn giản nhất ể

chạy một số lệnh là chọn các lệnh và nhấn Ctrl + D tương ương với “thực hiện các lệnh ã

chọn” N u chúng ta muốn chạy các lệnh mà không hiện k t quả ra cửa s Result, chọn các lệnh

và nhấn Ctrl + R Ngo i r ể chỉnh sửa nội dụng o fil ch ng t cũng c thể ng c c phương

pháp chỉnh sửa file text khác (các bạn có thể sử dụng phần m m text editor, hoặc vi t chương

tr nh m y t nh ể vi t ra do file)

Chúng ta cần phân biệt giữa do file và ado file: Stata có cung cấp một dạng fil t xt kh c ể

Trang 20

Log file là dạng file (có thể l fil c nh dạng, hoặc là file chỉ có kí tự (file text) ) Chúng ta sử

dụng log fil ể lưu trữ k t quả trong cửa s Results của Stata Có hai dạng log file: Dạng uôi log là dạng log fil lưu trữ k t quả ưới dạng chuỗi kí tự không c nh dạng, còn dạng uôi smcl là dạng log fil lưu trữ k t quả ưới dạng c nh dạng (giống như nh dạng k t quả trên cửa s Results)

Trang 21

Hình: Mở file log bằng cách sử dụng thanh thực ơn Tính t thời iểm tạo log file, các k t quả sẽ ược lưu trữ v o fil Ch ng t ng fil ể d ng việc lưu k t quả: Cách 1: Stata > file > log > close; Cách 2: Sử dụng biểu tượng trên toolbar; Cách 3: Dùng lệnh: log close

Trang 22

21

H nh: ng fil log sử dụng thanh thực ơn Chúng ta có thể tạm d ng việc ghi k t quả v o log fil : V o fil > log > susp n ể tạm d ng việc ghi k t quả S u ch ng t c thể v o fil > log > r sum ể ti p tục ghi k t quả vào file log

Chúng ta có thể nối ti p fil log cũ ằng cách sử dụng lệnh với tùy chọn là append: log

using “D:\stata\example.smcl”, append ể mở file log, chúng ta có thể vào

Stata, chọn Fil > Log > Vi w… Khi một cửa s mở ra yêu cầu chúng ta nh p tên file (hình minh họa) Chúng ta có thể sử dụng n t Brows ể tìm file cần x m Fil log cũng c thể ược xem thông qua text editor

Hình: Cửa s yêu cầu nh p tên file log cần xem

Trang 23

.dta file: File dta là dạng fil lưu trữ dữ liệu và các thông tin liên quan của Stata (nhãn của bi n,

nhãn của giá tr trong bi n… uôi fil ạng này là dta

Chúng ta có thể lưu ữ liệu vào file dta bằng cách chọn File>Save hoặc Save As (lệnh Save sẽ lưu th y i dữ liệu v o fil t ng ược mở; lệnh Save As cho phép chúng ta chọn giữa lưu file dta mới hoặc ghi è l n một trong những fil t ã c Ch ng t cũng c thể lưu ữ liệu bằng lệnh

Chúng ta có thể mở file dta bằng cách chọn Fil > Op n s u chọn file cần mở Cách sử dụng biểu tượng open trên thanh công cụ hoặc dùng lệnh cũng c thể ược áp dụng

Sử dụng công cụ hướng dẫn trong Stata

Stata cung cấp tài liệu hỗ trợ người dùng sử dụng các lệnh tr n St t ể tìm trợ giúp v một lệnh (khi bi t tên của lệnh người dùng có thể dùng lệnh: help tên.lệnh (ví dụ: help describe Ch ng t cũng c thể sử dụng lựa chọn trên thanh thực ơn: h lp > Comm n Khi không bi t rõ tên lệnh, chúng ta có thể tìm trợ giúp thông qua lệnh: search t khóa (ví dụ: search categorical variable regression) Lệnh này không chỉ tìm trợ giúp v lệnh mà còn tìm các nội dung liên quan tới t khóa (xem hình minh họa)

Hình: k t quả t lệnh search categorical variable regression

Cấu trúc lệnh trong Stata

Trang 24

23

[Tiền.tố : ] tên.lệnh [danh.sách.biến] [= biểu.thức] [if

biểu.thức.logic] [in khoảng.quan.sát] [weight = tên.biến] [using

“tên.file”] [ , tùy.chọn]

Trong : Các y u tố trong dấu ngoặc vuông […] có thể không có, tùy theo yêu cầu của t ng

lệnh Các kí tự ược in m cần ược giữ nguyên trong lệnh Các y u tố khác, ví dụ như tên.biến, biểu.thức… ược sử i cho t ng lệnh Tiền.tố là các lệnh l m th y i hoạt ộng của lệnh chính Các tiền.tố có thể áp dụng cho nhi u lệnh Các tùy.chọn ược liệt kê sau dấu phẩy th y i hoạt ộng của lệnh chính Các tùy chọn này phụ thuộc vào t ng lệnh

Cách viết tên biến, tên lệnh: Khi ặt tên bi n và khi sử dụng bi n, chúng ta cần chú ý rằng

Stata phân biệt giữa vi t hoa và vi t thường Phần m m sẽ hiểu x và X là hai bi n khác nhau Khi người dùng sử dụng bi n và các y u tố trong các lệnh người ng ược phép vi t tắt sử dụng một số chữ c i ầu tiên của các tên lệnh và tên bi n n u không có lệnh khác hay bi n khác

có thể ược vi t tắt theo cùng cách Ví dụ: lệnh describe có thể ược vi t tắt thành d; lệnh summarize có thể ược vi t tắt thành sum; tên bi n x12345 có thể ược vi t tắt thành x n u không có bi n khác bắt ầu bằng x ể vi t t n ầy ủ của một bi n, chúng ta có thể click p vào tên bi n trong cửa s Variables

H nh: Click p v o i n trong cửa s con V ri l s ể vi t t n ầy ủ của bi n v o cửa s

command

Trang 25

Lệnh có nhiều dòng: Khi vi t lệnh vào do file, chúng ta có thể gặp trường hợp lệnh quá dài

Khi ch ng t c thể cho lệnh thành nhi u òng ể dễ ọc hơn ể Stata không hiểu rằng các dòng của lệnh là các lệnh riêng biệt, chúng ta cần k t thúc mỗi dòng (tr dòng cuối của lệnh) bằng dấu ///

ầu các dòng sau của lệnh cần ược lùi vào một khoảng cách nhất nh ể chúng ta phân biệt

y không phải là lệnh mới Mặc dù chúng ta có thể chọn khoảng cách lùi tùy ý, khoảng cách lùi

v o ầu dòng tốt là 1 lần tab, giúp file do dễ nh n hơn

ọc thêm v vấn này trong Stata User Guide – mục 16: do-file)

Chú giải trong Stata: Dòng chữ trong do file bắt ầu bằng dấu * sẽ không ược stata coi là

lệnh và vì th chương tr nh sẽ bỏ qua Chúng ta có thể sử dụng t nh năng n y ể vi t các chú giải, giúp nội dung file do dễ hiểu hơn cho người ọc khác hoặc cho ch ng t trong tương l i

St t cũng sẽ bỏ qu oạn kí tự trong do file nằm giữa dấu /* và */

Toán tử trong Stata:

Toán tử số học: Stata có các toán tử số học: +, - (cộng và tr ), *, / (nhân và chia), ^ mũ

Ngoặc tròn và ngoặc vuông ( (…) và […] u có thể sử dụng như ngoặc trong phép toán thông thường Ngoặc nhọn ({…} c nghĩ kh c ngoặc nhọn trong phép toán số học nên không thể ược sử dụng khi vi t phép toán Phép tính chứa giá tr không x c nh hoặc không thể tính ra ược k t quả chi cho 0… th k t quả là giá tr không x c nh (ví dụ: 5 + = ) Stata còn có các hàm toán học: sqrt( ), exp( ), log( ) tương ương với ln( ) … Chúng ta có thể xem thêm v hàm bằng lệnh help function Ví dụ v toán tử số học: x + y; x/y; (x+y^(x*y))/(x-y)

Toán tử chuỗi kí tự: toán tử + và * có thể áp dụng với chuỗi kí tự Toán tử + liên k t hai chuỗi

kí tự với nhau, toán tử * nhân một chuỗi kí tự lên một số lần nhất nh St t cũng cấp một số hàm xử lý chuỗi kí tự ví dụ như h m string( ), hàm upper( ) Ví dụ v toán tử chuỗi kí tự: “one” + “two”; “baby”*3

Toán tử so sánh: == (so sánh bằng, khác với kí hiệu “=” c nghĩ l g n gi tr của v phải cho

v trái), >, <, >=, <= (lớn hơn nhỏ hơn lớn hơn hoặc bằng, nhỏ hơn hoặc bằng), != (khác) Toán tử so sánh trả v k t quả TRUE tương ương với 1) hoặc FALSE tương ương với 0) Ví dụ: 5>.; 5<.; ==

Trang 26

25

Giá tr không x c nh ược cho là giá tr lớn hơn tất cả các giá tr khác

Toán tử logic: & (và), | (hoặc), ! (khác) Toán tử logic nh gi số khác 0 là TRUE và 0 là

FALSE

Tài liệu học Stata

Các tài liệu tự học Stata g m có: K t quả tìm ki m t công cụ tìm ki m; Các tài liệu trợ giúp (help); File hướng dẫn; Vi o hướng dẫn trên Youtube; Stata FAQ (thắc mắc củ người dùng Stata và giải p); Sách v sử dụng Stata (một số s ch ược liệt kê trên trang chủ của Stata) Lưu v cách tìm hiểu St t : St t cho ph p người dùng sử dụng câu lệnh hoặc sử dụng lựa chọn trong m nu ể thực hiện phân tích dữ liệu Mỗi cách ti p c n c ưu iểm v nhược iểm riêng

Cách ti p c n sử dụng câu lệnh: Ưu iểm: Hiểu và sử dụng câu lệnh trực ti p cho phép chúng ta tạo do file, nắm bắt nội ung o fil nh nh hơn; Hiểu câu lệnh giúp chúng ta học công cụ mới trên Stata dễ ng hơn v c c hướng dẫn s ch gi o tr nh u hướng dẫn thực hành thông qua câu lệnh); Không b lệ thuộc vào kiểu giao diện o cũng không phụ thuộc vào một phần

m m xử lý dữ liệu Nhược iểm: Thời gian làm quen với cách sử dụng câu lệnh dài hơn

Cách ti p c n sử dụng lựa chọn trong thanh thực ơn: Ưu iểm: Thời gian làm quen với chương trình ngắn hơn c thể bắt ầu phân tích ngay; Một số giao diện của công cụ ược thi t k giúp người dùng hiểu thêm v các tùy chọn Nhược iểm: Phụ thuộc vào một kiểu giao diện, khó làm quen với các phần m m xử lý dữ liệu kh c; Người dùng không quen sử dụng do file

Do những ưu v nhược iểm trên, chúng ta sẽ tìm hiểu Stata chủ y u thông qua cách ti p c n sử dụng câu lệnh Chúng ta sẽ tham khảo thêm nội dung công cụ trong thanh thực ơn

3 Dữ liệu trong Stata

Dữ liệu trong St t

Các loại dữ liệu trong Stata: St t lưu trữ dữ liệu ở hai dạng chính: số thực và chuỗi kí tự

(numeric và string) Số thực bao g m các dạng sau: Byte: Chi m 1 byte bộ nhớ lưu trữ số

nguyên t -127 n 100; Int: Chi m 2 byte bộ nhớ lưu trữ số nguyên t -32767 n 32740; Long: Chi m 4 byte bộ nhớ lưu trữ số nguyên t -2147483647 n 2147483620; Float: Chi m 4 byte bộ nhớ lưu trữ số thực t -1.7014x10^38 n 1.7014x10^38.; Double: Chi m 8 byte bộ nhớ lưu trữ số thực t -8.9885x10^307 n 8.9885x10^307 T những dữ kiện trên,

Trang 27

chúng ta có thể thấy dữ liệu số trong St t ược chia thành nhi u dạng nhằm ti t kiệm bộ nhớ, phù hợp với các yêu cầu khác nhau củ người dùng

Stata có nhi u cách hiển th số khác nhau: dạng khoa học (ví dụ: 1.00e+03), dạng cố nh (ví dụ: 1000.00), dạng ph thông (ví dụ: 1000 St t cho ph p i u chỉnh cách hiển th số, số chữ số tối thiểu và tối s u ấu phẩy, số chữ số tối thiểu phải c trước dấu phẩy Chúng ta có thể i u chỉnh cách hiển th số bằng c ch i u chỉnh nh dạng bi n: Sau khi nh p bộ dữ liệu vào Stata, chọn Data > Variables Manager Trong phần Variable Properties, thuộc tính Format, chọn

“Cr t …” Cửa s ược mở r cho ph p ch ng t i u chỉnh cách hiển th của số

Hình: Mở cửa s Variable Manager và chỉnh sử nh dạng dữ liệu

Chuỗi kí tự trong Stata ược chia thành rất nhi u dạng: các dạng str# t str1 n str244

Dạng str# lưu trữ tối # k tự và chi m # byte trên bộ nhớ

Phiên bản c p nh t ti p theo của Stata (Stata 13) mở rộng khả năng lưu trữ chuỗi kí tự Một phần

tử chuỗi kí tự trong Stata 13 có thể c 0 n 2000,000,000 kí tự (1.8 Gb)

Stata không có dạng dữ liệu ri ng ể lưu trữ bi n ngày tháng, bi n logic, bi n factor (categorical) Chúng ta sẽ thấy y l iểm khác biệt so với khi làm việc với R Bi n chỉ ngày tháng trong Stata là bi n số thực với nh dạng là thời gian Thực nghiệm: Chúng ta vào Data > Variable Manager Trong cửa s variable manager, phần Variable properties, phần Format, chọn

Trang 28

Bi n categorical trong Stata là bi n số thực Khi sử dụng bi n categorical trong các mô hình ví

dụ như mô h nh h i quy, chúng ta phải sử dụng kí hiệu “i.” ở ầu tên bi n ể phân biệt bi n categorical với bi n liên tục Ví dụ: i.religion, i.ethnic (vì religion – tôn giáo hay ethnic – dân tộc là các bi n categorical) Nhãn của giá tr l t nh năng trong St t nhằm làm rõ nội dung của bi n categorical Ví dụ: Bi n religion có 3 giá tr 1, 2, 3, giá tr 1 có nhãn là

“Christian”, giá tr 2 có nhãn là “Islam”, giá tr 3 có nhãn là “Other” Chúng ta có thể

th y i nhãn của các giá tr của một bi n bằng Variable Manager > Value label Tuy nhiên việc

Trang 29

một bi n có nhãn cho các giá tr không th y i việc Stata mặc nh hiểu bi n này là bi n liên tục mà không phải là bi n categorical

Hình: chỉnh sửa nhãn của giá tr trong bi n bằng Variable Manager > Value Label

Nh p ữ liệu gộp ữ liệu x ữ liệu

Nhập dữ liệu:

Nhập dữ liệu từ file dta: N u file dữ liệu ược lưu ưới dạng file dta, chúng ta có thể mở file

bằng cách chọn File > Open, chọn tên file cần mở ch ng t cũng c thể mở dữ liệu bằng biểu tượng Open trên thanh công cụ hoặc bằng lệnh “use”) Khi mở file mới, dữ liệu cũ trong môi trường làm việc của Stata sẽ mặc nh b x i V v y ch ng t n n lưu th y i dữ liệu cũ trước khi mở dữ liệu mới

Trang 30

29

Hình: Mở file dữ liệu sử dụng biểu tượng Open trên thanh công cụ

Nhập dữ liệu trực tiếp vào Stata bằng data editor: Chúng ta có thể nh p dữ liệu vào bảng

trên Stata bằng cách mở data editor (sử dụng lệnh edit, hoặc vào Data > data editor > edit, hoặc

sử dụng biểu tượng của data editor (edit) trên thanh công cụ) Khi cửa s t itor ã mở, chúng ta có thể sửa các ô trên bảng, hoặc i n (paste) dữ liệu ã ược sao chép vào bảng Lưu : Khi ch ng t i n dữ liệu vào bảng trên data editor t òng ầu tiên, chúng ta sẽ ược hỏi:

ch ng t coi òng ầu tiên của bộ dữ liệu ược sao chép là dữ liệu hay là tên bi n

Trang 31

Hình: Nh p dữ liệu bằng cách dùng cửa s data editor

Nhập dữ liệu từ Excel file, text file, dữ liệu từ một số nguồn khác: Stata hỗ trợ việc nh p dữ

liệu t ngu n khác file dta Chúng ta vào file, chọn Import, chọn ngu n dữ liệu cần nh p (ví dụ: file excel) Cửa s mới xuất hiện bao g m một số tùy chọn ể nh p dữ liệu vào Stata

Gộp dữ liệu:

Stata cho phép gộp dữ liệu theo các cách: append, merge, joinby, cross

Lệnh append có tác dụng thêm các quan sát t một bảng vào bảng ng ược mở

Lệnh merge có tác dụng thêm các thuộc tính của một bảng vào bảng ng ược mở (chúng ta

có thể sử dụng bi n ch kh ể k t nối quan sát giữa các bảng) N u bi n chìa khóa không phải

là bi n nh n diện trong một bảng thì khi gộp dữ liệu theo lệnh merge, số quan sát sẽ tăng l n (Bi n nh n diện là bi n mà giá tr của nó ở mỗi quan sát trong bảng là duy nhất)

Lệnh joinby: Sử dụng một số bi n ch kh ể chia các quan sát trong các bảng thành các nhóm, r i t các nhóm này sẽ nhân ra số qu n s t tương ứng trong bảng k t quả Ví dụ, bộ dữ liệu ng mở có nhóm 1 g m 2 quan sát, bộ dữ liệu tr n ĩ c nh m 1 g m 3 quan sát  bảng

k t quả sẽ có 2x3 = 6 quan sát thuộc nhóm 1

Trang 32

Hình: Công cụ gộp dữ liệu trên thanh thực ơn

Xóa dữ liệu:

Có hai cách ti p c n khi xóa dữ liệu: Cách thứ nhất l x c nh ối tượng cần xóa (sử dụng lệnh drop); Cách ti p c n thứ h i l x c nh ối tượng cần giữ (sử dụng lệnh keep ối tượng ở

y c thể hiểu là các quan sát hoặc các bi n

Xóa/giữ quan sát: Chúng ta có thể x c nh các quan sát cần ư v o lệnh bằng lệnh if hoặc in

Ví dụ: drop if x ==5 c nghĩ l x c c qu n s t c gi tr bi n x bằng 5; drop in 10/20 c nghĩ l x c c qu n s t t số thứ tự 10 n 20 Lưu : Lệnh chính ở y l x (drop) hoặc giữ (keep nhưng c c lệnh kh c như list cũng chấp nh n ầu vào là các lệnh if

Trang 33

hoặc in Lệnh drop/keep với các quan sát có thể ược nh p vào cửa s Command hoặc truy

c p trên thanh thực ơn: t > cr t or change data > drop or keep observations

Xóa biến: Chúng ta có thể liệt kê các bi n cần xóa/giữ sau tên lệnh Ví dụ: drop x1 x2 x3

Tạo i n th y i i n

Tạo biến: Stata cho phép chúng ta tạo bi n bằng nhi u cách Lệnh thường ược sử dụng ể tạo

bi n là lệnh generate (có thể ược vi t tắt thành gen) và lệnh egen (mở rộng cho lệnh generate) Hai lệnh này và một số lệnh kh c ể tạo bi n có thể ược sử dụng bằng cách nh p lệnh vào cửa s command hoặc truy c p t thanh thực ơn: t > cr t or ch ng ta Ví dụ

v lệnh generate: gen x = 1+y (tạo bi n x với giá tr ở mỗi quan sát là là giá tr y ở quan sát cộng với 1); gen less5 = x < 5 (tạo bi n less5 với giá tr 1 n u x < 5); gen m =

(tạo bi n m với mọi giá tr u chư x c nh) Ví dụ v lệnh egen như s u: egen t =

fill(1/2) (tạo bi n mới tên là t, với giá tr theo thứ tự t trên xuống l 1 2 3… ; egen differ = diff(x1 x2) (tạo bi n mới là differ, với giá tr là 1 n u x1 khác x2, giá tr là 0

n u x1 == x2); egen rank1 = rank(x1) (tạo bi n mới là rank1, với giá tr tương ứng với thứ hạn của giá tr x1 của quan sát)

Thay đổi giá trị của biến: Chúng ta có thể sử dụng t itor ể th y i t ng giá tr nhưng

cách này không hiệu quả trong phần lớn trường hợp Lệnh thường ược ng ể th y i giá tr của bi n là lệnh replace Ví dụ v lệnh replace: replace x = y + 1 (thay th tất cả giá tr

của x bằng k t quả của y +1); replace x = 0 if x == (thay th giá tr không x c nh

bằng giá tr 0) Lệnh recode là một lệnh kh c thường ược ng ể th y i bi n categorical hoặc tạo ra bi n categorical mới Lệnh này thay các nhóm giá tr khác nhau của một bi n bằng một giá tr mới

Ví dụ v recode: recode x (1 = 0) (2= 1) (else = 10) (Vi t lại bi n x, giá tr 1

i thành 0, 2 thành 1, các giá tr khác (else, hoặc chúng ta có thể dùng kí hiệu * i thành 10); recode x (1 2 = 1 low) (3 4 = 2 high), generate(y1) (Vi t bi n y1 t

bi n x, giá tr 1 và 2 củ x i thành 1 của y1 và có nhãn là low, giá tr 3 và 4 củ x i thành 2 của y1 và có nhãn là high); encode x, gen(y) (vi t bi n y t bi n x, mỗi giá tr của y tương ứng với 1 giá tr của x)

Chuyển biến kí tự thành biến thời gian: Giá tr chuỗi kí tự như “30 pr16” “j n1999”

“2000q1” c thể ược chuyển thành giá tr c nh dạng thời gian thông qua lệnh date( ),

Trang 34

33

monthly( ), và quarterly( ) Chúng ta k t hợp lệnh generate và các lệnh chuyển giá tr

tr n ể tạo bi n mới t bi n chuỗi kí tự chỉ thời gian Ví dụ: gen time1 = monthly(x,

“my”) sử dụng bi n chuỗi kí tự x, chứa các giá tr như “j n2000” tạo thành bi n mới time1

Bi n tim 1 chư c nh dạng thời gian, nên chúng ta sử dụng lệnh format time1 %tm tương ương với việc vào Variable Manager và chỉnh nh dạng bi n time1) N u bi n x chứa giá tr như “2000j n” th y v “j n2000” trong monthly( ) chúng ta phải ng “ym” ể xác

nh cách vi t trong x

Chuyển biến kí tự thành biến Categorical: Chúng ta có thể sử dụng lệnh r co ể tạo bi n

categorical mới t bi n chuỗi kí tự Cú pháp lệnh với bi n chuỗi kí tự là x: recode x, gen(y) tạo bi n y là bi n số thực, các giá tr củ y ược ặt tên sử dụng giá tr của x

Thay đổi tên và nhãn của biến: Lệnh rename và lệnh l l cho ph p ch ng t th y i tên và

nhãn của bi n (nhãn của bi n là một chuỗi kí tự giúp b sung các thông tin v bi n) Ví dụ v lệnh rename và lệnh label: rename exp experience i tên bi n exp thành bi n experience); label variable experience “year of experience” (tạo nhãn

“y r of xp ri nc ” cho i n experience); label variable experience (xóa nhãn của

bi n experience)

Thay đổi nhãn của giá trị của biến: Lệnh recode cho phép cung cấp nhãn cho giá tr của bi n

(xem phần trên) Lệnh label define k t hợp với label values có thể ược sử dụng ể

th y i nhãn của giá tr của bi n nhưng c ch sử dụng khá phức tạp ể th y i nhãn của giá

tr , chúng ta sử dụng cửa s Variable Manager Phần variable properties, value label cho phép chúng ta chọn một trong những bộ nhãn ã c ể ặt cho bi n Ch ng t cũng c thể tạo một bộ nhãn cho giá tr ở y

Mô tả dữ liệu

Lệnh describe, codebook, inspect, summarize, tabulate là các lệnh ph

bi n ể mô tả dữ liệu Lệnh describe mô tả dữ liệu trong một bộ dữ liệu, bao g m các thông tin: nơi lưu trữ bộ dữ liệu, số bi n, số quan sát, kích cỡ bộ dữ liệu, tên t ng bi n, dạng dữ liệu nh dạng, nhãn của các bi n, nhãn của giá tr của bi n Lệnh describe có thể ược vi t tắt bằng chữ

c i “ ” trong cửa s lệnh

Trang 35

Hình: K t quả lệnh describe Lệnh codebook mô tả nội dung của các bi n trong bộ dữ liệu Lệnh trả v khoảng giá tr ơn v ,

dạng dữ liệu, số giá tr riêng biệt và nhi u thông tin kh c ể mô tả nội dung của một số bi n,

chúng ta dùng lệnh codebook và b sung tên bi n cần mô tả Ví dụ: codebook x y

Sorted by: foreign

foreign byte %8.0g origin Car type

gear_ratio float %6.2f Gear Ratio

displacement int %8.0g Displacement (cu in.)

turn int %8.0g Turn Circle (ft.)

length int %8.0g Length (in.)

weight int %8.0gc Weight (lbs.)

trunk int %8.0g Trunk space (cu ft.)

headroom float %6.1f Headroom (in.)

rep78 int %8.0g Repair Record 1978

mpg int %8.0g Mileage (mpg)

price int %8.0gc Price

make str18 %-18s Make and Model

variable name type format label variable label

storage display value

size: 3,182 (_dta has notes)

vars: 12 13 Apr 2013 17:45

obs: 74 1978 Automobile Data

Contains data from G:\Stata\ado\base/a/auto.dta

examples: "Cad Deville"

unique values: 74 missing "": 0/74

type: string (str18), but longest is str17

make Make and Model

codebook make

Trang 36

35

Hình: k t quả lệnh codebook với bi n make Lệnh inspect mô tả nội dung của bi n nhằm giúp làm quen với dữ liệu mới K t quả bao g m các thông tin: số giá tr ương m ằng 0, số giá tr là số nguyên và số giá tr không nguyên, số giá tr chư x c nh, số giá tr riêng biệt, và một th histogram nhỏ

Hình: K t quả lệnh inspect với bi n price Lệnh summarize mô tả các số liệu thống kê dựa vào các giá tr của bi n K t quả bao g m các thông tin như gi tr trung bình, giá tr lớn nhất, nhỏ nhất, sai số chuẩn

Lệnh t ul t ược sử dụng ể mô tả bi n categorical Cú pháp tabulate x (hoặc tab x) trả v các giá tr của x, tần suất của mỗi giá tr , tỉ lệ phần trăm của quan sát có giá tr trong

t ng số qu n s t th histogram và boxplot có thể giúp ích trong việc mô tả một bi n Chúng

ta sử dụng lệnh như s u: th histogram: hist x (hist là vi t tắt của lệnh, x là bi n ể dựng

th ; th boxplot: graph box x

tab x y với x và y là hai bi n categorical trả v bảng với giá tr của t ng ô tương ứng với số quan sát có một giá tr x và y nhất nh Các tùy chọn ng ch l nofreq, col và row

Trang 37

tab x, summarize(z) với x là bi n categorical trả v bảng với giá tr t ng ô là số liệu thống kê của bi n z khi bi t x bằng một giá tr nhất nh

tab x y, summarize(z) với x và y là bi n categorical trả v bảng với giá tr t ng ô là số liệu thống kê của bi n z khi bi t x và y bằng một giá tr nhất nh

Hình: k t quả lệnh của một lệnh tabulate Lệnh correlate (vi t tắt l corr t nh tương qu n của t ng cặp bi n trong một danh sách bi n Lệnh corr không nên áp dụng với bi n categorical Ví dụ lệnh: corr x y z t

th scatter plot và line plot có thể ược ng ể khám phá mối quan hệ của nhi u bi n ể xây dựng th giữa 2 bi n x y, chúng ta dùng lệnh: scatter y x hoặc lin y x ể xây dựng

th giữa nhi u bi n, chúng ta dùng lệnh với dạng tương tự ví dụ: twoway (scatter y x) (scatter z x) (scatter m x); hoặc: twoway (line y x) (line z x)

Làm việc với th trong St t

Cửa s th của Stata có công cụ cho phép chúng ta sử th ã vẽ lưu th , mở th ã lưu ể chỉnh sử th thông qua cửa s th của Stata, chúng ta có thể click vào biểu tượng start graph editor trên thanh công cụ hoặc sử dụng thanh thực ơn của cửa s th : file > start graph editor Khi ng chỉnh sử th , cửa s chính của Stata sẽ b ng ăng ể ti p tục làm

3 3 3 3 3 15 48507.187 46778.774 50121.581 41255.001 32553.359 50490.544 Total 72286.667 123920 154900 103266.67 67123.333 104299.33

1 1 1 1 1 5

0 0 0 0 0 26682.409 Perot 39035 74352 97587 55764 32219 59791.4

1 1 1 1 1 5

0 0 0 0 0 46939.238 Bush 49878 130116 176586 130116 96658 116670.8

1 1 1 1 1 5

0 0 0 0 0 45264.085 Clinton 127947 167292 190527 123920 72493 136435.8

1992 <$15k $15-30k $30-50k $50-75k $75k+ Total voted for, Family Income

Candidate

Means, Standard Deviations and Frequencies of pop

tab candidat inc, sum( pop)

Trang 38

37

chúng ta cần click vào biểu tượng stop graph editor trên thanh công cụ hoặc vào File > stop graph editor (start graph editor và stop graph editor có chung biểu tượng)

Hình: Chỉnh sử th bằng cách nhấn vào biểu tượng Start Graph Editor

Khi th ã chỉnh sử ược, chúng ta có thể thực hiện c c th o t c như chỉnh sửa kích thước

th , chỉnh sử c c ối tượng tr n th , chỉnh sửa các nhãn, màu sắc, kí hiệu củ c c ối tượng

tr n th

ể lưu lại th , chúng ta chọn File > save hoặc File > save as Biểu tượng s v cũng c tr n thanh công cụ th củ St t n n ược lưu ở dạng c uôi gph ể chúng ta có thể ti p tục chỉnh sử Tuy nhi n ch ng t cũng c thể lưu th ưới dạng ảnh uôi fil l jpg png…

ể mở th trong Stata, chúng ta mở cửa s th của Stata, chọn File > open, và chọn th cần mở Cách tiện lợi hơn ể mở th là sử dụng lệnh graph display Hoặc n u hệ i u h nh ã

bi t mở fil uôi gph ằng Stata, chúng ta chỉ cần click p v o fil gph tr n win ow xplor r

Trang 39

Ghép đồ thị trên Stata: Chúng ta có thể ghép nhi u th trên Stata bằng cách dùng lệnh graph

combine Ví dụ: ể k t nối 2 th ược lưu trong thư mục làm việc của Stata là g1.gph và g2.gph, chúng ta sử dụng lệnh: graph combine g1.gph g2.gph

Tùy chọn rows(#) hoặc cols(#) gi p x c nh số hàng hoặc số cột tr n th ghép

N u th không nằm trong thư mục làm việc, chúng ta cần x c nh a chỉ củ c c th

4 Mô hình tuy n tính với Stata

Trong bài này, chúng ta sẽ tìm hiểu cách thực hiện phân tích dữ liệu sử dụng mô hình tuy n tính

cơ ản v ước lượng OLS Ch ng t cũng tìm hiểu v cách phân tích dữ liệu trước ước lượng và

s u ước lượng Các công cụ xây dựng th của Stata sẽ ược sử dụng nhằm giúp chúng ta hiểu thêm v dữ liệu

Ph n t ch trước ph n t ch h i quy

Theo quy trình nghiên cứu, s u khi ã x c nh ược chủ nghiên cứu, chúng ta thực hiện thu

th p dữ liệu, phân tích dữ liệu, thực hiện kiểm nh v ư r c c suy lu n xuất chính sách Trình bày nghiên cứu cũng l một khâu quan trọng trong hoạt ông nghi n cứu

Stata cung cấp các công cụ ể phân tích dữ liệu, kiểm nh ư r suy lu n th ược tạo ra bởi Stata có thể ược sử dụng trong báo cáo nghiên cứu

Sau khi thu th p ược dữ liệu trước i v o ph n t ch h i quy, chúng ta cần nắm ược tổng quan

về dữ liệu Một số câu hỏi gợi ý: Số quan sát trong dữ liệu, số bi n trong dữ liệu là bao nhiêu?

Phạm vi quan sát v a lí và thời gian? Các bi n ã ở ng ạng chư ? C i n nào cần chuyển dạng không?

Sau khi tìm hiểu t ng quan dữ liệu chúng ta xem xét nội dung từng biến: Số giá tr không xác

nh là bao nhiêu? Sự phân phối giá tr của các bi n? Số liệu thống kê cho t ng bi n? Chúng ta

cũng cần xem xét nội dung từng biến trong từng nhóm quan sát (nếu dữ liệu được chia

thành các nhóm quan sát): Trong t ng nhóm quan sát, số liệu thống kê cho các bi n quan

trọng là gì? Sự phân phối giá tr của t ng bi n trong t ng nhóm có khác nhau không?

Lưu ý khi phân tích trước phân tích hồi quy: Chúng ta cần lưu lại các lệnh ã sử dụng ể

phân tích, k t quả phân tích, nh n xét sau t ng ước Khi thực hiện th y i dữ liệu, cần lưu lại lệnh ã sử dụng tr nh y rõ l o th y i dữ liệu th y i dữ liệu ph bi n là xóa quan sát do

có giá tr chư x c nh Khi ã th y i dữ liệu, các số liệu thống k trước không còn ch nh xác, vì v y chúng ta cần thực hiện lại một số lệnh như summarize Việc so sánh các số liệu

Trang 40

Hình: k t quả ước lượng cho mô hình wage = const + a*wage + e

Đọc bảng kết quả: Bảng k t quả chia ra làm 3 phần: bảng ANOVA (phân tích sai số) ở phía

trên, bên trái của bảng k t quả, bảng t ng quan v mô hình ở phía trên, bên phải, bảng k t quả ước lượng ở ph ưới của bảng k t quả

_cons 7.204669 .1094804 65.81 0.000 6.989953 7.419385 union 1.469625 .2209702 6.65 0.000 1.036252 1.902999 wage Coef Std Err t P>|t| [95% Conf Interval] Total 32613.4424 1877 17.3753023 Root MSE = 4.1212 Adj R-squared = 0.0225 Residual 31862.1856 1876 16.9841074 R-squared = 0.0230 Model 751.256803 1 751.256803 Prob > F = 0.0000 F( 1, 1876) = 44.23 Source SS df MS Number of obs = 1878 reg wage union

Ngày đăng: 07/01/2021, 10:40

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm