1. Trang chủ
  2. » Thể loại khác

Thống kê mô tả cho biến định lượng trong Stata

101 74 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 101
Dung lượng 12,62 MB
File đính kèm 111. THONG KE MO TA BIEN DINH LUONG.rar (12 MB)

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Đồ thị này chứng tỏ có nhiều quan sát ởgiữa phân phối và ít số liệu ở phần đuôi.. 01 BIẾN KẾT CỤC ĐỊNH LƯỢNG-01 BIẾN TIÊN ĐOÁN LIÊN TỤCVẽ scatterplot twoway scatter ownhome propval100 V

Trang 1

01 BIẾN ĐỊNH LƯỢNG

Tóm tắt số liệu bằng phân nhóm

gen csiq = iq

recode csiq (80/84=1) (85/89=2) (90/94=3) (95/99=4) (100/max=5)

(csiq: 110 changes made)

label define csiq 1 " 80-84" 2 "85-89" 3 "90-94" 4 "95-99" 5 "100-106" label value csiq csiq

Trang 2

Lệnh sum tóm tắt biến liên tục iq.

Trung bình của iq là 91.7 còn trung vị là 92 Như vậy biến iq hơi bị lệch dương

Skewness = 4.00 chứng tỏ biến wwhr bị lệch dương (> 0)

Kurtosis = 30.4 chứng tỏ phân phối của wwhr bị lệch quá nhiều so với phân phốibình thường Cần nhớ nếu kurtosis > 10 là có vấn đề còn nếu > 20 thì cực kỳ cóvấn đề Điều này cho thấy có một nhóm các quan sát tập trung tại một phần nào đócủa phân phối

Trang 3

Tóm tắt số liệu bằng tổ chức đồ

hist sbp,normal frequency

(bin=34, start=98, width=3.8823529)

Trang 4

Systolic Blood Pressure

Tổ chức đồ giúp tóm tắt phân phối của biến định lượng

Theo nguyên tắc, số cột của tổ chức đồ nên 1 + 3.3 log10(n) trong đó n là cỡ mẫu

Tổ chức đồ cũng cho thấy số liệu sbp bị lệch dương

Trang 5

Option ytick(1(2)12): đánh dấu (tick marks) trên trục y bắt đầu từ 1 cách 2 giá trị

và kết thúc bằng 13

Trang 6

Có thêm option addlabel: thêm giá trị vào từng cột

Trang 7

Hours Spent on the World Wide Web

Đường giữa hộp chính là trung vị Đường dưới là phân vị 25% và đường trên làphân vị 75% Hộp xanh đại diện cho 50% đối tượng nghiên cứu Hộp dài hơnchứng tỏ các giá trị trong nhóm phân tán nhiều hơn Các đường kéo dài bên trái làgiá trị nhỏ nhất, đường kéo dài bên phải là giá trị lớn nhất Các chấm là các giá trịngoại lai

Nếu trung vị lệch về đường tứ phân vị 25% thì số liệu bị lệch dương Tương tự nếuwhisker trên dài hơn whisker dưới thì dữ liệu cũng lệch dương Hoặc nếu có nhiều

số ngoại lai ở khoảng trên thì dữ liệu cũng lệch dương

Hình này cho thấy dữ liệu www bị lệch dương cho cả hai giới nam và nữ

Trang 9

Đồ thị Q-Q có hình chữ S đuôi nặng Đồ thị này chứng tỏ có nhiều quan sát ởgiữa phân phối và ít số liệu ở phần đuôi Đồ thị dạng này nguy hiểm hơn đồ thịchữ S đuôi nhẹ vì nó có thể bao gồm cả số ngoại lai vào đấy.

Đồ thị Q-Q có hình chữ S đuôi nhẹ Đồ thị này chứng tỏ số liệu ít số liệu ở giữa

mà nhiều số liệu ở đuôi

Trang 10

Kiểm tra tính bình thường bằng phép kiểm skewness và kurtosis

swilk lived

Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z

lived | 153 0.87354 14.966 6.140 0.00000

sfrancia lived

Shapiro-Francia W' test for normal data

Variable | Obs W' V' z Prob>z

lived | 153 0.88801 14.385 5.273 0.00001

Nếu biến số định lượng có phân phối không bình thường, phải chuyển đổi phânphối của biến đó thành dạng bình thường bằng một số câu lệnh

Trang 11

01 BIẾN KẾT CỤC ĐỊNH LƯỢNG-01 BIẾN TIÊN ĐOÁN LIÊN TỤC

Vẽ scatterplot

twoway scatter ownhome propval100

Vẽ phân tán đồ của hai biến ownhome (biến y) và biến propval100 (biến x)

Có thể rút ngắn câu lệnh thành scatter bỏ đi graph

Trang 12

twoway scatter ownhome propval100, msymbol(Sh)

Scatterplot và chỉnh symbol của giá trị thành vình vuôn rỗng với optionmsymbol(Sh)

twoway scatter ownhome propval100, mcolor(maroon)

Chỉnh màu cho scatterplot

Trang 13

twoway scatter ownhome propval100, msize(vlarge)

Chỉnh kích thước cho scatterplot

twoway scatter ownhome propval100, mlabel(stateab)

Dán nhãn tên cho các marker thông qua biến statetab

Trang 14

twoway scatter ownhome propval100, mlabel(stateab) mlabsize(vlarge)

Option mlabel() sẽ dán nhãn cho từng giá trị của đồ thị phân tán đồ

Option mlabsize quy định kích thuốc nhãn cho marker Ở đây chúng ta dùng vlargenghĩa là very large

Trang 15

twoway scatter ownhome propval100, mlabel(stateab) mlabposition(12)

Option mlabposition quy định vị trí của nhãn đối với marker Ở đây chúng ta dùng

12 nghĩa là nhãn sẽ ở vị trí 12 giờ đối với marker

Trang 16

twoway scatter ownhome propval100, mlabel(stateab) mlabposition(0) msymbol(i)

Đặt nhãn ở giữa marker Để marker không che đi nhãn đặt option msymbol(i)nghĩa là invisible (vô hình) cho marker

twoway scatter ownhome propval100, xtitle("Percent homes over $100K") ytitle("Percent who own home")

Đặt tên cho trục hoành (xtitle) và trục tung

Trang 17

twoway scatter ownhome propval100, ytitle("Percent who own home", size(huge))

Đặt tên cho trục tung với kích thước lớn

twoway scatter ownhome propval100, xlabel(0(10)100) ylabel(40(5)80)

Quy định trục hoành có khoảng giá trị tối thiểu là 0 và tối đa là 100 với khoảngcách giá trị là 10

Trục tung có giá trị tối thiểu là 40 và tối đa là 80 với khoảng giá trị là 5

Trang 18

twoway scatter ownhome propval100, xlabel(#10) ylabel(#5)

#10 sẽ yêu cầu Stata tạo 10 khoảng giá trị đẹp cho trục hoành và #5 sẽ tạo ra 5khoảng đẹp cho trục tung

twoway scatter ownhome propval100, xlabel(#10) ylabel(#5, nogrid)

Option nogrid sẽ không tạo đường lưới từ các giá trị của trục tung

Trang 19

twoway scatter ownhome propval100, xlabel(#10) ylabel(#5, nogrid) yline(55 75, lwidth(thin) lcolor(black) lpattern(dash))

Tạo đường lưới đen, mỏng và chấm tại giá trị y = 55 và 75

Trang 20

Vẽ scatterplot có thêm đường covariance

twoway (scatter na wtdiff) , ylabel(110(5)160, angle(horiz)) xlabel(-8(1)5)

scheme(s1mono) xline(-.7) yline(140)

Weight change (kg) pre/post race

Vẽ thêm đường trung bình của x (xline) và đường trung bình của y (yline) Tất cảcác quan sát nằm ở góc trên trái và dưới phải có tích hệ số dư âm tính Còn cácquan sát nằm ở góc dưới trái và trên phải có tích hệ số dư dương tính

Trang 21

twoway (scatter na wtdiff) (lfit na wtdiff) , ytitle("Serum sodium concentration, mmol/liter") ylabel(110(5)160, angle(horiz)) xlabel(-8(1)5) legend(label(1 "Data points") label(2 "Linear trend") ring(0) pos(7) col(1) ) text(155 3 "r = -0.4 p<0.001") scheme(s1mono)

Vẽ đồ thị có đường linear trend giữa biến phụ thuộc và biến predictor Đồ thị cũnghiện luôn hệ số tương quan pearson và p value của nó

Trang 22

Vẽ connected-line plot

Trang 23

Vẽ spike plot

Option base(173): chính là thiết lập đáy của spike plot tại vị trí y=173 chính làtrung bình của maxarea (maximum ice cover)

Yline (173) vẽ đường đáy tại vị trí y=173

Các spike ở trên và dưới tượng trưng cho các winter có ice cover trên và dưới trungbình

Trang 24

Lowess smoother

Để có thể xác định chính xác tương quan giữa hai biến y và x có phải là tuyến tínhhay không chúng ta vẽ đồ thị scatterplot smoother Đồ thị này áp dụng kỹ thuậtLOWESS (LOcally WEighted Scatterplot Smoother) Kỹ thuật sẽ vẽ một đườngthường smooth đại diện cho giá trị trung bình của biến trên trục y là hàm số củabiến trên trục x

Bw(0.25): xác định rằng để ước lượng chiều cao của đường cong tại mỗi điểm, sửdụng 25% dữ liệu gần điểm đó nhất Nếu chọn bandwidth (bw) quá thấp thì đườnglowess sẽ ghồ ghề không thẳng, nhưng nếu chọn bandwidth quá cao gần bằng 1 thìđường lowess sẽ gần như là đường thẳng, làm giảm lợi thế của một kỹ thuật làmmềm

Đồ thị cho thấy mối tương quan giữa hai biến này có dạng tuyến tính Phần nhỏ đilên ở bên trái là do một số giá trị ngoại lai có weigh thấp mà sbp lại cao Điều nàycho thấy tính bất ổn định của kỹ thuật LOWESS tại phần rìa của dữ liệu

Trang 26

Vẽ capped spike range plot

Đồ thị khoảng giữa biến y và x

Muốn vẽ đồ thị này phải có giá trị max và min của biến y (minarea và maxarea)

Trang 27

Vẽ line plot

Trang 28

Vẽ dropline plot

Trang 30

Vẽ area plot

Trang 31

Vẽ bar chart

Trang 32

Vẽ dot plot

Trang 34

Vẽ fractional-polynomial prediction plots with Cis

Vẽ bar và line chart kết hợp

Trang 37

Vẽ scatter plot và fractional-polynomial prediction plot kết hợp

Trang 39

Vẽ line plot of function

Trang 41

Vẽ linear prediction plots with Cis

Trang 44

Tính covariance (đồng phương sai)

correlate na wtdiff, cov

đồng phương sai của hai x và y được tính bằng công thức

Option cov sẽ tính đồng phương sai giữa biến na (dependent) và biến wtdiff(predictor)

Cov = -3.2 nghĩa là khi wtdiff tăng thì na giảm Hầu hết các quan sát đều nằm ởnửa trên trái hoặc dưới phải

Tính Pearson correlation coefficient (hệ số tương quan)

hệ số tương quan được tính bằng công thức

Chỉ số tương quan giữa sbp và weight yếu chỉ có 0.25 Hệ số tương quan chỉ chobiết mức độ tương quan mà không cho biết rằng bản chất mối tương quan là gì

Trang 45

pwcorr na wtdiff, sig

Trang 46

01 BIẾN KẾT CỤC ĐỊNH LƯỢNG-01 BIẾN TIÊN ĐOÁN PHÂN LOẠI

Sử dụng bảng

tab meetings, sum(lived)

Attended |

meetings on | Summary of Years lived in town

pollution | Mean Std Dev Freq.

Variable | Obs Mean Std Dev Min Max

wwwhr | 711 7.106892 9.98914 0 112

-> sex = female

Variable | Obs Mean Std Dev Min Max

wwwhr | 863 4.920046 7.688655 0 100

Trang 47

bysort behpat: summarize sbp

-> behpat = A1

Variable | Obs Mean Std Dev Min Max

sbp | 264 129.2462 15.29221 100 200

-> behpat = A2

Variable | Obs Mean Std Dev Min Max

sbp | 1,325 129.8891 15.77085 100 212

-> behpat = B3

Variable | Obs Mean Std Dev Min Max

sbp | 1,216 127.5551 14.78795 98 230

-> behpat = B4

Variable | Obs Mean Std Dev Min Max

sbp | 349 127.1547 13.10125 102 178

Trang 48

table depress, content(mean weight sd weight)format(%2.1f)row col

- Một trong những điểm mạnh của lệnh table là option format () cho phép hiển thị

số thập phân ở bên phải dấu thập phân

 Option row và col sẽ thêm cột tổng hàng và tổng cột cho bảng

tabstat wwwhr, statistics(mean median sd iqr skewness kurtosis cv) by(sex) columns(statistics)

Summary for variables: wwwhr

by categories of: sex (respondents sex)

sex | mean p50 sd iqr skewness kurtosis cv

- iqr: chính là hiệu số từ phân vị 25% đến phân vị 75%

 cv: hệ số sai biệt tương đối (coefficient of relative variation): là số đo lấy SDchia cho trung bình Số đo này dùng để so sánh độ lệch chuẩn cho các biến cóđơn vị đo lường khác nhau, chẳng hạn thu nhập đo bằng dollar và giáo dục đobằng năm Mặc dù SD của nam lớn hơn nữ nhưng khi so sánh cv của hai giớithì ta lại thấy nữ có phương sai so với trung bình lớn hơn so với nam

 Mean của cả hai giới đều lớn hơn trung vị do đó phân phối của hai giới đều lệchdương

 Iqr của nam lớn hơn nữ chứng tỏ 50% nam phân tán nhiều hơn so với 50% nữ.Bởi vì wwwhr (số giờ lướt web) là giống nhau nên chúng ta không dùng cv màdùng iqr để so sánh sự phân tán giữa hai giới

Trang 50

Vẽ tổ chức đồ nồng độ men AST của bệnh nhân theo giới tính nam (0) và nữ (1)

Trang 51

Vẽ tổ chức đồ cho biến college theo region

Option bin(8) thiết lập số cột là 8 cho dữ liệu college

Trang 52

Vẽ tổ chức đồ của college theo region

Option by(region, total) giúp vẽ thêm tổ chức đồ tổng cho college

Trang 53

twoway (histogram ast if gioi==1, start(10) width(5) color(green)) (histogram ast if gioi==0, start(10) width(5) fcolor(none) lcolor(black)), legend(order(1 "Nu" 0

Vẽ tổ chức đồ nồng độ men AST theo giới tính trên cùng một đồ thị

 Option start (10): bắt đầu đồ thị bằng giá trị 10

 Option width (5): độ rộng cột bằng giá trị 5

 Option Color (green): màu của tổ chức đồ của giới tính nữ được quy định màuxanh (có thể thay đổi màu của đồ thị bằng màu khác)

 Option fcolor(none): màu cột của tổ chức đồ của giới tính nam là không có(none)

 Option lcolor(black)): màu viền của cột của tổ chức đồ giới tính nam là màuđen (lcolor =line color)

 Option legend(order(1 "Nu" 0 "Nam"): phần chú thích đồ thị ghi Nữ cho mã 1

và Nam cho mã 0

Trang 54

Hours Spent on the World Wide Web

Vẽ boxplot nằm ngang với câu lệnh graph hbox

Lưu ý nếu dùng by() thay vì over() sẽ vẽ hai box plot hai đồ thị kế nhau chứ không phải trên cùng một hình

Trang 55

Sử dụng dot plot

Trang 56

Vẽ percentile 10% và 90% của wage theo biến occ

Trang 57

Option over(region, sort(1)): sẽ sắp xếp trình bày theo region nhưng có thứ tự median các nhóm từ thấp đến cao.

Intensity (30): quy định độ đậm nhạt của hộp box plot

Trang 58

Option yline(19.1) vẽ đường trung vị 50 percentile của college

Trung vị tỷ lệ tốt nghiệp college của vùng N.East là cao nhất Vùng South có trung

vị tỷ lệ tốt nghiệp thấp nhất, nhưng tỷ lệ tốt nghiệp lại dao động nhiều nhất

Trang 59

Vẽ box plot của wage theo ind Các giá trị của ind sẽ được xếp theo trung vị từ thấp đến cao.

Trang 60

Vẽ pie chart

Trang 61

Vẽ bar chart cho trung bình giữa các nhóm

graph bar (mean) mpg, over(foreign)

Trang 62

sort foreign

gen mlength = length

gen slength = length

collapse (mean) mlength (sd) slength, by(foreign)

gen hlength = mlength + slength

twoway (bar mlength foreign ) (rcap hlength mlength foreign ), xlabel(none)

by( foreign , noxrescale) by(,legend(off))

Vẽ bar chart trung bình với 1 độ lệch chuẩn cho hai nhóm domestic và foreign.Lệnh collapse sẽ dùng để tóm tắt dữ liệu bằng các số thống kê chẳng hạn trung bình, tổng, trung vị và phân vị Các số thống kê này có thể được tính chung hoặc cho từng phân loại của biến định tính đã được xếp thứ tự trước đó

Biến hprice chính là tổng mean và 1 độ lệch chuẩn cho từng phân nhóm

Lệnh twoway dùng để kết hợp hai loại đồ thị lại với nhau Trong lệnh này chúng tadùng bar chart cho trung bình và dùng rcap (capped spikes-đồ thị đỉnh chóp) cho

độ lệch chuẩn

Trang 63

01 BIẾN ĐỊNH LƯỢNG-02 BIẾN PHÂN LOẠI

Sử dụng bar chart

Trang 64

Trong trường hợp biến phân loại có nhiều giá trị thì dùng thêm option sort(1) để xếp từ thấp đến cao cho biến phân loại đó.

Trang 65

Câu lệnh dùng by() để nhấn mạnh đến việc biến union có các giá trị khác nhau ở hai phân nhóm union và nonunion.

Trang 66

Sử dụng box plot

Vẽ đồ thị bp theo thời điểm đánh giá ở hai nhóm giới tính là male và female

Trang 68

Sử dụng dot plot

Trang 69

Vẽ tháp dân số

Trang 72

01 BIẾN ĐỊNH LƯỢNG- 03 BIẾN PHÂN LOẠI

Sử sụng bar chart

Trang 73

01 BIẾN KẾT CỤC LIÊN TỤC-01 BIẾN TIÊN ĐOÁN LIÊN TỤC VÀ 01

BIẾN TIÊN ĐOÁN PHÂN LOẠI

Sử dụng scatterplot

twoway scatter bweight gestwks ,by(sexalph)

Vẽ phân tán đồ của biến bweight gestwks theo giới tính của biến sexalph

twoway scatter ownhome propval100, by(nsw, total)

Vẽ thêm biểu đồ tổng cho các khu vực

Trang 74

twoway scatter ownhome propval100, by(nsw, total compact)

Option compact giúp vẽ đồ thị rõ ràng hơn

Trang 75

Xlabel(,format(%3.0f)): sẽ định dạng cố định nhãn cho trục hoành gồm 3 chữ số

mà không có số thập phân, Điều này giúp dễ đọc kết quả hơn khi đồ thị phân nhỏ

Trang 76

THỐNG KÊ MÔ TẢ 01 BIẾN PHỤ THUỘC LÀ BIẾN ĐỊNH LƯỢNG – 02

BIẾN ĐỘC LẬP ĐỊNH TÍNH

tabulate meetings kids, sum(lived) mean

Means of Years lived in town

Trang 77

-01 BIẾN KẾT CỤC LIÊN TỤC-NHIỀU BIẾN TIÊN ĐOÁN LIÊN TỤC

Vẽ scatterplot

twoway scatter ownhome propval100 [aweight=rent700], msize(small)

[aweight=var3] giúp vẽ scatterplot cho 3 biến định lượng

option msize(small) sẽ thu nhỏ kích thước các marker nhỏ nhất từ đó hiển thị được

sự khác biệt về giá trị của biến rent700

Trang 78

Vẽ waste và metro theo frequency weight của biến pop.

Trang 79

Vẽ ma trận scatterplot của nhiều biến liên tụcOption half yêu cầu stata chỉ vẽ nửa bên đồ thị

Trang 80

Vẽ line plot

Vẽ line plot cho biến cod và biến canada theo thời gian (year).

Stata quy định đường đậm là dành cho biến y đầu tiên (cod) và đường gạch chấm là dành cho biến y thứ hai (canada).

Trang 81

Đưa legend vào đồ thị bằng option legend().

Ngày đăng: 02/09/2021, 19:25

HÌNH ẢNH LIÊN QUAN

Hình này cho thấy dữ liệu www bị lệch dương cho cả hai giới nam và nữ. - Thống kê mô tả cho biến định lượng trong Stata
Hình n ày cho thấy dữ liệu www bị lệch dương cho cả hai giới nam và nữ (Trang 7)
Vì hình dạng chữ U của sbp ngửa lên nên sbp bị lệch dương (nếu ngửa xuống là lệch âm). - Thống kê mô tả cho biến định lượng trong Stata
h ình dạng chữ U của sbp ngửa lên nên sbp bị lệch dương (nếu ngửa xuống là lệch âm) (Trang 8)
Đồ thị Q-Q có hình chữ S đuôi nhẹ. Đồ thị này chứng tỏ số liệu ít số liệu ở giữa mà nhiều số liệu ở đuôi - Thống kê mô tả cho biến định lượng trong Stata
th ị Q-Q có hình chữ S đuôi nhẹ. Đồ thị này chứng tỏ số liệu ít số liệu ở giữa mà nhiều số liệu ở đuôi (Trang 9)
Đồ thị Q-Q có hình chữ S đuôi nặng. Đồ thị này chứng tỏ có nhiều quan sát ở giữa phân phối và ít số liệu ở phần đuôi - Thống kê mô tả cho biến định lượng trong Stata
th ị Q-Q có hình chữ S đuôi nặng. Đồ thị này chứng tỏ có nhiều quan sát ở giữa phân phối và ít số liệu ở phần đuôi (Trang 9)

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w