Đồ thị này chứng tỏ có nhiều quan sát ởgiữa phân phối và ít số liệu ở phần đuôi.. 01 BIẾN KẾT CỤC ĐỊNH LƯỢNG-01 BIẾN TIÊN ĐOÁN LIÊN TỤCVẽ scatterplot twoway scatter ownhome propval100 V
Trang 101 BIẾN ĐỊNH LƯỢNG
Tóm tắt số liệu bằng phân nhóm
gen csiq = iq
recode csiq (80/84=1) (85/89=2) (90/94=3) (95/99=4) (100/max=5)
(csiq: 110 changes made)
label define csiq 1 " 80-84" 2 "85-89" 3 "90-94" 4 "95-99" 5 "100-106" label value csiq csiq
Trang 2Lệnh sum tóm tắt biến liên tục iq.
Trung bình của iq là 91.7 còn trung vị là 92 Như vậy biến iq hơi bị lệch dương
Skewness = 4.00 chứng tỏ biến wwhr bị lệch dương (> 0)
Kurtosis = 30.4 chứng tỏ phân phối của wwhr bị lệch quá nhiều so với phân phốibình thường Cần nhớ nếu kurtosis > 10 là có vấn đề còn nếu > 20 thì cực kỳ cóvấn đề Điều này cho thấy có một nhóm các quan sát tập trung tại một phần nào đócủa phân phối
Trang 3Tóm tắt số liệu bằng tổ chức đồ
hist sbp,normal frequency
(bin=34, start=98, width=3.8823529)
Trang 4Systolic Blood Pressure
Tổ chức đồ giúp tóm tắt phân phối của biến định lượng
Theo nguyên tắc, số cột của tổ chức đồ nên 1 + 3.3 log10(n) trong đó n là cỡ mẫu
Tổ chức đồ cũng cho thấy số liệu sbp bị lệch dương
Trang 5Option ytick(1(2)12): đánh dấu (tick marks) trên trục y bắt đầu từ 1 cách 2 giá trị
và kết thúc bằng 13
Trang 6Có thêm option addlabel: thêm giá trị vào từng cột
Trang 7Hours Spent on the World Wide Web
Đường giữa hộp chính là trung vị Đường dưới là phân vị 25% và đường trên làphân vị 75% Hộp xanh đại diện cho 50% đối tượng nghiên cứu Hộp dài hơnchứng tỏ các giá trị trong nhóm phân tán nhiều hơn Các đường kéo dài bên trái làgiá trị nhỏ nhất, đường kéo dài bên phải là giá trị lớn nhất Các chấm là các giá trịngoại lai
Nếu trung vị lệch về đường tứ phân vị 25% thì số liệu bị lệch dương Tương tự nếuwhisker trên dài hơn whisker dưới thì dữ liệu cũng lệch dương Hoặc nếu có nhiều
số ngoại lai ở khoảng trên thì dữ liệu cũng lệch dương
Hình này cho thấy dữ liệu www bị lệch dương cho cả hai giới nam và nữ
Trang 9Đồ thị Q-Q có hình chữ S đuôi nặng Đồ thị này chứng tỏ có nhiều quan sát ởgiữa phân phối và ít số liệu ở phần đuôi Đồ thị dạng này nguy hiểm hơn đồ thịchữ S đuôi nhẹ vì nó có thể bao gồm cả số ngoại lai vào đấy.
Đồ thị Q-Q có hình chữ S đuôi nhẹ Đồ thị này chứng tỏ số liệu ít số liệu ở giữa
mà nhiều số liệu ở đuôi
Trang 10Kiểm tra tính bình thường bằng phép kiểm skewness và kurtosis
swilk lived
Shapiro-Wilk W test for normal data
Variable | Obs W V z Prob>z
lived | 153 0.87354 14.966 6.140 0.00000
sfrancia lived
Shapiro-Francia W' test for normal data
Variable | Obs W' V' z Prob>z
lived | 153 0.88801 14.385 5.273 0.00001
Nếu biến số định lượng có phân phối không bình thường, phải chuyển đổi phânphối của biến đó thành dạng bình thường bằng một số câu lệnh
Trang 1101 BIẾN KẾT CỤC ĐỊNH LƯỢNG-01 BIẾN TIÊN ĐOÁN LIÊN TỤC
Vẽ scatterplot
twoway scatter ownhome propval100
Vẽ phân tán đồ của hai biến ownhome (biến y) và biến propval100 (biến x)
Có thể rút ngắn câu lệnh thành scatter bỏ đi graph
Trang 12twoway scatter ownhome propval100, msymbol(Sh)
Scatterplot và chỉnh symbol của giá trị thành vình vuôn rỗng với optionmsymbol(Sh)
twoway scatter ownhome propval100, mcolor(maroon)
Chỉnh màu cho scatterplot
Trang 13twoway scatter ownhome propval100, msize(vlarge)
Chỉnh kích thước cho scatterplot
twoway scatter ownhome propval100, mlabel(stateab)
Dán nhãn tên cho các marker thông qua biến statetab
Trang 14twoway scatter ownhome propval100, mlabel(stateab) mlabsize(vlarge)
Option mlabel() sẽ dán nhãn cho từng giá trị của đồ thị phân tán đồ
Option mlabsize quy định kích thuốc nhãn cho marker Ở đây chúng ta dùng vlargenghĩa là very large
Trang 15twoway scatter ownhome propval100, mlabel(stateab) mlabposition(12)
Option mlabposition quy định vị trí của nhãn đối với marker Ở đây chúng ta dùng
12 nghĩa là nhãn sẽ ở vị trí 12 giờ đối với marker
Trang 16twoway scatter ownhome propval100, mlabel(stateab) mlabposition(0) msymbol(i)
Đặt nhãn ở giữa marker Để marker không che đi nhãn đặt option msymbol(i)nghĩa là invisible (vô hình) cho marker
twoway scatter ownhome propval100, xtitle("Percent homes over $100K") ytitle("Percent who own home")
Đặt tên cho trục hoành (xtitle) và trục tung
Trang 17twoway scatter ownhome propval100, ytitle("Percent who own home", size(huge))
Đặt tên cho trục tung với kích thước lớn
twoway scatter ownhome propval100, xlabel(0(10)100) ylabel(40(5)80)
Quy định trục hoành có khoảng giá trị tối thiểu là 0 và tối đa là 100 với khoảngcách giá trị là 10
Trục tung có giá trị tối thiểu là 40 và tối đa là 80 với khoảng giá trị là 5
Trang 18twoway scatter ownhome propval100, xlabel(#10) ylabel(#5)
#10 sẽ yêu cầu Stata tạo 10 khoảng giá trị đẹp cho trục hoành và #5 sẽ tạo ra 5khoảng đẹp cho trục tung
twoway scatter ownhome propval100, xlabel(#10) ylabel(#5, nogrid)
Option nogrid sẽ không tạo đường lưới từ các giá trị của trục tung
Trang 19twoway scatter ownhome propval100, xlabel(#10) ylabel(#5, nogrid) yline(55 75, lwidth(thin) lcolor(black) lpattern(dash))
Tạo đường lưới đen, mỏng và chấm tại giá trị y = 55 và 75
Trang 20Vẽ scatterplot có thêm đường covariance
twoway (scatter na wtdiff) , ylabel(110(5)160, angle(horiz)) xlabel(-8(1)5)
scheme(s1mono) xline(-.7) yline(140)
Weight change (kg) pre/post race
Vẽ thêm đường trung bình của x (xline) và đường trung bình của y (yline) Tất cảcác quan sát nằm ở góc trên trái và dưới phải có tích hệ số dư âm tính Còn cácquan sát nằm ở góc dưới trái và trên phải có tích hệ số dư dương tính
Trang 21twoway (scatter na wtdiff) (lfit na wtdiff) , ytitle("Serum sodium concentration, mmol/liter") ylabel(110(5)160, angle(horiz)) xlabel(-8(1)5) legend(label(1 "Data points") label(2 "Linear trend") ring(0) pos(7) col(1) ) text(155 3 "r = -0.4 p<0.001") scheme(s1mono)
Vẽ đồ thị có đường linear trend giữa biến phụ thuộc và biến predictor Đồ thị cũnghiện luôn hệ số tương quan pearson và p value của nó
Trang 22Vẽ connected-line plot
Trang 23Vẽ spike plot
Option base(173): chính là thiết lập đáy của spike plot tại vị trí y=173 chính làtrung bình của maxarea (maximum ice cover)
Yline (173) vẽ đường đáy tại vị trí y=173
Các spike ở trên và dưới tượng trưng cho các winter có ice cover trên và dưới trungbình
Trang 24Lowess smoother
Để có thể xác định chính xác tương quan giữa hai biến y và x có phải là tuyến tínhhay không chúng ta vẽ đồ thị scatterplot smoother Đồ thị này áp dụng kỹ thuậtLOWESS (LOcally WEighted Scatterplot Smoother) Kỹ thuật sẽ vẽ một đườngthường smooth đại diện cho giá trị trung bình của biến trên trục y là hàm số củabiến trên trục x
Bw(0.25): xác định rằng để ước lượng chiều cao của đường cong tại mỗi điểm, sửdụng 25% dữ liệu gần điểm đó nhất Nếu chọn bandwidth (bw) quá thấp thì đườnglowess sẽ ghồ ghề không thẳng, nhưng nếu chọn bandwidth quá cao gần bằng 1 thìđường lowess sẽ gần như là đường thẳng, làm giảm lợi thế của một kỹ thuật làmmềm
Đồ thị cho thấy mối tương quan giữa hai biến này có dạng tuyến tính Phần nhỏ đilên ở bên trái là do một số giá trị ngoại lai có weigh thấp mà sbp lại cao Điều nàycho thấy tính bất ổn định của kỹ thuật LOWESS tại phần rìa của dữ liệu
Trang 26Vẽ capped spike range plot
Đồ thị khoảng giữa biến y và x
Muốn vẽ đồ thị này phải có giá trị max và min của biến y (minarea và maxarea)
Trang 27Vẽ line plot
Trang 28Vẽ dropline plot
Trang 30Vẽ area plot
Trang 31Vẽ bar chart
Trang 32Vẽ dot plot
Trang 34Vẽ fractional-polynomial prediction plots with Cis
Vẽ bar và line chart kết hợp
Trang 37Vẽ scatter plot và fractional-polynomial prediction plot kết hợp
Trang 39Vẽ line plot of function
Trang 41Vẽ linear prediction plots with Cis
Trang 44Tính covariance (đồng phương sai)
correlate na wtdiff, cov
đồng phương sai của hai x và y được tính bằng công thức
Option cov sẽ tính đồng phương sai giữa biến na (dependent) và biến wtdiff(predictor)
Cov = -3.2 nghĩa là khi wtdiff tăng thì na giảm Hầu hết các quan sát đều nằm ởnửa trên trái hoặc dưới phải
Tính Pearson correlation coefficient (hệ số tương quan)
hệ số tương quan được tính bằng công thức
Chỉ số tương quan giữa sbp và weight yếu chỉ có 0.25 Hệ số tương quan chỉ chobiết mức độ tương quan mà không cho biết rằng bản chất mối tương quan là gì
Trang 45pwcorr na wtdiff, sig
Trang 4601 BIẾN KẾT CỤC ĐỊNH LƯỢNG-01 BIẾN TIÊN ĐOÁN PHÂN LOẠI
Sử dụng bảng
tab meetings, sum(lived)
Attended |
meetings on | Summary of Years lived in town
pollution | Mean Std Dev Freq.
Variable | Obs Mean Std Dev Min Max
wwwhr | 711 7.106892 9.98914 0 112
-> sex = female
Variable | Obs Mean Std Dev Min Max
wwwhr | 863 4.920046 7.688655 0 100
Trang 47bysort behpat: summarize sbp
-> behpat = A1
Variable | Obs Mean Std Dev Min Max
sbp | 264 129.2462 15.29221 100 200
-> behpat = A2
Variable | Obs Mean Std Dev Min Max
sbp | 1,325 129.8891 15.77085 100 212
-> behpat = B3
Variable | Obs Mean Std Dev Min Max
sbp | 1,216 127.5551 14.78795 98 230
-> behpat = B4
Variable | Obs Mean Std Dev Min Max
sbp | 349 127.1547 13.10125 102 178
Trang 48table depress, content(mean weight sd weight)format(%2.1f)row col
- Một trong những điểm mạnh của lệnh table là option format () cho phép hiển thị
số thập phân ở bên phải dấu thập phân
Option row và col sẽ thêm cột tổng hàng và tổng cột cho bảng
tabstat wwwhr, statistics(mean median sd iqr skewness kurtosis cv) by(sex) columns(statistics)
Summary for variables: wwwhr
by categories of: sex (respondents sex)
sex | mean p50 sd iqr skewness kurtosis cv
- iqr: chính là hiệu số từ phân vị 25% đến phân vị 75%
cv: hệ số sai biệt tương đối (coefficient of relative variation): là số đo lấy SDchia cho trung bình Số đo này dùng để so sánh độ lệch chuẩn cho các biến cóđơn vị đo lường khác nhau, chẳng hạn thu nhập đo bằng dollar và giáo dục đobằng năm Mặc dù SD của nam lớn hơn nữ nhưng khi so sánh cv của hai giớithì ta lại thấy nữ có phương sai so với trung bình lớn hơn so với nam
Mean của cả hai giới đều lớn hơn trung vị do đó phân phối của hai giới đều lệchdương
Iqr của nam lớn hơn nữ chứng tỏ 50% nam phân tán nhiều hơn so với 50% nữ.Bởi vì wwwhr (số giờ lướt web) là giống nhau nên chúng ta không dùng cv màdùng iqr để so sánh sự phân tán giữa hai giới
Trang 50Vẽ tổ chức đồ nồng độ men AST của bệnh nhân theo giới tính nam (0) và nữ (1)
Trang 51Vẽ tổ chức đồ cho biến college theo region
Option bin(8) thiết lập số cột là 8 cho dữ liệu college
Trang 52Vẽ tổ chức đồ của college theo region
Option by(region, total) giúp vẽ thêm tổ chức đồ tổng cho college
Trang 53twoway (histogram ast if gioi==1, start(10) width(5) color(green)) (histogram ast if gioi==0, start(10) width(5) fcolor(none) lcolor(black)), legend(order(1 "Nu" 0
Vẽ tổ chức đồ nồng độ men AST theo giới tính trên cùng một đồ thị
Option start (10): bắt đầu đồ thị bằng giá trị 10
Option width (5): độ rộng cột bằng giá trị 5
Option Color (green): màu của tổ chức đồ của giới tính nữ được quy định màuxanh (có thể thay đổi màu của đồ thị bằng màu khác)
Option fcolor(none): màu cột của tổ chức đồ của giới tính nam là không có(none)
Option lcolor(black)): màu viền của cột của tổ chức đồ giới tính nam là màuđen (lcolor =line color)
Option legend(order(1 "Nu" 0 "Nam"): phần chú thích đồ thị ghi Nữ cho mã 1
và Nam cho mã 0
Trang 54Hours Spent on the World Wide Web
Vẽ boxplot nằm ngang với câu lệnh graph hbox
Lưu ý nếu dùng by() thay vì over() sẽ vẽ hai box plot hai đồ thị kế nhau chứ không phải trên cùng một hình
Trang 55Sử dụng dot plot
Trang 56Vẽ percentile 10% và 90% của wage theo biến occ
Trang 57Option over(region, sort(1)): sẽ sắp xếp trình bày theo region nhưng có thứ tự median các nhóm từ thấp đến cao.
Intensity (30): quy định độ đậm nhạt của hộp box plot
Trang 58Option yline(19.1) vẽ đường trung vị 50 percentile của college
Trung vị tỷ lệ tốt nghiệp college của vùng N.East là cao nhất Vùng South có trung
vị tỷ lệ tốt nghiệp thấp nhất, nhưng tỷ lệ tốt nghiệp lại dao động nhiều nhất
Trang 59Vẽ box plot của wage theo ind Các giá trị của ind sẽ được xếp theo trung vị từ thấp đến cao.
Trang 60Vẽ pie chart
Trang 61Vẽ bar chart cho trung bình giữa các nhóm
graph bar (mean) mpg, over(foreign)
Trang 62sort foreign
gen mlength = length
gen slength = length
collapse (mean) mlength (sd) slength, by(foreign)
gen hlength = mlength + slength
twoway (bar mlength foreign ) (rcap hlength mlength foreign ), xlabel(none)
by( foreign , noxrescale) by(,legend(off))
Vẽ bar chart trung bình với 1 độ lệch chuẩn cho hai nhóm domestic và foreign.Lệnh collapse sẽ dùng để tóm tắt dữ liệu bằng các số thống kê chẳng hạn trung bình, tổng, trung vị và phân vị Các số thống kê này có thể được tính chung hoặc cho từng phân loại của biến định tính đã được xếp thứ tự trước đó
Biến hprice chính là tổng mean và 1 độ lệch chuẩn cho từng phân nhóm
Lệnh twoway dùng để kết hợp hai loại đồ thị lại với nhau Trong lệnh này chúng tadùng bar chart cho trung bình và dùng rcap (capped spikes-đồ thị đỉnh chóp) cho
độ lệch chuẩn
Trang 6301 BIẾN ĐỊNH LƯỢNG-02 BIẾN PHÂN LOẠI
Sử dụng bar chart
Trang 64Trong trường hợp biến phân loại có nhiều giá trị thì dùng thêm option sort(1) để xếp từ thấp đến cao cho biến phân loại đó.
Trang 65Câu lệnh dùng by() để nhấn mạnh đến việc biến union có các giá trị khác nhau ở hai phân nhóm union và nonunion.
Trang 66Sử dụng box plot
Vẽ đồ thị bp theo thời điểm đánh giá ở hai nhóm giới tính là male và female
Trang 68Sử dụng dot plot
Trang 69Vẽ tháp dân số
Trang 7201 BIẾN ĐỊNH LƯỢNG- 03 BIẾN PHÂN LOẠI
Sử sụng bar chart
Trang 7301 BIẾN KẾT CỤC LIÊN TỤC-01 BIẾN TIÊN ĐOÁN LIÊN TỤC VÀ 01
BIẾN TIÊN ĐOÁN PHÂN LOẠI
Sử dụng scatterplot
twoway scatter bweight gestwks ,by(sexalph)
Vẽ phân tán đồ của biến bweight gestwks theo giới tính của biến sexalph
twoway scatter ownhome propval100, by(nsw, total)
Vẽ thêm biểu đồ tổng cho các khu vực
Trang 74twoway scatter ownhome propval100, by(nsw, total compact)
Option compact giúp vẽ đồ thị rõ ràng hơn
Trang 75Xlabel(,format(%3.0f)): sẽ định dạng cố định nhãn cho trục hoành gồm 3 chữ số
mà không có số thập phân, Điều này giúp dễ đọc kết quả hơn khi đồ thị phân nhỏ
Trang 76THỐNG KÊ MÔ TẢ 01 BIẾN PHỤ THUỘC LÀ BIẾN ĐỊNH LƯỢNG – 02
BIẾN ĐỘC LẬP ĐỊNH TÍNH
tabulate meetings kids, sum(lived) mean
Means of Years lived in town
Trang 77-01 BIẾN KẾT CỤC LIÊN TỤC-NHIỀU BIẾN TIÊN ĐOÁN LIÊN TỤC
Vẽ scatterplot
twoway scatter ownhome propval100 [aweight=rent700], msize(small)
[aweight=var3] giúp vẽ scatterplot cho 3 biến định lượng
option msize(small) sẽ thu nhỏ kích thước các marker nhỏ nhất từ đó hiển thị được
sự khác biệt về giá trị của biến rent700
Trang 78Vẽ waste và metro theo frequency weight của biến pop.
Trang 79Vẽ ma trận scatterplot của nhiều biến liên tụcOption half yêu cầu stata chỉ vẽ nửa bên đồ thị
Trang 80Vẽ line plot
Vẽ line plot cho biến cod và biến canada theo thời gian (year).
Stata quy định đường đậm là dành cho biến y đầu tiên (cod) và đường gạch chấm là dành cho biến y thứ hai (canada).
Trang 81Đưa legend vào đồ thị bằng option legend().