7.5 Phân tích thống kê mô tả Đo lường xu hướng trung tâm Measures of Central Tendency chia cho số lượng của dữ liệu.. 7.5 Phân tích thống kê mô tả Đo lường tính biến thiên Measures of V
Trang 1Bài 7
Nhập và xử lý dữ liệu
Môn học: Phương pháp nghiên cứu kinh tế
Khoa Kinh tế Phát triển Đại học Kinh Tế TP Hồ Chí Minh
Trang 27.1 Giới thiệu
Nhằm hướng dẫn sinh viên cách:
khám phá (exploratory data analysis)
để trắc nghiệm mối quan hệ giữa các biến phân loại (categorical variables)
nghiệm giả thiết.
TS Trần Tiến Khai, UEH
Trang 3Phân tích và diễn giải dữ liệu
Phân tích mô tả các biến số Lập bảng chéo cho các biến số
Trình bày dữ liệu
(histogram, boxplots, Pareto,
stem-and-leaf, AID, etc.)
Trang 57.3 Nhập số liệu
Nguyên tắc chung: đặt tên biến ngắn gọn, viết
tắt (tiếng Việt không dấu hoặc tiếng Anh) Tên biến nên được đặt theo quy định
Dùng Excel: dễ thao tác và chỉnh sửa, không
gian lưu trữ hạn chế, công cụ thống kê và kinh
tế lượng không đủ cho phân tích.
Dùng SPSS: không gian lưu trữ gần như không
hạn chế, công cụ thống kê và kinh tế lượng phát triển đầy đủ cho nhu cầu phân tích Khai báo dữ liệu bắt buộc, mất thời gian
TS Trần Tiến Khai, UEH
Trang 67.3 Nhập số liệu
Hình 5 2 Cách
nhập dữ liệu vào bảng tính SPSS
TS Trần Tiến Khai, UEH
Trang 8Định nghĩa kiểu biến
TS Trần Tiến Khai, UEH
Trang 9Xác định nhãn (giải thích) của biến
TS Trần Tiến Khai, UEH
Trang 10Xác định giá trị phân loại của biến
TS Trần Tiến Khai, UEH
Trang 11Xác định thang đo của biến
TS Trần Tiến Khai, UEH
Trang 127.4 Làm sạch dữ liệu
7.4.1 Phát hiện giá trị dị biệt trong dữ liệu
a Sử dụng Excel: hàm Max và Min, công cụ Auto Filter, đồ thị Scatter
TS Trần Tiến Khai, UEH
Trang 137.4 Làm sạch dữ liệu
Hình 5.4 Công cụ đồ
thị Scatter trong Excel
TS Trần Tiến Khai, UEH
Trang 147.4 Làm sạch dữ liệu
7.4.1 Phát hiện giá trị dị biệt trong dữ liệu
b Sử dụng SPSS: đồ thị Scatter, công cụ Frequency, Bar Chart, Pie Chart, và Box Plot trong Explore
TS Trần Tiến Khai, UEH
Trang 1520 10
Motobike Names
Others Honda @ Honda Dream SYM Attila Yamaha Cygnus Honda Wave Yamaha Jupiter Yamaha Sirius Honda Future Neo Honda AirBlade
TS Trần Tiến Khai, UEH
Trang 167.4 Làm sạch dữ liệu
b Sử dụng SPSS: công cụ Frequency, Explore
Hình 8.6 Công cụ Frequency và Explore trong SPSS TS Trần Tiến Khai, UEH
Trang 18Yamaha Sirius Honda Future Neo Honda AirBlade
Trang 197.4 Làm sạch dữ liệu
dùng để thể hiện các dữ liệu tỷ lệ hoặc
khoảng cách
nhóm các giá trị dữ liệu của các biến số
(variable) thành các khoảng cách
dạng các thanh thể hiện giá trị dữ liệu.
b Sử dụng SPSS: công cụ Histogram
TS Trần Tiến Khai, UEH
Trang 207.4 Làm sạch dữ liệu
thể hiện tất cả các khoảng cách trong một
phân phối (distribution), và (2) trắc nghiệm dạng hình của phân phối như độ méo
(skewness), độ nhọn (kurtosis)
cho các biến danh nghĩa.
b Sử dụng SPSS: công cụ Histogram
TS Trần Tiến Khai, UEH
Trang 217.4 Làm sạch dữ liệu
Age of motorbike user
75 70 65 60 55 50 45 40 35 30 25
N = 100.00
Ví dụ 8.2 Phân phối
biến số tuổi của người sử dụng xe máy
b Sử dụng SPSS: công cụ Histogram
TS Trần Tiến Khai, UEH
Trang 227.4 Làm sạch dữ liệu
thân; và mỗi số liệu thể hiện trên một
thân gọi là một lá
biểu đồ histogram
b Sử dụng SPSS: biểu đồ Thân-và-Lá (Stem-and-Leaf Displays)
TS Trần Tiến Khai, UEH
Trang 237.4 Làm sạch dữ liệu
b Sử dụng SPSS: biểu đồ Thân-và-Lá (Stem-and-Leaf Displays)
Age of motorbike user Stem-and-Leaf Plot
Frequency Stem & Leaf
Trang 247.4 Làm sạch dữ liệu
Biểu đồ hộp, hay còn gọi là biểu đồ hộp-và-râu
(box-and-whisker plot), cho ta một hình ảnh trực quan khác
về vị trí, độ phân tán, dạng hình, độ dài đuôi và các giá trị bất thường (outliers) của phân phối
Biểu đồ hộp thể hiện tóm tắt 5 giá trị thống kê của một
phân phối là trung vị (median), hai tứ phân vị trên và dưới (the upper and lower quartiles), và các giá trị quan sát lớn nhất và nhỏ nhất
b Sử dụng SPSS: biểu đồ hộp (Box-Plots)
TS Trần Tiến Khai, UEH
Trang 257.4 Làm sạch dữ liệu
thứ 3 (tương ứng với giá trị thứ 25% (25th percentile)
và giá trị thứ 75% (75th percentile) của dãy số liệu
thể hiện giá trị lớn nhất và nhỏ nhất Các giá trị này nằm trong khoảng tối đa 1,5 lần khoảng cách giữa các
tứ phân vị tính từ lề của hộp
b Sử dụng SPSS: biểu đồ hộp (Box-Plots)
TS Trần Tiến Khai, UEH
Trang 26Giá trị lớn nhất quan sát được không phải là giá trị bất thường
Tứ phân vị thứ 3 (75 th PERCENTILE) Trung vị (MEDIAN)
Tứ phân vị thứ 1 (25 th PERCENTILE)
Các giá trị lớn hơn 3 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 1 (25 th percentile) (extremes)
Các giá trị lớn hơn 1,5 lần so với độ dài của hộp tính
từ giá trị tứ phân vị thứ 1 (25 th percentile) (outliers)
Giá trị lớn nhất quan sát được không phải là giá trị bất thường
50% trường hợp có giá trị nằm trong hộp
TS Trần Tiến Khai, UEH
Trang 277.4 Làm sạch dữ liệu
b Sử dụng SPSS: biểu đồ hộp (Box-Plots)
100 100
8.4 Biểu đồ hộp của biến
số Tuổi của người sử dụng
xe máy và số ngày sử
dụng trong tháng
TS Trần Tiến Khai, UEH
Trang 287.5 Phân tích thống kê mô tả
Statistics trong chức năng Data Analysis.
Descriptives, Explore trong chức năng
Descriptive Statistics của SPSS.
8.5.1 Phân tích thống kê mô tả cho biến định lượng
TS Trần Tiến Khai, UEH
Trang 297.5 Phân tích thống kê mô tả
Các chỉ tiêu thống kê mô tả :
8.5.1 Phân tích thống kê mô tả cho biến định lượng
TS Trần Tiến Khai, UEH
Trang 307.5 Phân tích thống kê mô tả
Đo lường xu hướng trung tâm (Measures of Central
Tendency)
chia cho số lượng của dữ liệu
Trung vị (median) là giá trị của số liệu có vị trí nằm giữa bộ
số liệu sắp xếp theo trật tự Đây chính là điểm giữa của phân phối Khi số quan sát là chẵn, trung vị là giá trị trung bình của hai quan sát ở vị trí trung tâm
Mode là giá trị của quan sát có tần suất xuất hiện nhiều nhất
trong bộ dữ liệu
Khoảng cách (range) là giá trị khác biệt giữa con số lớn nhất
và nhỏ nhất trong bộ dữ liệu
8.5.1 Phân tích thống kê mô tả cho biến định lượng
TS Trần Tiến Khai, UEH
Trang 317.5 Phân tích thống kê mô tả
Đo lường tính biến thiên (Measures of Variability)
bình phương giữa các giá trị của các quan sát và giá trị trung bình.
mức độ phân tán của số liệu xung quanh giá trị trung bình
the mean; s.e.) đo lường phạm vi mà giá trị trung bình của quần thể (µ) có thể xuất hiện với một xác suất cho trước dựa trên giá trị trung bình của mẫu (mean)
8.5.1 Phân tích thống kê mô tả cho biến định lượng
TS Trần Tiến Khai, UEH
Trang 327.5 Phân tích thống kê mô tả
Đo lường dạng hình của phân phối (Measures of Shape)
một trong hai phía
đuôi phía trái dài hơn, và phần lớn số liệu tập trung ở phía phải của phân phối
đuôi phía phải dài hơn, và phần lớn số liệu tập trung ở phía trái của phân phối
trị skewness âm Độ méo càng lớn thì giá trị sknewness càng lớn hơn 0
8.5.1 Phân tích thống kê mô tả cho biến định lượng
TS Trần Tiến Khai, UEH
Trang 337.5 Phân tích thống kê mô tả
8.5.1 Phân tích thống kê mô tả cho biến định lượng
Hình 8.10 Đường phân phối chuẩn và các đặc tính
TS Trần Tiến Khai, UEH
Trang 347.5 Phân tích thống kê mô tả
8.5.1 Phân tích thống kê mô tả cho biến định lượng
Hình 8.11 Các dạng phân phối lệch trái và lệch phải so với phân
phối bình thường
TS Trần Tiến Khai, UEH
Trang 357.5 Phân tích thống kê mô tả
Đo lường dạng hình của phân phối (Measures of Shape)
Độ nhọn (kurtosis) đo lường mức độ nhọn hay bẹt của
phân phối so với phân phối bình thường (có độ nhọn
bằng 0) Phân phối có dạng nhọn khi giá trị kurtosis
dương và có dạng bẹt khi giá trị kurtosis âm
Với phân phối bình thường, giá trị của độ méo và độ
nhọn bằng 0 Căn cứ trên tỷ số giữa giá trị skewness và kurtosis và sai số chuẩn của nó, ta có thể đánh giá
phân phối có bình thường hay không (khi tỷ số này nhỏ hơn -2 và lớn hơn +2, phân phối là không bình thường)
8.5.1 Phân tích thống kê mô tả cho biến định lượng
TS Trần Tiến Khai, UEH
Trang 367.5 Phân tích thống kê mô tả
Phân tích thống kê mô tả với SPSS: công cụ Descriptive
Hình 8.13 Các chức năng thống kê mô tả của công cụ Descriptives TS Trần Tiến Khai, UEH
Trang 377.5 Phân tích thống kê mô tả
Phân tích thống kê mô tả với SPSS: công cụ Descriptive
Bảng 8.6 Thống kê mô tả các biến số Tuổi của người sử dụng xe máy
TS Trần Tiến Khai, UEH
Trang 387.5 Phân tích thống kê mô tả
Phân tích thống kê mô tả với SPSS: công cụ Explore
Công cụ Explore rất thích hợp để thống kê mô tả chi tiết các biến số phân nhóm theo một biến phân loại khác (factor variable)
TS Trần Tiến Khai, UEH
Trang 39Age of motorbike user Number of used
days in a month User
gender
Statistic Std Error Statistic Std
Error female Mean 38.46 2.11 20.71 1.07
95% Confidence Interval for Mean Lower Bound 34.19 18.54
Upper Bound
42.74 22.88
5% Trimmed Mean 38.13 20.95
Variance 183.205 47.212 Std Deviation 13.54 6.87
Interquartile Range 23.00 11.00 Skewness 118 369 -.513 369 Kurtosis -1.089 724 -.838 724
7.7 Thống kê mô tả các biến số Tuổi của người sử dụng xe máy và số
ngày sử dụng trong tháng phân theo giới tính
TS Trần Tiến Khai, UEH
Trang 407.7 Thống kê mô tả các biến số Tuổi của người sử dụng xe máy và số
ngày sử dụng trong tháng phân theo giới tính
Interquartile Range 28.00 15.00 Skewness 292 311 -.175 311 Kurtosis -.932 613 -1.271 613
TS Trần Tiến Khai, UEH
Trang 417.5 Phân tích thống kê mô tả
7.5.2 Phân tích thống kê mô tả cho biến định tính
a Sử dụng công cụ Basic Table trong SPSS
TS Trần Tiến Khai, UEH
Trang 427.5 Phân tích thống kê mô tả
7.5.2 Phân tích thống kê mô tả cho biến định tính
a Sử dụng công cụ Basic Table trong SPSS
TS Trần Tiến Khai, UEH
Trang 437.5 Phân tích thống kê mô tả
7.5.2 Phân tích thống kê mô tả cho biến định tính
a Sử dụng công cụ Basic Table trong SPSS
Bảng Phân bố nhóm tuổi của người sử dụng xe máy theo nhãn hiệu
TS Trần Tiến Khai, UEH
Trang 447.5 Phân tích thống kê mô tả
nhiều hơn các biến phân loại hoặc danh nghĩa (categorical or
nominal variables), ví dụ như là giới tính Bảng chéo sử dụng
các bảng có các cột và dòng thể hiện các mức độ hoặc các giá trị mã hóa của từng biến phân loại hoặc danh nghĩa
biến Khi bảng chéo được xây dựng để trắc nghiệm thống kê,
ta gọi chúng là bảng contingency (contingency tables), và loại trắc nghiệm dùng để đánh giá liệu các biến phân loại có độc lập với nhau hay không là χ2 (Chi bình phương / chi-square)
7.5.2 Phân tích thống kê mô tả cho biến định tính
b Sử dụng công cụ Bảng chéo (Cross-Tabulation) trong SPSS
TS Trần Tiến Khai, UEH
Trang 457.5 Phân tích thống kê mô tả
7.5.2 Phân tích thống kê mô tả cho biến định tính
b Sử dụng công cụ Bảng chéo (Cross-Tabulation) trong SPSS
TS Trần Tiến Khai, UEH
Trang 467.5 Phân tích thống kê mô tả
7.5.2 Phân tích thống kê mô tả cho biến định tính
b Sử dụng công cụ Bảng chéo (Cross-Tabulation) trong SPSS
TS Trần Tiến Khai, UEH
Trang 477.5 Phân tích thống kê mô tả
Bảng Phân bố giới tính của người sử dụng xe máy theo nhãn hiệu
Motobike Names * User gender Crosstabulation
Motobike Names
Trang 48User gender * Motobike Names Crosstabulation
3 4 3 6 9 2 5 2 3 4 41 4.1 3.3 2.9 5.3 9.8 1.6 4.5 2.5 2.9 4.1 41.0 7.3% 9.8% 7.3% 14.6% 22.0% 4.9% 12.2% 4.9% 7.3% 9.8% 100.0% 30.0% 50.0% 42.9% 46.2% 37.5% 50.0% 45.5% 33.3% 42.9% 40.0% 41.0% 3.0% 4.0% 3.0% 6.0% 9.0% 2.0% 5.0% 2.0% 3.0% 4.0% 41.0%
7 4 4 7 15 2 6 4 4 6 59 5.9 4.7 4.1 7.7 14.2 2.4 6.5 3.5 4.1 5.9 59.0 11.9% 6.8% 6.8% 11.9% 25.4% 3.4% 10.2% 6.8% 6.8% 10.2% 100.0% 70.0% 50.0% 57.1% 53.8% 62.5% 50.0% 54.5% 66.7% 57.1% 60.0% 59.0% 7.0% 4.0% 4.0% 7.0% 15.0% 2.0% 6.0% 4.0% 4.0% 6.0% 59.0%
10 8 7 13 24 4 11 6 7 10 100 10.0 8.0 7.0 13.0 24.0 4.0 11.0 6.0 7.0 10.0 100.0 10.0% 8.0% 7.0% 13.0% 24.0% 4.0% 11.0% 6.0% 7.0% 10.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 10.0% 8.0% 7.0% 13.0% 24.0% 4.0% 11.0% 6.0% 7.0% 10.0% 100.0%
Count Expected Count
% within User gender
% within Motobike Names
% of Total Count Expected Count
% within User gender
% within Motobike Names
% of Total Count Expected Count
% within User gender
% within Motobike Names
% of Total
female
male User gender
Total
Honda AirBlade
Honda Future Neo
Yamaha Sirius
Yamaha Jupiter Honda Wave
Yamaha Cygnus SYM Attila Honda Dream Honda @ Others
Motobike Names
Total
7.5 Phân tích thống kê mô tả
Bảng Phân bố giới tính của người sử dụng xe máy theo nhãn hiệu
TS Trần Tiến Khai, UEH
Trang 497.6 Phân tích trắc nghiệm giả thiết
7.6.1 Trắc nghiệm giả thiết
Mục tiêu của trắc nghiệm giả thiết là nhằm quyết
định tính chính xác của giả thiết dựa trên các số
liệu mẫu thu thập được Chúng ta đánh giá tính
chính xác của các giả thiết bằng cách áp dụng các
kỹ thuật thống kê; và đánh giá tầm quan trọng của
sự khác biệt có ý nghĩa thống kê.
Cách tiếp cận cổ điển hay là lý thuyết lấy mẫu thể
hiện cách nhìn mục tiêu theo xác suất dựa trên
phân tích dữ liệu mẫu Một giả thiết được xây dựng,
nó sẽ bị bác bỏ hoặc chấp nhận dựa trên mẫu dữ liệu thu thập
TS Trần Tiến Khai, UEH
Trang 507.6 Phân tích trắc nghiệm giả thiết
Mục tiêu và kiểu của các câu hỏi nghiên cứu
So sánh nhóm
Thống kê liên quan (v.d tương quan, hồi quy)
Thống kê mô
tả (v.d trung bình, tỷ lệ)
TS Trần Tiến Khai, UEH
Trang 517.6 Phân tích trắc nghiệm giả thiết
Xây dựng giả thiết H 0 và giả thiết thay thế
Câu hỏi NC Giả thiết H 0 Biểu diễn giả
thiết H 0 Giả thiết H 1 Biểu diễn giả thiết H 1
và nữ.
H0: µnam = µnữ Có sự khác
biệt về tuổi giữa nam và nữ.
H0: рGM = 0 Có liên hệ
giữa giới tính
và nhãn hiệu xe.
H0: µuth = µuth Có khác biệt
giữa các nhóm tuổi về mức
độ sử dụng xe.
H1: µuth ≠ µuth
TS Trần Tiến Khai, UEH
Trang 527.6 Phân tích trắc nghiệm giả thiết
8.6.2 Quy trình trắc nghiệm giả thiết
1 Phát biểu giả thiết
2 Chọn loại trắc nghiệm thống kê
3 Chọn mức ý nghĩa mong muốn
4 Tính giá trị khác biệt
5 Có được giá trị trắc nghiệm
6 Diễn giải kết quả trắc nghiệm
TS Trần Tiến Khai, UEH
Trang 537.6 Phân tích trắc nghiệm giả thiết
7.6.2 Quy trình trắc nghiệm giả thiết
1 Phát biểu giả thiết và giả thiết
thay thế
2 Chọn mức ý nghĩa mong muốn
3 Có được giá trị xác suất p
4 So sánh giá trị xác suất p và
mức ý nghĩa và ra quyết định
5 Diễn giải kết quả trắc nghiệm
TS Trần Tiến Khai, UEH
Trang 547.6 Phân tích trắc nghiệm giả thiết
cho kết quả với giá trị xác suất (p
values)
để đạt được một kết quả, ít nhất cao bằng, hoặc cao hơn giá trị được quan sát trong thực tế, với điều kiện cho
Giá trị xác suất (p Values)
TS Trần Tiến Khai, UEH
Trang 557.6 Phân tích trắc nghiệm giả thiết
nghĩa (significant level - α), và dựa trên kết ), và dựa trên kết quả này để bác bỏ hay không bác bỏ giả
thiết
giả thiết bị bác bỏ (p value < α), và dựa trên kết , bác bỏ giả thiết H0).
ý nghĩa, không bác bỏ giả thiết (p value > α), và dựa trên kết , không bác bỏ giả thiết H0)
Giá trị xác suất (p Values)
TS Trần Tiến Khai, UEH
Trang 567.6 Phân tích trắc nghiệm giả thiết
nonparametric (phi tham số)
xử lý các dữ liệu dạng scale (interval, ratio).
các dữ liệu dạng nominal và ordinal
Kiểm định ý nghĩa: các kiểu kiểm định
TS Trần Tiến Khai, UEH
Trang 577.6 Phân tích trắc nghiệm giả thiết
định:
phân phối bình thường chuẩn.
có thể thực hiện được.
Parametric tests
TS Trần Tiến Khai, UEH
Trang 587.6 Phân tích trắc nghiệm giả thiết
Không đòi hỏi các quan sát phải được rút ra từ các
dân số phân phối bình thường chuẩn.
Không đòi hỏi các dân số phải có phương sai tương
Trang 597.6 Phân tích trắc nghiệm giả thiết
nên suy nghĩ đến 3 câu hỏi:
hay nhiều hơn 2 mẫu phụ (k)?
(k), chúng có độc lập với nhau hay không?
Làm sao chọn một trắc nghiệm thống kê phù hợp?
TS Trần Tiến Khai, UEH
Trang 607.6 Phân tích trắc nghiệm giả thiết
Các kỹ thuật phân tích thống kê nên dùng theo loại dữ liệu và trắc nghiệm
Measurement
Related Samples
Independent Samples
Related Samples
Independent Samples
Nominal - Binomial
- χ2 one-sample test
- McNemar - Fisher exact
test
- χ2 sample test
two Cochran Q - χ2 for
k-samples
Ordinal -
Kolmogorov-Smirnov sample test
one Runs test
- Sign test
- Wilcoxon matched-pairs test
-Median test Mann-Whitney U
- Smirnov
Kolmogorov- Wolfowitz
Wald Friedman way ANOVA
two Median extension
- Wallis one-way ANOVA
Kruskal-Interval and Ratio - T-test
- Z test - T-test for paired samples - T-test- Z test - Repeated-measured
ANOVA
- One-way ANOVA
- N-way ANOVA
TS Trần Tiến Khai, UEH