Phân loại dữ liệu • Dữ liệu định tính: thu thập từ thang đo danh nghĩa và thứ bậc -> khơng tính được trị trung bình • Dữ liệu định lượng: thu thập từ thang đo khoảng cách và tỉ lệ -> tín
Trang 1PHÂN TÍCH DỮ LIỆU với IBM-SPSS STATISTICS
Hoàng Trọng
Tháng 7 năm 2018
Trang 2Nghiên cứu & phân tích dữ liệu
Trang 3NCKH và phân tích dữ liệu
• Nghiên cứu định lượng cần phân tích dữ liệu
• Với khối lượng dữ liệu lớn, cần chương trình máy tính để thực hiện
• SPSS là một chương trình thống kê dễ sử dụng và mạnh mẽ
Xác định vấn đề Câu hỏi nghiên cứu
Mục tiêu nghiên cứu
(giới hạn nghiên cứu)
Thiết kế nghiên cứu
Lý thuyết, Mô hình, Biến số, giả thuyết, chọn mẫu, phương pháp thu thập dữ liệu
Thu thập & phân tích dữ liệu
Báo cáo
Đề cương nghiên cứu (proposal)
Trang 4Phân tích dữ liệu
• Phân tích dữ liệu là quá trình chuyển từ những dữ liệu rời rạc của
từng quan sát thành những thơng tin, những tri thức, hiểu biết đáng tin cậy
Mức độ cải thiện các quyết định Dữ liệu
Thông tin
Sự kiện
Hiểu biết, tri thức
Mức độ chính xác của mô hình thống
kê
(Nguồn: Hossein Arsham , Manchester Metropolitan University)
Trang 51 Phân loại dữ liệu, mã hóa,
nhập liệu và một số xử lý trên biến
Trang 6Phân loại dữ liệu
• Dữ liệu định tính: thu thập từ thang đo danh nghĩa và thứ bậc ->
khơng tính được trị trung bình
• Dữ liệu định lượng: thu thập từ thang đo khoảng cách và tỉ lệ -> tính được trị trung bình
Dữ liệu
Dữ liệu định lượng
Dữ liệu định tính
thang đo danh nghĩa
thang đo
tỉ lệ thang đo
thứ bậc khoảng cáchthang đo
Trang 7Tổ chức dữ liệu – ma trận dữ liệu
• Quan sát (observation, case): dữ liệu thu thập được từ một đơn vị mẫu khảo sát thực tế
• Biến (variable): đơn vị chứa một loại dữ liệu giống nhau (ví dụ giới tính)
• Ma trận (bảng) dữ liệu: tập hợp dữ liệu của nhiều quan sát (dòng)
được sắp xếp thành từng loại rõ ràng (cột-biến)
Các quan sát
Trang 8Nguyên tắc mã hóa & nhập liệu
• Dữ liệu định tính: mã hóa bằng cách dùng mã số gán cho các biểu hiện hay tính chất
• Dữ liệu định lượng: không cần mã hóa (đã có ý nghĩa)
• Phân tích BCH/form rồi tạo khuôn nhập theo nguyên tắc mỗi loại dữ
liệu là một biến
• Dữ liệu được nhập trực tiếp vào ở màn hình data của SPSS, từ trái
qua phải theo từng quan sát (dòng)
Các quan sát
Trang 9Nguyên tắc mã hóa & nhập liệu
• Khi khai báo value labels, nếu danh sách các hạng mục quá nhiều thì nên dùng syntax để gán các label cho nhanh
• Muốn gán các Value Labels cho các code này thì thực hiện như sau
– Từ menu chọn lệnh: File > New > Syntax
– Trong cửa số sytax gõ những dòng code như sau:
VARIABLE LABELS Tên biến ‘nhãn của tên biến'
VALUE LABELS Tên biến
Các nhãn có thể chép từ file Word (BCH) hay từ file Excel có sẵn qua để tiết kiệm thời gian Các nhãn phải đặt trong dấu nháy đơn, có thể vào Excel để tạo các dấu nháy đơn hàng loạt.
Trang 10Ví dụ và thao tác
• Dùng BCH ở phần cuối sách Phân tích Dữ liệu với SPSS:
• Phân tích các câu hỏi, các dữ liệu thu thập được, xác định số biến cần khởi tạo
• Thực hành tạo khuôn cho BCH này, chú ý các câu hỏi có nhiều trả lời
và câu hỏi dùng thang đo thứ bậc
• Có thể chia cho vài người nhập sau đó ghép các biến đã tạo được
bằng lệnh: Data > Merge files > Add variables
• Xem thao tác demo trên lớp
Trang 11XÂY DỰNG CƠ SỞ DỮ LIỆU
CHO PHÂN TÍCH
Preparing Database for Analysis
Trang 12Đơn vị phân tích
Khi khảo sát chú ý có các loại đơn vị sau:
• Đơn vị lấy mẫu
• Đơn vị báo cáo
• Đơn vị phân tích
-> giới hạn: chỉ xem xét trường hợp đơn vị báo cáo là đơn vị phân tích
trong chương trình này
Trang 13Nhập liệu
• Nhập trực tiếp trong SPSS -> phổ biến trong các NCKH cỡ mẫu không quá lớn
• Bằng chương trình Data Entry của SPSS (nặng nề, năng suất thấp)
• Nhập bằng chương trình khác (Excel, Fox, …) hay chương trình viết
riêng (không tiện lợi hay mất thời gian viết chương trình nhập) nếu số lượng mẫu không nhiều
• Có thể nhiều người nhập song song, rồi ghép file thủ công hay bằng
lệnh Data > Merge files > Add cases
Trang 14Làm sạch dữ liệu
• Dùng lệnh sort: sort theo từng biến, xem các trị số ở đầu và cuối để
phát hiện giá trị bất thường Lệnh: menu Data > Sort cases
• Bảng tần số đơn: dùng bảng tần số đơn để phát hiện ra các trị số hay phân loại bất thường và số lần xuất hiện của chúng Lệnh: menu
Analyze > Descriptives Statistics > Frequencies
• Dùng bảng phức: để phát hiện ra các mâu thuẫn giữa các dữ liệu của 2 biến Ví dụ: tuổi 18 nghề nghiệp là giáo viên Lệnh: menu Analyze >
Tables > Custom Tables Sau khi phát hiện ra trường hợp bất hợp lý thì dùng lệnh Select Cases để xác định dòng dữ liệu có vấn đề để đối
chiếu với BCH gốc
-> Cần có kinh nghiệm, kiến thức liên quan đến đối tượng, bối cảnh, nội dung nghiên cứu
Trang 15Một số xử lý trên biến
• Mã hóa lại biến:
– biến định tính có quá nhiều phân loại, cần gộp lại thành một số
lượng ít phân loại hơn Ví dụ như khu vực địa lý, nghề nghiệp/công việc, học vấn …
– Một biến định lượng có nhiều trị số trãi dài cần được phân tổ thành một số nhóm Ví dụ như: tuổi, thu nhập
• Lệnh cơ bản là menu Transform > Recode > Into Different Variables
Trang 162 Tóm tắt & trình bày dữ liệu
Trang 17Bảng thống kê - Tables Bảng tần số đơn biến: áp dụng cho biến định tính & định lượng -> nếu số lượng nhóm quá nhiều -> phân tổ lại, mã hóa lại (recode) Bảng thống kê mô tả: áp dụng cho biến định lượng, tính toán
khuynh hướng tập trung và độ phân tán
Bảng kết hợp nhiều biến:
Bảng kết hợp cho các biến định tính: tính tần số và %.
Bảng kết hợp cho biến định tính và biến định lượng: tính trung bình, median,
độ lệch chuẩn, …
Ghép biến cho dạng câu hỏi có nhiều trả lời và có nhiều biến tương ứng
Xem chi tiết trong tài liệu Sử dụng Custom Tables
Trang 18Biểu đồ đơn biến: biểu đồ phân phối tần số
Biểu đồ & đồ thị - Graphs
N = 51.00
Trang 19Biểu đồ đơn biến: hình thanh, hình tròn
Biểu đồ & đồ thị - Graphs
Nguồn nhận biết
Quy mô các món vay
< 10 trđ 32%
200 - 500 trđ 21%
> 500 trđ 7%
10 - 200 trđ 40%
52 48 43 49 44 40 40 42 35 28 50 44 43
46 39 42 36 33 32 18
58 45
28
17 15
54
25 22 21 19 19 15
25 20
19 9
5 11 6
13 2
5
3 7 9
Trang 200 3 1 0 7 8 7 1 4 5 21 5 32 17 25 41 68
4 20 8 8 31 24 41 14 18 36 60 32 56 52 67 71 91
1 0 2 1 0 0 1 3 2 2 3 7 4 18 22 30 6
11 0 12 2 3 2 4 17 28 11 10 21 17 47 61 70 26
38 7 28 9 8 13 12 42 53 35 28 38 44 69 83 85 54
0 20 40 60 80 100
Habubank Phương Đông
VP Bank Hàng Hải Phương Nam Eximbank SCB Military Bank Techcombank VIBank Sacombank BIDV EAB Incombank Agribank Vietcombank ACB
%
Aided Unaided Tom
REVENUES
40000 30000
20000 10000
Trang 21Biểu đồ & đồ thị - Graphs
Bản đồ nhận thức (không bao gồm trong chương trình này):
Dimension 1
.7 0.0
VIETCOMBANK
INCOMBANK
BIDV
AGRIBANK TECHCOMBANK
Th«ng dông
Qu¶n trÞ tèt CnghÖ tiª n tiÕn
Chuyª n nghiÖp
NV niÒm në
NV giái NhiÒu ®®iÓm GD N¬i GD lÞch sù
Ch¨ m sãc KH tèt
LS vay hî p lý
LS göi hÊp dÉn
PhÝ DV hî p lý SP-DV phong phó
Vèn lí n
Uy tÝ n Næi tiÕng
Trang 22Thống kê mô tả 1 biến
Univariate analysis
Trang 23Độ tập trung & phân tán
Dùng cho dữ liệu định lượng
Khuynh hướng tập trung: mức độ điển hình, mức độ đại diện
Trung bình cộng
Trung vị: ít bị ảnh hưởng bởi các giá trị bất thường
Mốt: có điểm tập trung rõ rệt
Độ phân tán: mức độ chêch lệch (hay đồng đều) giữa các phần tử
Phương sai: độ phân tán bị phóng đại
-> Độ lệch chuẩn
Hình dáng của phân phối: biểu đồ thân và lá, biểu đồ hộp
-> phân phối lệch trái: đa số các đơn vị có mức độ dưới trung bình
-> phân phối lệch phải: đa số các quan sát có mức độ trên trung bình
Trang 24Đo lường khuynh hướng tập trung
Tìm ra mức độ đại diện theo một tiêu thức/biến.
Coefficient of Variation
Range Percentiles
Interquartile Range Quartiles
Trang 25Đo lường khuynh hướng tập trung
Tìm ra mức độ đại diện theo một biến.
Khuynh hướng tập trung
N
i i
X X
n X N
Trang 26Đo lường khuynh hướng tập trung
f
f
x x
1 1
i
k
1 i
i i
f
f
m x
n
x x
n i
i
Trang 27Đo lường khuynh hướng tập trung
1 Trung bình cộng
• Trung bình cộng chịu ảnh hưởng của các trị số bất thường
0 1 2 3 4 5 6 7 8 9 10 12
14 Trung bình =
Trang 28Đo lường khuynh hướng tập trung
n e
(min) Me
e
f
S 2
n h
x
Trang 29Đo lường khuynh hướng tập trung
Trang 30Đo lường khuynh hướng tập trung
3 Mốt (mode)
• Đo lường khuynh hướng tập trung
• Mode là giá trị có tần số lớn nhất
• Mode không chịu ảnh hưởng bởi các giá trị đột biến
• Một dãy số có thể có nhiều Mode
• Một dãy số có thể không có Mode
• Mode có thể xác định cho dữ liệu định tính
• Thường xác định mode từ dữ liệu sơ cấp với phần mềm
30
Trang 31Đo lường khuynh hướng tập trung
f ( ) f
f (
f
f h
x
Mode
1 M M
1 M M
1 M
M M
(min) Mo
0 0
0 0
0 0
Trang 32Đo lường khuynh hướng tập trung
4 Trung bình nhân/ trung bình hình học (geometric mean)
2
1 x x x x
Trang 33Các thước đo vị trí khác
Other Measures of
Location
Percentiles Phân vị
The pth percentile in a data array:
• p% are less than or equal to this
value
• (100 – p)% are greater than or
equal to this value
(where 0 ≤ p ≤ 100)
33
Trang 34i
12 1)
(19 100
60 1)
(n 100 p
Trang 3535Phân vị và tứ phân vị được xác định dễ dàng với phần mềm IBM-SPSS
Trang 36Các thước đo vị trí khác
Biểu đồ hộp và râu (Box and whisker plot):
Là công cụ đồ họa thể hiện 5 số trị số tóm tắt :
Minimum Q1 Median Q3 Maximum
Hình hộp và đường trung tâm ở ngay vị trí chính giữa cho
thấy dữ liệu đối xứng quanh trung vị
25% 25% 25% 25%
36Biểu đồ hộp diễn tả mức độ tập trung/ phân tán của dữ liệu
Minimum 1st Median 3rd Maximum
Quartile Quartile
Minimum 1st Median 3rd Maximum
Quartile Quartile
Trang 37Đo lường độ phân tán/biến thiên
Same center, different variation
37
Trang 38Đo lường độ phân tán/biến thiên
Variation
Variance Standard Deviation Coefficient of
Variation Population
Variance
Sample Variance
Population Standard Deviation
Sample Standard Deviation
Range
Interquartile
Range
38
Trang 39Đo lường độ phân tán/biến thiên
Biến thiên
Phương sai Độ lệch chuẩn Hệ số biến thiên
Phương sai tổng thể
Phương sai mẫu
Độ lệch chuẫn tổng thể
Độ lệch chuẩn mẫu
Khoảng
biến thiên
Độ trải giữa
39
Trang 40Đo lường độ phân tán/biến thiên
1 Khoảng biến thiên:
n i
n i
i
% 100
Trang 41Đo lường độ phân tán/biến thiên
Mean = 15.5
s = 3.338
41
Trang 42Đo lường độ phân tán/biến thiên
Quy tắc thực nghiệm
• Đối với những tổng thể lớn, phân phối của các giá trị có dạng gần
giống hình chuông cân đối (có thể dùng đồ thị Histogram để xem
xét), phân phối chuẩn được sử dụng để mô tả hình dáng của phân phối
42
Trang 43Đo lường độ phân tán/biến thiên
Quy tắc Tchebychev
• Bất kỳ một tổng thể nào với trung bình là và độ lệch tiêu chuẩn là
, thì có ít nhất 100(1-1/m2)% giá trị rơi vào khoảng m, với m > 1
43
Trang 44Hình dáng phân phối của tập dữ liệu
(Longer tail extends to left) (Longer tail extends to right)
Diễn tả dữ liệu được phân phối như thế nào
Đối xứng hay lệch
Lệch phải
Trang 45Hình dáng phân phối của tập dữ liệu
Diễn tả dữ liệu được phân phối như thế nào
Trang 46Hình dáng phân phối:
Hệ số bất đối xứng (Skewness)
Một đại lượng số quan trọng đo lường hình dáng của một phân phối gọi là Hệ số bất đối xứng (Skewness)
Công thức hệ số bất đối xứng cho mẫu:
Hệ số bất đối xứng được tính bằng các phần mềm thống kê
Skewness = 0: phân phối đối xứng
Skewness < 0: phân phối lệch trái, < -1: lệch trái nhiều
Skewness > 0: phân phối lệch phải, > +1: lệch phải nhiều
1 (
Skewness
s
x
x n
n
Trang 47Chuẩn hóa dữ liệu
Chuyển các dữ liệu với đo vị đo lường thực tế về đơn vị đo lường
là độ lệch chuẩn.
Khi có nhiều biến số có đơn vị tính khác nhau, chuẩn hóa dữ liệu giúp so sánh được biến thiên của chúng
Với dữ liệu của tổng thể:
Với dữ liệu của mẫu quan sát:
Trang 48Phát hiện các giá trị bất thường
Giá trị bất thường là giá trị nhỏ bất thường hoặc lớn bất thường trong tập dữ liệu.
Một giá trị dữ liệu có giá trị z nhỏ hơn -3 hoặc lớn +3 có thể được xem là giá trị bất thường.
Giá trị bất thường có thể là:
• Được ghi chép không chính xác (sai sót khi thâu thập DL)
• Một giá trị dữ liệu không nằm trong tập dữ liệu
• Một giá trị dữ liệu bất thường đã được ghi lại một cách
chính xác và thuộc trong tập dữ liệu
Trang 49Xem xét dữ liệu có thỏa PP chuẩn không
Vì suy diễn thống kê hầu như dựa vào phân phối chuẩn, cho nên cần phải biết bộ dữ liệu có thỏa điều kiện phân phối chuẩn hay không?
• Xem biểu đồ phân phối tần số với đường cong chuẩn có lệch nhiều không
• Xem biểu đồ phân phối xác suất chuẩn có theo đường chéo không
• Dùng kiểm định Kolmogorov-Smirnov/ Shapiro-Wilk
Observed Value
25 20
15 10
5 0
Normal Q-Q Plot of số nhân khẩu trong gia đình
số nhân khẩu trong gia đình
20 15
10 5
N = 500 Normal
Trang 50Xem xét dữ liệu có thỏa PP chuẩn không
Kiểm định Kolmogorov-Smirnov/ Shapiro-Wilk
Giả thuyết Ho: phân phối của dữ liệu tổng thể có phân phối chuẩn
Nếu kết quả test cho thấy p-value (sig.) nhỏ hơn 0.05 thì có đủ bằng chứng để kết luận rằng tổng thể không có phân phối chuẩn theo biến quan sát này
(Nếu kết luận tổng thể không có phân phối chuẩn thì khi suy diễn thống kê, theo định lý giới hạn trung tâm thì cỡ mẫu phải đủ lớn là trên 30, nếu phân phối lệch nhiều thì cỡ mẫu phải trên 50)
Tests of Normality
Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig Statistic df Sig.
.207 500 000 824 500 000
a
Trang 51Ước lượng & kiểm định trung bình
Ước lượng điểm: chính là trung bình mẫu
Ước lượng khoảng: lấy trung bình mẫu cộng trừ 1,96 (thường làm tròn
thành 2) lần sai số chuẩn (SE) Thường dùng trong nghiên cứu ứng
dụng để ra quyết định quản lý hay kinh doanh
Kiểm định trung bình tổng thể có bằng một giá trị cụ thể hay không
• Dùng kiểm định t một mẫu
• Dùng trong nghiên cứu ứng dụng xem có đạt được mục tiêu hay
không, ví dụ như mức độ hài lòng của khách hàng có đạt mức 4 trên
thang điểm 5 không
Trang 52MỐI LIÊN HỆ GIỮA HAI BIẾN
Bivariate analysis
Trang 53Loại biến và loại kiểm định
Định danh/ thứ bậc Định danh/ thứ bậc Chi bình phương
Định danh/ thứ bậc
Định danh/ thứ bậc
(nhiều hơn 2 nhóm) Định lượng ANOVA
Định lượng Định lượng Tương quan & hồi qui
Định lượng Định danh/ thứ bậc Hồi qui logistic,
Phân tích biệt số
Trang 54Liên hệ hai biến định tính
Dữ liệu dưới dạng tần số
Dùng bảng chéo khám phá mối liên hệ
Dùng kiểm định chi bình phương (kiểm định tính độc lập) để xem xét mối liên hệ có ý nghĩa thống kê hay không, chưa đo đực độ mạnh của mối liên hệ
Dùng những thước đo như hệ số liên kết lamda, phi để đo lường độ mạnh mối liên hệ
Lệnh: menu Analyze > Descriptive Statistics > Crosstabs > Statistics >
Chi-square
Nếu cả 2 biến đều là thứ bậc thì dùng Gamma hay Kendall’s tau để đo
lường độ mạnh của mối liên hệ chính xác hơn
Trang 55Liên hệ một biến định tính và một
biến định lượng
Biến nguyên nhân: biến định danh hay thứ bậc
Biến kết quả: biến định lượng
-> nếu biến nguyên nhân chỉ có 2 nhóm: dùng kiểm định trung bình (kiểm định t)
-> nếu biến nguyên nhân có từ 3 nhóm trở lên: dùng phân tích phương
sai
Trang 56Liên hệ hai biến định lượng
Đo lường độ mạnh bằng hệ số tương quan hay tỉ số tương quan
Thể hiện mối quan hệ bằng phương trình hồi qui
Trang 57• nếu kiểm định phương sai cho thấy phương sai 2 tổng thể so sánh
đồng đều thì dùng kết quả kiểm định t ở dòng trên
• nếu kiểm định phương sai cho thấy phương sai 2 tổng thể so sánh
không đồng đều thì dùng kết quả kiểm định t ở dòng dưới
Trang 58PHÂN TÍCH PHƯƠNG SAI
Analysis of variance
Trang 59Khái niệm ANOVA
• Mục tiêu của ANOVA là so sánh trung bình của nhiều nhóm (tổng thể) dựa trên các trung bình mẫu.
• Trong nghiên cứu, ANOVA được dùng như một công cụ để xem xét ảnh hưởng của một yếu tố nguyên nhân (biến định tính) đến một yếu tố kết quả (biến định lượng)