BIỂU ĐỒ HỘP VÀ RÂU BOXPLOT – Khái niệm• Biểu đồ hộp và râu: áp dụng cho dữ liệu định lượng • Biểu đồ hộp và râu gồm một hộp và hai râu • Đoạn thẳng trong hộp cho biết giá trị t
Trang 31 BIỂU ĐỒ TẦN SỐ (HISTOGRAMS) – Khái niệm
Biểu đồ tần số (Histograms): là một dạng đồ thị biểu thị dạng phân phối tần suất của một tập dữ liệu liên tục Nó cho phép chúng ta kiểm tra dạng phân phối, độ nhọn của tập dữ liệu
Trang 41 BIỂU ĐỒ TẦN SỐ (HISTOGRAMS) – Cách vẽ với SPSS
BƯỚC 1 : CHỌN GRAPH > LEGACY DIALOGS > HISTOGRAM
Trang 51 BIỂU ĐỒ TẦN SỐ (HISTOGRAMS) – Cách vẽ với SPSS
BƯỚC 2: CHỌN BIẾN MUỐN VẼ BIỂU ĐỒ (VÍ DỤ BIẾN WEIGHT TRONG FILE CAR.SAV)
Trang 61 BIỂU ĐỒ TẦN SỐ (HISTOGRAMS) – Cách vẽ với SPSS
BƯỚC 3 : VẼ THEO NHÓM BIẾN
Nếu muốn vẽ theo nhóm hãy chọn
biến phân biệt nhóm đưa vào mục
Panel by
- Chọn Rows nếu muốn các biểu đồ
xuất hiện trong cùng một dòng
- Chọn Column nếu muốn biểu đồ
Trang 71 BIỂU ĐỒ TẦN SỐ (HISTOGRAMS) – Cách vẽ với SPSS
BƯỚC 4: Nếu muốn hiển thị đường phân phối chuẩn thì chọn Display normal curve
Trang 81 BIỂU ĐỒ TẦN SỐ (HISTOGRAMS) – Cách vẽ với SPSS
BƯỚC 5 : Chọn OK
Trang 91 BIỂU ĐỒ TẦN SỐ (HISTOGRAMS) – Cách nhận định
Trang 102 BIỂU ĐỒ HỘP VÀ RÂU (BOXPLOT) – Khái niệm
• Biểu đồ hộp và râu: áp dụng cho dữ liệu
định lượng
• Biểu đồ hộp và râu gồm một hộp và hai râu
• Đoạn thẳng trong hộp cho biết giá trị trung
vị của tập dữ liệu, hai cạnh (song song với
nó) còn lại cho biết giá trị tứ phân vị thứ
nhất và thứ ba
• Hai râu nối tới giá trị lớn nhất và nhỏ nhất
Trang 112 BIỂU ĐỒ HỘP VÀ RÂU (BOXPLOT) – Cách vẽ biểu đồ
Bước 1: Chọn Graph > Legacy Dialogs > Boxplot
Trang 12Bước 2: Tại cửa sổ Boxplot, chọn
Simple nếu muốn biểu diễn hộp đơn,
Clustered nếu biểu diễn hộp chùm Tại
khu vực Data in Chart Area, chọn
Summary for group of cases nếu
muốn biểu diễn biến định lượng theo
các nhóm, Summary of seperate
variables nếu muốn biểu diễn phân bố
2 BIỂU ĐỒ HỘP VÀ RÂU (BOXPLOT) – Cách vẽ biểu đồ
Trang 132 BIỂU ĐỒ HỘP VÀ RÂU (BOXPLOT) – Cách vẽ biểu đồ
Bước 3: Đưa biến vào hộp Boxes Represent và chọn OK ( Ví dụ biến Horse)
Trang 142 BIỂU ĐỒ HỘP VÀ RÂU (BOXPLOT) – Nhận định biểu đồ
• Chiều dài của hộp trên đồ thị bao gồm 50% số lượng các cases trong
mẫu điều tra
• Đường cắt ngang hộp thể hiện giá trị median (trung vị) của các mẫu điều
tra.
• Đường thẳng đứng ( đi qua hộp - the whisskers) nối giữa điểm nhỏ nhất
với lớn nhất của mẫu điều tra
• Bất kỳ giá trị nào được SPSS coi là outlier sẽ được thể hiện ở giới hạn
trên, hoặc giới hạn dưới của đường whiskers
• Các outliers được SPSS định nghĩa là các giá trị biến nằm cách xa hộp
Trang 152 BIỂU ĐỒ HỘP VÀ RÂU (BOXPLOT) – Nhận định biểu đồ
Trang 163 BIỂU ĐỒ TÁN XẠ (SCATTER PLOT) – Khái niệm
• Về căn bản, biểu đồ tán xạ (Scatter plot) dùng để mô
tả quan hệ giữa hai biến liên tục.
• Scatterplot nên được thực hiện trước khi tính hệ số
tương quan Biểu đồ tán xạ (Scatter plot) cho biết
hình dung về mối quan hệ giữa 2 biến.
• Cho biết mối quan hệ giữa các biến là lệch phải
(positive ) hay lệch trái (negative)
• Cho biết mối quan hệ giữa các biến có mạnh
Trang 173 BIỂU ĐỒ TÁN XẠ (SCATTER PLOT) – Cách vẽ bằng SPSS
Bước 1: Chọn Graph > Legacy Dialogs > Scatterplot
Trang 183 BIỂU ĐỒ TÁN XẠ (SCATTER PLOT) – Cách vẽ bằng SPSS
Bước 2: Tại cửa sổ Scatter/Dot, chọn Simple nếu vẽ biểu đồ cho một cặp biến (Ovelay
biểu diễn nhiều đám mây đơn cùng biểu đồ, )
Trang 193 BIỂU ĐỒ TÁN XẠ (SCATTER PLOT) – Cách vẽ bằng SPSS
Bước 3: Chọn biến đưa vào khung Y-axis (giá trị là tung độ của điểm), biến đưa vào
khung X-axis (giá trị là hoành độ của điểm) Ví dụ biến mpg và weight
Trang 203 BIỂU ĐỒ TÁN XẠ (SCATTER PLOT) – Cách vẽ bằng SPSS
Bước 4: Chọn OK
Trang 213 Biểu đồ tán xạ (Scatter plot) – Nhận định biểu đồ
• Chiều hướng ( cùng chiều/khác
chiều)
• Tuyến tính / không tuyến tính
• Độ mạnh/ yêu của mối quan hệ
• Giá trị ngoại biên
Trang 23ẢNH HƯỞNG CỦA DỮ LIỆU TRỐNG (MISSING DATA )
• Làm giảm kích thước mẫu
• Dữ liệu trống không ngẫu nhiên sẽ ảnh hưởng đến tính chính xác của kết quả nghiên cứu
Trang 24QUY TRÌNH XÁC ĐỊNH VÀ KHẮC PHỤC MD
• BƯỚC 1: Xác định loại dữ liệu trống (missing data)
• BƯỚC 2: Xác định phạm vi/kích thước của dữ liệu trống (missing
data)
• BƯỚC 3: Kiểm định tính ngẫu nhiên của dữ liệu trống (missing data
pattern)
Trang 25BƯỚC 1: XÁC ĐỊNH LOẠI DỮ LIỆU TRỐNG
(MISSING DATA )
1.1 Dữ liệu trống (Missing data): Có thể bỏ qua
1.2 Dữ liệu trống (Missing data): Không thể bỏ qua
Trang 261.1 MISSING DATA CÓ THỂ BỎ QUA
• Nguyên nhân do lấy mẫu
Thông thường, các cuộc khảo sát được thực hiện trên một bộ phận dân cư chứ không thực hiện trên toàn bộ dân cư
Để khắc phục những dữ liệu trống này này, nhà nghiên cứu sử dụng phương pháp “chọn mẫu ngẫu nhiên” hay còn gọi là chọn mẫu xác suất - phương pháp chọn mẫu mà khả năng được chọn vào mẫu của tất cả các đơn vị trong tổng thể đều như nhau
• Nguyên nhân đến từ việc thiết kế bảng câu hỏi
Những nhà nghiên cứu không quan tâm đến những dữ liệu trống này, đây là một phần
Trang 271.2 DỮ LIỆU TRỐNG (MISSING DATA)
KHÔNG THỂ BỎ QUA
1.2.1 Dữ liệu trống (Missing data) Có thể biết (Known)
1.2.2 Dữ liệu trống (Missing data) Không thể biết (Unknown)
Trang 281.2 DỮ LIỆU TRỐNG KHÔNG THỂ BỎ
QUA (NON-IGNORABLE MD)
1.2.1 Dữ liệu trống có thể biết (Known MD)
Dữ liệu trống (MD) giúp nhà nghiên cứu biết nguyên nhân phát sinh và những md này có thể được xác định dựa vào những nhân tố liên quan.
Trang 30BƯỚC 2: XÁC ĐỊNH PHẠM VI/KÍCH
THƯỚC CỦA DỮ LIỆU TRỐNG (MISSING
DATA)
Trang 31NỘI DUNG CỦA QUY TẮC 1 (RULES OF THUMBS 1)
BAO NHIÊU DỮ LIỆU THIẾU LÀ “QUÁ NHIỀU”?
• Một trường hợp/quan sát cụ thể có MD dưới 10% thông thường có được bị bỏ qua, trừ trường hợp MD đó xảy ra theo một cách “phi ngẫu nhiên” (ví dụ như: người làm khảo sát tập trung vào một số câu hỏi nào đó và bỏ qua/bỏ sót các câu cuối của bảng câu hỏi)
• Nếu những giá trị thay thế không thay thế được cho các MD, số trường
Trang 32XÓA NHỮNG QUAN SÁT HOẶC BIẾN CÓ GIÁ TRỊ TRỐNG
• Biện pháp khắc phục đơn giản là xóa các quan sát hoặc biến có mức độ thiếu dữ liệu quá cao
• Điếm bất lợi: làm giảm kích thước mẫu dữ liệu, ngoài ra mẫu sẽ không còn đại diện tốt
Trang 33BƯỚC 3: KIỂM ĐỊNH TÍNH NGẪU NHIÊN
CỦA MISSING DATA PATTERN
• Kiểm định này đánh giá tính ngẫu nhiên của missing data bằng cách so sánh những quan sát có missing data và những quan sát không có missing data
Trang 34• Sử dụng missing completely at random (MCAR) test Kiểm định này sẽ cho chúng ta biết nếu thực hiện ước tính thì có an toàn hay không? Có ảnh hưởng đến kết quả phân tích hay không?
• Kết quả của kiểm định này, chúng ta dựa vào giá trị p-value để xác định xem missing data có tính ngẫu nhiên hay không.
BƯỚC 3: KIỂM ĐỊNH TÍNH NGẪU NHIÊN
CỦA MISSING DATA PATTERN
Trang 35NỘI DUNG CỦA QUY TẮC 2 (RULES OF THUMBS 2)
XÓA BỎ BIẾN SỐ DỰA TRÊN MD
• Các biến số với khoảng 15% dữ liệu thiếu sẽ có thể bị xóa bỏ, tuy nhiên ở mức độ số dữ liệu thiếu cao hơn 30%) thì có thể sẽ cân nhắc về việc sử dụng biện pháp khắc phục.
(20%-• Đảm báo kích thước tổng thể đủ lớn để xóa bỏ một/một vài trường hợp/quan sát có md
• Những trường hợp/quan sát có MD của biến phụ thuộc thông thường sẽ bị xóa để ngăn chặn việc gây ảnh hưởng ảo đến mối quan hệ giữa biến phụ thuộc và biến độc lập.
• Khi xóa bỏ một biến phải chắc chắn rằng biến thay thế có tình tương quan cao và sẵn có để thể hiện được ý định của biến ban đầu.
• Luôn cân nhắc việc phân tích cả hai trường hợp:
(1) có các biến/các quan sát đã xóa bỏ,
Trang 36LỰA CHỌN CÁC PHƯƠNG PHÁP PHỎNG
ĐOÁN (IMPUTATION METHODS)
• Series mean: thay thế missing data bằng giá trị trung bình của toàn bộ chuỗi
• Mean of nearby points: thay thế missing data bằng giá trị trung bình của các giá trị hiện hữu
xung quanh Khoảng xung quanh này được giới hạn bằng “span of nearby points”.
• Median of nearby points: thay thế missing data bằng trung vị của các giá trị hiện hữu xung
quanh Khoảng xung quanh này được giới hạn bằng “span of nearby points”.
• Linear interpolation: thay thế missing data bằng phương pháp nội suy Hệ thống sẽ sử dụng
giá trị hợp lệ cuối cùng trước missing data vàv giá trị hợp lệ đầu tiên sau missing data để nội suy Nếu missing data nằm ở đầu hoặc cuối chuối giá trị thì missing data này sẽ không được thay thế.
• Linear trend at point: việc thay thế missing data được dựa theo một tuyến tính tại điểm đó
Chuỗi hiện hành sẽ được hồi quy trên một biến chỉ số từ 1 đến n Missing data sẽ được dự đoán
Trang 37NỘI DUNG CỦA QUY TẮC 3 (RULES OF THUMBS 3)
ƯỚC TÍNH DỮ LIỆU THIẾU
• Dưới 10%: bất kỳ phương pháp ước tính nào cũng có thể được áp dụng khi missing data ở
mức thấp như thế này, trong đó, phương pháp “complete case” ít được ưa thích nhất.
• 10% đến 20%: có thể sử dụng phương thức thay thế hot-deck Nếu là MCAR missing data, phương thức hồi quy thường được sử dụng nhất Nếu là MAR missing data, phương thức dựa trên mô hình (model-based)
• Hơn 20%: nếu thật sự cần thiết phải thay thế khi mức độ missing data hơn 20%, các phương thức thường sử dụng: nếu là MCAR missing data, phương thức hồi quy thường được
sử dụng nhất Nếu MAR missing data, sử dụng phương thức dựa trên mô hình
Trang 38(model-MISSING DATA: VÍ DỤ MINH HỌA
BƯỚC 1: XÁC ĐỊNH LOẠI MISSING DATA
Dữ liệu này được cung cấp từ tác giả nên nhóm chúng tôi mạn phép lấy những
nhận định của chính tác giả: “tất cả missing data trong ví dụ này là not
ignorable và unknown bởi vì đối tượng tham gia khảo sát không cung cấp
câu trả lời, vì vậy, nhà nghiên cứu buộc phải tiến hành kiểm tra những missing data này”.
Trang 39BƯỚC 2: XÁC ĐỊNH PHẠM VI/KÍCH THƯỚC CỦA MISSING DATA
Mục tiêu của bước này là xác định liệu mức missing data có đủ lớn để đảm bảo kích thước mẫu cho việc kiểm định “tính ngẫu nhiên” của missing data (trong bước 3).
Trang 41“Patterns” Button
Trang 42Descriptives
Trang 43Univariate Statistics
N Mean Std
Deviatio n
Missing Count Perce
- v6 có số lượng trường hợp có missing
data là ít nhất (6 trường hợp, chiếm
Trang 44Từ bảng Missing Patterns (cases with missing values) tổng hợp được kết quả sau:
Number of Missing Data
per Case
Number of Cases
Percent of Sample (%)
Trang 45Từ 2 bảng kết quả trên, ta thấy, hiện tại tỷ lệ missing value rất lớn, cần phải làm giảm
tỷ lệ này
Xóa biến v1 (30%) hay xóa biến v3 (24.3%)?
Nhìn vào bảng Tabulated Pattern:
Pattern 1: Có 26 quan sát hoàn chỉnh (không có missing value)
Pattern 2: Chỉ có 1 case thuộc pattern 2 (chỉ có missing data ở biến v3) Nếu không
sử dụng biến v3, thì số lượng quan sát hoàn chỉnh là 27 (tăng 1 so với hiện tại)
Pattern 3: Có 4 case thuộc pattern 3 (có missing data ở v1 và v3) Nếu không sử dụng
biến v1 và v3, thì số lượng quan sát hoàn chỉnh là 37 (tăng 11 so với hiện tại)
Trang 46Rõ ràng là không thể delete được cả 2 biến, điều này có thể ảnh
hưởng đến cấu trúc của mô hình
Trường hợp này, lựa chọn xóa biến v1 là hợp lý nhất (Pattern 4) vì nếu xóa biến 1 sẽ có thêm 6 completed cases và biến v1 cũng là
biến có nhiều missing data nhất
Như vậy, quyết định được đưa ra lúc này là:
- Xóa biến v1
- Xóa 6 quan sát có 7 missing data.
Trang 48Number of Missing Data per Case
Number of Cases
Percent of Sample (%)
Kết quả đã cải thiện tương đối, tuy nhiên mức độ missing data vẫn còn khá lớn, chúng
Lúc này chỉ còn biến v2, v3 có tỷ lệ missing data > 10%, các biến định tính lúc này cũng không còn missing data nữa
Từ bảng Missing Patterns (cases with missing values) tổng hợp được kết quả sau:
Trang 49BƯỚC 3: KIỂM ĐỊNH TÍNH NGẪU NHIÊN CỦA THIẾU MẪU DỮ LIỆU
(MISSING DATA PATTERN)
SỬ DỤNG MISSING COMPLETELY AT RANDOM (MCAR) TEST
KIỂM ĐỊNH NÀY SẼ CHO CHÚNG TA BIẾT NẾU THỰC HIỆN ƯỚC TÍNH THÌ
Trang 50Analyze Missing Value Analysis
Trang 52Kiểm định này đánh giá tính ngẫu nhiên của missing data bằng cách
so sánh những quan sát có missing data và những quan sát không có missing data
Ví dụ: nhóm 1 bao gồm các quan sát có missing data ở biến v2, nhóm 2 bao gồm các quan sát không có missing data ở biến v2 Sau
đó, hai nhóm này sẽ được so sánh để xem xét sự khác nhau khi 2 nhóm tương tác với các biến định lượng còn lại (v3 > v9) Thực hiên
Trang 53Bảng Separate Variance t-Test là kết quả của kiểm định này, chúng ta dựa vào
giá trị p-value để xác định xem missing data có tính ngẫu nhiên hay không
Ở trường hợp biến v2: p-value < 0.05 trong tương quan với biến v4, v5, v6 >
Significant > Có sự khác nhau giữa nhóm 1 và nhóm 2 trong tương quan với các biến v4, v5, v6
Ở trường hợp các biến v3 – v9: p-value > 0.05 => Non-sigfinicant => không có
sự khác nhau giữa nhóm 1 và nhóm 2
EM Means a
Trang 54P-value > 0.05 => non-significant > Như vậy các missing value này có tính ngẫu nhiên.Như vậy chúng ta không xóa biến v2 mà thể tiến hành thực hiện ước tính (imputation)
Transform Replace Missing Values
Trang 55Lựa chọn các Phương pháp phỏng đoán (Imputation methods)
- Series Mean: Thay thế missing data bằng giá trị trung bình của toàn bộ chuỗi
- Mean of nearby points: Thay thế missing data bằng giá trị trung bình của các giá trị hiện
hữu xung quanh Khoảng xung quanh này được giới hạn bằng “span of nearby points”
- Median of nearby points: Thay thế missing data bằng trung vị của các giá trị hiện hữu
xung quanh Khoảng xung quanh này được giới hạn bằng “span of nearby points”
- Linear Interpolation: Thay thế missing data bằng phương pháp nội suy Hệ thống sẽ sử
dụng giá trị hợp lệ cuối cùng trước missing data vàv giá trị hợp lệ đầu tiên sau missing data để nội suy Nếu missing data nằm ở đầu hoặc cuối chuối giá trị thì missing data này sẽ không được thay thế
Trang 56Lúc này, Variable View xuất hiện
các biến mới
Hệ thống tạo ra một bộ dữ liệu với
các biến mới này với data tương tự
như cũ và các missing data được
bổ sung bằng giá trị trung bình
tương ứng của từng biến
Trang 581 PHÂN PHỐI CHUẨN – Khái niệm
Phân phối chuẩn, còn gọi là phân
phối Gauss, là một phân phối xác
suất cực kì quan trọng trong nhiều
lĩnh vực Nó là họ phân phối có dạng
tổng quát giống nhau, chỉ khác tham
số vị trí (giá trị trung bình μ) và ) và tỉ
lệ (phương sai σ2 )
là đường cong chuông (bell curve) vì
đồ thị của mật độ xác suất có
dạng chuông.
Nếu phân phối không chuẩn quá trình kiểm tra
thống kê không hợp lệ sẽ ảnh hưởng đến các
quá trình phân tích phương sai, phân tích hồi
qui làm cho kết quả sai lệch.
Nếu như biến đó không có phân phối chuẩn ta
có 2 lựa chọn một là chuyển biến đó về phân
Trang 59ĐỘ LỆCH (SKEWNESS)
Độ lệch (skewness) của một phân
phối xác suất đo lường sự đối xứng
của phân phối đó Giá trị tuyệt đối
của độ lệch càng cao thì phân
phối đó càng bất đối xứng.
Một phân phối đối xứng có độ lệch
bằng 0.
Trang 61ĐỘ NHỌN (KURTOSIS)
Độ nhọn (Kurtosis): là một chỉ số để
đo lường về đặc điểm hình dáng của
một phân phối xác suất Phần trung
tâm càng cao và nhọn, chỉ số Kurtosis
của phân phối đó càng lớn Hay nói
cách khác, kurtosis đo lường độ “béo”
phần đuôi của một phân phối xác suất
Cái đuôi càng “béo”, kurtosis càng lớn