1. Trang chủ
  2. » Giáo án - Bài giảng

Thuyết trình chủ đề phân tích dữ liệu

77 311 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 77
Dung lượng 6,51 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

BIỂU ĐỒ HỘP VÀ RÂU BOXPLOT – Khái niệm• Biểu đồ hộp và râu: áp dụng cho dữ liệu định lượng • Biểu đồ hộp và râu gồm một hộp và hai râu • Đoạn thẳng trong hộp cho biết giá trị t

Trang 3

1 BIỂU ĐỒ TẦN SỐ (HISTOGRAMS) – Khái niệm

Biểu đồ tần số (Histograms): là một dạng đồ thị biểu thị dạng phân phối tần suất của một tập dữ liệu liên tục Nó cho phép chúng ta kiểm tra dạng phân phối, độ nhọn của tập dữ liệu

Trang 4

1 BIỂU ĐỒ TẦN SỐ (HISTOGRAMS) – Cách vẽ với SPSS

BƯỚC 1 : CHỌN GRAPH > LEGACY DIALOGS > HISTOGRAM

Trang 5

1 BIỂU ĐỒ TẦN SỐ (HISTOGRAMS) – Cách vẽ với SPSS

BƯỚC 2: CHỌN BIẾN MUỐN VẼ BIỂU ĐỒ (VÍ DỤ BIẾN WEIGHT TRONG FILE CAR.SAV)

Trang 6

1 BIỂU ĐỒ TẦN SỐ (HISTOGRAMS) – Cách vẽ với SPSS

BƯỚC 3 : VẼ THEO NHÓM BIẾN

Nếu muốn vẽ theo nhóm hãy chọn

biến phân biệt nhóm đưa vào mục

Panel by

- Chọn Rows nếu muốn các biểu đồ

xuất hiện trong cùng một dòng

- Chọn Column nếu muốn biểu đồ

Trang 7

1 BIỂU ĐỒ TẦN SỐ (HISTOGRAMS) – Cách vẽ với SPSS

BƯỚC 4: Nếu muốn hiển thị đường phân phối chuẩn thì chọn Display normal curve

Trang 8

1 BIỂU ĐỒ TẦN SỐ (HISTOGRAMS) – Cách vẽ với SPSS

BƯỚC 5 : Chọn OK

Trang 9

1 BIỂU ĐỒ TẦN SỐ (HISTOGRAMS) – Cách nhận định

Trang 10

2 BIỂU ĐỒ HỘP VÀ RÂU (BOXPLOT) – Khái niệm

• Biểu đồ hộp và râu: áp dụng cho dữ liệu

định lượng

• Biểu đồ hộp và râu gồm một hộp và hai râu

• Đoạn thẳng trong hộp cho biết giá trị trung

vị của tập dữ liệu, hai cạnh (song song với

nó) còn lại cho biết giá trị tứ phân vị thứ

nhất và thứ ba

• Hai râu nối tới giá trị lớn nhất và nhỏ nhất

Trang 11

2 BIỂU ĐỒ HỘP VÀ RÂU (BOXPLOT) – Cách vẽ biểu đồ

Bước 1: Chọn Graph > Legacy Dialogs > Boxplot

Trang 12

Bước 2: Tại cửa sổ Boxplot, chọn

Simple nếu muốn biểu diễn hộp đơn,

Clustered nếu biểu diễn hộp chùm Tại

khu vực Data in Chart Area, chọn

Summary for group of cases nếu

muốn biểu diễn biến định lượng theo

các nhóm, Summary of seperate

variables nếu muốn biểu diễn phân bố

2 BIỂU ĐỒ HỘP VÀ RÂU (BOXPLOT) – Cách vẽ biểu đồ

Trang 13

2 BIỂU ĐỒ HỘP VÀ RÂU (BOXPLOT) – Cách vẽ biểu đồ

Bước 3: Đưa biến vào hộp Boxes Represent và chọn OK ( Ví dụ biến Horse)

Trang 14

2 BIỂU ĐỒ HỘP VÀ RÂU (BOXPLOT) – Nhận định biểu đồ

• Chiều dài của hộp trên đồ thị bao gồm 50% số lượng các cases trong

mẫu điều tra

• Đường cắt ngang hộp thể hiện giá trị median (trung vị) của các mẫu điều

tra.

• Đường thẳng đứng ( đi qua hộp - the whisskers) nối giữa điểm nhỏ nhất

với lớn nhất của mẫu điều tra

• Bất kỳ giá trị nào được SPSS coi là outlier sẽ được thể hiện ở giới hạn

trên, hoặc giới hạn dưới của đường whiskers

• Các outliers được SPSS định nghĩa là các giá trị biến nằm cách xa hộp

Trang 15

2 BIỂU ĐỒ HỘP VÀ RÂU (BOXPLOT) – Nhận định biểu đồ

Trang 16

3 BIỂU ĐỒ TÁN XẠ (SCATTER PLOT) – Khái niệm

• Về căn bản, biểu đồ tán xạ (Scatter plot) dùng để mô

tả quan hệ giữa hai biến liên tục.

• Scatterplot nên được thực hiện trước khi tính hệ số

tương quan Biểu đồ tán xạ (Scatter plot) cho biết

hình dung về mối quan hệ giữa 2 biến.

• Cho biết mối quan hệ giữa các biến là lệch phải

(positive ) hay lệch trái (negative)

• Cho biết mối quan hệ giữa các biến có mạnh

Trang 17

3 BIỂU ĐỒ TÁN XẠ (SCATTER PLOT) – Cách vẽ bằng SPSS

Bước 1: Chọn Graph > Legacy Dialogs > Scatterplot

Trang 18

3 BIỂU ĐỒ TÁN XẠ (SCATTER PLOT) – Cách vẽ bằng SPSS

Bước 2: Tại cửa sổ Scatter/Dot, chọn Simple nếu vẽ biểu đồ cho một cặp biến (Ovelay

biểu diễn nhiều đám mây đơn cùng biểu đồ, )

Trang 19

3 BIỂU ĐỒ TÁN XẠ (SCATTER PLOT) – Cách vẽ bằng SPSS

Bước 3: Chọn biến đưa vào khung Y-axis (giá trị là tung độ của điểm), biến đưa vào

khung X-axis (giá trị là hoành độ của điểm) Ví dụ biến mpg và weight

Trang 20

3 BIỂU ĐỒ TÁN XẠ (SCATTER PLOT) – Cách vẽ bằng SPSS

Bước 4: Chọn OK

Trang 21

3 Biểu đồ tán xạ (Scatter plot) – Nhận định biểu đồ

• Chiều hướng ( cùng chiều/khác

chiều)

• Tuyến tính / không tuyến tính

• Độ mạnh/ yêu của mối quan hệ

• Giá trị ngoại biên

Trang 23

ẢNH HƯỞNG CỦA DỮ LIỆU TRỐNG (MISSING DATA )

• Làm giảm kích thước mẫu

• Dữ liệu trống không ngẫu nhiên sẽ ảnh hưởng đến tính chính xác của kết quả nghiên cứu

Trang 24

QUY TRÌNH XÁC ĐỊNH VÀ KHẮC PHỤC MD

• BƯỚC 1: Xác định loại dữ liệu trống (missing data)

• BƯỚC 2: Xác định phạm vi/kích thước của dữ liệu trống (missing

data)

• BƯỚC 3: Kiểm định tính ngẫu nhiên của dữ liệu trống (missing data

pattern)

Trang 25

BƯỚC 1: XÁC ĐỊNH LOẠI DỮ LIỆU TRỐNG

(MISSING DATA )

1.1 Dữ liệu trống (Missing data): Có thể bỏ qua

1.2 Dữ liệu trống (Missing data): Không thể bỏ qua

Trang 26

1.1 MISSING DATA CÓ THỂ BỎ QUA

Nguyên nhân do lấy mẫu

Thông thường, các cuộc khảo sát được thực hiện trên một bộ phận dân cư chứ không thực hiện trên toàn bộ dân cư

Để khắc phục những dữ liệu trống này này, nhà nghiên cứu sử dụng phương pháp “chọn mẫu ngẫu nhiên” hay còn gọi là chọn mẫu xác suất - phương pháp chọn mẫu mà khả năng được chọn vào mẫu của tất cả các đơn vị trong tổng thể đều như nhau

Nguyên nhân đến từ việc thiết kế bảng câu hỏi

Những nhà nghiên cứu không quan tâm đến những dữ liệu trống này, đây là một phần

Trang 27

1.2 DỮ LIỆU TRỐNG (MISSING DATA)

KHÔNG THỂ BỎ QUA

1.2.1 Dữ liệu trống (Missing data) Có thể biết (Known)

1.2.2 Dữ liệu trống (Missing data) Không thể biết (Unknown)

Trang 28

1.2 DỮ LIỆU TRỐNG KHÔNG THỂ BỎ

QUA (NON-IGNORABLE MD)

1.2.1 Dữ liệu trống có thể biết (Known MD)

Dữ liệu trống (MD) giúp nhà nghiên cứu biết nguyên nhân phát sinh và những md này có thể được xác định dựa vào những nhân tố liên quan.

Trang 30

BƯỚC 2: XÁC ĐỊNH PHẠM VI/KÍCH

THƯỚC CỦA DỮ LIỆU TRỐNG (MISSING

DATA)

Trang 31

NỘI DUNG CỦA QUY TẮC 1 (RULES OF THUMBS 1)

BAO NHIÊU DỮ LIỆU THIẾU LÀ “QUÁ NHIỀU”?

• Một trường hợp/quan sát cụ thể có MD dưới 10% thông thường có được bị bỏ qua, trừ trường hợp MD đó xảy ra theo một cách “phi ngẫu nhiên” (ví dụ như: người làm khảo sát tập trung vào một số câu hỏi nào đó và bỏ qua/bỏ sót các câu cuối của bảng câu hỏi)

• Nếu những giá trị thay thế không thay thế được cho các MD, số trường

Trang 32

XÓA NHỮNG QUAN SÁT HOẶC BIẾN CÓ GIÁ TRỊ TRỐNG

• Biện pháp khắc phục đơn giản là xóa các quan sát hoặc biến có mức độ thiếu dữ liệu quá cao

• Điếm bất lợi: làm giảm kích thước mẫu dữ liệu, ngoài ra mẫu sẽ không còn đại diện tốt

Trang 33

BƯỚC 3: KIỂM ĐỊNH TÍNH NGẪU NHIÊN

CỦA MISSING DATA PATTERN

• Kiểm định này đánh giá tính ngẫu nhiên của missing data bằng cách so sánh những quan sát có missing data và những quan sát không có missing data

Trang 34

• Sử dụng missing completely at random (MCAR) test Kiểm định này sẽ cho chúng ta biết nếu thực hiện ước tính thì có an toàn hay không? Có ảnh hưởng đến kết quả phân tích hay không?

• Kết quả của kiểm định này, chúng ta dựa vào giá trị p-value để xác định xem missing data có tính ngẫu nhiên hay không.

BƯỚC 3: KIỂM ĐỊNH TÍNH NGẪU NHIÊN

CỦA MISSING DATA PATTERN

Trang 35

NỘI DUNG CỦA QUY TẮC 2 (RULES OF THUMBS 2)

XÓA BỎ BIẾN SỐ DỰA TRÊN MD

• Các biến số với khoảng 15% dữ liệu thiếu sẽ có thể bị xóa bỏ, tuy nhiên ở mức độ số dữ liệu thiếu cao hơn 30%) thì có thể sẽ cân nhắc về việc sử dụng biện pháp khắc phục.

(20%-• Đảm báo kích thước tổng thể đủ lớn để xóa bỏ một/một vài trường hợp/quan sát có md

• Những trường hợp/quan sát có MD của biến phụ thuộc thông thường sẽ bị xóa để ngăn chặn việc gây ảnh hưởng ảo đến mối quan hệ giữa biến phụ thuộc và biến độc lập.

• Khi xóa bỏ một biến phải chắc chắn rằng biến thay thế có tình tương quan cao và sẵn có để thể hiện được ý định của biến ban đầu.

• Luôn cân nhắc việc phân tích cả hai trường hợp:

(1) có các biến/các quan sát đã xóa bỏ,

Trang 36

LỰA CHỌN CÁC PHƯƠNG PHÁP PHỎNG

ĐOÁN (IMPUTATION METHODS)

• Series mean: thay thế missing data bằng giá trị trung bình của toàn bộ chuỗi

• Mean of nearby points: thay thế missing data bằng giá trị trung bình của các giá trị hiện hữu

xung quanh Khoảng xung quanh này được giới hạn bằng “span of nearby points”.

• Median of nearby points: thay thế missing data bằng trung vị của các giá trị hiện hữu xung

quanh Khoảng xung quanh này được giới hạn bằng “span of nearby points”.

• Linear interpolation: thay thế missing data bằng phương pháp nội suy Hệ thống sẽ sử dụng

giá trị hợp lệ cuối cùng trước missing data vàv giá trị hợp lệ đầu tiên sau missing data để nội suy Nếu missing data nằm ở đầu hoặc cuối chuối giá trị thì missing data này sẽ không được thay thế.

• Linear trend at point: việc thay thế missing data được dựa theo một tuyến tính tại điểm đó

Chuỗi hiện hành sẽ được hồi quy trên một biến chỉ số từ 1 đến n Missing data sẽ được dự đoán

Trang 37

NỘI DUNG CỦA QUY TẮC 3 (RULES OF THUMBS 3)

ƯỚC TÍNH DỮ LIỆU THIẾU

• Dưới 10%: bất kỳ phương pháp ước tính nào cũng có thể được áp dụng khi missing data ở

mức thấp như thế này, trong đó, phương pháp “complete case” ít được ưa thích nhất.

• 10% đến 20%: có thể sử dụng phương thức thay thế hot-deck Nếu là MCAR missing data, phương thức hồi quy thường được sử dụng nhất Nếu là MAR missing data, phương thức dựa trên mô hình (model-based)

• Hơn 20%: nếu thật sự cần thiết phải thay thế khi mức độ missing data hơn 20%, các phương thức thường sử dụng: nếu là MCAR missing data, phương thức hồi quy thường được

sử dụng nhất Nếu MAR missing data, sử dụng phương thức dựa trên mô hình

Trang 38

(model-MISSING DATA: VÍ DỤ MINH HỌA

BƯỚC 1: XÁC ĐỊNH LOẠI MISSING DATA

Dữ liệu này được cung cấp từ tác giả nên nhóm chúng tôi mạn phép lấy những

nhận định của chính tác giả: “tất cả missing data trong ví dụ này là not

ignorable và unknown bởi vì đối tượng tham gia khảo sát không cung cấp

câu trả lời, vì vậy, nhà nghiên cứu buộc phải tiến hành kiểm tra những missing data này”.

Trang 39

BƯỚC 2: XÁC ĐỊNH PHẠM VI/KÍCH THƯỚC CỦA MISSING DATA

Mục tiêu của bước này là xác định liệu mức missing data có đủ lớn để đảm bảo kích thước mẫu cho việc kiểm định “tính ngẫu nhiên” của missing data (trong bước 3).

Trang 41

“Patterns” Button

Trang 42

Descriptives

Trang 43

Univariate Statistics

  N Mean Std

Deviatio n

Missing Count Perce

- v6 có số lượng trường hợp có missing

data là ít nhất (6 trường hợp, chiếm

Trang 44

Từ bảng Missing Patterns (cases with missing values) tổng hợp được kết quả sau:

Number of Missing Data

per Case

Number of Cases

Percent of Sample (%)

Trang 45

Từ 2 bảng kết quả trên, ta thấy, hiện tại tỷ lệ missing value rất lớn, cần phải làm giảm

tỷ lệ này

Xóa biến v1 (30%) hay xóa biến v3 (24.3%)?

Nhìn vào bảng Tabulated Pattern:

Pattern 1: Có 26 quan sát hoàn chỉnh (không có missing value)

Pattern 2: Chỉ có 1 case thuộc pattern 2 (chỉ có missing data ở biến v3) Nếu không

sử dụng biến v3, thì số lượng quan sát hoàn chỉnh là 27 (tăng 1 so với hiện tại)

Pattern 3: Có 4 case thuộc pattern 3 (có missing data ở v1 và v3) Nếu không sử dụng

biến v1 và v3, thì số lượng quan sát hoàn chỉnh là 37 (tăng 11 so với hiện tại)

Trang 46

Rõ ràng là không thể delete được cả 2 biến, điều này có thể ảnh

hưởng đến cấu trúc của mô hình

Trường hợp này, lựa chọn xóa biến v1 là hợp lý nhất (Pattern 4) vì nếu xóa biến 1 sẽ có thêm 6 completed cases và biến v1 cũng là

biến có nhiều missing data nhất

Như vậy, quyết định được đưa ra lúc này là:

- Xóa biến v1

- Xóa 6 quan sát có 7 missing data.

Trang 48

Number of Missing Data per Case

Number of Cases

Percent of Sample (%)

Kết quả đã cải thiện tương đối, tuy nhiên mức độ missing data vẫn còn khá lớn, chúng

Lúc này chỉ còn biến v2, v3 có tỷ lệ missing data > 10%, các biến định tính lúc này cũng không còn missing data nữa

Từ bảng Missing Patterns (cases with missing values) tổng hợp được kết quả sau:

Trang 49

BƯỚC 3: KIỂM ĐỊNH TÍNH NGẪU NHIÊN CỦA THIẾU MẪU DỮ LIỆU

(MISSING DATA PATTERN)

SỬ DỤNG MISSING COMPLETELY AT RANDOM (MCAR) TEST

KIỂM ĐỊNH NÀY SẼ CHO CHÚNG TA BIẾT NẾU THỰC HIỆN ƯỚC TÍNH THÌ

Trang 50

Analyze  Missing Value Analysis

Trang 52

Kiểm định này đánh giá tính ngẫu nhiên của missing data bằng cách

so sánh những quan sát có missing data và những quan sát không có missing data

Ví dụ: nhóm 1 bao gồm các quan sát có missing data ở biến v2, nhóm 2 bao gồm các quan sát không có missing data ở biến v2 Sau

đó, hai nhóm này sẽ được so sánh để xem xét sự khác nhau khi 2 nhóm tương tác với các biến định lượng còn lại (v3 > v9) Thực hiên

Trang 53

Bảng Separate Variance t-Test là kết quả của kiểm định này, chúng ta dựa vào

giá trị p-value để xác định xem missing data có tính ngẫu nhiên hay không

Ở trường hợp biến v2: p-value < 0.05 trong tương quan với biến v4, v5, v6 >

Significant > Có sự khác nhau giữa nhóm 1 và nhóm 2 trong tương quan với các biến v4, v5, v6

Ở trường hợp các biến v3 – v9: p-value > 0.05 => Non-sigfinicant => không có

sự khác nhau giữa nhóm 1 và nhóm 2

EM Means a

Trang 54

P-value > 0.05 => non-significant > Như vậy các missing value này có tính ngẫu nhiên.Như vậy chúng ta không xóa biến v2 mà thể tiến hành thực hiện ước tính (imputation)

Transform  Replace Missing Values

Trang 55

Lựa chọn các Phương pháp phỏng đoán (Imputation methods)

- Series Mean: Thay thế missing data bằng giá trị trung bình của toàn bộ chuỗi

- Mean of nearby points: Thay thế missing data bằng giá trị trung bình của các giá trị hiện

hữu xung quanh Khoảng xung quanh này được giới hạn bằng “span of nearby points”

- Median of nearby points: Thay thế missing data bằng trung vị của các giá trị hiện hữu

xung quanh Khoảng xung quanh này được giới hạn bằng “span of nearby points”

- Linear Interpolation: Thay thế missing data bằng phương pháp nội suy Hệ thống sẽ sử

dụng giá trị hợp lệ cuối cùng trước missing data vàv giá trị hợp lệ đầu tiên sau missing data để nội suy Nếu missing data nằm ở đầu hoặc cuối chuối giá trị thì missing data này sẽ không được thay thế

Trang 56

Lúc này, Variable View xuất hiện

các biến mới

Hệ thống tạo ra một bộ dữ liệu với

các biến mới này với data tương tự

như cũ và các missing data được

bổ sung bằng giá trị trung bình

tương ứng của từng biến

Trang 58

1 PHÂN PHỐI CHUẨN – Khái niệm

Phân phối chuẩn, còn gọi là phân

phối Gauss, là một phân phối xác

suất cực kì quan trọng trong nhiều

lĩnh vực Nó là họ phân phối có dạng

tổng quát giống nhau, chỉ khác tham

số vị trí (giá trị trung bình μ) và ) và tỉ

lệ (phương sai σ2 )

là đường cong chuông (bell curve) vì

đồ thị của mật độ xác suất có

dạng chuông. 

 Nếu phân phối không chuẩn quá trình kiểm tra

thống kê không hợp lệ sẽ ảnh hưởng đến các

quá trình phân tích phương sai, phân tích hồi

qui làm cho kết quả sai lệch.

 Nếu như biến đó không có phân phối chuẩn ta

có 2 lựa chọn một là chuyển biến đó về phân

Trang 59

ĐỘ LỆCH (SKEWNESS)

Độ lệch (skewness) của một phân

phối xác suất đo lường sự đối xứng

của phân phối đó Giá trị tuyệt đối

của độ lệch càng cao thì phân

phối đó càng bất đối xứng.

Một phân phối đối xứng có độ lệch

bằng 0.

Trang 61

ĐỘ NHỌN (KURTOSIS)

Độ nhọn (Kurtosis): là một chỉ số để

đo lường về đặc điểm hình dáng của

một phân phối xác suất Phần trung

tâm càng cao và nhọn, chỉ số Kurtosis

của phân phối đó càng lớn Hay nói

cách khác, kurtosis đo lường độ “béo”

phần đuôi của một phân phối xác suất

Cái đuôi càng “béo”, kurtosis càng lớn

Ngày đăng: 01/11/2017, 14:33

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w