1. Trang chủ
  2. » Giáo Dục - Đào Tạo

PHÂN TÍCH dữ LIỆU với IBM SPSS STATISTICS

225 23 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 225
Dung lượng 1,95 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Phân loại dữ liệu • Dữ liệu định tính: thu thập từ thang đo danh nghĩa và thứ bậc -> khơng tính được trị trung bình • Dữ liệu định lượng: thu thập từ thang đo khoảng cách và tỉ lệ -> tín

Trang 1

PHÂN TÍCH DỮ LIỆU với IBM-SPSS STATISTICS

Hoàng Trọng

Tháng 7 năm 2018

Trang 2

Nghiên cứu & phân tích dữ liệu

Trang 3

NCKH và phân tích dữ liệu

• Nghiên cứu định lượng cần phân tích dữ liệu

• Với khối lượng dữ liệu lớn, cần chương trình máy tính để thực hiện

• SPSS là một chương trình thống kê dễ sử dụng và mạnh mẽ

Xác định vấn đề Câu hỏi nghiên cứu

Mục tiêu nghiên cứu

(giới hạn nghiên cứu)

Thiết kế nghiên cứu

Lý thuyết, Mô hình, Biến số, giả thuyết, chọn mẫu, phương pháp thu thập dữ liệu

Thu thập & phân tích dữ liệu

Báo cáo

Đề cương nghiên cứu (proposal)

Trang 4

Phân tích dữ liệu

• Phân tích dữ liệu là quá trình chuyển từ những dữ liệu rời rạc của

từng quan sát thành những thơng tin, những tri thức, hiểu biết đáng tin cậy

Mức độ cải thiện các quyết định Dữ liệu

Thông tin

Sự kiện

Hiểu biết, tri thức

Mức độ chính xác của mô hình thống

(Nguồn: Hossein Arsham , Manchester Metropolitan University)

Trang 5

1 Phân loại dữ liệu, mã hóa,

nhập liệu và một số xử lý trên biến

Trang 6

Phân loại dữ liệu

• Dữ liệu định tính: thu thập từ thang đo danh nghĩa và thứ bậc ->

khơng tính được trị trung bình

• Dữ liệu định lượng: thu thập từ thang đo khoảng cách và tỉ lệ -> tính được trị trung bình

Dữ liệu

Dữ liệu định lượng

Dữ liệu định tính

thang đo danh nghĩa

thang đo

tỉ lệ thang đo

thứ bậc khoảng cáchthang đo

Trang 7

Tổ chức dữ liệu – ma trận dữ liệu

• Quan sát (observation, case): dữ liệu thu thập được từ một đơn vị mẫu khảo sát thực tế

• Biến (variable): đơn vị chứa một loại dữ liệu giống nhau (ví dụ giới tính)

• Ma trận (bảng) dữ liệu: tập hợp dữ liệu của nhiều quan sát (dòng)

được sắp xếp thành từng loại rõ ràng (cột-biến)

Các quan sát

Trang 8

Nguyên tắc mã hóa & nhập liệu

• Dữ liệu định tính: mã hóa bằng cách dùng mã số gán cho các biểu hiện hay tính chất

• Dữ liệu định lượng: không cần mã hóa (đã có ý nghĩa)

• Phân tích BCH/form rồi tạo khuôn nhập theo nguyên tắc mỗi loại dữ

liệu là một biến

• Dữ liệu được nhập trực tiếp vào ở màn hình data của SPSS, từ trái

qua phải theo từng quan sát (dòng)

Các quan sát

Trang 9

Nguyên tắc mã hóa & nhập liệu

• Khi khai báo value labels, nếu danh sách các hạng mục quá nhiều thì nên dùng syntax để gán các label cho nhanh

• Muốn gán các Value Labels cho các code này thì thực hiện như sau

– Từ menu chọn lệnh: File > New > Syntax

– Trong cửa số sytax gõ những dòng code như sau:

VARIABLE LABELS Tên biến ‘nhãn của tên biến'

VALUE LABELS Tên biến

Các nhãn có thể chép từ file Word (BCH) hay từ file Excel có sẵn qua để tiết kiệm thời gian Các nhãn phải đặt trong dấu nháy đơn, có thể vào Excel để tạo các dấu nháy đơn hàng loạt.

Trang 10

Ví dụ và thao tác

Dùng BCH ở phần cuối sách Phân tích Dữ liệu với SPSS:

• Phân tích các câu hỏi, các dữ liệu thu thập được, xác định số biến cần khởi tạo

• Thực hành tạo khuôn cho BCH này, chú ý các câu hỏi có nhiều trả lời

và câu hỏi dùng thang đo thứ bậc

• Có thể chia cho vài người nhập sau đó ghép các biến đã tạo được

bằng lệnh: Data > Merge files > Add variables

• Xem thao tác demo trên lớp

Trang 11

XÂY DỰNG CƠ SỞ DỮ LIỆU

CHO PHÂN TÍCH

Preparing Database for Analysis

Trang 12

Đơn vị phân tích

Khi khảo sát chú ý có các loại đơn vị sau:

• Đơn vị lấy mẫu

• Đơn vị báo cáo

• Đơn vị phân tích

-> giới hạn: chỉ xem xét trường hợp đơn vị báo cáo là đơn vị phân tích

trong chương trình này

Trang 13

Nhập liệu

• Nhập trực tiếp trong SPSS -> phổ biến trong các NCKH cỡ mẫu không quá lớn

• Bằng chương trình Data Entry của SPSS (nặng nề, năng suất thấp)

• Nhập bằng chương trình khác (Excel, Fox, …) hay chương trình viết

riêng (không tiện lợi hay mất thời gian viết chương trình nhập) nếu số lượng mẫu không nhiều

• Có thể nhiều người nhập song song, rồi ghép file thủ công hay bằng

lệnh Data > Merge files > Add cases

Trang 14

Làm sạch dữ liệu

• Dùng lệnh sort: sort theo từng biến, xem các trị số ở đầu và cuối để

phát hiện giá trị bất thường Lệnh: menu Data > Sort cases

• Bảng tần số đơn: dùng bảng tần số đơn để phát hiện ra các trị số hay phân loại bất thường và số lần xuất hiện của chúng Lệnh: menu

Analyze > Descriptives Statistics > Frequencies

• Dùng bảng phức: để phát hiện ra các mâu thuẫn giữa các dữ liệu của 2 biến Ví dụ: tuổi 18 nghề nghiệp là giáo viên Lệnh: menu Analyze >

Tables > Custom Tables Sau khi phát hiện ra trường hợp bất hợp lý thì dùng lệnh Select Cases để xác định dòng dữ liệu có vấn đề để đối

chiếu với BCH gốc

-> Cần có kinh nghiệm, kiến thức liên quan đến đối tượng, bối cảnh, nội dung nghiên cứu

Trang 15

Một số xử lý trên biến

• Mã hóa lại biến:

– biến định tính có quá nhiều phân loại, cần gộp lại thành một số

lượng ít phân loại hơn Ví dụ như khu vực địa lý, nghề nghiệp/công việc, học vấn …

– Một biến định lượng có nhiều trị số trãi dài cần được phân tổ thành một số nhóm Ví dụ như: tuổi, thu nhập

• Lệnh cơ bản là menu Transform > Recode > Into Different Variables

Trang 16

2 Tóm tắt & trình bày dữ liệu

Trang 17

Bảng thống kê - Tables Bảng tần số đơn biến: áp dụng cho biến định tính & định lượng -> nếu số lượng nhóm quá nhiều -> phân tổ lại, mã hóa lại (recode) Bảng thống kê mô tả: áp dụng cho biến định lượng, tính toán

khuynh hướng tập trung và độ phân tán

Bảng kết hợp nhiều biến:

Bảng kết hợp cho các biến định tính: tính tần số và %.

Bảng kết hợp cho biến định tính và biến định lượng: tính trung bình, median,

độ lệch chuẩn, …

Ghép biến cho dạng câu hỏi có nhiều trả lời và có nhiều biến tương ứng

Xem chi tiết trong tài liệu Sử dụng Custom Tables

Trang 18

Biểu đồ đơn biến: biểu đồ phân phối tần số

Biểu đồ & đồ thị - Graphs

N = 51.00

Trang 19

Biểu đồ đơn biến: hình thanh, hình tròn

Biểu đồ & đồ thị - Graphs

Nguồn nhận biết

Quy mô các món vay

< 10 trđ 32%

200 - 500 trđ 21%

> 500 trđ 7%

10 - 200 trđ 40%

52 48 43 49 44 40 40 42 35 28 50 44 43

46 39 42 36 33 32 18

58 45

28

17 15

54

25 22 21 19 19 15

25 20

19 9

5 11 6

13 2

5

3 7 9

Trang 20

0 3 1 0 7 8 7 1 4 5 21 5 32 17 25 41 68

4 20 8 8 31 24 41 14 18 36 60 32 56 52 67 71 91

1 0 2 1 0 0 1 3 2 2 3 7 4 18 22 30 6

11 0 12 2 3 2 4 17 28 11 10 21 17 47 61 70 26

38 7 28 9 8 13 12 42 53 35 28 38 44 69 83 85 54

0 20 40 60 80 100

Habubank Phương Đông

VP Bank Hàng Hải Phương Nam Eximbank SCB Military Bank Techcombank VIBank Sacombank BIDV EAB Incombank Agribank Vietcombank ACB

%

Aided Unaided Tom

REVENUES

40000 30000

20000 10000

Trang 21

Biểu đồ & đồ thị - Graphs

Bản đồ nhận thức (không bao gồm trong chương trình này):

Dimension 1

.7 0.0

VIETCOMBANK

INCOMBANK

BIDV

AGRIBANK TECHCOMBANK

Th«ng dông

Qu¶n trÞ tèt CnghÖ tiª n tiÕn

Chuyª n nghiÖp

NV niÒm në

NV giái NhiÒu ®®iÓm GD N¬i GD lÞch sù

Ch¨ m sãc KH tèt

LS vay hî p lý

LS göi hÊp dÉn

PhÝ DV hî p lý SP-DV phong phó

Vèn lí n

Uy tÝ n Næi tiÕng

Trang 22

Thống kê mô tả 1 biến

Univariate analysis

Trang 23

Độ tập trung & phân tán

Dùng cho dữ liệu định lượng

Khuynh hướng tập trung: mức độ điển hình, mức độ đại diện

Trung bình cộng

Trung vị: ít bị ảnh hưởng bởi các giá trị bất thường

Mốt: có điểm tập trung rõ rệt

Độ phân tán: mức độ chêch lệch (hay đồng đều) giữa các phần tử

Phương sai: độ phân tán bị phóng đại

-> Độ lệch chuẩn

Hình dáng của phân phối: biểu đồ thân và lá, biểu đồ hộp

-> phân phối lệch trái: đa số các đơn vị có mức độ dưới trung bình

-> phân phối lệch phải: đa số các quan sát có mức độ trên trung bình

Trang 24

Đo lường khuynh hướng tập trung

Tìm ra mức độ đại diện theo một tiêu thức/biến.

Coefficient of Variation

Range Percentiles

Interquartile Range Quartiles

Trang 25

Đo lường khuynh hướng tập trung

Tìm ra mức độ đại diện theo một biến.

Khuynh hướng tập trung

N

i i

X X

n X N

Trang 26

Đo lường khuynh hướng tập trung

f

f

x x

1 1

i

k

1 i

i i

f

f

m x

n

x x

n i

i

Trang 27

Đo lường khuynh hướng tập trung

1 Trung bình cộng

• Trung bình cộng chịu ảnh hưởng của các trị số bất thường

0 1 2 3 4 5 6 7 8 9 10 12

14 Trung bình =

Trang 28

Đo lường khuynh hướng tập trung

n e

(min) Me

e

f

S 2

n h

x

Trang 29

Đo lường khuynh hướng tập trung

Trang 30

Đo lường khuynh hướng tập trung

3 Mốt (mode)

• Đo lường khuynh hướng tập trung

• Mode là giá trị có tần số lớn nhất

• Mode không chịu ảnh hưởng bởi các giá trị đột biến

• Một dãy số có thể có nhiều Mode

• Một dãy số có thể không có Mode

• Mode có thể xác định cho dữ liệu định tính

• Thường xác định mode từ dữ liệu sơ cấp với phần mềm

30

Trang 31

Đo lường khuynh hướng tập trung

f ( ) f

f (

f

f h

x

Mode

1 M M

1 M M

1 M

M M

(min) Mo

0 0

0 0

0 0

Trang 32

Đo lường khuynh hướng tập trung

4 Trung bình nhân/ trung bình hình học (geometric mean)

2

1 x x x x

Trang 33

Các thước đo vị trí khác

Other Measures of

Location

Percentiles Phân vị

The pth percentile in a data array:

• p% are less than or equal to this

value

• (100 – p)% are greater than or

equal to this value

(where 0 ≤ p ≤ 100)

33

Trang 34

i  

12 1)

(19 100

60 1)

(n 100 p

Trang 35

35Phân vị và tứ phân vị được xác định dễ dàng với phần mềm IBM-SPSS

Trang 36

Các thước đo vị trí khác

Biểu đồ hộp và râu (Box and whisker plot):

Là công cụ đồ họa thể hiện 5 số trị số tóm tắt :

Minimum Q1 Median Q3 Maximum

Hình hộp và đường trung tâm ở ngay vị trí chính giữa cho

thấy dữ liệu đối xứng quanh trung vị

25% 25% 25% 25%

36Biểu đồ hộp diễn tả mức độ tập trung/ phân tán của dữ liệu

Minimum 1st Median 3rd Maximum

Quartile Quartile

Minimum 1st Median 3rd Maximum

Quartile Quartile

Trang 37

Đo lường độ phân tán/biến thiên

Same center, different variation

37

Trang 38

Đo lường độ phân tán/biến thiên

Variation

Variance Standard Deviation Coefficient of

Variation Population

Variance

Sample Variance

Population Standard Deviation

Sample Standard Deviation

Range

Interquartile

Range

38

Trang 39

Đo lường độ phân tán/biến thiên

Biến thiên

Phương sai Độ lệch chuẩn Hệ số biến thiên

Phương sai tổng thể

Phương sai mẫu

Độ lệch chuẫn tổng thể

Độ lệch chuẩn mẫu

Khoảng

biến thiên

Độ trải giữa

39

Trang 40

Đo lường độ phân tán/biến thiên

1 Khoảng biến thiên:

n i

n i

i

% 100

Trang 41

Đo lường độ phân tán/biến thiên

Mean = 15.5

s = 3.338

41

Trang 42

Đo lường độ phân tán/biến thiên

Quy tắc thực nghiệm

• Đối với những tổng thể lớn, phân phối của các giá trị có dạng gần

giống hình chuông cân đối (có thể dùng đồ thị Histogram để xem

xét), phân phối chuẩn được sử dụng để mô tả hình dáng của phân phối

42

Trang 43

Đo lường độ phân tán/biến thiên

Quy tắc Tchebychev

• Bất kỳ một tổng thể nào với trung bình là  và độ lệch tiêu chuẩn là

, thì có ít nhất 100(1-1/m2)% giá trị rơi vào khoảng   m, với m > 1

43

Trang 44

Hình dáng phân phối của tập dữ liệu

(Longer tail extends to left) (Longer tail extends to right)

Diễn tả dữ liệu được phân phối như thế nào

Đối xứng hay lệch

Lệch phải

Trang 45

Hình dáng phân phối của tập dữ liệu

Diễn tả dữ liệu được phân phối như thế nào

Trang 46

Hình dáng phân phối:

Hệ số bất đối xứng (Skewness)

 Một đại lượng số quan trọng đo lường hình dáng của một phân phối gọi là Hệ số bất đối xứng (Skewness)

 Công thức hệ số bất đối xứng cho mẫu:

 Hệ số bất đối xứng được tính bằng các phần mềm thống kê

 Skewness = 0: phân phối đối xứng

 Skewness < 0: phân phối lệch trái, < -1: lệch trái nhiều

 Skewness > 0: phân phối lệch phải, > +1: lệch phải nhiều

1 (

Skewness

s

x

x n

n

Trang 47

Chuẩn hóa dữ liệu

Chuyển các dữ liệu với đo vị đo lường thực tế về đơn vị đo lường

là độ lệch chuẩn.

Khi có nhiều biến số có đơn vị tính khác nhau, chuẩn hóa dữ liệu giúp so sánh được biến thiên của chúng

Với dữ liệu của tổng thể:

Với dữ liệu của mẫu quan sát:

Trang 48

Phát hiện các giá trị bất thường

 Giá trị bất thường là giá trị nhỏ bất thường hoặc lớn bất thường trong tập dữ liệu.

 Một giá trị dữ liệu có giá trị z nhỏ hơn -3 hoặc lớn +3 có thể được xem là giá trị bất thường.

 Giá trị bất thường có thể là:

• Được ghi chép không chính xác (sai sót khi thâu thập DL)

• Một giá trị dữ liệu không nằm trong tập dữ liệu

• Một giá trị dữ liệu bất thường đã được ghi lại một cách

chính xác và thuộc trong tập dữ liệu

Trang 49

Xem xét dữ liệu có thỏa PP chuẩn không

Vì suy diễn thống kê hầu như dựa vào phân phối chuẩn, cho nên cần phải biết bộ dữ liệu có thỏa điều kiện phân phối chuẩn hay không?

• Xem biểu đồ phân phối tần số với đường cong chuẩn có lệch nhiều không

• Xem biểu đồ phân phối xác suất chuẩn có theo đường chéo không

• Dùng kiểm định Kolmogorov-Smirnov/ Shapiro-Wilk

Observed Value

25 20

15 10

5 0

Normal Q-Q Plot of số nhân khẩu trong gia đình

số nhân khẩu trong gia đình

20 15

10 5

N = 500 Normal

Trang 50

Xem xét dữ liệu có thỏa PP chuẩn không

Kiểm định Kolmogorov-Smirnov/ Shapiro-Wilk

Giả thuyết Ho: phân phối của dữ liệu tổng thể có phân phối chuẩn

Nếu kết quả test cho thấy p-value (sig.) nhỏ hơn 0.05 thì có đủ bằng chứng để kết luận rằng tổng thể không có phân phối chuẩn theo biến quan sát này

(Nếu kết luận tổng thể không có phân phối chuẩn thì khi suy diễn thống kê, theo định lý giới hạn trung tâm thì cỡ mẫu phải đủ lớn là trên 30, nếu phân phối lệch nhiều thì cỡ mẫu phải trên 50)

Tests of Normality

Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig Statistic df Sig.

.207 500 000 824 500 000

a

Trang 51

Ước lượng & kiểm định trung bình

Ước lượng điểm: chính là trung bình mẫu

Ước lượng khoảng: lấy trung bình mẫu cộng trừ 1,96 (thường làm tròn

thành 2) lần sai số chuẩn (SE) Thường dùng trong nghiên cứu ứng

dụng để ra quyết định quản lý hay kinh doanh

Kiểm định trung bình tổng thể có bằng một giá trị cụ thể hay không

• Dùng kiểm định t một mẫu

• Dùng trong nghiên cứu ứng dụng xem có đạt được mục tiêu hay

không, ví dụ như mức độ hài lòng của khách hàng có đạt mức 4 trên

thang điểm 5 không

Trang 52

MỐI LIÊN HỆ GIỮA HAI BIẾN

Bivariate analysis

Trang 53

Loại biến và loại kiểm định

Định danh/ thứ bậc Định danh/ thứ bậc Chi bình phương

Định danh/ thứ bậc

Định danh/ thứ bậc

(nhiều hơn 2 nhóm) Định lượng ANOVA

Định lượng Định lượng Tương quan & hồi qui

Định lượng Định danh/ thứ bậc Hồi qui logistic,

Phân tích biệt số

Trang 54

Liên hệ hai biến định tính

Dữ liệu dưới dạng tần số

Dùng bảng chéo khám phá mối liên hệ

Dùng kiểm định chi bình phương (kiểm định tính độc lập) để xem xét mối liên hệ có ý nghĩa thống kê hay không, chưa đo đực độ mạnh của mối liên hệ

Dùng những thước đo như hệ số liên kết lamda, phi để đo lường độ mạnh mối liên hệ

Lệnh: menu Analyze > Descriptive Statistics > Crosstabs > Statistics >

Chi-square

Nếu cả 2 biến đều là thứ bậc thì dùng Gamma hay Kendall’s tau để đo

lường độ mạnh của mối liên hệ chính xác hơn

Trang 55

Liên hệ một biến định tính và một

biến định lượng

Biến nguyên nhân: biến định danh hay thứ bậc

Biến kết quả: biến định lượng

-> nếu biến nguyên nhân chỉ có 2 nhóm: dùng kiểm định trung bình (kiểm định t)

-> nếu biến nguyên nhân có từ 3 nhóm trở lên: dùng phân tích phương

sai

Trang 56

Liên hệ hai biến định lượng

Đo lường độ mạnh bằng hệ số tương quan hay tỉ số tương quan

Thể hiện mối quan hệ bằng phương trình hồi qui

Trang 57

• nếu kiểm định phương sai cho thấy phương sai 2 tổng thể so sánh

đồng đều thì dùng kết quả kiểm định t ở dòng trên

• nếu kiểm định phương sai cho thấy phương sai 2 tổng thể so sánh

không đồng đều thì dùng kết quả kiểm định t ở dòng dưới

Trang 58

PHÂN TÍCH PHƯƠNG SAI

Analysis of variance

Trang 59

Khái niệm ANOVA

• Mục tiêu của ANOVA là so sánh trung bình của nhiều nhóm (tổng thể) dựa trên các trung bình mẫu.

• Trong nghiên cứu, ANOVA được dùng như một công cụ để xem xét ảnh hưởng của một yếu tố nguyên nhân (biến định tính) đến một yếu tố kết quả (biến định lượng)

Ngày đăng: 25/07/2021, 12:59

TỪ KHÓA LIÊN QUAN