1. Trang chủ
  2. » Thể loại khác

Tài liệu Bai giang SPSS 3,5, docx

63 529 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phương Pháp Phân Tích Dữ Liệu
Trường học Trường Đại Học XYZ
Chuyên ngành Phân Tích Dữ Liệu
Thể loại Tài Liệu
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 63
Dung lượng 605 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nội dung : Chương 3PHƯƠNG PHÁP PHÂN TÍCH DỮ LIỆU Xuất phát từ cách nhìn của một nhà nghiên cứu muốn xác định các phương pháp phân tích đưa vào ứng dụng cho dữ liệu, chứ không phải từ

Trang 1

Nội dung : Chương 3

PHƯƠNG PHÁP PHÂN TÍCH DỮ LIỆU

Xuất phát từ cách nhìn của một nhà nghiên cứu muốn xác định

các phương pháp phân tích đưa vào

ứng dụng cho dữ liệu, chứ không

phải từ cách nhìn của một kỹ thuật

viên thống kê (có thể thấu hiểu đầy

đủ hơn bản chất các phương pháp

thống kê),

Trang 2

3.1 Bản chất và chức năng của phân tích thống kê Phân tích thống kê có thể được hiểu là các phương

pháp chắt lọc dữ liệu để rút ra các suy luận

Tóm tắt dữ liệu.

Áp dụng các phương pháp phân tích để làm rõ các

mối quan hệ tương hỗ và các ý nghĩa định

lượng giữa các dữ liệu.

Trang 3

3.2 Quá trình phân tích dữ liệu

Xếp dữ liệu theo thứ tự

(lập dãy, lập bảng, xếp loại, tính %)Tóm tắt dữ liệu thống kêChọn phương pháp phân

tích thích hợp (chọn các tiêu chuẩn)Phân

tích các sai biệtNghiên cứu các mối liên hệPhân tích dữ liệu thực nghiệm

Trang 4

a/ Xếp dữ liệu theo thứ tự

Dữ liệu thô được thu thập từ thực địa và mã

hóa vẫn chưa đủ điều kiện để cho phép phân tích, diễn giải Chúng cần được trải qua giai đoạn sắp xếp theo thứ tự và bước

thống kê (lập bảng) Phân làm 3 loại như

sau:

Trang 5

b/ Lập dãy (array)

Đây là hình thức đơn giản nhất để sắp xếp

dữ liệu Cách này sẽ xếp dữ liệu thành

chuỗi số theo hướng tăng dần, hoặc

giảm dần Phương pháp này chỉ thích

hợp với những dãy dữ liệu nhỏ, nó cho thấy sự phân bố của dãy số, giá trị

max và min của dãy số, sự tập trung

của dãy số đó

Trang 6

c/ Lập bảng đơn giản (một chiều hoặc một

biến)

Ta đếm tần suất xuất hiện của dữ liệu

trong chuỗi dữ liệu và lập thành bảng

phân phối tần suất (frequency

distribution) như sau

Trang 7

Bảng phân bố tuổi của các thí sinh

Tuổi Tần số tuyệt

Trang 8

Dạng bảng này thể hiện khá rõ ràng về phân bố dãy

dữ liệu theo các mức dữ liệu khác nhau

Tần số quan sát tuyệt đối ứng với từng mức dữ liệu khác

nhau.

Tần số quan sát tương đối tính theo tỷ lệ % của từng

mức dữ liệu so với toàn bộ mẫu quan sát.

Tần số tích lũy chỉ rõ tỷ lệ % của tất cả quan sát có giá

trị nhỏ hơn hay bằng giá trị mức dữ liệu đang xem xét.

Các giá trị dữ liệu bất thường (quá lớn hay quá nhỏ) để

kiểm chứng lại vì những giá trị dữ liệu sau có thể làm lệch kết quả phân tích thống kê, hoặc những giá trị đúng nhưng bất thường đôi khi cần một cách xử lý đặc biệt khác

Các giá trị mã hóa bất thường sẽ chỉ ra sai sót do việc

nhập liệu hay mã hóa

Trang 9

d/ Lập bảng so sánh toàn diện (Cross-tabulation)

Nhiều vấn đề nghiên cứu có thể được giải quyết bằng việc lập những bảng đơn giản Tuy nhiên, bảng đơn giản chỉ cho biết sự phân bố của một biến số tại một thời điểm nào đó, và có thể không đem lại đầy đủ

thông tin cho dữ liệu Hầu hết các dữ liệu đều có thể được tổ chức ở hình thức cao hơn để cho ra những

thông tin phụ thêm Bảng so sách toàn diện chính là hình thức mở rộng của bảng một chiều để nhà nghiên cứu có thể nghiên cứu mối liên hệ giữa hai hay nhiều biến bằng cách đồng thời đếm tần số xuất hiện ở

từng bảng một chiều

Trang 10

Ví dụ: Liên hệ giữa mức lợi tức và

trình độ giáo dục

7999

5000-800 0- 999 9

1000 0 - 1249 9

1250 0 - 1499 9

1500 0 - 1999 9

20000 - 24999

Trên 25000

Tổ

ng số

Trang 11

Các cột tổng số ở bên phải và dưới cùng được gọi là tổng số lề (marginal), nó

thể hiện các bảng một chiều riêng biệt của các biến mức lợi tức, trình độ giáo dục.

Về mặt toán học, các biến trong bảng so sánh toàn diện có thể hoán đổi vị trí

cho nhau: hàng cột, cột hàng.

Trong bảng so sánh toàn diện, ta có thể trình bày dưới dạng tỷ lệ % theo

hướng nào (hàng hay cột) cũng được Tuy nhiên, các bảng mới phát sinh sẽ

chứa những thông tin hoàn toàn khác nhau Một bảng cho thấy biến hàng tác động đến sự thay đổi của biến cột, trong khi ở bảng kia thì ngược lại Thông thường, hướng tính tỷ lệ % được xác định theo chiều của tác nhân, tức là tính ngang qua biến phụ thuộc Tuy nhiên, đôi khi hướng của tác nhân không dễ xác định, nhà phân tích có thể xem xét tính toán tỷ lệ % theo

từng hướng vì điều này có thể cung cấp những thông tin bổ ích kết hợp với bản chất vấn đề, giúp chúng ta tìm được biến phụ thuộc và cách tính tỷ lệ

% thích hợp.

Ta có thể thêm các biến vào một bảng so sánh toàn diện và có thể biến mới sẽ làm xuất hiện mối quan hệ mà trước đó chưa thể thấy ngay, hay có thể bổ sung cho kết luận rút ra được từ bảng 2 biến Việc đưa thêm biến số vào phụ thuộc số biến và số bậc có liên quan giữa các biến Về lý thuyết, bảng nhiều chiều có thể được triển khai không giới hạn, nhưng trên thực tế đến một mức độ nào đó bảng sẽ không thể đọc và diễn dịch được nữa Vì vậy,

hầu hết các bảng này đều chứa không quá 3 hay 4 biến.

Trang 12

4- Đo lường khuynh hướng hội tụ của dữ liệu

hướng hội tụ của dãy dữ liệu là tính các

giá trị mode, giá trị trung vị (median) và

giá trị trung bình (mean).

Trang 13

Giá trị mode

Giá trị mode là giá trị dữ liệu có tần số quan sát lớn

nhất, hoặc thuộc lớp có tần suất xuất hiện lớn nhất

 Giá trị trung vị

Giá trị trung vị của một dãy phân phối là giá trị mà 50%

giá trị quan sát được của dãy nhỏ hơn nó và 50%

giá trị còn lại của dãy lớn hơn nó

Trước khi tính giá trị trung vị, ta phải sắp xếp dữ liệu

theo thứ tự.

 Giá trị trung bình

Giá trị trung bình được hiểu là trung bình số học,

được tính bằng tổng các giá trị của các quan sát chia cho số lần quan sát.

Trang 14

5- Đo lường độ phân tán của dữ

liệu

về đo lường khuynh hướng hội tụ, nhưng rất khác nhau về tính chất phân bố của

các quan sát, gọi là độ phân tán của dữ

liệu Các giá trị đo lường độ phân tán này rất cần thiết, chúng bổ sung cho các giá trị

đo lường độ hội tụ để làm rõ đặc trưng của dãy dữ liệu đang được nghiên cứu.

Trang 15

Khoảng biến thiên (range)

Khoảng biến thiên là sai biệt giữa giá trị lớn

nhất và nhỏ nhất trong dãy phân phối

Giá trị này chỉ nêu bật các cực trị của dữ liệu mà không so sánh với giá trị trung bình nên có thể làm lệch hình ảnh dãy phân phối

Hệ số biến thiên (Coefficient of Variation)

Nếu cần so sánh độ phân tán của hai hay

nhiều dãy phân phối có giá trị trung bình khác nhau hay có các đơn

Trang 16

6- Lựa chọn phương pháp phân tích dữ liệu

thích hợp

Khi cân nhắc lựa chọn phương pháp phân

tích dữ liệu thích hợp, chúng ta phải dựa trên những cơ sở sau đây:

6.1 Kỹ thuật phân tích muốn chứng minh

điều gì ?

Nhà nghiên cứu thường phải trả lời các câu

hỏi: “Những kết quả có ý nghĩa gì về mặt

thống kê ?”, hoặc “Liệu các kết quả có xuất hiện một cách ngẫu nhiên do việc

chỉ sử dụng một mẫu duy nhất không ?”.

Trang 17

Dữ liệu tham số và dữ liệu phi tham số

Dữ liệu gọi là thuộc loại tham số (parametric) khi

chúng được phân phối xung quanh giá trị

trung bình hoặc giá trị trung tâm của chúng một cách đối xứng tương tự đường cong xác suất chuẩn tắc Khi đó, chúng ta có thể dùng những kiểm định xác suất để xác định ý

nghĩa thống kê đối với bất kỳ mẫu nghiên

cứu nào lấy ra từ tổng thể

Dữ liệu phi tham số (non parametric) không được

phân phối theo đường cong xác suất chuẩn tắc nên ý nghĩa thống kê học của chúng phải được xem xét bằng những kiểm định khác với loại kiểm định căn cứ trên xác suất

Trang 18

Phương pháp đơn biến : chỉ phân tích 1 biến số

duy nhất.

Phương pháp hai biến : phân tích sự liên hệ giữa

2 biến số.

Phương pháp đa biến : phân tích sự liên hệ giữa

3 hay nhiều biến số với nhau.

Trang 19

Tính phụ thuộc và phụ thuộc lẫn nhau

Phương pháp phân tích sự liên hệ giữa các biến

số được chia làm 2 nhóm:

Một biến số phụ thuộc được kiểm định về tính

phụ thuộc của nó với những biến số độc lập khác.

Tất cả các biến số được nghiên cứu về mối liên

hệ lẫn nhau, tính phụ thuộc lẫn nhau giữa

chúng.

Trang 20

Số lượng mẫu nghiên cứu cần đến

Các kiểm định thống kê được dùng tùy theo mục

đích:

Kiểm tra những sai biệt đáng kể giữa một mẫu đơn

thuần với tổng thể đặc biệt nào đó.

Kiểm tra những sai biệt đáng kể giữa hai mẫu độc

lập hay có liên quan với nhau.

Kiểm định ý nghĩa của những sai biệt giữa ba hay

nhiều mẫu độc lập hay có liên quan với nhau Sự đo lường mối tương quan và những kết quả kiểm

định về ý nghĩa của chúng.

Trang 21

7- Kiểm định thống kê để đánh giá các giả thuyết

Nguyên tắc kiểm định giả thuyết

Trong mục III, ta đã dùng kết quả của mẫu để ước

lượng một số trị số thực còn chưa biết của tổng thể và dựa vào đó làm cơ sở mô tả tổng thể Ngoài ra, để nhận biết các tham số của thị

trường (tổng thể) một cách đầy đủ và chi tiết

hơn, ta có thể đưa ra một số giả thuyết về các thông số đó và sử dụng các thông tin thu thập trên mẫu để chứng minh Công cụ chủ yếu cho quá trình đó là các kiểm định thống kê

Trang 22

Các bước tổng quát cần thực hiện khi

kiểm định giả thuyết

Phát biểu giả thuyết “không” và giả thuyết thay thế

Chọn mức ý nghĩa mong muốn

Chọn kiểm định thống kê thích hợp

Rút ra kết luận thống kê về giả thuyết

“không”

Tính trị số thống kê của

thích hợp cho phân phối lấy

mẫu

Xác định vùng bác bỏ hay các vùng tới hạn

4

Trang 23

Bước 1:

Giả thuyết về một giá trị tổng thể nào đó cần phải

được kiểm định gọi là giả thuyết “không” (null

hypothesis), ký hiệu là Một kết luận khác mà

việc chấp nhận nó phụ thuộc vào việc bác bỏ

giả thuyết “không” thì được gọi là giả thuyết

thay thế (alternative hypothesis), ký hiệu là

Việc thiết lập tùy thuộc vào bản chất và tính

định hướng sai biệt của tình huống Nếu tình

huống không có định hướng sai biệt, giả thuyết

sẽ được kiểm định 2 đuôi (two-tailed test) Nếu

tình huống có định hướng sai biệt, sẽ được kiểm

định 1 đuôi (one-tailed test) Tính định hướng

của giả thiết sẽ ảnh hưởng đến kiểm định thống kê được thực hiện và việc ra quyết định

Trang 24

Bước 2:

Vì ảnh hưởng của sai số lấy mẫu nên thật khó

đánh giá việc quyết định chấp nhận hay bác bỏ một giả thuyết là đúng Khi một giả thuyết

“không” bị bác bỏ mà lẽ ra nó phải được chấp nhận thì sẽ dẫn đến sai lầm loại I Khả năng

phạm sai lầm như vậy được gọi là mức ý nghĩa và ký hiệu là  Thường dùng  = 0.1,  =

0.05 và  = 0.01 Mức  càng nhỏ thì rủi ro

bác bỏ lý thuyết “không” khi nó đúng sẽ giảm

xuống Nhưng ngược lại, rủi ro chấp nhận giả

thuyết “không” khi nó sai lại tăng lên, dẫn đến sai lầm loại II, và ký hiệu là  Trong thực tế

khó đạt được sự cân bằng giữa 2 loại sai số

này

Trang 25

Bước 3:

Việc chọn kiểm định thống kê thích hợp phụ thuộc vào :

Bản chất vấn đề: phân tích sai biệt, hoặc

nghiên cứu các mối liên hệ.

Cấp độ đo lường.

Số mẫu : 1, 2 hay nhiều hơn.

Các mẫu độc lập hay có liên hệ với nhau.

Và nhà nghiên cứu phải biết phân phối xác suất mà số thống kê của kiểm định được tính toán sẽ có liên quan đến.

Trang 26

Bước 4:

Khi đã chọn kiểm định thống kê và mức  thích hợp, ta sẽ xác định được các trị số tới hạn tương ứng từ phân phối lấy mẫu của một kiểm định thống kê đó Phân phối lấy mẫu của một kiểm định thống kê bao gồm mọi giá trị có thể có mà một số thống kê của kiểm định có thể lấy theo giả thuyết

“không” Trị số tới hạn là ranh giới của

các vùng chấp nhận và vùng bác bỏ

Trang 27

Bước 5:

Phân tích các số liệu thật sự bằng công thức

thích hợp để tính ra trị số thống kê của kiểm định.

Bước 6:

Nếu trị số thống kê của kiểm định được tính

ở bước 5 vượt quá trị số tới hạn ở bước

4, ta bác bỏ giả thuyết “không” Ngược

lại, sẽ không có các bằng chứng thống kê để bác bỏ giả thuyết này.

Trang 28

8- Phân tích đơn biến (univariable

data analysis)

Phân tích đơn biến liên quan tới việc nghiên cứu một số

biến số mà ta đã đo lường trên một mẫu phần tử.

Có hai vấn đề cần xem xét trong phân tích đơn biến :

Mô tả dữ liệu: được thể hiện dưới 2 góc độ xu hướng hội tụ

và xu hướng phân tán của dữ liệu cũng như dạng phân

phối các quan sát.

Diễn giải: bao gồm việc so sánh các giá trị quan sát với

một hoặc nhiều giá trị đã định tương ứng với mục tiêu

mong muốn hoặc một kết quả nghiên cứu trước đó.

Các phương pháp phân tích được sử dụng tùy thuộc vào

loại của biến số: định danh, thứ tự, hay metric (khoảng

cách và tỷ lệ).

Trang 29

8.1 Phân tích một biến định danh

Biến định danh chứa đựng các giá trị toán học ít nhất trong các biến

Ta có thể tính số lượng quan sát tương ứng với mỗi hạng

(category) hay mỗi dạng thức (modality) của biến, nghĩa là lập

các bảng diễn giải đơn giản hoặc so sánh toàn diện.

Xu hướng hội tụ thể hiện thông qua giá trị mode phản ánh sự tập trung

nhiều nhất của các quan sát vào một dạng thức nào đó.

Độ phân tán biểu hiện ở tần suất, nghĩa là tỷ lệ % số các quan sát xuất

hiện tương ứng ở mỗi dạng thức.

Thống kê diễn giải tương ứng với biến định danh là kiểm định Chi-bình

phương dùng để so sánh phân phối quan sát trong mẫu với một phân phối đã định trước Ngoài ra, trường hợp biến định danh có

dạng lưỡng phân, ta có thể sử dụng kiểm định nhị thức để kiểm

tra giả thuyết Kiểm định Chi-bình phương sẽ được trình bày chi tiết hơn ở phần sau.

Kiểm định nhị thức có thể tóm tắt như sau:

Trang 30

KIỂM ĐỊNH NHỊ THỨC

Giả sử ta có một mẫu n phần tử lấy ra từ tổng thể

nào đó bao gồm 2 hạng (category) Phân phối

nhị thức là phân phối của các tỷ lệ của 2

hạng đó trong mẫu Vì vậy, giả thuyết H0 là không có sự khác nhau giữa các tỷ lệ trong mẫu và trong tổng thể mà nó đại diện.Kiểm định nhị thức bao gồm việc tính toán các xác suất Ptt nhận được các giá trị quan sát trong mẫu So sánh các xác suất này với giá trị

ngưỡng của độ tin cậy đã xác định ta có thể :Bác bỏ giả thuyết H0 khi Ptt < ε

Chấp nhận giả thuyết H0 khi Ptt => ε

Trang 31

Ví dụ : Nghiên cứu sự hiểu biết của một tập hợp khách

hàng trong một tổng thể xác định về các sản phẩm

tượng nghiên cứu, tỷ lệ những người biết các sản

phẩm này là 50% (không có sự khác nhau giữa số

người biết và không biết các sản phẩm).

Xác suất nhận được k đối tượng trong 1 hạng (“có biết các

sản phẩm không nhãn”) và ( n-k ) đối tượng trong hạng

kia (“không biết các sản phẩm không nhãn”) được trình

bày như sau :

Với Pk = n! P k q n-k

k!(n-k) )

P = tỷ lệ đối tượng trong 1 hạng của tổng thể

Q = tỷ lệ đối tượng trong hạng kia của tổng thể

Xác suất nhận được k đối tượng hay ít hơn sẽ là tổng số các

xác suất nhận được 0 đối tượng, 1 đối tượng, tới k

đối tượng.

Trang 32

Giả sử mẫu nghiên cứu có 16 phần tử Giả

chỉ có 2 phần tử không biết các sản

phẩm không nhãn ( k = 2).

Như vậy :Ptt ( k <= 2) =P(0)+P(1)+p(2)=0.002

So sánh P(k <= 2)=0,002 với giá trị ngưỡng ε =

0,05 và ε = 0,01 ta thấy P(k <= 2) < = ε = 0,01 Do đó, có thể bác bỏ giả thuyết tại

H0 tại P <= 0,01

Trang 33

Phân tích một biến thứ tự

Đây là biến chất lượng trong đó các giá trị được

sắp xếp theo thứ tự

Xu hướng hội tụ được thể hiện thông qua giá trị

trung vị, là giá trị phân chia tổng thể nghiên cứu ra làm hai phần đều nhau

Độ phân tán được biểu diễn bởi các phân nhánh

(fractiles) phân chia tổng thể ra làm các phần

đều nhau theo thứ hạng Thường sử dụng nhất

là phân nhánh 4 (quartile chia tổng thể ra làm

4 hạng bằng nhau), sau đó người ta so sánh giá trị đầu tiên với giá trị cuối cùng của các phân nhánh

Trang 34

Kiểm định sử dụng để chứng minh giả thuyết đối

với 1 biến thứ tự là kiểm định

Kolmogorov-Smirnov.

KIỂM ĐỊNH KOLMOGOROV-SMIRNOV

Đây là 1 kiểm định phi tham số nhằm so sánh sự

phân chia các quan sát trong mẫu với một phân

chia chuẩn đã xác định.Ví dụ : Giả thuyết rằng

một mẫu có 100 người tiêu dùng đã cho ý kiến về một loại mỹ phẩm mới theo thang đo có 4 thứ

hạng từ “rất đậm” đến “rất nhạt” Mục tiêu của

kiểm định là so sánh sự phân phối các câu trả lời với sự phân phối lý thuyết tương ứng với giả

thuyết H0 (không có sự khác nhau giữa tỷ lệ các

câu trả lời ở các thứ hạng) Nếu quy mô mẫu

n>35 giải thuyết H0 bị bác bỏ khi mức sai số ε

=0.01

Ngày đăng: 12/12/2013, 23:15

HÌNH ẢNH LIÊN QUAN

Bảng phân bố tuổi của các thí sinh - Tài liệu Bai giang SPSS 3,5, docx
Bảng ph ân bố tuổi của các thí sinh (Trang 7)
Bảng phân phối tần số - Tài liệu Bai giang SPSS 3,5, docx
Bảng ph ân phối tần số (Trang 41)
Bảng phân phối tần số: - Tài liệu Bai giang SPSS 3,5, docx
Bảng ph ân phối tần số: (Trang 44)
1- Bảng 2 biến định tính - Tài liệu Bai giang SPSS 3,5, docx
1 Bảng 2 biến định tính (Trang 52)

TỪ KHÓA LIÊN QUAN

w