5- Đo lường độ phân tán của dữ liệu Hai dãy phân phối có thể có cùng giá trị về đo lường khuynh hướng hội tụ, nhưng rất khác nhau về tính chất phân bố của các quan sát, gọi là độ phâ
Trang 1Nội dung : Chương 3
PHƯƠNG PHÁP PHÂN TÍCH DỮ LIỆU
Xuất phát từ cách nhìn của một nhà nghiên cứu muốn xác định
các phương pháp phân tích đưa vào
ứng dụng cho dữ liệu, chứ không
phải từ cách nhìn của một kỹ thuật
viên thống kê (có thể thấu hiểu đầy
đủ hơn bản chất các phương pháp
thống kê),
Trang 23.1 Bản chất và chức năng của phân tích thống kê
Phân tích thống kê có thể được hiểu là các
phương pháp chắt lọc dữ liệu để rút ra các suy
Tóm tắt dữ liệu
Áp dụng các phương pháp phân tích để làm rõ
các mối quan hệ tương hỗ và các ý nghĩa định lượng giữa các dữ liệu
Trang 33.2 Quá trình phân tích dữ liệu
Xếp dữ liệu theo thứ tự
(lập dãy, lập bảng, xếp loại, tính %)Tóm tắt dữ liệu thống kêChọn phương pháp phân tích thích hợp (chọn các tiêu
chuẩn)Phân tích các sai biệtNghiên cứu
các mối liên hệPhân tích dữ liệu thực
nghiệm
Trang 4a/ Xếp dữ liệu theo thứ tự
Dữ liệu thô được thu thập từ thực địa và
mã hóa vẫn chưa đủ điều kiện để cho phép phân tích, diễn giải Chúng cần được trải qua giai đoạn sắp xếp theo thứ tự và bước
thống kê (lập bảng) Phân làm 3 loại như
sau:
Trang 5b/ Lập dãy (array)
xếp dữ liệu Cách này sẽ xếp dữ liệu
thành chuỗi số theo hướng tăng dần,
hoặc giảm dần Phương pháp này chỉ
thích hợp với những dãy dữ liệu nhỏ,
nó cho thấy sự phân bố của dãy số, giá
trị max và min của dãy số, sự tập trung
của dãy số đó
Trang 6c/ Lập bảng đơn giản (một chiều hoặc một
biến)
trong chuỗi dữ liệu và lập thành bảng
phân phối tần suất (frequency
distribution) như sau
Trang 7Bảng phân bố tuổi của các thí sinh
Tuổi Tần số tuyệt
đối Tần số tương đối (%) Tần số tích lũy (%)
Trang 8Dạng bảng này thể hiện khá rõ ràng về phân bố
dãy dữ liệu theo các mức dữ liệu khác nhau
liệu khác nhau
từng mức dữ liệu so với toàn bộ mẫu quan sát
có giá trị nhỏ hơn hay bằng giá trị mức dữ liệu
đang xem xét
Các giá trị dữ liệu bất thường (quá lớn hay quá
nhỏ) để kiểm chứng lại vì những giá trị dữ liệu
sau có thể làm lệch kết quả phân tích thống kê, hoặc những giá trị đúng nhưng bất thường đôi khi cần một cách xử lý đặc biệt khác
Các giá trị mã hóa bất thường sẽ chỉ ra sai sót
do việc nhập liệu hay mã hóa
Trang 9d/ Lập bảng so sánh toàn diện (Cross-tabulation)
Nhiều vấn đề nghiên cứu có thể được giải quyết bằng việc lập những bảng đơn giản Tuy nhiên,
bảng đơn giản chỉ cho biết sự phân bố của một
biến số tại một thời điểm nào đó, và có thể không đem lại đầy đủ thông tin cho dữ liệu Hầu hết các dữ liệu đều có thể được tổ chức ở hình thức cao
hơn để cho ra những thông tin phụ thêm Bảng so sách toàn diện chính là hình thức mở rộng của
bảng một chiều để nhà nghiên cứu có thể nghiên cứu mối liên hệ giữa hai hay nhiều biến bằng cách đồng thời đếm tần số xuất hiện ở từng bảng một chiều
Trang 10Ví dụ: Liên hệ giữa mức lợi tức và
trình độ giáo dục
9
1250
0
- 1499
9
1500
0
- 1999
Trang 114- Đo lường khuynh hướng hội tụ của dữ liệu
Ba cách đơn giản nhất để đo lường khuynh hướng hội tụ của dãy dữ liệu là tính các
giá trị mode, giá trị trung vị (median) và
giá trị trung bình (mean)
Trang 12 Giá trị mode
Giá trị mode là giá trị dữ liệu có tần số quan sát
lớn nhất, hoặc thuộc lớp có tần suất xuất hiện lớn nhất
Giá trị trung vị
Giá trị trung vị của một dãy phân phối là giá trị mà
50% giá trị quan sát được của dãy nhỏ hơn nó
và 50% giá trị còn lại của dãy lớn hơn nó
Trước khi tính giá trị trung vị, ta phải sắp xếp dữ
liệu theo thứ tự
Giá trị trung bình được hiểu là trung bình số
học, được tính bằng tổng các giá trị của các quan sát chia cho số lần quan sát
Trang 135- Đo lường độ phân tán của dữ
liệu
Hai dãy phân phối có thể có cùng giá trị về đo lường khuynh hướng hội tụ, nhưng rất khác nhau về tính chất phân bố của
các quan sát, gọi là độ phân tán của dữ
liệu Các giá trị đo lường độ phân tán này rất cần thiết, chúng bổ sung cho các giá trị
đo lường độ hội tụ để làm rõ đặc trưng của dãy dữ liệu đang được nghiên cứu
Trang 14 Khoảng biến thiên (range)
Khoảng biến thiên là sai biệt giữa giá trị
lớn nhất và nhỏ nhất trong dãy phân
phối Giá trị này chỉ nêu bật các cực trị của dữ liệu mà không so sánh với giá trị trung bình nên có thể làm lệch hình ảnh dãy phân phối
Hệ số biến thiên (Coefficient of
Variation)
Nếu cần so sánh độ phân tán của hai hay
nhiều dãy phân phối có giá trị trung bình khác nhau hay có các đơn
Trang 156- Lựa chọn phương pháp phân tích dữ liệu
thích hợp
phân tích dữ liệu thích hợp, chúng ta phải dựa trên những cơ sở sau đây:
6.1 Kỹ thuật phân tích muốn chứng minh
điều gì ?
các câu hỏi: “Những kết quả có ý nghĩa
gì về mặt thống kê ?”, hoặc “Liệu các kết quả có xuất hiện một cách ngẫu
nhiên do việc chỉ sử dụng một mẫu duy nhất không ?”
Trang 16 Dữ liệu tham số và dữ liệu phi tham số
Dữ liệu gọi là thuộc loại tham số
(parametric) khi chúng được phân phối xung
quanh giá trị trung bình hoặc giá trị trung tâm của chúng một cách đối xứng tương tự đường cong xác suất chuẩn tắc Khi đó, chúng ta có thể dùng những kiểm định xác suất để xác
định ý nghĩa thống kê đối với bất kỳ mẫu
nghiên cứu nào lấy ra từ tổng thể
được phân phối theo đường cong xác suất
chuẩn tắc nên ý nghĩa thống kê học của
chúng phải được xem xét bằng những kiểm định khác với loại kiểm định căn cứ trên xác suất
Trang 17 Phương pháp đơn biến : chỉ phân tích 1 biến
số duy nhất
Phương pháp hai biến : phân tích sự liên hệ
giữa 2 biến số
Phương pháp đa biến : phân tích sự liên hệ
giữa 3 hay nhiều biến số với nhau
Trang 18 Tính phụ thuộc và phụ thuộc lẫn nhau
biến số được chia làm 2 nhóm:
phụ thuộc của nó với những biến số độc lập khác
liên hệ lẫn nhau, tính phụ thuộc lẫn nhau
giữa chúng
Trang 19 Số lượng mẫu nghiên cứu cần đến
Các kiểm định thống kê được dùng tùy theo mục
đích:
Kiểm tra những sai biệt đáng kể giữa một mẫu
đơn thuần với tổng thể đặc biệt nào đó
Kiểm tra những sai biệt đáng kể giữa hai mẫu
độc lập hay có liên quan với nhau
Kiểm định ý nghĩa của những sai biệt giữa ba
hay nhiều mẫu độc lập hay có liên quan với
nhau
Sự đo lường mối tương quan và những kết quả
kiểm định về ý nghĩa của chúng
Trang 207- Kiểm định thống kê để đánh giá các giả thuyết
Nguyên tắc kiểm định giả thuyết
Trong mục III, ta đã dùng kết quả của mẫu để
ước lượng một số trị số thực còn chưa biết của tổng thể và dựa vào đó làm cơ sở mô tả tổng thể Ngoài ra, để nhận biết các tham số của thị
trường (tổng thể) một cách đầy đủ và chi tiết
hơn, ta có thể đưa ra một số giả thuyết về các thông số đó và sử dụng các thông tin thu thập trên mẫu để chứng minh Công cụ chủ yếu cho quá trình đó là các kiểm định thống kê
Trang 21Các bước tổng quát cần thực hiện khi
kiểm định giả thuyết
Phát biểu giả thuyết “không” và giả thuyết thay thế
Chọn mức ý nghĩa mong muốn
Chọn kiểm định thống kê thích hợp
Rút ra kết luận thống kê về giả thuyết
“không”
Tính trị số thống kê của kiểm định thích hợp cho phân phối lấy
mẫu
Xác định vùng bác bỏ hay các vùng tới hạn
4
Trang 22 Bước 1:
Giả thuyết về một giá trị tổng thể nào đó cần
phải được kiểm định gọi là giả thuyết “không” (null hypothesis), ký hiệu là Một kết luận khác
mà việc chấp nhận nó phụ thuộc vào việc bác
bỏ giả thuyết “không” thì được gọi là giả thuyết thay thế (alternative hypothesis), ký hiệu là
Việc thiết lập tùy thuộc vào bản chất và tính
định hướng sai biệt của tình huống Nếu tình
huống không có định hướng sai biệt, giả thuyết
sẽ được kiểm định 2 đuôi (two-tailed test) Nếu
tình huống có định hướng sai biệt, sẽ được kiểm
định 1 đuôi (one-tailed test) Tính định hướng
của giả thiết sẽ ảnh hưởng đến kiểm định thống kê được thực hiện và việc ra quyết định
Trang 23 Bước 2:
Vì ảnh hưởng của sai số lấy mẫu nên thật khó
đánh giá việc quyết định chấp nhận hay bác bỏ một giả thuyết là đúng Khi một giả thuyết
“không” bị bác bỏ mà lẽ ra nó phải được chấp nhận thì sẽ dẫn đến sai lầm loại I Khả năng
phạm sai lầm như vậy được gọi là mức ý nghĩa và ký hiệu là Thường dùng = 0.1, =
0.05 và = 0.01 Mức càng nhỏ thì rủi ro
bác bỏ lý thuyết “không” khi nó đúng sẽ giảm
xuống Nhưng ngược lại, rủi ro chấp nhận giả
thuyết “không” khi nó sai lại tăng lên, dẫn đến sai lầm loại II, và ký hiệu là Trong thực tế khó đạt được sự cân bằng giữa 2 loại sai số
này
Trang 24 Bước 3:
Việc chọn kiểm định thống kê thích hợp
phụ thuộc vào :
Bản chất vấn đề: phân tích sai biệt, hoặc nghiên cứu các mối liên hệ
Cấp độ đo lường
Số mẫu : 1, 2 hay nhiều hơn
Các mẫu độc lập hay có liên hệ với nhau
Và nhà nghiên cứu phải biết phân phối xác suất mà số thống kê của kiểm định được
tính toán sẽ có liên quan đến
Trang 25 Bước 4:
Khi đã chọn kiểm định thống kê và mức
thích hợp, ta sẽ xác định được các trị số tới hạn tương ứng từ phân phối lấy mẫu của một kiểm định thống kê đó Phân phối lấy mẫu của một kiểm định thống kê bao gồm mọi giá trị có thể có mà một số thống kê của kiểm định có thể lấy theo giả thuyết
“không” Trị số tới hạn là ranh giới của
các vùng chấp nhận và vùng bác bỏ
giả thuyết “ không ”
Trang 26 Bước 5:
Phân tích các số liệu thật sự bằng công
thức thích hợp để tính ra trị số thống kê
của kiểm định
Bước 6:
Nếu trị số thống kê của kiểm định được
tính ở bước 5 vượt quá trị số tới hạn ở
bước 4, ta bác bỏ giả thuyết “không”
Ngược lại, sẽ không có các bằng chứng thống kê để bác bỏ giả thuyết này
Trang 278- Phân tích đơn biến (univariable
data analysis)
Phân tích đơn biến liên quan tới việc nghiên cứu một số
biến số mà ta đã đo lường trên một mẫu phần tử
Có hai vấn đề cần xem xét trong phân tích đơn biến :
Mô tả dữ liệu: được thể hiện dưới 2 góc độ xu hướng hội tụ và xu hướng phân tán của dữ liệu cũng như dạng phân phối các quan sát
Diễn giải: bao gồm việc so sánh các giá trị quan sát với
một hoặc nhiều giá trị đã định tương ứng với mục tiêu
mong muốn hoặc một kết quả nghiên cứu trước đó
Các phương pháp phân tích được sử dụng tùy thuộc vào
loại của biến số: định danh, thứ tự, hay metric (khoảng
cách và tỷ lệ)
Trang 288.1 Phân tích một biến định danh
Biến định danh chứa đựng các giá trị toán học ít nhất trong các
biến Ta có thể tính số lượng quan sát tương ứng với mỗi hạng
(category) hay mỗi dạng thức (modality) của biến, nghĩa là lập
các bảng diễn giải đơn giản hoặc so sánh toàn diện
Xu hướng hội tụ thể hiện thông qua giá trị mode phản ánh sự tập
trung nhiều nhất của các quan sát vào một dạng thức nào đó
Độ phân tán biểu hiện ở tần suất, nghĩa là tỷ lệ % số các quan
sát xuất hiện tương ứng ở mỗi dạng thức
Thống kê diễn giải tương ứng với biến định danh là kiểm định
Chi-bình phương dùng để so sánh phân phối quan sát trong mẫu với một phân phối đã định trước Ngoài ra, trường hợp biến định
danh có dạng lưỡng phân, ta có thể sử dụng kiểm định nhị thức
để kiểm tra giả thuyết Kiểm định Chi-bình phương sẽ được trình bày chi tiết hơn ở phần sau
Kiểm định nhị thức có thể tóm tắt như sau:
Trang 29 KIỂM ĐỊNH NHỊ THỨC
Giả sử ta có một mẫu n phần tử lấy ra từ tổng
thể nào đó bao gồm 2 hạng (category) Phân
phối nhị thức là phân phối của các tỷ lệ của 2 hạng đó trong mẫu Vì vậy, giả thuyết H0 là không có sự khác nhau giữa các tỷ lệ trong mẫu và trong tổng thể mà nó đại diện.Kiểm định nhị thức bao gồm việc tính toán các xác suất Ptt nhận được các giá trị quan sát trong mẫu So sánh các xác suất này với giá trị
ngưỡng của độ tin cậy đã xác định ta có thể :
Bác bỏ giả thuyết H0 khi Ptt < ε
Chấp nhận giả thuyết H0 khi Ptt => ε
Trang 30 Ví dụ : Nghiên cứu sự hiểu biết của một tập hợp khách
hàng trong một tổng thể xác định về các sản phẩm
không có nhãn hiệu, giả thuyết H0 là trong số đối
tượng nghiên cứu, tỷ lệ những người biết các sản
phẩm này là 50% (không có sự khác nhau giữa số
người biết và không biết các sản phẩm)
Xác suất nhận được k đối tượng trong 1 hạng (“có biết
các sản phẩm không nhãn”) và ( n-k ) đối tượng trong
hạng kia (“không biết các sản phẩm không nhãn”)
được trình bày như sau :
Với Pk = n! P k q n-k
k!(n-k) )
Với P(k) = xác suất nhận được k đối tượng
P = tỷ lệ đối tượng trong 1 hạng của tổng thể
Q = tỷ lệ đối tượng trong hạng kia của tổng thể
Xác suất nhận được k đối tượng hay ít hơn sẽ là tổng
số các xác suất nhận được 0 đối tượng, 1 đối tượng, tới k đối tượng
Trang 31 Giả sử mẫu nghiên cứu có 16 phần tử
Giả thuyết H0 sẽ là: p = q = ½ Trong
mẫu chỉ có 2 phần tử không biết các sản phẩm không nhãn ( k = 2)
Trang 32 Phân tích một biến thứ tự
Đây là biến chất lượng trong đó các giá trị
được sắp xếp theo thứ tự
Xu hướng hội tụ được thể hiện thông qua giá
trị trung vị, là giá trị phân chia tổng thể nghiên cứu ra làm hai phần đều nhau
Độ phân tán được biểu diễn bởi các phân
nhánh (fractiles) phân chia tổng thể ra làm các
phần đều nhau theo thứ hạng Thường sử dụng
nhất là phân nhánh 4 (quartile chia tổng thể ra
làm 4 hạng bằng nhau), sau đó người ta so
sánh giá trị đầu tiên với giá trị cuối cùng của các phân nhánh
Trang 33 Kiểm định sử dụng để chứng minh giả thuyết
đối với 1 biến thứ tự là kiểm định
Kolmogorov-Smirnov
Đây là 1 kiểm định phi tham số nhằm so sánh sự
phân chia các quan sát trong mẫu với một phân
chia chuẩn đã xác định.Ví dụ : Giả thuyết rằng
một mẫu có 100 người tiêu dùng đã cho ý kiến về một loại mỹ phẩm mới theo thang đo có 4 thứ
hạng từ “rất đậm” đến “rất nhạt” Mục tiêu của
kiểm định là so sánh sự phân phối các câu trả lời với sự phân phối lý thuyết tương ứng với giả
thuyết H0 (không có sự khác nhau giữa tỷ lệ các
câu trả lời ở các thứ hạng) Nếu quy mô mẫu
n>35 giải thuyết H0 bị bác bỏ khi mức sai số ε
=0.01
Trang 34 Phân tích một biến metric
Trong trường hợp một biến metric (gồm biến khoảng
cách và biến tỷ lệ), xu hướng hội tụ là giá trị trung
bình Độ phân tán được thể hiện thông qua giá trị
phương sai và độ lệch chuẩn Hai chỉ tiêu này được dùng để so sánh phân phối quan sát được với phân
phối chuẩn là hệ số đối xứng (hay “skewness”) và hệ số tập trung (hay “kurtosis”)
Kiểm định sử dụng là kiểm định trung bình: So sánh
phân phối quan sát với phân phối chuẩn
Hai chỉ tiêu đánh giá độ phân tán được sử dụng để so
sánh phân phối quan sát với phân phối chuẩn (hay gọi
là đường cong Gauss hoặc đường cong hình chuông) là hệ số đối xứng (symmetric coefficient) và hệ số tập
trung (concentrated coefficient)
Trang 35 Phân tích hai biến thứ tự – thứ tự
Đo lường tương quan giữa 2 biến thứ tự được
thực hiện chủ yếu thông qua 2 hen số tương
quan theo thứ bậc Spearman (rho ) và Kendal (tau ) Hai hệ số này dao động từ –1 đến +1
chiều hoàn toàn (2 sự xếp hạng đồng nhất)
chiều hoàn toàn (2 sự xếp hạng trái ngược
nhau)
P =0 không có quan hệ gì giữa 2 sự xếp hạng
Trang 36 Phân tích hai biến định danh - định danh
Trường hợp này rất thường gặp trong nghiên cứu Nội
dung phân tích chủ yếu bao gồm:
Lập các bảng ngẫu nhiên
Áp dụng kiểm định Chi – bình phương
Đo lường các tương quan
Lập các bảng ngẫu nhiên
Các bảng ngẫu nhiên (bảng chéo) nhằm so sánh các
câu trả lòi của 1 câu hỏi theo câu trả lời cho trước của
1 câu hỏi khác Ví dụ ta so sánh câu trả lời có-không (câu hỏi về tiêu thụ sản phẩm P với câu hỏi về giới
tính của đối tượng nghiên cứu: nam –nữ) Ma trận
thông tin trong trường hợp này bao gồm 2 cột 2 hàng
với 4 khả năng kết hợp có thể xảy ra (nam+có,
nam+không, nữ+có, nữ+không)