Giới thiệu về cách thức phân tích số liệu đơn biến
Trang 1PHÂN TíCH Số LIệU TRONG NGHIÊN
CứU XHH
Nguyễn Hữu Minh
Viện NC Gia đình và Gíơi
Trang 2Néi dung
• Tû lÖ, tû lÖ phÇn tr¨m, tû sè
• §¹i l îng ®o xu h íng tËp trung
• §¹i l îng ®o sù ph©n t¸n
Trang 3Tỉ lệ, tỉ lệ phần trăm, tỉ số (1)
Tỉ lệ:
• Gỉa định: Ph ơng pháp phân loại cho phép các loại là loại trừ lẫn nhau và bảo đảm tính toàn diện Nh vậy thì tổng của tỉ lệ là 1
• Chẳng hạn, ta có 4 loại với N1, N2, N3, và N4 tr ờng hợp Tổng số là N tr ờng hợp Tỉ lệ của các tr ờng hợp của bất kỳ loại nào đ ợc tính là số tr ờng hợp của lọai
đó trên tổng số tr ờng hợp (Ni/N) Nh vậy tổng giá trị
là bằng 1
Trang 4TØ lÖ, tØ lÖ phÇn tr¨m, tØ sè (2)
TØ lÖ phÇn tr¨m
• Cã thÓ tÝnh trùc tiÕp tõ TØ lÖ b»ng c¸ch
nh©n víi 100 Tæng gi¸ trÞ lµ 100.
Lu«n b¸o c¸o sè tr êng hîp cïng víi tØ lÖ phÇn tr¨m
Trang 5TØ lÖ, tØ lÖ phÇn tr¨m, tØ sè (3)
VÝ dô 1: C¸c nhãm trÎ em tiÕp cËn víi c¸c TT t vÊn
Lo¹i tr êng hîp Trung t©m A Trung t©m B Trung t©m C Tæng sè
47,3 14,3 20,3 9,8 8,3
88 37 20 32 16
45,5 19,2 10,4 16,6 8,3
41 26 16 21 9
36,6 23,2 13,4 18,8 8,0
192 82 62 66 36
43,8 18,7 14,2 15,1 8,2
Trang 6TØ lÖ, tØ lÖ phÇn tr¨m, tØ sè (4)
Lo¹i tr êng hîp Trung
t©m A (N=121)
Trung t©m B (N=181)
Trung t©m C (N=100)
Tæng sè (N=402)
45,8 45,1 32,3 48,5
21,4 31,7 24,2 31,8
100 100 100 100
Trang 7% Bạo lực với người vợ
Bạo lực với người chồng
Trang 8Tỉ lệ, tỉ lệ phần trăm, tỉ số (6)
Tỉ số
• Tỉ số là một số thể hiện quy mô t ơng đối của hai
số khác Chẳng hạn tỉ số của một số A đối với
một số B là số A chia cho số B
120 bé trai sinh ra so với 100 bé gái Tỉ số giới
tính khi sinh là 120/100 Nh vậy giá trị có thể lớn hơn 1
Tỉ số phụ thuộc bằng số ng ời d ới 15 và trên 64
chia cho tổng số ng ời 15-64
Trang 9Tỉ lệ, tỉ lệ phần trăm, tỉ số (7)
• Thông th ờng tỉ số dùng trong những tr ờng hợp mà
A và B là những loại khác nhau (nam/nữ; đang kết hôn/ly dị) Trong tr ờng hợp có nhiều loại khác nhau thì số phải tính toán rất lớn => dùng tỉ lệ hay tỉ lệ phần trăm, đặc biệt là trong tr ờng hợp chỉ có 2 loại.
• Tỉ số có thể đ ợc thể hiện ở bất kỳ cơ số nào tùy
thuộc vào độ lớn của mẫu số Trong tr ờng hợp ta có mẫu số lớn nh 1000 hay 100000 ta có tỉ lệ (rates)
một dạng khác của tỉ số khi dùng tỉ lệ phần trăm là quá bé.
Trang 10100 2,43:1 43,9
100 1,77:1 20,0
Trang 12Các đại l ợng đo xu h ớng tập trung (1)
Gíơi thiệu
• Theo thang đo định danh chúng ta có thể sử
dụng tỉ số, tỉ lệ, tỉ lệ phần trăm và các biểu đồ, đồ thị
• Trong tr ờng hợp thang khoảng chúng ta có thể
sử dụng sự phân bố tần suất.
• Ngoài ra có thể sử dụng các phép đo sự tập trung
và phân tán Mỗi phép đo có u thế và nh ợc điểm riêng.
Trang 13Các đại l ợng đo xu h ớng tập trung (2)
• Phép đo xu h ớng tập trung chỉ ra mức độ tập
trung của số liệu Trong phần lớn các phân bố của dãy số, các giá trị quan sát có xu h ớng tập trung quanh một giá trị trung tâm.
• Ví dụ, khi điều tra thu nhập của 5 hộ gia đình
trong tháng, chúng ta có các số liệu sau: 10120000,
11210000, 15450000, 18920000, 45000000 Đây
chính là 5 giá trị quan sát của dãy số liệu về thu
nhập hộ gia đình.
Trang 14Các đại l ợng đo xu h ớng tập trung (3)
Trung bình số học hay trung bình
i
X X
Trang 15Các đại l ợng đo xu h ớng tập trung (4)
• Giá trị trung bình cho biết đặc tr ng chung của tập hợp các đơn vị nghiên cứu, không tính đến ảnh h ởng của giá trị cá biệt (Nếu chúng ta lấy giá trị
trung bình trừ đi mỗi giá trị của dãy số và lấy
tổng các hiệu số thì kết quả sẽ bằng 0 - đại l ợng đo
l ờng trung tâm
• Giá trị trung bình rất nhạy với trị số cá biệt, nhất
là trong tr ờng hợp dãy số phân bố không đều.
Trang 16Các đại l ợng đo xu h ớng tập trung (5)
• Trong tr ờng hợp mà giá trị trung bình đ ợc tính từ
số liệu đ ợc nhóm gộp thì công thức nh sau: X trung
bình=(sigma fm)/N, ở đây fm là tần số của mỗi
nhóm tr ờng hợp nhân với điểm giữa của nó
(midpoint) Sở dĩ phải dùng điểm giữa của nhóm là vì nó phản ánh tốt nhất đánh giá của chúng ta về giá trị trung bình của các giá trị trong nhóm Khi tính toán chúng ta coi tất cả các tr ờng hợp đều
nhận giá trị điểm giữa trong nhóm tr ờng hợp đó.
Trang 17Các đại l ợng đo xu h ớng tập trung (6)
L u ý:
nhiên, những ảnh h ởng của đặc điểm cá biệt, và trình bày đặc tr ng chung của tập hợp các đơn vị nghiên cứu (đồng nhất về chất theo dấu hiệu
tính toán).
hộ gia đình Việt Nam thì chúng ta chỉ có một
con số duy nhất, con số thu nhập trung bình đó
có thể khác xa so với thu nhập trung bình của những ng ời giàu nhất hay nghèo nhất Việt Nam.
Trang 18Các đại l ợng đo xu h ớng tập trung (7)
• Gía trị trung bình có đặc điểm là tổng chênh lệch của các
giá trị với giá trị trung bình luôn bằng 0
• Trong tr ờng hợp có sự phân bố không đều, nghĩa là số l ợng
các đơn vị tập trung đông ở điểm thấp nhất hoặc ở điểm cao nhất của dãy số thì giá trị trung bình cộng sẽ bị ảnh h ởng Trong tr ờng hợp này trung bình cộng không đ ợc sử dụng làm đại l ợng đặc tr ng cho biến đó.
• Tổng độ lệch bình ph ơng của các giá trị với giá trị trung
bình là nhỏ hơn bất kỳ độ lệch bình ph ơng của các giá trị với bất kỳ một số nào khác (Sigma của (Xi-X trung bình) bình ph ơng=nhỏ nhất Điều này có liên quan đến việc
phân tích t ơng quan và hồi quy sau này
Trang 19Các đại l ợng đo xu h ớng tập trung
Trang 20Các đại l ợng đo xu h ớng tập trung (9)
Số liệu thu nhập hàng ngày (1000đ) của 30 ng ời:
28 29 30 32 35 36 37 38 40 97 99
2 1 2 1 2 1 1 1 1 1 1
10-15 16-20 21-25 26-30 31-35 36-40 95-100
4 7 4 6 3 4 2
Trang 21Các đại l ợng đo xu h ớng tập trung (10)
• Thu nhập trung bình hàng ngày tính từ bảng trên
Trang 22Các đại l ợng đo xu h ớng tập trung
Trang 23Các đại l ợng đo xu h ớng tập trung (12)
Ví dụ: Trong tr ờng hợp số đơn vị là lẻ (7 đơn vị):
- Số trung vị đứng ở vị trí giữa hai số thứ 3 và thứ 4 Giá trị của nó là
trung bình cộng của 2 số này: (11+12)/2 = 11,5
Trang 24Các đại l ợng đo xu h ớng tập trung
(13)
ý nghĩa: Số trung vị = 7,6 triệu đồng có nghĩa là tháng 12
năm 2010, 50% số hộ gia đình có thu nhập trung bình d ới 7,6 triệu, và 50% số hộ gia đình có thu nhâp trung bình trên mức 7,6 triệu.
● Giống với giá trị trung bình, số trung vị đo l ờng đặc tr ng chung của một tập hợp các đơn vị quan sát
● Trung vị không bị chi phối bởi các giá trị cá biệt trong dãy số, dù là dãy số có phân bố lệch
● Trung vị chịu ảnh h ởng bởi số l ợng đơn vị trong dãy số.
Trang 25Các đại l ợng đo xu h ớng tập trung (14)
Trang 26Các đại l ợng đo xu h ớng tập trung (15)
• Đối với thang định danh, để đo xu h ớng tập trung
của các đơn vị trong tập hợp mẫu, việc tính Mode
là cách duy nhất Tuy nhiên Mode khó thực hiện các phép tính số học
• Trong một dãy số thống kê có thể có nhiều Mode
Trang 27Các đại l ợng đo xu h ớng tập trung (16)
• Ưu điểm của Mode là có thể xác định dễ dàng và
vì vậy có thể sử dụng nh là chỉ báo đầu tiên và
nhanh chóng của xu h ớng tập trung trong một
phân bố nào đó
• Nh ợc điểm là nó là một chỉ báo nhạy cảm Vị trí
của nó có thể thay đổi khi cách phân chia phân bố thành các loại bị thay đổi Vì thế nó không phải là một phép đo ổn định của xu h ớng tập trung.
Trang 28Các đại l ợng đo xu h ớng tập trung (17)
Lựa chọn sử dụng các đại l ợng đo xu h ớng tập trung
phân bố các đơn vị của tập hợp mẫu và căn cứ vào đặc tính của dấu hiệu mà chúng ta đo l ờng
và phân tích
Điều tra về thu nhập gia đình, nếu thu nhập đ ợc phân bố
bằng nhau thì giá trị trung bình đ ợc a thích
Nếu muốn biết khả năng của một nhóm để nhận đ ợc trợ
giúp tài chính thì Mode có thể thích hợp hơn vì cho thấy thu nhập phổ biến nhất và không bị tác động bởi các giá trị cực đại hoặc cực tiểu
Trang 29Các đại l ợng đo xu h ớng tập trung (18)
• Ngoài ra Mode có thể trình bày phân bố của một thang đo
định danh Trung vị có thể áp dụng cho biến thứ tự và cao hơn nh thái độ chính trị Trung bình chỉ có thể áp dụng
cho thang đo khoảng và thang đo tỉ lệ nh là thu nhập và tuổi Chẳng hạn hoàn toàn không có nghĩa khi nói về …giới tính trung bình… của một mẫu nh ng có thể nói rằng Mode của giới tính trong mẫu là nam giới
• Trung bình sử dụng nhiều thông tin hơn trung vị vì tất cả
các giá trị thực tế đều đ ợc sử dụng để tính trung bình
Trong khi đó trung vị chỉ sử dụng các giá trị xung quanh
nó => khi phân bố các giá trị là bị lệch cao thì nên dùng
Trang 30Các đại l ợng đo xu h ớng tập trung (19)
• Tuy nhiên các giá trị trung vị của mẫu sẽ thay đổi từ mẫu
này sang mẫu khác nhiều hơn đại l ợng trung bình Vì vậy, khi nào có nghi ngờ thì nên sử dụng đại l ợng trung bình hơn là trung vị.
• Nếu phân bố các giá trị quan sát là đối xứng và chỉ có một
mode ở giữa thì giá trị trung bình, trung vị, và mode là
ngang nhau.
• Gía trị trung bình có một u điểm khác là dễ dàng tính toán
đại số Chẳng hạn khi gia trọng số trung bình từ một số hệ
số liệu khác nhau
• Mode là đặc biệt hữu ích khi có một số lớn các tr ờng hợp
và khi số liệu đ ợc nhóm gộp
Trang 31Các đại l ợng đo sự phân tán (1)
Khoảng
là sự khác biệt giữa giá trị cao nhất và thấp nhất trong một phân bố
phân tích Chẳng hạn, sự khác biệt giữa thu
nhập cao nhất và thu nhập thấp nhất của 2
nhóm xã hội khác nhau có thể cho thấy sự bất
bình đẳng xã hội ở đó.
Trang 32Các đại l ợng đo sự phân tán (2)
Ph ơng sai: K hác với giá trị trung bình, ph ơng sai nhằm đo l ờng độ phân
tán trong một dãy số, ph ơng sai cho biết khoảng cách đến giá trị trung bình (ph ơng sai càng lớn thì độ phân tán càng lớn)
• Đ ợc đo bằng giá trị trung bình của bình ph ơng các độ lệch của các giá
trị riêng của dấu hiệu so với trung bình cộng
• Ph ơng sai đ ợc tính toán theo công thức d ới đây
(Ký hiệu của ph ơng sai là s 2 )
Công thức tính ph ơng sai:
trong đó: X ngang là gía trị
trung bình; Xi là giá trị của
các đơn vị trong dãy số;
Trang 34Các đại l ợng đo sự phân tán (4)
5
2 1
5
Trang 35ý nghĩa của Ph ơng sai
• Ph ơng sai sẽ nhỏ nếu nh sự khác nhau giữa các đơn vị trong dãy số là nhỏ (dãy số có độ phân tán nhỏ), tức là mức độ tập trung lớn.
• Ph ơng sai sẽ lớn nếu nh có sự khác biệt lớn giữa các đơn vị trong dãy số (dãy số có độ phân tán lớn)
Giá trị trung bình và ph ơng sai đ ợc dùng trong
chọn mẫu & phân tích số liệu khảo sát
Các đại l ợng đo sự phân tán (5)
Trang 36s
Trang 37Các đại l ợng đo sự phân tán (7)
• Phản ánh mức độ phân tán của các giá trị riêng
xung quanh trung bình cộng Trong thực tế nó phản
ánh mức độ mà giá trị trung bình đại diện cho toàn
bộ các quan sát trong một tổng thể hay mẫu.
• Độ lệch chuẩn th ờng ổn định hơn so với các phép đo
khác khi đ ợc tính ở các mẫu khác nhau Đồng thời có một số đặc tính toán học cho phép nhà nghiên cứu có
đ ợc kết quả mới dựa trên 2 hay nhiều nhóm kết hợp.
Trang 38Các đại l ợng đo sự phân tán (8)
Độ lệch chuẩn cho phép đánh giá tóm tắt sự phân tán
của một biến số cũng nh so sánh sự phân tán giữa các mẫu
Ví dụ: Kết quả nghiên cứu về chỉ số hài lòng về cuộc
sống
Trung binh
Trang 39Hỏi & đáp