Biến số là những đại lượng hay những đặc tính có thể thay đổi từ người này sang người khác hay từ thời điểm này sang thời điểm khác. Như vậy biến số có thể thể hiện đại lượng hay đặc tính. Nếu biến số thể hiện một đại lượng nó được gọi là biến số định lượng (quantitative variable). Biến số định lượng có thể còn được chia thành biến số tỉ số ratio variable(có giá trị không tuyệt đối) và biến số khoảng – interval variable (không có giá trị không tuyệt đố) Nếu biến số nhằm thể hiện một đặc tính, biến số được gọi là biến số định tính. Biến số định tính còn được chia làm 3 loại: Biến số nhị giá – binary variable (khi chỉ có 2 giá trị) Biến số danh định – nominal variable (khi có 3 hay nhiều hơn các giá trị và các bản thân các giá trị không có tính chất thứ tụ) Biến số thứ tự ordinal variable (khi có 3 hay nhiều hơn các giá trị và các bản thân các giá trị có tính chất thứ tự Ngoài ra có khi biến cố không chỉ được quan tâm về phương diện nó có xảy ra hay chưa xảy ra mà còn được quan tâm về phương diện biến cố xảy ra vào lúc nào. Thí dụ sau khi điều trị bệnh nhân ung thư chúng ta không chỉ quan tâm bệnh nhân có tử vong hay không mà còn quan tâm bệnh nhân bệnh nhân tử vong bao nhiêu lâu sau khi điều trị và nếu bệnh nhân chưa tử vong, bệnh nhân đã sống được bao lâu.
Trang 1I. Thống kê và thống kê mô tả
Nam, nam, nữ, nữ, nữ, nam, nữ, v.v
Thí dụ: Một nhà nghiên cứu đo nồng độ hemoglobin của 70 thai phụ
có kết quả như sau:
và những con số này được gọi là số liệu
Cần lưu ý số liệu phải liên kết với một biến số nhất định Nếu tôi quan sátgiới tính ở người này, tuổi của người khác, quần áo của một người khác nữathì kết quả quan sát được không phải là số liệu
Biến số và các loại biến số
Biến số là những đại lượng hay những đặc tính có thể thay đổi từ người nàysang người khác hay từ thời điểm này sang thời điểm khác
Như vậy biến số có thể thể hiện đại lượng hay đặc tính
- Nếu biến số thể hiện một đại lượng nó được gọi là biến số địnhlượng (quantitative variable) Biến số định lượng có thể còn được chia thànhbiến số tỉ số - ratio variable(có giá trị không tuyệt đối) và biến số khoảng –interval variable (không có giá trị không tuyệt đố)
Trang 2- Nếu biến số nhằm thể hiện một đặc tính, biến số được gọi là biến sốđịnh tính Biến số định tính còn được chia làm 3 loại:
- Biến số nhị giá – binary variable (khi chỉ có 2 giá trị)
- Biến số danh định – nominal variable (khi có 3 hay nhiều hơncác giá trị và các bản thân các giá trị không có tính chất thứ tụ)
- Biến số thứ tự - ordinal variable (khi có 3 hay nhiều hơn cácgiá trị và các bản thân các giá trị có tính chất thứ tự
- Ngoài ra có khi biến cố không chỉ được quan tâm về phương diện nó
có xảy ra hay chưa xảy ra mà còn được quan tâm về phương diện biến cốxảy ra vào lúc nào Thí dụ sau khi điều trị bệnh nhân ung thư chúng ta khôngchỉ quan tâm bệnh nhân có tử vong hay không mà còn quan tâm bệnh nhânbệnh nhân tử vong bao nhiêu lâu sau khi điều trị và nếu bệnh nhân chưa tửvong, bệnh nhân đã sống được bao lâu
Phương pháp mô tả tóm tắt và trình bày số liệu
Trang 3-Tỉ lệ cho từng giá trị nếu
là biến thứ tự hay danh định
- Tỉ lệ cho giá trị tiêu biểu
nếu là biến nhị giá
-Tỉ lệ cho từng giá trị nếu
là biến thứ tự hay danh định
- Tỉ lệ cho giá trị tiêu biểu
nếu là biến nhị giá
Các số thống kê mô tả
Có hai loại thống kê mô tả: thống kê mô tả khuynh hướng tập trung và thống
kê mô tả tính phân tán
Thống kê mô tả khuynh hướng tập trung
Thống kê mô tả khuynh hướng tập trung có thể là trung bình (mean), trung
vị (median) và yếu vị (mode) Những thống kê này cho biết giá trị tiêu biểucho số liệu
Thí dụ: có hai loại thuốc hạ áp A và B Giả sử có 5 đối tượng sau khi
sử dụng thuốc hạ áp A sẽ có huyết áp 110 - 115 -120 - 125 -130 và ở 5đối tượng khác sau khi sử dụng thuốc hạ áp B sẽ có huyết áp 120 -
125 - 130 - 135 - 140 Con số tiêu biểu nhất để cho biết tác dụng củathuốc A là huyết áp trung bình sau khi sử dụng thuốc A và là 120.Con số huyết áp trung bình này thấp hơn huyết áp trung bình sau khi
sử dụng thuốc B cho biết thuốc A có tác dụng mạnh hơn
Trung bình của số liệu, được kí hiệu là (x (đọc là x gạch) là tổng các giá trị
Trang 4của số liệu chia cho số lần quan sát (N).
N
x
x i
Thí dụ: Số liệu về huyết áp tâm thu của 5 đối tượng là 120, 125,
130, 135, 150 Huyết áp tâm thu trung bình sẽ là 132
132 5
150 125 130 125 120
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là
120, 125, 130, 135, 150 Trung vị của huyết áp tâm thu là giá trịđứng ở giữa và bằng 130
Số liệu về chiều cao (cm) của 6 người là 153, 155, 160, 162,
165, 161 Ðể tính trung vị, trước tiên chúng ta phải sắp xếp sốliệu này: 153, 155, 160, 161, 162, 165 Do có hai giá trị 160 và
161 cùng ở giữa, trung vị sẽ là (160+161)/2 = 160,5 cm
Do bản chất của biến số danh định không thể sắp được theo thứ tự, chúng tachỉ có thể tính trung vị của số liệu định lượng và số liệu của biến số thứ tự.Ngoài ra yếu vị (mode) cũng được sử dụng làm con số thống kê tiêu biểu.Yếu vị là giá trị xuất hiện phổ biến nhất (có tần suất cao nhất)
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là
120, 125, 130, 135, 150 Trong trường hợp này không có yếuvị
Ðiểm số của 5 học sinh là 5, 5, 6, 7, 9 Yếu vị của điểm số là 5.Trong một ấp có 361 gia đình người Kinh, 120 gia đình ngườiKhmer và 27 gia đình người Hoa Yếu vị của biên số dân tộc làdân tộc Kinh
Trong một số liệu cụ thể, có thể không có yếu vị, có thể có một yếu vị hoặchai hay nhiều yếu vị Ðây là khuyết điểm chính của số thống kê này Do vậyngười ta thường chỉ dùng yếu vị cho biến số danh định hay trong các trườnghợp đặc biệt
Có thể sử dụng trung bình, trung vị hay yếu vị cho biến số định lượng Khibiến số định lượng có phân phối bình thường (hình chuông) thì ba con số
Trang 5này xấp xỉ bằng nhau và khi đó người ta thường tính trung bình bởi vì trungbình có những đặc tính toán học mạnh Tuy nhiên nếu số liệu bị lệch thì con
số trung vị phản ánh giá trị tiêu biểu một cách chính xác hơn
Thí dụ: Bệnh nhân bị loét dạ dày - tá tràng được điều trị theomột phác đồ diệt vi khuẩn Helicobacter Sau điều trị, bệnh nhânđược theo dõi và ghi nhận thời gian kể từ khi sử dụng thuốc đếnlúc bắt đầu cải thiện triệu chứng đau Ở 10 bệnh nhân thời giannày (ngày ) là như sau: 1, 2, 2, 2, 2, 2, 3, 3, 3, 30 Bệnh nhân cóthời gian từ lúc điều trị đến lúc giảm triệu chứng là 30 ngày trênthực chất là bệnh nhân không đáp ứng với điều trị Trung vị vàtrung bình của số liệu là 2 và 5 ngày Con số trung vị phản ánhchân thực hơn bởi vì với tư cách là một bác sĩ lâm sàng từ sốliệu trên có thể nhận xét rằng một bệnh nhân tiêu biểu sẽ giảmđau sau 2 ngày dùng thuốc Con sôs 30 trong thí dụ trên đượcgọi là số ngoại lai (outlier) và làm số liệu bị lệch Nhìn chung,khi số liệu bị lệch thì con số trung bình sẽ bị ảnh hưởng rấtnhiều và không phản ánh giá trị tiêu biểu như con số trung vị
Thống kê mô tả tính phân tán:
Có 3 thống kê mô tả tính phân tán: độ lệch chuẩn, khoảng tứ phân vị vàphạm vi của số liệu Việc lựa chọn thống kê mô tả tính phân tán được trìnhbày trong bảng 2
Thống kê mô tả tính phân tán có tầm quan trọng thứ hai sau con số mô tảkhuynh hướng tập trung
Thí dụ: Thuốc hạ áp A được sử dụng trên 5 bệnh nhân và huyết áptâm thu sau khi dùng thuốc là 110, 115, 120, 125 và 130 Thuốc hạ áp
B được sử dụng trên 5 bệnh nhân và có huyết áp sau sử dụng thuốc là
100, 110, 120, 130, 140 Như vậy hai thuốc hạ áp này có hiệu quả hạ
áp là tương đương (bởi vì trung bình của hai số liệu là bằng nhau)nhưng kết quả của thuốc B phân tán hơn và điều này làm thuốc B trởnên kém an toàn
Ðộ lệch chuẩn (standard deviation - viết tắt là SD hay s) là con số đánh giámức độ phân tán và được tính theo công thức:
Như vậy độ lệch chuẩn phản ánh khoảng cách trung bìnhcủa số liệu so với giá trị tiêu biểu Khái niệm độ lệch chuẩn chỉ có thể ápdụng cho biến số định lượng bởi vì chúng ta có thể thực hiện các phép toán
số học trên các đại lượng nhưng không thể thực hiện trên các giá trị của biến
s
1
2
1 ) (
Trang 6số định tính là các đặc tính.
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120,
125, 130, 135, 150 Trung bình của huyết áp là 132 và độ lệch chuẩnbằng
5 , 11 5 , 132 4
530 4
324 9 4 49 144
1 5
) 132 150 ( ) 132 135 ( ) 130 132 ( ) 132 125 ( ) 132 120 (
1
) (
2 2
2 2
2 1
i N
x x s
Phương sai về mặt từ nguyên là bình phương của độ lệch chuẩn Phương sai
i N
x x s
1
2 2
1
) (
Phạm vi của số liệu là tất cả các giá trị của số liệu từ giá trị nhỏ nhất đến giátrị lớn nhất
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120,
125, 130, 135, 150 Phạm vi của biến số huyết áp là 120 đến 150.Thí dụ: Thuốc hạ áp A được sử dụng trên 5 bệnh nhân và huyết áptâm thu sau khi dùng thuốc là 110, 115, 120, 125 và 130 Thuốc hạ áp
B được sử dụng trên 5 bệnh nhân và có huyết áp sau sử dụng thuốc là
100, 110, 120, 130, 140 Số liệu của thuốc B có tính phân tán cao hơn
do phạm vi thay đổi từ 100-140 trong khi đó phạm vị của số liệuthuốc A chỉ từ 110-130
Khoảng tứ phân vị (inter-quartile): Nếu chúng ta chia số liệu sắp theo thứ tựlàm 2 phần đều nhau, khoảng tứ phân vị là khoảng cách của trung vị phầntrên và trung vị phần dưới
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120,
125, 130, 135, 150 Số liệu này được chia làm 2 phần: phần 1 gồm
120, 125, 130 và phần 2 gồm 130, 135, và 150 Trung vị của phần trên
là 125 - trung vị của phần dưới là 135, do đó phạm tứ phân vị là 135
125-Do bản chất của khoảng tứ phân vị là trung vị của phần số liệu trên và phần
số liệu dưới, cũng giống như trung vị, khoảng tứ phân vị không bị ảnhhưởng bởi các giá trị ngoại lai như trong trường hợp của độ lệch chuẩn.Cũng như trung vị, khoảng tứ phân vị chỉ có thể áp dụng cho biến số địnhlượng hay thứ tự
Trang 7Câu hỏi: Phân tích trên máy tính về biến số hemoglobin cho kết quả sau.Hãy thử đọc và lí giải kết quả:
Variable | Obs Mean Std Dev.Min Max
-
+ -hemoglobin | 70 11.98429 1.4161228.8 15.1
Phương pháp trình bày số liệu
Số liệu có thể được trình bày thành bảng hoặc các đồ thị
Trình bày bảng:
Phân phối tần suất của biến số định tính
Số liệu của biến số rời rạc có thể được trình bày dưới dạng một phân phốitần suất Phân phối tần suất là một bảng chỉ ra tần suất xuất hiện của từnggiá trị rời rạc của biến số (Bảng 1) Như vậy bảng phân phối tần suất gồm 2cột, một cột liệt kê các giá trị của biến số và một cột trình bày tần suất tươngứng của các giá trị đó
Table 1 Phân phối giới tính của 69 học sinh lớp cơm thường trường mầm non 23 tháng
Table 2 Phương pháp đỡ đẻ của 600 trẻ trong bệnh viện
Trang 8Phân phối tần suất của biến số định lượng
Nếu biến số là biến số liên tục chúng ta không thể liệt kê tất cả các giá trịcủa biến số Trong trường hợp này chúng ta có thể nhóm (làm tròn) giá trịcủa biến số lại
Cụ thể các bước xây dựng bảng phân phối tần suất cho biến số định lượngnhư sau:
1- Tìm phạm vi (giá trị cực tiểu và giá trị cực đại) của số liệu Trong thí dụ
về hemoglobin của 70 phụ nữ phạm vi là 8,8 đến 15,1
2 Chia phạm vi số liệu ra làm n khoảng với độ rộng của mỗi khoảng là d.Cần lưu ý độ rộng mỗi khoảng d nên là đại lượng chẵn như 1, 2, 5, 10 hay0,5, 0,2 và số các khoảng n nên từ 5-12 (trung bình là 7-8) Trong thí dụ trên
ta có thể chia phạm vi ra làm 8khoảng với chiều rộng khoảng bằng 1 đơn vị.Khi đó các khoảng là: 8-8,9; 9-9,9; 10-10,9; 11-11,9; 12-12,9; 13-13,9; 14-14,9; 15-15,9
3 Ðếm các giá trị thích hợp vào khoảng đã định trước
Trang 915-15,9 1
4 Xây dựng bảng phân phối tần suất với biến số và các khoảng giá trị củabiến số và tần suất tương ứng với các khoảng giá trị đó Chúng ta cũng cóthể thêm vào cột phần trăm và cột phần trăm tích lũy (nếu thích hợp)
Table 3 Hemoglobin của 70 phụ nữ
số là rời rạc và trình bày bảng phân phối tần suất của biến số (bảng 2)
Table 4 Phân phối số đo vòng cánh tay của 69 trẻ lớp cơm thường nhà trẻ 23 tháng 11, Hóc môn.
Trang 10đồ (chart) là hình ảnh mang tính chất tượng trưng.
Nếu biến số là biến rời rạc, có thể trình bày dưới dạng biểu đồ hình thanh(bar chart - hình 1) hoặc biểu đồ hình bánh (pie chart) Nếu biến số là biếnliên tục, thì phân phối của biến số có thể trình bày dưới dạng tổ chức đồ(histogram - hình 2) hoặc đa giác tần suất
Hình thức của bảng
-Có tựa ngắn gọn và rõ ràng
-Ðặt tên cho các hàng và cột
-Trình bày tổng số của hàng và cột
-Ðịnh nghĩa các kí hiệu và chữ viết tắt ở dưới bảng
-Ghi nguồn số liệu ở dưới bảng
Biểu đồ hình thanh
Biểu đồ hình thang là biểu đồ nhằm mô tả sự phân bố của biến số rời rạc.Biểu đồ hình thanh gồm có trục hoành trên đó xác định những giá trị củabiến số Ứng với từng giá trị của biến số người ta vẽ các thanh có chiều cao
tỉ lệ với tần suất của giá trị đó Cần lưu ý luôn luôn có khoảng trống giữa cácthanh
Trang 11Hình 1 Biểu đồ hình thanh (bar chart) mô tả phân bố giới tính của
những học sinh trong trường mầm non 23/11, Hóc môn
Chúng ta cũng có thể xây dựng các thanh theo chiều ngang như trong ví dụ
sau
478 65
Trang 12Đường âm đạo Mổ lấy thai
Hình 4 Tỉ suất lây truyền từ mẹ sang con ở những người mẹ bị nhiễm HIV theo điều trị hĩa dự phịng và phương pháp sinh (Nguồn: The
Trang 13European Mode of Delivery Collaboration, Lancet, 27/3/1999)
Biểu đồ hình bánh
Biểu đồ hình bánh cũng được dùng để mơ tả sự phân bố của biến số rời rạc.Biểu đơ hình bánh là một vịng trịn được chia làm nhiều cung tương ứng vớicác giá trị của biến số Ðộ lớn của cung tỉ lệ với tần suất của giá trị biến số
Nữ 35%
Nam 65%
Hình 5 Biểu đồ hình bánh (pie chart) mơ tả phân bố giới tính của những học sinh trong trường mầm non 23/11, Hĩc mơn
Sinh thường
Sinh mổ Sinh
forceps
Trang 14Hình 6 Biểu đồ hình bánh thể hiện phương pháp sinh của 600 đứa trẻ sinh tại bệnh viện X
Tổ chức đồ và đa giác tần suất
Tổ chức đồ (histogram) và đa giác tần suất (polyline) được dùng trong mô tảphân bố của biến số liên tục Ðể vẽ tổ chức đồ, người ta chia biên độ của giátrị làm nhiều khoảng giá trị và tính tần suất của những khoảng giá trị đó.Những khoảng giá trị này được biểu thị ở trên trục hoành Ứng với mỗikhoảng giá trị người ta vẽ những hình chữ nhật có diện tích tỉ lệ với tần suấtcủa khoảng giá trị đó Bởi vì các khoảng giá trị này nằm sát nhau trên trụchoành, các hình chữ nhật của tổ chức đồ cũng thường nằm sát nhau
Trang 15Hình 8 Ða giác tần suất của hemoglobin của 70 phụ nữ.
Ðể vẽ đa giác tần suất, người ta thường vẽ tổ chức đồ và nối các trung điểmcủa các cạnh trên của các hình chữ nhật Ða giác tần suất thường không đẹpnhư các tổ chức đồ nhưng nó có ưu điểm là có thể vẽ nhiều đa giác tần suấttrên cùng một đồ thị để dễ so sánh các phân phối của chúng
Trang 17II. Phân tích số liệu
Phép ước lượng
Dân số và mẫu
Thông thường chúng ta không thể nghiên cứu toàn bộ dân số mà chúng taquan tâm Chúng ta thường chỉ có thể nghiên cứu chỉ một phần dân số đó,phần này được gọi là mẫu (sample) và từ đó ước đoán về những đặc tính củadân số
Trong nghiên cứu khoa học, chúng ta đi từ đặc trưng của cá thể (biến số variable) để có được đặc trưng của mẫu (được gọi là thống kê - statistics) và
-từ đặc trưng của mẫu chúng ta sử dụng phương pháp suy luận thống kê và lígiải để có được đặc trưng của dân số (được gọi là tham số - parameter)
Một loại mẫu thường được gặp trong nghiên cứu là mẫu ngẫu nhiên đơn.Khi lấy mẫu ngẫu nhiên đơn, chúng ta có thể tính được giá trị trung bình
và độ lệch chuẩn của mẫu Rõ ràng là giá trị trung bình và độ lệch chuẩn sẽkhác nhau với những mẫu khác nhau Tuy vậy các nhà thống kê đã chứngminh rằng giá trị trung bình của mẫu sẽ có phân phối bình thường và các giátrị trung bình này sẽ tập trung tại trung bình của dân số Do đó nếu chúng tatính trung bình của mẫu thì chúng ta hi vọng trung bình của dân số sẽ nằmngay tại hay ở lân cận trung bình của mẫu Ðộ phân tán của trung bình mẫuxung quanh chung bình dân số được gọi là sai số chuẩn (standard error) và
sẽ giảm đi khi cỡ mẫu càng lớn:
n
s n
s e
Độ lệch chuẩn và sai số chuẩn là hai đại lượng thể hiện sự phân tán nhưng
độ lệch chuẩn thể hiện sự phân tán của cá thể chung quanh giá trình trungbình dân số còn sai số chuẩn là đại lượng thể hiện sự phân tán của con sốthống kê (trung bình mẫu hay tỉ lệ của mẫu) chung quanh giá trị của tham số(trung bình dân số hay tỉ lệ của dân số)
Ước lượng khoảng tin cậy của trung bình
Như chúng ta đã trình bày, trung bình của mẫu sẽ dao động nhưng tập trungtại giá trị trung bình của dân số, nên chúng ta có thể ước lượng trung bìnhdân số bằng cách tính trung bình của mẫu
Nhưng do trung bình mẫu có dao động, chúng ta không chắc là trung bình