trong khám chữa một loại bệnh nào đó trước và sau điều trị và thực hiện các bước sau 1 Trình bày cơ sở lý thuyết cho từng phần 2 Mô tả mẫu số liệu thu thập được 3 Tính các chỉ số trung b
Trang 1BÀI TIỂU LUẬN HẾT MÔN: THỐNG KÊ SINH HỌC
I Thông tin học viên
- Họ và tiên học viên: Nguyễn Văn Cương
- Mã số học viên: 20842010310007
II Nội dung bài tiểu luận
Câu hỏi
Anh/ Chị hãy thu thập số liệu về một chỉ số nào đấy của Bệnh nhân (chẳng hạn các chỉ số Huyết áp, Cholesterol, v.v.) trong khám chữa một loại bệnh nào đó (trước và sau điều trị) và thực hiện các bước sau
1) Trình bày cơ sở lý thuyết cho từng phần
2) Mô tả mẫu số liệu thu thập được
3) Tính các chỉ số trung bình
4) Tính các giá trị phương sai mẫu
5) Ước lượng khoảng đối với các chỉ số trung bình trước, sau điều trị
6) Ước lượng tỷ lệ bệnh nhân sau khi điểu trị có chỉ số được nghiên cứu đạt chuẩn
7) So sánh chỉ số trung bình trước và sau điều trị
8) So sánh tỷ lệ bệnh nhân nam và nữ có chỉ số được nghiên cứu đạt chuẩn sau khi điều trị
9) Trình bày các câu lệnh tính toán toán trên phần mềm R
10) Tìm hệ số tương quan và phương trình hồi quy tuyến tính của 2 chỉ số nào
đó trong một mô hình nghiên cứu dịch bệnh nào đó
Phần trả lời
1 Mô tả mẫu
1.1 Tóm tắt lý thuyết
Các phương pháp mô tả mẫu
Trang 2a, Mô tả mẫu dưới dạng liệt kê: liệt kê n lần quan sát được ở n lần quan sát khác nhau
b, Mô tả dưới dạng bảng tần số: Thu gọn dưới mẫu liệt kê
Tac có:
c, Mô tả mẫu dưới dạng bảng tần suất : Xuất phát từ bản tần số ta có
Trong đó:
c, Mô tả dưới dạng bảng ghép nhóm:
Tần
Ta có phần tử đại diện của lớp là:
1.2 Bài tập áp dụng
Thu thập số liệu trước và sau điều trị của 30 bệnh nhân đang điều trị tăng Cholesterol máu tại Bệnh viện HNĐK Nghệ An
Trước điều trị:
Chỉ số Cholesterol 5.5 6.4 6.8 5.4 5.8 6.9
Số
BN
Sau điều trị:
Trang 3Chỉ số Cholesterol 4.8 5.2 6.0 5.1 6.4 5.0
Số
BN
Lệnh nhập dữ liệu vào R
x=rep(c(5.5,6.4,6.8,5.4,5.8,6.9),c(5,4,6,9,5,11))
y=rep(c(4.8,5.2,6.0,5.5,6.4,5.0),c(10,6,4,5,5,10))
* Tính các chỉ số trung bình trước và sau điều trị:
> mean(x)
[1] 6.185
> mean(y)
[1] 5.3175
* Tính phương sai mẫu trước và sau điều trị
> var(x)
[1] 0.4284872
> var(y)
[1] 0.2989167
Kết luận: +) Với mẫu số liệu cholesterol các BN trước điều trị ta có
- Trung bình mẫu: = 6.185
- Phương sai mẫu: Sx2 = 0.4284872
+) Với mẫu số liệu cholesterol các BN sau điều trị ta có
- Trung bình mẫu: = 5,3175
- Phương sai mẫu: Sy2 = 0.2989167
2 Ước lượng tham số
2.1.Tóm tắt lý thuyết
a, Ước lượng khoảng đối với gí trị trung bình:
Với mẫu quan sát: (x1,x2,…,xn) có được từ tổng thể và độ tin cậy β (mức ý nghĩa α=1-β) khoảng tin cậy đối xứng với giá trị trung bình µ = EX là:
Trong đó: : Trung bình mẫu
n: Kích thước mẫu
s2: Phương sai mẫu
Trang 4: phân vị mức của phân phối chuẩn tắc student với n-1 bậc
tự do và được tính trong R bởi lệnh
b, Ước lượng khoảng đối với giá trị tỉ lệ
Thực hiện quan sát các phần tử của tổng thể n lần độc lập Có k lần xuất hiện thuộc tính A mà chúng ta quan tâm Ta có công thưc khoảng tin cậy đối xứng đối với giá trị tỉ lệ của tổng thể với độ tin cậy β (mức ý nghĩa ) là:
Trong đó: là phân vị mức của phân phối chuẩn tắc
2.2 Bài tập áp dụng
a, Ước lượng khoảng đối với các chỉ số trung bình trước, sau điều trị
Dựa vào số liệu thống kê chỉ số cholesterol của bệnh nhân trước và sau điều trị
đã thu thập ở trên
- Gọi µ1 là huyết áp trung bình của bệnh nhân trước khi điều trị Khoảng tin cậy đối với µ1 là:
Thực hành trên R
> x=rep(c(5.5,6.4,6.8,5.4,5.8,6.9),c(5,4,6,9,5,11))
> t.test(x,conf.level = 0.95)
One Sample t-test
data: x
t = 59.759, df = 39, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
5.975652 6.394348
Trang 5sample estimates:
mean of x
6.185
Thực hành trên R:
> y=rep(c(4.8,5.2,6.0,5.5,6.4,5.0),c(10,6,4,5,5,10))
> t.test(y,conf.level = 0.95)
One Sample t-test
data: y
t = 61.512, df = 39, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
5.142646 5.492354
sample estimates:
mean of x
5.3175
Kết luận: Từ số liệu thống kê và độ tin cậy 95%:
- Khoảng tin cậy đối với chỉ số cholesterol của bệnh nhân trước điều trị là (5.975652 ; 6.394348)
- Khoảng tin cậy đối với chỉ số cholesterol của bệnh nhân sau đièu trị là: (5.142646 ; 5.492354)
b, Ước lượng tỷ lệ bệnh nhân sau khi điểu trị có chỉ số được nghiên cứu đạt chuẩn
Dựa vào số liệu thống kê ở trên, những bệnh nhân có chỉ sốc cholesterol sau điều trị thấp hơn hoặc bằng 5.2 được xem là đạt chuẩn
Ta có khoảng tin cậy đối với tỷ lệ bệnh nhân có chỉ số cholesterol đạt chuẩn là:
Trong đó: fn = = =
Thực hành trên R
Trang 6>prop.test(x=31, n=40, alt="t", conf.level = 0.95)
1-sample proportions test with continuity correction
data: 31 out of 40, null probability 0.5
X-squared = 11.025, df = 1, p-value = 0.0008989
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.6114495 0.8859920
sample estimates:
p
0.775
Kết luận: Từ số liệu thống kê với độ tin cậy 95%, Khoảng tin cậy đối với tỷ lệ
bệnh nhân có chỉ số cholesterol đạt chuẩn là (0.6114495 ; 0.8859920)
3 Kiểm định giả thuyết
3.1 Tóm tắt lý thuyết
a, So sánh 2 giá trị trung bình:
Xét thống kê kiểm định:
mẫu lấy từ tổng thể thứ nhất
là trung bình mẫu của mẫu lấy từ tổng thể thứ hai
là phương sai mẫu của mẫu lấy từ tổng thể thứ nhất
là phương sai mẫu của mẫu lấy từ tổng thể thứ hai
Ta có quy tắc kiểm định sau đây:
+, Đối với bài toán:
Trang 7Nếu �−�����>� chấp nhận giả thuyết H, nếu p−value<� chấp nhận đối thuyết K
+, Đối với bài toán:
Nếu �−�����>� chấp nhận giả thuyết H, nếu p−value<� chấp nhận đối thuyết K
+ Đối với bài toán:
Nếu chấp nhận giả thuyết H, nếu chấp nhận đối thuyết K
b, So sánh hai giá trị tỷ lệ
Các phần tử của hai tổng thể đểu có thuộc tính A nào đó Tỉ lệ các phần tử của các tổng thể có thuộc tính A lần lượt là p1, p2 Có các giả thuyết khác nhau về giá trị tỉ lệ như sau:
Quan sát các phần tử của hai tổng thể đưa ra kết luận cho các bài toán trên với mức ý nghĩa α cho trước
Để giải quyết bài toán trên chúng ta làm như sau:
- Quan sát các phần tử của tổng thể thứ nhất lần có lần xuất hiện thuộc tính A
- Quan sát các phần tử của tổng thể thứ hai lần có lần xuất hiện thuộc tính A
Khi đó: là tần suất xuất hiện thuộc tính A ở tổng thể 1
là tần suất xuất hiện thuộc tính A ở tổng thể 2
Trang 8là tần suất xuất hiện thuộc tính A khi ta trộn hai mẫu
Xét thống kê kiểm định:
Ta có quy tắc kiểm định sau:
+ Đối với bài toán:
Nếu �−�����>� chấp nhận giả thuyết H, nếu p−value<� chấp nhận đối thuyết K
+ Đối với bài toán:
Nếu �−�����>� chấp nhận giả thuyết H, nếu p−value<� chấp nhận đối thuyết K
+ Đối với bài toán:
Nếu �−�����>� chấp nhận giả thuyết H, nếu p−value<� chấp nhận đối thuyết K
3.2 Bài tập áp dụng
a, Với số liệu chỉ số cholesterol của 40 bệnh nhân thu thập ở trên, so sánh chỉ
số trung bình trước và sau điều trị Chỉ số trung bình sau điều trị có giảm hơn
so với trước điều trị hay không?
Gọi µ1, µ2 lần lượt là huyết áp trung bình của bệnh nhân trước và sau khi điều trị Khi đó, xét bài toán:
Xét thống kê kiểm định:
Trang 9Thực hành trên R
> x=rep(c(5.5,6.4,6.8,5.4,5.8,6.9),c(5,4,6,9,5,11))
> y=rep(c(4.8,5.2,6.0,5.5,6.4,5.0),c(10,6,4,5,5,10))
> t.test(x,y, alternative = "greater", conf.level = 0.95, var.equal = T) Two Sample t-test
data: x and y
t = 6.433, df = 78, p-value = 4.621e-09
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
0.6430218 Inf
sample estimates:
mean of x mean of y
6.1850 5.3175
Kết luận: Ta thấy p-value = 4.621e-09 < α = 0,05, suy ra bác bỏ giả thuyết H,
chấp nhận giả thuyết K Có nghĩa là, từ số liệu thống kê và mức ý nghĩa 5% chúng ta có thể kết luận rằng sau khi điều trị chỉ số cholesterol trung bình của
BN giảm hơn so với trước khi điều trị
b, So sánh tỷ lệ bệnh nhân nam và nữ có chỉ số được nghiên cứu đạt chuẩn sau khi điều trị.
Tổng số bệnh nhân: 40 trong đó có 17 nam (n1), 23 nữ (n2)
Sau điều trị số bệnh nhân nam đạt chuẩn là 12 (m1), số bệnh nhân nữ đạt chuẩn
là 21(m2)
Gọi p1 là tỉ lệ bệnh nhân nam đạt chuẩn sau điều trị
P2 là tỉ lệ bệnh nhân nữ đạt chuẩn sau điều trị
Xét thống kê kiểm định:
Trang 10Xét bài toán:
Thực hành trên R:
> prop.test(c(12,21), c(17,23),alt="less",correct=F)
2-sample test for equality of proportions without continuity correction
data: c(12, 21) out of c(17, 23)
X-squared = 2.9056, df = 1, p-value = 0.04414
alternative hypothesis: less
95 percent confidence interval:
-1.000000000 -0.001294977
sample estimates:
prop 1 prop 2
0.7058824 0.9130435
Warning message:
In prop.test(c(12, 21), c(17, 23), alt = "less", correct = F) :
Chi-squared approximation may be incorrect
Kết luận: Ta thấy: p-value = 0.04414 < α=0,05, suy ra bác bỏ giả thuyết H, chấp
nhận giả thuyết K Có nghĩa là từ số liệu thống kê và mức ý nghĩa 5%, chúng ta
Trang 11có thể kết luận rằng sau điều trị, tỷ lệ bênh nhân nam có chỉ số cholesterol đạt chuẩn thấp hơn tỷ lệ bệnh nhân nữ có chỉ số cholesterol đạt chuẩn
4 Phân tích tương quan hồi quy
4.1 Tóm tắt lý thuyết
a, Xác định hệ số tương quan
Quan sát vức tơ ngẫu nhiên (X, Y) ta thu được các mẫu
để ước lượng hệ số tương quan giữu X, Y người ta dùng hệ số tương quan mẫu sau:
+) Nếu thì X và Y có tương quan tuyến tính rất mạnh
+) Nếu thì X và Y có tương quan tuyến tính mạnh
+) Nếu thì X và Y có tương quan tuyến tính
+) Nếu thì X và Y có tương quan tuyến tính yếu
+) Nếu thì X và Y có tương quan tuyến tính rất yếu hay không tương quan
b, Phương trình hồi quy tuyến tính
Nếu thì tồn tại hằng số a, b sao cho Y=aX+b Khi đó biết giá
trị của X ta dự báo được giá trị của Y Tuy nhiên thực tế ta có:
Trang 12Khi đó đường y=ax+b được gọi là đường hồi quy tuyến tính có được bằng phương pháp bình phương tối thiểu
4.2 Bài tập áp dụng
Tìm hệ số tương quan và phương trình hồi quy tuyến tính của 2 chỉ số nào đó trong một mô hình nghiên cứu dịch bệnh nào đó.
Một bệnh nhân bị thiếu máu do mất máu Xét nghiệm chỉ số Hb = 60 g/l
Cần truyền máu cho bệnh nhân Sau mỗi đơn vị máu (250ml), ta lại xét nghiệm chỉ số Hb của bệnh nhân Kết quả thu được sau 5 lần truyền máu như sau:
a, Xác đinh hệ số tương quan
Thực hành trên R:
> x=c(1,2,3,4,5)
> y=c(68,76,86,92,100)
> cor(x,y)
[1] 0.9975093
Kết luận: Từ số liệu thống kê, hệ số tương quan giữa chỉ chỉ số Hb và số đơn vị máu được truyền là 0.9975093
b, Phương trình hồi quy tuyến tính của chỉ số Hb và số đơn vị máu
Thực hành trên R:
> x=c(1,2,3,4,5)
> y=c(68,76,86,92,100)
> lm(y~x)
Call:
lm(formula = y ~ x)
Trang 13(Intercept) x
60.4 8.0
Kết luận: Vậy đường hồi quy của y theo x là y=8x+60,4
5 Phần kết luận chung
Từ số liệu thu thập được trong quá trình điều trị của 40 bệnh nhân có chỉ số Cholesterol tăng cao hơn mức bình thường, ta thu được kết quả thống kê như sau:
- Sau điều trị, chỉ số cholesterol trung bình thấp hơn so với trước điều trị
- Sau điều trị, tỷ lệ bệnh nhân nam có chỉ số Cholesterol đạt chuẩn thấp hơn
so với nữ