Khái niệm thống kê: Đối với một thí nghiệm có hai kết quả binomial experiment - thí dụ, đối với một thuốc được kê đơn: có hay không – bạn thường so sánh hai tỉ số với nhau thực nghiệm vớ
Trang 1BÁO CÁO BÀI TẬP LỚN
XÁC SUẤT THỐNG KÊ
Nhóm 8C – TỔ 6
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
Trang 2
-oOo -BÀI 1:
Bảng sau đây cho ta phân phối thu nhập của 2 nhóm tuổi: Nhóm từ 40 – 50 tuổi và nhóm từ
50 – 60 tuổi trong tổng số các công nhân lành nghề ở Thụy Điển năm 1930
Có sự khác nhau về phân bố thu nhập giữa hai nhóm tuổi này trong số các công nhân lành nghề hay không? Mức ý nghĩa α = 5%
1 Cơ sở lý thuyết:
a Dạng bài toán: Phân tích so sánh tỉ lệ
b Khái niệm thống kê:
Đối với một thí nghiệm có hai kết quả (binomial experiment) - thí dụ, đối với một thuốc được kê đơn: có hay không – bạn thường so sánh hai tỉ số với nhau (thực nghiệm với lí thuyết hay thực nghiệm với thực nghiệm) Song đối với một thí nghiệm có nhiều kết quả (multinomial experiment) – thí dụ, bác sĩ đánh giá tình trạng của các bệnh nhân được điều trị bởi thuốc trong một khoảng thời gian – bạn cần so sánh nhiều tỉ số Trắc nghiệm “khi” bình phương (2) cho phép bạn so sánh không những hai mà còn nhiều tỉ số (hay tỉ lệ hoặc xác suất) một cách tiện lợi 2 là phân phối về xác suất, không có tính đối xứng và chỉ có giá trị ≥ 0 Giả
sử bạn có một công trình nghiên cứu với N thử nghiệm độc lập, mỗi thử nghiệm có k kết quả và mỗi kết quả mang một trong các xác suất thực nghiệm là Pi (i = 1, 2, … k) Nếu gọi Pi,0 là các giá trị lý thuyết tương ứng với Pi thì các tần số lí thuyết sẽ là Ei = NPi,0 Điều kiện để áp dụng trắc nghiệm 2 một cách thành công là các tần số lí thuyết Ei phải ≥ 5
c Giả thuyết:
H0: P1 = P1,0; P2 = P2,0; … ; Pk = Pk,0 “Các cặp Pi và Pi,0 giống nhau”
H1: “Ít nhất có một cặp Pi và Pi,0 khác nhau”
Giá trị thống kê:
2
ij ij 2
1 ij
k i
O E E
Oi: các tần số thực nghiệm (observed frequency);
Ei: các tần số lý thuyết (expected frequency)
Biện luận:
Nếu 2 2 Bác bỏ giả thuyết H0 (DF = k-1)
Trang 3- Giá trị 2 theo biểu thức:
2
ij ij 2
1 1 ij
[
r c
j i
O E E
Oij: tần số thực nghiệm của ô thuộc hàng i và cột j;
Eij: tần số lý thuyết của ô thuộc hàng i với cột j;
r: số hàng;
c: số cột
- Xác suất P(X > 2) với bậc tự do DF = (r-1)(c-1); trong đó, r là số hàng và c là số cột trong bảng ngẫu nhiên (contingency table)
Nếu P(X > 2) > α Chấp nhận giả thuyết H0 và ngược lại
d Giải thuật:
- Tính các tổng số
- Tổng hàng (row totals)
- Tổng cột (column totals)
-Tổng cộng (grand total)
- Tính các tần số lý thuyết
- Tần số lý thuyết = tổng hàng x tổng cột / tổng cộng
2 Áp dụng Excel:
- Bảng số liệu:
P(X > 2) = 0.5116 > α = 0.01 Nhận giả thuyết H0
BÀI 2:
Trang 4Hãy tiến hành phân tích phương sai đối với các số liệu sau đây :
Mẫu thứ nhất : 22 19 13 19 23 15 16 18 20 20
Mẫu thứ hai : 27 25 22 27 19 23 21 28 23 25 27
Mẫu thứ ba : 20 18 21 21 16 17 20 18 17 19 18
Mẫu thứ tư : 18 16 24 19 22 22 24
1.Cơ sở lý thuyết :
a Dạng bài toán: Phân tích phương sai một nhân tố
b Khái niệm thống kê và giả thuyết bài toán:
Giả sử ta có k ĐLNN có phân bố chuẩn X 1 , X 2 , … X k , trong đó X i : N ( i, i2).
Các giá trị trung bình i và phương sai 2
i
đều chưa biết tuy nhiên chúng ta giả thiết rằng các phương sai bằng nhau:
2
1
= 22 = … = k2
Chúng ta muốn kiểm định xem liệu các giá trị trung bình i này có như nhau hay không:
1
= 2 = … = k
Trong thống kê các vấn đề trên thường được xem xét dưới góc độ sau đây:
Giả sử chúng ta quan tâm đến một nhân tố X (factor) nào đó Nhân tố X có thể xem xét ở k mức khác nhau Ký hiệu Xi là hiệu quả của việc tác động nhân tố X ở mức I đối với cá thể Như vậy i là hiệu quả trung bình của nhân tố X ở mức i Chúng ta muốn biết khi cho nhân tố X thay đổi các mức khác nhau thì điều đó có ảnh hưởng hay không tới hiệu qua trung bình
Ta có bảng số liệu sau :
Các mức nhân tố
n=
k i
n
1 1
T =
k
i k
T
1
Trang 5Trung bình x1 x2 …
K
x n
Ta đưa ra một số kí hiệu sau đây:
1
i
n
ji j
i i
x T
x
Trung bình chung ở đó:
j
n k
ij
x x
T x
Với :
n = n1 + n2 + … + nk
T = T1 + T2 + … + T3
Tổng bình phương chung Kí hiệu là SST được tính theo công thức sau:
k n i
n i
n
i x x x x L xik x
i i
SST
1
2 1
2 1
2 2 1
2 1
k j n j
n
i xij x
1 1
2
Có thể chứng minh rằng:
n
T x
n
T x L x x
SST
j ij
n i ik n
i ik n
i ij
k
2 ,
2
2 1
2 1
2 1
2 2
1
Tổng bình phương do nhân tố kí hiệu là SSF được tính theo công thức sau:
Trang 6
n
T n
T L n
T n T
i n SSF
k k
k i
I x x
2 2 2
2 2 1
2 1 1
2
Tổng bình phương do sai số kí hiệu là SSE được tính theo công thức:
k
k ij
k k n
i ik n
i i n
i
i
n i
n i
n
i
n
T L n
T x
n
T x L
n
T x n
T
x
k ik
L i
i SSE
k
k
x x
x x
x x
2 1
2 1 2
2 1
2 2
2 2 1
2 2 1
2 1
1
2
1
1
2 1
2 1
2
2 1
1 1
2 2 1
1
Từ công thức trên ta thấy: SST = SSF+SSE
Trung bình bình phương của nhân tố, kí hiệu là MSF được tính bởi công thức:
1
SSF MSF
k
k – 1 được gọi là bậc tự do của nhân tố.
Trung bình bình phương của sai số, kí hiệu là MSE được tính bởi công thức:
SSE MSE
n k
n – k được gọi là bậc tự do của sai số.
Tỉ số F được tính bởi công thức:
F=
MSE MSF
Các kết quả nói trên được trình bày trong bảng sau đây gọi là ANOVA.
Bảng ANOVA
Nguồn Tổng bình phương Bậc tự do Trung bình bình phương Tỷ số F
Trang 7Tổng số SST n - 1
Người ta chứng minh được rằng nếu giả thuyết H0 đúng thì tỉ số F sẽ có phân bố Fisher với bậc tự do là (k – 1,n – k)
Thành thử giả thuyết Ho sẽ bị bác bỏ ở mức ý nghĩa của phân bố Fisher với bậc tự do là
(k – 1,n – k) k – 1 được gọi là bậc tự do ở mẫu số
Giả thuyết : H0 : μ1= μ2 =…= μk : “ Các giá trị trung bình bằng nhau”
Bảng ANOVA được tiến hành theo trình tự sau đây:
Bước 1: Tính SSF
Bứớc 2: Tính SST
Bước 3: Tính SSE=SST – SSF
Bứoc 4: Tính MSF=SSF/K – 1
Bước 5: Tính MSE=SSE/N – 1
Bước 6: Tính F=MSF/MSE
Bước 7: Tra bảng phân bố F để tìm c rồi so sánh với F và rút ra kết luận:
Nếu F > Fα thì bác bỏ giả thuyết H0 và ngược lại
2 Áp dụng MS-EXCEL :
a Nhập dữ liệu vào bảng tính :
Áp dụng “Anova: Single factor”(MS-EXCEL 2003)
b Nhấp lần lượt Data tab và Data Analysis tab
c Chọn chương trình Anova: Single Factor trong hộp thoại Data Analysis rồi
Trang 8nhấp nút OK.
d Trong hộp thoại Anova: Single Factor lần lượt xác định:
- Phạm vi đầu vào (Input Range)
- Cách sắp xếp theo hàng hay cột (Group by)
- Nhãn dữ liệu (Label in First Row/Column)
e Nhấn OK, ta có bảng kết quả sau
Trang 93 Kết quả:
F = 10.36 > F0.05 = 2.87
Bác bỏ giả thuyết H0
Trang 10BÀI 3:
Tuổi và huyết áp của của 10 bệnh nhân trẻ em ( dưới 14 tuổi) , chọn ngẫu nhiên được cho trong bảng dưới đây :
X 14 1 9 7 9 12 1 3 9 1
Y 100 83 112 152 104 90 92 85 120 130
X 14 1 9 7 9 12 1 3 9 1
Y 110 73 132 122 134 98 82 65 140 110
Trong đó X là tuổi còn Y là huyết áp Tính tỉ số tương quan, hệ số tương quan, hệ số xác định của
Y đối với X Với mức ý nghĩa alpha = 5%, có kết luận gì về mối tương quan giữa X và Y( phi tuyến hay tuyến tính) ? Tìm đường hồi quy mẫu của Y đối với X Tính sai số tiêu chuẩn của đường hồi quy
I.CƠ SỞ LÍ THUYẾT
1 Tỉ số tương quan:
Để đo mức độ phụ thuộc của ĐLNN X vào ĐLNN Y, ta dùng khái niệm ti số tương quan Tỉ
số tương quan lí thuyết được kí hiệu 2
/
Y X
2
/
1
Y X
E Y E Y X DY E Y E Y X
Trong đó E[Y/X] : kỳ vọng của Y với điều kiện X
Người ta chứng minh được 02Y X/ 1 và 2 2Y X/
Hiệu số 2
/
Y X
càng lớn thì sự tương quan phi tuyến càng mạnh
Ta có bảng tương quan sau:
(1)
X X(2) … X(4) X( )k
1
11 21
1
n
y y
y
2
12 22
2
n
y y y
…
…
…
…
1 2
k
k k
n k
y y y
1
1
Ký hiệu:
1
i n
i ji i
T y
( tổng các số liệu y ở cột ji x )( )i
T = T i i
n là số các số liệu ở cột x ( )i
+ Tổng bình phương chung:
Y
X
Trang 11SST =
2 2
ij
T y n
+Tổng bình phương do nhân tố:
SSF =
2 2 1
k i
i i
T T
n n
Đại lượng sau được xem như ước lượng của tỷ số tương quan:
2 /
Y X
SSF SST
được gọi la tỉ số tương quan của Y đối với X
2.Hệ số tương quan:
Để đo mức độ phụ thuộc tuyến tính giữa hai ĐLNN X và Y, ta dựa vào hệ số tương quan
Hệ số tương quan lí thuyết của X và Y được xác định :
X Y
E X Y
Trong đó:
,
X Y
:giá trị trung bình của X và Y;
,
X Y
:độ lệch tiêu chuẩn của X và Y;
nằm trong đoạn [-1,1] Khi = 0 thì không có tương quan tuyến tính giữa X và Y Nếu X và Y có phân bố chuan thì = 0 khi va chỉ khi X và Y độc lập Khi | | càng gần 1 thì
sự phụ thuộc tuyến tính giữa X và Y càng mạnh Nếu | | =1 thì Y là hàm tuyến tính của X
Trong thực tế đại lượng sau được sử dụng như ước lượng cho :
1
n
i i i
n n
i i
i i
x x y y r
x x y y
r được gọi là hệ số tương quan
Để tính toán ta thường sử dụng công thức:
n xy x y r
n x x n y y
r cũng thuộc đoạn [-1,1]
Hệ số xác định là bình phương của hệ số tương quan
Hệ số xác định = 2
r
3.Xác định mối tương quan giữa 2 đại lượng ngẫu nhiên:
Kiểm định xem giữa X và Y có tương quan phi tuyến hay không:
H : 0 2 2 0 (không có tương quan phi tuyến)
H : 1 2 2 0 ( có tương quan phi tuyến )
Ta có test thống kê:
2
2
2
2
2
r
r n k k
F
k
n k
Gọi c là phân vị mức của phân bố Fisher với bậc tự do là (k-2,n-k)
Nếu F > c thì giả thuyết H bị bác bỏ.0
4.Đường hồi quy mẫu của Y đối với X:
Giả sử X là một biến nào đó, còn Y là 1 ĐLNN phụ thuộc vào X theo cách:
Nếu X=x, thì Y sẽ có kì vọng là x + ,
Trang 12Phương sai là 2
không phụ thuộc x
Đường thẳng có phương trình x + b được goi là đường hồi quy mẫu của Y đối với X Ước lượng các hệ số lí thuyết và trên 1 mẫu quan sát a và b sẽ là ước lượng của
và nếu nó làm cực tiểu tổng sau:
1
n
i i i
y Ax B
Hệ phương trình tìm điểm dừng
1
n
i i i i
Q
x y Ax B
A
1
n
i i i
Q
y Ax B
B
Giải hệ này ta tìm được:
n xy x y a
_ y a x
b y ax
n
5.Sai số tiêu chuẩn của đường hồi quy:
2
là số đo sự phân tán của Y xung quanh đường thẳng hồi quy Ước lượng cho ta dùng2 2
YX
s :
1
1
2
n
YX i i i
i
n
Trong tính toán ta thường sử dụng công thức:
2 2
2
YX
y a xy b s
n
Sai số tiêu chuẩn cho ta biết sự phân tán của đám may điểm ( ,x y ) xung quanh đương i i
thẳng hồi quy
II.Tính toán với Excel :
Ta nhập bảng số liệu và xử lý Excel:
Bảng A :
Bảng B:
n
i
Trang 13Tính tỷ số tương quan:
BẢNG A:
10
ij
T y n
1
k i
i i
T T
n n
2
/
4103.6
0.455 9009.6
Y X
SSF SST
BẢNG B:
10
ij
T y n
1
k i
i i
T T
n n
2
/
5531.07
0.878 6310.4
Y X
SSF SST
2.
Tính hệ số tương quan:
Ta sử dụng trình Correlation của Excel l data analysis:
Chọn Tools/ Data Analysis/ Correlation, OK, hộp thoại xuất hiện và tiến hnh thực hiện như sau:
T=sum(B6:G6)
=sum(B2:B5)
Trang 14Ta được kết quả như sau :
Hệ số xác định :
2
3.
Kiểm định sự tương quan:
Kiểm định xem giữa X và Y có tương quan phi tuyến hay không:
0
H : 2 2 0 (không có tương quan phi tuyến) 1
H : 2 2 0 ( có tương quan phi tuyến )
Ta có:
BẢNG A
2
2
2
2
2 (0.455 0.262141 )(10 6)
(1 0.455)(6 2)
r
r n k k
F
k
n k
BẢNG B
2
2
2
2
(1 0.878)(6 2)
r
r n k k
F
k
n k
Tra bảng phân bố Fisher với bậc tự do (4,4) ở mức 5% ta có c=
Bảng A : X và Y
Bảng B : X và Y
4.
Tính hệ số của đường hồi quy:
Sử dụng excel:
Chọn tools/ data Analysis / regression
Trang 15Khi cửa sổ regression xuất hiện, ta điền khoảng dữ liệu vào cho biến phụ thuộc Y và biến độc lập
X, đồng thời chọn Labels.
Ấn Ok ta được kết quả :
BẢNG A:
Trang 16 Y = 1.72*X + 90,424
Tương tự ta có kết quả cho bảng B:
Y = 3.111*X + 86.065
5 Tính sai số tiêu chuẩn:
Bảng A:
2
1037.8
YX
y a xy b y s
n
Bảng B:
2
512.5
YX
y a xy b y s
n
BÀI 4:
Bảng sau đây cho ta số liệu về màu tóc của 422 người:
Đen 56 32 88
Hung 37 66 103
Nâu 84 90 174
Vàng 19 38 57
mi 196 226 422 Với mức ý nghĩa 1%, nhận định xem số liệu có mối quan hệ giữa màu tóc và giới tính hay không
Hệ số b
Hệ số a
Trang 171 Cơ sở lý thuyết:
a Dạng bài toán: Kiểm định tính độc lập
b Khái niệm thống kê và giả thuyết bài toán:
- Mục đích: Xét một tổng thể gồm 2 dấu hiện X, Y Các dấu hiệu này có thể là dấu hiệu định tính hoặc định lượng Trong trường hợp bài toán nêu trên là cả 2 dấu hiệu đều là dấu hiệu định tính
- Lấy mẫu kích thước n ta có bảng số liệu như sau:
Trong đó:
- ni (i = 1,k) – số lần X nhận xi
- mj (j = 1,k) – số lần Y nhận yi
ni,j (i = 1,k , j = 1,k) – số lần đồng thời X nhận xi và Y nhận yj
c Phương pháp giải quyết và áp dụng trong Excel:
- Bước 1:
Đặt giả thuyết: H0: Màu tóc độc lập với giới tính
1
k
i ij
j
1
k
i
1 1
k k
i j
Ta có bảng số liệu như hình sau
- Sử dụng hàm =SUM(B2:B5) và nút tự điền
Trang 18- Tìm 2 2[( k 1)( h 1)] từ bảng phân vị “khi bình”
- Bước 2: Tính thống kê dựa vào các công thức sau:
2 ij
2
0
1 1
k k
ij
i j ij
ij
n m n
- Sau khi sử dụng với Excel ta có bảng số liệu ij như sau:
Từ đó:
2
0
- Hoặc sử dụng hàm trong Excel: = CHITEST(B2:C5,B12:C15)
Ta có:
- Bước 3: Kết luận:
Vì 02 <2 0.01 nên ta bác bỏ giả thiết H0 ( H0: giả thiết màu tóc đập lập với giới tính)
Vậy Màu tóc và giới tính có mối liện hệ với nhau