Report Group 6 - XSTK ppsx

Khái niệm thống kê: Đối với một thí nghiệm có hai kết quả binomial experiment - thí dụ, đối với một thuốc được kê đơn: có hay không – bạn thường so sánh hai tỉ số với nhau thực nghiệm vớ

Trang 1

BÁO CÁO BÀI TẬP LỚN

XÁC SUẤT THỐNG KÊ

Nhóm 8C – TỔ 6

TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM

Trang 2

-oOo -BÀI 1:

Bảng sau đây cho ta phân phối thu nhập của 2 nhóm tuổi: Nhóm từ 40 – 50 tuổi và nhóm từ

50 – 60 tuổi trong tổng số các công nhân lành nghề ở Thụy Điển năm 1930

Có sự khác nhau về phân bố thu nhập giữa hai nhóm tuổi này trong số các công nhân lành nghề hay không? Mức ý nghĩa α = 5%

1 Cơ sở lý thuyết:

a Dạng bài toán: Phân tích so sánh tỉ lệ

b Khái niệm thống kê:

Đối với một thí nghiệm có hai kết quả (binomial experiment) - thí dụ, đối với một thuốc được kê đơn: có hay không – bạn thường so sánh hai tỉ số với nhau (thực nghiệm với lí thuyết hay thực nghiệm với thực nghiệm) Song đối với một thí nghiệm có nhiều kết quả (multinomial experiment) – thí dụ, bác sĩ đánh giá tình trạng của các bệnh nhân được điều trị bởi thuốc trong một khoảng thời gian – bạn cần so sánh nhiều tỉ số Trắc nghiệm “khi” bình phương (2) cho phép bạn so sánh không những hai mà còn nhiều tỉ số (hay tỉ lệ hoặc xác suất) một cách tiện lợi 2 là phân phối về xác suất, không có tính đối xứng và chỉ có giá trị ≥ 0 Giả

sử bạn có một công trình nghiên cứu với N thử nghiệm độc lập, mỗi thử nghiệm có k kết quả và mỗi kết quả mang một trong các xác suất thực nghiệm là Pi (i = 1, 2, … k) Nếu gọi Pi,0 là các giá trị lý thuyết tương ứng với Pi thì các tần số lí thuyết sẽ là Ei = NPi,0 Điều kiện để áp dụng trắc nghiệm 2 một cách thành công là các tần số lí thuyết Ei phải ≥ 5

c Giả thuyết:

H0: P1 = P1,0; P2 = P2,0; … ; Pk = Pk,0  “Các cặp Pi và Pi,0 giống nhau”

H1: “Ít nhất có một cặp Pi và Pi,0 khác nhau”

Giá trị thống kê:

2

ij ij 2

1 ij

k i

O E E







Oi: các tần số thực nghiệm (observed frequency);

Ei: các tần số lý thuyết (expected frequency)

Biện luận:

 Nếu 2 2  Bác bỏ giả thuyết H0 (DF = k-1)

Trang 3

- Giá trị 2 theo biểu thức:

2

ij ij 2

1 1 ij

[

r c

j i

O E E



 



 

Oij: tần số thực nghiệm của ô thuộc hàng i và cột j;

Eij: tần số lý thuyết của ô thuộc hàng i với cột j;

r: số hàng;

c: số cột

- Xác suất P(X > 2) với bậc tự do DF = (r-1)(c-1); trong đó, r là số hàng và c là số cột trong bảng ngẫu nhiên (contingency table)

 Nếu P(X > 2) > α  Chấp nhận giả thuyết H0 và ngược lại

d Giải thuật:

- Tính các tổng số

- Tổng hàng (row totals)

- Tổng cột (column totals)

-Tổng cộng (grand total)

- Tính các tần số lý thuyết

- Tần số lý thuyết = tổng hàng x tổng cột / tổng cộng

2 Áp dụng Excel:

- Bảng số liệu:

P(X > 2) = 0.5116 > α = 0.01  Nhận giả thuyết H0

BÀI 2:

Trang 4

Hãy tiến hành phân tích phương sai đối với các số liệu sau đây :

Mẫu thứ nhất : 22 19 13 19 23 15 16 18 20 20

Mẫu thứ hai : 27 25 22 27 19 23 21 28 23 25 27

Mẫu thứ ba : 20 18 21 21 16 17 20 18 17 19 18

Mẫu thứ tư : 18 16 24 19 22 22 24

1.Cơ sở lý thuyết :

a Dạng bài toán: Phân tích phương sai một nhân tố

b Khái niệm thống kê và giả thuyết bài toán:

Giả sử ta có k ĐLNN có phân bố chuẩn X 1 , X 2 , … X k , trong đó X i : N ( i, i2).

Các giá trị trung bình i và phương sai 2

i

 đều chưa biết tuy nhiên chúng ta giả thiết rằng các phương sai bằng nhau:

2

1

 = 22 = … = k2

Chúng ta muốn kiểm định xem liệu các giá trị trung bình i này có như nhau hay không:

1

 = 2 = … = k

Trong thống kê các vấn đề trên thường được xem xét dưới góc độ sau đây:

Giả sử chúng ta quan tâm đến một nhân tố X (factor) nào đó Nhân tố X có thể xem xét ở k mức khác nhau Ký hiệu Xi là hiệu quả của việc tác động nhân tố X ở mức I đối với cá thể Như vậy i là hiệu quả trung bình của nhân tố X ở mức i Chúng ta muốn biết khi cho nhân tố X thay đổi các mức khác nhau thì điều đó có ảnh hưởng hay không tới hiệu qua trung bình

Ta có bảng số liệu sau :

Các mức nhân tố

n= 



k i

n

1 1

T =



k

i k

T

1

Trang 5

Trung bình x1 x2 …

K

x n



 Ta đưa ra một số kí hiệu sau đây:

1

i

n

ji j

i i

x T

x





Trung bình chung ở đó:

j

n k

ij

x x

T x

 

Với :

n = n1 + n2 + … + nk

T = T1 + T2 + … + T3

 Tổng bình phương chung Kí hiệu là SST được tính theo công thức sau:







k n i

n i

n

i x x x x L xik x

i i

SST

1

2 1

2 2 1

2 1

 



k j n j

n

i xij x

1 1

2

Có thể chứng minh rằng:

n

T x

n

T x L x x

SST

j ij

n i ik n

i ik n

i ij

k

2 ,

2

2 1

2 2

1















Tổng bình phương do nhân tố kí hiệu là SSF được tính theo công thức sau:

Trang 6

 

n

T n

T L n

T n T

i n SSF

k k

k i

I x x

2 2 2

2 2 1

2 1 1

2







 Tổng bình phương do sai số kí hiệu là SSE được tính theo công thức:



































 





k

k ij

k k n

i ik n

i i n

i

n i

n

i

n

T L n

T x

n

T x L

n

T x n

T

x

k ik

L i

i SSE

k

x x

2 1

2 1 2

2 1

2 2

2 2 1

2 1

1

2

1

2 1

2

2 1

1 1

2 2 1

1

 Từ công thức trên ta thấy: SST = SSF+SSE

Trung bình bình phương của nhân tố, kí hiệu là MSF được tính bởi công thức:

1

SSF MSF

k





k – 1 được gọi là bậc tự do của nhân tố.

Trung bình bình phương của sai số, kí hiệu là MSE được tính bởi công thức:

SSE MSE

n k





n – k được gọi là bậc tự do của sai số.

Tỉ số F được tính bởi công thức:

F=

MSE MSF

Các kết quả nói trên được trình bày trong bảng sau đây gọi là ANOVA.

Bảng ANOVA

Nguồn Tổng bình phương Bậc tự do Trung bình bình phương Tỷ số F

Trang 7

Tổng số SST n - 1

Người ta chứng minh được rằng nếu giả thuyết H0 đúng thì tỉ số F sẽ có phân bố Fisher với bậc tự do là (k – 1,n – k)

Thành thử giả thuyết Ho sẽ bị bác bỏ ở mức ý nghĩa của phân bố Fisher với bậc tự do là

(k – 1,n – k) k – 1 được gọi là bậc tự do ở mẫu số

Giả thuyết : H0 : μ1= μ2 =…= μk : “ Các giá trị trung bình bằng nhau”

Bảng ANOVA được tiến hành theo trình tự sau đây:

Bước 1: Tính SSF

Bứớc 2: Tính SST

Bước 3: Tính SSE=SST – SSF

Bứoc 4: Tính MSF=SSF/K – 1

Bước 5: Tính MSE=SSE/N – 1

Bước 6: Tính F=MSF/MSE

Bước 7: Tra bảng phân bố F để tìm c rồi so sánh với F và rút ra kết luận:

Nếu F > Fα thì bác bỏ giả thuyết H0 và ngược lại

2 Áp dụng MS-EXCEL :

a Nhập dữ liệu vào bảng tính :

Áp dụng “Anova: Single factor”(MS-EXCEL 2003)

b Nhấp lần lượt Data tab và Data Analysis tab

c Chọn chương trình Anova: Single Factor trong hộp thoại Data Analysis rồi

Trang 8

nhấp nút OK.

d Trong hộp thoại Anova: Single Factor lần lượt xác định:

- Phạm vi đầu vào (Input Range)

- Cách sắp xếp theo hàng hay cột (Group by)

- Nhãn dữ liệu (Label in First Row/Column)

e Nhấn OK, ta có bảng kết quả sau

Trang 9

3 Kết quả:

F = 10.36 > F0.05 = 2.87

 Bác bỏ giả thuyết H0

Trang 10

BÀI 3:

Tuổi và huyết áp của của 10 bệnh nhân trẻ em ( dưới 14 tuổi) , chọn ngẫu nhiên được cho trong bảng dưới đây :

X 14 1 9 7 9 12 1 3 9 1

Y 100 83 112 152 104 90 92 85 120 130

X 14 1 9 7 9 12 1 3 9 1

Y 110 73 132 122 134 98 82 65 140 110

Trong đó X là tuổi còn Y là huyết áp Tính tỉ số tương quan, hệ số tương quan, hệ số xác định của

Y đối với X Với mức ý nghĩa alpha = 5%, có kết luận gì về mối tương quan giữa X và Y( phi tuyến hay tuyến tính) ? Tìm đường hồi quy mẫu của Y đối với X Tính sai số tiêu chuẩn của đường hồi quy

I.CƠ SỞ LÍ THUYẾT

1 Tỉ số tương quan:

Để đo mức độ phụ thuộc của ĐLNN X vào ĐLNN Y, ta dùng khái niệm ti số tương quan Tỉ

số tương quan lí thuyết được kí hiệu 2

/

Y X

2

/

1

Y X

E Y E Y X DY E Y E Y X

Trong đó E[Y/X] : kỳ vọng của Y với điều kiện X

Người ta chứng minh được 02Y X/ 1 và 2 2Y X/

Hiệu số 2

/

Y X

 càng lớn thì sự tương quan phi tuyến càng mạnh

Ta có bảng tương quan sau:

(1)

X X(2) … X(4) X( )k

1

11 21

1

n

y y

y

2

12 22

2

n

y y y

…

1 2

k

k k

n k

y y y

1

Ký hiệu:

1

i n

i ji i

T y



 ( tổng các số liệu y ở cột ji x )( )i

T = T i i

n là số các số liệu ở cột x ( )i

+ Tổng bình phương chung:

Y

X

Trang 11

SST =

2 2

ij

T y n



  +Tổng bình phương do nhân tố:

SSF =

2 2 1

k i

i i

T T

n n





 Đại lượng sau được xem như ước lượng của tỷ số tương quan:

2 /

Y X

SSF SST



  được gọi la tỉ số tương quan của Y đối với X

2.Hệ số tương quan:

Để đo mức độ phụ thuộc tuyến tính giữa hai ĐLNN X và Y, ta dựa vào hệ số tương quan

Hệ số tương quan lí thuyết của X và Y được xác định :

X Y

E X  Y 



 

 Trong đó:

,

X Y

  :giá trị trung bình của X và Y;

,

X Y

  :độ lệch tiêu chuẩn của X và Y;

 nằm trong đoạn [-1,1] Khi  = 0 thì không có tương quan tuyến tính giữa X và Y Nếu X và Y có phân bố chuan thì  = 0 khi va chỉ khi X và Y độc lập Khi |  | càng gần 1 thì

sự phụ thuộc tuyến tính giữa X và Y càng mạnh Nếu |  | =1 thì Y là hàm tuyến tính của X

Trong thực tế đại lượng sau được sử dụng như ước lượng cho  :

1

n

i i i

n n

i i

x x y y r

x x y y





r được gọi là hệ số tương quan

Để tính toán ta thường sử dụng công thức:

n xy x y r

n x x n y y





r cũng thuộc đoạn [-1,1]

Hệ số xác định là bình phương của hệ số tương quan

Hệ số xác định = 2

r

3.Xác định mối tương quan giữa 2 đại lượng ngẫu nhiên:

 Kiểm định xem giữa X và Y có tương quan phi tuyến hay không:

H : 0 2 2 0 (không có tương quan phi tuyến)

H : 1 2 2 0 ( có tương quan phi tuyến )

Ta có test thống kê:

2

r

r n k k

F

k

n k







 Gọi c là phân vị mức  của phân bố Fisher với bậc tự do là (k-2,n-k)

Nếu F > c thì giả thuyết H bị bác bỏ.0

4.Đường hồi quy mẫu của Y đối với X:

Giả sử X là một biến nào đó, còn Y là 1 ĐLNN phụ thuộc vào X theo cách:

Nếu X=x, thì Y sẽ có kì vọng là  x +  ,

Trang 12

Phương sai là 2

 không phụ thuộc x

Đường thẳng có phương trình  x +  b được goi là đường hồi quy mẫu của Y đối với X Ước lượng các hệ số lí thuyết  và  trên 1 mẫu quan sát a và b sẽ là ước lượng của 

và  nếu nó làm cực tiểu tổng sau:

1

n

i i i

y Ax B





Hệ phương trình tìm điểm dừng

1

n

i i i i

Q

x y Ax B

A 



1

n

i i i

Q

y Ax B

B 



Giải hệ này ta tìm được:

n xy x y a







_ y a x

b y ax

n



5.Sai số tiêu chuẩn của đường hồi quy:

2

 là số đo sự phân tán của Y xung quanh đường thẳng hồi quy Ước lượng cho  ta dùng2 2

YX

s :

1

2

n

YX i i i

i

n 

Trong tính toán ta thường sử dụng công thức:

2 2

2

YX

y a xy b s

n





Sai số tiêu chuẩn cho ta biết sự phân tán của đám may điểm ( ,x y ) xung quanh đương i i

thẳng hồi quy

II.Tính toán với Excel :

Ta nhập bảng số liệu và xử lý Excel:

Bảng A :

Bảng B:

n

i

Trang 13

Tính tỷ số tương quan:

BẢNG A:

10

ij

T y n

 

1

k i

i i

T T

n n





2

/

4103.6

0.455 9009.6

Y X

SSF SST



BẢNG B:

10

ij

T y n

 

1

k i

i i

T T

n n





2

/

5531.07

0.878 6310.4

Y X

SSF SST



2.

Tính hệ số tương quan:

Ta sử dụng trình Correlation của Excel l data analysis:

Chọn Tools/ Data Analysis/ Correlation, OK, hộp thoại xuất hiện và tiến hnh thực hiện như sau:

T=sum(B6:G6)

=sum(B2:B5)

Trang 14

Ta được kết quả như sau :

 Hệ số xác định :

2

3.

Kiểm định sự tương quan:

 Kiểm định xem giữa X và Y có tương quan phi tuyến hay không:

0

H : 2 2 0 (không có tương quan phi tuyến) 1

H : 2 2 0 ( có tương quan phi tuyến )

Ta có:

BẢNG A

2

2 (0.455 0.262141 )(10 6)

(1 0.455)(6 2)

r

r n k k

F

k

n k







BẢNG B

2

(1 0.878)(6 2)

r

r n k k

F

k

n k







 Tra bảng phân bố Fisher với bậc tự do (4,4) ở mức 5% ta có c=

 Bảng A : X và Y

Bảng B : X và Y

4.

Tính hệ số của đường hồi quy:

 Sử dụng excel:

Chọn tools/ data Analysis / regression

Trang 15

Khi cửa sổ regression xuất hiện, ta điền khoảng dữ liệu vào cho biến phụ thuộc Y và biến độc lập

X, đồng thời chọn Labels.

Ấn Ok ta được kết quả :

BẢNG A:

Trang 16

 Y = 1.72*X + 90,424

Tương tự ta có kết quả cho bảng B:

Y = 3.111*X + 86.065

5 Tính sai số tiêu chuẩn:

Bảng A:

2

1037.8

YX

y a xy b y s

n

Bảng B:

2

512.5

YX

y a xy b y s

n

BÀI 4:

Bảng sau đây cho ta số liệu về màu tóc của 422 người:

Đen 56 32 88

Hung 37 66 103

Nâu 84 90 174

Vàng 19 38 57

mi 196 226 422 Với mức ý nghĩa 1%, nhận định xem số liệu có mối quan hệ giữa màu tóc và giới tính hay không

Hệ số b

Hệ số a

Trang 17

1 Cơ sở lý thuyết:

a Dạng bài toán: Kiểm định tính độc lập

b Khái niệm thống kê và giả thuyết bài toán:

- Mục đích: Xét một tổng thể gồm 2 dấu hiện X, Y Các dấu hiệu này có thể là dấu hiệu định tính hoặc định lượng Trong trường hợp bài toán nêu trên là cả 2 dấu hiệu đều là dấu hiệu định tính

- Lấy mẫu kích thước n ta có bảng số liệu như sau:

Trong đó:

- ni (i = 1,k) – số lần X nhận xi

- mj (j = 1,k) – số lần Y nhận yi

ni,j (i = 1,k , j = 1,k) – số lần đồng thời X nhận xi và Y nhận yj

c Phương pháp giải quyết và áp dụng trong Excel:

- Bước 1:

Đặt giả thuyết: H0: Màu tóc độc lập với giới tính

1

k

i ij

j



1

k

i



1 1

k k

i j

 

Ta có bảng số liệu như hình sau

- Sử dụng hàm =SUM(B2:B5) và nút tự điền

Trang 18

- Tìm 2  2[( k  1)( h  1)] từ bảng phân vị “khi bình”

- Bước 2: Tính thống kê dựa vào các công thức sau:

2 ij

2

0

1 1

k k

ij

i j ij





 



ij

n m n

 

- Sau khi sử dụng với Excel ta có bảng số liệu ij như sau:

Từ đó:

2

0

- Hoặc sử dụng hàm trong Excel: = CHITEST(B2:C5,B12:C15)

Ta có:

- Bước 3: Kết luận:

Vì 02 <2  0.01 nên ta bác bỏ giả thiết H0 ( H0: giả thiết màu tóc đập lập với giới tính)

Vậy Màu tóc và giới tính có mối liện hệ với nhau

Định dạng
Số trang	18
Dung lượng	1,5 MB