1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu tổng quan về phương pháp thống kê và kiểm định giả thiết

21 528 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 21
Dung lượng 125,33 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

=> Thống kê để ta có các thông tin về tham số.Chúng ta bắt đầu quan sát sự kết nối giữa khái niệm xác suất và thực tế : p n_a/n ≅ n_a/n Xác suất p =Pa xảy ra của một sự kiện a với một số

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

──────── * ───────

BÁO CÁO BÀI TẬP LỚN

QUÁ TRÌNH NGẪU NHIÊN

ỨNG DỤNG

thống kê và kiểm định giả thiết

Giáo viên hướng dẫn: PGS.TS Nguyễn Thị Hoàng Lan Sinh viên thực hiện : Nguyễn Đức Hậu 20124977

Trần Quang Đạt 20124974

Hà Văn Cầu 20124970

Hoàng Tùng Anh 20124969

An Mạnh Công 20121330

Đoàn Khắc Hùng 20121821

MỤC LỤC

Trang 2

PHÂN CÔNG NHIỆM VỤ 3

Phần I Giới thiệu chung 4

I Khái niệm cơ bản 4

II Bài tập ứng dụng 7

Phần II Kiểm định 8

I Kiểm định kì vọng 8

Phần III Phương sai và kiểm định độc lập 9

I Kiểm định phương sai: 9

II Kiểm định tính độc lập: 10

1 Bài toán đặt ra: 10

2 Ví dụ: 10

Phần IV Phân Phối 11

I Phương pháp Kolmogoroff-Mirnov 11

II Phương pháp Chi- Squared 12

Phần V: Likelihood radio test 13

Phần VI: Bài tập 14

Phần VII: Ứng dụng Matlab 17

1 Các hàm thường sử dụng: 17

2 Ví dụ 18

Trang 3

PHÂN CÔNG NHIỆM VỤ:

- Hoàng Tùng Anh: Tìm hiểu về các khái niệm cơ bản + báo cáo

- Nguyễn Đức Hậu: Kiểm định kỳ vọng + bài tập

- Đoàn Khắc Hùng : Phương Sai và Kiểm định độc lập

- Hà Văn Cầu : Phân phối và Kiểm định phân phối

- An Mạnh Công : Likelihood ratio test

- Trần Quang Đạt : Ứng dụng Matlab để làm

Trang 4

Phần I Giới thiệu chung

Khái niệm cơ bản

Quan sát các hiện tượng tự nhiên ta thấy có những hiện tượng thường xảy ra, có

những hiện tượng ít xảy ra Xác suất là một đại lượng thể hiện mức độ xảy ra

(thường xuyên hay ít khi) của một biến cố Trong lịch sử Toán học đã có nhiều định nghĩa cho khái niệm xác suất

Xác suất là một môn toán học phát triển trí óc và theo kiểu trừu tượng Nó là những dự đoán và suy luận cơ bản về thực tế Thống kê dựa trên các áp dụng lý thuyết để giải quyết các vấn đề thưc tế và nó là những dự đoán và diễn giải cơ bản dựa trên sự theo dõi và quan sát thực tế

Để hiểu rõ hơn về thống kê, ta nêu các ví dụ :

Giả sử một hộp chứa 3 bi trắng và 1 bi đen Trò chơi đặtra : Người tham gia chơi sẽ bốc ngẫu nhiên một viên bi Sẽ nhận được 5 đô nếu bốc được bi trắng,

sẽ trả 6 đô nếu bốc phải bi đen Biết xác suất bốc mỗi viên bi là như nhau Có nên tham gia????

Nhận xét: Trong nhiều tình huống , để đưa ra quyết định, đánh giá hay giải quyết một vấn đề nào đó… => ta dựa các tham số p, δ… Lưu ý là với BNN nào

đó thì các tham số là duy nhất => Thống kê để ta có các thông tin về tham số.Chúng ta bắt đầu quan sát sự kết nối giữa khái niệm xác suất và thực tế :

p n_a/n ≅ n_a/n Xác suất p =P(a) xảy ra của một sự kiện a với một số n_a là xác suất thành công trong n lần thử Chúng ta sử dụng các cách thức thử nghiệm để làm sáng tỏ

sự liên kết của tất cả các khái niệm xác suất

Thống kê: là số các giá trị , Giá trị của hàm không lớn hơn 1 Mối quan

hệ đó là theo lối lặp lại các công việc ước lượng đoạn η và và một vấn đề chính của người thống kê là mang tới cho mọi người một kết quả chính xácnhất

Quá trình nghiên cứu thống kê sẽ có các giai đoạn :

1 Điều tra thống kê : xây dựng các khái niệm, chỉ tiêu thống kê, xác định vấn đề, mục đích, nội dung, đối tượng nghiên cứu

2 Tổng hợp thống kê : xử lý số liệu

3 Phân tích thống kê: Phân tích và giải thích kết quả, dự đoán xu hướng phát triển Báo cáo và truyền đạt kết quả nghiên cứu

Mục đích của nghiên cứu thống kê là sẽ giải quyết các vấn đề sau:

đúng và chúng ta muốn rằng làm được việc dự đoán một điều gì

đó trong tương lai Ví dụ: Chúng ta biết được xác suất của một

RV x và chúng ta muốn nó dự báo được giá trị trung bình của

Trang 5

sau n thử nghiệm trong tương lai hoặc là chúng ta biết xác suất

p của một sự kiện A và chúng ta muốn dự đoán được số lần

thành công của xác suất thành công A trong n lần thử

tượng mà chúng ta ước lượng, hoặc là những giá trị đó (tham số ước lượngkhác) phải chọn là , là một giá trị hằng (lấy từ giả thuyết) Ví dụ, chúng ta

theo dõi giá trị của một RV x và chúng ta muốn có hoặc là sự đánh giá về

ý nghĩa của hoặc là thừa nhận giả thuyết rằng = 5.3 Chúng ta tung đồng

xu 1000 lần và nó hiện lên mặt ngửa 465 lần Sử dụng thông tin đó, chúng

ra sẽ có được ước lượng xác suất p xuất hiện mặt ngửa xuất hiện ít hơn

hoặc là quyết định là xác suất xảy ra hai sự hiện là bằng nhau (theo giảthuyết)

Về phân tích thống kê hay ở đây là tổng hợp thu thập để có những dự báo.Trước hết ta xét khái niệm:

Với -hầu như chắc chắn và

Khái niệm -hầu như chắc chắn (P-almost surely) được hiểu như sau:

chắc chắn nếu xác suất biến cố không xảy ra bằng Từ đó ta có thể hiểu rằng với một bộ lọc ta có thể suy ra được với một độ đo xác suất hay làmột -đo được

Vậy rốt cuộc ý nghĩa về mặt định tính của Martingale là gì? Ở đây chúng ta làm

rõ bằng một ví dụ như sau: khi quan sát một biến ngẫu nhiên ví dụ như là quan sát giá cổ phiếu ACB, nếu thoả tính chất của Martingale điều đó có nghĩa là muốn dự báo sự thay đổi của trong tương lai ta hoàn toàn không thể

dự đoán được với những thông tin hiện có Nói ngắn gọn, hướng di chuyển trong tương lai của Martingale là hoàn toàn không thể dự đoán được, mặc dù Martingale cũng có thể có những khuynh hướng tồn tại trong một khoảng thời gian rất ngắn tuy nhiên khuynh hướng này tăng hay giảm hoàn toàn ngẫu nhiên

và không có tính hệ thống

Ví dụ trong thực tế của Martingale có thể kể đến như việc đặt cược một cách công bằng trong các trò chơi bài bạc hoặc quan sát sự biến động của giá cổ phiếu, giá vàng, các bước đi dạo ngẫu nhiên ko có xu hướng (unbiased random walk)…

Trang 6

Chúng ta đưa ra một RV x cùng sự thống kê của nó và chúng ta muốn ước lượng giá trị của x ở một lần thử trong tương lai Một cách ước lượng x là quyết

định chọn một hằng số c sao cho tổng các giá trị -c là nhỏ nhất Trong một sốlần thử đặc biệt, RV x có thể mang một trong nhiều giá trị Có thể các giá trị đó

ko thể nào dự đoán trước, nó chỉ có thể ước lượng được Vì vậy ước lượng củamột RV x là dự đoán một giá trị tiếp theo của x dựa vào giá trị của c Nếu chúng

ta sử dụng tiêu chuẩn cho sự lựa chọn c ở mức độ nhỏ nhất có thể của độ lệch

c1 và c2: P{ c1 < x < c2 } = γ = 1- δ

Trên đây thì được gọi là hằng số riêng Phương trình trạng thái trên,nếu chúng ta dự đoán giá trị x của x ở lần thử tiếp theo thì nó sẽ nằm trong

nhưng mà ước lượng là thiếu tin cậy Giá trị đặc trưng của là 0.9, 0.95,0.99 Để có được sự dự đoán tối ưu, chúng ta cần phải thêm vào một giá trịvào để chúng ta xác định rõ c1 và c2 để cho khoảng cách c2 – c1 là nhỏ nhất

để thực hiện được (9-4) Chúng ta cần đưa ra rằng nếu như mật độ của x

một giá trị lớn nhất, c2 – c1 là nhỏ nhất nếu như Tạo ra c1 và c2 bằng cáchthử và xác định độ lệch Một điểm cực dễ dàng để tìm thấy nếu như chúng

ta các định rõ c1 và c2 giống như:

Mang lại c1 = và c2 = với xu là u % xuất hiện của x trongkhoảng (c1,c2) Cách giải quyết vấn đề này là tối ưu nếu như làđối xứng Điều đó có nghĩa là η là giá trị trung bình bởi vì thì

sẽ đối xứng Nếu x là chuẩn, thì x u = η + z u là tỉ lệ % chuẩn

Ví dụ : Chúng ta tung đồng xu 100 lần và muốn dự đoán được số lần na là mặt ngửa với γ = 0.997 Trong vấn đề này thì n = 100 và p = 0.5

Chúng ta dự đoán, vì vậy, cùng với hệ số 0.997 là số mặt ngửa nằm trong

khoảng từ 35 tới 65

Các ví dụ trên đã làm rõ vai trò của thống kê trong các ứng dụng xác suất để giải quyết các vấn đề thực tế: Sự kiện được định nghĩa trong thực nghiệm của trò chơi tung đồng xu Nó mang lại những thông tin rằng xác suất xảy ra không thể được sử dụng để xác thực dự đoán về sự kiện A thi hành ở thực nghiệm Sự kiện:

Trang 7

được khai báo ở thực nghiệm trong vòng lặp thử nghiệm và nó là xác suất Nếunhư chúng ta có thể gần chắc chắn rằng sẽ xảy ra ở một quá trình thực tế

Chúng ta có sự thay đổi suy nghĩ “chủ quan” về A dựa trên thông tin cơ bản để

có thể khách quan hơn để kết luận rằng sẽ chắc chắn chính xác, dựa trên xác suất

Phần II Kiểm định

1 Bài toán đặt ra:

Đại lượng ngẫu nhiên X có trung bình E(X) = µ chưa biết Người

ta đưa ra giả thiết:

H0:µ=µ0

1.1 Trường hợp 1:

Phương sai Var(X) = σ2 đã biết và

n ≥ 30 hoặc (n<30X có phân phối chuẩn)

{σ2chưa biết

n ≥30

Trang 8

Do σchưa biếtnên ta thay thế bằng sChọn thống kê U =(X−µ´ 0)√n

t(n-1)Lấy mẫu cụ thể và tính giá trị quan sát k =x−µ0)√n

Trang 9

Phần III Phương sai và kiểm định độc lập

1 Bài toán đặt ra:

Đại lượng ngẫu nhiên X có phân phối N(ɳ, σ ) Người ta đưa ra giả thiết:

¿)

2 Ta tìm được miền bác bỏ:

Trong trường hợp này ta vẫn chọn thống kê như trên trong đó kì

trung bình X´của mẫu ngẫu nhiên S '

Trang 10

Chúng ta kiểm định giả thiết với hai sự kiện B và C là độc lập.

Giả thiết:

Giả sử xác suất của hai sự kiện b = P(B) và c = P(C) đã biết Ta áp dụng kiểm định chi bình phương để phân vùng các sự kiện :

Trong một trường đại học , tỷ lệ sinh viên năm thứ nhất là nam giới là

60 % còn tỷ lệ đó với toàn bộ sinh viên tốt nghiệp đại học là 75%.Chọn ngẫu nhiên các hồ sơ của 299 nam và 101 nữ cùng với 168 nam

Phần IV Phân Phối

không liên quan đến tham số, hàm phân bố F(x) của một biến ngẫu nhiên x

ở đây H0 :F(x)=F0(x) <> H1 :F(x)≠ F0(x)

Để kiểm định giả thuyết này, có 2 phương pháp

Trang 11

Kì vọng E(F*(x)) =F(x)

F*(x)→F(x) khi n tiến tới vô cùng

F(x)-F0(x) nếu H1 đúng Để phủ nhận giả thuyết H0 hay chấp nhận H0 ta đi so sánh q với một hằng số c.Hằng số này phụ thuộc vào mức ý nghĩa α và phân

nhiên q= maxx|F*(x)-F(x)| với mức ý nghĩa α =P (q>c|H0)=1-e−2 n e 2

Từ đây có thể kết luận: Hình thành các sự toán thực nghiệmF*(x) của

Ho được chấp nhận nếu q>√−ln ⁡( α

2)

2n

Phương pháp này sử dụng kiểm tra thống kê Pearson Và thực hiện như sau

kiểm tra giả thuyết các xác suất pi=P(Ai)của sự kiện Ai bằng m cho hằng

số poi:

H0: pi=p0i với mọi i

ngược lại H1: pi≠p0i với 1 vài giá trị của i

npiqi vì thế tỉ lệ ki/n có xu hướng tiến tới pi khi n → ∞.Kiểm tra giả thuyết bằng việc so sánh q với 1 hàng số c

Để tìm c, chúng ta phải xác định được phân phối của q chúng ta sẽ đi tìm theo hướng giả định n lớn Với giả định như vậy , biến ngẫu nhiên k là gần với phân phối chuẩn với kì vọng là kpi theo giả thuyết H0, biến ngẫu

poi=1

Trang 12

Quan sát số lượng ki và tính toán tổng q trong (9.75) , tìm χ2

1-α(m-1 ) Chấp nhận Ho nếu q< χ2

Phần V: Likelihood radio test

giản các giả thuyết 𝜂= η0đơn ối lập với 𝜂 ≠ η0 Trong bài toán η=η0và

Từ phía trên nó sau 𝜆> c nếu|´x−η0|<c1 Điều này cho thấy rằng các kiểm tra

tỷ số hợp lệ trung bình của một RV bình thương tương đương một để kiểm tra

w= -ln𝜆 = n(x ̅/ −η0)2=(x ̅/ −η0

1

√ n )

2

phốiχ2(m - m0) không chỉ có tiệm cận, nhưng đối với bất kỳ n

Giả lập tính toán trong kiểm định giả thuyết.

xác định giá trị X của vector ngẫu nhiên X =[x1, … , x m] trong điều kiện quan sát

x k của m RVs x k và tính toán giá trị tương ứng q = q(X) của bài toán phân tích

Trang 13

q = g(X).Chúng ta đồng ý H0nếu q không phải là một giá trị quan trọng trong bài ví dụ như , nếu q là giá trị trong khoảng ( q a .q b) vớiq aq b là các giá trị được

Điều này liên quan đến việc xác định hàm phân phối F(q)của q và giá trị nghịch

Liên quan đến việc xác định hàm phân phối F(q) của q.Như chúng ta đã thể

hiện trong phần 8.3 , hàm F(q) có thể được xác định bằng giả lập tính toán :

Đề ước tính số lượng F(q)chúng ta xây dựng chuỗi vector RV

x i=[x 1 ,i , … , x m ,i ] i=1,…,n

vớix k ,i là các mẫu tính toán tạo ra của m RVs x k .Sử dụng theo trình tựX i ,chúng tahình thành được chuỗiq i=g( X i) và chúng ta đếm sốn q củaq i nhỏ hơn so với tính

công thức 9-84 được kiểm tra:

đồng ý H0nếu a< n q

n <b

Như trên, q=g(X) là một số được xác định trong điều kiện của dữ liệu

kiểm địnhx k Theo trình tự q i, tuy nhiên, các tính toán được tạo ra

Các phương pháp trên được sử dụng nếu gặp khó khăn để xác định và

phân tích hàm F(q) Đây là trường hợp xác định số liệu thống kê kiểm tra

Pearson

Phần VI: Bài tập

Bài 8.2

Cho 3 sự kiện A,B,C thỏa mãn:P(A)=P(B)=P(C)=0,5 và

độc lập nhưng độc lập từng đôi một

Giải:

+Theo giả thiết:P(X A=1, XB=1, XC=1 ¿=P(ABC)=0,25

P(X A=1)=P(X A=0)=P(A)=0,5(do X A chỉ nhận một trong hai giá trị 0 và 1)

Trang 14

Chứng minh tương tự với các trường hợp còn lại ,ta có các kết quả tương tự.Từ

đó rút ra:với mọi X A,X B thì P(X A=i , X B=j¿ =P(X A=i) P(X B=j)với i , j=0,1.Vậy X A,

Ma trận hiệp phương sai của f(x,y,z):

⅀ = [E[(x−μ x)(x−μ x)] E [(x−μ x)(y−μ y)] E[(x−μ x)(z−μ z)]

E[( y −μ y)(x−μ x)] E [( y−μ y)(y−μ y)] E[( y −μ y)(z−μ z)]

E [(z−μ z)(x−μ x)] E[( z−μ z)(y −μ y)] E[(z−μ z)(z−μ z)]]

Trang 16

kiểm định 1 mẫu, mẫu đó có phân phối chuẩn đã biết trước kì vọng và phương sai, đối thuyết là nó không có kì vọng như vậy.

 Ttest:[h, p, ci, stats] = ttest(x, m)

kiểm định 1 mẫu, mẫu đó có phân phối chuẩn đã biết trước kì vọng

nhưng chưa biết phương sai Đối thuyết là nó không có phương sai như vậy

 Ttest2:[h, p, ci, stats] = ttest2(x, y)

kiểm định 2 mẫu, 2 mẫu độc lập có phân phối chuẩn đã biết kì vọng nhưng chưa biết phương sai Đối thuyết là các kì vọng không bằng nhau

kiểm định Kolmogorov-Smirnov trên 1 mẫu có phân phối liên tục với các tham số được chỉ rõ Đối thuyết của nó là không có phân phối như vậy

kiểm định Kolmogorov-Smirnov trên 2 mẫu có phân phối liên tục giống nhau Đối thuyết là chúng không có phân phối giống nhau

kiểm định Chi-square ( goodness-of-fit) với 1 mẫu có phân phối được chỉ

rõ Đối thuyết là nó không có phân phối như vậy

Trang 17

- ci: khoảng tin cậy

- zval: giá trị thống kê Z

- x: giá trị mẫu

- m: giá trị trung bình cần kiểm định

với kì vọng là 0.1 ,chưa biết phương sai:

Sử dụng hàm ttest:

Tạo mẫu ngẫu nhiên có phân phối chuẩn : x=normrnd(0.1,1,200,1);

Trang 18

- h,p,ci,x,m: tương tự như hàm ztest

- stats: xuất ra các giá trị:

 tstat: giá trị thống kê t

Ví dụ 3: Kiểm định giả thuyết với 2 mẫu x,y có cùng kì vọng

sử dụng hàm ttest2:

Trang 19

Ví dụ 4: Kiểm định Kolmogorov-Smirnov:

Kiểm định liệu là các giá trị có được lấy từ phân phối chuẩn hay ko?

x = -2:1:4 (x nhận giá trị từ -2 đến 4, mỗi số tăng lên 1 đơn vị)

Trang 20

 h=0:chấp nhận H0

Ngày đăng: 25/02/2016, 20:09

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w