1. Trang chủ
  2. » Công Nghệ Thông Tin

Báo cáo xác suất thống kê XÁC SUẤT THỐNG KÊ

34 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Báo cáo bài tập lớn xác suất thống kê
Tác giả Lê Quang Đức, Trần Văn Đức, Nguyễn Kinh Khoa, Nguyễn Trung Hiếu, Hoàng Thanh Huỳnh, Nguyễn Hoài Nam, Phan Thế Nam, Phan Phạm Quốc Thái, Phạm Minh Tuấn
Người hướng dẫn Nguyễn Kiều Dung
Trường học Đại Học Quốc Gia TP HCM
Chuyên ngành Toán Ứng Dụng
Thể loại Báo cáo
Thành phố TP HCM
Định dạng
Số trang 34
Dung lượng 0,9 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • Bài 1:................................................................................................................................3 (4)
  • Bài 2:..............................................................................................................................15 (15)
  • Bài 3:..............................................................................................................................18 (18)
  • Bài 4:..............................................................................................................................23 (23)
  • Bài 5:..............................................................................................................................29 (29)
  • TÀI LIỆU THAM KHẢO (34)

Nội dung

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC ỨNG DỤNG BỘ MÔN TOÁN ỨNG DỤNG o0o BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD Nguyễn Kiều Dung Nhóm 9 L08 1 Lê Quang Đức L08 A 15107[.]

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC ỨNG DỤNG

BỘ MÔN: TOÁN ỨNG DỤNG -o0o -

BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

3 Nguyễn Kinh Khoa L08-A 1411833

4 Nguyễn Trung Hiếu L08-A 1511027

5 Hoàng Thanh Huỳnh L08-B 1511330

6 Nguyễn Hoài Nam (NT) L08-B 1512083

7 Phan Thế Nam L08-B 1512100

8 Phan Phạm Quốc Thái L08-C 1513029 9.Phạm Minh Tuấn L08-C 1513862

Trang 3

MỤC LỤC:

Bài 1: 3

Bài 2: 15

Bài 3: 18

Bài 4: 23

Bài 5: 29

TÀI LIỆU THAM KHẢO: 34

Trang 4

Bài 1:

Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng các dữ liệu đó cho các yêu cầu sau:

1) Thực hiện phương pháp phân tổ dữ liệu (A)

2) Vẽ đồ thị phân phối tần số và đa giác tần số (A)

3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với

độ tin cậy 96% (A)

4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị

5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào đó hay không

Dạng bài: thống kê mô tả.

Dữ liệu A : Khảo sát thời gian hoàn thành một sản phẩm mạch điện của 36 sinh viên

khi học thực tập Điện điện tử ta có bảng số liệu: Thời gian (phút)

Trang 5

+ Xác định số tổ cần chia: k = (2 xn)13

.

Chọn ô A6 nhập vào biểu thức =(2*COUNT(A2:I5))^(1/3)

Kết quả: 4.160167646

Chọn k = 4

+ Xác định trị số khoảng cách h theo công thức: h = (Xmax−Xmin) k

.

Chọn ô A7 nhập vào biểu thức =(MAX(A2:I5)-MIN(A2:I5))/4

Nhập vào các ô từ A8 đến A11 lần lượt các giá trị:

Chọn chức năng Data/ Data Analysis/Histogram

+ Input Range: địa chỉ tuyệt đối chứa dư liệu

+ Bin Range: địa chỉ chứa bảng phân nhóm

+ Output options: vị trí xuất kết quả

+ Confidence Level for Mean: độ tin cậy cho trung bình

+ Chọn Cumulative Percentage để tính tần suất tích lũy nếu không Excel chỉ

tính tần số

Trang 6

Ta được kết quả: ( đã chỉnh sửa khung Khoảng thời gian ( Bin)).

2 Vẽ đồ thị phân phối tần số và đa giác tần số (A):

_ Vẽ đồ thị phân phối tần số:

+ Quét chọn bảng tần số

+ Dùng chức năng Insert Column Chart trên menu Insert

Trang 7

_ Vẽ đa giác tần số:

+ Sử dụng bảng phân phối tần số của dữ liệu (A):

+ Thêm giá trị 0 vào đầu và cuối bảng phân phối tần số:

+ Quét chọn B12:B18, dùng chức năng Insert Line Chart trên menu Insert

Trang 8

Ta được kết quả

+ Quét chọn B12:B18, dùng chức năng Insert 2D – column trên menu Insert

Trang 9

3.Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với độ tin cậy 96% (A).

_ Nhập dữ liệu vào bảng tính:

Chọn chức năng Data/Data Analysis/Descriptive Statistics

+ Input Range: địa chỉ tuyệt đối chứa dư liệu

+ Output options: vị trí xuất kết quả

+ Confidence Level for Mean: độ tin cậy cho trung bình

Trang 10

Ta được kết quả:

Trang 11

4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.

a Dữ liệu định tính: Kết quả khảo sát ngẫu nhiên 60 sinh viên

có thành thạo một ngôn ngữ lập trình nào đó hay không (1: thành thạo, 0: không thành thạo)

Trang 13

đó hay không.

Kiểm định A: Với mức ý nghĩa 4%, có thể coi mẫu A phù hợp với phân phối chuẩn hay không? (độ tin cậy 96%)

Giả thuyết kiểm định H0: Mẫu phù hợp với phân phối chuẩn

Giả thuyết đối kiểm định H1: Mẫu không phù hợp với phân phối chuẩn

Tính các đặc trưng mẫu: n = 36

= 19.4167

= 4.2582=(STDEVP(A1:A36))

+ là ước lượng hợp lý cực đại cho a => a=19.4167

+ s^2 là ước lượng hợp lý cực đại cho => σ = 4.2582

(16;20) 11 =NORM.S.DIST((20-D5)/D6,TRUE)- NORM.S.DIST((16-D5)/D6,TRUE)

(20;24) 10 =NORM.S.DIST((24-D5)/D6,TRUE) - NORM.S.DIST((20-D5)/D6,TRUE)

(24;+∞) 4 =1 - NORM.S.DIST((24-D5)/D6,TRUE)

Trang 14

= ==(1/36)*(SUM(G9:G12))-36

= = 1.0980112 => Chấp nhận H0

Vậy dữ liệu A phù hợp với phân phối chuẩn

Trang 15

Dạng bài: Kiểm định giảthuyết cho phương sai hai tổng thể.

Công cụ: F-Test Two-Sample for Variances.

Khi cần kiểm định hai tổng thểcó mức độ đồng đều nhưnhau hay không chúng ta dùng phương pháp kiểm định phương sai của hai tổng thể độc lập dựa trên một đại lượng F như sau:

Trong đó: S1 là phương sai của mẫu thứ nhất, mẫu này có cỡ n1

S2 là phương sai của mẫu thứ hai, mẫu này có cỡ n2

Thông thường để xác định mẫu nào là mẫu thứ nhất và mẫu nào là mẫu thứ hai

ta làm như sau, trong khi tính đại lượng F thì giá trị phương sai lớn hơn sẽ được

đặt ở tử số,và như vậy mẫu tương ứng với phương sai đó là mẫu thứnhất

- Giả thiết đặt ra là kiểm định hai bên:

H

0: vàH1:

Nếu tỉ số F rất lớn hoặc rất nhỏ ta có thể suy diễn bằng hai phương sai tổng thể khó mà bằng nhau, ngược lại nếu tỉ số này gần đến 1 ta sẽ có bằng chứng ủng h ộ gi ả thuyết HoNếu tổng thể lấy mẫu được giả định có phân phối bình thường thì tỉ lệ F có phân phối xác suất gọi tên là phân phối Fisher Các giá trị tới hạn của phân phối F phụ thuộc và hai giá trị bậc tự do, bậc tự do tử số (d𝑓1=n1-1 gắn liền với mậu thứ nhất và bậc tự do mẫu số gắn liền với mẫu thứ hai (d𝑓2=n2-1)

Trang 16

Quy tắc thực sự để bác bỏ 𝐻o với kiểm định hai bên khi d𝑓1=n1-1 và d𝑓2=n2-1 mức ý nghĩa α là: giả thiết 𝐻0 bị bác bỏ nếu giá trị kiểm định F lớn hơn giá trị tới hạn trên FU=Fdf1;df2;α/2 của phân phối F hoặc bé hơn giá trị tới hạn dưới FL=Fdf1;df2;α/2 tức là

+ Input: địa chỉ tuyệt đối chứa dư liệu tương ứng của mẫu 1 và 2

+ Output options: vị trí xuất kết quả

+ Apha: mức ý nghĩa α (chọn tại ô alpha)

Trang 17

Kết quả:

Trang 18

Biện luận.

Giả thiết:

Ho: σ12 = σ22 “Độ chính xác chi tiết của 2 máy là giống nhau”

H1: σ12≠ σ22 “Độ chính xác chi tiết của 2 máy là khác nhau”

Theo giới thiệu của nhà phân phối, mức tiêu thụ nhiên liệu trung bình của 4 loại

xe ô tô là như nhau Sau một thời gian chạy xe, người ta đo lại trên các quãng đường như nhau thì được kết quả sau:

 Dạng bài: Kiểm định giá trị trung bình một nhân tố

 Phương pháp giải: Phân tích phương sai một nhân tố

 Công cụ giải: Anova single factor

Cơ sở lý thuyết:

Giả sử nhân tố A có k mức X1, X2, …, Xk với Xj có phân phối chuẩn N(a,σ2) có mẫu điều tra:

Trang 19

v ớiTổng bình phương độ lệch do nhân tố Sum of Squares for Factor:

Tổng bình phương độ lệch do sai số Sum of Squares for Error

Tổng bình phương độ lệch chung Total Sum of Squares:

Trang 20

hay SST=SSF+SSETrung bình bình phương của nhân tố Mean Square for Error:

Trong đó, k-1 là bậc tự do của nhân tố

Trung bình bình phương của sai số Mean Square for Error:

So sánh F ở trên với F lý thuyết tra từ bảng phân phối F với k-1 bậc tự do ở tử

số và n-k bậc tự do ở mẫu số với mức ý nghĩa α, ta kết luận:

- Nếu F > F lý thuyết, ta bác bỏ Ho

- Nếu F < F lý thuyết, Ho đúng

Hệ số xác định R2 chính là tỷ lệ hay số phần trăm chiếm trong tổng số 100% của toàn bộ sự sai lệch của Xij so với giá trị trung bình của chúng

Thực hiện bài toán:

o Vào Data/ Data Analysis/Anova: Single Factor

Trang 21

o Chọn các thư mục như hình:

o Input Range: địa chỉ tuyệt đối chứa dữ liệu

o Output options: vị trí xuất kết quả

o Alpha: mức ý nghĩa α

Kết quả:

Trang 22

Biện luận:

 Giả thiết:

H0: Mức tiêu thụ nhiện liệu 4 loại xe là giống nhau

H1: Mức tiêu thụ nhiên liệu 4 loại xe là khác nhau

Vì F = 1.284075 < F critical = 3.234466 nên ta giả thiết H0 đúng

 Vậy mức tiêu thụ nhiên liệu của 4 loại xe là giống nhau

 Tính hệ số xác định R2:

Từ bảng “Anova: Single Factor” ta tính được hệ số tương quan R2theo công thức:

Thực hiện trên Excel:

o Chọn ô đưa ra kết quả của R2

o Nhập công thức: =B20/B23

Ta thu được kết quả sau:

Vậy hệ số xác định R2 = 0.138309371 Điều đó có nghĩa là nhân tố nơi lấy mẫu

để đo chỉ ảnh hưởng 13.8% đến mức tiêu thụ nhiên liệu của các loại xe

Trang 23

Bài 4 :

Một cuộc điều tra xã hội học được tiến hành ở 5 thành phố A,B,C,D,E Người

ta yêu cầu những người được hỏi diễn tả mức độ thỏa mãn của mình đối với thành phố

mà họ đang sống Kết quả được cho như sau:

Rất thỏa

ABCDE

22013084156122

1212075495164

6375244373Với mức ý nghĩa = 3% Hãy kiểm định xem mức độ thỏa mãn có phân bốgiống nhau ở 5 thành phố trên hay không?

Bài làm:

 Dạng bài: kiểm định giả thiết về tỷ lệ

 Phương pháp giải: Áp dụng kiểm định chi bình phương χ2

 Công cụ giải: hàm CHITEST trên EXCEL

 Cơ sở lý thuyết:

Theo thống kê, kiểm định chi bình phương hay kiểm tra χ2 (“đôi khi đọc là khi bình

phương”) là một họ các phương pháp kiểm định giả thuyết thống kê trong đó thống kê kiểm định tuân theo phân bố χ2 nếu giả thuyết là không đúng.Chúng gồm:

 Kiểm định chi bình phương Pearsom

 Kiểm định chi bình phương Yates

 Kiểm định chi bình phương Mantel-Haenszel

 …

-Dạng thống kê kiểm định thông dụng nhất là:

-Với o là dữ liệu đo đạc, e là giá trị dự đoán chính xác

-Xét một bộ A gồm r tính trạng, A= (𝐴1, 𝐴2 , 𝐴r), trong đó mỗi cá thể của tập

Trang 24

hợp chính H có và chỉ có một trong các tính trạng (hay phạm trù )𝐴i.

-Gọi pi (i=1, 2, …r) là tỉ lệ cá thể tính trạng 𝐴Itrong tập hợp chính H Khi đó vecto π= (𝑞1, 𝑞2, …𝑞r) được gọi là phân bố của A trong tập hợp chính H

-Giả sử (p1, p2, … pr) là phân bố của (𝐴1, 𝐴2, 𝐴r) trong tập hợp chính H và (q1,

q2, …qr) là phân bố của A= (𝐴1, 𝐴2, 𝐴r) trong tập hợp chính Y Ta nói (𝐴1, 𝐴2, 𝐴r) cóphân bố như nhau trong X và Y nếu (p1, p2 ,…pr)= (q1 ,q2,…qr)p1 =q1,…pr =qr

-Chúng ta muốn kiểm định xem A= (𝐴1, 𝐴2, ., 𝐴r) có cùng phân số trong X

Y hay không dựa trên các mẫu ngẫu nhiên rút từ X và Y

-Tổng quát hơn, giả sử ta có k tập hợp chính H1, H2, Hk gọi πi = p1i , p2i

,…pri là phân bố của A =(𝐴1, 𝐴2, 𝐴r) trong tập hợp chính 𝐻i

-Ta muốn kiểm định giả thuyết sau:

Ho: π 1 = π 2 = … = π k

(Các phân bố này là như nhau trên các tập hợp chính 𝐻i)

-Chú ý rằng tương đương với hệ đẳng thức sau:

Trang 25

𝑛ri cá thể có tính trạng 𝐴r.

-Như vậy 𝑛0j là kích thước của mẫu thứ j, còn 𝑛j0 là tổng số cá thể có tính trạng

𝐴I trong toàn bộ k mẫu đang xét:

là tổng số tất cả các cá thế của k mẫu đang xét

- Nếu giả thuyết 𝐻o là đúng nghĩa là:

-Thì các tỷ lệ chung p1 ,p2,…pr được ước lượng bởi

-Đo ước lượng cho xác suất để một cá thể có mang tính trang 𝐴j.Khi đó số cá thể có tính trạng 𝐴j trong mẫu thứ j sẽ xấp xỉ bằng:

-Các số được gọi là các tần số lý thuyết(TSLT), cácsố

𝑛ijđược gọi là các tần số quan sát (TSQS)

-Ta quyết định bác bỏ 𝐻o khi các TSLT cách xa TSQS một cách bất thường Khoảng cách giữa TSLT và TSQS được đo bằng test thống kê sau đây:

.-Người ta chứng minh được rằng nếu 𝐻ođúng và các TSLT không nhỏ hơn 5 thì T sẽ có phân bố xấp xỉ với (k-1).(r-1) bậc tự do Thành thử miền bác bỏ có dạng {T>c} ở đó c được tìm từ điêu kiện P{T>c} = 𝛼 Vậy c là phân vị mức 𝛼 của phân

Trang 26

nij: tần số thực nghiệm: 𝑛𝑞ij: tần số lý thuyết của ô (i, j): r: số hàng; c: số cột

Dùng hầm CHITEST (actual_range, expected_range)

Tính giá trị: P(X >𝛾2) = CHITEST

Nếu: P(X >𝛾2) >𝛼 thì chấp nhân 𝐻ovà ngược lại

 Nhận xét: Đây là bài toán kiểm định giả thuyết về tỷ lệ

 Giải thuyết Ho: Tỷ lệ mức độ thỏa mãn của 5 thành phố là giống nhau

Trang 27

Tính các tần số lý thuyết: (tổng hàng*tổng cột)/tổng cộng.

1: Chọn B13: nhập =E3*$B$8/$E$8, Enter, dùng con trỏ kéo xuống dòng 17.2: Chọn C13: nhập =E3*$C$8/$E$8, Enter, dùng con trỏ kéo xuống dòng 17.3: Chọn D13: nhập =E3*$D$8/$E$8, Enter, dùng con trỏ kéo xuống dòng 17

o Áp dụng hàm số CHITEST tính giá trị 𝑃(𝑋>𝜒2)

o Chọn A20, nhập =CHITEST(B3:D7,B13:D17), rồi Enter

Trang 28

Biện luận: 𝑃(𝑋>𝜒2) 3.5299E-13 < 0.03.

 Bác bỏ giả thuyết Ho.

Kết luận: mức độ thỏa mãn ở 5 thành phố trên là không giống nhau

Trang 29

Bài 5:

Tìm một dữ liệu ngẫu nhiên 2 chiều (X, Y) có kích thước n >10 để sử dụng môhình hồi quy tuyến tính đơn Thực hiện các yêu cầu:

1) Tìm hệ số tương quan giữa X, Y

2) Quan hệ giữa X, Y có được coi như quan hệ tuyến tính hay không? Nếu có, hãy ước lượng đường hồi quy tuyến tính Y theo X

3) Tìm sai số chuẩn của ước lượng

Trang 30

 Nếu R > 0 thì X, Y tương quan thuận.

 Nếu R < 0 thì X, Y tương quan nghịch

 Nếu R = 0 thì X, Y không tương quan

 Nếu | R |= 1 thì X, Y có quan hệ hàm bậc nhất

 Nếu | R |→ 1 thì X, Y có tương quan chặt (tương quan mạnh)

 Nếu | R |→ 0 thì X, Y có tương quan không chặt (tương quan yếu)

Trang 31

2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Nếu có, hãy ước lượng đường hồi quy tuyến tính Y theo X.

 Tính c: chọn ô F5 và nhập biểu thức =TINV(0.05,12) (c là phân vị mức

α/2=0.025 của phân bố Student với n-2=12 bậc tự do).

Vì |T| > c nên bác bỏ giả thiết H

0

.

Vậy: X và Y có tương quan tuyến tính.

Ước lượng đường hồi quy tuyến tính Y theo X.

+ Giả thiết H0: Hệ số hồi quy không có ý nghĩa (=0).

+ H1: Hệ số hồi quy có ý nghĩa (≠0).

+ Trắc nghiệm t < t

,n-2

: chấp nhận H

0.

 Kiểm định phương trình hồi quy:

+ Giả thiết H

0

: “Phương trình hồi quy tuyến tính không thích hợp”.

Trang 32

H1: “Phương trình hồi quy tuyến tính thích hợp”.

+ Trắc nghiệm F < F

,1 ,n-2

: chấp nhận H

0.

 Thực hiện trên Excel:

 Nhập số liệu vào bảng tính:

Trang 33

Kết quả:

 Biện luận:

Phương trình hồi quy: Y = −133,786 + 17.84676x

Hệ số hồi quy: 1,49E-05=1,49.10

-5

< 0.05  Hệ số tự do không có ý nghĩa 4,6E-12 = 4,6.10

-12

< 0.05  Hệ số của x không có ý nghĩa.

 Phương trình hồi quy tuyến tính này không thích hợp vì

4,6E-12=4,6.10

-12

< 0.05.

3) Tìm sai số chuẩn của ước lượng:

 Dùng kết quả từ bảng SUMMARY OUTPUT từ câu trên ta xác định được sai số.

chuẩn của ước lượng:

- Đối với biến tự do: SE = 19,1892.

- Đối với biến X: SE = 0,6675.

Trang 34

TÀI LIỆU THAM KHẢO:

[1] Bài giảng xác suất thống kê – cô Nguyễn Kiều Dung.

[2] Giáo trình xác suất và thống kê.

[3]

XỬ LÝ THỐNG KÊ BẰNG EXCEL nguồn:

http://www2.hcmuaf.edu.vn/data/dtdanh/XSTK_EXCEL.pdf

Ngày đăng: 15/04/2023, 12:55

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w