1. Trang chủ
  2. » Công Nghệ Thông Tin

XÁC SUẤT THỐNG KÊ L03 nhóm 05 đề tài 05 đàm lê thành

52 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xác Suất Thống Kê
Tác giả Huỳnh Thị Hoàng Hảo, Nguyễn Dương Hiếu, Trần Tuấn Kiệt, Đàm Lê Thành, Huỳnh Minh Trường
Người hướng dẫn Nguyễn Kiều Dung
Trường học Trường Đại Học Bách Khoa TPHCM
Chuyên ngành Kỹ Thuật Xây Dựng
Thể loại Báo cáo bài tập lớn
Năm xuất bản HK 182
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 52
Dung lượng 1,49 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

BÀI LÀM - Dạng bài: Kiểm định giả thuyết cho phương sai 2 tổng thể - Công cụ: F-Test Two-Sample for Variances - Cơ sở lý thuyết: + Khi cần kiểm định 2 tổng thể có biến động như nhau hay

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA TPHCM

Khoa Kỹ Thuật Xây Dựng

BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

HK 182

Giáo viên hướng dẫn: Nguyễn Kiều Dung

Nhóm 05

Đề tài 05

Trang 2

Danh sách các thành viên trong nhóm 5, đề tài 05

Trang 3

Bài 1: Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng

các dữ liệu đó cho các yêu cầu sau:

1) Thực hiện phương pháp phân tổ dữ liệu (A)

2) Vẽ biểu đồ histogram (biểu đồ phân bố tần số), biểu đồ tích lũy tần số, biểu

đồ mật độ với dữ liệu (A)

3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sátvới độ tin cậy 95% với dữ liệu (A)

4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị

5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào đó hay không (lưu ý phải sử dụng các hàm thống kê trong excel)

Tài liệu tham khảo chính cho các yêu cầu từ 1) - 4) là sách Thống kê ứng dụng, Chương số 3 Số các khoảng chia theo hướng dẫn của sách là một công thức để tham khảo Khái niệm biểu đồ mật độ không được trình bày trong sách này.

Bài làm

Dạng bài: Thống kê mô tả.

Dữ liệu (A): Khảo sát thời gian tự học của 36 sinh viên trong một ngày ta có bảng số

liệu: Thời gian (phút)

Trang 4

Dữ liệu (B): Phân ngành sinh viên khoa kỹ thuật xây dựng khóa 2017 của trường Đại

học Bách Khoa thành phố Hồ Chí Minh

KSTN Kỹ thuật công trình xây dựng 43

Xây dựng công trình giao thông 110

1 Thực hiện phương pháp phân tổ dữ liệu (A)

- Nhập dữ liệu (A) vào Excel:

Trang 5

- Ta xác định được các cận trên và cận dưới các tổ lần lượt là:

 Tổ 1: 60 – 165

 Tổ 2: 165 – 270

 Tổ 3: 270 – 375

 Tổ 4: 375 – 480

- Nhập vào các ô từ A12 đến A16 lần lượt các giá trị

- Chọn chức năng Data/ Data Analysis/Histogram Trong đó:

+ Input Range: Địa chỉ tuyệt đối chứa dư liệu

+ Bin Range: Địa chỉ chứa bảng phân nhóm

+ Output options: Vị trí xuất kết quả

+ Confidence Level for Mean: Độ tin cậy cho trung bình

+ Chọn Cumulative Percentage để tính tần suất tích lũy nếu không Excel chỉtính tần số

- Ta được kết quả:

Trang 6

- Có thể chỉnh lại như sau:

2 Vẽ biểu đồ histogram (biểu đồ phân bố tần số), biểu đồ tích lũy tần số, biểu đồ mật độ với dữ liệu (A)

Trang 9

- Chọn chức năng Data/Data Analysis/Descriptive Statistics Trong đó:

+ Input Range: địa chỉ tuyệt đối chứa dư liệu

+ Output options: vị trí xuất kết quả

+ Confidence Level for Mean: độ tin cậy cho trung bình

- Kết quả:

Trang 10

4 Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.

- Nhập dữ liệu vào bảng tính

- Tính tỉ lệ sinh viên từng ngành Nhập vào C2: =B2/sum(B2:B7) làm tương tự với các ô khác bằng cách thay giá trị B2 lần lượt thành B3, B4, B5, B6, B7 Ta được:

Trang 13

Với mức ý nghĩa 3%, có thể cho rằng doanh số bán hàng của 2 cửa hàng có sự phân

tán như nhau hay không? Giả thiết doanh số bán hàng mỗi ngày của các cửa hàng tuân

theo quy luật chuẩn

BÀI LÀM

- Dạng bài: Kiểm định giả thuyết cho phương sai 2 tổng thể

- Công cụ: F-Test Two-Sample for Variances

- Cơ sở lý thuyết:

+ Khi cần kiểm định 2 tổng thể có biến động như nhau hay không ta dùngphương pháp kiểm định định phương sai của hai tổng thể độc lập dựa trên một đạilượng F như sau:

F= s12

s22

Với: s12là phương sai của mẫu thứ nhất, mẫu này có cỡ n1

s22 là phương sai của mẫu thứ hai, mẫu này có cỡ n2

+ Để xác định mẫu thứ nhất, mẫu thứ hai ta làm như sau: Khi tính F, giá trị phương sai lớn hơn sẽ được đặt ở tử số, như vậy mẫu tương ứng với phương sai

đó là mẫu thứ nhất

+ Giả thiết đặt ra là kiểm định hai bên:

Trang 14

H1: σ12≠ σ22

+ Nếu tỉ số F rất lớn hoặc rất nhỏ ta có thể suy diễn bằng hai phương sai tổngthể khó mà bằng nhau, ngược lại nếu tỉ số này gần đến 1 ta sẽ có bằng chứngủng hộ giả thuyết H0 Như vậy tỉ lệ F lớn đến đâu thì xem như là đủ bằng chứngbác bỏ H0 và ngược lại

+ Nếu tổng thể lấy mẫu được giả định có phân phối bình thường thì tỉ lệ F cóphân phối xác suất gọi tên là phân phối Fisher Các giá trị tới hạn của phân phối

F phụ thuộc và hai giá trị bậc tự do, bậc tự do tử số (df1=n1−1) gắn liền vớimậu thứ nhất và bậctuự do mẫu số gắn liền với mẫu thứ hai (df2=n2−1)

+ Quy tắc thực sự để bác bỏ H0 với kiểm định hai bên khi df1=n1−1 và

df2=n2−1, mức ý nghĩa  là: giả thiết H0 bị bác bỏ nếu giá trị kiểm định F lớnhơn giá trị tới hạn trên F U =F df 1; df 2; α/ 2 của phân phối F hoặc bé hơn giá trị tớihạn dưới F L =F df 1; df 2; 1−α/2 tức là F tt <F df 1;df 2;1−α /2 hoặc F tt >F df 1;df 2;α /2

+ Nếu chúng ta kiểm định bên phải:

Trang 15

THỰC HIỆN BÀI TOÁN BẰNG EXCEL

Trang 16

Kết quả:

Biện luận:

Giả thiết H01222 “Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau”

H1: σ1222: “Doanh số bán hàng của 2 cửa hàng không phân tán như nhau”

F = 0.3605 ¿ F 0.03 = 0.32844 → Bác bỏ giả thuyết H0

Vậy: Doanh số bán hàng của 2 cửa hàng không phân tán như nhau.

Trang 17

BÀI 3: Doanh số bán hàng (triệu đồng) của 4 cửa hàng trong 6 tuần đầu của mùa hè

được cho trong bảng số liệu sau:

**Dạng bài toán: Kiểm định về giá trị trung bình (Kiểm định giả thuyết có tham số)

**Phương pháp: PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ

+Mục tiêu của phân tích phương sai là so sánh trung bình của nhiều nhóm (tổng thể)

dựa trên các số trung bình của các mẫu quan sát từ các nhóm này và thông qua kiểmđịnh giả thuyết để kết luận về sự bằng nhau của các số trung bình này

+Phân tích phương sai một yếu tố là phân tích ảnh hưởng của một yếu tố nguyên

nhân (dạng biến dữ liệu định tính) đến một yếu tố kết quả (dạng biến dữ liệu địnhlượng) đang nghiên cứu

***Mô hình

Trang 18

2 2

Trang 19

- H1: “Ít nhất có hai giá trị trung bình khác nhau”.

· Giá trị thống kê: F= MSF MSE

· Biện luận: Nếu F < Fα(k-1;N-k) => chấp nhận giả thiết H0

⁂ Bài làm:

***Giả thiết:

*H0: Doanh thu của các cửa hàng là như nhau

*H1: Ít nhất có hai giá trị trung bình doanh thu khác nhau

⁂ Thực hiện bài toán trên excel

***Nhập bảng dữ liệu:

***Áp dụng “Anova: Single Factor”

+++Vào Data/ Data Analysis/Anova: Single Factor

+++ Trong hộp thoại Anova: Single Factor lần lượt ấn định các chi tiết:

Trang 21

Từ giá trị trong bảng Anova:

Trang 22

Khi đã nhập ta được kết quả như sau:

Bài 4:

Đặt và giải một bài toán kiểm định tính độc lập ( so sánh các tỷ lệ)

Bảng số liệu cho biết chỉ tiêu tuyển sinh của đại học Bách Khoa TPHCM qua các năm

Số liệu được lấy từ trang chủ của trường đại học Bách Khoa TPHCM

Trang 23

Với mức ý nghĩa  = 1%, hãy so sánh phân bố tỉ lệ tuyển sinh của trường đại họcBách Khoa TPHCM qua các năm.

BÀI LÀM:

 Dạng bài: Kiểm định giả thiết về tỉ lệ.

 Phương pháp giải: Áp dụng Kiểm định chi bình phương 2

 Công cụ giải: hàm CHITEST trên Excel.

 Cơ sở lý thuyết:

- Trong thống kê, kiểm định chi bình phương hay kiểm tra 2 (đôi khi đọc là "khibình phương") là một họ các phương pháp kiểm định giả thiết thống kê trong đóthống kê kiểm định tuân theo phân bố 2 nếu giả thuyết không là đúng Chúnggồm:

 Kiểm định chi bình phương Pearson

 Kiểm định chi bình phương Yates

 Kiểm định chi bình phương Mantel-Haenszel

- Dạng thống kê kiểm định thông dụng nhất là:

γ2 =(o−e)2

e

Trang 24

Với o là dữ liệu đo đạc, e là giá trị dự đoán chính xác.

Xét một bộ A gồm r tính trạng, A = (A1, A2, Ar), trong đó mỗi cá thể của tập hợpchính H có và chỉ có một trong các tính trạng (hay phạm trù) Ai

Gọi pi (i = 1, 2, r) là tỷ lệ cá thể tính trạng Ai trong tập hợp chính H Khi đó véctơ

=(p1, p2, pr) được gọi là phân bố của A trong tập hợp chính H

Giả sử (p1, p2, pr) là phân bố của (A1, A2, Ar) trong tập hợp chính H và (q1,

q2, qr) là phân bố của A = (A1, A2, Ar) trong tập hợp chính Y Ta nói (A1, A2 Ar) cóphân bố như nhau trong X và Y nếu (p1, p2, pr) = (q1, q2, qr)  p1 = q1, pr = qr

Chúng ta muốn kiểm định xem A = (A1, A2, Ar) có cùng phân số trong X và Y haykhông dựa trên các mẫu ngẫu nhiên rút từ X và Y

Tổng quát hơn, giả sử ta có k tập hợp chính H1, H2, Hk Gọi làphân bố của A = (A1, A2, Ar) trong tập hợp chính Hi

Ta muốn kiểm định giả thuyết sau:

(Các phân bố này là như nhau trên các tập hợp chính Hi).Chú ý rằng H0 tương đương với hệ đẳng thức sau:

Từ mỗi tập hợp chính chúng ta chọn ra một mẫu ngẫu nhiên Mẫu ngẫu nhiên chọn

từ tập hợp chính Hi được gọi là mẫu ngẫu nhiên thứ i (i = 1, 2, k)

Giả sử trong mẫu ngẫu nhiên thứ i:

Trang 25

là tổng số tất cả các cá thể của k mẫu đang xét.

 Nếu giả thiết H0 là đúng nghĩa là:

thì các tỷ lệ chung p1, p2, pr được ước lượng bởi:

Đó ước lượng cho xác suất để một cá thể có mang tính trạng Ai khi đó số cá thể cótính trạng Ai trong mẫu thứ j sẽ xấp xỉ bằng:

Trang 26

Các số được gọi là các tần số lý thuyết (TSLT), các số nijđược gọi là các tần số quan sát (TSQS).

Ta quyết định bác bỏ Ho khi các TSLT cách xa TSQS một cách bất thường.Khoảng cách giữa TSQS và TSLT được đo bằng test thống kê sau đây:

Người ta chứng minh được rằng nếu H0 đúng và các TSLT không nhỏ hơn 5 thì T sẽ cóphân bố xấp xỉ phân bố với (k-1)(r-1) bậc tự do Thành thử miền bác bỏ có dạng {T >c} ở đó c được tìm từ điều kiện P{T > c} =  Vậy c là phân vị mức  của phân bố với (k-1)(r-1) bậc tự do

Đối với thí nghiệm có các kết quả, để so sánh các tỉ số của các kết quả đó, ta dùng kiểm định 2 (chi-quared):

Nếu: P(X >γ2)>α thì chấp nhận H0 và ngược lại

 Thực hiện bài toán bằng excel:

 Nhập dữ liệu vào bảng tính:

Trang 27

 Tính tổng các hàng và các cột.

 Tính các tần số lý thuyết: tần số lý thuyết = (Tổng hàng ×Tổng cột)/(Tổng cộng):

Trang 28

 Sử dụng hàm CHITEST tính xác suất P(X> ):

 Kết quả và biện luận:

 Giả thiết :

H0: Chỉ tiêu tuyển sinh của trường độc lập với năm tuyển sinh

H1:Chỉ tiêu tuyển sinh của trường không độc lập với năm tuyển sinh

Ta có: P(X> ) = 6,72279E-13 < α

 Bác bỏ giả thiết H0, chấp nhận giả thiết H1

Vậy: Chỉ tiêu tuyển sinh của trường không độc lập với năm tuyển sinh.

Bài 5:

a)Tìm một dữ liệu ngẫu nhiên 2 chiều (X, Y) có kích thước n >10 để sử dụng mô

Trang 29

hình hồi quy tuyến tính đơn Thực hiện các yêu cầu:

1) Tìm hệ số tương quan giữa X,Y

2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Hãy ướclượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ

3) Tìm sai số chuẩn của ước lượng

b) Tìm một dữ liệu ngẫu nhiên k chiều (k >2) để sử dụng mô hình hồi quy tuyến tính

đa biến Tìm các hệ số hồi quy tuyến tính mẫu và kết luận về sự thích hợp

Bài làm

I. Cơ sở lý thuyết:

1.Tìm hệ số tương quan giữa X và Y

Hệ số tương quan mẫu là một số đo về sự hiệp biến tuyến tính của các biến số, nghĩa

số đo về mức độ kết hợp tuyến tính giữa các biến số Được xác định bởi:

Hệ số tương quan R=x i y j+∑x iy i

√ ¿¿¿¿

Nếu R>0 thì X ,Y tương quan thuận

Nếu R<0 thì X ,Y tương quan nghịch

Nếu R=0 thì X ,Y không tương quan

Nếu |R|=1 thì X ,Y có quan hệ hàm số bậc nhất

Nếu ¿R∨→1 thì X ,Y có tương quan chặt (tương quan mạnh)

Nếu |R|→0 thì X ,Y có tương quan không chặt (tương quan yếu)

|R|>0.8: tương quan tuyến tính rất mạnh

|R|=0.6−0.8: tương quan tuyến tính mạnh

|R|=0.4−0.6: có tương quan tuyến tính

|R|=0.2−0.4: tương quan tuyến tính yếu

Trang 30

|R|<0.2: tương quan tuyến tính rất yếu hoặc không có tương quan tuyến tính

2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không ?

Giả thiết H0: R=0 (X và Y không có tương quan tuyến tính)

H1: R0 (X và Y có tương quan tuyến tính)

Ta thấy: |t|>2.228 nên ta quyết định bác bỏ H0

3) Ước lượng đường hồi quy tuyến tính của Y theo X

Hồi quy đơn tuyến tính:

Phương trình hồi quay tuyến tính: y i =a+bx ,a=r S y

S x ,b= y−a x

Kiểm định hệ số a, b

- Giả thiết H0: Hệ số hồi quy không có ý nghĩa (=0)

H1: Hệ số hồi quy có ý nghĩa (≠ 0)

- Trắc nghiệm t <t α, n−2: Chấp nhận H0

Kiểm định phương trình hồi quy

- Giả thiết H0: “Phương trình hồi quy tuyến tính không thích hợp”

H1: “Phương trình hồi quy tuyến tính thích hợp”

- Trắc nghiệm F<F α ,1, n−2

Trang 31

II Giải bài toán trên excel:

a) Thống kê nhiệt độ và lượng mưa năm 2016 được thể hiện trong bảng dưới đây:

Lượng mưa năm

1)Tìm hệ số tương quan giữa X,Y

 Công cụ thực hiện: Áp dụng “Correlation”

 Nhập dữ liệu vào trang tính:

Trang 32

 Chọn chức năng Data/Data Analysis/Correlation

 Trong hộp thoại Correlation:

Trang 33

 Phần “Input” (phạm vi đầu vào) có mục “Input Range” là địa chỉ tuyệt đối chứa

dữ liệu tương ứng của mẫu: quét khối dữ liệu để chọn hoặc nhập $A$1:$B$16

 Phần “Grouped By” chọn “Columns”

 Chọn mục Labels in first row (nhãn dữ liệu) để hiển thị nhãn

 Phần “Output options” (Phạm vi đầu ra) chọn mục “Output Range” và nhập địa chỉ tuyệt đối của ô tính mà bạn muốn xuất bảng ra: $D$1

Nhấn chọn OK và phần mềm Excel sẽ cho ta kết quả:

=> Ta có hệ số tương quan là R = 0.8126 chứng tỏ giữa lượng mưa năm 2016

và độ ẩm năm 2016 thu được có quan hệ khá chặt chẽ và có tương quan thuận.2) Kiểm định quan hệ tuyến tính và ước lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ

 Kiểm định quan hệ tuyến tính

Trang 34

+ Công cụ thực hiện: Tính trực tiếp bằng hàm

 Tính T : chọn ô E4 và nhập biểu thức =E3*SQRT(16-2)/SQRT(1-E3^2)

 Tính c: chọn ô B6 và nhập biểu thức =TINV(0.05,14) (c là phân vị mức α/2=0.025 của phân bố Student với n-2=14 bậc tự do)

 Ta được kết quả:

 Vì |t| > c nên bác bỏ giả thiết H0

 Vậy: X và Y có tương quan tuyến tính

 Ước lượng đường hồi quy tuyến tính y theo x và biểu thị bằng hình vẽ

 Công cụ thực hiện: áp dụng “regression”

 Chọn chức năng Data/Data Analysis/ Regression

 Phần “Input” (phạm vi đầu vào) gồm hai mục:

Trang 35

- Input Y Range: địa chỉ tuyệt đối chứa dữ liệu tương ứng của : quét khối chọn

 Chọn mục Labels (nhãn dữ liệu) để hiển thị tiêu đề

 Phần “Output options” (Phạm vi đầu ra) chọn mục “Output Range” và nhập địa chỉ tuyệt đối của ô tính mà bạn muốn xuất bảng ra: $D$8

 Line Fit Plots: Xuất ra đồ thị

Nhấn chọn OK và phần mềm Excel sẽ cho ta kết quả:

Trang 37

+ Xử lí đồ thị: vào Chart Tools/Quick Layout/Layout 3:

Predicted Lượng mưa năm 2016

Linear (Predicted Lượng mưa năm 2016)

Trang 38

 Phương trình hồi quy: = -1528.1791 + 23.4612x

 Hệ số hồi quy: 0.0029<0.05  Hệ số tự do có ý nghĩa

0.0013 < 0.05  Hệ số của x có ý nghĩa

3) Tìm sai số chuẩn của ước lượng:

- Đối với biến tự do: SE = 391.5688

- Đối với biến X: SE = 5.3207

b) Khảo sát đường dài 10m ta thấy được mối quan hệ giữa tốc độ pha với tần số của sóng và độ thẩm điện của môi trường Khảo sát với các mốc tần số 5, 10, 15, 20MHz và trong các môi trường không khí ( =1), dầu hỏa ( =2.1), ebonite ( =2.7), thạch anh ( =4.5)

Trang 39

Độ thẩm điện Tần số sóng(MHz) Tốc độ pha (rad/s)

 Thực hiện bài tập trên excel

 Nhập dữ liệu vào trang tính:

Trang 40

 Vào Data/Data Analysis/Regression.

Trang 41

 Phần “Input” (phạm vi đầu vào) gồm hai mục:

-Input Y Range: địa chỉ tuyệt đối chứa dữ liệu tương ứng của : quét khối chọn dữ liệu hoặc nhập $C$1:$C$17

-Input X Range: địa chỉ tuyệt đối chứa dữ liệu tương ứng của Nhiệt độ: quét khối chọn

dữ liệu hoặc nhập $A$1:$B$17

 Confidence Level: độ tin cậy ( để ở dạng phần trăm, ở bài này nhập độ tin cậy bằng 95%)

 Chọn mục Labels (nhãn dữ liệu) để hiển thị tiêu đề

 Phần “Output options” (Phạm vi đầu ra) chọn mục “Output Range” và nhập địa chỉ tuyệt đối của ô tính mà bạn muốn xuất bảng ra: $E$1

 Line Fit Plots: Xuất ra đồ thị

 Nhấn chọn OK ta được kết quả:

Trang 43

 Tìm các hệ số hồi quy tuyến tính mẫu:

 Phương trình hồi quy tuyến tính mẫu:

 Biện luận sự thích hợp:

*

 Hệ số tự do có ý nghĩa

Ngày đăng: 15/04/2023, 12:55

HÌNH ẢNH LIÊN QUAN

Bảng số liệu cho biết chỉ tiêu tuyển sinh của đại học Bách Khoa TPHCM qua các năm. - XÁC SUẤT THỐNG KÊ L03 nhóm 05 đề tài 05 đàm lê thành
Bảng s ố liệu cho biết chỉ tiêu tuyển sinh của đại học Bách Khoa TPHCM qua các năm (Trang 22)
Bảng ANOVA - XÁC SUẤT THỐNG KÊ L03 nhóm 05 đề tài 05 đàm lê thành
ng ANOVA (Trang 45)
Bảng thống kê dưới đây so sánh độ galactose trong 3 nhóm bệnh nhân: - XÁC SUẤT THỐNG KÊ L03 nhóm 05 đề tài 05 đàm lê thành
Bảng th ống kê dưới đây so sánh độ galactose trong 3 nhóm bệnh nhân: (Trang 46)
Bảng Anova - XÁC SUẤT THỐNG KÊ L03 nhóm 05 đề tài 05 đàm lê thành
ng Anova (Trang 49)

🧩 Sản phẩm bạn có thể quan tâm

w