So 7 XÁC SUẤT THỐNG KÊ

Bài 1: Tìm một dữ liệu định lượng A và một dữ liệu định tính B thích hợp, sử dụng các dữ liệu đó cho các yêu cầu sau: 1Thực hiện phương pháp phân tổ dữ liệu A.. 3 Tính các đặc trưng mẫu

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA TP HỒ CHÍ MINH

- Nguyễn Văn Long 1412096 L10-B

- Trần Công Hậu 1411154 L06-A

- Trần Trọng Phát 1412851 L10-B

Trang 2

Bài 1: Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng

các dữ liệu đó cho các yêu cầu sau:

1)Thực hiện phương pháp phân tổ dữ liệu (A)

2)Vẽ đồ thị phân phối tần số và đa giác tần số (A)

3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với độ tin cậy 93% (A)

4)Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị

5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào

Trang 3

1/ Thực hiện phân tổ dữ liệu (A):

 Nhập dữ liệu (A) vào Excel:

 Xác định số tổ cần chia: k=(2 n)13

 Chọn ô A6 nhập vào biểu thức: =(2*COUNT(A1:J4))^(1/3)

 Kết quả: 4.31

 Chọn k = 4

Trang 4

 Xác định số khoảng cách h theo công thức: h=x max −x min

k

 Chọn ô B6 nhập vào công thức: =(MAX(A1:J4)-MIN(A1:J4))/4

 Kết quả: 2

 Chọn h = 2

Trang 5

 Lập ra các tổ chia được từ giá trị h=2

 Cận trên và cận dưới của các tổ:

Tổ 1 2 – 4

Tổ 2 4 – 6

Tổ 3 6 – 8

Tổ 4 8 – 10

 Nhập vào các ô K6 đến K10 lần lượt các giá trị:

 Chọn chức năng Data/Data Analysis/Histogram

 Input Range: Địa chỉ tuyệt đối chứa dữ liệu

 Bin Range: Địa chỉ chứa bảng phân nhóm

 Output Options: Vị trí xuất kết quả

 Confidence Lever for Mean: Độ tin cậy cho trung bình

 Chọn Cumulative Percentage để tính tần suất tích lũy nếu không Excel sẽ chỉ tính tần số

Trang 6

dụng bảng phân phối tần số

dữ liệu (A)

giá trị 0vào đầu và cuối bảng phân phối tần số

Trang 7

 Quét B2:B7, dung các chức năng Insert Line Chart trên manu Insert.

 Kết quả:

lượng giá trị trung bình của dấu hiệu quan sát với độ tin cậy 93%

(A)

bảng tính:

Trang 8

 Chọn chức năng Data/Data Analysis/Descriptive Statistics

 Input Range: Địa chỉ tuyệt đối chứa dữ liệu

 Output Option: Vị trí xuất keesrt quả

 Confidence Lever for Mean: Độ tin cậy cho trung bình

Trang 9

4/ Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.

 Nhập dữ liệu vào bảng tính:

 Tính tỉ lệ sinh viên cho các ngành:

Trang 10

Nhập vào C2: =(B2/$B$9), copy cho các ô còn lại.

Kết quả:

 Vẽ biểu đồ đứng thể hiện số lượng sinh viên ở các chuyên ngành:

 Quét chọn cột Số sinh viên (B2:B8)

 Dùng chức năng Insert/Insert Column Chart/2-D Column trên manu Insert

 Kết quả:

 Vẽ biểu đồ tròn thể hiện tỉ lệ sinh viên ở các chuyên ngành:

Trang 11

 Quét chọn cột Số sinh viên (C2:C8).

 Dùng chức năng Insert/Insert Column Pie/2-D Column trên menu Insert

 Kết quả:

Trang 12

Bài 2:

Một giám đốc doanh nghiệp quyết định gửi 8 nhân viên của mình đi dự một lớp tập huấn

về “Dịch vụ khách hàng” Dưới đây là phản hồi của bộ phận chăm sóc khách hàng về các nhân viên được cử đi tập huấn

Tên nhânviên 3 tháng trước tập huấnSố lần phàn nàn của khách hàng3 tháng sau tập huấn

Trong trường hợp hai mẫu nhỏ (N < 30) độc lập và có phương sai

bằng nhau, bạn có thể áp dụng trắc nghiệm t đồng phương sai

(homoscedastic t-test) để so sánh giá trị trung bình của hai mẫu ấy

Với d = x₁ − x₂, ta có:

H₀: d=0 (đợt tập huấn không có hiệu quả)

H₁: d ≥ 0 hay x1> x2 (đợt tập huấn thực sự có hiệu quả)

Phương pháp kiểm định: So sánh hai trung bình với dữ liệu cặp (paired two

samples for means), phân phối Student với n=8, 1 phía Tiêu chuẩn kiểm định:

T = d−μ

s/√n T (n−1)

Trang 13

Giá trị kiểm định: t= d√s2/n

Giá trị tới hạn: T =t95 %(df =7)=1,8946

Nếu t >T thì bác bỏ H₀, hay có thể kết kết luận đợt tập huấn thực sự có hiệuquả Ngược lại, nếu t ≤ T, ta thừa nhận H₀ (đợt tập huấn không có hiệu quả).Giá trị P được tính theo công thức:

_ Nhấp lần lượt chọn thẻ Data và lệnh Data Analysis

_ Chọn chương trình t- t-Test: Paired Two Sample for Means trong

hộp thoại DataAnalysis rồi nhấp nút OK

_ Trong hộp thoại t-Test: Paired Two Sample for Means, ấn định lần lượt các

Trang 14

chi tiết:

+ Phạm vi của dữ liệu 1 (Variable 1 Range)

+ Phạm vi của dữ liệu 2 (Variable 2 Range)

+ Nhãn dữ liệu (Labels)

+ Ngưỡng tin cậy (Alpha)

+ Sai biệt giữa hai giá trị trung bình ước tính (Hypothesized Mean Difference)+ Phạm vi đầu ra (Output Range)

_ Sau đó chọn OK

_ Ta sẽ được kết quả trong hộp thoại sau:

Ta chú ý đến các giá trị t Stat (giá trị kiểm định t ở trên), P(T≤t) one-tail (giá trị

P của phép kiểm định) và t Critical one-tail (giá trị tới hạn T cho mức ý nghĩa

5%)

Trang 15

Ta thấyt=3,6604>T =1,8946 , đồng thời với giá trị P nhỏ (0,004034), ta bác bỏ H₀

và kết luận “đợt tập huấn đã có hiệu quả”

P = 0.00403388

Bài 3:

Sau đây là số liệu về một loại báo ngày bán được ở 5 quận nội thành, số liệu lấy ở mộtđại lý bán lẻ:

Quận 1 Quận 2 Quận 3 Quận 4 Quận 5Thứ hai 254; 232 236;245 267;258 223;224 245;247

Thứ năm 235;209 197;223 243;234 213;223 224;242Lượng báo thực sự bán ra ở 5 quận có khác nhau không? Lượng báo bán ra có chịu yếu tốtác động là ngày trong tuần hay không? Kết luận với mức ý nghĩa 5%

Ta sử dụng phương pháp phân tích phương sai hai nhân tố không lặp

(two-factor ANOVA test without replication) để kiểm tra sự ảnh hưởng của hai yếu

tố “ngày bán” và “nơi bán” trên lượng báo bán ra quan sátđược

x T 2 =x T 3 =x T 4 =x T 5 =x T 6 =x T 7

Giả thiết H₁: có ít nhất một sự khác biệt về x ở một trong các nhóm

Trang 16

Cơ sở lí thuyết:

Mô hình phân tích phương sai: x ij =x+α i +β j +ε ij

trong đó: α i là ảnh hưởng của điều kiện i, β ij là ảnh hưởng của điều kiện j và

Trang 17

Nếu F B >F dfe dfb (1−α) thì bác bỏ yếu tố B (cột)

Trang 18

Bài 4:

Khảo sát ngẫu nhiên 300 sinh viên đã tốt nghiệp cùng một chuyên ngành từ 3 trường A,

B và C sau một năm ra trường, người ta có kết quả:

Trường Đã đi làm Học tiếp Chưa có việc làm

H0: Tình trạng việc làm của sinh viên 3 trường là như nhau

H1: Tình trạng việc làm của sinh viên 3 trường khác nhau

p 0 j ≈ n 0 j

n

Trang 19

Người ta đă chứng minh được rằng nếu n lớn và các TSLT không nhỏ hơn

5 thì sẽ có phân bố xấp xỉ phân bố với bậc tự do là (k–1).(r–1) Thành thử

Ho sẽ bị bác bỏ ở mức ý nghĩa nếu T > c, trong đó c là phân vị mức củaphân bố với (k - 1).(r - 1) bậc tự do

 Sử dụng hàm CHITEST trong Excel: CHITEST(nij,γij), với lưu ý số lượng cácgiá trị của nij và γij phải bằng nhau

Trang 21

 Biện luận và kết luận:

Ta được P = 0.438296503

Với giá trị P > α = 3 % => chấp nhận giả thiết H0

=>> Kết luận : Tình trạng việc làm của sinh viên 3 trường là như nhau

BÀI 5 Tìm một dữ liệu ngẫu nhiên hai chiều (X,Y) có kích thước n>10 để sử dụng

mô hình hồi quy tuyến tính đơn Thực hiện các yêu cầu:

1/Tìm hệ số tương quan giữa X,Y.

2/Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không?Hãy ước lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ.

3/Tìm sai số chuẩn của ước lượng.

BÀI LÀM

-Dữ liều 2 chiều (X,Y): khảo sát 12 sinh viên khoa Cơ khí trường đại học Bách

khoa TPHCM, thu được điểm số 2 môn Cơ lưu chất và Vẽ cơ khí như sau

X(cơ lưu chất) 6.5 4 4.5 8.5 6 4.5 8 7 5.5 5.5 7.5 9 9.5 7.5 6

Trang 22

Y(vẽ cơ khí) 7.5 7 6 6.5 7.5 5.5 9 8 6.5 7.5 8 9.5 8 7.5 6.5

*CƠ SỞ LÝ THUYẾT

-Dạng: Bài toán kiểm định tương quan và hồi quy

-Phân tích bài toán bằng Excel

Nếu r > 0 thì X,Y tương quan thuận

Nếu r < 0 thì X,Y tương quan nghịch

Nếu r = 0 thì X,Y không tương quan

Nếu |r| = 1 thì X,Y có quan hệ hàm bậc nhất

Nếu |r| → 1 thì X, Y có tương quan chặt (tương quan mạnh)

Nếu |r| → 0 thì X, Y có tương quan không chặt (tương quan yếu)

Thực hiện

-Nhập dữ liệu vào bảng tính

Trang 23

-Mở Data Analysis chọn Corroelation

- Hội thoại Correlation xuất hiện

+Input Range: phạm vi đầu vào ô (ô A1 -> ô B16)

+Grouped by:nhóm dữ liệu theo hàng hoặc cột (chọn cột)+Labels in first column: nhãn ở cột đầu tiên (chọn)

+Output Range: phạm vi dữ liệu xuất ra (ô D5)

Trang 24

-Kết quả thu được:

-Từ bảng trên, ta tìm được hệ số tương quan r = 0.685417

-Kết luận: vậy X và Y có tương quan thuận

2/Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không?Hãy ước lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ.

Cơ sở lý thuyết

-Giả thiết kiểm định Ho: X và Y không có tương quan tuyến tính

Trang 25

-Giả thiết đối H1: X và Y tương quan tuyến tính

-Vì |T| > c nên bác bỏ giả thiết Ho, chấp nhận H1

-Vậy: X và Y có tương quan tuyến tính

Trang 26

-Kiểm định hệ số a, b:

+ Giả thiết Ho: Hệ số hồi quy không có ý nghĩa (=0)

+ H1: Hệ số hồi quy có ý nghĩa (≠0)

+ Trắc nghiệm t < t,n-2:chấp nhận Ho

-Kiểm định phương trình hồi quy:

+ Giả thiết Ho: “Phương trình hồi quy tuyến tính không thích hợp”

H1: “Phương trình hồi quy tuyến tính thích hợp”.+ Trắc nghiệm F < F,1,n-2: chấp nhận Ho

Thực hiện

-VàoData /Data analysis, chọn Regression

-Trong hộp thoại Regression lần lượt ấn định:

Input Y Range: phạm vi đầu vào ô (ô B1 -> ô B16)

Input X Range: phạm vi đầu vào ô (ô A1-> ô A16)

Chọn Labels (thêm nhãn dữ liệu)

Output Range: phạm vi đầu ra (ô D13)

Chọn Line Fit Plots trong Residuals để vẽ đường hồi quy

Trang 27

Sau đó nhấn OK, ta có kết quả:

Trang 29

0.004797824<0.05 : Hệ số của X không có ý nghĩa

-Đường hồi quy tuyến tính này không thích hợp vì 0.004797824< 0.05

3/Tìm sai số chuẩn của ước lượng.

-Từ bảng SUMMARY OUTPUT, ta có:

+Đối với biến tự do (biến Y): Standard Error = 0.876479263

+Đối với biến X: Standard Error = 0.128280521

+Sai số chuẩn của đường hồi quy (Từ bảng Regression Statistics) Standard Error =

0.813680154

Tiêu đề	Xác suất thống kê
Tác giả	Phạm Minh Cảnh, Nguyễn Quốc Kiệt, Từ Phước Lâm, Nguyễn Trường Thịnh, Nguyễn Văn Long, Trần Công Hậu, Trần Trọng Phát
Người hướng dẫn	GVHD: Nguyễn Kiều Dung
Trường học	Trường Đại Học Bách Khoa TP Hồ Chí Minh
Chuyên ngành	Cơ khí
Thể loại	Báo cáo bài tập lớn
Thành phố	TP Hồ Chí Minh

Định dạng
Số trang	30
Dung lượng	1,32 MB