TRƯỜNG ĐẠI HỌC BÁCH KHOA TPHCM KHOA KHOA HỌC ỨNG DỤNG BỘ MÔN TOÁN ỨNG DỤNG BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Phương pháp phân tổ dữ liệu Đồ thị phân phối tần số và đa giác tần số Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với độ tin cậy A Trình bày dữ liệu định tính dạng phân loại bằng các đồ thị
Trang 1
Thành phố Hồ Chí Minh, ngày 04 tháng 05 năm 2016
Trang 22
Bài 1: Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử
dụng các dữ liệu đó cho các yêu cầu sau:
1)Thực hiện phương pháp phân tổ dữ liệu (A)
2)Vẽ đồ thị phân phối tần số và đa giác tần số (A)
3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với độ tin cậy 98% (A)
4)Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị
5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào đó hay không
1) Thực hiện phương pháp phân tổ dữ liệu (A):
Trang 3- Ta có kết quả như sau: h=5
B4: Xác định được cận trên,cận dưới của các tổ lần lượt là:
Trang 44
B6: Chọn chức năng data/data analysis/histogram:
- Input range: địa chỉ chứa dữ liệu
- Bin range: địa chỉ chứa bàng phân nhóm
- Output options: vị trí xuất kết quả
- Confidence level for mean: độ tin cậy
- Cumulative percentage: tính tần suất tích lũy
Trang 66
b) Vẽ đa giác tần số:
B1: Sử dụng bảng phân phối tần số dữ liệu (A)
B2: Thêm giá trị 0 vào đầu và cuối bảng phân phối tần số
B3: Quét chọn bảng
B4: Dùng chức năng Insert Line Chart trên menu Insert
Trang 88
Trang 1010
B3: Vẽ biều đồ cột thể hiện số sinh viên
- Quét chọn cột số sinh viên
- Dùng chức năng Insert Column Chart trên menu Insert
Trang 1111
B4: Vẽ biểu đồ tròn thể hiện tỉ lệ sinh viên ở các chuyên ngành:
- Quét chọn cột số sinh viên
- Dùng chức năng Insert Column Pie trên menu Insert
5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào
đó hay không
B1: Chọn dữ liệu (B) với mức ý nghĩa 5%, nhập dữ liệu vào bảng tính
Trang 1212
B2: Đặt giả thiết kiểm định:
H0: Tổng thể có phân phối F(x)
H1: Tổng thể không có phân phối F(x)
F(x) ở đây có thể là phân phổi Poisson hay phân phối đều rời rạc
B3: Tính các đặc trưng mẫu cần thiết ở dạng ước lượng hợp lý cực đại
Tiến hành bằng Excel tương tự câu 3 ở trên, ta có kết quả như sau:
B4: Tìm miền bác bỏ: W∝ =( (∝; k-r-1); +∞)
Với k = 4 (số hàng được chia trong bảng dữ liệu mẫu)
r = 1: nếu muốn kiểm định phân phối Poisson
r = 0: nếu muốn kiểm định phân phối đều rời rạc
Dùng hàm CHINNV trong Excel để tính chi-bình phương
Cú pháp: CHINNV(probability, degrees-freedom) với probability là mức ý nghĩa, degrees-freedom là bậc tự do
Trang 13B5: Tính tiêu chuẩn kiểm định:
Trong đó: Oi = ni là tần số từ mẫu thực nghiệm
Ei là tần số theo lý thuyết nếu giả thiết H0 đúng
Đối với kiểm định phân phối Poisson:
Ei = n*pi với n là kích thước mẫu
Đối với kiểm định phân phối đều rời rạc:
Ei = n*pi với n là kích thước mẫu
pi = P(X=xi)
2 2
i
x i
Trang 14 Chấp nhận giả thiết H (B) phân phối đều rời rạc
Kết luận: Vậy (B) có phù hợp với 1 phân bố xác suất nào đó (Phân phối đều rời
rạc)
Bài 2: Điểm đánh giá của 20 người dùng thử về 2 loại sản phẩm đậu phộng trước
và sau cải tiến được thu thập trên thang điểm 10 như sau:
Trước cải tiến 7 8 6 8 7 7 7 6 8 6
Sau cải tiến 8 9 5 9 5 6 8 7 8 7
Trước cải tiến 6 9 6 4 6 7 8 5 4 3
Sau cải tiến 8 8 8 7 6 7 7 6 7 6
Hãy cho biết hiệu quả của việc cải tiến sản phẩm với mức ý nghĩa 6% Tìm thêm
giá trị P trong kiểm định
Trang 1515
1) Cơ sở lý thuyết:
Vì hai mẫu đã cho là mẫu nhỏ, phụ thuộc, chưa biết phương sai,1 chúng ta đưa về bài toán so sánh giá trị trung bình dữ liệu tương ứng từng cặp Với công cụ T-test Paired Two Sample For Means
2) Tiêu chuẩn kiểm định:
Giá trị thống kê t có phân phối Student γ=N-1
3) Giả thiết kiểm định:
H0: “Cải tiến không hiệu quả”
H1: “Cải tiến hiệu quả”
Biện luận: Nếu t < t∝ hay t < thì chấp nhận giả thiết H0
4) Thực hiện bài toán bằng Excel:
B1: Nhập bảng dữ liệu
D
D t
Trang 1616 B2: Vào Data/Data Analysis/T-test Paired Two Simple for Means
Trang 1717
Chú thích:
- Input Range: địa chỉ chứa dữ liệu tương ứng của mẫu 1,2
- Output Options: vị trí xuất kết quả
- Alpha: mức ý nghĩa ∝
B3: Ta có kết quả như sau:
Trang 1818
Kết luận:
Bác bỏ giả thiết H0 Cải tiến có hiệu quả
Bài 3: Hàm lượng saponin (mg) của cùng một loại dược liệu được thu hái mùa
(khô và mưa: trong mỗi mùa lấy mẫu ba lần - đầu giữa và cuối) và từ ba miền (nam trung và bắc) được tóm tắt như sau:
Mùa Thời điểm
Miền Nam Trung Bắc Mùa khô
Đầu mùa 2.4 2.1 3.2 Giữa mùa 2.3 2.2 3.2 Cuối mùa 2.5 2.3 3.4 Mùa mưa
Đầu mùa 2.4 2.2 3.3 Giữa mùa 2.5 2.1 3.5 Cuối mùa 2.7 2.3 3.4 Hãy cho biết hàm lượng saponin có khác nhau theo mùa hay miền? Nếu có thì hai yếu tố mùa và miền có sự tương tác với nhau hay không? Sử dụng mức ý nghĩa 2%
BÀI LÀM 1) Cơ sở lý thuyết:
- Dạng bài: Phân tích phương sai 2 yếu tố có lặp
- Cách làm: sử dụng hàm Anova: Two-factor with replication trong Data Analysis bằng Excel
- Cơ sở lí thuyết: Phân tích phương sai nhằm đánh giá sự ảnh hưởng của 2 nhân tố A và B trên các giá trị quan sát xij, mỗi mức xij đều có sự lặp lại nhiều lần
và cần khảo sát thêm sự tương tác giữa hai yếu tố cột và hàng (điểm khác biệt so với phân tích phương sai 2 yếu tố không lặp)
0.06
t t
Trang 1919
Mẫu điều tra:
Xử lý mẫu: tính tổng hàng, tổng cột:
Trang 2020
Suy ra:
Bảng Anova:
Kết luận:
Trang 2121
2) Thực hiện bài toán bằng Excel:
B1: Nhập bảng dữ liệu:
B2: Vào Data/Data Analysis/ Anova: Two-Factor With Replication:
(Rows per sample: số lần lặp lại)
Trang 23▪ FSample < FcritSample (2.782609 < 7.18775) Chấp nhận yếu tố hàng
Hàm lượng Sanopin như nhau theo mùa
▪ FColumns > FcritColumns (164.8696 > 5.516299) Bác bỏ yếu tố cột
Hàm lượng Sanopin khác nhau theo miền
▪ FInteraction < FcritInteraction (0.695652 < 5.516299) Không có sự tương tác giữa hàng và cột Không có sự tương tác giữa mùa và miền
tra các bệnh nhân đau mắt hột được cho trong bảng sau:
Địa phương
Hãy nhận xét xem tình hình đau mắt hột ( cơ cấu phân bố 4 mức độ) ở 3 địa
phương trên có giống nhau hay không, sử dụng mức ý nghĩa 1%
BÀI LÀM 1) Cơ sở lý thuyết:
- Dạng bài: Bài toán kiểm định nhiều tỉ lệ
- Cách làm: Áp dụng hàm CHITEST trong Excel để kiểm định chi bình phương
Trang 2424
- Cơ sở lý thuyết: Trong thống kê, kiểm định chi bình phương là một họ các phương pháp kiểm định giả thiết thống kê trong đó thống kê kiểm định tuân theo phân bố nếu giả thuyết không là đúng Chúng gồm:
Kiểm định chi bình phương Pearson
Kiểm định chi bình phương Yates
Kiểm định chi bình phương Mantel-Haenszel
…
2) Tiêu chuẩn kiểm định:
Với Oij : Tần số thực nghiệm của hàng i, cột j
Với actual range: tấn số thực nghiệm; expected range: tần số lý thuyết
) > ∝ (mức ý nghĩa) thì chấp nhận H0 và ngược lại
Nếu P (X >
3) Giả thuyết kiểm định:
- H0 : cơ cấu phân bố 4 mức độ đau mắt hột ở 3 địa phương là như nhau
Trang 2525
- H1 : cơ cấu phân bố 4 mức độ đau mắt hột ở 3 địa phương là khác nhau
4) Thực hiện bằng bài toán Excel:
B1: Nhập bảng dữ liệu
B2: Tính tổng các hàng và cột
B3: Tính các tần số lý thuyết theo công thức Eij
Trang 26
) = 6.0949.10-215 << = 0.01 Bác bỏ giả thiết H0 Cơ cấu phân bố 4 mức
độ đau mắt hột ở 3 địa phương là khác nhau
Bài 5: Tìm một dữ liệu ngẫu nhiên 2 chiều (X, Y) có kích thước n >10 để sử dụng
mô hình hồi quy tuyến tính đơn Thực hiện các yêu cầu:
1) Tìm hệ số tương quan giữa X,Y
2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Hãy
ước lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ
3) Tìm sai số chuẩn của ước lượng
Trang 27r = 0,4 - 0,8 tương quan trung bình
r < 0,4 tương quan yếu
r càng lớn thì tương quan giữa X và Y càng chặt
0 < r ≤ 1 : gọi là tương quan thuận (X↑, Y↑)
-1 ≤ r ≤ 0 : gọi là tương quan nghịch (X↑, Y↓)
b) Thực hiện bài toán bằng Excel:
Trang 2828
B2: Vào Data/Data Analysis/Correlation:
c) Kết luận:
Có r = -0.33787 -1 ≤ r ≤ 0 X,Y tương quan nghịch
2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Hãy ước lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ
2.1) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không?
a) Cơ sở lý thuyết:
- Giả thiết kiểm định:
H0 : X, Y không có sự tương quan tuyến tính ( với mức ý nghĩa ∝ = 0.05)
H1 : X, Y có sự tương quan tuyến tính
Trang 2929
- Tiêu chuẩn kiểm định:
Với r: hệ số tương quan; n: kích thước mẫu
Xét c là phân vị mức α/2=0.025 của phân bố Student với bậc tự do là n-2=9 Nếu T < c thì chấp nhận giả thiết H 0
b) Thực hiện bài toán bằng Excel:
- Tính T:
2
21
Trang 3030
c) Kết luận:
Có T = 1.07694 < c = 2.262157
chấp nhận giả thiết H0
X, Y không có sự tương quan tuyến tính
2.2) Hãy ước lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình
vẽ
a) Cơ sở lý thuyết:
b) Thực hiện bài toán bằng Excel:
B1: Nhập bảng dữ liệu:
Trang 3131 B2: Vào Data/Data Analysis/ Regression:
Trang 3232 B3: Kết quả:
Trang 3333
c) Biện luận:
Phương trình đường hồi quy Y theo X:
Kiểm định hệ số hồi quy:
Pv = 8.07*10-9 (8.07E-09) (P value) < ∝ : hệ số tự do không có ý nghĩa
Pv = 0.309526 > ∝ : hệ số của x có ý nghĩa
Kiểm định phương trình hồi quy:
Fs = 0.309525601 (Significance F) > ∝ : phương trình hồi quy tuyến tính này phù hợp
d) Kết luận:
Phương trình hồi quy tuyến tính:
3) Tìm sai số chuẩn của ước lượng:
b) Thực hiện bài toán bằng Excel:
Tương tự như trên, ta có sai số chuẩn của ước lượng (Standard Error) là: