Yêu cầu chương 6• Phân biệt được tổng thể và mẫu • Phân biệt cách ký hiệu các đặc trưng của tổng thể và mẫu • Tính được các đặc trưng của tổng thể và mẫu tổng quát • Tính được các đặc tr
Trang 2Ví dụ
1 Tỷ lệ sinh viên đại học cảm thấy thiếu ngủ?
2 Xác suất để chọn ngẫu nhiên được một sinh viên tại FTU ngủ nhiều hơn 7 tiếng mỗi ngày?
3 Phụ nữ có xu hướng khóc nhiều hơn đàn ông?
4 Số thẻ tín dụng của sinh viên lớp này là thông thường là bao nhiêu?
Trang 3Ví dụ mở đầu
• Trung bình xe của bạn đi được bao nhiêu km trên 1 lít xăng?
• Sinh viên A:
• Khoảng 40km Ta có ước lượng điểm
• Từ 35 - 45 km Ta có ước lượng khoảng
3
Trang 5Bài tập
Hãy mô tả tổng thể và mẫu tương ứng với các câu hỏi khảo sát sau:
• Tỷ lệ sinh viên đại học cảm thấy thiếu ngủ?
• Xác suất để chọn ngẫu nhiên được một sinh viên tại FTU ngủ nhiều hơn 7 tiếng mỗi ngày?
• Phụ nữ có xu hướng khóc nhiều hơn đàn ông?
• Số thẻ ATM của sinh viên lớp này là thông thường là bao nhiêu?
5
Trang 7-Chọn mẫu ngẫu nhiên
Mẫu ngẫu nhiên (random sample)
- Mỗi phần tử chọn ngẫu nhiên và độc lập
- Mỗi phần tử có khả năng được chọn như nhau
- Mọi mẫu cỡ n có cùng khả năng được chọn
Phương pháp chọn mẫu đơn giản
- Đánh số
- Chọn ngẫu nhiên, lần lượt, hoàn lại
7
Trang 8Thống kê mô tả & suy luận
TK mô tả (descriptive statistics) : thu thập, tổng hợp, xử lý dữ liệu để biến đổi dữ liệu thành
thông tin
- Thu thập dữ liệu: khảo sát, đo đạc …
- Biểu diễn dữ liệu: dùng bảng, đồ thị …
- Tổng hợp dữ liệu: trung bình mẫu, phương sai mẫu, trung vị …
Trang 9Thống kê mô tả & suy luận
Suy luận: rút ra các kết luận hoặc đưa ra các quyết định về tổng thể dựa trên các nghiên cứu
trên mẫu
TK suy luận (inferential statistics): xử lý các thông tin có được từ thống kê mô tả, từ đó đưa ra
các cơ sở để dự đoán, dự báo, ước lượng…
- Ước lượng:…
- Kiểm định giả thuyết:…
9
Trang 11Mô tả dữ liệu bằng đồ thị
• Bảng
• Đồ thị
• Tùy thuộc vào loại biến quan sát
• Hay dùng: biểu đồ đường, tần số, nhánh và lá, phân tán…
11
Trang 12Đồ thị
Trang 13Ví dụ
• Vẽ đồ thị:
• Mục tiêu của phân phối tần số:
– Tạo ra phân phối không quá lởm chởm, nhiều đỉnh và không có dạng khối
– Chỉ ra sự biến thiên trong dữ liệu
– Là một quá trình “thử - sai”
13
Trang 14Hình dạng phân phối
• Đối xứng
Trang 15Hình dạng phân phối
• Bất đối xứng
15
Trang 16Đồ thị Stem and Leaf
• Sắp xếp số liệu tăng dần
• Gồm 2 phần:
– Stem: gồm các chữ số đầu
– Leaf: gồm các chữ số đuôi
Trang 17Đồ thị Stem and Leaf
• Ví dụ 1:
17
Stem Leaves
234
1 4 4 6 7 7
0 2 81
21, 24, 24, 26, 27, 27,30,32,38, 41
Trang 18Đồ thị Stem and Leaf
• Ví dụ 2:
Stem Leaves
6789101112
Trang 19Ví dụ
• Vẽ đồ thị Stem-leaf cho tập dữ liệu sau
19
Trang 20Đồ thị phân tán (tham khảo)
• Scatter plot
• Được sử dụng để xác định mối liên hệ giữa hai biến X, Y
Trang 22Độ đo trung tâm
Trang 24Trung vị
• Là giá trị chính giữa của tập dữ liệu khi sắp tăng dần.
• Không bị ảnh hưởng bởi các giá trị outliers
• Gọi i là vị trí trung vị
• Nếu i chẵn
• Nếu i lẻ
1 2
Trang 25• Đo xu hướng trung tâm của dữ liệu
• Không bị ảnh hưởng bởi outliers
• Là giá trị thường xảy ra nhất
• Dùng cho cả biến định tính và định lượng
• Có thể có nhiều mode hoặc không có mode
25
Trang 26Độ đo nào tốt nhất
• Trung bình luôn được dùng nếu outlier không tồn tại.
• Trung vị thường được dùng vì không bị ảnh hưởng bởi outlier
• Vị trí của trung vị và trung bình ảnh hưởng bởi hình dạng của phân phối.
Trang 27Độ đo sự biến thiên
• Cho biết thông tin về sự phân tán hay sự biến thiên của số liệu
27
Trang 28Miền giá trị (range)
• Độ đo sự biến thiên đơn giản nhất
• Là chênh lệch giữa giá trị lớn nhất và nhỏ nhất
• Miền giá trị=Xmax-Xmin
• Bỏ qua sự phân bố của số liệu
• Bị ảnh hưởng bởi outliers
Trang 29Miền phân vị
• Có thể loại bỏ outlier bằng cách sử dụng miền phân vị
• Miền phân vị: (interquatile range)
Trang 31Đồ thị boxplot
• Ví dụ:
31
Trang 32Yêu cầu chương 6
• Phân biệt được tổng thể và mẫu
• Phân biệt cách ký hiệu các đặc trưng của tổng thể và mẫu
• Tính được các đặc trưng của tổng thể và mẫu tổng quát
• Tính được các đặc trưng của mẫu cụ thể trong cả 2 trường hợp
– Mẫu không lặp
– Mẫu có lặp
Trang 33Yêu cầu chương 6
• Biết được thế nào là mẫu tổng quát (mẫu lý thuyết) và mẫu cụ thể.
• Khác biệt trong việc ký hiệu các đặc trưng của mẫu tổng quát và
Trang 34Yêu cầu chương 6
• Hiểu được nội dung định lý giới hạn trung tâm (Central Limit
Theorem)
• Nắm được phân phối xác suất của các đặc trưng mẫu hay nhìn
chung là thống kê mẫu.
• Biết cách áp dụng trong bài tập cụ thể.
Trang 35Phương sai
• Phương sai tổng thể
• Phương sai mẫu hiệu chỉnh
• Phương sai mẫu (biết µ )
35
Trang 36V X N
Trang 37Phương sai
• Phương sai mẫu hiệu chỉnh:
• Phương sai mẫu: (đã biết trung bình tổng thể µ)
n =
= ∑ − µ S *2 = X 2 − 2 µ X + µ 2
Trang 38n =
Trang 39Tính các thống kê mẫu
• Phương sai mẫu:
• Phương sai mẫu hiệu chỉnh:
Trang 41Tỷ lệ mẫu_tổng quát
• Xét tổng thể định tính, dấu hiệu nghiên cứu là tính chất A, tỉ lệ tổng thể là p
• Lấy mẫu ngẫu nhiên kích thước n: (X1, , Xn)
• Tỉ lệ mẫu tổng quát:
• Xi là các biến ngẫu nhiên có phân phối A(p)
• Tỷ lệ mẫu = trung bình của n biến ngẫu nhiên cùng phân phối A(p)
Trang 42Tỷ lệ mẫu_cụ thể
• Xét tổng thể định tính, dấu hiệu nghiên cứu là tính chất A, tỉ lệ tổng thể là p
• Lấy mẫu cụ thể kích thước n: (x1, x2 , , xn)
+ + +
= =
Trang 43Tính thống kê mẫu
Điều tra thời gian sử dụng internet trong tuần của 90 sinh viên một trường ta được bảng số liệu sau:
Hãy tính các thống kê mẫu sau:
a) Trung bình mẫu, phương sai mẫu, phương sai mẫu hiệu chỉnh?
b) Tỷ lệ sinh viên trong mẫu có thời gian sử dụng trên 5 giờ một tuần?
43
Thời gian (giờ) 3 4 5 6 7 8
Trang 46Cách 1_Lập bảng
• Cỡ mẫu:
• Trung bình mẫu:
• Phương sai mẫu:
• Phương sai mẫu hiệu chỉnh:
i i
x n x
Trang 47Cách 2 dùng máy tính 570ES
1. Shift + 9 + 3 + = + =: Reset máy
2. Shift + Mode + ↓ + 4 + 1: bật tần số
3. Mode + 3 + 1: vào tính thống kê 1 biến
4. Khi này ta có bảng sau:
47
123
Trang 49x
Trang 50Đối với FX 500MS hoặc 570MS
1. Reset máy: Shift + Mode + 3 + = + =
2. Vào hệ SD:
• Máy 500MS: Mode + 2
• Máy 570MS: Mode + Mode + 1
3. Nhập dữ liệu: “Giá trịShift , Tần sốM+”
• 3Shift , 7M+
• Nhập đến hết Nhấn AC
4. Lấy số liệu:
• Shift 2 1 = : Trung bình mẫu
• Shift 2 3 = : Độ lệch chuẩn mẫu hiệu chỉnh
Trang 51Ví dụ 1
Đường kính (mm) của 100 chi tiết do một
máy sản xuất kết quả cho ở bảng
Trang 54E X N
x
V X N
=
−
σ
Trang 55=
Trang 56Ví dụ
• Tổng thể nghiên cứu là một xí nghiệp có 40 công nhân với dấu hiệu nghiên cứu là năng suất lao động (sản phẩm/ đơn vị thời gian)
• Tính trung bình, phương sai tổng thể
• Tính tỉ lệ công nhân có năng suất cao hơn 65sp
Năng suất lao động 50 55 60 65 70 75
Trang 57Định lí Giới hạn trung tâm (CLT)
1. Cho n biến ngẫu nhiên độc lập
2. Cùng kỳ vọng, cùng phương sai
3. Số lượng biến ngẫu nhiên đủ lớn (>30)
4. Trung bình của n biến ngẫu nhiên này sẽ có phân phối xấp xỉ phân phối chuẩn
5. Điều này đúng bất chấp phân phối của các biến ngẫu nhiên thành phần là gì
57
Trang 58PHÂN PHỐI MẪU
• Trung bình mẫu
• Tỷ lệ mẫu
• Phương sai mẫu
Trang 59Tính chất của trung bình mẫu
• Cho tổng thể có kì vọng µ và phương sai σ 2
• Lấy mẫu ngẫu nhiên cỡ n.
• Gọi là trung bình mẫu Ta có:
59
( ) ( ) 2
) )
i E X
ii V X
n
µ σ
=
=
X
Trang 60Phân phối của trung bình mẫu
Tổng thể Trung bình mẫu Kích thước mẫu
Trang 62Ví dụ 1
• Giả sử bạn lấy mẫu 100 giá trị từ tổng thể có trung bình 500 và độ lệch chuẩn 80 Tính xác suất để trung bình mẫu nằm trong khoảng (490, 510)
Trang 63Ví dụ 2
Một mẫu kích thước n được rút ra từ tổng thể phân phối chuẩn với trung bình là μ và độ lệch
chuẩn 10 Hãy xác định n sao cho:
Trang 65Tính chất của PS mẫu
• Cho tổng thể có kì vọng µ và phương sai σ 2
• Lấy mẫu ngẫu nhiên cỡ n.
• Ta có:
65
( )
( ) ( )
1 ˆ
) ) )
n
E S
n E
i
E S
i iii
σ σ
Trang 66Phân phối của hàm PS mẫu
Tổng thể PS mẫu Hàm của PS mẫu
Trang 67Ví dụ
• Chiều dài của một loại sản phẩm là bnn pp chuẩn với trung bình 20 m và độ lệch chuẩn 0,2 m Lấy một mẫu ngẫu nhiên 25 sp.
a) Cho biết ppxs của trung bình mẫu Tính kỳ vọng và phương sai của nó.
b) Xs để trung bình mẫu tối thiểu 30,06m
c) Tìm số k để tỷ số giữa phương sai mẫu hiệu chỉnh và phương sai tổng thể ít nhất
bằng k có xác suất bằng 0,1.
67
Trang 68Ví dụ
• Giả sử X là năng suất lúa vùng A có pp chuẩn với phương sai bằng
3 (tạ/ha)2 Lấy một mẫu ngẫu nhiên kích thước 100 Tính xác suất để:
Trang 70Phân phối của tỷ lệ mẫu
Tổng thể Tỷ lệ mẫu Kích thước mẫu
Trang 71Ví dụ
• Tỷ lệ người hút thuốc ở một vùng là 10% Với xác suất 0,95 hãy
cho biết nếu kiểm tra ngẫu nhiên 100 người thì sẽ có tối đa bao
nhiêu người hút thuốc lá?
71
Trang 72Câu hỏi ôn tập
1 Mẫu ngẫu nhiên kích thước n về dấu hiệu nghiên cứu X là một dãy gồm n biến
ngẫu nhiên X1, X2,…,Xn độc lập và có cùng phân bố với X?
2 Trung bình mẫu của tổng thể có dấu hiệu nghiên cứu có phân phối chuẩn cũng có
phân phối chuẩn?
3 Phương sai mẫu của dấu hiệu nghiên cứu có phân phối chuẩn cũng có phân phối
chuẩn?
Trang 73Bài 3
Chiều cao của thanh niên ở một địa phương là biến ngẫu nhiên phân phối chuẩn với trung bình
170 cm và độ lệch chuẩn 10cm Chọn ngẫu nhiên 31 thanh niên ở vùng đó
a) Tìm xác suất để chiều cao trung bình của số thanh niên nói trên không vượt quá 172 cm?
b)Tìm xác suất để độ lệch chuẩn hiệu chỉnh về chiều cao của số thanh niên nói trên lớn hơn 15
cm?
73