Chiều cao của thanh niên ở một địa phương là biến ngẫu nhiên phân phối chuẩn với trung bình 170 cm và độ lệch chuẩn 10cm. Chọn ngẫu nhiên 31 thanh niên ở vùng đó. a) Tìm xác suất để ch[r]
Trang 1THỐNG KÊ
PHẦN 2
Thống kê là khoa học về các phương pháp thu thập, tổ chức, trình bày, phân tích và xử lý số liệu.
Trang 3Ví dụ về tổng thể
Số cử tri đăng ký đi bầu cử
Điểm trung bình của tất cả sinh viên ở FTU
Trọng lượng các sản phẩm của một nhà máy
Trang 5-Chọn mẫu ngẫu nhiên
Mẫu ngẫu nhiên (random sample)
- Mỗi phần tử chọn ngẫu nhiên và độc lập
- Mỗi phần tử có khả năng được chọn như nhau
- Mọi mẫu cỡ n có cùng khả năng được chọn
Phương pháp chọn mẫu đơn giản
- Đánh số
- Chọn ngẫu nhiên, lần lượt, hoàn lại
Trang 6Thống kê mô tả & suy luận
TK mô tả (descriptive statistics) : thu thập, tổng hợp,
xử lý dữ liệu để biến đổi dữ liệu thành thông tin
- Thu thập dữ liệu: khảo sát, đo đạc …
- Biểu diễn dữ liệu: dùng bảng, đồ thị …
- Tổng hợp dữ liệu: trung bình mẫu, phương sai mẫu, trung vị …
Trang 7Thống kê mô tả & suy luận
Suy luận: rút ra các kết luận hoặc đưa ra các quyết định
về tổng thể dựa trên các nghiên cứu trên mẫu
TK suy luận (inferential statistics): xử lý các thông tin
có được từ thống kê mô tả, từ đó đưa ra các cơ sở
để dự đoán, dự báo, ước lượng…
- Ước lượng:…
- Kiểm định giả thuyết:…
Trang 8Mô tả dữ liệu bằng đồ thị
• Bảng
• Đồ thị
• Tùy thuộc vào loại biến quan sát
• Hay dùng: biểu đồ đường, tần số, nhánh và lá, phân tán…
Trang 9Phân phối tần số
• Mỗi nhóm có bề rộng bằng nhau
• Tối thiểu 5 khoảng, tối đa 20 (thường từ 5 đến 15)
• Các khoảng không trùng nhau
Trang 12Ví dụ
• Sắp xếp dữ liệu:
12,13,17, 21, 24, 24, 26, 27, 27,30, 32,35,37,38, 41, 43, 44, 46,53,58
Khoảng [10;20) [20;30) [30;40) [40;50) [50;60)
Trang 13Ví dụ
• Vẽ đồ thị:
• Mục tiêu của phân phối tần số:
– Tạo ra phân phối không quá lởm chởm, nhiều đỉnh và không
có dạng khối – Chỉ ra sự biến thiên trong dữ liệu – Là một quá trình “thử - sai”
Trang 14Hình dạng phân phối
• Đối xứng
• Bất đối xứng: lệch trái, lệch phải
Trang 15Đồ thị Stem and Leaf
• Sắp xếp số liệu tăng dần
• Gồm 2 phần:
– Stem: gồm các chữ số đầu – Leaf: gồm các chữ số đuôi
Trang 16Đồ thị Stem and Leaf
• Ví dụ 1:
21, 24, 24, 26, 27, 27,30,32,38, 41
Stem Leaves
234
1 4 4 6 7 7
0 2 81
Trang 17Đồ thị Stem and Leaf
Trang 18Đồ thị phân tán (tham khảo)
• Scatter plot
• Được sử dụng để xác định mối liên hệ giữa hai biến X, Y
Trang 19Mô tả dữ liệu số
• Độ đo trung tâm:
– Trung bình – Trung vị – Mode
• Sự biến thiên
– Miền giá trị – Miền phân vị – Phương sai – Độ lệch tiêu chuẩn – Hệ số biến thiên
Trang 21Trung vị
• Là giá trị chính giữa của tập dữ liệu khi sắp tăng dần.
• Không bị ảnh hưởng bởi các giá trị outliers
• Gọi i là vị trí trung vị
• Nếu i chẵn
• Nếu i lẻ
12
Trang 22• Đo xu hướng trung tâm của dữ liệu
• Không bị ảnh hưởng bởi outliers
• Là giá trị thường xảy ra nhất
• Dùng cho cả biến định tính và định lượng
• Có thể có nhiều mode hoặc không có mode
Trang 23Độ đo nào tốt nhất
• Trung bình luôn được dùng nếu outlier không tồn tại.
• Trung vị thường được dùng vì không bị ảnh hưởng bởi outlier
• Vị trí của trung vị và trung bình ảnh hưởng bởi hình dạng của phân phối.
Left skew Symetric Right skew
Trang 24Độ đo sự biến thiên
• Cho biết thông tin về sự phân tán hay
sự biến thiên của số liệu
Trang 25Miền giá trị (range)
• Độ đo sự biến thiên đơn giản nhất
• Là chênh lệch giữa giá trị lớn nhất và nhỏ nhất
• Miền giá trị=Xmax-Xmin
• Bỏ qua sự phân bố của số liệu
• Bị ảnh hưởng bởi outliers
Trang 26Miền phân vị
• Có thể loại bỏ outlier bằng cách sử dụng miền phân vị
• Miền phân vị: (interquatile range)
Trang 28Đồ thị boxplot
• Ví dụ:
Trang 29Phương sai
• Phương sai tổng thể
• Phương sai mẫu
• Phương sai mẫu hiệu chỉnh
• Phương sai mẫu (biết )
Trang 30V X N
Trang 31Phương sai
• Phương sai mẫu hiệu chỉnh:
• Phương sai mẫu: (đã biết trung bình tổng thể )
Trang 32n
X x1 x2 … xkTần số n1 n2 … nk
Trang 33Tính các thống kê mẫu
• Phương sai mẫu:
• Phương sai mẫu hiệu chỉnh:
Trang 35• Xi là các biến ngẫu nhiên có phân phối A(p)
• Tỷ lệ mẫu = trung bình của n biến ngẫu nhiên cùng phân phối A(p)
Trang 36
Trang 37Tính thống kê mẫu
Điều tra thời gian sử dụng internet trong tuần của 90 sinh viên một trường ta được bảng số liệu sau:
Hãy tính các thống kê mẫu sau:
a) Trung bình mẫu, phương sai mẫu, phương sai mẫu
Trang 40Cách 1_Lập bảng
• Cỡ mẫu:
• Trung bình mẫu:
• Phương sai mẫu:
• Phương sai mẫu hiệu chỉnh:
i i
x n x
Trang 41Cách 2 dùng máy tính 570ES
1 Shift + 9 + 3 + = + =: Reset máy
2 Shift + Mode + + 4 + 1: bật tần số
3 Mode + 3 + 1: vào tính thống kê 1 biến
4 Khi này ta có bảng sau:
X FREQ1
23
Trang 44Đối với FX 500MS hoặc 570MS
1 Reset máy: Shift + Mode + 3 + = + =
2 Vào hệ SD:
• Máy 500MS: Mode + 2
• Máy 570MS: Mode + Mode + 1
3 Nhập dữ liệu: “Giá trịShift , Tần sốM+”
• 3Shift , 7M+
• Nhập đến hết Nhấn AC
4 Lấy số liệu:
• Shift 2 1 = : Trung bình mẫu
• Shift 2 3 = : Độ lệch chuẩn mẫu hiệu chỉnh
Trang 47Định lí Giới hạn trung tâm (CLT)
1 Cho X1, X2, …, Xn là n đại lượng ngẫu nhiên độc lập
Trang 48Phân phối Khi bình
1
2 2
Trang 49Phân phối Khi bình
Trang 51Đồ thị hàm mật độ Khi BP
• Đồ thị hàm mật độ khi n=10 và n=20
Trang 54Đồ thị Chi(50) và Chi(450)
Trang 56n
i i
Trang 58Phân phối Student t(n)
Trang 59Quan hệ với Chuẩn và Khi BP
• Cho X, Y là hai biến ngẫu nhiên độc lập.
Trang 60Đồ thị hàm mật độ t(2); t(6) và t(20)
Trang 61So sánh với N(0,1)
Trang 62Đồ thị hàm mật độ t(5) và t(20)
Trang 69Phân phối Fisher -
X n mX F
Y m nY
Trang 70Phân phối Fisher -
2
,
2
0 1
n n
Trang 72Đồ thị hàm mật độ
Trang 76E X N
x
V X N
Trang 77
Trang 78Ví dụ
• Tổng thể nghiên cứu là một xí nghiệp có 40 công nhân với dấu hiệu nghiên cứu là năng suất lao động (sản phẩm/ đơn vị thời gian)
• Tính trung bình, phương sai tổng thể
• Tính tỉ lệ công nhân có năng suất cao hơn 65sp
Năng suất lao động 50 55 60 65 70 75
Số công nhân 3 5 10 12 7 3
Trang 79Nhắc lại thống kê mẫu
• Thống kê mẫu: hàm của các bnn thành phần trong mẫu
• Cho mẫu ngẫu nhiên: W=(X1;X2;…Xn), thống kê mẫu
Trang 80Định lí Giới hạn trung tâm (CLT)
1 Cho n biến ngẫu nhiên độc lập
2 Cùng kỳ vọng, cùng phương sai
3 Số lượng biến ngẫu nhiên đủ lớn (>30)
4 Trung bình của n biến ngẫu nhiên này sẽ có phân phối
xấp xỉ phân phối chuẩn
5 Điều này đúng bất chấp phân phối của các biến ngẫu
nhiên thành phần là gì
Trang 81PHÂN PHỐI MẪU
• Trung bình mẫu
• Tỷ lệ mẫu
• Phương sai mẫu
Trang 82Tính chất của trung bình mẫu
• Cho tổng thể có kì vọng và phương sai 2
• Lấy mẫu ngẫu nhiên cỡ n.
• Gọi là trung bình mẫu Ta có:
2
) )
Trang 83Phân phối của trung bình mẫu
Tổng thể Trung bình mẫu Kích thước mẫu
Tùy ý
Không chuẩn n>30
Không chuẩn nhưng đối xứng
Trang 85Ví dụ 1
• Giả sử bạn lấy mẫu 100 giá trị từ tổng thể có trung bình 500 và độ lệch chuẩn 80 Tính xác suất để trung bình mẫu nằm trong khoảng (490, 510)
Trang 87Ví dụ 3
Trọng lượng một loại sản phẩm là biến ngẫu nhiên phân phối chuẩn với trung bình là 20,5 và độ lệch chuẩn 2
Lấy ngẫu nhiên 4 sản phẩm để kiểm tra thì với xác suất
0,95 trọng lượng trung bình của chúng sai lệch so với
trọng lượng qui định tối đa là bao nhiêu?
Trang 88Tính chất của PS mẫu
• Cho tổng thể có kì vọng và phương sai 2
• Lấy mẫu ngẫu nhiên cỡ n.
) ) )
n
E S
n E
i
E S
i iii
Trang 89Phân phối của phương sai mẫu
Tổng thể Phương sai mẫu Kích thước mẫu
Phân phối
chuẩn Không biết Tùy ý
Không chuẩn Không biết n>30
Trang 90Phân phối của hàm PS mẫu
Tổng thể PS mẫu Hàm của PS mẫu
~
n
i i
X
nS Z
2
1 2
1
n
i i
Trang 91Ví dụ
• Chiều dài của một loại sản phẩm là bnn pp chuẩn với trung bình 20 m và độ lệch chuẩn 0,2
m Lấy một mẫu ngẫu nhiên 25 sp.
a) Cho biết ppxs của trung bình mẫu Tính kỳ
vọng và phương sai của nó.
b) Xs để trung bình mẫu tối thiểu 30,06m
c) Tìm số k để tỷ số giữa phương sai mẫu hiệu
chỉnh và phương sai tổng thể ít nhất bằng k có xác suất bằng 0,1.
Trang 92• Giả sử X là năng suất lúa vùng A có pp chuẩn với phương sai bằng 3 (tạ/ha)2 Lấy một mẫu ngẫu nhiên kích thước
Trang 94Phân phối của tỷ lệ mẫu
Tổng thể Tỷ lệ mẫu Kích thước mẫu
Trang 95Ví dụ
• Tỷ lệ người hút thuốc ở một vùng là 10% Với xác suất 0,95 hãy cho biết nếu kiểm tra ngẫu nhiên 100 người thì
sẽ có tối đa bao nhiêu người hút thuốc lá?
Trang 96Câu hỏi ôn tập
1 Mẫu ngẫu nhiên kích thước n về dấu hiệu
nghiên cứu X là một dãy gồm n biến ngẫu nhiên X1, X2,…,Xn độc lập và có cùng phân bố với X?
2 Trung bình mẫu của tổng thể có dấu hiệu
nghiên cứu có phân phối chuẩn cũng có phân phối chuẩn?
3 Phương sai mẫu của dấu hiệu nghiên cứu có
phân phối chuẩn cũng có phân phối chuẩn?
Trang 97Bài 3
Chiều cao của thanh niên ở một địa phương là biến ngẫu nhiên phân phối chuẩn với trung bình 170 cm và độ lệch chuẩn 10cm Chọn ngẫu nhiên 31 thanh niên ở vùng đó.a) Tìm xác suất để chiều cao trung bình của số thanh niên nói trên không vượt quá 172 cm?
b)Tìm xác suất để độ lệch chuẩn hiệu chỉnh về chiều cao của số thanh niên nói trên lớn hơn 15 cm?