5.2.1 Tổng thể
Tổng thểlà tập hợp các đơn vị (hay phần tử) cần được quan sát, thu thập và phân tích theo một hoặc một số đặc trưng (dấu hiệu) nào đó.
Ví dụ 83. Muốn tính thu nhập trung bình của một hộ gia đình ở Thành phố Hồ Chí Minh thì tổng thể sẽ là toàn bộ số hộ gia đình của Thành phố Hồ Chí Minh. Muốn tính chiều cao trung bình của sinh viên lớp A thì tổng thể sẽ là toàn bộ sinh viên của lớp A.
5.2.2 Mẫu
Giả sử ta cần nghiên cứu một tổng thể có rất nhiều phần tử. Vì một số lý do mà ta không thể khảo sát toàn bộ tổng thể này (khảo sát tất cả các phần tử), nhưng ta
K24 Học kỳ 1/2019-2020 63
lại muốn có kết quả trong tổng thể. Ta có thể giải quyết như sau: từ tổng thể lấy ra một tập hợp nhỏ để nghiên cứu, ta thu được kết quả trên tập nhỏ, từ kết quả của tập nhỏ ta suy ra kết quả cho tổng thể. Phương pháp làm việc như vậy gọi là phương pháp mẫu. Số phần tử của tổng thể, ký hiệu là N. Số phần tử của mẫu gọi là kích thước mẫu hay cỡ mẫu, ký hiệu là n.
Các lý do không thể nghiên cứu trên toàn bộ tổng thể:
- Giới hạn về thời gian, tài chính.
- Phá vỡ tổng thể nghiên cứu.
- Không xác định được chính xác tổng thể.
Muốn từ kết quả của mẫu suy ra kết quả của tổng thể tốt thì mẫu phải đại diện cho tổng thể. Muốn vậy, mẫu phải lấy được một cách ngẫu nhiên. Thông thường, ta lấy mẫu để ước lượng những tham số cần thiết như trung bình, phương sai, tỷ lệ, ...
Tổng thể được đặc trưng bởi dấu hiệu nghiên cứu X, là một biến ngẫu nhiên. Do đó, khi nói về X tức là nói về tổng thể.
Mẫu ngẫu nhiên (có cỡ mẫu n) được kí hiệu WX = (X1, X2, . . . , Xn) là một vectơ n thành phần, mỗi thành phần Xi là một biến ngẫu nhiên. Các biến ngẫu nhiên này độc lập với nhau và có cùng quy luật phân phối xác suất với X.
Như vậy, mẫu ngẫu nhiên kích thước n là một vectơ n thành phần. Giả sử một giá trị của nó là: X1=x1, X2 =x2, . . . , Xn =xn. Ta gọi (x1, x2, . . . , xn) là một mẫu cụ thể kích thước n.
Ví dụ 84. Nghiên cứu tỷ lệ phế phẩm của một loại sản phẩm. Giả sử biến ngẫu nhiên gốc X đặc trưng cho dấu hiệu phế phẩm của các phần tử của tổng thể, có bảng phân phối xác suất
X 0 1
P 1−p p Ta lập mẫu ngẫu nhiên có kích thước mẫu là 4
WX = (X1, X2, X3, X4);Xi, i = 1,2,3,4 có cùng bảng phân phối với X. Ta tiến hành chọn mẫu có kích thước mẫu là 4. Chẳng hạn, ta được
X1= 1, X2 = 0, X3= 1, X4 = 0 thì mẫu cụ thể là (1,0,1,0) X1= 1, X2 = 1, X3= 0, X4 = 0 thì mẫu cụ thể là (1,1,0,0). 5.2.3 Cách mô tả một mẫu cụ thể
Để đưa ra quyết định từ dữ liệu dạng thô thường rất khó. Do vậy, ta cần phải tổ chức lại dữ liệu. Ta có hai dạng tổ chức dữ liệu: bảng hoặc đồ thị.
Phân phối tần số là một danh sách hoặc bảng, chứa các khoảng được phân nhóm theo dữ liệu quan trắc, và các tần số tương ứng của dữ liệu nằm trong từng khoảng.
Phân phối tần số giúp tổng hợp dữ liệu, biến đổi dữ liệu thô thành dữ liệu hữu ích hơn.
K24K24 K24
* Giả sử một mẫu cụ thể (x1, x2, . . . , xn) có:
- x1 có n1 giá trị, x2 có n2 giá trị, . . ., xk có nk giá trị.
- x1< x2 <ã ã ã< xk và n1+n2+ã ã ã+nk =n.
Ta có thể mô tả dữ liệu bằng bảng phân phối tần số như sau:
xi x1 x2 . . . xk ni n1 n2 . . . nk với n =n1+n2+ã ã ã+nk
Ta có thể mô tả dữ liệu bằngbảng phân phối tần suất (bảng tần số quan hệ) như sau:
xi x1 x2 . . . xk fi f1 f2 . . . fk với fi = nni, f1+f2+ã ã ã+fk = 1
Ví dụ 85. Điều tra thời gian đợi phục vụ của khách hàng tại một cửa hàng (đơn vị: phút). Người ta chọn ngẫu nhiên 10 người, kết quả thu được như sau:
4,5,5,7,8,7,8,7,9,9. Bảng phân phối tần số xi 4 5 7 8 9 ni 1 2 3 2 2 Bảng phân phối tần suất (tần số quan hệ)
xi 4 5 7 8 9
fi 101 102 103 102 102
* Khi kích thước mẫu lớn, các giá trị của mẫu khá gần nhau (có nhiều khác biệt) thì người ta chia các giá trị mẫu thành các nhóm (lớp) và lập bảng phân phối tần số.
Trong bảng phân phối tần số
- Mỗi nhóm (lớp) có bề rộng bằng nhau, - Bề rộng của mỗi nhóm được xác định bởi,
Giá trị lớn nhất−Giá trị bé nhất Số khoảng cần chia
- Tối thiểu là 5 khoảng, nhưng không nhiều hơn 20 khoảng, - Các khoảng không trùng nhau.
Ví dụ 86. Chọn ngẫu nhiên 20 ngày mùa đông có nhiệt độ cao và đo nhiệt độ (đơn vị: độ F) được số liệu như sau:
24 35 17 21 24 37 26 46 58 30 32 13 12 38 41 43 44 27 53 27 Hãy lập bảng phân phối tần số cho số liệu này.
K24 Học kỳ 1/2019-2020 65
Các bước thực hiện:
- Sắp xếp dữ liệu theo thứ tự tăng dần
12,13,17,21,24,24,26,27,27,30,32,35,37,38,41,43,44,46,53,58 - Xác định miền dữ liệu (range): 58−12 = 46
- Chọn số khoảng cần chia: 5 (thông thường từ 5 đến 15) - Xác định độ rộng của khoảng: 10(làm tròn 46/5)
- Xác định biên của các khoảng: từ 10 đến dưới 20, từ 20 đến dưới 30, . . ., từ 50 đến dưới 60.
- Đếm số giá trị của dữ liệu nằm trong mỗi khoảng
Khoảng Tần số Tần suất (tần số quan hệ) Phần trăm
[10,20) 3 0,15 15
[20,30) 6 0,30 30
[30,40) 5 0,25 25
[40,50) 4 0,20 20
[50,60) 2 0,10 10
Tổng 20 1,00 100