Biến Biến là đặc điểm của đơn vị tổng thể, được chia thành hai loại: - Biến định tính thể hiện tính chất của đơn vị được khảo sát; - Biến định lượng thể hiện bằng các số... Khi nghiên cứ
Trang 1BÀI GIẢNG NGUYÊN LÝ THỐNG KÊ (Năm học 2017 – 2018 Trường Đại học Hoa Sen)
CHƯƠNG I GIỚI THIỆU MÔN HỌCI.1 KHÁI NIỆM VÀ CHỨC NĂNG CỦA THỐNG KÊ
1 Khái niệm
Có thể hiểu khái niệm thống kê trên hai góc độ:
- Góc độ lí luận: Thống kê là một môn khoa học kinh tế, nghiên cứu mặt lượng trongmối liên hệ chặt chẽ với mặt chất của các hiện tượng và quá trình kinh tế xã hội,phát sinh trong điều kiện thời gian và địa điểm cụ thể
- Góc độ nghiệp vụ: Thống kê có thể hiểu là các số liệu thể hiện thông tin về đốitượng nghiên cứu
Một cách tổng quát, có thể định nghĩa Thống kê là một nhánh của toán học liên quan
đến việc thu thập, phân tích và trình bày các dữ liệu Đây là một khoa học bao gồm
một hệ thống các phương pháp từ việc thu thập, trình bày, tóm tắt dữ liệu đến cácphương pháp phân tích và dự đoán, giúp các nhà quản lí đưa ra các quyết định
2 Chức năng của thống kê
Quá trình nghiên cứu thống kê trải qua ba giai đoạn có quan hệ chặt chẽ và mật thiết vớinhau, trong đó giai đoạn trước làm tiền đề để thực hiện giai đoạn sau
(1) Giai đoạn điều tra thống kê: bao gồm ghi chép, thu thập tài liệu thống kê.(2) Giai đoạn tổng hợp và trình bày kết quả điều tra thu thập được
(3) Giai đoạn phân tích và dự báo thống kê
Như vậy, thống kê có hai lĩnh vực:
- Thống kê mô tả bao gồm các phương pháp thu thập, trình bày dữ liệu và tính toáncác đặc trưng nhằm mô tả đối tượng nghiên cứu
- Thống kê suy diễn bao gồm các phương pháp mô hình hoá trên các dữ liệu quansát để đưa ra các suy diễn về tập hợp các đơn vị được nghiên cứu
Thống kê mô tả và thống kê suy diễn tạo thành thống kê ứng dụng, còn thống kê toán làlĩnh vực nghiên cứu cơ sở lí thuyết của khoa học thống kê
I.2 CÁC KHÁI NIỆM CƠ BẢN
1 Tổng thể, đơn vị tổng thể, mẫu
Tổng thể thống kê (hay tổng thể) là tập hợp tất các các đối tượng mà ta nghiên cứu Cácđơn vị (hay phần tử) tạo thành tổng thể được gọi là đơn vị tổng thể Mẫu là một bộ phậnlấy ra từ tổng thể
Ví dụ 1 a) Để nghiên cứu điểm trung bình môn Toán của sinh viên Trường Đại học
Hoa sen, người ta đã xét bảng điểm của 250 sinh viên
b) Nghiên cứu tỉ lệ bị bệnh lao ở tỉnh Lào cai, người ta đã khám cho 1520 người thìthấy có 7 người bị lao
Hãy chỉ ra tổng thể, đơn vị tổng thể và mẫu trong hai trường hợp trên
2 Biến
Biến là đặc điểm của đơn vị tổng thể, được chia thành hai loại:
- Biến định tính thể hiện tính chất của đơn vị được khảo sát;
- Biến định lượng thể hiện bằng các số
Trang 2Ví dụ 2 Hãy chỉ ra biến định tính và biến định lượng của ví dụ 1
3 Dữ liệu
Dữ liệu là kết quả quan sát được của các biến, giá trị nhận được có thể thay đổi từ đơn
vị này sang đơn vị khác Dữ liệu cũng được phân biệt thành hai loại: dữ liệu định tính
và dữ liệu định lượng
Ví dụ 3 Điểm thi môn Toán của từng sinh viên và kết quả âm tính (hay dương tính) khi
xét nghiệm lao của từng người trong ví dụ 1 là dữ liệu gì?
4 Đặc điểm thống kê
Đặc điểm thống kê là khái niệm dùng để chỉ các đặc điểm của đơn vị tổng thể mà tanghiên cứu
Ví dụ 4 Khi nghiên cứu nhân khẩu thì mỗi nhân khẩu có các đặc điểm như: giới tính,
độ tuổi, trình độ học vấn, nghề nghiệp, dân dộc, tôn giáo,…
Khi nghiên cứu doanh nghiệp thì mỗi doanh nghiệp có các đặc điểm như: số lượng côngnhân, vốn cố định, vốn lưu động, giá trị sản xuất, năng suất làm việc của công nhân,…Đặc điểm thống kê được chia thành hai loại:
a) Đặc điểm định tính là đặc điểm phản ánh tính chất của đơn vị tổng thể, không thể
hiện trực tiếp bằng các con số
b) Đặc điểm định lượng (còn gọi là đặc điểm số lượng) là đặc điểm có biểu hiện trực
tiếp bằng con số
Ví dụ 5 Hãy nêu đặc điểm định tính và định lượng trong ví dụ 4.
Các trị số cụ thể khác nhau của đặc điểm định lượng gọi là lượng biến
Ví dụ 6 Tuổi là đặc điểm định lượng nhưng không phải là lượng biến, còn lượng biến
là 18 tuổi, 20 tuổi,…
Lượng biến có thể phân biệt thành hai loại:
- Lượng biến rời rạc là lượng biến mà các giá trị có thể có của nó là hữu hạn hoặc vô
Các đặc điểm định tính và định lượng chỉ có hai biểu hiện không trùng nhau trên một
tổng thể được gọi là đặc điểm nhị phân
Ví dụ 8 Đặc điểm giới tính là đặc điểm nhị phân vì chỉ có hai biểu hiện là nam và nữ.
Đối với các đặc điểm có nhiều biểu hiện ta có thể chuyển về đặc điểm nhị phân bằngcách rút gọn thành hai biểu hiện
Ví dụ 9 Thành phần kinh tế có thể chia thành nhà nước và ngoài nhà nước Số công
nhân của các doanh nghiệp có thể chia thành ít hơn 500 và từ 500 trở lên
Trang 3a) Chỉ tiêu khối lượng là các chỉ tiêu biểu hiện sự quy mô của tổng thể.
b) Chỉ tiêu chất lượng là các chỉ tiêu biểu hiện tính chất, trình độ phổ biến, quan hệ so
sánh trong tổng thể
Ví dụ 10 Số nhân khẩu, số doanh nghiệp, vốn cố định, vốn lưu động của một doanh
nghiệp,… là các chỉ tiêu khối lượng Giá thành một đơn vị sản phẩm là chỉ tiêu chấtlượng vì nó biểu hiện quan hệ so sánh giữa tổng giá thành và số lượng sản phẩm sảnxuất được Tương tự, chỉ tiêu năng suất lao động, tiền lương,… là các chỉ tiêu chấtlượng
Các chỉ tiêu chất lượng mang ý nghĩa phân tích, các trị số của nó được xác định chủyếu từ việc so sánh giữa các chỉ tiêu khối lượng
CHƯƠNG II THU THẬP VÀ TRÌNH BÀY DỮ LIỆU
II.1 THU THẬP DỮ LIỆU
1 Xác định dữ liệu cần thu thập
Quá trình nghiên cứu thống kê cần phải có nhiều dữ liệu Việc thu thập dữ liệu đòi hỏinhiều thời gian, công sức, chi phí Do đó cần phải tiến hành thu thập dữ liệu một cách
hệ thống, đáp ứng được mục tiêu nghiên cứu trong khả năng nguồn nhân lực, kinh phí
và thời gian cho phép Muốn vậy phải xác định rõ những dữ liệu nào cần thu thập, thứ
tự ưu tiên của các dữ liệu này
Ví dụ 1 Nghiên cứu ảnh hưởng của điều kiện ăn ở, sinh hoạt đến kết quả học tập của
sinh viên Có hai nhóm dữ liệu chính cần thu thập là:
(1) điều kiện ăn ở sinh hoạt;
(2) kết quả học tập
Ở nhóm (1) cần thu thập dữ liệu liên quan như: Ở với cha mẹ hay ở kí túc xá, ở trọ? Cóphòng riêng hay sống chung nhiều người? Chỗ ở cách trường bao xa? Chỗ ở có ồn àohay không? Ngoài ra còn có những dữ liệu khác về điều kiện ăn ở nhưng không liênquan lắm đến kết quả học tập thì không cần thu thập, chẳng hạn: bàn học làm bằng sắthay gỗ? Nhà có phòng vệ sinh hiện đại không, có bồn tắm không?
Ở nhóm (2) cần thu thập dữ liệu về kết quả học tập của từng sinh viên
2 Nguồn dữ liệu
Khi nghiên cứu, ta có thể sử dụng các dữ liệu từ những nguồn có sẵn, đã được công bốhoặc chưa công bố, hay có thể tự mình đi thu thập dữ liệu mới
Dữ liệu từ nguồn có sẵn, thường đã qua tổng hợp, xử lí, gọi là dữ liệu thứ cấp
Dữ liệu thu thập trực tiếp từ đối tượng nghiên cứu gọi là dữ liệu sơ cấp
Ví dụ 2 Hãy nêu các dữ liệu sơ cấp và thứ cấp ở ví dụ 1 trên đây
a) Nguồn dữ liệu thứ cấp khá đa dạng, có thể là:
Trang 4- Các báo cáo nội bộ cơ quan, doanh nghiệp: các số liệu báo cáo về tình hình sảnxuất, tiêu thụ, tài chính,…
- Các số liệu của Cơ quan Thống kê nhà nước, Cơ quan Chính phủ: dân số, việclàm, mức sống dân cư, tài nguyên, …
- Báo, tạp chí, mạng internet,…
b) Nguồn dữ liệu sơ cấp
Dữ liệu sơ cấp được thu thập qua các cuộc điều tra khảo sát
Căn cứ vào tính liên tục hay không liên tục của việc ghi chép dữ liệu, người ta chia
ra thành điều tra thường xuyên hay không thường xuyên
Điều tra thường xuyên là tiến hành thu thập, ghi chép số liệu về hiện tượng nghiên cứu
một cách có hệ thống, theo sát quá trình biến động của hiện tượng
Điều tra không thường xuyên là tiến hành thu thập, ghi chép chỉ khi có nhu cầu cần
nghiên cứu hiện tượng Dữ liệu điều tra không thường xuyên phản ánh trạng thái củahiện tượng tại một thời điểm nhất định
Ví dụ 3 Một doanh nghiệp theo dõi hàng ngày về số lượng công nhân đi làm, số sản
phẩm sản xuất ra, số sản phẩm tiêu thụ được Tổng điều tra dân số Việt Nam vào ngày
1 – 4 – 2009 Đây là các điều tra thường xuyên hay không thường xuyên?
Căn cứ vào phạm vi khảo sát, người ta chia ra thành điều tra toàn bộ, không toàn
bộ
Điều tra toàn bộ là tiến hành thu thập, ghi chép dữ liệu trên tất cả các đơn vị của tổng
thể
Điều tra không toàn bộ là chỉ tiến hành thu thập trên một số đơn vị được chọn ra từ
tổng thể đang nghiên cứu
Ví dụ 4 Các điều tra sau đây là điều tra toàn bộ hay không toàn bộ?
a) Điều tra dân số Việt Nam
b) Để nghiên cứu tỉ lệ sinh viên tốt nghiệp tìm được việc làm, người ta phỏng vấn
1650 sinh viên ra trường sau 1 năm thì thấy có 1215 sinh viên đã có việc làm
3 Các phương pháp thu thập dữ liệu sơ cấp
- Phương pháp gửi thư, email
Ưu điểm, nhược điểm của các phương pháp thu thập thông tin trên đây có thể tóm tắttrong bảng sau:
Trang 5Tính chất Phương pháp
gửi thư, email
Phỏng vấn qua tel
Phỏng vấn trực tiếp
a) Phương pháp lấy mẫu xác suất bao gồm các phương pháp chọn mẫu ngẫu nhiên
đơn giản, chọn mẫu hệ thống, chọn mẫu cả khối hay lấy mẫu nhiều giai đoạn, chọn mẫuphân tầng
- Phương pháp chọn mẫu ngẫu nhiên đơn giản là phương pháp trong đó mỗi đơn vị củatổng thể được chọn với sự ngẫu nhiên như nhau
- Trước tiên lập danh sách các đơn vị của tổng thể chung theo một trật tự quy ước nào
đó, sau đó đánh số thứ tự các đơn vị trong danh sách Đầu tiên chọn ngẫu nhiên 1 đơn
vị trong danh sách; sau đó cứ cách đều k đơn vị lại chọn ra 1 đơn vị vào mẫu,… cứ nhưthế cho đến khi chọn đủ số đơn vị của mẫu Ví dụ: Dựa vào danh sách bầu cử tại 1thành phố, ta có danh sách theo thứ tự vần của tên chủ hộ, bao gồm 240.000 hộ Tamuốn chọn ra một mẫu có 2000 hộ Vậy khoảng cách chọn là: k = 240000/2000 = 120,
có nghĩa là cứ cách 120 hộ thì ta chọn một hộ vào mẫu
- Trong phương pháp chọn mẫu cả khối (hay lấy mẫu nhiều giai đoạn), đầu tiên tổng thểđược chia thành nhiều khối, lẫy ngẫu nhiên m khối sau đó khảo sát hết (hay một số) cácđối tượng trong các khối mẫu đã được lấy ra Đối với phương pháp này ta không cầnphải có danh sách các đơn vị chọn mẫu Chẳng hạn, cần khảo sát tất cả các hộ dânthường trú tại TP HCM, ta chọn ngẫu nhiên một số quận, rồi khảo sát tất cả (hay mộtsố) hộ dân trong các quận đã chọn ra
- Ta sử dụng phương pháp chọn mẫu phân tầng khi các đơn vị quá khác nhau về tínhchất liên quan đến vấn đề cần nghiên cứu và khảo sát
Ví dụ, khi khảo sát mức độ hài lòng của sinh viên một trường đại học về cảm nhận củasinh viên về chất lượng đào tạo, thường sẽ có sự khác biệt lớn về số lượng sinh viên vàđiều kiện học tập giữa các hệ khác nhau như hệ chính quy, hệ hoàn chỉnh đại học, hệđại học… Theo phương pháp này tổng thể nghiên cứu được chia thành các tầng lớp, từkích thước mẫu đã chọn ta phân bổ tỷ lệ cho từng tầng lớp rồi tiến hành lấy mẫu ngẫunhiên hay có thệ thống
b) Nhóm kĩ thuật lấy mẫu phi xác suất bao gồm các phương pháp lấy mẫu thuận tiện,
lấy mẫu định mức, lấy mẫu phán đoán Mẫu phi xác suất không đại diện được cho toàn
Trang 6bộ tổng thể nhưng được chấp nhận trong nghiên cứu khám phá và trong kiểm định giảthuyết.
- Ta có thể lấy mẫu thuận tiện bằng cách đến những nơi có nhiều khả năng gặp đượcnhững đối tượng mà ta muốn khai thác thông tin và cảm thấy tiện lợi
- Lấy mẫu định mức tương tự như phương pháp lấy mẫu phân tầng ở bước phân chiatổng thể thành các tầng lớp rồi phân bổ định mức lấy mẫu cho từng tầng lớp Điểm khácnhau ở chổ khi tiến hành lấy mẫu trong thừng tầng lớp, với kĩ thuật này, ta chọn nhữngđơn vị tại hiện trường theo cách thuận tiện và theo phán đoán
- Trong kĩ thuật lấy mẫu phán đoán ta chính là người quyết định sự thích hợp của cácđối tượng để mời họ tham gia và mẫu khảo sát
II.2 TRÌNH BÀY DỮ LIỆU
1 Bảng tần số, tần suất
Bảng tần số là một bảng tổng hợp, trình bày dữ liệu bằng cách phân chia chúng thànhtừng nhóm (lớp) khác nhau Bảng tần số thường bao gồm ba cột:
- Cột thứ nhất mô tả các biểu hiện hoặc các giá trị (hay khoảng giá trị) của dữ liệu
- Cột thứ hai mô tả tần số tương ứng với các biểu hiện hoặc giá trị đó
- Cột thứ ba là các tần suất (tỉ lệ %)
a) Cách lập bảng tần số, tần suất cho dữ liệu định tính
Đối với các dữ liệu định tính như giới tính, ngành học, … ta sẽ lập bảng tần số gồm cácthông tin sau đây
- Cột thứ nhất liệt kê tất các các biểu hiện có thể có của tập dữ liệu
- Cột thứ hai ghi tần số (số lần từng biểu hiện đó xuất hiện trong tập dữ liệu) Tổngcủa cột tần số phải bằng số phần tử của tập dữ liệu
- Cột thứ ba ghi tần suất (bằng cách lấy tần số chia cho số phần tử của tập dữ liệu vànhân với 100%) Tổng của cột tần suất phải bằng 100%
Ví dụ 1 Bảng tần số ngành học của sinh viên một trường đại học như sau:
Ngành học Tần số (sinh viên) Tần suất (%)
b) Cách lập bảng tần số cho dữ liệu định lượng
Có hai trường hợp: dữ liệu có ít giá trị và dữ liệu có nhiều giá trị
(1) Trường hợp dữ liệu có ít giá trị: Bảng tần số cũng có ba cột tương tự trường hợp
dữ liệu định tính, nhưng cột thứ nhất ghi các giá trị (lượng biến) của dữ liệu
Ví dụ 2 Khảo sát điểm thi môn Toán của một số sinh viên, ta được bảng dữ liệu sau:
Trang 7Điểm thi Tần số (số sinh viên) Tần suất (%)
(2) Trường hợp dữ liệu có nhiều giá trị: Trước hết ta phân nhóm cho các giá trị rồi
mới lập bảng tần số trên cơ sở dữ liệu đã phân nhóm
Ví dụ 3 Khảo sát 1200 người trong độ tuổi lao động (từ 18 đến 60 tuổi), nếu lập bảng
như ở ví dụ 2 thì sẽ rất dài, làm mất đi tác dụng tóm lược thông tin Do đó ta sẽ phânthành các nhóm, chẳng hạn: Từ 18 đến 20, từ 21 đến 30, từ 31 đến 40, từ 40 đến 50, từ
51 đến 60 Đây là kiểu phân nhóm theo kinh nghiệm
Trên thực tế người ta thường phân nhóm với khoảng cách đều nhau.
Giả sử mẫu dữ liệu có n phần tử, giá trị lớn nhất, nhỏ nhất của dữ liệu lần lượt là Xmax
, Xmin Gọi k là số nhóm cần chia và h là khoảng cách giữa các nhóm
Khi đó, người ta thường xác định k và h bởi công thức
Mỗi khoảng thể hiện sự tồn tại của các giá trị quan sát xi sao cho:
.Nếu chọn h = 7 thì các nhóm được lập như sau: 152 – 159, 159 – 166, 166 – 173,
173 – 180 Ta có bảng tần số là:
Trang 8Năng suất Tần số Tần suất (%)
Lưu ý: Một số điều kiện phải tuân thủ khi phân nhóm:
- Các nhóm không được trùng nhau, mỗi giá trị chỉ thuộc về một nhóm
- Tất cả các nhóm phải bảo đảm bao quát hết tất cả các giá trị của mẫu số liệu
- Không có nhóm rỗng (tức là nhóm không có phần tử nào)
Ví dụ 5 Một doanh nghiệp có 28 cửa hàng bán lẻ Số tiền (triệu đồng) bán được trong
ngày của các cửa hàng được ghi lại như sau:
.Nếu chọn nhóm thứ nhất bắt đầu từ 36,8 thì số khá lẻ nên ta có thể bắt đầu từ 36
Mặt khác, các số liệu trong mẫu cũng lẻ nên ta cho giới hạn trên và giới hạn dưới củahai nhóm kế tiếp trùng nhau với quy ước là khi có một giá trị bằng giới hạn trên củamột nhóm thì đơn vị đó được xếp vào nhóm kế tiếp, nghĩa là ta có các khoảng: [36 –40), [40 – 44), [44 – 48), [48 – 52), [52 – 56), [56 – 60)
Khi đó ta có bảng tần số sau đây:
Tiền bán hàng (triệu đồng) Tần số Tần suất (%)
Chú ý Trong bảng tần số đôi khi người ta còn thêm vào cột tần số tích luỹ (hoặc tần
suất tích luỹ) thể hiện số lần quan sát (hoặc % số lần quan sát) cộng dồn đến giới hạntrên của một nhóm nào đó Nói cách khác, tần số tích luỹ cho thấy có bao nhiêu quansát bằng hoặc nhỏ hơn một trị số nào đó của biến khảo sát
Ví dụ 6 (Tiếp ví dụ 5) Ta có bảng tần suất tích luỹ sau đây Từ bảng ta thấy có 15 cửa
hàng, chiếm 53,6%, có số tiền bán hàng trong ngày dưới 48 triệu đồng
Tiền bán hàng (triệu đồng) Tần số Tần suất (%) Tần suất tích luỹ(%)
Trang 9Khi tính toán đối với phân nhóm mở người ta quy ước lấy khoảng cách của nhóm
mở bằng khoảng cách của nhóm gần nó nhất.
Ví dụ 7 Bảng năng suất lúa của một số hộ gia đình như sau:
Năng suất lúa (tạ/ha) Số gia đình
Nhóm < 30 (tạ/ha) được quy ước có h = 5
c) Cách lập bảng tần số kết hợp hai đặc điểm thống kê
Bảng tần số có thể có dùng để mô tả hai đặc điểm thống kê
Ví dụ 8 Bảng dưới đây mô tả kết hợp hai đặc điểm là độ tuổi và khu vực cư trú của
7584 thanh niên trong cuộc điều tra về vị thành niên và thanh niên Việt Nam
Bảng 1 Khu vực cư trú của thanh niên trong mẫu điều tra phân tách theo nhóm tuổi.
Thanh niên trong
mẫu điều tra
Nhóm tuổi
Tần số(người)
Tần suất(%)
Tần số(người)
Tần suất(%)
Tần số(người)
Tầnsuất(%)Khu
vực
Nông thôn
Ngoài ra bảng kết hợp này còn có thể được xoay theo chiều khác, hoặc tách riêng thôngtin về tần số, tần suất thành hai bảng riêng biệt
Bảng 2 Nhóm tuổi của thanh niên trong mẫu điều tra phân tách theo khu vực cư trú
Thanh niên trongmẫu điều tra
Khu vựcThành thị Nông thônTần số
(người)
Tần suất(%)
Tần số(người)
Tần suất(%)
Trang 10a) Đồ thị thống kê cho dữ liệu định lượng
(1) Biểu đồ phân phối tần số
Biểu đồ phân phối tần số (Histogram) được sử dụng để chuyển hoá thông tin trên bảngtần số thành hình ảnh trực quan Đây là một loại đồ thị biểu diễn sự phân phối tần sốbằng các cột sao cho diện tích của cột tỉ lệ với tần số
Ví dụ 9 Biểu đồ phân phối tần số của bảng tần số ở ví dụ 4 như sau (Trục hoành thể
hiện biến khảo sát - năng suất Trục tung thể hiện tần số)
Năng suất Tần số Tần suất (%)
0 2 4 6 8 10 12 14 16 18 20
Phương pháp thứ hai để biểu diễn phân phối tần số bằng đồ thị là dùng đa giác tần số
Để vẽ đa giác này, ta nối các trung điểm của cạnh đỉnh các cột trong Histogram lại với nhau bằng các đoạn thẳng Muốn đường biểu diễn không có vẻ lơ lửng trên không, ta thêm vào hai bên của Histogram hai nhóm có tần số bằng 0
Ví dụ 10 Đa giác tần số của ví dụ 9 có dạng sau đây:
Biểu đồ phân phối tần số
Trang 110 2 4 6 8 10 12 14 16 18 20
- Phần nhánh: bao gồm một hay nhiều chữ số đầu tiên Phần nhánh được đặt ở cột đầu
tiên theo thứ tự tăng dần Số nhánh được chọn sao cho có ít nhánh so với số quan sát (sốlá) Thông thường số nhánh trong khoảng từ 5 đến 20 là vừa
- Phần lá: gồm các chữ số còn lại Lá ở một nhánh cũng sắp xếp theo thứ tự tăng
dần.Cũng có thể chia đôi một nhánh thành nhánh trên và nhánh dưới khi có quá nhiềulá
Ví dụ 11 Số liệu về chiều dài (cm) của 40 sản phẩm như sau:
Each leaf: 1 case(s)
Từ biểu đồ trên ta dễ dàng thấy chiều dài sản phẩm thay đổi trong khoảng từ 30 đến 32cm; có 22 sản phẩm có chiều dài trong khoảng từ 30 đến dưới 31 cm; 14 sản phẩm cóchiều dài từ 31 đến dưới 32 cm; 4 sản phẩm có chiều dài là 32 cm
173 - 180
166 - 173
159 - 166
152 - 159
Trang 12Khi số lượng quan sát trong tập dữ liệu lên đến hàng trăm thì biểu đồ thân lá lại làmngười xem rối mắt, khi đó bảng tần số hay Histogram tỏ ra phù hợp hơn.
b) Đồ thị thống kê cho dữ liệu định tính (1) Biểu đồ dạng thanh (Bar Chart : thanh đứng hay thanh ngang)
Trên biểu đồ này, mỗi thanh đại diện một phân loại của biến (đặc điểm thống kê) mà taquan tâm, chiều dài của thanh thể hiện tần số của các quan sát thuộc về phân loại đó.Còn chiều rộng của các thanh bằng nhau
Ví dụ 12.
Không nên nhầm lẫn giữa Histogram với biểu đồ thanh đứng Đây là hai công cụ thống
kê khác nhau, thể hiện hai loại dữ liệu định lượng, định tính Giữa các thanh củaHistogram không có khoảng cách, còn giữa các thanh của biểu đồ dạng thanh phải cókhoảng cách vì mỗi thanh là một biểu hiện của biến phân loại
(2) Biểu đồ hình tròn thường dùng để mô tả kết cấu (%) của vấn đề đang nghiên cứu.
100200300400500600700
Việt – Hàn Quốc giai đoạn 2000 – 2004
Trang 13Ví dụ 13 Biểu đồ hình tròn dưới đây mô tả tỉ lệ % sinh viên theo học các ngành của
một trường đại học ứng với bảng tần số như sau:
Ngành học Số sinh viên (Tần số) Tỉ lệ (Tần suất) (%)
nó được sắp xếp trong bảng tổng hợp
BÀI TẬP CHƯƠNG II 2.1 Để kiểm tra chất lượng sản phẩm, người ta tiến hành đo chiều dài (cm) của 40 sản
phẩm, kết quả thu được như sau:
2.2 Trong chương trình quốc gia nghiên cứu thể chất của người Việt Nam, số liệu về
chiều cao (cm) của một số thanh niên tại một địa phương ghi nhận được như sau:
Trang 142.4 Kiểm tra độ bền (giờ) của một loại bóng đèn, kết quả quan sát được trình bày theo
Each leaf: 1 case(s)
Bằng cách phân nhóm có khoảng cách đều nhau, hãy lập bảng tần số, tần suất Tính tần
số tích lũy, tần suất tích lũy Vẽ biểu đồ tần số, tần suất
2.5 Năm 2008 một trường đại học tuyển sinh viên vào học 5 ngành với số lượng như
sau: toán 210 sinh viên, lí 120, hóa 84, văn 250, xã hội 336 Hãy lập biểu đồ thanh(đứng hoặc ngang) và biểu đồ hình tròn chỉ tỉ lệ sinh viên theo học các ngành đó
CHƯƠNG III TÓM TẮT DỮ LIỆU BẰNG CÁC ĐẠI LƯỢNG THỐNG KÊ MÔ TẢ
Đối với dữ liệu định lượng, chúng ta có thể tóm tắt tốt hơn khi số lượng dữ liệu lớn, đó
là dùng các đại lượng thống kê mô tả Các đại lượng này được chia thành hai nhóm:nhóm các đại lượng thể hiện mức độ tập trung của dữ liệu và nhóm thể hiện độ phân táncủa dữ liệu
Ở nhóm thứ nhất ta có trung bình cộng (được sử dụng nhiều nhất), mốt, trung vị Ởnhóm thứ hai ta có khoảng biến thiên, độ lệch tuyệt đối bình quân, phương sai, độ lệchchuẩn (được sử dụng nhiều nhất) và hệ số biến thiên
III.1 CÁC ĐẶC TRƯNG ĐO LƯỜNG KHUYNH HƯỚNG TẬP TRUNG
1 Trung bình cộng (Arithmetic mean)
Trung bình cộng được xác định bằng cách cộng tất cả các giá trị của từng phần tử (cácquan sát), sau đó đem chia cho tổng số phần tử (tổng số quan sát)
Trang 15Có hai loại trung bình cộng là trung bình cộng đơn giản (mean) và trung bình cộng cótrọng số (weighted mean)
a) Trung bình cộng đơn giản
- Trung bình tổng thể: Giả sử tổng thể có N phần tử (quan sát), X i là giá trị của
phần tử thứ i Khi đó trung bình cộng của tổng thể là 1
1 N
i i
X N
(1)
- Trung bình mẫu: Giả sử mẫu có n phần tử (hay còn nói cỡ mẫu là n), khi đó trung
bình cộng của mẫu (hay trung bình mẫu) là 1
1 n
i i
X
Đây cũng chính
là điểm thi trung bình của 16 sinh viên này
b) Trung bình cộng có trọng số là trường hợp đặc biệt của trung bình cộng đơn giản
khi giá trị X i xuất hiện nhiều lần Giả sử giá trị X i xuất hiện f i lần, i = 1, 2, …, k (ta
nói f i là trọng số, hay tần số của giá trị X i) Khi đó
1
1
k
i i i
k i i
X f X
Ví dụ 2 Điểm thi Toán của một số sinh viên cho trong bảng sau đây Hãy tính điểm thi
trung bình của nhóm sinh viên này
x f X
là trị số giữa của nhóm i (X imax ,X imin
là giới hạn trên, giới hạndưới của nhóm i) và f i là tần số của nhóm i
Ví dụ 3 Trong một đợt sản suất người ta chọn 50 sản phẩm và ghi nhận khối lượng.
Sản phẩm được phân nhóm theo khối lượng như sau:
Trang 16Khối lượng (gam) Trị số giữa (x i) Số sản phẩm (f i)
c) Đặc điểm của trung bình cộng
- Trung bình cộng thường rất nhạy cảm với các đột biến (giá trị quá lớn hoặc quánhỏ), giá trị trung bình sẽ kém tiêu biểu nếu trong dãy số có các giá trị đột biến
- Trung bình cộng được sử dụng để so sánh giữa hai hay nhiều tổng thể
- Tổng độ lệch giữa các giá trị X i với trung bình cộng X bằng 0, nghĩa là
1
0
n i i
(1) Trường hợp dữ liệu không phân nhóm: Mốt là giá trị có tần số lớn nhất.
Ví dụ 4 Xem lại bảng dữ liệu ở ví dụ 2, ta có M o 6, vì điểm 6 có tần số lớn nhất
(2) Trường hợp dữ liệu phân nhóm có khoảng cách đều nhau: Trước hết cần xác định
nhóm chứa mốt là nhóm có tần số lớn nhất Trị số của mốt đươc xác định gần đúng bởicông thức:
1 min
là giới hạn dưới của nhóm chứa M o; h M o
là khoảng cách của nhómchứa M o; f M o1
là tần số của nhóm đứng trước nhóm chứa M o; f M o
là tần số củanhóm chứa M o; f M o1
là tần số của nhóm đứng sau nhóm chứa M o
Ví dụ 5 Tài liệu tổng hợp về doanh số bán hàng trong một tháng của 50 trạm xăng dầu
thuộc tỉnh X như sau:
Trang 17Tính mốt của bảng dữ liệu đã cho.
Giải Ta nhận thấy mốt ở nhóm thứ ba, áp dụng (5), ta có
Ví dụ 6 Tính mốt của bảng dữ liệu cho ở ví dụ 3.
(3) Trường hợp dữ liệu phân nhóm có khoảng cách không đều: (Phần đọc thêm)
Mốt vẫn được tính theo công thức (5) nhưng việc xác định nhóm có mốt không căn cứ vào tần số mà căn cứ vào mật độ phân phối (Mật độ phân phối = Tần số : khoảng cách nhóm)
Ví dụ 7 Có tài liệu tổng hợp về doanh thu của 79 cửa hàng như sau:
Doanh thu (triệu đồng) Cửa hàng
f d h
Trang 18- Khác với trung bình cộng và trung vị, một tập dữ liệu có thể không xác định đượcmốt vì không có giá trị nào xuất hiện nhiều nhất Ngược lại, có một số trườnghợp có nhiều mốt.
Ví dụ 8 Tính mốt của bảng dữ liệu sau đây:
Chiều cao (cm) Số thanh niên
a) Cách xác định trung vị
(1) Xác định trung vị cho dữ liệu không phân nhóm
- Trường hợp số phần tử của mẫu n là số lẻ:
1 2
(2) Xác định trung vị cho dữ liệu phân nhóm có khoảng cách
Với dữ liệu đã phân nhóm, trung vị được xác định một cách xấp xỉ qua các bước sau:
Trang 19trong đó X M emin
là giới hạn dưới của nhóm chứa M e; h M e
là khoảng cách của nhómchứa M e; S M e1
là tần số tích luỹ của nhóm đứng trước nhóm chứa M e; f M e
là tần sốcủa nhóm chứa M e
Ví dụ 11 Tính trung vị của mẫu dữ liệu cho ở ví dụ 3.
Giải Bước 1 Tính tần số tích luỹ
Khối lượng (gam) Số sản phẩm (f i) Tần số tích luỹ (S i)
15 2
b) Đặc điểm của trung vị
- Trung vị là trị số duy nhất có thể xác định được trong một dãy số.
- Trung vị là đặc trưng đo lường khuynh hướng tập trung không bị ảnh hưởng bởi cácgiá trị đột biến
- Trung vị có thể tính cho các dữ liệu sử dụng các thang đo tỉ lệ, khoảng, thứ bậc
Ví dụ 12 Tính trung bình cộng và trung vị của bảng dữ liệu cho ở ví dụ 5.
3 Tứ phân vị - thập phân vị (Phần đọc thêm)
Tứ phân vị, thập phân vị là chỉ tiêu đo lường độ phân tán chứ không phải chỉ tiêu đo lường khuynh hướng tập trung Tuy nhiên, vì cách tính của chúng tương tự cách tính trung vị, hơn nữa phân vị thứ hai của tứ phân vị chính là trung vị, nên ta kết hợp xét tứ phân vị và thập phân vị trong mục này.
a) Tứ phân vị chia dãy số lượng biến thành bốn phần, mỗi phần có số đơn vị bằng
nhau
Cách xác định tứ phân vị:
(1) Đối với dữ liệu không phân nhóm: dãy số lượng biến có ba tứ phân vị là
- Q1: Tứ phân vị thứ nhất là lượng biến đứng ở vị trí thứ
1 4
n
- Q2: Tứ phân vị thứ hai chính là số trung vị, đứng ở vị trí
n
Trang 20Nếu n 1không chia hết cho 4 thì tứ phân vị được xác định bằng cách thêm vào Chẳng hạn, với n = 12 (đơn vị), ta có
2100 (2200 2100) 2150
2 3
2500 (2700 2500) 2650
4
Q Q Q
Ví dụ 15 Tính các tứ phân vị của dãy số cho ở ví dụ 10.
(2) Đối với dữ liệu phân nhóm có khoảng cách:
là giới hạn dưới của nhóm chứa Q i ; h Q i
là khoảng cách của nhóm chứa Q i ; S Q i1
là tần số tích luỹ của nhóm đứng trước nhóm chứa Q i ; f Q i
là tần số của nhóm chứa Q i
Ví dụ 16 Tính các tứ phân vị của bảng dữ liệu sau đây
Doanh thu (triệu đồng) Số cửa hàng ( f i ) Tần số tích luỹ ( S i )
n
.
Trang 21Ví dụ 17 Tính các tứ phân vị của bảng dữ liệu cho ở ví dụ 7
b) Thập phân vị chia dãy số lượng biến thành mười phần, mỗi phần có số đơn vị bằng
III.2 CÁC ĐẶC TRƯNG ĐO LƯỜNG ĐỘ PHÂN TÁN
Số trung bình, số trung vị và mốt mới chỉ cho ta biết được giá trị trung tâm, mức độ đạidiện của hiện tượng mà chưa phản ánh đầy đủ các tính chất đặc thù của dãy số lượngbiến Do vậy, ngoài các đặc trưng đo lường khuynh hướng tập trung, ta cần đánh giá độphân tán (độ biến thiên) của dữ liệu
Ví dụ 1 Có hai tổ công nhân, mỗi tổ có 5 người với mức năng suất lao động như sau:
- Tổ I: 200, 250, 300, 350, 400
- Tổ II: 280, 290, 300, 310, 320
Rõ ràng năng suất lao động trung bình của hai tổ là như nhau, tuy nhiên các mức năngsuất lao động của tổ I chênh lệch nhau nhiều hơn tổ II nên số trung bình của tổ I kémđại diện hơn so với tổ II
Người ta sử dụng các chỉ tiêu sau để đo độ phân tán của hiện tượng: khoảng biến thiên,
tứ phân vị, độ trải giữa, độ lệch tuyệt đối trung bình, phương sai, độ lệch tiêu chuẩn
1 Khoảng biến thiên (Range), kí hiệu R, là chênh lệch giữa giá trị lớn nhất và giá trị
nhỏ nhất của dãy lượng biến: R Xmax Xmin (1)
Khoảng biến thiên càng nhỏ thì tổng thể càng đồng đều, số trung bình càng có tính đạidiện cao và ngược lại
Nhược điểm của khoảng biến thiên là chỉ phụ thuộc vào giá trị lớn nhất và giá trị nhỏnhất của dãy lượng biến
Ví dụ 2 Xét lại ví dụ 1, ta nhận thấy tổ I có khoảng biến thiên R 1 400 200 200, tổ
II có khoảng biến thiên R 2 320 280 40 Do đó R1 R2, nghĩa là các mức năngsuất lao động của tổ I biến thiên nhiều hơn của tổ II, suy ra số trung bình của tổ II đạidiện tốt hơn so với tổ I
2 Độ trải giữa (Interquartile range), kí hiệu R Q
, là chênh lệch giữa tứ phân vị thứ ba
và tứ phân vị thứ nhất: R Q Q3 Q1
(2)
Độ trải giữa thể hiện độ phân tán của 50% dữ liệu giữa của dãy số
Ví dụ 3 Tiền lương của hai tổ, mỗi tổ có 11 công nhân, được cho trong bảng sau đây:
Tổ I: 0,9 1,2 1,5 1,8 2,1 2,4 2,7 3,0 3,3 3,6 3,9
Tổ II: 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9
Trang 22Q1 Q2 Q3
Độ trải giữa của tổ I: R Q Q3 Q1 3,3 1,5 1,8;
Độ trải giữa của tổ II: R Q Q3 Q1 2,7 2,1 0,6
nó xét đến tất cả các lượng biến trong dãy số
Ví dụ 4 (Tiếp ví dụ 1) Ta tính được độ lệch tuyệt đối trung bình cho từng tổ như sau:
1
1
200 300 250 300 400 300 60 5
Ví dụ 5 Chọn ngẫu nhiên một số doanh nghiệp của hai ngành kinh doanh A và B, tỉ lệ
lãi trên vốn (%) của các doanh nghiệp đó ghi nhận được như sau:
a) Hãy tính tỉ lệ lãi trung bình của các doanh nghiệp ở mỗi ngành
b) Tìm khoảng biến thiên cho từng ngành
c) Tìm các tứ phân vị, độ trải giữa và độ lệch tuyệt đối trung bình cho từng ngành
4 Phương sai (Variance) là số trung bình cộng của bình phương các độ lệch giữa các
lượng biến và số trung bình cộng của các lượng biến đó
(phương sai mẫu hiệu chỉnh được sử
dụng trong thống kê suy diễn như ước lượng, kiểm định)
Trang 23Ví dụ 6 Số lỗi sai tìm thấy trong một cuốn sách dày 500 trang được cho trong bảng
sau:
Hãy tìm phương sai về số lỗi sai
Giải Ta lập bảng tính phương sai
i i i
X f N
5 Độ lệch tiêu chuẩn (Standard deviation) là căn bậc hai của phương sai.
Độ lệch tiêu chuẩn của tổng thể : 2
Độ lệch tiêu chuẩn của mẫu : S S 2
Độ lệch tiêu chuẩn hiệu chỉnh của mẫu : S S2
Chú ý : các phần mềm như EXCEL và SPSS thường xuất độ lệch hiệu chỉnh
Ý nghĩa của độ lệch chuẩn: Độ lệch tiêu chuẩn thể hiện độ lệch trung bình của tất cả
các lượng biến so với giá trị trung bình Đặc trưng này được sử dụng để so sánh độphân tán của hai hay nhiều tổng thể, trong trường hợp đơn vị tính giống nhau hoặc giátrị trung bình bằng nhau
Ngoài ra độ lệch chuẩn còn cho biết sự phân phối của các lượng biến trong một tổngthể, thể hiện trên hai quy tắc sau đây
a) Quy tắc Tchebychev: Bất kì một tổng thể nào với trung bình là và độ lệch tiêu
giá trị rơi vào khoảng m, với m > 1
Ta có bảng sau đây ứng với một vài giá trị của m:
Trang 24Từ bảng ta thấy, với m = 1,5, có ít nhất 55,6% giá trị rơi vào khoảng 1,5
Ví dụ 7 Tiền lương hàng năm của 7 công nhân một xí nghiệp là: 34,5 ; 30,7 ; 32,9 ;
36,0 ; 34,1 ; 33,8 ; 32,5 (triệu đồng)
Ta tính được tiền lương trung bình của 7 người đó là:
34,5 30,7 32,9 36,0 34,1 33,8 32,5
33,5 7
Theo quy tắc Tchebychev, đối với tổng thể trên,có ít nhất 55,6% (tức có khoảng
0,5567 4 người) mức lương rơi vào khoảng 33,5 1,5.1,554, tức là từ 31,169 đến35,831 (triệu đồng)
Ví dụ 8 Tính độ lệch tiêu chuẩn của hai ngành cho trong ví dụ 5
b) Quy tắc thực nghiệm: Người ta nhận thấy rằng nếu dữ liệu có phân phối đối xứng
(hình chuông cân đối) thì có một quy tắc thực nghiệm như sau:
- Khoảng 68% giá trị rơi vào khoảng
- Khoảng 95% giá trị rơi vào khoảng 2
- Khoảng 99,7% giá trị rơi vào khoảng 3
Ví dụ 9 Giả sử ta có một tổng thể lớn về tiền lương với trung bình 33,5 (triệuđồng), độ lệch tiêu chuẩn 1,554(triệu đồng) Quy tắc thực nghiệm ước đoán có xấp
xỉ 68% (tức khoảng 0,687 5 người) mức lương rơi vào khoảng , tức là từ31,946 đến 35,054 (triệu đồng), có khoảng 95% (tức khoảng 7 người) mức lương rơivào khoảng 2 , tức là từ 30,392 đến 36,608 (triệu đồng)
Quy tắc thực nghiệm cho một tổng thể được mô tả hình học như sau:
Quy tắc thực nghiệm giúp ta có cơ sở nhận diện những giá trị bất thường trong một tập
dữ liệu Chẳng hạn, ta thấy có 5% giá trị rơi ra ngoài khoảng 2 , ta xem những giátrị này là các quan sát ngoại lệ
Ví dụ 10 Một giảng viên có tập dữ liệu về điểm thi môn Toán của một lớp học Dùng
biểu đồ Histogram mô tả tập dữ liệu, ông thấy nó có dạng hình chuông cân đối Điểmtrung bình của lớp là 5,6; độ lệch tiêu chuẩn là 1,41 Giả sử giảng viên quyết định ápdụng quy tắc thực nghiệm để xét sinh viên xuất sắc là sinh viên có điểm thi trên trungbình và nằm ngoài phạm vi 2 so với trung bình (nghĩa là sẽ có khoảng 5% sinh viênxuất sắc) Như vậy, những sinh viên có điểm từ 2 = 5,6 + 2.1,41 = 8,42 trở lênđược giảng viên xếp loại sinh viên xuất sắc
Lưu ý rằng, đối với những tập dữ liệu mà phân phối không phải là hình chuông cân đối
thì không nên sử dụng quy tắc thực nghiệm mà nên dùng quy tắc Tchebychev
Cách sử dụng máy tính Casio fx-570ES tìm trung bình và độ lệch chuẩn:
Ta thực hiện các bước sau:
a) Khởi động chương trình:
Lần lượt nhấn các phím:
Trang 252) MODE
3) Mũi tên đi xuống trên phím "REPLAY"
4) Chọn 4: STAT Trên màn hình có dòng chữ: "Frequency?"
6 Hệ số biến thiên (Coefficient of Variation)
Ta đã biết, độ lệch tiêu chuẩn đo lường sự biến thiên của tập dữ liệu Khi hai tập dữ liệu
có cùng giá trị trung bình (hay có các giá trị trung bình gần bằng nhau) thì tập dữ liệunào có độ lệch tiêu chuẩn lớn hơn sẽ biến thiên nhiều hơn Tuy nhiên, nếu hai tập dữliệu đó có giá trị trung bình khác nhau thì không thể kết luận đuợc điều này bằng cách
so sánh hai độ lệch tiêu chuẩn Lúc đó hệ số biến thiên được sử dụng để đo lường mức
độ biến động tương đối của những tập dữ liệu có giá trị trung bình khác nhau
Công thức tính hệ số biến thiên cho tập dữ liệu tổng thể: CV .100%
S CV
X
.Khi hệ số biến thiên của hai tập dữ liệu được so sánh với nhau, hệ số biến thiên của tậpnào lớn hơn thì tập đó biến động nhiều hơn
Trang 26Ví dụ 11 Trong ngành tài chính, hệ số biến thiên thường được sử dụng để đo mức độ
rủi ro tương đối của các danh mục vốn đầu tư Chẳng hạn, một nhà kinh doanh xem xéthai danh mục đầu tư:
- Danh mục A bao gồm các khoản đầu tư có lợi nhuận trung bình 16% với độ lệchtiêu chuẩn là 4%;
- Danh mục B có lợi nhuận trung bình 9% với độ lệch tiêu chuẩn 3%
Ngoài ra, hệ số biến thiên cũng hữu dụng khi so sánh hai tập dữ liệu có đơn vị đo khácnhau vì hệ số biến thiên không phụ thuộc vào đơn vị đo và được tính bằng %
Ví dụ 12 Một doanh nghiệp kinh doanh dịch vụ vận chuyển hàng hoá cần phải xem xét
giữa khối lượng và thể tích các kiện hàng họ vận chuyển, đối tượng nào biến độngnhiều hơn Một mẫu 200 kiện hàng được họ chọn ngẫu nhiên, sau đó đo khối lượng (kg)
và thể tích (cm3) của tất cả các kiện hàng trong mẫu rồi tính giá trị trung bình và độlệch tiêu chuẩn Kết quả thu được là:
- Khối lượng trung bình 11,801 kg, độ lệch tiêu chuẩn 1,78 kg
- Thể tích trung bình 4800 cm3, độ lệch tiêu chuẩn 1100 cm3
Vì hai yếu tố này có đơn vị tính khác nhau nên ta dùng CV để so sánh mức độ biến
ty sẽ tính cước khác nhau theo thể tích của hàng hoá vận chuyển
Ví dụ 13 Tính hệ số biến thiên của hai ngành cho trong ví dụ 5 Ngành nào biến động
nhiều hơn?
7 Chuẩn hoá dữ liệu
Khi làm việc với dữ liệu số lượng, đôi khi ta cần biến đổi chúng thành dữ liệu ở mộtthang đo chuẩn (Chẳng hạn, ta muốn so sánh các đối tượng được đo bằng các phươngpháp và đơn vị đo khác nhau) Việc làm này gọi là chuẩn hoá dữ liệu Giá trị dữ liệu đãchuẩn hoá cho biết một giá trị quan sát trong tập dữ liệu gốc sẽ sai lệch khỏi trung bìnhcủa nó gấp mấy lần độ lệch tiêu chuẩn Điều này thể hiện qua công thức sau đây
Công thức tính giá trị chuẩn hoá z cho dữ liệu tổng thể:
trị dữ liệu gốc; là giá trị trung bình của tổng thể; là độ lệch tiêu chuẩn của tổng
thể; z là điểm số chuẩn hóa cho biết x cách xa trung bình một khoảng bằng mấy lần độ
lệch tiêu chuẩn
Công thức tính giá trị chuẩn hoá z cho dữ liệu mẫu: ˆ
x X z
S
, trong đó x là giá trị
dữ liệu gốc; X là giá trị trung bình của mẫu; Sˆ là độ lệch tiêu chuẩn của mẫu; z là điểm
số chuẩn hóa cho biết x cách xa trung bình một khoảng bằng mấy lần độ lệch tiêu
chuẩn
Trang 27Một giá trị z gần đến 0 có nghĩa là quan sát đó ở vị trí rất gần trung bình Một giá trị
z = -1 có nghĩa là quan sát đó ở vị trí lệch một độ lệch tiêu chuẩn so với trung bình vềphía trái; giá trị z = 1 có nghĩa là quan sát đó ở vị trí lệch một độ lệch tiêu chuẩn so vớitrung bình về phía phải
Ví dụ 14 Một học sinh có điểm thi môn Toán là 8,9 (thang điểm 10) và điểm thi Anh
văn là 89 (thang điểm 100) Ta muốn biết em đó học môn nào khá hơn so với các họcsinh trong lớp Giả sử điểm trung bình và độ lệch mẫu của hai môn đó (tính cho tập dữliệu là điểm của tất cả học sinh trong lớp) như sau
Toán: X 5,7 ;$S 1, 6
, Anh văn: X 65 ;$S 17
.Bay giờ ta dùng phương pháp chuẩn hoá dữ liệu để xác định học sinh đó có kết quả thimôn nào cao hơn so với lớp Cụ thể ta tính được:
2 lần độ lệch tiêu chuẩn, trong khi điểm Anh văn chỉ cao hơn có 1,4 lần Như vậy, sovới học sinh trong lớp thì em học sinh đó học Toán khá hơn
Ví dụ 15 Một xí nghiệp có hai phân xưởng sản suất Số công nhân của hai phân xưởng
có năng suất lao động (sản phẩm / ngày) như trong bảng sau đây
Năng suất lao động Số công nhân Năng suất lao động Số công nhân
III.3 KHẢO SÁT HÌNH DÁNG PHÂN PHỐI CỦA TẬP DỮ LIỆU
Để mô tả dữ liệu, bên cạnh các đặc trưng đo lường khuynh hướng tập trung và đo lường
độ phân tán thì hình dáng phân phối của dãy số cũng là một đặc trưng cần xem xét Cóthể sử dụng hai phương pháp sau đây để xem xét hình dáng phân phối của dãy số
1 Phương pháp so sánh số trung bình và trung vị
Ta có ba dạng phân phối sau đây:
a) Phân phối đối xứng (cân đối) khi M e (hoặc X M e)
b) Phân phối lệch phải khi M e (hoặc X M e)
c) Phân phối lệch trái khi M e (hoặc X M e)
Hình dạng của đa giác tần số (hay biểu đồ tần số) của ba dạng phân phối:
c) Lệch phải a) Đối xứng b) Lệch trái
Trang 28Ví dụ 12.Dưới đây là phân bố điểm thi tuyển sinh của các trường đại học, cao đẳng
năm 2009 Hãy nhận xét hình dáng phân phối của tập dữ liệu điểm thi này
S
, trong đó S k là hệ số lệch, S là độlệch tiêu chuẩn, Xlà số trung bình, M e là số trung vị)
Hệ số lệch Pearson có giá trị trong khoảng từ - 3 đến 3:
- Hệ số lệch có giá trị gần – 3: phân phối của dãy số lệch trái
- Hệ số lệch có giá trị gần 3: phân phối của dãy số lệch phải
- Hệ số lệch gần bằng 0: phân phối của dãy số đối xứng
Ví dụ 13 Chọn ngẫu nhiên 10 bài thi một môn học của sinh viên năm thứ nhất, điểm
bài thi ghi nhận được như sau: 1, 2, 2, 2, 7, 8, ,8 , 8, 9, 9 Xét hình dáng phân phối điểmbài thi của mẫu đã cho
- Cách 1 Tính trung bình mẫu, ta được X 5,6, trung vị M e 7,5 Vì X M e nênphân phối điểm của các bài thi lệch trái
Mo < Me < < Me < Mo
= Me
= Mo
Trang 29được ghi nhận như sau:
Năm Tỉ lệ lãi trên vốn (%)
a) Hãy tính tỉ lệ lãi trên vốn trung bình cho từng công ty trong giai đoạn trên
b) Tính độ lệch tuyệt đối trung bình, phương sai, độ lệch mẫu, hệ số biến thiên
c) Căn cứ vào kết quả đã tính, hãy đưa ra các nhận xét
3.2 Số liệu về hợp đồng bảo hiểm nhân thọ bán được của 15 đại lí trong tháng 3/2009
a) Giả sử 20 nhãn hiệu nước suối nói trên là một tổng thể Hãy tính giá bán trung bình,
số trung vị, mốt, khoảng biến thiên, độ trải giữa, phương sai, độ lệch tiêu chuẩn và hệ
số biên thiên
b) Tìm hệ số lệch và cho nhận xét
c) Có bao nhiêu % giá trị nằm trong khoảng 2 so với trung bình?
3.4 Số liệu năng suất lao động (tấn) của hai phân xưởng trong một xí nghiệp như sau:
Năng suất lao động Số công nhân Năng suất lao động Số công nhân
Trang 30b) Tính mốt và số trung vị về năng suất lao động của từng phân xưởng.
c) Tính các trị số tứ phân vị và hệ số biến thiên về năng suất lao động của mỗi phânxưởng
d) Tính hệ số lệch của năng suất lao động cho từng phân xưởng Cho biết hình dángphân phối của năng suất lao động trong hai phân xưởng đó
3.5 Sau đây là kết quả điều tra mức điện tiêu thụ hàng tháng của một mẫu gồm 100 hộ
gia đình sinh sống tại thành phố Hồ Chí Minh:
Lượng điện tiêu thụ (Kwh) Số hộ
a) Vẽ biểu đồ phân phối tần số
b) Tính mức sử dụng điện trung bình hàng tháng của một hộ, số trung vị và mốt củamẫu dữ liệu trên đây
c) Tính độ lệch tuyệt đối trung bình, phương sai mẫu, độ lệch mẫu và hệ số biến thiên
3.6 Số liệu về chiều cao và khối lượng của một mẫu gồm 68 thanh niên được trình bày
trong bảng sau đây:
a) Vẽ biểu đồ phân phối tần số, tần suất về chiều cao và khối lượng
b) Tính các giá trị trung bình về chiều cao và khối lượng cho từng nhóm và cho cả mẫu.c) Tính mốt, số trung vị của chiều cao và khối lượng cho cả mẫu
d) Tìm phương sai mẫu, độ lệch mẫu cho chiều cao và khối lượng
e) Tìm tỉ lệ thanh niên có chiều cao 163 cm của mẫu
f) Tìm tỉ lệ thanh niên nặng < 58 kg của mẫu
Trang 31g) Cho biết hình dáng phân phối của chiều cao và khối lượng của mẫu đã cho
3.7 Bảng dưới đây trình bày tuổi của mẫu gồm 50 nhân viên của một công ty:
Tuổi Số nhân viên
a) Vẽ biểu đồ phân phối tần số
b) Tìm tuổi trung bình, mốt, số trung vị của mẫu đã cho
c) Tính độ lệch tuyệt đối trung bình, phương sai mẫu, độ lệch mẫu
d) Phân phối tuổi của nhóm nhân viên trên đây có dạng gì? Tại sao?
CHƯƠNG IV ƯỚC LƯỢNG CÁC ĐẶC TRƯNG CỦA TỔNG THỂ
Chương này sẽ đề cập đến việc suy luận các đặc trưng của tổng thể dựa trên các đặctrưng của mẫu Đó là các đặc trưng như: giá trị trung bình, phương sai, tỉ lệ các đơn vịcủa tổng thể có một tính chất nào đó Vấn đề đặt ra là cần ước lượng các đặc trưng củatổng thể (chưa biết) từ các đặc trưng của mẫu dữ liệu đã thu thập được
IV.1 BÀI TOÁN ƯỚC LƯỢNG
1 Ước lượng điểm
Người ta chứng minh được rằng giá trị trung bình, tỉ lệ và phương sai mẫu hiệu chỉnhthỏa mãn tất cả các tính chất của ước lượng như: không chệch, hiệu quả, chắc chắn vàđầy đủ Do đó, các đặc trưng này lần lượt là ước lượng điểm của trung bình, tỉ lệ vàphương sai tổng thể (Chú ý rằng phương sai mẫu không dùng ước lượng cho phươngsai tổng thể vì đó là ước lượng chệnh) Như vậy, ta có
MẪU TỔNG THỂ
Trung bình X ước lượng
Tỉ lệ Pˆ ước lượng P
Phương sai hiệu chỉnh S2 ước lượng 2
2 Ước lượng khoảng
Ta đã biết, các ước lượng điểm là một giá trị cụ thể của biến ngẫu nhiên với một phânphối xác suất nào đó, ví dụ trung bình và tỉ lệ mẫu (với mẫu đủ lớn) có phân phốichuẩn Chúng không thể hiện tính chính xác của ước lượng Do vậy, cần thực hiện ướclượng khoảng, nghĩa là dựa vào dữ liệu mẫu, với một độ tin cậy cho trước, xác địnhkhoảng giá trị mà đặc trưng của tổng thể có thể rơi vào
Một cách tổng quát, gọi là đặc trưng của tổng thể cần ước lượng Giả sử dựa vào mẫuquan sát ta tìm được hai biến ngẫu nhiên A và B sao cho xác suất P A( B) 1
Trang 32Gọi a, b là các giá trị cụ thể của A và B, thì khoảng (a,b) được gọi là khoảng ước lượngcủa với độ tin cậy 1 Ta gọi a, b lần lượt là giới hạn tin cậy dưới, giới hạn tin cậytrên;
1
( )
2 b a
là độ chính xác (hay sai số) của ước lượng khoảng
Nói chung, với cỡ mẫu n cố định thì độ tin cậy và độ chính xác có xu hướng đối lập
nhau Khoảng ước lượng càng dài (độ chính xác thấp) thì càng có cơ hội trúng cao (độtin cậy cao) Ngược lại, khoảng ước lượng càng ngắn (độ chính xác cao) thì càng dễ trật(độ tin cậy thấp)
IV.2 ƯỚC LƯỢNG TRUNG BÌNH TỔNG THỂ
2 Trường hợp đã biết phương sai 2
Độ chính xác được tính bởi công thức: 2
Z n
, trong đó Z là biến ngẫu nhiên có
phân phối chuẩn với 2
1 ( )
2 2
và ( )Z là hàm phân phối xác suất Laplace
Khoảng ước lượng của là (X , X )
Ví dụ 1 Kết quả thu thập trong 15 ngày tại một công ty cho thấy trung bình một ngày
có 267 trang tài liệu được chuyển đi bằng fax Theo kinh nghiệm từ các văn phòngtương tự thì độ lệch tiêu chuẩn là 32 trang Giả sử rằng số trang tài liệu chuyển bằng faxtrong một ngày có phân phối chuẩn Hãy ước lượng số trang tài liệu được chuyển trongmột ngày của công ty với độ tin cậy 95%
Giải Theo đề bài n 15 , X 267 , 32 , 1 0,95
2 2
Z
Tra bảng hàm số Laplace, ta được 2
15
Z n
.Vậy số trang tài liệu được chuyển trong một ngày của công ty là 267 16,19 haykhoảng ước lượng của là (250,81 ; 283,19)
Ví dụ 2 Chiều cao của học sinh lớp 1 là một đại lượng ngẫu nhiên có phân phối chuẩn
với phương sai là 25 cm2 Chọn ngẫu nhiên một lớp có 28 học sinh thấy chiều cao trungbình là 115,8 cm Hãy ước lượng chiều cao trung bình của học sinh lớp một với độ tincậy 97% ?
Trang 333 Trường hợp chưa biết phương sai của tổng thể
a) Nếu cỡ mẫu n 30 thì 2
S Z n
Ví dụ 3 Khảo sát 100 sinh viên chọn ngẫu nhiên trong trường thì thấy điểm trung bình
môn Toán là 5,12 và phương sai mẫu hiệu chỉnh là 0,0676 Hãy ước lượng điểm trung
bình môn Toán của sinh viên toàn trường với độ tin cậy 97%
Giải Theo đề bài n 100 , X 5,12 ,S2 0,0676 , 1 0,97
2 2
.Tra bảng hàm số Laplace, ta được 2
100
S Z n
.Vậy điểm trung bình môn Toán của sinh viên toàn trường là 5,12 0,056 haykhoảng ước lượng của là (5,064 ; 5,176)
Ví dụ 4 Chiều dài của một loại sản phẩm có phân phối chuẩn Đo ngẫu nhiên 10 sản
phẩm được chiều dài trung bình là 10,02 m, độ lệch mẫu hiệu chỉnh là 0,04 m Tìmkhoảng ước lượng chiều dài trung bình của loại sản phẩm này với độ tin cậy 95%
Giải Theo đề bài n 10 , X 10,02 ,S 0,04 , 1 0,95 Do đó0,05 0,025
2
.Tra bảng phân phối Student dòng 9, cột 0,025 ta được 1,2
10
n
S T
Ví dụ 5 Một mẫu ngẫu nhiên gồm 16 khách hàng sử dụng dịch vụ ATM thuộc hệ
thống của một ngân hàng được ghi nhận về thời gian (giây) thực hiện xong một dịch vụ:
65, 30, 40, 58, 26, 60, 75, 45, 50, 36, 76, 34, 38, 50, 44, 56 Giả sử thời gian thực hiệndịch vụ qua ATM có phân phối chuẩn Hãy tìm khoảng ước lượng cho thời gian trungbình thực hiện dịch vụ qua ATM với độ tin cậy 99%
Ví dụ 6 (Đề thi HK 16.1A) Khảo sát sản lượng sữa (kg/ ngày) của một số con bò trong
một trại chăn nuôi, người ta có số liệu sau:
Sản lượng sữa 7 - 9 9 – 11 11- 13 13 – 15 15 – 17
Trang 34Số con 12 18 40 20 9a) Hãy ước lượng sản lượng sữa trung bình của đàn bò với độ tin cậy 90,106%.
b) Những con bò có sản lượng sữa trên 13 kg/ngày gọi là có “sản lượng cao” Hãy ướclượng sản lượng sữa trung bình của những con bò “sản lượng cao” với độ tin cậy95%
IV.3 ƯỚC LƯỢNG TỈ LỆ TỔNG THỂ
Giả sử tổng thể có hai loại phần tử, một trong hai loại có tính chất A nào đó Ta cần ướclượng tỉ lệ P các phần tử có tính chất A của tổng thể với độ tin cậy 1 cho trước Giả
sử ta có một mẫu ngẫu nhiên gồm n phần tử của tổng thể ( n 30) và Pˆ là tỉ lệ cácphần tử có tính chất A trong mẫu
Khi đó độ chính xác được tính bởi công thức 2
Ví dụ 1 Một nghiên cứu được thực hiện nhằm ước lượng tỉ lệ khách hàng sử dụng bánh
kẹo nội địa Kết quả điều tra ngẫu nhiên 100 khách hàng cho thấy có 34 khách hàngdùng bánh kẹo nội địa Với độ tin cậy 95% hãy ước lượng tỉ lệ khách hàng sử dụngbánh kẹo nội địa
Giải Theo đề bài
Ví dụ 2 Điểm danh ngẫu nhiên 64 sinh viên khoa X thấy có 6 sinh viên nghỉ học Hãy
ước lượng tỉ lệ sinh viên nghỉ học của cả khoa với độ tin cậy 95,45%
Ví dụ 3 Trước ngày bầu cử tổng thống, người ta phỏng vấn ngẫu nhiên 1200 cử tri thì
thấy có 1017 người ủng hộ ứng cử viên A Với độ tin cậy 95%, hỏi ứng cử viên đó thuđược bao nhiêu phần trăm số phiếu bầu?
Ví dụ 4 (Tiếp theo ví dụ 6, IV.2) Hãy ước lượng tỷ lệ bò “sản lượng cao” với độ tin cậy
93%
Ví dụ 5 Người ta bắt được 1250 con thú, đánh dấu rồi thả lại vào rừng Sau một thời
gian bắt lại 360 con thì thấy có 23 con bị đánh dấu Hãy ước lượng số thú có trong rừngvới độ tin cậy 99%
IV.4 XÁC ĐỊNH CỠ MẪU
1 Trường hợp ước lượng tỉ lệ
Từ công thức tính độ chính xác của bài toán ước lượng tỉ lệ, ta có
2
2 2