Bài giảng Thống kê kinh tế cung cấp cho người học các kiến thức: Giới thiệu về thống kê kinh tế, thống kê mô tả, phân phối chuẩn và phân phối mẫu, ước lượng tham số của tổng thể, kiểm định tham số và kiểm định sự khác biệt
Trang 1TRƯỜNG ĐẠI HỌC PHẠM VĂN ĐỒNG
Trang 2CHƯƠNG 1: GIỚI THIỆU VỀ THỐNG KÊ KINH TẾ 1.1 Thống kê và các phân nhánh của thống kê
1.1.1 Định nghĩa thống kê
Thống kê là hệ thống các phương pháp dùng để thu thập và xử lý dữ liệu nhằm phục vụ cho quá trình nghiên cứu và ra quyết định khi dữ liệu được thu thập trong điều kiện không chắc chắn
“Thống kê’ có 2 nghĩa: Nghĩa thông thường là thu thập số liệu; nghĩa rộng là một môn khoa học về bố trí, hoạch định các quan sát và thí nghiệm; thu thập và phân tích các số liệu và rút ra kết luận về các số liệu đã phân tích Do đó, thống kê được coi
là một công cụ của nghiên cứu khoa học, quản lý kinh tế và quản lý xã hội Đây chính
là “bộ đồ nghề” của các nhà nghiên cứu và lãnh đạo Tuy nhiên, đôi khi thuật ngữ thống kê cũng được dùng để chỉ những con số thu thập được từ hoạt động thống kê
mô tả hay thống kê suy luận trên thực tế
Cơ sở lý thuyết cho thống kê là lý thuyết xác suất và thống kê toán Hiện nay thống kê đã được ứng dụng rộng rãi trong rất nhiều lĩnh vực như: thống kê dân số, thống kê xã hội, thống kê trong kinh doanh, thống kê bảo hiểm, thống kê trong giáo dục, thống kê trong sinh học, thống kê trong y học,…Trong lĩnh vực kinh tế và kinh doanh, thống kê đóng vai trò là công cụ cơ bản để phân tích thực trạng tình hình thông qua dữ liệu thu thập và xử lý nhằm tìm hiểu bản chất và tính quy luật của hiện tượng trong những điều kiện không gian và thời gian cụ thể
1.1.2 Các phân nhánh của thống kê
Thống kê thường được phân thành 2 lĩnh vực:
- Thống kê mô tả (Descriptive statistics): là các phương pháp có liên quan
đến việc thu thập số liệu, tóm tắt,trình bày, tính toán và mô tả các đặc trưng khác nhau
để phản ánh một cách tổng quát đối tượng nghiên cứu
- Thống kê suy luận (Inferential statistics): là bao gồm các phương pháp ước
lượng các đặc trưng của tổng thể, phân tích mối liên hệ giữa các hiện tượng nghiên cứu, dự đoán hoặc đưa ra quyết định trên cơ sở thông tin thu thập từ kết quả quan sát mẫu
Trang 31.2 Các khái niệm căn bản
1.2.1 Tổng thể thống kê và đơn vị tổng thể
* Tổng thể thống kê (còn gọi là tổng thể chung) là tập hợp các đơn vị cá biệt
(hay phần tử) thuộc hiện tượng nghiên cứu, cần quan sát, thu thập và phân tích mặt lượng của chúng theo một hay một số tiêu thức nào đó
Ví dụ 1.1: Tổng thể các sinh viên trường đại học Phạm Văn Đồng (các sinh viên có đặc điểm chung là sinh viên của trường…
* Đơn vị tổng thể: là từng đơn vị cá biệt cấu thành nên tổng thể thống kê
Ví dụ 1.2: trong tổng thể sinh viên trường đại học Phạm Văn Đồng thì mỗi sinh viên là một đơn vị tổng thể…
Tuỳ theo mục đích nghiên cứu mà tổng thể xác định có khác nhau Muốn xác định được một tổng thể thống kê, ta phải xác định được tất cả các đơn vị tổng thể của
nó Thực chất của việc xác định tổng thể thống kê là việc xác định các đơn vị tổng thể
* Phân loại tổng thể thống kê
Có nhiều cách để phân loại tổng thể thống kê, cụ thể:
- Căn cứ vào sự nhận biết các đơn vị trong tổng thể
+ Tổng thể bộc lộ: Tổng thể có ranh giới rõ ràng, có thể nhận biết được tất cả
các đơn vị bằng trực quan
Ví dụ 1.3: Tổng thể các công ty có cổ phiếu niêm yết trên sàn giao dịch chứng khoán TP Hồ Chí Minh, tổng thể các cổ đông của công ty A…
+ Tổng thể tiềm ẩn: Tổng thể có ranh giới không rõ ràng, không nhận biết hết
được tất cả các đơn vị trong tổng thể
Ví dụ 1.4: Tổng thể những doanh nghiệp có hoạt động làm ăn phi pháp, tổng thể những người mê tín dị đoan…
Trong thực tế, tổng thể tiềm ẩn rất đa dạng, vì vậy cần xác định tổng thể nghiên cứu là tổng thể bộc lộ hay tiềm ẩn để tìm cách xác định đối tượng cho phù hợp
- Căn cứ vào mục đích nghiên cứu
+ Tổng thể đồng chất: Bao gồm những đơn vị giống nhau về một số đặc điểm
chủ yếu có liên quan tới mục đích nghiên cứu
Ví dụ 1.5: Sản lượng lúa của Việt Nam năm 2018
Trang 4+ Tổng thể không đồng chất: Bao gồm những đơn vị có những đặc điểm chủ
yếu khác nhau có liên quan tới mục đích nghiên cứu
Ví dụ 1.6: Sản lượng các loại cây năm 2018
- Căn cứ vào phạm vi nghiên cứu
+ Tổng thể chung: Bao gồm tất cả các đơn vị thuộc đối tượng nghiên cứu + Tổng thể bộ phận: Bao gồm một phần của tổng thể chung
1.2.2 Mẫu
Mẫu là một bộ phận của tổng thể, đảm bảo được tính đại diện và được chọn ra
để quan sát và dùng để suy diễn cho toàn bộ tổng thể Như vậy, tất cả các phần tử của mẫu phải thuộc tổng thể, nhưng ngược lại các phần tử của mẫu thì chưa chắc thuộc mẫu Điều này tưởng chừng đơn giản, tuy nhiên trong một số trường hợp việc xác định mẫu cũng có thể dẫn đến nhầm lẫn, đặc biệt là trong trường hợp tổng thể ta nghiên cứu là tổng thể tiềm ẩn
Ngoài ra, chọn mẫu như thế nào để làm cơ sở suy diễn cho tổng thể, tức là mẫu phải mang tính đại diện cho tổng thể Điều này thực sự không dễ dàng, ta chỉ hạn chế tối đa sự sai biệt này thôi chứ không thể khắc phục được hoàn toàn
1.2.3 Tiêu thức (biến) thống kê
Là đặc điểm của đơn vị tổng thể chọn ra để nghiên cứu tùy theo mục đích nghiên cứu khác nhau Như vậy, tiêu thức thống kê không phải là tất cả những đặc điểm của đơn vị tổng thể mà chỉ là những đặc điểm được chọn ra để nghiên cứu
Ví dụ 1.7: Mỗi sinh viên là một đơn vị tổng thể có các đặc điểm như: tên, tuổi, giới tính, điểm trung bình chung học tập Mỗi đặc điểm này khi được chọn ra để nghiên cứu là một tiêu thức thống kê
Mỗi tiêu thức thống kê đều có các giá trị biểu hiện của nó, dựa vào sự biểu hiện của nó người ta chia ra làm 2 loại:
- Tiêu thức thuộc tính: là loại tiêu thức mà biểu hiện của nó không phải là
những con số cụ thể mà là những tên gọi, từ ngữ dùng để phản ánh tính chất của đơn
vị tổng thể
Ví dụ 1.8: giới tính, dân tộc, tôn giáo, tình trạng hôn nhân (có gia đình hay chưa),
Trang 5- Tiêu thức số lượng: là loại tiêu thức mà biểu hiện của nó là những con số cụ
thể phản ánh đặc trưng của đơn vị tổng thể mà có thể cân, đong, đo, đếm được và những con số đó được gọi là lượng biến của tiêu thức
Ví dụ 1.9: độ tuổi, số lượng công nhân, năng suất lao động, mức tiền lương,
Có hai loại lượng biến:
- Lượng biến rời rạc: Là lượng biến mà các giá trị có thể có của nó chỉ nhận
những giá trị nguyên
Ví dụ 1.10: Số sinh viên trong 1 trường đại học, số nhân khẩu trong 1 hộ gia đình, số thành phẩm nhập kho trong 1 ngày tại một phân xưởng,…
- Lượng biến liên tục: Là lượng biến có khả năng nhận mọi giá trị trên trục số.
Ví dụ 1.11: Trọng lượng, chiều cao của 1 học sinh; năng suất lao động của một công nhân…
* Tiêu thức chỉ có 2 biểu hiện không trùng nhau trên 1 đơn vị tổng thể gọi là tiêu thức thay phiên
Ví dụ 1.12: Tiêu thức giới tính (nam – nữ), sinh tử, tiêu thức chất lượng (đạt/không đạt)…
1.2.4 Chỉ tiêu thống kê
Là tiêu chí mà biểu hiện bằng số của nó phản ánh quy mô, tốc độ phát triển, cơ cấu, quan hệ tỉ lệ của hiện tượng kinh tế - xã hội trong điều kiện thời gian và không gian cụ thể
Ví dụ 1.13: Dân số hiện tại của Việt Nam là 96.993.385 người vào ngày 12/01/2019 theo số liệu mới nhất từ Liên Hợp Quốc (Nguồn: https://danso.org/viet-nam/); Lợi nhuận của công ty B trong năm 2018 là 3 tỷ đồng,
* Phân loại chỉ tiêu thống kê
Có nhiều cách thức phân loại chỉ tiêu thống kê khác nhau Phân theo nội dung phản ánh thì chỉ tiêu thống kê chia làm 2 loại:
- Chỉ tiêu khối lượng: là chỉ tiêu nêu lên các đặc điểm chung về quy mô, khối
lượng đơn vị tổng thể
Ví dụ 1.14: chỉ tiêu số nhân khẩu, khối lượng sản phẩm, số công nhân, diện tích gieo trồng, tổng số dân số
Trang 6- Chỉ tiêu chất lượng: là chỉ tiêu biểu hiện các tính chất, trình độ phổ biến, mối
quan hệ tổng thể
Ví dụ 1.15: chỉ tiêu năng suất lao động, giá thành đơn vị sản phẩm,
Trước khi tiến hành nghiên cứu thống kê việc trước tiên là phải xác định hệ thống chỉ tiêu thống kê Hệ thống chỉ tiêu thống kê là tập hợp các chỉ tiêu thống kê phản ánh các mặt, các tính chất quan trọng có liên quan với nhau, bổ sung cho nhau được gắn liền với mục tiêu nghiên cứu nhất định của một tổng thể
1.3 Các loại thang đo trong thống kê
Để lượng hoá hiện tượng nghiên cứu, tuỳ theo tính chất của dữ liệu, thống kê
đo lường bằng 4 loại thang đo chủ yếu sau:
1.3.1 Thang đo định danh:
Thang đo định danh là thang đo dùng các mã số để phân loại các đối tượng Thang đo dịnh danh không mang ý nghĩa nào cả mà chỉ để lượng hoá các dữ liệu cần cho nghiên cứu Nó thường được sử dụng cho các tiêu thức thuộc tính Người ta thường dùng các chữ số tự nhiên như 1, 2, 3, 4 để làm mã số
Ví dụ 1.16: - Giới tính: người ta thường mã số nam là 1; nữ là 2
- Tình trạng gia đình: 1: Độc thân ; 2: Kết hôn; 3: Ly dị; 4: Khác
* Đặc điểm: Các con số trên thang đo không biểu thị quan hệ hơn kém, cao
thấp nhưng khi chuyển từ số này sang số khác thì dấu hiệu đo đã có sự thay đổi về chất Không áp dụng các phép tính khi sử dụng loại thang đo này mà chỉ đếm được tần
số xuất hiện của từng biểu hiện
1.3.2 Thang đo thứ bậc:
Thang đo thứ bậc là thang đo sự chênh lệch giữa các biểu hiện của tiêu thức có quan hệ thứ bậc hơn kém Sự chênh lệch này không nhất thiết phải bằng nhau Nó được dùng cho cả tiêu thức thuộc tính và tiêu thức số lượng
Ví dụ 1.17: - Tiền lương của công nhân trong doanh nghiệp hàng tháng là: <
800 ngàn đồng; từ 800-1000 ngàn đồng; từ 1000-1500 ngàn đồng và > 1500 ngàn đồng
- Bậc thợ (7 bậc), chất lượng sản phẩm, xếp hạng huân huy chương
* Đặc điểm: Loại thang đo này được dùng nhiều trong nghiên cứu xã hội, đo
các tiêu thức mà các biểu hiện có quan hệ thứ tự như thái độ, quan điểm của con
Trang 7người đối với các hiện tượng xã hội Với thang đo này, có thể tính toán đặc trưng chung cho một tổng thể một cách tương đối qua tính số bình quân, còn đối với một đơn vị tổng thể thì không thực hiện được
Ví dụ 1.18: Để đánh giá độ tự tin của bạn khi được giao một công việc mới, người ta đưa ra một thang đo thứ bậc với 3 nấc: 1 Rất tự tin, 2 Tương đối tự tin, 3 Không tự tin Con số 1, 2, 3 ở đây không có nghĩa là bạn tự tin gấp 2, gấp 3 lần mà chỉ biểu thị quan hệ hơn kém Tuy nhiên, ta không thể xác định được mức độ cao thấp giữa các nhóm, khoảng cách giữa các biểu hiện cũng không bằng nhau
1.3.3 Thang đo khoảng:
Thang đo khoảng là thang đo thứ bậc nhưng có khoảng cách đều nhau và không
có điểm gốc không (0) tuyệt đối
Ví dụ 1.19: Tiêu thức nhiệt độ không khí, 0oC là một biểu hiện; tiêu thức điểm thi, điểm 0 là một biểu hiện chứ không có nghĩa là không có điểm
* Đặc điểm: Có thể sử dụng các phép tính cộng, trừ và có thể tính được các đặc
trưng của dãy số như số bình quân, phương sai nhưng không tính được tỷ lệ giữa các trị số đo Hạn chế cơ bản của thang đo khoảng là chưa có giá trị “không tuyệt đối” mà chỉ có giá trị 0 quy ước
Ví dụ 1.20: Nhiệt độ trung bình của thành phố A là 30oC, thành phố B là 10oC, nhưng điều đó không có nghĩa là thành phố A nóng gấp 3 lần thành phố B
1.3.4 Thang đo tỷ lệ:
Thang đo tỷ lệ là thang đo khoảng có điểm gốc không (0) tuyệt đối
* Đặc điểm: Thang đo tỷ lệ được sử dụng rất rộng rãi để đo lường các hiện
tượng kinh tế – xã hội Có thể thực hiện tất cả các phép tính với trị số đo và có thể so sánh các tỷ lệ giữa các trị số đo
1.4 Dữ liệu dùng trong thống kê
Khi nghiên cứu bất kỳ hiện tượng kinh tế nào việc đầu tiên là thu thập dữ liệu,
sau đó trình bày dữ liệu và phân tích Dữ liệu là những sự kiện và con số được thu
thập, phân tích và tóm lược nhằm trình bày và giải thích về các hiện tượng nghiên cứu
* Phân loại dữ liệu
Có nhiều tiêu chí để phân loại dữ liệu Tuỳ thuộc vào mục đích, ý nghĩa và phạm vi ứng dụng mà người ta có thể lựa chọn những tiêu thức phù hợp Ở đây trình
Trang 8- Căn cứ tính chất của thông tin:
Có hai loại dữ liệu chủ yếu là dữ liệu định tính và dữ liệu định lượng
* Dữ liệu định tính là dữ liệu phản ánh tính chất và sự hơn kém về tính chất của
đối tượng nghiên cứu
Ví dụ 1.21: giới tính của sinh viên (nam, hay nữ); thời gian tự học ở nhà dài hay ngắn
Dữ liệu định tính được thu thập dễ hơn và người ta thường dùng các thang đo định danh hay thứ bậc để xác định
* Dữ liệu định lượng là dữ liệu phản ánh mức độ hay mức độ hơn, kém theo
một tiêu thức số lượng nào đó của đối tượng nghiên cứu
Ví dụ 1.22: độ tuổi của sinh viên, thời gian tự học 1 ngày, 1 tuần
Dữ liệu định lượng trong nghiên cứu thống kê thường gặp nhiều hơn, dễ áp dụng những phương pháp tính toán, phân tích hơn Khi xác định các dữ liệu định tính, người ta thường dùng thang đo khoảng cách hay thứ bậc
Mục đích của cách phân loại này nhằm giúp cho người nghiên cứu xác định trước các phương pháp xử lý, tổng hợp và phân tích cần sử dụng cho từng loại dữ liệu sao cho phù hợp và đáp ứng mục tiêu nghiên cứu đặt ra
- Căn cứ nguồn cung cấp:
Theo nguồn cung cấp thông tin có hai loại dữ liệu: dữ liệu thứ cấp và dữ liệu sơ cấp
* Dữ liệu thứ cấp là dữ liệu thu thập từ những nguồn có sẵn Những dữ liệu này
đã qua tổng hợp, xử lý công bố hay xuất bản
Ví dụ 1.23: Những dữ liệu về kết quả học tập của sinh viên có thể lấy ở phòng đào tạo hay trợ lý đào tạo của từng khoa
Dữ liệu thứ cấp có ưu điểm là thu thập nhanh, rẻ nhưng thiếu chi tiết và đôi khi không đáp ứng đúng yêu cầu nghiên cứu
Nguồn dữ liệu thứ cấp khá phong phú thường gặp ở các nguồn chủ yếu sau:
- Nội bộ: Các số liệu báo cáo về tình hình sản xuất, tiêu thụ, tài chính, vật tư, nhân sự của các phòng ban, bộ phận; các số liệu báo cáo từ các cuộc điều tra khảo sát trước đây ở từng đơn vị (doanh nghiệp, cơ quan, ban, ngành )
Trang 9- Cơ quan thống kê nhà nước: Các số liệu do các cơ quan thống kê nhà nước (Tổng cục Thống kê, Cục Thống kê, Phòng Thống kê ) cung cấp trong các niên giám thống kê
- Cơ quan chính phủ: Số liệu do các cơ quan trực thuộc Chính phủ (Bộ, cơ quan ngang bộ, Uỷ ban nhân dân các cấp) công bố hay cung cấp Các số liệu này thường chi tiết hơn, mang tính chất đặc thù của ngành hay địa phương
- Sách, báo, tạp chí đã xuất bản Các số liệu này thường mang tính thời sự và cập nhật cao, mức độ tin cậy tuỳ thuộc vào nguồn số liệu của từng tờ báo hay tạp chí;
- Các tổ chức, hiệp hội, viện nghiên cứu, trường đại học;
- Các công ty nghiên cứu và cung cấp thông tin
* Dữ liệu sơ cấp (thông tin gốc) là dữ liệu không có sẵn, dữ liệu ban đầu thu
thập trực tiếp từ đối tượng nghiên cứu
Ví dụ 1.24: Các dữ liệu có liên quan đến việc tự học của sinh viên là các dữ liệu sơ cấp, không có sẵn mà chúng ta muốn có phải điều tra từ sinh viên
- Dữ liệu sơ cấp có ưu điểm là chi tiết, độ tin cậy cao đối với các tình huống cụ thể Song hạn chế của nó là thu thập tốn kém, phụ thuộc vào trình độ chủ quan của người nghiên cứu (nhất là những tình huống dự báo)
CÂU HỎI ÔN TẬP CHƯƠNG 1
1 Trình bày các khái niệm căn bản thường được dùng trong thống kê
2 Trình bày các loại thang đo trong thống kê
Trang 10CHƯƠNG 2: THỐNG KÊ MÔ TẢ
Dữ liệu mới thu thập được thường rất nhiều và rối rắm, khó nhận thức về hiện tượng nghiên cứu Các phương pháp thống kê mô tả giúp tóm lược dữ liệu, lược bỏ những thứ rườm rà, khó hiểu, nhờ đó nhận thức được những đặc trưng cốt lõi nhất của hiện tượng
2.1 Mô tả dữ liệu cho một tiêu thức định tính bằng bảng phân phối và biểu đồ 2.1.1 Lập bảng phân phối
- Trường hợp tiêu thức thuộc tính có ít biểu hiện: Mỗi biểu hiện của tiêu thức
có thể hình thành 1 tổ
Ví dụ 2.1: 2 giới tính, 5 thành phần kinh tế
- Trường hợp tiêu thức thuộc tính có nhiều biểu hiện: Ghép một số tổ nhỏ
thành tổ lớn tùy theo đặc điểm hiện tượng và yêu cầu về mức độ chi tiết khi phân tổ Cần bảo đảm yêu cầu các tổ nhỏ được ghép phải giống nhau hoặc gần giống nhau về đặc điểm và tính chất Việc ghép tổ này đạt được hai mục đích, làm cho số tổ ít đi và đảm bảo giữa các tổ có sự khác nhau về đặc điểm, tính chất
Ví dụ 2.2: Mặc dù chỉ có 5 thành phần kinh tế nhưng theo mục đích nghiên cứu, ta chỉ cần phân tổ theo 2 thành phần: Nhà nước và ngoài Nhà nước
2.1.2 Trình bày bằng biểu đồ
Phân phối của tiêu thức định tính thường được mô tả (trình bày) bằng biểu đồ hình tròn hay biểu đồ hình thanh Trình bày dữ liệu trong bảng phân phối lên đồ thị thích hợp sẽ giúp ta mô tả tóm tắt các đặc trưng phân phối của hiện tượng nghiên cứu bằng hình ảnh
2.2 Mô tả dữ liệu cho một tiêu thức định lượng bằng bảng phân phối và biểu đồ 2.2.1 Lập bảng phân phối
Căn cứ vào mức độ thay đổi lượng biến của tiêu thức mà ta phân ra hai trường
hợp sau:
- Trường hợp 1: Tiêu thức số lượng có ít biểu hiện
Mỗi lượng biến hình thành một tổ (số tổ bằng số lượng biến) Trường hợp này được gọi là phân tổ không có khoảng cách tổ
Trang 11Ví dụ 2.3: Phân tổ công nhân sản suất trong một công ty dệt theo số máy do mỗi công nhân đảm trách, như số nhân khẩu trong gia đình, Phân tổ công nhân doanh theo bậc thợ…
- Trường hợp 2: Tiêu thức số lượng có nhiều biểu hiện
- Ta phân tổ có khoảng cách tổ và mỗi tổ có một giới hạn
+ Giới hạn trên: lượng biến nhỏ nhất của tổ
+ Giới hạn dưới: lượng biến lớn nhất của tổ
+ Tổ thiếu một trong hai giới hạn gọi là tổ mở
+ Trị số chênh lệch giữa giới hạn trên và giới hạn dưới của mỗi tổ gọi là khoảng cách tổ
- Cần chú ý mối liên hệ giữa lượng và chất trong phân tổ, xét cụ thể xem lượng biến tích luỹ đến một mức độ nào đó thì chất của hiện tượng mới thay đổi và làm nảy sinh ra một tổ khác
- Tùy theo mục đích nghiên cứu, người ta phân ra: phân tổ có khoảng cách tổ đều và phân tổ có khoảng cách tổ không đều
- Phân tổ có khoảng cách tổ đều nhau: được thực hiện với những hiện tượng
tương đối đồng nhất về mặt loại hình kinh tế xã hội và lượng biến mà sự biến đổi về chất đều đặn từ nhỏ đến lớn, thấp đến cao có hai trường hợp như sau:
+ Đối với lượng biến liên tục, việc phân tổ gồm các bước sau đây:
Bước 1: Xác định số tổ 𝑛 ≈ √2 × 𝑘3 , với k là số quan sát (cỡ mẫu)
Bước 2: Xác định khoảng cách tổ : ℎ =𝑥𝑚𝑎𝑥 −𝑥𝑚𝑖𝑛
𝑛Trong đó: xmax và xmin tương ứng là lượng biến lớn nhất và lượng biến nhỏ nhất của tiêu thức
Bước 3: Sắp xếp các đơn vị vào từng tổ
Lưu ý: Nếu giá trị quan sát trùng với giới hạn trên của một tổ thì nó được xếp
và tổ tiếp theo
Ví dụ 2.4: Phân tổ 30 công nhân tại một doanh nghiệp theo tiêu thức mức thu nhập tháng của một công nhân Biết rằng số liệu thu thập được như sau
Trang 12Đơn vị: 1000 đồng 3.000 3.200 3.350 3.200 3.700 3.500 3.800 3.900 4.000 3.850 3.400 3.500 3.600 3.400 3.600 3.600 3.500 3.600 3.750 3.500 3.400 3.550 4.000 3.100 3.550 3.600 3.550 3.600 3.400 3.400 Nếu dự kiến chia thành 5 tổ thì ℎ =4.000−3.0005 = 200
Dựa vào h = 200 ta thành lập các tổ và sắp xếp số công nhân vào các tổ thích hợp Khi đó ta có bảng phân tổ công nhân theo mức thu nhập tháng:
Mức thu nhập tháng của một công nhân
(1000 đồng)
Số công nhân (người)
4, sau đó tính khoảng cách tổ h và phân tổ tương tự như trên
+ Đối với lượng biến rời rạc, các tổ được thiết lập theo quy định như sau: giới
hạn dưới của tổ sau lớn hơn giới hạn trên của tổ trước (thường là một đơn vị) và trị số của khoảng cách tổ được xác định theo công thức dưới đây:
h =xmax− xmin− (n − 1)
𝑛
Trang 13Ví dụ 2.5: Có tài liệu về số công nhân của 20 doanh nghiệp sản xuất công nghiệp như sau:
+ Phân tổ có khoảng cách tổ không đều: được áp dụng khi hiện tượng có lượng
biến trên các đơn vị tổng thể biến động không đều Khi đó ta phân tổ dựa trên việc phân tích quan hệ lượng - chất, có nghĩa là khi lượng biến thay đổi làm cho chất thay đổi thì phải hình thành tổ mới, còn khi lượng biến thay đổi mà chất vẫn chưa thay đổi thì ghép các đơn vị đó vào một tổ
Trang 14Ví dụ 2.6: Để nghiên cứu lực lượng lao động của một nước, một địa phương người ta phân tổ dân số theo độ tuổi như sau:
+ < 6 tuổi: giáo dục mầm non
+ 6 – 18 tuổi: giáo dục phổ thông
+ 19 – 55 tuổi: trong độ tuổi lao động
+ > 55 tuổi: ngoài độ tuổi lao động nhưng có khả năng lao động
2.2.2 Trình bày bằng biểu đồ
Phân phối của tiêu thức định lượng thường được mô tả bằng các loại biểu đồ như biểu đồ điểm, biểu đồ phân phối, biểu đồ hình cung hay biểu đồ cành và lá
2.3 Mô tả một tiêu thức định lượng bằng các chỉ tiêu thống kê
2.3.1 Các chỉ tiêu đo lường khuynh hướng tập trung
Khi cần nhận thức khái quát nhất về một tiêu thức định lượng điều trước tiên chúng ta cần biết là tâm điểm của biến Các chỉ tiêu thống kê đo lường khuynh hướng tập trung đáp ứng yêu cầu này Có 3 loại chỉ tiêu thường dùng nhất là số trung bình, trung vị và mode
2.3.1.1 Số trung bình
Số bình quân cộng được tính bằng cách lấy tổng lượng biến của tiêu thức chia cho tổng số đơn vị tổng thể (tổng các tần số)
a)Trường hợp dữ liệu mẫu
+ Với dữ liệu không có tần số: 𝑥̅ = 𝑥1 +𝑥 1 +𝑥 3 +⋯+𝑥 𝑛
𝑛 =∑𝑛𝑖=1𝑥𝑖
𝑛Trong đó: - 𝑥̅ : Số trung bình mẫu
- fi là các tần số (quyền số) của lượng biến (i = 1, 2, 3, , n)
Ví dụ 2.7 : Có số liệu về tiền lương của 50 công nhân thể hiện như sau:
Trang 15Tiền lương (1000 đồng) (xi ) Số công nhân (fi) xi x fi
Một số trường hợp đặc biệt:
- Với dữ liệu được phân tổ có khoảng cách tổ
𝑥̅ =∑ 𝑥𝑖 × 𝑓𝑖
𝑛 𝑖=1
∑𝑛 𝑓𝑖𝑖=1Trong đó: - 𝑥𝑖 = (𝑥𝑖𝑚𝑖𝑛 + 𝑥𝑖𝑚𝑎𝑥 )/2: trị số giữa tổ i
- fi là các tần số (quyền số) của lượng biến (i = 1, 2, 3, , n)
Ví dụ 2.8: có bảng phân phối tần số 600 người tiêu dùng
53
68 Trong đó, tổ đầu và tổ cuối gọi là tổ mở có trị số giữa được tính dựa vào khoảng cách tổ của tổ gần chúng nhất
Trị số giữa của tổ thứ nhất: (15+(15-9))/2 =10,5
Trang 16Tuổi trung bình của 600 người tiêu dùng
∑ 𝑓𝑖
∑ 𝑓𝑖
∑ 𝑓𝑖
𝑛 𝑖=1
= ∑𝑛𝑖=1𝑥𝑖 ×𝑑𝑖
∑𝑛𝑖=1𝑑𝑖Trong đó: 𝑑𝑖 = 𝑓𝑖
∑ 𝑓𝑖 là tỉ trọng của từng bộ phận trong tổng thể + 𝑥̅ = ∑𝑛 𝑥𝑖 × 𝑑𝑖
𝑖=1 : nếu di biểu hiện số lần + 𝑥̅ =∑𝑛𝑖=1𝑥𝑖 ×𝑑𝑖
100 : nếu di biểu hiện bằng số %
Ví dụ 2.9: Có số liệu về mức lương và tỷ trọng số công nhân nhận mức lương đó trong tổng số công nhân như sau:
Tiền lương (1000 đồng) (xi ) Số công nhân (di) (100%
Các công thức tính số trung bình tổng thể tương tự số trung bình mẫu.Tuy nhiên
để phân biệt người ta thường dùng ký hiệu khác nhau như sau:
+ Với dữ liệu không có tần số: 𝜇̅ = ∑𝑛𝑖=1𝑥𝑖
𝑁
Trang 17- fi là các tần số (quyền số) của lượng biến (i = 1, 2, 3, , n)
2.3.1.2 Mode (M o )
a) Khái niệm: Mode là biểu hiện của một tiêu thức xuất hiện nhiều lần nhất
trong tổng thể hay trong một dãy phân phối
b) Cách tính mode
* Đối với dãy số lượng biến không có khoảng cách tổ: Mode là lượng biến có tần
số lớn nhất
* Đối với dãy số lượng biến có khoảng cách tổ:
- Nếu các tổ có khoảng cách tổ bằng nhau thì tổ nào có tần số lớn nhất là tổ chứa mode Trị số mode được tính theo công thức
M0 = x0min+ 𝑑0 𝑓0− 𝑓0−1
(𝑓0− 𝑓0−1) + (𝑓0− 𝑓0+1)Trong đó: - M0 là ký hiệu của mode
- x0min: giới hạn dưới của tổ chứa M0
- d0: khoảng cách tổ chứa M0
- f0: tần số của tổ chứa M0
- f0-1: tần số của tổ đứng trước tổ chứa M0
- f0+1: tần số của tổ đứng sau tổ chứa M0
Ví dụ 2.10 : Có tài liệu về NSLĐ tháng của công nhân trong một doanh nghiệp như sau:
Trang 18NSLĐ (tấn/người) (xi) Số công nhân (người) (fi)
Yêu cầu: Tính mode về năng suất lao động tháng của công nhân
Trước hết, ta xác định được tổ có năng suất lao động từ 55 – 60 (tấn/người) là tổ
có chứa mode Áp dụng công thức tính M0 ta có:
(ℎ0−ℎ0−1)+(ℎ0−ℎ0+1)Mode kém nhạy bén với sự biến thiên của tiêu thức, không nên vận dụng mode với những dãy số lượng biến có đặc điểm phân phối không bình thường Trong một số trường hợp, một dãy số phân phối có thể có nhiều Mode, có thể lại không có Mode Khi đó ta không nên tính Mode
Trang 192.3.1.3 Số trung vị (M e )
a) Khái niệm: Số trung vị là lượng biến của đơn vị đứng ở vị trí chính giữa
trong dãy số lượng biến Số trung vị phân chia dãy số lượng biến làm hai phần, mỗi
phần có số đơn vị tổng thể bằng nhau
b) Cách tính số trung vị
* Dãy số lượng biến không phân tổ: Trước hết cần sắp xếp lượng biến theo
thứ tự từ nhỏ đến lớn
- Nếu số lượng biến lẻ thì số trung vị là lượng biến đứng ở vị trí giữa dãy số
- Nếu số đơn vị tổng thể chẳn thì số trung vị sẽ là trung bình cộng giữa hai lượng biến của hai đơn vị đứng giữa
* Dãy số lượng biến phân tổ
- Không có khoảng cách tổ: Ta xác định tổ chứa trung vị Đó là tổ đầu tiên có
tần số tích luỹ (tần số cộng dồn) bằng hoặc vượt một nửa tổng các tần số (𝑠𝑒 ≥∑ 𝑓𝑖
2 )
Ví dụ 2.11: Xét ví dụ về NSLĐ của công nhân doanh nghiệp A:
NSLĐ (Sản phẩm) xi Số công nhân (Người) fi Tần số tích luỹ (Si)
Trang 20- Có khoảng cách tổ, cần phải xác định tổ chứa trung vị, đó là tổ đầu tiên có tần
số tích luỹ (tần số cộng dồn) bằng hoặc vượt một nửa tổng các tần số (𝑠𝑒 ≥∑ 𝑓𝑖
- xemin: giới hạn dưới của tổ chứa Me
- de: khoảng cách tổ có chứa Me
- fe: tần số của tổ có chứa Me
- ∑𝑓𝑖 : tổng các tần số
- Se-1: tổng các tần số của các tổ đứng trên tổ chứa Me
Ví dụ 2.12: Có tài liệu về năng suất lao động năm N của công nhân trong một doanh nghiệp như sau:
NSLĐ (tấn/người) (x) Số công nhân (người) (f) Tần số tích luỹ
Trang 21𝑀𝑒 = 50 + 5 ×
100
2 −30
25 = 54 (tấn/người)
2.3.2 Các chỉ tiêu đo lường độ phân tán
Các chỉ tiêu đánh giá độ phân tán giúp ta xem xét trình độ đại biểu của số bình quân Nếu trị số của các chỉ tiêu này tính ra càng lớn thì độ biến thiên của tiêu thức càng nhiều, tổng thể càng kém đồng đều, do đó trình độ đại biểu của số bình quân càng thấp và ngược lại
2.3.2.1 Khoảng biến thiên của tiêu thức (toàn cự): (R)
* Khái niệm: Khoảng biến thiên của tiêu thức là độ chênh lệch giữa lượng biến
lớn nhất và lượng biến nhỏ nhất của tiêu thức nghiên cứu
* Công thức tính: R = xmax - xmin
R càng nhỏ thì tổng thể càng đồng đều, số bình quân có tính chất đại biểu càng cao và ngược lại
Ví dụ 2.13: Có tài liệu về mức năng suất lao động của công nhân ở 2 tổ sản xuất, mỗi tổ có 5 người trong doanh nghiệp A lần lượt như sau:
Tổ 1: 40 50 60 70 80 (kg) 𝑥̅ = 60 kg/người 1
Tổ 2: 58 59 60 61 62 (kg) 𝑥̅̅̅ = 60 kg/người 2
Như vậy mức năng suất lao động bình quân mỗi tổ đều là 60 kg/người, nhưng thực ra hai tổ này không đồng đều về tay nghề Để đánh giá mức độ biến thiên của năng suất lao động bình quân và qua đó đánh giá tính chất đại biểu của số bình quân,
ta tính khoảng biến thiên của hai tổ:
R1 = 80 – 40 = 40 kg
R2 = 62 – 58 = 4 kg
Kết quả cho thấy R1 lớn hơn R2, có nghĩa là độ biến thiên tiêu thức trong tổ 1 lớn hơn ( hay mức năng suất lao động bình quân của các công nhân trong tổ 1 chênh lệch nhiều hơn so với tổ 2), vì vậy tính chất đại biểu của số bình quân tổ 1 thấp hơn
2.3.2.2 Độ lệch tuyệt đối bình quân (𝒅̅)
* Khái niệm: Độ lệch tuyệt đối bình quân là số bình quân cộng của các độ lệch
tuyệt đối giữa lượng biến (xi) với số bình quân các lượng biến đó
* Công thức tính:
Trang 22- Nếu xi không có tần số fi: 𝑑̅ = ∑ni=1|xi −x̅|
𝑛
- Nếu xi có tần số fi tương ứng: 𝑑̅ = ∑ni=1|xi −x̅|
∑ni=1fiTrong đó: - xi: các lượng biến (i =1, 2, 3, , n)
- x : số bình quân cộng của các lượng biến xi
- fi : các tần số
Độ lệch tuyệt đối bình quân phản ánh tốc độ biến thiên của tiêu thức chặt chẽ hơn khoảng biến thiên của tiêu thức vì nó xét tất cả lượng biến trong dãy số Trị số của độ lệch tuyệt đối bình quân càng nhỏ thì tiêu thức càng ít biến thiên, tính chất đại biểu của số bình quân càng cao và ngược lại
Ví dụ 2.14: Từ số liệu về năng suất lao động bình quân ở hai tổ sản xuất trong
ví dụ phần trên ta tính độ lệch tuyệt đối bình quân như sau:
* Khái niệm: Phương sai là số bình quân cộng của bình phương các độ lệch
giữa lượng biến với số bình quân của các lượng biến đó
* Công thức tính:
Phương sai tổng thể (𝛔𝟐): 𝝈𝟐 = ∑(𝒙𝒊 − 𝝁)𝟐
𝑵Trong đó,
𝜎2 : phương sai của tổng thể
Trang 23𝑆2 : phương sai mẫu
x̅ : trung bình của mẫu
xi : Lượng biến của dãy số (với i từ 1 n)
n : Tổng số đơn vị của mẫu (kích cỡ mẫu)
Phương sai mẫu (𝐒𝟐) với các lượng biến có tần số (f i ):
S2 =∑ (𝑥𝑖 − 𝑥̅)
2× 𝑓𝑖
𝑛 𝑖=1
S : độ lệch chuẩn của mẫu
x̅ : trung bình của mẫu
xi : Lượng biến của dãy số (với i từ 1 n)
n : Tổng số đơn vị của mẫu (kích cỡ mẫu)
Độ lệch tiêu chuẩn càng lớn thì tính chất đại biểu của số bình quân càng thấp
và ngược lại
Trang 24Ví dụ 2.15: Chiều cao bình quân một sinh viên trong lớp học là 160 cm, độ lệch tiêu chuẩn về chiều cao là 8 cm Cũng trong lớp học đó, trọng lượng bình quân của một sinh viên là 50 kg, độ lệch tiêu chuẩn về trọng lượng là 4 kg Muốn so sánh độ biến thiên của tiêu thức chiều cao và trọng lượng, ta tính các hệ số biến thiên sau:
2.4 Các chỉ tiêu mô tả hình dáng phân phối 1 tiêu thức định lượng
Hình dáng phân phối là một trong những đặc trưng quan trọng của dãy số phân phối Nó cho ta hình ảnh phân phối của tổng thể trên một tiêu thức định lượng Hình dáng phân phối thể hiện rõ qua tính đối xứng và độ dốc của phân phối
Phân phối đối xứng (Symmetrical distribution)
Mean = Median = Mode ( 𝒙̅ = Me = Mo )
Trang 25Phân phối lệch trái (Skewed-left distribution)
Mean < Median < Mode ( 𝒙̅ < Me < Mo ) Phân phối lệch phải (Skewed-right distribution)
Mode < Median < Mean ( 𝒙̅ < Me < Mo )
- Để mô tả tính đối xứng của phân phối, người ta thường sử dụng hệ số
SKEWNESS (độ nghiêng)
𝑆𝐾𝐸𝑊 = √𝑛(𝑛 − 1)
𝑛 − 2 𝐻 Trong đó: 𝐻 = ∑(𝑥𝑖−𝑥̅)
3 𝑛
( ∑(𝑥𝑖−𝑥̅)2
𝑛 )32
Hệ số SKEW bằng không, phân phối đối xứng Hệ số SKEW dương càng lớn,
phân phối lệch phải càng nhiều Hệ số SKEW âm càng lớn phân phối lệch trái càng
nhiều
Trang 26- Để mô tả độ nhọn của phân phối, người ta thường sử dụng hệ số KURTOSIS
𝐾𝑈𝑅𝑇 =(𝑛 − 1)(𝑛 + 1)
(𝑛 − 2)(𝑛 − 3)𝐾 −
3(𝑛 − 1)2(𝑛 − 2)(𝑛 − 3)
Trong đó: 𝐾 = ∑(𝑥𝑖−𝑥̅)
4 𝑛
( ∑(𝑥𝑖−𝑥̅)2
𝑛 ) 2
Hệ số KURT bằng không, phân phối có độ dốc như phân phối chuẩn Hệ số KURT dương càng lớn, phân phối càng dốc hơn phân phối chuẩn Hệ số KURT âm càng lớn phân phối càng ít dốc hơn phân phối chuẩn
CÂU HỎI ÔN TẬP CHƯƠNG 2
1 Trình bày nội dung lập bảng phân phối đối với tiêu thức định tính và tiêu thức định lượng
2 Nêu công thức xác định các chỉ tiêu đo lường khuynh hướng tập trung
2 Nêu công thức xác định các chỉ tiêu đo lường độ phân tán
Trang 27CHƯƠNG 3: PHÂN PHỐI CHUẨN VÀ PHÂN PHỐI MẪU
Các khái niệm và tính chất liên quan đến phân phối của tổng thể chúng ta đã nghiên cứu ở môn xác suất thống kê toán Ở đây chỉ mang tính chất nhắc lại một cách khái quát nhất
3.1 Phân phối chuẩn
Quy luật phân phối chuẩn (gọi tắt là phân phối chuẩn) là quy luật đóng vai trò chủ đạo trong lý thuyết thống kê suy luận, bởi vì hầu hết các hiện tượng trong cuộc sống đều tuân theo quy luật phân phối chuẩn; mặt khác quy luật phân phối chuẩn còn được dùng để xấp xỉ các quy luật phân phối của biến ngẫu nhiên rời rạc, hoặc được dùng để xấp xỉ các quy luật phân phối khác của biến ngẫu nhiên liên tục Trong thực
tế, nhiều biến ngẫu nhiên tuân theo quy luật phân phối chuẩn hoặc gần chuẩn, chẳng hạn như trọng lượng và chiều cao của người lớn, mức độ thông minh của trẻ em, điểm
thi của các thí sinh…
Tính chất của hàm phân phối chuẩn:
- ∫−∞+∞𝜎√2𝜋1 𝑒−(𝑥−𝜇)22𝛿2 dx =1 chính là diện tích giới hạn bởi đồ thị f(x) và trục hoành
- Đồ thị đối xứng với nhau qua đường thẳng x = 𝜇
- X có trung bình là 𝜇 và phương sai là 𝛿2
Trang 283.1.2 Phân phối chuẩn tắc (đơn giản):
Đối với biến ngẫu nhiên có phân phối chuẩn, việc tính toán xác suất theo công thức rất phức tạp Do đó để việc tính toán được đơn giản, người ta chuyển quy luật phân phối chuẩn trở thành quy luật phân phối chuẩn chuẩn tắc (còn gọi là phân phối chuẩn hóa)
- Khái niệm: Cho biến ngẫu nhiên X có quy luật phân phối chuẩn với trung
bình là μ và phương sai là δ2; khi đó bằng phép biến đổi biến : ta có thể biến đổi
biến ngẫu nhiên X thành biến ngẫu nhiên Z có quy luật phân phối chuẩn chuẩn hóa
với số trung bình là 0 và phương sai là 1
Quy luật phân phối chuẩn chuẩn hoá là quy luật phân phối xác suất của biến ngẫu nhiên liên tục Z, trong đó Z sẽ nhận các giá trị từ -∞ đến +∞ với hàm mật độ xác suất có dạng : ft = 1
√2πe−t22
Biến ngẫu nhiên Z có phân phối chuẩn chuẩn hóa được ký hiệu: Z ~ N(0,1)
- Cách tính: Dựa vào bảng tính tích phân Laplace, trong đó tính sẵn xác suất để
biến ngẫu nhiên Z nhận giá trị trong đoạn từ 0 và z :
Zα là một số sao cho p (Z > 𝑍𝛼 ) = 𝛼 Đây chính là xác suất sai lầm mà ta
thường dùng trong thống kê Một vài giá trị đặc biệt:
Trang 29𝛼 0,005 0,010 0,025 0,050 0,100
𝒁𝜶 2,575 2,330 1,960 1,645 1,280
3.2 Phân phối của một vài đại lượng thống kê:
3.2.1 Phân phối “Khi bình phương”:
Nếu xi là những biến ngẫu nhiên chọn từ một phân phối chuẩn thì (n-1)𝑆
2
𝜎2 có phân phối 𝑋2 với độ tự do là (n-1)
Ký hiệu: (n-1)𝑆
2
𝜎 2 ~ 𝜒𝑛−12 hay Z2 ~ 𝜒𝑛−12
- Nếu n lớn thì phân phối Chi bình phương sẽ sắp sỉ phân phối chuẩn
- Không giống như hàm phân phối chuẩn, phân phối không đối xứng 𝜒2 chỉ có giá trị dương từ 0 đến vô cùng Phân phối 𝜒𝟐 là một phân phối nghiêng, với độ nghiêng phụ thuộc vào bậc tự do Khi bậc tự do thấp, phân phối này bị nghiêng phải, nhưng khi bậc tự do tăng lên, phân phối sẽ đối xứng và dần về phân phối chuẩn
- Giá trị trung bình của một biến ngẫu nhiên theo phân phối Chi bình phương chính là độ tự do (n-1) và phương sai là 2.(n-1)
3.2.2 Phân phối Student (𝐭- t distribution)
Phân phối Student là phân phối xác suất liên hệ gần với phân phối chuẩn, được
áp dụng trong trường hợp chưa biết phương sai tổng thể (𝜎2); phân phối này đối xứng qua trung bình bằng 0 và có độ tự do (n-1)
t = x̅ − μ
S √n⁄ ~tn−1Hàm phân phối t có đồ thị gần giống như đồ thị hàm phân phối chuẩn nhưng độ nhọn thấp hơn Tuy nhiên, nếu n lớn thì phân phối Student sẽ sấp sỉ phân phối chuẩn
Khái niệm 𝑡 : t là một số sao cho p(t > t ) = α
Trang 30Định nghĩa này tương tự như định nghĩa 𝑍𝛼 Muốn tìm giá trị này ta có thể tra bảng ở phụ lục – bảng phân vị Student bằng phương pháp tọa độ
3.2.3 Phân phối Fisher (𝐅 distribution)
Giả sử 2 mẫu độc lập có nX, nY quan sát lấy từ hai tổng thể có phân phối chuẩn, lần lượt có 𝜎2𝑋; 𝜎2𝑌 và S2X; S2Y thì khi đó biến ngẫu nhiên này có phân phối Fisher với bậc tự do tử (nX-1) và bậc tự do mẫu (nY-1)
F=𝑺𝑿𝟐⁄ 𝜹𝑿𝟐
𝑺𝒀/𝜹𝒀~𝐅𝐧𝐱−𝟏;𝐧𝐲−𝟏Trong thực tế khi kiểm định sự bằng nhau của hai phương sai tổng thể và khi đó
𝐹 =𝑆𝑋
2
𝑆𝑌2
Khái niệm 𝐹𝑛𝑥−1;𝑛𝑦−1;𝛼: Fnx−1;ny−1;α là một số sao cho P(F>Fnx−1;ny−1;α) = α
Định nghĩa này tương tự như định nghĩa 𝑍𝛼.Muốn tìm giá trị này ta có thể tra bảng ở phụ lục 4 – bảng phân vị Fisher bằng phương pháp tọa độ
3.3 Phân phối mẫu
- Khái niệm
Phân phối mẫu là phân phối của các kết quả được ước lượng, thống kê từ mẫu quan sát của một tổng thể nào đó
Phân phối mẫu có 3 trường hợp:
+ Phân phối mẫu của trung bình mẫu (x̅) để ước lượng trung bình của tổng thể (μ) + Phân phối mẫu của phương sai mẫu (S2) để ước lượng phương sai của tổng thể (σ2) + Phân phối mẫu của tỷ lệ mẫu (p̂) để ước lượng phương sai của tổng thể (p)
- Định lý giới hạn trung tâm:
Trong thực tế thường gặp là ta không biết về phân phối tổng thể hoặc tổng thể không có phân phối chuẩn Trong những trường hợp đó định lý giới hạn trung tâm giúp ta giải quyết vấn đề khi xem xét phân phối mẫu
Định lý: Khi cỡ mẫu n đủ lớn thì phân phối của trung bình mẫu sẽ xấp xỉ phân
phối chuẩn, bất chấp hình dáng phân phối của tổng thể
Trang 31Định lý: Một biến ngẫu nhiên là tổng của nhiều biến ngẫu nhiên khác sẽ có phân
phối xấp xỉ phân phối chuẩn
- Một vài tính chất của phân phối mẫu:
- Nếu X có phân phối 𝜒𝑚2 thì 𝑛 x̅ thì cũng có phân phối 𝜒𝑛𝑚2
- Nếu X có phân phối chuẩn N(μ; σ2) thì:
1/ 𝑛 x̅ cũng có phân phối chuẩn N(nμ, nσ2) và x̅ ~ N(μ, σ2/n)
2/ Với kích thước mẫu khá lớn (n ≥30), thì phân phối của trung bình mẫu sẽ xấp
xỉ phân phối chuẩn và 𝐱̅ − 𝛍
𝛔 √𝐧 ⁄ có phân phối chuẩn tắc
Câu 2: Tìm hiểu và trình bày tóm tắt một số phân phối của một đại lượng thống kê:
Phân phối “Khi bình phương”, Phân phối Student (t- t distribution), Phân phối Fisher (F distribution)
Trang 32CHƯƠNG 4: ƯỚC LƯỢNG THAM SỐ CỦA TỔNG THỂ
Trong phần này sẽ đề cập đến việc suy luận các đặc trưng của tổng thể dựa trên các đặc trưng của mẫu Tức là ước lượng các đặc trưng của tổng thể (chưa biết) từ các đặc trưng của mẫu dữ liệu thu thập được Các đặc trưng của tổng thể có thể là giá trị trung bình, phương sai hoặc tỷ lệ các đơn vị của tổng thể có một tính chất nào đó
4.1 Các khái niệm
4.1.1 Khái niệm ước lượng:
Ước lượng tham số là tính toán một cách gần đúng nhất giá trị của một tham số chưa biết trong tổng thể dựa trên thông tin từ một mẫu Có nhiều tham số trong tổng thể, nhưng ta sẽ tập trung vào ba tham số chính:
Ước lượng trung bình tổng thể: μ
Ước lượng phương sai tổng thể: 𝛿2
Ước lượng tỷ lệ tổng thể: p
Thay vì phải viết với ba tham số μ, δ2, p riêng biệt, tạm thời dùng ký hiệu chung là tham số θ (đọc là tê – ta)
Khi ước lượng cho tham số θ dựa trên thông tin từ mẫu, có hai loại ước lượng
là ước lượng điểm và ước lượng khoảng
4.1.2 Khái niệm ước lượng điểm
Ước lượng tham số bằng một giá trị tính toán trên mẫu gọi là ước lượng điểm cho tham số đó Với mẫu ngẫu nhiên thì giá trị đó là một thống kê ngẫu nhiên, với mẫu cụ thể thì giá trị đó là một con số
Ví dụ 4.1: Trong thực tế ta thường dùng khái niệm ước lượng điểm như khi nói:
“ước lượng cho lạm phát là 6,5%”; “ước lượng mức tăng trưởng kinh tế là 8%”, nghĩa
là chỉ dùng một con số duy nhất để ước lượng
Ước lượng điểm trong thống kê toán là tìm ra một giá trị, tính toán trên mẫu, do
đó tùy thuộc mẫu mà kết quả sẽ có thể khác nhau Do các tham số đặc trưng của tổng thể được ước lượng thông qua một mẫu được chọn nên khi thay đổi từ mẫu này sang mẫu khác sẽ dẫn đến các tham số đặc trưng của tổng thể cũng thay đổi Tuy nhiên với một tham số của tổng thể, có nhiều cách để tìm được một ước lượng điểm Trong số nhiều ước lượng điểm, cần tìm ra ước lượng điểm chính xác nhất Để lựa chọn ước lượng tốt, cần có tiêu chuẩn đặt ra
Tiêu chuẩn lựa chọn ước lượng điểm
Trang 33Một ước lượng điểm là tốt khi nó không có sai lầm mang tính hệ thống, và sai lầm ngẫu nhiên phải ở mức nhỏ nhất
Tính không chệch: Thống kê 𝜃̂ của mẫu gọi là ước lượng không chệch của tham số 𝜃 của tổng thể, nếu: E(𝜃̂) = 𝜃̂
Nếu E(𝜃̂) ≠ 𝜃 thì 𝜃̂ là ước lượng chệch của 𝜃̂ Ước lượng chệch sẽ dẫn đến những sai lệch mang tính hệ thống, ước lượng cao quá hoặc thấp quá giá trị cần ước lượng
Tính hiệu quả : Thống kê 𝜃̂ của mẫu gọi là ước lượng hiệu quả của tham số 𝜃
của tổng thể nếu 𝜃̂ là ước lượng không chệch và có phương sai nhỏ nhất trong số các ước lượng không chệch của 𝜃
Như vậy ước lượng hiệu quả trước tiên phải là ước lượng không chệch Ước lượng không chệch và hiệu quả được gọi là ước lượng tốt nhất
4.1.3 Khái niệm ước lượng khoảng:
Ước lượng tham số bằng một khoảng tính toán trên mẫu, sao cho xác suất để khoảng đó chứa con số cần tìm là một giá trị đủ lớn, gọi là ước lượng khoảng cho tham số đó
Ví dụ 4.2: “ước lượng mức lạm phát là trong khoảng 6% đến 7%” Khi ước lượng khoảng ta mong muốn khoảng đó chứa con số cần tìm là đúng với khả năng cao nhất
Ước lượng khoảng cho tham số 𝜃 là tìm một khoảng (𝜃1, 𝜃2) sao cho: P(𝜃1 <
𝜃 < 𝜃2) là con số đủ lớn Nếu ký hiệu xác suất cho phép sai là α thì xác suất yêu cầu đúng là (1- α ) , ta có: P (𝜃1 < 𝜃 < 𝜃2) =1 – α
Khi đó ta có các cách gọi như sau:
- Khoảng (𝜃1, 𝜃2) gọi là khoảng tin cậy của tham số 𝜃
- Giá trị (1 – α) gọi là độ tin cậy của ước lượng
- Đại lượng I = 𝜃1− 𝜃2 gọi là độ dài khoảng tin cậy
Ước lượng khoảng có độ dài khoảng tin cậy càng ngắn là càng tốt Thông thường lấy độ tin cậy là 95% hay nói khác đi là xác suất đúng là 95%, cho phép sai là 5%
Trang 344.1.4 Khái niệm về khoảng tin cậy
Khoảng tin cậy là một dãy giá trị mà trong đó các tham số của tổng thể như
𝜇, 𝑝, 𝜎2 cần được ước lượng trong khoảng này
N+ Tỷ lệ tổng thể: 𝑝 = 𝑋
𝑁
- Các thống kê mẫu cơ bản
+ Trung bình mẫu với dữ liệu không có tần số: x̅ = ∑ni=1xi
n+ Trung bình mẫu với dữ liệu có tần số : x̅ = ∑ni=1xi ×fi
∑ni=1f i + Phương sai mẫu với dữ liệu không có tần số (S2): S2 = ∑(𝒙𝒊 −𝒙̅)𝟐
𝒏 −𝟏+ Tỷ lệ mẫu: 𝑝̅ = 𝑥𝑛
4.3 Ước lượng điểm
- Ước lượng điểm trung bình tổng thể
𝑍𝛼
0
α
1 − α
Trang 35Ước lượng điểm không chệch cho trung bình tổng thể 𝜇 chính là trung bình mẫu 𝑥̅ Chứng minh được khi tổng thể phân phối Chuẩn thì X cũng là ước lượng hiệu quả nhất, hay là ước lượng tốt nhất
- Ước lượng điểm tỷ lệ tổng thể
Với một tổng thể kích thước N, có M phần tử chứa dấu hiệu A, thì 𝑝 = 𝑀
𝑁 là tỷ
lệ tổng thể, hay tần suất tổng thể của dấu hiệu A Nếu coi việc xuất hiện dấu hiệu A là một biến cố, thì p chính là xác suất của biến cố đó
Với một mẫu kích thước n, tỷ lệ mẫu hay tần suất mẫu là 𝑝̂, chứng minh được 𝑝̂
là ước lượng điểm không chệch và hiệu quả nhất của p
- Ước lượng điểm phương sai tổng thể
Ước lượng không chệch cho phương sai tổng thể trong mẫu ngẫu nhiên chính là phương sai mẫu 𝑆2, vì ta đã có E(𝑆2) = 𝛿2
Tuy nhiên việc chứng minh tính hiệu quả của phương sai mẫu không dễ dàng,
kể cả khi biến ngẫu nhiên gốc phân phối Chuẩn, đặc biệt khi không có thông tin gì về trung bình tổng thể
4.4 Ước lượng khoảng
4.4.1 Ước lượng khoảng của số trung bình tổng thể
4.4.1.1 Khi đã biết phương sai của tổng thể 𝛿2
Điều kiện tổng thể có phân phối chuẩn hoặc có cỡ mẫu lớn (n>30)
Gọi x̅ là trung bình mẫu, khoảng tin cậy (1 – α) của trung bình tổng thể μ được xác định bởi
x̅ − Zα 2⁄ × σ
√n< μ < x̅ + Zα 2⁄ ×
σ
√nTrong đó: + n : số đơn vị mẫu
Trang 36+ ε = Zα 2⁄ × σ
√n : Phạm vi sai số chọn mẫu hay sai số ước lượng: Là phạm vi
chênh lệch giữa các chỉ tiêu của mẫu với các chỉ tiêu tương ứng của tổng thể ứng với
độ tin cậy nhất định
Ví dụ 4.3: Một công ty muốn ước lượng số tài liệu (trang) được chuyển bằng fax trong một ngày Kết quả thu thập từ 15 ngày cho thấy trung bình một ngày có 267 trang tài liệu được chuyển bằng fax Theo kinh nghiệm từ các văn phòng tương tự thì
độ lệch chuẩn là 32 trang Giả sử số trang tài liệu chuyển bằng fax trong một ngày có phân phối chuẩn với độ tin cậy 95%, ta ước lượng
x̅ − Zα 2⁄ × σ
√n< μ < x̅ + Zα 2⁄ ×
σ
√nVới 𝑥̅ = 267, σ = 32, n= 15, 𝑍𝛼 2⁄ = 𝑍0,025= 1.96 ta có 250,8055 < μ < 283,1945 Như vậy với độ tin cậy 95%, số lượng tài liệu chuyển trung bình một ngày được ước lượng từ 251 đến 284 trang
Trang 37tính trung bình là 18,36 giờ, độ lệch chuẩn là 3,92 giờ Như vậy với độ tin cậy 95%,
số giờ tự học trung bình của sinh viên ở trường này được ước lượng là:
x̅ − Zα 2⁄ × S
√n< μ < x̅ + Zα 2⁄ ×
S
√nVới x̅ = 18, 36; S = 3, 92; n = 200; Zα 2⁄ = Z0,025 = 1.96 ta có 17,8168 < 𝝁 < 18,9032
Nghĩa là với độ tin cậy 95%, số giờ tự học trung bình trong tuần của sinh viên được ước lượng từ 17, 8168 đến 18, 9032 giờ
Ví dụ 4.5: Công ty điện thoại ở một thành phố muốn ước lượng thời giant rung bình của các cuộc điện đàm đường dài vào những ngày cuối tuần Mẫu ngẫu nhiên 20 cuộc gọi đường dài vào những ngày cuối tuần cho thấy thời gian điện đàm trung bình
là 14,8 phút, độ lệch chuẩn là 5,6 phút Như vậy với độ tin cậy 95%, thời gian trung bình của cuộc điện đàm đường dài được xác định như sau:
x̅ − tn−1,α 2⁄ × S
√n< μ < x̅ + tn−1,α 2⁄ ×
S
√nVới x̅ = 14,8; S = 5, 6; n = 20, tn−1,α 2⁄ = t19,0,025= 2, 093
Ta có: 12,1792 < μ < 17,4208
Nghĩa là với độ tin cậy 95%, thời gian trung bình của một cuộc điện đàm đường dài vào cuối tuần được ước lượng khoảng từ 12,1792 đến 17,4208 phút
4.4.2 Ước lượng khoảng của tỉ lệ tổng thể
Trong nghiên cứu, ta quan tâm đến tỷ lệ các đơn vị có một tính chất nào đó trong tổng thể, như tỷ lệ khách hàng sử dụng một loại sản phẩm nào đó, tỷ lệ phế phẩm trong sản xuất… Khi đó ta thực hiện ước lượng cho kiểm định p của tổng thể
Giả sử mẫu ngẫu nhiên có n quan sát; 𝑝̂ là tỷ lệ các quan sát có dấu hiệu A nào đó
Trang 38Với mẫu lớn n ≥ 40, khoảng tin cậy (1 – α) của tỷ lệ p các quan sát có dấu hiệu
A trong tổng thể được xác định bởi:
p̂ − Zα 2⁄ √p̂(1 − p̂)
n < p < p̂ − Zα 2⁄ √
p̂(1 − p̂)nTrong đó: 𝑝̂: tỷ lệ mẫu
Với Z là phân phối chuẩn
Nhận xét: Khi n càng lớn thì khoảng ước lượng càng hẹp, tức độ chính xác của
ước lượng càng cao
Ví dụ 4.6: Một nghiên cứu được thực hiện nhằm ước lượng thị phần của sản phẩm nội địa (do các công ty trong nước sản xuất) đối với mặt hàng bánh kẹo Kết quả điều tra ngẫu nhiên 100 khách hàng cho thấy có 34 người dùng sản phẩm nội địa Như vậy với độ tin cậy 95%, tỷ lệ khách hàng sử dụng sản phẩm bánh kẹo nội địa được ước lượng là:
p̂ − Zα 2⁄ √p̂(1 − p̂)
n < p < p̂ − Zα 2⁄ √
p̂(1 − p̂)nVới 𝑝̂ = 0,34; n = 100; 𝑍𝛼 2⁄ = 𝑍0,025=1, 96 ta có: 0,2472 < p < 0,4328
Nghĩa là với độ tin cậy 95%, thị phần bánh kẹo nội địa được ước lượng từ 24,72% đến 43, 28%
4.4.3 Ước lượng khoảng của phương sai tổng thể
Giả sử có mẫu nhẫu nhiên n quan sát có phân phối chuẩn, với khoảng tin cậy (1- 𝛼) thì phương sai tổng thể được ước lượng:
Trong đó hai giá trị ở dưới mẫu là giá trị tới hạn Khi – bình phương bậc tự do (n – 1) với mức là (𝜶
𝟐) và (1 −𝛼
2)
Ví dụ 4.7: Khảo sát giá của một loại hàng thiết yếu trên thị trường tự do tại 20 cửa hàng thấy giá trung bình là 135,8 nghìn, với độ dao động đo bởi phương sai là 23,2 nghìn2 Giả thiết giá loại hàng này là biến phân phối Chuẩn.Với độ tin cậy 95% hãy ước lượng độ dao động của giá bán trên thị trường, đo bởi phương sai và độ lệch chuẩn