Bài giảng Các phương pháp nghiên cứu định lượng trong kinh tế gồm hai phần chính: Kinh tế lượng và Phân tích nhân tố. Phần kinh tế lượng tổng hợp các khái niệm cơ bản về thống kê và kinh tế lượng như thống kê mô tả, cơ sở xác suất đối với suy luận thống kê, chọn mẫu, ước lượng, kiểm định giả thuyết và thiết kế bảng hỏi. Học phần cũng cung cấp cho sinh viên những kỹ năng cần thiết về phân tích hồi quy. Phần phân tích nhân tố chủ yếu tập trung vào phương pháp và quy trình phân tích EFA. Mời các bạn cùng tham khảo nội dung phần 1 sau đây.
Trang 1TRƯỜNG ĐẠI HỌC THĂNG LONG
Khoa Kinh tế - Quản lý
Tập bài giảng CÁC PHƯƠNG PHÁP NGHIÊN CỨU ĐỊNH LƯỢNG TRONG KINH TẾ
Số tín chỉ: 03 Ngành: Các ngành khối Kinh tế
Người biên soạn: TS Chu Thị Thu Thuỷ
Ths Nguyễn Thị Tuyết Ths Nguyễn Thị Thu Trang
Ths Nguyễn Thị Hà Thu
Hà Nội, 2019
Trang 2MỤC LỤC
Chương I TỔNG QUAN VỀ XÁC SUẤT VÀ THỐNG KÊ 1
1.1 CƠ SỞ XÁC SUẤT ĐỐI VỚI SUY LUẬN THỐNG KÊ 1
1.1.1 Tổng quan về xác suất thống kê 1
1.1.2 Cơ sở xác suất đối với suy luận thống kê 3
1.2 CÁC ƯỚC LƯỢNG 5
1.2.1 Ước lượng cho mẫu lớn 6
1.2.2 Ước lượng cho mẫu nhỏ về số trung bình tổng thể µ 8
1.2.3 Ước lượng sự khác biệt giữa 2 số trung bình 9
1.2.4 Ước lượng tỷ lệ nhị thức 10
1.3 KIỂM ĐỊNH GIẢ THUYẾT 13
1.3.1 Khái niệm 13
1.3.2 Miền bác bỏ 13
1.3.3 Các bước làm bài toán kiểm định 14
1.3.4 Phần bổ sung 15
1.4 CÁC PHƯƠNG PHÁP CHỌN MẪU 18
1.4.1 Phương pháp và tiêu chuẩn lựa chọn 18
1.4.2 Xác định cỡ (kích thước) mẫu 20
1.5 SƠ LƯỢC VỀ LÝ THUYẾT BẢNG HỎI 23
1.5.1 Cơ sở thiết lập bảng hỏi 23
1.5.2 Phân loại bảng hỏi 24
1.5.3 Cấu trúc bảng hỏi- các loại câu hỏi 25
Chương II PHÂN TÍCH HỒI QUY ĐƠN 29
2.1 CÁC BƯỚC THỰC HIỆN PHÂN TÍCH HỒI QUY 29
2.1.1 Khái niệm phân tích hồi quy 29
2.1.2 Các bước thực hiện phân tích hồi quy 30
2.2 MÔ HÌNH HỒI QUY 31
2.2.1 Mô hình hồi quy tổng thể 31
2.2.2 Mô hình hồi quy mẫu 36
2.3 PHƯƠNG PHÁP BÌNH PHƯƠNG BÉ NHẤT (OLS) 38
Trang 32.3.1 Phương pháp OLS 38
2.3.2 Các giả thiết về OLS2 39
2.3.3 Tính chất của các ước lượng 41
2.4 KIỂM ĐỊNH GIẢ THUYẾT 41
2.4.1 Kiểm định giả thuyết về hệ số hồi quy 41
2.4.2 Kiểm định tính phù hợp của mô hình 43
Chương III PHÂN TÍCH HỒI QUY ĐA BIẾN (HỒI QUY BỘI) 49
3.1 MÔ HÌNH HỒI QUY 49
3.1.1 Dạng và các giả thiết của mô hình 52
3.1.2 Ước lượng của mô hình 59
3.1.3 Kiểm định giả thuyết hệ số mô hình 71
3.1.4 Dự báo 80
3.2 DẠNG HÀM VÀ GIẢI THÍCH Ý NGHĨA HỆ SỐ HỒI QUY 82
3.2.1 Biến giả 82
3.2.2 Hàm theo logarit của Y và/hoặc X 86
3.2.3 Dạng đa thức 90
3.2.4 Hàm nghịch đảo (reciprocal function): 91
3.2.5 Dạng hàm với biến trễ 92
3.2.6 Các tiêu chí lựa chọn mô hình 93
3.3 TỰ TƯƠNG QUAN, PHƯƠNG SAI SAI SỐ THAY ĐỔI 95
3.3.1 Hiện tượng phương sai sai số thay đổi 95
3.3.2 Phát hiện phương sai sai số thay đổi và xử lý 96
3.3.3 Hiện tượng tự tương quan 102
3.3.4 Phát hiện tự tương quan và xử lý 105
Chương IV PHÂN TÍCH NHÂN TỐ 113
4.1 CỠ MẪU KHI ÁP DỤNG PHÂN TÍCH NHÂN TỐ EFA 113
4.1.1 Khái niệm phân tích nhân tố khám phá EFA 113
4.1.2 Ứng dụng của phân tích nhân tố 114
4.1.3 Cỡ mẫu khi áp dụng phân tích nhân tố EFA 115
4.2 PHÂN TÍCH NHÂN TỐ EFA 116
Trang 44.2.1 Kiểm định về độ tin cậy của dữ liệu 118
4.2.2 Tiêu chuẩn chọn số nhân tố 119
4.2.3 Phương pháp chiếu/xoay các nhân tố 121
4.2.4 Giá trị các nhân tố 124
4.2.5 Phân tích hồi quy với các biến nhân tố 124
4.2.6 Thực hành bài tập tình huống với Stata 124
Trang 5DANH MỤC SƠ ĐỒ, ĐỒ THỊ, HÌNH VẼ, BẢNG BIỂU
DANH MỤC BẢNG, BIỂU
Bảng 1-1.Khoảng tin cậy cho ước lượng khoảng cho mẫu lớn 7
Bảng 2-1.Thu nhập và chi tiêu của hộ gia đình 34
Bảng 2-2 Kiểm định giả thuyết thống kê 42
Bảng 3-1.Biến nhị phân 82
Bảng 4-1 Hệ số tải và cỡ mẫu 120
DANH MỤC ĐỒ THỊ Đồ thị 1-1 Ước lượng điểm 6
Đồ Thị 1-2 Ước lượng khoảng 7
Đồ thị 1-3 Kiểm định giả thuyết về giá trị trung bình 16
DANH MỤC HÌNH VẼ Hình 1-1 Đồ thị quan hệ giữa điểm thi và tỷ lệ học sinh/giáo viên 2
Hình 2-1.Các bước thực hiện phân tích hồi quy 30
Hình 2-2 Ví dụ về mẫu ngẫu nhiên 36
Hình 2-3 Mô hình hồi quy mẫu và phần dư 38
Hình 3-1 Biến phụ thuộc Y và các biến Xj không chứa hiện tượng đa cộng tuyến 56
Hình 3-2 Các trường hợp đa cộng tuyến 56
Hình 3-3 Quan điểm của Ballentine về đa cộng tuyến 57
Hình 3-4 Phân tích độ thích hợp của hồi quy 66
Hình 3-5 Chuyển dạng Log-log 89
Hình 3-6 Đồ thị phân tán phần dư ei theo 97
Hình 3-7 Đồ thị phân tán phần dư ei theo Xi 98
Hình 3-8 Các dạng tự tương quan 103
Hình 4-1 Các bước thực hiện phân tích nhân tố 116
Hình 4-2.Biểu diễn phép xoay nhân tố 122
Trang 6DANH MỤC CÁC CHỮ VIẾT TẮT
Trang 7GIỚI THIỆU VỀ HỌC PHẦN
1 Mô tả học phần: Học phần gồm hai phần chính: Kinh tế lượng và Phân tích nhân tố
Phần kinh tế lượng tổng hợp các khái niệm cơ bản về thống kê và kinh tế lượng như thống kê mô tả, cơ sở xác suất đối với suy luận thống kê, chọn mẫu, ước lượng, kiểm định giả thuyết và thiết kế bảng hỏi Học phần cũng cung cấp cho sinh viên những kỹ năng cần thiết về phân tích hồi quy Phần phân tích nhân tố chủ yếu tập trung vào phương
pháp và quy trình phân tích EFA
2 Mục tiêu học phần:
Nắm vững các kiến thức thống kê cơ bản
Nắm vững các kiến thức kinh tế lượng
Hiểu được các nghiên cứu định lượng được thực hiện bởi các nhà nghiên cứu khác
Có thể tự thực hiện được các nghiên cứu định lượng trong kinh tế
3 Chuẩn đầu ra của học phần
- Về kỹ năng:
Vận dụng được phương pháp về thu thập và phân tích dữ liệu được cung cấp trong
học phần cho tự nghiên cứu khi cần thiết
Sử dụng được phần mềm thống kê, kinh tế lương (Stata) thực hiện phân tích số
liệu bằng các phương pháp đã được trang bị bởi học phần
Vận dụng kiến thức để hiểu, phân tích, đánh giá các kết quả phân tích định lượng
- Về kiến thức:
Nắm vững các kiến thức thống kê cơ bản
Hiểu rõ quy trình thực hiện phân tích định lượng bằng phương pháp hồi quy
Hiểu rõ quy trình thực hiện phân tích định lượng bằng phân tích nhân tố EFA
- Về thái độ:
Ham thích tìm hiểu về các vấn đề tài chính doanh nghiệp và các vấn đề liên quan
Sẵn sàng trong việc tiếp cận với những vấn đề mới và phát triển khả năng tự học
của bản thân
4 Chuẩn bị
Địa điểm: Phòng học có máy chiếu và máy tính
Người học: Chuẩn bị giáo trình, bài giảng và vở ghi chép
Trang 8Chương I TỔNG QUAN VỀ XÁC SUẤT VÀ THỐNG KÊ
Số giờ 3 giờ lý thuyết + 4 giờ bài tập Mục tiêu của chương
1.1 CƠ SỞ XÁC SUẤT ĐỐI VỚI SUY LUẬN THỐNG KÊ
1.1.1 Tổng quan về xác suất thống kê
Trước khi đề cập đến một số khái niệm cơ bản về xác suất và thống kê, chúng ta
sẽ băt đầu từ một ví dụ về phân tích thực nghiệm Đó là mối quan hệ giữa quy mô lớp học và đầu ra của đào tạo Câu hỏi là: việc cắt giảm bớt một sinh viên hay giảm 8 sinh viên của một lớp có tác động như thế nào đến đầu ra của đào tạo? Ta sẽ đo đầu ra của đào tạo như thế nào Phải chăng đó là:
Sự thỏa mãn của các bậc phụ huynh
Sự phát triển của bản thân sinh viên
Phúc lợi và / hoặc thu nhập thu được khi trưởng thành
Kết quả thi/kiểm tra của học sinh
Nếu chúng ta lựa chọn kết quả thi của học sinh làm đầu ra của đào tạo thì trên cơ
sở số liệu thu thập được, ví dụ số liệu điều tra của 420 trường phổ thông của California, chúng ta có thể phân tích được mối quan hệ giữa quy mô lớp học và điểm thi của học sinh Nhờ có các phần mềm máy tính, việc phân tích số liệu đã trở nên dễ dàng và thuận tiện hơn Với số liệu thu thập được, đầu tiên chúng ta có thể minh họa bằng đồ thị như trên Hình 1.1
Trang 9Hình I-1 Đồ thị quan hệ giữa điểm thi và tỷ lệ học sinh/giáo viên
(Số liệu của 420 trường chọn mẫu thuộc California) Nhìn vào đồ thị chúng ta có nhận xét: phải chăng các lớp với quy mô nhỏ hơn có kết quả thi cao hơn? Để chứng minh nhận định này, chúng ta có thể tiến hành các bước sau:
1 So sánh điểm thi trung bình ở các quận có tỷ lệ học sinh/giáo viên (ký hiệu là
STR) thấp với các quận có STR cao (“ước lượng”)
2 Kiểm định giả thiết Ho: Điểm thi trung bình ở cả hai nhóm trên là như nhau,
ngược lại là giả thuyết đối: điểm trung bình ở hai nhóm là khác nhau (”kiểm định giả thiiết”)
3 Ước lượng khoảng tin cậy của hiệu giữa điểm thi trung bình của các quận có
STR cao và STR thấp (“khoảng tin cậy”)
Theo các bước trên, kết quả phân tích dữ liệu ban đầu cho thấy:
Quy mô lớp Điểm trung bình
1 n
i i
là điểm trung bình của các lớp có quy mô nhỏ; Y là điểm l
trung bình của lớp có quy mô lớn
Bước tiếp theo là kiểm định giả thiết ∆ = 0 Để kiểm định sự khác biệt về giá trị trung bình: chúng ta tính thông kê t (t-statistic)
Trang 10Trong đó SE( Y – s Y ) là “sai số tiêu chuẩn” của l Y – s Y ; n l s , n l tương ứng là số
các lớp có quy mô nhỏ (hay số quan sát các lớp có quy mô nhỏ) và quy mô lớn;
Rõ ràng khoảng này không chứa giá trị 0
Trên đây là các bước để thực hiện kiểm chứng cho kết luận về sự khác biệt của điểm thi giữa các lớp có quy mô nhỏ và các lớp có quy mô lớn Tuy nhiên, chúng ta có thể đặt câu hỏi:
Dựa trên cơ sở nào để có được tất cả những điều này?
Ước lượng: tại sao lại ước lượng bằng Y – s Y ? l
Kiểm định: thực chất sai số tiêu chuẩn của Y – s Y là gì? Tại sao lại bác bỏ = l
0 nếu |t| > 1,96?
Khoảng tin cậy (ước lượng khoảng): khoảng tin cậy thực chất là gì?
1.1.2 Cơ sở xác suất đối với suy luận thống kê
Chúng ta lần lượt xem xét một số khái niệm cơ bản sau đây:
Quần thể (Tổng thể)
Đó là nhóm hoặc tập hợp các phần tử chúng ta quan tâm Ví dụ tập hợp “tất cả
có thể được” các trường học ở các quận là một quần thể
Chúng ta coi tổng thể là số lớn vô hạn; và nhiệm vụ là đưa ra suy luận về quần thể từ một mẫu lấy từ quần thể đó
Biến ngẫu nhiên Y
Trang 11Kết quả bằng số đặc trưng cho 1 kết cục ngẫu nhiên
Ở đây, điểm thi trung bình trong quận có giá trị bằng con số (hoặc STR theo quận), khi mà chúng ta chọn một năm/quận để lấy mẫu
Phân bố tổng thể của Y
Xác suất của các giá trị khác nhau của Y xảy ra trong quần thể, ví dụ: Pr[Y = 650]
(khi Y là biến rời rạc)
Hoặc, các xác suất của các tập hợp những giá trị này ví dụ: Pr[Y 650] (khi Y
là biến liên tục)
Các “Mômen” của phân bố tổng thể
Giá trị trung bình = giá trị kỳ vọng = E(Y) = Y = Giá trị trung bình dài hạn của
Y theo các giá trị đã xuất hiện lặp đi lặp lại của của Y
Phương sai = E(Y – Y)2 = Y2 = đo lường bình phương các giá trị phân tán của phân bố
Độ lệch tiêu chuẩn = căn bậc 2 của phương sai = Y
Phân bố có điều kiện
Phân bố của Y với một giá trị cho trước của một biến ngẫu nhiên (X) khác,
Ví dụ: phân bố của điểm thi với điều kiện STR<20
Các mômen của phân bố có điều kiện
Trung bình có điều kiện = giá trị trung bình của phân bố có điều kiện = E(Y|X =
x) Phương sai có điều kiện = phương sai của phân bố có điều kiện
Ví dụ:
- E(Test scores|STR < 20), là giá trị trung bình của điểm thi ở các quận có quy
mô lớp nhỏ (Test scores là điểm thi)
- = E(Test scores|STR < 20) – E(Test scores|STR ≥ 20)
Một số ví dụ khác về giá trị trung bình có điều kiện
- Tiền lương của nữ công nhân (Y=lương, X=giới tính)
- Tỷ suất chết trong năm của những người đã có một lần được điều trị (Y=số người sống/số người chết; X=được điều trị/ không được điều trị)
Giá trị trung bình có điều kiện là một thuật ngữ mới cho một khái niệm quen thuộc là giá trị trung bình nhóm
Phương pháp lấy mẫu ngẫu nhiên đơn giản
Trang 12Lựa chọn mỗi cá thể (quận, thực thể) một cách ngẫu nhiên từ quần thể
Tính ngẫu nhiên và số liệu
Trước khi chọn mẫu, giá trị của Y là ngẫu nhiên bởi vì các cá thể/phần tử được lựa chọn là ngẫu nhiên
Khi mà một cá thể/phần tử được chọn và giá trị của Y là quan sát được thì Y chỉ
có thể là một con số duy nhất- và tất nhiên Y không phải là ngẫu nhiên
Một bộ số liệu (Y1, Y2,…, Yn), trong đó Yi = giá trị của cá thể/phần tử thứ i của Y
(quận, thực thể) thuộc mẫu
Ý nghĩa của việc lấy mẫu ngẫu nhiên đơn giản
Vì các cá thể/phần tử thứ nhất và thứ haiđược chọn một cách ngẫu nhiên nên giá
trị của Y1 không bao hàm thông tin về Y2 Do đó:
Y1, Y2 được phân bố độc lập
Y1, Y2 lấy từ cùng một phân bố, nghĩa là Y1, Y2 đồng phân bố
Do vậy kết quả của việc chọn mẫu ngẫu nhiên đơn giản là Y1, Y2 là độc lập đồng
phân bố (viết tắt i.i.d.)
Nói một cách tổng quát hơn thì với phương pháp chọn mẫu ngẫu nhiên đơn giản
thì {Yi}, i = 1,…, n, là i.i.d
1.2 CÁC ƯỚC LƯỢNG
Các qui trình ước lượng có thể được chia thành 2 loại, ước lượng điểm và ước lượng khoảng Giả sử rằng một đại lý xe ô tô muốn ước lượng lợi nhuận trung bình của mỗi thông vụ bán một chiếc xe mới Sự ước lượng này có thể có kết quả là một con số duy nhất như 920$ hoặc cũng có thể dự kiến lợi nhuận từ khoảng 850$ - 1050$ Loại ước lượng thứ nhất được gọi là ước lượng điểm bởi vì con số duy nhất này đại diện cho
số ước lượng mà có thể đi cùng với một điểm trên một đường thẳng Loại thứ 2 gọi là ước lượng khoảng với việc xác định 2 điểm trên 1 đường thẳng
Trang 13Ước lượng khoảng: Ước lượng khoảng của một tham số tổng thể là một qui luật
mà cho chúng ta biết về cách thức tính toán hai con số dựa trên dữ liệu mẫu Cặp số này được gọi là ước lượng khoảng hay khoảng tin cậy
Các yêu cầu cần có của một ước lượng:
1 Không bị lệch: Ước lượng của một tham số tổng thể không bị lệch nếu trung bình của phân phối mẫu bằng với giá trị đúng của tham số đó Nếu không ước lượng đó được cho là bị lệch
2 Phương sai của phân phối mẫu càng nhỏ cảng tốt: để đảm bảo cho các ước lượng gần với giá trị đúng của tham số với một xác suất cao nhất
3 Sai số ước lượng: Khoảng cách giữa giá trị ước lượng và giá trị đúng của tham
số được ước lượng
4 Hệ số tin cậy: Xác suất mà khoảng tin cậy bao quanh tham số được ước lượng
1.2.1 Ước lượng cho mẫu lớn
a Ước lượng điểm
Giả sử chúng ta có một ước lượng không lệch với phân phối mẫu tuân theo phân phối chuẩn Ước lượng điểm cho một tham số tổng thể được thống kê tính toán bằng cách sử dụng các đại lượng mẫu
Xác suất là 95%, sai số ước lượng sẽ không vượt quá 1,96 lần độ lệch chuẩn của
số ước lượng này
Đồ thị I-1 Ước lượng điểm
b Ước lượng khoảng
Trang 14Ước lượng khoảng được xây dựng để cho khi lấy mẫu lặp lại nhiều lần thì một tỷ
lệ lớn (hệ số tin cậy) các khoảng này sẽ bao quanh tham số tổng thể mà chúng ta đang quan tâm Khoảng được tạo ra được gọi là khoảng tin cậy Ví dụ khi ước tính một số trung bình tổng thể với một khoảng tin cậy, tức là chúng ta nói về - xác suất mà khoảng
đó bao quanh µ, chứ không phải – xác suất mà µ rơi vào khoảng đó, bởi vì giá trị của µ được cố định nhưng khoảng chứa các điểm cuối ngẫu nhiên
Một khoảng tin cậy mẫu lớn với hệ số tin cậy (1-α)*100% dựa trên một ước lượng không bị lệch có phân phối chuẩn được tính như sau:
(Số ước lượng điểm) ± zα/2*(Sai số chuẩn của ước lượng)
Với zα/2 là giá trị x tương ứng với một diện tích α/2 ở đoạn trên của phân phối chuẩn hóa Công thức này tạo ra 2 giá trị, giá trị giới hạn độ tin cậy dưới và giá trị giới hạn độ tin cậy trên
Đồ Thị I-2 Ước lượng khoảng
Một số khoảng tin cậy cho ước lượng khoảng cho mẫu lớn
Bảng I-1.Khoảng tin cậy cho ước lượng khoảng cho mẫu lớn
Trang 15Những vấn đề thực tiễn thường dẫn đến sự ước lượng về một số trung bình tổng thể µ Nhiều số ước lượng là sẵn có cho việc ước lượng số trung bình tổng thể µ, bao gồm số trung vị mẫu, số trung bình của các đại lượng lớn nhất và nhỏ nhất và số trung bình mẫu ̅ Mỗi số ước lượng sẽ có một phân phối mẫu và tùy thuộc vào tổng thể và vấn đề thực tiễn liên quan nhưng có các ưu và nhược điểm nhất định
Phân phối mẫu của số trung bình mẫu ̅ yêu cầu các đặc điểm sau:
1 Phân phối mẫu của ̅ sẽ xấp xỉ chuẩn mà không quan tâm đến phân phối xác suất của tổng thể được chọn mẫu khi n là lớn
2 Nếu tổng thể được chọn mẫu là chuẩn thì phân phối mẫu của ̅ sẽ chính xác chuẩn
3 Số trung bình của phân phối mẫu của ̅ sẽ luôn bằng với µ vì thế ̅ là một ước lượng không bị lệch của µ
4 Độ lệch chuẩn của phân phối mẫu của ̅ còn được gọi là độ lệch chuẩn của số trung bình được xác định là: ̅ = /√
Ước lượng điểm của trung bình tổng thể µ
Số ước lượng điểm: ̅
1.2.2 Ước lượng cho mẫu nhỏ về số trung bình tổng thể µ
Khi cỡ mẫu nhỏ và chưa biết chúng ta có thể sử dụng phân phối xác suất Student (phân phối t) Phân phối t cũng giống như phân phối z cũng có dạng đối xứng qua t = 0 Tuy nhiên, đại lượng này biến thiên nhiều hơn so với z và thoải dần hơn về 2 phía trái – phải Độ biến thiên của z trong việc chọn mẫu lặp lại chỉ do bởi ̅ , các đại lượng khác xuất hiện trong z(n, µ và σ) không ngẫu nhiên Trái lại, độ biến thiên của t được đóng góp bởi 2 đại lượng ngẫu nhiên, ̅ và s mà có thể được chứng minh là độc lập với nhau
Vì thế khi ̅ là rất lớn thì s có thể rất nhỏ và ngược lại Kết quả là t sẽ biến thiên nhiều hơn so với z khi chọn mẫu lặp lại Cuối cùng, ta có thể phỏng đoán độ biến thiên của t
Trang 16giảm đi khi n tăng lên bởi vì s, sự ước lượng của σ sẽ được căn cứ trên ngày càng nhiều thông tin Khi n là vô cùng lớn thì phân phối của t và z sẽ là đồng nhất Vì thế phân phối của t phụ thuộc vào cỡ mẫu n
Ước lượng điểm: ̅
1.2.3 Ước lượng sự khác biệt giữa 2 số trung bình
Có 2 tổng thể 1 và 2 với các tham số thống kê lần lượt như sau: , , , ước lượng đại lượng (µ1 - µ2)
Lấy mẫu ngẫu nhiên gồm n1 đại lượng từ tổng thể 1 và n2 đại lượng từ tổng thể
2 Hai mẫu này có các giá trị thống kê lần lượt như sau:
à Các đặc trưng phân phối mẫu của ̅ − ̅ như sau:
Nếu các tổng thể không có phân phối chuẩn thì phân phối mẫu của ̅ − ̅ là phân phối xấp xỉ chuẩn khi n1 và n2 là lớn
Trung bình và độ lệch chuẩn của ̅ − ̅ là
Nếu các tổng thể có phân phối chuẩn thì phân phối mẫu của ̅ − ̅ cũng sẽ có phân phối chuẩn mà không quan tâm đến cỡ mẫu
a Ước lượng điểm của (µ1 - µ2)
Giá trị ước lượng ̅ − ̅
Sai số biên: 1,96 ̅ ̅ = 1,96 +
b Ước lượng khoảng tin cậy (1-α)*100% cho (µ1 - µ2) được xác định như sau:
( ̅ − ̅ ) ± / +
Trang 17Trường hợp à chưa biết thì có thể được xấp xỉ bằng à với điều kiện
Ước lượng sở hữu một phân phối xác suất mà có thể được ước lượng xấp xỉ bởi một phân phối chuẩn do Định lý giới hạn trung tâm Đây là một số ước lượng không
bị lệch cho tỷ lệ tổng thể p, với trung bình và độ lệch chuẩn được thể hiện như sau:
( ̂) =
= Trường hợp n lớn phân phối mẫu của tỷ lệ mẫu sẽ có phân phối xấp xỉ chuẩn tắc Ước lượng xấp xỉ này là phù hợp nếu ± 3 từ 0 đến 1
a Ước lượng điểm cho p
Giá trị ước lượng: ̂ =
Sai số biên: 1,96 = 1,96
Sai số ước lượng biên: 1,96 = 1,96
Ước lượng khoảng tin cậy (1-α)*100% cho (µ1 - µ2) với cỡ mẫu n phải đủ lớn
để phân phối mẫu là phân phối xấp xỉ chuẩn được xác định như sau:
Trang 18̂ ± / ̂
b Ước lượng sự khác biệt giữa 2 tỷ lệ nhị thức
Có 2 tổng thể nhị thức 1 và 2 với các tham số thống kê lần lượt như sau: ,
ước lượng đại lượng (p1 - p2)
Lấy mẫu ngẫu nhiên gồm n1 đại lượng từ tổng thể 1 và n2 đại lượng từ tổng thể
2 Hai mẫu này có các giá trị thống kê lần lượt như sau:
̂ à ̂ Các đặc trưng phân phối mẫu của ̂ à ̂ như sau:
Phân phối mẫu của ̂ à ̂ là phân phối xấp xỉ chuẩn khi n1 và n2 là lớn Trung bình và độ lệch chuẩn của ̂ à ̂ là:
= −
Khi sử dụng phân phối chuẩn để ước lượng xấp xỉ các xác suất của nhị thức thì khoảng ( ̂ − ̂ ) ± 2 ( ) phải được chứa trong ̂ à ̂ (khoảng này phải thay đổi từ -1 đến 1)
Ước lượng điểm của −
Giá trị ước lượng: ̂ − ̂
/n) Một ước lượng là hội tụ nếu
xác suất của nó nằm trong khoảng giá trị thực của quần thể sẽ tiến đến 1 khi cỡ mẫu tăng
Trang 19Nếu (Y1,…,Yn) là độc lập và đồng phân bố (i.i.d.) và Y2 < , thì Y là ước lượng hội tụ
Định lý giới hạn trung tâm (CLT): nếu (Y1,…,Yn) là i.i.d và 0 < Y2 < , khi n
lớn thì phân bố của Y được xấp xỉ tốt nhất bằng phân bố chuẩn
Y được xấp xỉ bằng phân bố N(Y,
2
Y
n
) (“ phân bố chuẩn với trung binh Y và phương sai Y2/n”)
n (Y – Y)/Y được xấp xỉ bằng phân bố N(0,1) (phân bố chuẩn hóa)
Đó là, theo độ đo chuẩn (“chuẩn hóa”)
Y Y
Y n
được xấp xỉ bằng phân bố N(0,1)
Phép tính xấp xỉ này tốt hơn khi n tăng
Tóm lại: với (Y1,…,Yn) là các biến ngẫu nhiên độc lập cùng phân bố với 0 < Y2 < thì
Phân bố mẫu chính xác của Y có trung bình Y (“Y là ước lượng không chệch
của Y”) và phương sai 2
Y
/n
Ngoài giá trị trung bình và phương sai của Y , thì việc xác định chính xác phân
bố mẫu của Y là rất phức tạp và nó phụ thuộc vào phân bố của Y
Trang 20Vậy, tại sao lại sử dụng Y để ước lượng Y?
Ước lượng không chệch : E( Y ) = Y
Ước lượng hội tụ: Y
n
i
a Y n
Ký hiệu H0 là giả thuyết của tham số tổng thể, đi kèm với giả thuyết H0 là mệnh
đề đối lập được gọi là đối thuyết, ký hiệu là H1 Bài toán kiểm định giả thuyết thống kê gồm một cặp giả thuyết H0 và đối thuyết H1 Dựa vào thông tin mẫu lấy được từ tổng thể ta phải đưa ra quyết định bác bỏ hay chấp nhận giả thuyết H0, việc chấp nhận giả thuyết H0 tương đương với bác bỏ đối thuyết H1 và ngược lại
1.3.2 Miền bác bỏ
Một trong những cách giải quyết bài toán kiểm định giả thuyết là dùng một thống
kê G, được gọi là tiêu chuẩn thống kê
Định nghĩa: Thống kê T = G(X1, X2 , , Xn ) được gọi là một tiêu chuẩn thống
kê
(test statistics) nếu giá trị của nó được dùng để xem xét bác bỏ hay chấp nhận giả thuyết
H0 Ứng với mẫu cụ thể quan sát được, giá trị của tiêu chuẩn thống kê T được ký hiệu
là tqs Ta sẽ dựa vào giá trị này để đưa ra kết luận chấp nhận hay bác bỏ giả thuyết đang xét bằng cách so sánh giá trị đó với miền tiêu chuẩn
Trang 21Miền W trong R được gọi là miền bác bỏ hay miền tiêu chuẩn nếu miền này được dùng cùng với tiêu chuẩn thống kê T và giá trị cụ thể tqs của tiêu chuẩn đó để đưa ra kết luận về giả thuyết H0
Nếu tqs thuộc W thì bác bỏ giả thuyết H0
Nếu tqs không thuộc W thì chấp nhận giả thuyết H0
Khi bác bỏ hay chấp nhận giả thuyết H0 thì ta gặp phải hai loại sai lầm:
Sai lầm loại I: Bác bỏ giả thuyết H0 nhưng thực tế H0 đúng
Sai lầm loại II: Chấp nhận giả thuyết H0 nhưng thực tế H0 là sai
1.3.3 Các bước làm bài toán kiểm định
Để tiến hành kiểm định giả thuyết, thông thường người ta có thể sử dụng miền tiêu chuẩn, xác suất ý nghĩa hoặc ước lượng khoảng của các tiêu chuẩn hay tham số thống kê, với các bước thực hiện tương ứng
a Sử dụng miền tiêu chuẩn
Để giải quyết một bài toán kiểm định giả thuyết thống kê thông qua việc sử dụng miền tiêu chuẩn, người ta thường thực hiện các bước sau:
1 Bước 1: Xác định tham số cần kiểm định, đặt giả thuyết và đối thuyết
2 Bước 2: Xác định tiêu chuẩn thống kê và tính giá trị của tiêu chuẩn thống kê đối với giá trị mẫu đã cho
3 Bước 3: Xác định miền bác bỏ W
4 Bước 4: So sánh giá trị của tiêu chuẩn thống kê với miền bác bỏ W và kết luận bác bỏ hay chấp nhận giả thuyết H0
b Sử dụng xác suất ý nghĩa (p−value)
Ứng với một giá trị mẫu cụ thể của tiêu chuẩn thống kê dùng kiểm định giả thuyết, xác suất ý nghĩa (p−value) là giá trị của xác suất phạm sai lầm nếu bác bỏ giả thuyết H0 khi ta có giá trị mẫu cụ thể đó trong khi giả thuyết là đúng đối với mẫu đang xét Ta thấy xác suất ý nghĩa chính là xác suất phạm sai lầm loại I đã trình bày ở phía trên Xác suất này nhỏ tương ứng với khả năng phạm sai lầm khi bác bỏ giả thuyết là nhỏ và ta có thể bác bỏ giả thuyết mà không e ngại có sai lầm Ngược lại thì ta phải chấp nhận giả thuyết
vì khả năng phạm sai lầm sẽ lớn Như vậy ta có thể sử dụng xác suất ý nghĩa để giải quyết bài toán kiểm định theo thủ tục sau:
Bước 1: Xác định tham số cần kiểm định, đặt giả thuyết và đối thuyết
Trang 22Bước 2: Xác định tiêu chuẩn thống kê và tính giá trị của tiêu chuẩn thống kê đối với giá trị mẫu đã cho
Bước 3: Tính xác suất ý nghĩa tương ứng với giá trị cụ thể của tiêu chuẩn thống kê đã
có ở Bước 2
Bước 4: So sánh xác suất ý nghĩa trên đây với mức ý nghĩa đã định trước (thường được cho bằng 5%, 1%, 0,5% hoặc 0,1%), nếu xác suất ý nghĩa nhỏ hơn hoặc bằng mức ý nghĩa thì bác bỏ giả thuyết, còn nếu ngược lại thì phải chấp nhận giả thuyết
Ngoài hai thủ tục trên, nhiều bài toán kiểm định có thể được tiến hành bằng cách
sử dụng các ước lượng khoảng của các tham số hoặc các tiêu chuẩn thống kê, khá tiện dụng trong cả các tính toán bằng tay và cả khi có sự trợ giúp của máy tính
c Sử dụng khoảng tin cậy (ước lượng khoảng) của tham số hoặc tiêu chuẩn thống kê
Để tiến hành kiểm định bằng khoảng tin cậy ta thực hiện các bước sau:
1 Bước 1: Xác định tham số cần kiểm định, đặt giả thuyết và đối thuyết
2 Bước 2: Xác định tiêu chuẩn thống kê và tìm khoảng tin cậy (ước lượng khoảng) của tiêu chuẩn đó (hoặc của tham số cần quan tâm) ứng với mẫu đã
có và độ tin cậy đã định trước
3 Bước 3: So sánh khoảng tin cậy trên với một giá trị đã định, nếu khoảng tin cậy không chứa giá trị đó thì bác bỏ giả thuyết, còn nếu khoảng tin cậy chứa giá trị đó thì phải chấp nhận giả thuyết
1.3.4 Phần bổ sung
Kiểm định giả thuyết về giá trị trung bình: dựa trên các số liệu đã có đưa ra quyết
định liệu giả thuyết không (H0 ) là đúng hay giả thuyết đối (H1 ) là đúng
Đó là kiểm định:
H0: E(Y) = Y,0 ngược lại H1: E(Y) > Y,0 (1-phía, >)
H0: E(Y) = Y,0 ngược lại H1: E(Y) < Y,0 (1-phía, <)
H0: E(Y) = Y,0 ngược lại H1: E(Y) Y,0 (2-phía)
P-value là xác suất bác bỏ giả thiết H0 khi nó đúng
Mức ý nghĩa của một kiểm định là xác suất xác định trước bác bỏ sai giả thiết không,
khi giả thiết không là đúng
Tính giá trị p (p-value) dựa trên Y :
Trang 23p-value =
Pr [|H Y Y | | Y act Y |], Trong đó Y act là giá trị của Y được quan sát thực tế (không phải là ngẫu nhiên)
Ký hiệu Y là độ lệch chuẩn của phân phố của Y :
Đồ thị I-3 Kiểm định giả thuyết về giá trị trung bình
Trên thức tế, chúng ta không biết giá trị của Y, như vậy nó cũng cần phải được
Trang 24 Tại sao áp dụng luật số lớn? bởi vì 2
Y
s là trung bình mẫu: xem phụ lục 3.3
Chú ý: chúng ta giả định E(Y4) < bởi vì ở đây trung bình không phải là của Yi, mà
là trung bình của Yi bình phương;
Y
(và thường gọi là thống kê t)
Giá trị p và mức ý nghĩa
Với mức ý nghĩa định trước ví dụ 5%:
Bác bỏ giả thiết H0 nếu |t| 1.96
Tương đương: bác bỏ nếu p 0.05
Giá trị p đôi khi còn được gọi là mức ý nghĩa biên
Phân bố t-student
Nếu Y được phân bố theo N(Y, 2
Y
), thì thống kê t có phân bố t student (phân
phôi này được lập thành bảng ở phía sau của tất cả các cuốn sách thông kê) Một số lý giải/chú ý
Với n > 30, thì phân bố t và N(0,1) là gần như giống nhau
Giả định rằng Y được phân bố theo N(Y, 2
Y
) hiếm khi xảy ra trên thực tiễn (thu nhập? số lượng con?)
Phân bố t là một phác đồ theo thời gian khi cỡ mẫu là rất nhỏ
Trong khóa học này, chúng ta sẽ không sử dụng phân bố t chúng ta chỉ dựa vào phân bố xấp xỉ cỡ lớn theo phân bố xấp xỉ phân bố chuẩn N(0,1)
Trang 25Khoảng tin cậy
Khoảng tin cậy 95% đối với Y là khoảng mà ở đó gồm cả giá trị thực của Y
trong 95% các mẫu được lấy lặp lại
(ở đây quá trình ngẫu nghiên là gì? Khoảng tin cậy – nó sẽ khác nhau ở mẫu này đối với
mẫu khác; tham số tổng thể, Y, là không ngẫu nhiên, chúng ta không biết giá trị của nó)
Khoảng tin cậy 95% thường được xây dựng dựa trên tập hợp các giá trị của Y
không bị bác bỏ bởi kiểm định giả thiết với mức ý nghĩa 5%
Y
1.96}
1.4.1 Phương pháp và tiêu chuẩn lựa chọn
1.4.1.1 Sơ lược về phương pháp mẫu
Mẫu là đối tượng nhận tin, trong nghiên cứu thống kê đã từng tồn tại nhiều
phương pháp khác nhau, với những tổng thể nhỏ và tĩnh người ta có thể nghiên cứu toàn
bộ Trong trường hợp chỉ nghiên cứu một tiêu thức mà tính ngẫu nhiên thấp thì người ta
có thể sử dụng phương pháp nghiên cứu điển hình Nhưng hạn chế của phương pháp nói
trê bộc lộ rất rõ khi nghiên cứu những tổng thể lớn, động và ngẫu nhiên thì phương pháp
mẫu ngẫu nhiên sẽ khắc phục được những hạn chế vốn có của những phương pháp nói
trên Một số nguyên nhân dẫn đến việc sử dụng phương pháp mẫu phổ biến như ngày
nay
Thứ nhất, các vấn đề cần nghiên cứu trong các lĩnh vực kinh tế - xã hội thường
tồn tại ở các tổng thể lớn và biến động nên khả năng để nghiên cứu tổng thể là khó khả
thi do thời gian và kinh phí không cho phép Trong rất nhiều trường hợp người ta không
thể biết chính xác kích thước của tổng thể
Trang 26Thứ hai, thông tin dựa trên các biểu hiện hay sự hiểu biết của con người về một vấn đề tại một thời điểm trong một thời gian là hữu hạn Lượng tin thực tế không tuyến tính với số lượng đối tượng cấp tin, có thể nói rằng khi số lượng quan sát đã đủ lớn thì lượng tin tăng thêm khi tăng số lượng quan sát sẽ không đáng kể Nên không nhất thiết phải khảo sát toàn bộ tổng thể
Thứ ba, với những thành tựu của lý thuyết xác suất và thống kê toán thì người ta
có đủ các công cụ, mô hình mà nhờ đó những thông tin từ mẫu có thể suy diễn cho tổng thể với độ chính xác ước lượng được Với độ chính xác trong các ước lượng làm căn cứ cho việc xác định kích thước mẫu
Nội dung cơ bản của phương pháp mẫu như sau: Giả sử cần nghiên cứu sự vận động của một hiện tượng, người ta có thể mô hình hóa hiện tượng này bằng một biến ngẫu nhiên X (một chiều hoặc nhiều chiều) Với một mẫu ngẫu nhiên W(X) lập từ biến ngẫu nhiên gốc X, thiết lập các mô hình nhờ các thống kê – các hàm của thành phần mẫu thích hợp Với các thống kê này có thể tiến hành các ước lượng, kiểm định, dự báo
và các phân tích khác đối với X theo các yêu cầu cho trước
Ví dụ, khi nghiên cứu lượng xe vào thành phố (X) qua một cửa ngõ A – nếu quan sát toàn bộ các xe vào thành phố qua cửa A này thì không khả dĩ và cũng không cần thiết Bằng cách thiết lập một mẫu ngẫu nhiên kích thước n, lập các thống kê thích hợp, với các thống kê này người ta dự báo, kiểm tra giả định về dạng phân phối theo thời gian của X, ước lượng các đặc trưng chủ yếu như trung bình số xe qua cửa A vào thành phố trong một đơn vị thời gian, độ phân tán hay trung vị của số xe vào thành phố qua cửa A
Phương pháp mẫu nghiên cứu cách thức khai thác thông tin từ một mẫu ngẫu nhiên để kết luận cho tổng thể Trong các chương trình cơ sở của thống kê toán học những nội dung cơ bản như: ước lượng tham số, kiểm định giả thiết, quan hệ của các biến đã được đề cập ở mức đơn giản nhất Mặc dù chỉ với những công cụ đơn giản, thống kê toán cơ sở với những phương pháp mẫu ngẫu nhiên đã đặt nền tảng cho một phương pháp nghiên cứu thống kê hiện đại Cơ sở của thống kê toán trở thành công cụ cho lý thuyết điều tra chọn mẫu
1.4.1.2 Tiêu chuẩn chọn mẫu
Các phương pháp chọn mẫu ngày càng phong phú, tuy nhiên các phương pháp này thường dựa trên các tiêu chuẩn chủ yếu được nhiều người sử dụng và đôi khi được coi như là mặc nhiên:
Trang 27Tính ngẫu nhiên: Tính ngẫu nhiên được coi như là tiêu chuẩn quan trọng nhất,
đảm bảo tính chất không chệch của các suy diễn thống kê, cũng như các mô tả thống kê Một cách đơn giản tính chất này đỏi hỏi khả năng mỗi cá thể trong tổng thể hay trong một bộ phận của tổng thể có thể được chọn như nhau Trong một số phương pháp chọn mẫu cụ thể có thể được chọn như nhau Trong một số phương pháp chọn mẫu cụ thể tính chất này có thể phụ thuộc rất nhiều vào mục đích, phạm vi sử dụng số liệu mẫu cho phân tích và dự báo thống kê
Tính đại diện: Tính đại diện thường được xác định trên cơ sở yêu cầu về mức tin
cậy của các phân tích thống kê như ước lượng, kiểm định Với những tổng thể lớn có phân thành những bộ phận khác nhau và phân tích thống kê ở nhiều cấp thì tính đại diện cần được lưu ý từ cấp thấp nhất
Tính đồng nhất: Vì mỗi đối tượng cung cấp tin là một tác nhân kinh tế xã hội nên
ngoài những gì làm cho các đối tượng này trở thành cá thể thống kê như đã nói ở chương trước, còn khá nhiều thuộc tính riêng Các thuộc tính riêng nói chung có ảnh hưởng đến đối tượng với tư cách là cá thể thống kê Đặc điểm này đòi hỏi khi chọn mẫu phải chú ý đến tính đồng nhất về môi trường kinh tế - xã hội của các cá thể
Tính phổ biến: Trong nhiều trường hợp người điều tra có cảm giác rằng một số
cá thể thống kê có những tính chất ngoại lệ so với phần đôn các cá thể khác Trong trường hợp này, cũng như đòi hỏi của tính đồng nhất, các cá thể này có thể thuộc đối tượng chọn mẫu hoặc loại khỏi đối tượng chọn mẫu tùy thuộc tính đồng nhất của chúng với tổng thể Tùy nhiên, hầu hết các trường hợp cần có những xử lý riêng biệt cho chúng Đảm bảo tính phổ biến, nhằm làm cho phân tích thống kê nhận biết dễ dàng hơn bản chất của tổng thể về một mặt hay một phương diện đang nghiên cứu