Các thành phố dự báo định kỳ mức tăng trưởng của địa phương qua các mặt như: dân số; việc làm; số nhà ở, tòa nhà thương mại và các nhà xưởng công nghiệp; nhu cầu về trường học, đường xá,
Trang 1CHƯƠNG 1
Giới Thiệu
1.1 Kinh tế lượng là gì?
Theo nghĩa đơn giản, kinh tế lượng, liên quan đến việc áp dụng các phương
pháp thống kê trong kinh tế học Không như thống kê kinh tế, trong đó các dữ
liệu thống kê là chính yếu, kinh tế lượng được phân biệt bằng sự hợp nhất của
lý thuyết kinh tế, công cụ toán học và các phương pháp luận thống kê Mở
rộng hơn, kinh tế lượng quan tâm đến (1) ước lượng các mối quan hệ kinh tế,
(2) đối chiếu lý thuyết kinh tế với thực tế và kiểm định các giả thuyết liên
quan đến hành vi kinh tế, và (3) dự báo các hành vi của các biến số kinh tế
Trong phần tiếp theo đây, chúng tôi minh họa mỗi hoạt động này bằng những
ví dụ thực tế ngắn gọn
Ước lượng các mối quan hệ kinh tế
Kinh tế học thực nghiệm cung cấp rất nhiều ví dụ nhằm ước lượng các mối
quan hệ kinh tế từ dữ liệu Sau đây là danh sách một số các ví dụ có thể:
1 Các nhà phân tích trong khu vực tư nhân lẫn khu vực nhà nước đều quan
tâm đến việc ước lượng cầu/cung của các sản phẩm, dịch vụ khác nhau
2 Một công ty tư nhân có thể quan tâm đến việc ước lượng ảnh hưởng của
các mức độ quảng cáo khác nhau đến doanh thu và lợi nhuận
3 Các nhà phân tích thị trường chứng khoán tìm cách liên hệ giá của cổ
phiếu với các đặc trưng của công ty phát hành cổ phiếu đó, cũng như với
tình hình chung của nền kinh tế
4 Chính quyền liên bang và chính quyền các tiểu bang có thể muốn đánh
giá tác động của các chính sách tiến tệ và tài chính đến các biến quan
trọng như việc làm hoặc thất nghiệp, thu nhập, xuất khẩu và nhập khẩu,
lãi suất, tỷ lệ lạm phát, và thâm hụt ngân sách
5 Chính quyền địa phương quan tâm đến mối quan hệ giữa lợi nhuận và
các yếu tố khác nhau quyết định lợi nhuận này như thuế suất và dân số
6 Các thành phố có thể quan tâm đến tác động của một công ty đặt tại địa
phương mình Một trong những mối quan tâm đặc biệt là sự ảnh hưởng
đến nhu cầu nhà ở, việc làm, doanh thu và lợi nhuận từ bất động sản,
những yêu cầu về các dịch vụ công cộng như trường học, các thiết bị xử
lý chất thải, điện vv…
Trang 2Kiểm định giả thuyết
Cũng như bất kỳ ngành khoa học nào, một điểm tốt của kinh tế lượng là quan
tâm đến việc kiểm định giả thuyết về các hành vi kinh tế Điều này được
minh họa qua các ví dụ sau:
1 Một chuỗi cửa hàng thức ăn nhanh có thể muốn xác định xem chiến dịch
quảng cáo của mình có tác động làm tăng doanh thu hay không
2 Các nhà phân tích tư nhân lẫn nhà nước có thể đều quan tâm xem nhu
cầu co giãn hay không co giãn theo giá và thu nhập
3 Gần như bất kỳ công ty nào cũng muốn biết lợi nhuận tăng hay giảm theo
qui mô hoạt động
4 Các công ty kinh doanh thuốc lá lẫn các nhà nghiên cứu y khoa đều cần
quan tâm đến các báo cáo phẫu thuật tổng quát về hút thuốc và ung thư
phổi (và các bệnh về hô hấp khác) có dẫn đến việc giảm tiêu thụ thuốc lá
đáng kể hay không
5 Các nhà kinh tế học vĩ mô có thể muốn đánh giá hiệu quả của các chính
sách nhà nước
6 Một ủy ban phục vụ công cộng cần quan tâm xem các qui định yêu cầu
cách điện tốt hơn trong các toà nhà và hộ gia đình có làm giảm đáng kể
mức tiêu thụ năng lượng không
7 Các cơ quan hành pháp và những nhà lập pháp có thể muốn đánh giá tính
hiệu quả của việc xiết chặt luật về uống rượu và lái xe đối với việc giảm
các tai nạn và tử vong do uống rượu và giao thông
Dự báo
Khi các biến số được xác định và chúng ta đánh giá được tác động cụ thể của
chúng đến chủ thể nghiên cứu, chúng ta có thể muốn sử dụng các mối quan
hệ ước lượng để dự đoán các giá trị trong tương lai Sau đây là một số ví dụ
về dự báo
1 Các công ty dự báo doanh thu, lợi nhuận, chi phí sản xuất, và lượng tồn
kho cần thiết
2 Cộng đồng dự đoán có nhu cầu về năng lượng vì thế các trạm năng lượng
cần được xây dựng và/hoặc các thỏa thuận mua năng lượng từ bên ngoài
cần được ký kết
3 Rất nhiều công ty dự báo các chỉ số thị trường chứng khoán và giá của
một số cổ phiếu
4 Chính quyền liên bang dự đoán những con số như thu nhập, chi tiêu, lạm
phát, thất nghiệp, và thâm hụt ngân sách và thương mại
Trang 35 Các thành phố dự báo định kỳ mức tăng trưởng của địa phương qua các
mặt như: dân số; việc làm; số nhà ở, tòa nhà thương mại và các nhà xưởng
công nghiệp; nhu cầu về trường học, đường xá, trạm cảnh sát, trạm cứu
hỏa, và dịch vụ công cộng; …v.v
Do ba bước tổng quát được xác định trong phần mở đầu của chương này
thường căn cứ vào dữ liệu mẫu hơn là dựa vào dữ liệu điều tra của tổng thể,
vì vậy trong những cuộc điều tra chuẩn này sẽ có yếu tố bất định; cụ thể là
(1) các mối quan hệ ước lượng không được chính xác, (2) các kết luận từ
kiểm định giả thuyết hoặc là phạm vào sai lầm do chấp nhận một giả thuyết
sai hoặc sai lầm do bác bỏ một giả thuyết đúng, và (3) các dự báo dựa vào
các mối liên hệ ước lượng hầu như không bao giờ đúng kết quả Để giảm
mức độ bất định, một nhà kinh tế lượng sẽ luôn luôn ước lượng nhiều mối
quan hệ khác nhau giữa các biến nghiên cứu Sau đó, nhà kinh tế lượng sẽ
thực hiện một loạt các kiểm tra để xác định mối quan hệ nào mô tả hoặc dự
đoán gần đúng nhất hành vi của biến số quan tâm
Tính bất định này khiến cho phương pháp thống kê trở nên rất quan trọng trong môn kinh tế lượng Chương tiếp theo sẽ trình bày tóm tắt các
khái niệm thống kê căn bản cần dùng trong cuốn sách này và được sử dụng,
nếu cần, ở các chương sau Bây giờ chúng ta sẽ xem xét các bước cơ sở để
tiến hành một nghiên cứu thực nghiệm
1.2 Các thành phần căn bản của một nghiên cứu thực nghiệm
Một nhà điều tra tiến hành một nghiên cứu thực nghiệm theo các bước căn
bản sau: (1) Lập mô hình, (2) thu thập dữ liệu, (3) ước lượng mô hình, (4)
dùng mô hình kiểm định giả thuyết, và (5) diễn dịch kết quả Hình 1.1 trình
bày các bước này dưới dạng sơ đồ Trong phần này chúng tôi mô tả tổng quát
từng hoạt động nêu trên Chương 14 đi chi tiết hơn vào từng hoạt động Nếu
giảng viên dự định đưa một đề tài nghiên cứu thực nghiệm vào môn học kinh
tế lượng này thì nên giới thiệu chương 14 ngay từ đầu
Thiết lập mô hình
Mọi phân tích hệ thống kinh tế, xã hội, chính trị hoặc vật lý dựa trên một cấu
trúc logic (gọi là mô hình), cấu trúc này mô tả hành vi của các phần tử trong
hệ thống và là khung phân tích chính Trong kinh tế học, cũng như trong các
ngành khoa học vật lý, mô hình này được thiết lập dưới dạng phương trình,
trong trường hợp này, các phương trình này mô tả hành vi kinh tế và các biến
liên quan Một mô hình được nhà nghiên cứu thiết lập có thể là một phương
trình hoặc là hệ gồm nhiều phương trình
Trang 4Hình 1: Sơ đồ các bước thực hiện một nghiên cứu thực nghiệm
Mô hình một phương trình Trong mô hình một phương trình, nhà phân tích
chọn một biến đơn (ký hiệu là Y) mà ông ta muốn giải thích hành vi của nó
Y có nhiều tên gọi; biến phụ thuộc là thuật ngữ thông dụng nhất, biến này
còn được gọi là biến được hồi qui (regressand) và biến số ở vế trái Kế đó
nhà nghiên cứu xác định một số các biến số (ký hiệu là X), những biến số này
có ảnh hưởng đến biến phụ thuộc Những biến này cũng được gọi bằng nhiều
tên; biến độc lập là thuật ngữ thông dụng nhất, ngoài ra chúng còn được gọi
là biến ngoại sinh (exogenous), biến giải thích (explanatory), hồi qui và biến
số ở vế phải Việc lựa chọn các biến độc lập có thể xuất phát từ lý thuyết
kinh tế, kinh nghiệm trong quá khứ, các nghiên cứu khác hoặc từ trực giác
Ví dụ, xét một công ty quan tâm đến việc xác định yêu cầu về lao động Nhà
phân tích kinh tế của công ty có thể sử dụng các lý thuyết kinh tế vi mô về tối
đa hóa lợi nhuận để xác định cần thuê bao nhiêu người Lợi nhuận của công
ty sẽ phụ thuộc vào giá và số lượng sản phẩm công ty bán ra, số người (hoặc
số giờ lao động) sử dụng, mức lương, lãi suất, chi phí sử dụng vốn, chi phí
nguyên vật liệu, …v.v Nguyên tắc tối đa hóa lợi nhuận sẽ dẫn đến mối liên
hệ về mặt lý thuyết giữa số nhân công (số giờ làm việc) và các biến khác
được nêu trên Trong ví dụ này, Y là số nhân công (số giờ làm việc) sử dụng,
và các biến X là giá của hàng hóa, mức lương, lãi suất, chi phí nguyên vật
Lý thuyết kinh tế, kinh nghiệm, các nghiên cứu khác
Thiết lập mô hình
Ước lượng mô hình
Kiểm định giả thuyết
Thiết lập lại mô hình
Dự báo Diễn dịch kết quả
Các quyết định về chính sách
Trang 5liệu …v.v Mục tiêu đề ra là ước lượng quan hệ lý thuyết và sử dụng quan hệ
này ra các quyết định về chính sách
Mô hình hệ phương trình Trong một số nghiên cứu kinh tế lượng, nhà
nghiên cứu có thể quan tâm đến nhiều hơn một biến độc lập và do đó cùng
một lúc thiết lập nhiều phương trình Những mô hình này được gọi là mô
hình hệ phương trình Ước lượng các phương trình cầu và cung là các ví dụ
về mô hình loại này Các mô hình kinh tế vĩ mô cũng là ví dụ về mô hình hệ
phương trình Một trong những phương trình đó có thể là hàm tiêu thụ liên hệ
giữa sức tiêu thụ tổng hợp với khoản thu nhập có thể sử dụng được và lãi suất
Một ví dụ khác là hàm đầu tư, liên hệ đầu tư với thu nhập có thể sử dụng
được và lãi suất Hoặc là hàm nhu cầu tiền mặt, liên hệ nhu cầu về tiền mặt
với thu nhập và lãi suất Các phương trình khác như điều kiện cân bằng, liên
hệ tổng cầu với tổng cung và cầu về tiền với cung tiền
Ví dụ 1.1
Cấu trúc căn bản của một mô hình kinh tế lượng được hiểu rõ hơn với một ví
dụ đơn giản trong đó biến phụ thuộc Y liên hệ với một biến độc lập (X) Xét
một công ty địa ốc quan tâm đến liên hệ giữa giá bán của ngôi nhà với các
đặc điểm của nó như kích thước, diện tích sử dụng, số phòng ngủ và phòng
tắm, các loại thiết bị gia dụng, có hồ bơi hay không, cảnh quan có đẹp
không…v.v Cụ thể, công ty muốn biết các đặc điểm cụ thể của ngôi nhà có
vai trò như thế nào trong việc hình thành giá của bất động sản Ví dụ này là
một trường hợp đặc biệt về mô hình chỉ số giá – hưởng thụ ( a hedonic price
index model) trong mô hình này giá của hàng hóa phụ thuộc vào các đặc
điểm của nó (một ví dụ khác là liên hệ giữa giá của một chiếc xe và các đặc
điểm của nó)
Mặc dù tất cả các đặc điểm liệt kê trên đều quan trọng trong việc giải thích sự khác biệt về giá giữa các ngôi nhà, để minh họa chúng ta hãy xem
xét một đặc điểm riêng lẻ, ví dụ diện tích sử dụng Giả sử GIÁ là giá bán
ngôi nhà và SQFT là diện tích sử dụng tính bằng bộ vuông Để đơn giản, giả
sử mối liên hệ giữa hai biến này là tuyến tính, chúng ta có phương trình GIÁ
= α +β SQFT, với α là tung độ gốc và β là độ dốc của đường thẳng Giả sử
chúng ta có hai căn nhà có cùng diện tích sử dụng Có thể hoàn toàn hoặc
hầu như do ngẫu nhiên có những khác biệt giữa hai căn nhà về các đặc điểm
khác nhưng không được xét đến trong mô hình này (ví dụ như kích thước
vườn) Vì vậy, mối liên hệ này có vẻ không chính xác mà có sai số Để tính
đến những sai số này, một mô hình kinh tế lượng nên được xây dựng như
sau:
Trang 6với u là một biến ngẫu nhiên không quan sát được gọi là số hạng sai số (còn
được gọi là số hạng nhiễu hoặc số hạng ngẫu nhiên với một số tính chất thống
kê được mô tả sau Số hạng sai số sẽ thay đổi trong từng quan sát Phương
trình (1.1) được gọi là mô hình hồi qui tuyến tính hoặc là mô hình hồi qui
tuyến tính đơn Đường thẳng α + β SQFT gọi là phần xác định của mô hình
và số hạng u được gọi là phần ngẫu nhiên
Tiếp tục với ví dụ về địa ốc, giả sử chúng ta cố định SQFT ở 5 mức
1.500, 1.750, 2.000, 2.250 và 2.500, đếm tất cả các căn nhà trong cùng khu
vực có SQFT bằng (hoặc gần với) một trong 5 mức trên, và xem giá các căn
nhà này.1 Như đã nêu trước đây, ngay cả khi hai căn nhà có cùng diện tích sử
dụng, giá bán của chúng cũng có thể khác nhau Điều chúng ta quan tâm ở
đây là đánh giá được sự khác biệt về giá do tác động của yếu tố “SQFT”, có
ý nghĩa thống kê, đến mức nào Nếu các cặp giá trị GIÁ và SQFT được vẽ
trên mặt phẳng tọa độ, chúng sẽ tạo thành một đồ thị như Hình 1.2 trong đó
những vòng tròn thể hiện các điểm Vì nhà lớn hơn thì giá sẽ cao hơn, chúng
ta kỳ vọng các điểm trên đồ thị diễn tả một xu hướng đi lên khi ta đi từ trái
sang phải của trục hoành
Kế đến chúng ta tính giá trung bình tại mỗi mức SQFT Trong Hình 1.2 các điểm này được diễn tả bằng ký hiệu X Có một giả định trong phương
trình (1.1), phương trình chắc chắn cần được xem xét kỹ, là những điểm trung
bình nằm trên đường thẳng α +β SQFT Phần xác định, vì vậy, là tương
quan “trung bình thống kê” giữa biến phụ thuộc và biến độc lập, cho toàn bộ
tổng thể các ngôi nhà trong khu vực nghiên cứu Vì vậy, α và β được gọi là
thông số của tổng thể (hoặc đôi khi còn gọi là thông số thật) Liên hệ trung
bình “thật” α +β SQFT (gọi là hồi qui tổng thể) không bao giờ xác định
được nhưng như sẽ được trình bày trong Chương 3, một liên hệ “ước lượng”
(gọi là hồi qui mẫu) có thể có được từ mẫu nghiên cứu Số hạng không quan
sát được u đại diện cho các ảnh hưởng của các biến bỏ qua (kích thước vườn,
tuổi của ngôi nhà, và các đặc điểm khác có ảnh hưởng đến giá bán nhà), cũng
như các ảnh hưởng của các tác động tồn tại không dự đoán được
Vì sẽ vô cùng tốn kém khi khảo sát toàn bộ các căn nhà trong một khu vực để xác định giá trị của α và β, nhà điều tra có thể thay bằng một mẫu
ngẫu nhiên và sử dụng thông tin từ mẫu này để đưa ra kết luận không chỉ về
giá trị α và β của tổng thể mà còn và tính thích đáng của giả định hồi qui
tuyến tính trong Phương trình (1.1) Vì các kết luận đều căn cứ vào mẫu các
căn nhà, nên chúng đều có sai số Việc nghiên cứu các sai số này để xem có
1 Trong thực tế, không thể tiến hành nghiên cứu toàn bộ tổng thể như vậy vì chi phí rất cao Thay vì vậy, một mẫu được chọn ngẫu nhiên và quan sát trên mẫu đã chọn
Trang 7thể cải tiến những công thức và các kết luận có thể được củng cố hay không
là rất quan trọng
Hình 1.2 Đồ thị GIÁ và Diện tích sử dụng SQFT
Hồi quitổng thể
u
(X,Y)
XX
X
X
XGIÁ (Y)
SQFT (X)1.500 1.750 2.000 2.250 2.500
Như đã đề cập trước đây, các biến khác ngoài diện tích sử dụng cũng ảnh hưởng đến giá bán của ngôi nhà Một mô hình mở rộng của mô hình trên
là mô hình hồi qui bội, xem ví dụ sau đây (Do có sử dụng nhiều thông số
nên qui ước tiêu chuẩn là sử dụng các ký tự Hy Lạp β với các chỉ số kèm
theo)
Với YARD là kích thước vườn, BATHS là số phòng tắm, và BEDRMS là số
phòng ngủ Ước lượng và diễn dịch mô hình này sẽ được thảo luận chi tiết
trong Chương 4 Các mở rộng của mô hình này bao gồm phi tuyến được thảo
luận trong Chương 6
α + βSQFT
α
Trang 8Ví dụ 1.2
Giả sử chúng ta điều tra tất cả các hộ trong thành phố và tính thu nhập hàng
tháng của họ (Y) và tổng chi tiêu vào hàng hóa và dịch vụ (C) Nếu chúng ta
vẽ C và Y, chúng ta sẽ có được một đồ thị như Hình 1.2, nhưng với thu nhập
trên trục X và chi tiêu trên trục Y kế đến, chúng ta lấy tất cả những hộ có
thu nhập là $500 (hoặc thực tế hơn là trong một khoảng nhỏ xung quanh 500)
và tính trung bình của các tổng chi tiêu tương ứng Chúng ta lập lại các bước
trên đối với các hộ có thu nhập hàng tháng khoảng $1.000, $1.500, $2.000
…v.v, chúng ta tính các mức chi tiêu trung bình tương ứng Sau đó đưa vào đồ
thị các điểm trung bình này ứng với 500, 1.000, 1.500…v.v Một lần nữa giả sử
là các điểm trung bình này nằm trên một đường thẳng (α + βY) Vì các hộ
gia đình có cùng thu nhập sẽ có những mức chi tiêu khác nhau (có lẽ do khác
biệt về các đặc điểm khác như số thành viên trong gia đình), một quan sát cụ
thể (C, Y) sẽ không hoàn toàn chính xác nằm trên đường thẳng trên Do vậy,
mô hình hồi qui tuyến tính tương ứng với ví dụ này sẽ có dạng
C = α + βY + u
Trong thực tế, chúng ta sẽ không điều tra tất cả các hộ gia đình mà chỉ chọn một mẫu ngẫu nhiên từ tổng thể và sử dụng các quan sát này để ước
lượng những thông số α và β, cũng như thực hiện các kiểm định và kiểm tra
tính thích đáng của giả định về mối liên hệ trung bình giữa chi tiêu và thu
nhập là tuyến tính
Ví dụ 1.3
Trong nghiên cứu tài chính, mô hình định giá tài sản vốn (CAPM), cho một
khung tổng quát để phân tích các liên hệ rủi ro-lợi nhuận với tất cả các loại
tài sản Giả sử r là lợi nhuận của một loại chứng khoán (ví dụ như cổ phiếu
của một công ty), rm là lợi nhuận của một tập danh mục đầu tư (ví dụ như chỉ
số Standard and Poor’s Composote), và rf là lợi nhuận của chứng khoán
không rủi ro (ví dụ trái phiếu ngân khố U.S Treasury, 30 ngày) Đặt Y = r −
r f là lợi nhuận chênh lệch của một chứng khoán bất kỳ và X = rm− r f là lợi
nhuận chênh lệch của tập danh mục đầu tư trung bình Vậy phương trình sau
là công thức CAPM chuẩn:
Y = βX + u
Lưu ý là mô hình này không có số hạng tung độ gốc Đó là do lợi nhuận được diễn tả như khoảng chênh lệch từ lợi nhuận không rủi ro Nếu
chúng ta có dữ liệu quá khứ của lợi nhuận chứng khoán, chúng ta có thể ước
lượng mô hình trên Một chứng khoán có β ước lượng lớn hơn 1 được xem là
“thay đổi” hoặc biến động hơn thị trường và chứng khoán có giá trị β ước
lượng nhỏ hơn 1 được xem là “ổn định” hoặc ít biến động
Trang 9Ví dụ 1.4
Trong lý thuyết nhu cầu người tiêu dùng, một nhà phân tích thường xây dựng
“hàm lợi ích” và tối đa hóa nó trong ràng buộc về ngân sách Điều này dẫn
đến các hàm nhu cầu phát sinh đối với hàng hóa Cụ thể, một hàm cho thấy
với một số giả định chi tiêu cho một mặt hàng (E) tỷ lệ với thu nhập (Y) Mối
liên hệ này gọi là đường cong Engel Điều này dẫn đến một mô hình kinh tế
lượng sau, trong đó α về lý thuyết được kỳ vọng có giá trị bằng không:
Hệ số β được diễn dịch là xu hướng biên tế (marginal propensity) chi tiêu
cho mặt hàng này, so với thu nhập Vì vậy, một đô la tăng trong thu nhập sẽ
được kỳ vọng làm tăng chi tiêu trung bình cho mặt hàng này lên β đô-la Với
dữ liệu về các hộ gia đình, chúng ta có thể ước lượng hàm chi tiêu trên và
kiểm định giả thuyết là số hạng tung độ gốc α có giá trị bằng không
Các ví dụ khác Mặc dù cuốn sách này chủ yếu quan tâm đến các mối liên
hệ kinh tế và kiểm định các giả thuyết về chúng, các kỹ thuật vẫn có thể áp
dụng được cho các môn học khác Ở đây chúng tôi trình bày một số ví dụ
trong các ngành khác
Ví dụ 1.5
Cho đến nay, việc hút thuốc là nguyên nhân chính gây tử vong do ung thư
phổi được ghi chép cẩn thận Một mô hình hồi qui tuyến tính đơn cho vấn đề
này là:
DEATHS = α + βSMOKING + u
với DEATHS là số người chết do ung thư phổi trên một triệu dân số trong
vùng trong một thời gian nhất định ví dụ một năm và SMOKING là mức tiêu
thụ thuốc lá bình quân đầu người đơn vị tính là cân Anh Vì việc hút thuốc
tăng sẽ gây tử vong nhiều hơn, chúng ta kỳ vọng β là số dương Như trong
trường hợp ví dụ địa ốc, nhà nghiên cứu cũng có thể đưa vào các biến khác có
ảnh hưởng đến số người chết do ung thư phổi (như ô nhiễm không khí)
Ví dụ 1.6
Nhiều nhà xã hội học và tội phạm học lập luận rằng án tử hình là một công
cụ quan trọng ngăn cản tội phạm bạo hành Để kiểm định điều này, chúng ta
Trang 10có thể xây dựng một mô hình như sau (một lần nữa lại bỏ qua các nguyên
nhân khác của những thay đổi trong tội phạm bạo hành):
CRIMES = α + βPUNISHMENT + u
Ở đây CRIMES đại diện cho số tội phạm bạo hành trên 1.000 dân số và
PUNISHMENT là phần trăm bản án dẫn đến tội tử hình β được kỳ vọng là
số âm vì hình phạt gia tăng có thể ngăn cản tội phạm
Ví dụ 1.7
Khi một luật được áp đặt để hạn chế việc hút thuốc bị thất bại, người ta
thường qui nguyên nhân cho việc vận động hành lang chống lại luật này của
ngành thuốc lá Một cách để ước lượng tác động này là sử dụng mô hình như
sau:
VOTE = α + βEXPENSE + u
Với VOTE là phần trăm những người bỏ phiếu phản đối luật và EXPENSE là
chi phí mà ngành thuốc lá chi cho một người bỏ phiếu Chúng ta kỳ vọng là β
có dấu dương bởi vì khi EXPENSE tăng thì số người bỏ phiếu chống lại luật
hạn chế hút thuốc lá tăng
Hai phương pháp để xây dựng mô hình này hoàn toàn khác nhau về triết lý Một phương pháp bắt đầu với một mô hình cơ sở (như Phương trình
1.1), mô hình này thường xuất phát từ lý thuyết kinh tế, cảm tính, các nghiên
cứu khác và các kinh nghiệm trước đây, kế đó thực hiện các kiểm định để
xem một mô hình phức tạp hơn (như Phương trình 1.2) có phù hợp không
Phương pháp này, gọi là lập mô hình từ đơn giản đến tổng quát, được sử
dụng chính ở Bắc Mỹ Ngược lại, lập mô hình từ tổng quát đến đơn giản
bắt đầu với một công thức tổng quát và tiến hành phép rút gọn dựa trên cơ sở
dữ liệu để đơn giản mô hình Phương pháp này, còn được gọi là phương
pháp Hendry/LSE, phổ biến nhiều ở Vương Quốc Anh và các nước Châu Aâu
khác Cả hai phương pháp này đều có những điểm mạnh và điểm yếu, sẽ
được thảo luận chi tiết hơn trong Chương 6, mục 6.13 và 6.14 Tôi có lời
khuyên như sau, chúng ta không nên sử dụng một cách cứng nhắc một
phương pháp nào mà nên sử dụng cả hai phương pháp để đạt được những kết
luận thuyết phục nhất
Trang 11Thu thập dữ liệu
Để ước lượng mô hình kinh tế lượng mà một nhà nghiên cứu đưa ra, cần có
mẫu dữ liệu về các biến phụ thuộc và biến độc lập Nếu nhà phân tích quan
tâm đến việc giải thích sự biến thiên của biến phụ thuộc theo thời gian, ông
ta hay cô ta phải có các số đo tại các thời điểm khác nhau (gọi là dữ liệu
chuỗi thời gian) Ví dụ, một thành phố muốn dự báo nhu cầu nhà ở cho năm
hoặc mười năm trong tương lai Việc này đòi hỏi phải xác định các biến có
ảnh hưởng đến nhu cầu nhà ở của thành phố đó trong quá khứ, có được chuỗi
dữ liệu theo thời gian trong nhiều năm ở quá khứ, và sử dụng chúng vào một
mô hình thích hợp để tạo các giá trị dự báo của nhu cầu tương lai Khoảng
thời gian hoặc thời đoạn của chuỗi thời gian sẽ là hàng năm, hàng quý hoặc
hàng tháng, tùy theo thành phố đó muốn xem xét thay đổi trong nhu cầu nhà
ở hàng năm, hàng quý hay hàng tháng Loại dữ liệu sẵn có thường sẽ quyết
định thời đoạn của dữ liệu thu thập
Trong khi dữ liệu chuỗi thời gian đại diện các quan sát trong những
khoảng thời gian khác nhau, dữ liệu chéo/theo không gian đại diện cho số
đo tại một thời điểm định trước Ví dụ, cơ quan nhà ở của một tiểu bang
muốn giải thích vì sao nhu cầu nhà ở thay đổi giữa các thành phố Việc này
đòi hỏi phải quan sát đặc điểm của các thành phố khác nhau trong một
khoảng thời gian xác định
Hầu hết các dữ liệu có được từ các nguồn sẵn có của tư nhân hoặc công cộng (Chương 14 trình bày chi tiết hơn về phần này) Tuy nhiên, thông
thường những nguồn này không đủ dữ liệu để giải quyết vấn đề đặt ra hoặc
những dữ liệu này không có sẵn Trong trường hợp như vậy, cần tiến hành
một khảo sát đặc biệt để thu thập các thông tin cần thiết Ví dụ, vài năm
trước nhiều hiệp hội dịch vụ công cộng đã quan tâm đến việc nghiên cứu xem
người tiêu dùng sẽ phản ứng như thế nào đối với chính sách giá điện trong
ngày Chính sách giá điện trong ngày là giá điện sẽ thay đổi theo những giờ
khác nhau trong ngày, với giá cao trong những giờ cao điểm và giá thấp
trong những giờ thấp điểm Để có được dữ liệu phù hợp hiệp hội đã chọn một
số khách hàng và lắp đặt đồng hồ tại nhà họ để ghi lại lượng điện sử dụng
từng giờ trong ngày Lượng điện tiêu thụ được kiểm soát trong vòng một năm
như thế hiệp hội đã có được dữ liệu theo chuỗi thời gian cho một nhóm các hộ
gia đình Dữ liệu này được gọi là dữ liệu chéo và theo chuỗi thời gian hay
thông dụng hơn được gọi là dữ liệu bảng Để xử lý các dữ liệu loại này cần
sử dụng những kỹ thuật kinh tế lượng đặc biệt
Một loại dữ liệu khác mà nhà nghiên cứu thường gặp liên quan đến
mức độ tổng hợp Ví dụ, xem xét quan hệ giữa chi tiêu cho thực phẩm và
thu nhập Dữ liệu này có thể là một trong những loại: (1) cho một gia đình
trong một thời gian (dữ liệu chuỗi thời gian), (2) cho một nhóm gia đình tại
Trang 12một thời điểm (đó là dữ liệu chéo), (3) cho một nhóm gia đình trong một thời
đoạn (dữ liệu bảng), (4) tổng chi tiêu và tổng thu nhập của toàn bộ dân cư
trong một số thành phố, quốc gia hoặc tiểu bang (đó là dữ liệu chéo tổng hợp
cho dân cư của nhiều vùng địa lý), và (5) tổng chi phí và tổng thu nhập theo
thời gian của toàn dân cư trong một vùng địa lý (là dữ liệu chuỗi thời gian
tổng hợp cho dân cư của khu vực) Bản chất của các câu hỏi nhà điều tra
quan tâm trả lời sẽ chỉ ra loại dữ liệu mà anh ta hoặc cô ta sẽ phải thu thập và
mức độ tổng hợp, nếu cần
Trong quá trình thu thập dữ liệu, một nhà điều tra thực nghiệm phải xem xét đến việc dữ liệu sẵn có có thểõ không hoàn toàn thích hợp với yêu
cầu của nhà phân tích Ví dụ, lý thuyết kinh tế liên quan nhiều đến lãi suất
Tuy nhiên không có một loại lãi suất đơn độc Nếu nhà phân tích quan tâm
đến việc tìm hiểu nhu cầu về nhà ở, anh ta hoặc cô ta phải sử dụng lãi suất
thế chấp Tuy nhiên, nếu họ quan tâm đến chi tiêu vốn cho nhà xưởng và
máy móc thiết bị mới thì “lãi suất cơ bản” hoặc các lãi suất vay liên quan với
nó là lãi suất thích hợp nhất cần tính toán
Vì vậy, trong một nghiên cứu thực nghiệm việc đánh giá và xem xét cẩn thận quá trình xử lý dữ liệu là rất cần thiết Một nhà điều tra không chỉ
cần chọn dữ liệu phù hợp với vấn đề nghiên cứu mà còn phải biết đến các
hạn chế của dữ liệu sử dụng, bởi vì tính chính xác của các kết luận phụ thuộc
vào độ chính xác của dữ liệu
Ước lượng mô hình
Sau khi mô hình đã được thiết lập và dữ liệu phù hợp đã được thu thập, nhiệm
vụ chủ yếu của nhà điều tra là ước lượng những thông số chưa biết của mô
hình Trong những ví dụ trên chúng ta sẽ có được các ước lượng của số hạng
tung độ gốc α, số hạng độ dốc β, và các thông số (như trung bình và phương
sai) của phân bố xác suất của u Phương trình ước lượng sau đó sẽ được sử
dụng để kiểm định các giả thuyết hoặc dự báo các giá trị của biến phụ thuộc,
với những giá trị của các biến độc lập cho trước Có nhiều thủ tục ước lượng
đối với ước lượng mô hình Như sẽ được thảo luận sau này, bản chất của vấn
đề nghiên cứu và bản chất của mô hình thường sẽ xác định các thủ tục cần
được sử dụng
Kiểm định giả thuyết
Ước lượng sơ bộ của một mô hình kinh tế lượng không luôn luôn đem đến các
kết quả thỏa đáng Công thức của mô hình kinh tế lượng cơ bản đặc biệt chịu
ảnh hưởng của lý thuyết kinh tế, sự hiểu biết của nhà phân tích về các hành
vi tiềm ẩn, và các kinh nhiệm hoặc nghiên cứu trong quá khứ Các thành tố
Trang 13này của mô hình chỉ cung cấp một khung tổng quát cho các vấn đề kinh tế
lượng Do vậy, những kết quả đầu tiên có thể gây ngạc nhiên cho người điều
tra vì các biến được cho là quan trọng, có ưu tiên cao thì lại xuất hiện sau
những biến được cho là không quan trọng về mặt thực nghiệm hoặc chúng sẽ
có những ảnh hưởng đi theo những hướng không mong đợi Nhà phân tích
kinh tế vì vậy sẽ kiểm định chẩn đoán mô hình nhiều lần nhằm chắc chắn là
những giả định đặt ra và các phương pháp ước lượng được sử dụng phù hợp
với dữ liệu đã thu thập Mục tiêu là tìm được những kết luận thuyết phục
nhất − đó là những kết luận không thay đổi nhiều đối với các đặc trưng của
mô hình Để đạt được mục tiêu này, thường thường cần phải thiết lập lại các
mô hình, và dĩ nhiên là ước lượng lại mô hình bằng nhiều kỹ thuật khác nhau
Kiểm định giả thuyết không chỉ được thực hiện nhằm cải tiến các đặc trưng
của mô hình mà còn nhằm kiểm định tính đúng đắn của các lý thuyết
Diễn dịch kết quả
Bước cuối cùng của một điều tra thực nghiệm là diễn dịch các kết quả Các
kết luận thường phải ủng hộ một lý thuyết kinh tế hoặc là bác bỏ lý thuyết
này, vì vậy, đòi hỏi phải xem xét lại lý thuyết Nếu các kết quả phù hợp đối
với việc ra quyết định về chính sách, thì sau đó các quyết định này cũng sẽ
được thực hiện trong giai đoạn này Hoặc là nhà phân tích thực nghiệm có
thể sử dụng tập mô hình cuối cùng để dự báo một hoặc nhiều biến phụ thuộc
trong nhiều tình huống khác nhau trong tương lai và sử dụng những kết quả
này cho việc ra quyết định vềâ chính sách
Tóm tắt những phần quan trọng
Để thực hiện một nghiên cứu thực nghiệm, một nhà điều tra phải có những
câu trả lời thỏa đáng cho các câu hỏi sau:
1 Mô hình có ý nghĩa kinh tế không? Cụ thể, mô hình có thể hiện mọi quan
hệ tương thích ẩn trong quá trình phát dữ liệu hay không?
2 Dữ liệu có tin cậy không?
3 Phương pháp ước lượng sử dụng có phù hợp không? Có sai lệch trong các
ước lượng tìm được không?
4 Các kết quả của mô hình so với các kết quả từ những mô hình khác như
thế nào?
5 Kết quả thể hiện điều gì? Kết quả có như mong đợi dựa trên lý thuyết
kinh tế hoặc cảm nhận trực giác không?
1.3 Đề tài thực nghiệm
Trang 14Nếu một đề tài thực nghiệm được đưa vào như một phần của khóa học kinh tế
lượng, chúng ta nên tạm thời bỏ qua chủ đề chính và tiến hành nhiệm vụ
chọn một đề tài và kế đó thu thập dữ liệu Đó là do quá trình chọn đề tài,
thiết lập mô hình và thu thập dữ liệu tốn rất nhiều thời gian, và chúng ta
không nên đợi đến khi học hết mọi lý thuyết rồi mới bắt đầu quá trình này
Ở đây chúng ta phân biệt giữa hai mức độ thực hiện đề tài: cao cấp và
trung cấp Việc chọn cấp độ nào phụ thuộc vào thời gian của khóa học và
thời gian mà giảng viên và sinh viên dành cho đề tài thực nghiệm Nếu mức
độ cao cấp được chọn, thì nên đọc phần 14.1, phần này mô tả cách chọn một
đề tài nghiên cứu như thế nào, sau đó xem lại lý thuyết về đề tài này (xem
phần 14.2), xác định các biến trong mô hình (phần 14.3), quyết định loại dữ
liệu nào thích hợp chuỗi thời gian hay chéo, và bắt đầu thu thập dữ liệu (phần
14.4)
Mức độ trung cấp thì nhiệm vụ dễ hơn Đối với mức độ này, chọn một trong những tập tin dữ liệu được liệt kê sau và được mô tả chi tiết trong Phụ
lục D, cập nhật dữ liệu hoặc tìm dữ liệu tương tự cho một khu vực hoặc một
quốc gia và thực hiện phân tích tương tự như đã thảo luận trong sách Ví dụ,
tập tin dữ liệu DATA9-7 trong phụ lục D liên hệ nhu cầu về xe hơi mới với
chỉ số giá xe hơi mới, thu nhập, lãi suất …v.v Các nguồn thông tin cũng được
liệt kê trong phụ lục Những chuỗi dữ liệu này có thể cập nhật đối với nước
Mỹ hoặc các dữ liệu tương tự có thể có đối với các quốc gia khác Tuy nhiên
đối với một số dữ liệu, nguồn dữ liệu không được ghi ra nhưng có thể tìm
được từ các nguồn liệt kê trong phần 14.4
Các tập tin dữ liệu có thể cập nhật tốt là DATA4-4, DATA4-7 đến DATA4-14 (trừ DATA4-8 và DATA4-11), DATA6-3 đến DATA6-5,
DATA7-2, DATA7-9 đến DATA7-20 (trừ DATA7-19), một số tập tin trong
Chương 9, DATA10-1, DATA10-3, DATA10-4, DATA11-1, DATA12-1 và
DATA13-1
Nếu bạn đã cập nhật một trong những tập tin dữ liệu này và muốn đưa vào bản hiệu đính sau này của cuốn sách, vui lòng gửi tập tin dữ liệu đó cho
tôi Địa chỉ thư điện tử của tôi là ramu@weber.ucsd.edu và hộp thư bưu
điện là: Department of Economics, University of California, San Diego, La
Jolla, CA 92093-0508, USA
TÓM TẮT
Lĩnh vực kinh tế lượng liên quan đến ước lượng các mối liên hệ kinh tế, kiểm
định giả thuyết các lý thuyết kinh tế, và dự báo các biến kinh tế hoặc các
biến số khác Một nhà kinh tế lượng thường bắt đầu với một tập hợp các lý
thuyết kinh tế, sau đó kết hợp chúng với những nhận định trực giác (hoặc
Trang 15kinh nghiệm, nghiên cứu trong quá khứ) để xây dựng một mô hình kinh tế
lượng Quá trình này liên quan đến quyết định chọn một hay nhiều biến phụ
thuộc và xác định các biến độc lập có ảnh hưởng đến các biến phụ thuộc
Nhà phân tích kinh tế cũng nên quyết định sử dụng dữ liệu chuỗi thời gian
hay chéo cho phù hợp Bước tiếp theo là thu thập dữ liệu tương ứng Ởû giai
đoạn này, nhà điều tra thường phải dung hòa bởi vì các dữ liệu đo lường được
có thể sẽ không hoàn toàn thích hợp với các đòi hỏi lý thuyết Khi có được
các dữ liệu này, nhà nghiên cứu ước lượng các thông số của một hoặc nhiều
mô hình sơ bộ Các mô hình này sẽ được kiểm định nhiều lần để xác định
các đặc trưng mô hình có thể có và các lỗi về phương pháp Dựa vào những
kiểm định này, các mô hình được thiết lập lại và ước lượng lại cho đến khi
nhà điều tra thỏa mãn với tính thuyết phục của các kết luận rút ra từ những
mô hình Bước cuối cùng là diễn dịch kết quả và quyết định ủng hộ hay bác
bỏ tập lý thuyết mà nhà kinh tế lượng đã kiểm định thực nghiệm Mô hình
cuối cùng có thể được dùng để xây dựng các chính sách hoặc để dự báo các
giá trị của các biến phụ thuộc trong nhiều tình huống khác nhau
THUẬT NGỮ
Aggregation: Tổng hợp
Captial asset pricing model (CAPM): Mô hình định giá tài sản vốn
Cross-section data: Dữ liệu chéo
Data generating process (DGP): Quá trình phát dữ liệu
Dependent variable: Biến phụ thuộc
Econometric model: Mô hình kinh tế lượng
Econometrics: Môn kinh tế lượng
Engel curve: Đường cong Engel
Error term: Số hạng sai số
Forecasting: Dự báo
General to simple model: Lập mô hình từ tổng quát đến đơn giản
Hedonic price index model: Mô hình định giá-hưởng thụ
Hendry/LSE approach: Phương pháp Hendry/LSE
Independent variable: Biến độc lập
Linear regression model: Mô hình hồi qui tuyến tính
Marginal prospensity: Xu hướng biên tế
Model: Mô hình
Multple regression model: Mô hình hồi qui bội
Panel data: Dữ liệu bảng
Periodicity: Tính thời đoạn
Pooled cross-section and time series data: Dữ liệu chéo (theo không gian) và
theo chuỗi thời gian
Trang 16Population parameter: Thông số tổng thể
Population regression: Hồi qui tổng thể
Sample regression: Hồi qui mẫu
Simple linear regression model: Mô hình hồi qui tuyến tính đơn
Simple to genreal modeling: Lập mô hình từ đơn giản đến tổng quát
Simultaneous equation models: Các mô hình hệ phương trình
Testing hypotheses: Kiểm định giả thuyết
Time series data: Dữ liệu chuỗi thời gian
True parameter: Thông số thật
Trang 17CHƯƠNG 2
Ôn Lại Xác Suất và Thống Kê
Trong chương này, chúng ta tóm tắt các khái niệm của xác suất và thống kê được sử dụng
trong kinh tế lượng Bởi vì một số kiến thức trước đây của xác suất và thống kê cơ bản được giả sử trong sách này, việc ôn lại này được thiết kế để phục vụ chỉ như là một sự hướng dẫn lại các chủ đề được sử dụng trong các chương sau này Điều đó không có nghĩa là một sự nghiên cứu chặt chẽ và trọn vẹn về chủ đề này Vì lý do này, chúng ta trình bày rất ít các chứng minh Để thay thế, chúng ta định nghĩa các khái niệm quan trọng dưới tiêu đề “Định nghĩa” và tóm tắt các kết quả hữu dụng dưới tiêu đề “Các tính chất.” Muốn có sự thảo luận chi tiết của các chủ đề, bạn nên tham khảo các cuốn sách tuyệt hảo được liệt kê trong mục lục sách tham khảo ở cuối chương Các phần được đánh dấu hoa thị (*) có tính chất cao cấp hơn và có thể bỏ qua mà không mất đi ý nghĩa chính của nội dung chủ đề:
Chương này ôn lại tất cả chủ đề có liên quan trong xác suất và thống kê Nếu đã có lúc do bạn đã học chủ đề này rồi, bạn nên lướt nhanh qua chương này để gợi nhớ lại Tuy nhiên, nếu bạn vừa mới hoàn thành một khóa học về các tài liệu này, chúng tôi đề nghị bạn đọc Phần 2.1 đến 2.5 (đặc biệt chú trọng về đồng phương sai và sự tương quan được thảo luận trong Phần 2.3) và tiếp đến đi vào trực tiếp Chương 3 hơn là đọc phần còn lại của chương này Bạn có thể quay lại để ôn những phần có liên quan của chương này khi cần Các phần trong Chương 2 song song với các phần trong Chương 3, và sự tham khảo chéo này được chỉ định nhằm giúp cho một sự hoán đổi suôn sẻ giữa các phần có thể thực hiện được Điều này cho phép bạn hiểu lý thuyết kinh tế lượng cơ bản tốt hơn và đánh giá đúng sự hữu ích của xác suất và thống kê một cách dễ dàng hơn
} 2.1 Các Biến Ngẫu Nhiên và các Phân Phối Xác Suất
Một cách điển hình, một nhà nghiên cứu thực hiện một thí nghiệm có thể đơn giản như tung đồng xu hay quay cặp súc sắc hoặc có thể phức tạp như làm một khảo sát các tác nhân kinh tế hay thực hiện một chương trình điều trị y học thực nghiệm Dựa trên kết quả của thí nghiệm, một nhà phân tích có thể đo được các giá trị của các biến quan tâm
mà chúng mô tả đặc điểm của kết quả Các biến như vậy được biết đến như biến ngẫu
nhiên và thường ký hiệu là X Các ví dụ bao gồm nhiệt độ tại một thời điểm nào đó, số
cuộc gọi đến qua một tổng đài điện thoại trong một khoảng 5 phút, thu nhập của một hộ gia đình, tồn kho của một công ty, và giá bán của một căn nhà cũng như các đặc điểm
của nó, như diện tích sinh hoạt hay kích thước lô đất Một biến ngẫu nhiên là rời rạc nếu
Trang 18nó chỉ mang các giá trị lựa chọn Số đèn điện tử TV theo lô 20 và số mặt ngửa trong 10 lần tung một đồng xu là các ví dụ của các biến ngẫu nhiên rời rạc Một biến ngẫu nhiên
là liên tục nếu nó có thể mang bất kỳ giá trị nào trong một khoảng số thực Khi được đo
lường chính xác, chiều cao của một người, nhiệt độ tại một lúc riêng biệt nào đó, và lượng năng lượng tiêu thụ trong một giờ là các ví dụ của các biến ngẫu nhiên liên tục Quy ước sử dụng trong sách này là ký hiệu một biến ngẫu nhiên bằng mẫu tự hoa (như X hay Y) và các kết quả cụ thể của nó bởi mẫu tự thường (như x hay y)
Để giữ cho sự trình bày được đơn giản, ta minh họa các khái niệm khác nhau sử dụng hầu hết các biến ngẫu nhiên rời rạc Các mệnh đề dễ dàng mở rộng tới trường hợp của biến ngẫu nhiên liên tục
Liên kết với mỗi biến ngẫu nhiên là một phân phối xác suất [ký hiệu bởi hàm
f(x)] nó xác định xác suất mà biến ngẫu nhiên sẽ mang các giá trị trong các khoảng xác định cụ thể Định nghĩa chính thức của một biến ngẫu nhiên không được trình bày ở đây nhưng có thể tìm thấy trong mọi cuốn sách liệt kê trong mục lục sách tham khảo
Trong cuốn sách này ta chỉ thảo luận những phân phối có sử dụng trực tiếp trong kinh tế lượng Ramanathan (1993) có nhiều ví dụ của cả các phân phối liên tục và rời rạc không được trình bày ở đây
} VÍ DỤ 2.1
Như là một minh họa, Cục Thuế Nội Bộ Mỹ có thông tin về tổng thu nhập có hiệu chỉnh từ tất cả tiền thu thuế thu nhập cá nhân (kể cả tính trả chung) cho toàn nước Mỹ Giả sử
ta thiết lập các khoảng thu nhập 1 – 10.000, 10.000 – 20.000, 20.000 – 30.000, v.v… và
tính toán tỷ lệ tiền thu thuế thuộc vào mỗi nhóm thu nhập Điều này tạo ra một phân
phối tần suất Tỷ lệ tiền thu thuộc vào nhóm thu nhập 40.000 – 50.000 có thể được xem
là xác suất mà một khoản thu thuế được rút ngẫu nhiên sẽ có thu nhập thuộc vào khoảng đó
Trong Hình 2.1 tỷ lệ của tiền thu thuế được vẽ đồ thị dựa vào các trung điểm của
các khoảng dưới dạng biểu đồ thanh (được biết là biểu đồ tần suất) trong đó diện tích
của các hình chữ nhật bằng với các tỷ lệ tương ứng Nếu kích thước mẫu là đủ lớn và các khoảng đủ nhỏ, ta có thể làm gần đúng các tần suất với một đường cong trơn (như trình bày trong biểu đồ), đó là phân phối xác suất của thu nhập
} VÍ DỤ 2.2
Điểm trung bình (GPA) của một sinh viên thay đổi từ 0 đến 4 Bảng 2.1 có một ví dụ của phân phối xác suất của GPA Hình 2.2 là một sự trình bày bằng hình vẽ của phân phối xác suất Xác suất mà một sinh viên được chọn ngẫu nhiên có GPA ở giữa 2 và 2,5 là 0,244 Sự diễn giải của các con số khác là tương tự
} Bảng 2.1 Phân Phối Xác Suất Của Điểm Trung Bình (GPA)
Trang 19Khoảng 0 – 0,5 0,5 – 1,0 1,0 – 1,5 1,5 – 2,0 2,0 – 2,5 2,5 – 3,0 3,0 – 3,5 3,5 – 4,0
x 0,25 0,75 1,25 1,75 2,25 2,75 3,25 3,75
f(x) 0 0,002 0,010 0,049 0,244 0,342 0,255 0,098
} Hình 2.1 Biểu Đồ Tần Suất Đối Với Thu Nhập Hàng Năm
} Hình 2.2 Phân Phối Xác Suất Của Điểm Trung Bình (GPA)
5 15 25 35 45 55
Thu nhập theo ngàn đô la
Thị Mật Độ Chuẩn
Trang 20Người sử dụng chương trình GRELT nên thử Phần Máy Tính Thực Hành trong Phụ lục C Những người khác được khuyến khích dùng chương trình hồi qui của chính họ để thu được phân phối tần suất cho DATA2-1 và DATA2-2 (xem Phụ lục D)
Phân Phối Chuẩn
Phân phối liên tục được dùng rộng rãi nhất là phân phối chuẩn (còn được biết là phân
phối Gaussian) Dạng đơn giản nhất của nó, được biết đến là phân phối chuẩn chuẩn
hóa (hoặc chuẩn chuẩn hóa), hàm mật độ xác suất (PDF) của phân phối này là
)2/xexp(
trong đó exp là hàm mũ Mật độ chuẩn f(x) là đối xứng xung quanh tọa đôï gốc và có hình
chuông (xem Hình 2.3) P(a ≤ X ≤ b) được xác định bởi vùng tô màu giữa a và b
} VÍ DỤ 2.3
Bảng Phụ lục A.1 có diện tích dưới đường cong chuẩn chuẩn hóa giữa 0 và điểm bất kỳ z Như vậy, lấy ví dụ, diện tích từ 0 đến 1,72 là 0,4573 Bởi vì đường cong chuẩn là đối xứng xung quanh tọa độ gốc, diện tích từ 0 đến –1,72 cũng bằng 0,4573 Diện tích từ 0,65 đến 1,44 có được là độ chênh lệch của các diện tích tính từ 0 và do đó bằng 0,4251 – 0,2422 = 0,1829 Dùng kỹ thuật này và tính chất đối xứng, dễ dàng xác minh rằng P(–0,65 ≤ X ≤ 1,44) = 0,2422 + 0,4251 = 0,6673 và P(–1,44 ≤ X ≤ –0,65) = 0,1829 Để tính
Trang 21P(X > 1,12), ta dùng sự quan hệ P(X > 1,12) = P(X> 0) – P(0 < X < 1,12) = 0,5 – 0,3686
Phân phối là một phần tử của một họ phân phối được biết đến như phân phối nhị
thức Nó phát sinh khi chỉ có 2 kết quả có thể xảy ra đối với một thí nghiệm, một được
mệnh danh là “thành công” và một là “thất bại” Gọi p là xác suất của thành công trong một thí nghiệm cho trước Xác suất của thất bại là 1 – p Hơn nữa giả sử rằng xác suất của thành công là như nhau cho mỗi thí nghiệm và các thí nghiệm là độc lập Gọi X là số lần thành công trong n thí nghiệm độc lập Vậy f(x) có thể trình bày là [xem Freund (1992), trang 184-185]
x n x x
n
)!
xn(x
!nq
px
Gọi X = số lần thành công trong 40 lần thử Vậy ta cần P(X > 15) với p = 0,25 Bảng Phụ Lục A.6 có xác suất tích lũy cận trên mong muốn là 0,0544
Thử làm Bài tập 2.1 đến 2.5 và nghiên cứu các đáp án cho Bài tập 2.4 trong Phụ lục B
Trang 22} 2.2 Kỳ Vọng, Trung Bình và Phương Sai Toán Học
Xét thí nghiệm nhị thức đã mô tả trước đây trong đó một đồng xu được tung ba lần Giả sử ta được trả 3$ nếu kết quả là ba mặt ngửa, 2$ nếu có hai mặt ngửa, 1$ nếu chỉ có một ngửa, và không có gì hết nếu cả ba lần tung đều cho kết quả mặt sấp Về mặt trung bình,
mỗi thí nghiệm tung ba lần, ta kỳ vọng thắng bao nhiêu? Từ Bảng 2.2 ta lưu ý rằng trong
8 lần thí nghiệm ta có thể kỳ vọng, về mặt trung bình, có một lần có ba mặt đều ngửa
(dẫn đến được trả 3$), ba lần có hai mặt ngửa (tổng tiền được trả là 6$, tính 2$ cho mỗi lần), và ba lần với một mặt ngửa (tổng tiền được trả là 3$) Vậy ta có thể kỳ vọng tổng tiền được trả là 12$ (3+6+3) trong 8 lần thử, thành ra tiền được trả trung bình là 1,5 $ cho mỗi lần thử
Trung Bình Của Một Phân Phối
Giá trị trung bình được tính trong phần trước được gọi là trung bình của phân phối
(cũng được biết đến như kỳ vọng toán học của X và giá trị kỳ vọng của X) Nó cũng được biết đến như momen bậc nhất xung quanh giá trị gốc, hay momen định tâm bậc
nhất, và là một đại lượng của định vị Nó được ký hiệu bởi E(X) hay µ E(X) là một trung bình có trọng số của X, với trọng số là các xác suất tương ứng Trong trường hợp tổng quát, giả sử một biến ngẫu nhiên rời rạc có thể có các giá trị x1, x2, , xn P(X = xi)
= f(xi) là hàm xác suất của biến đó Nếu tiền được trả cho kết quả X = xi là xi đô-la, tiền được trả trung bình sẽ là x1f(x1) + x2f(x2) + + xnf(xn) = ∑[xif(xi)], trong đó ∑ ký hiệu cho phép lấy tổng các số hạng, với i = 1 đến n (Xem Phụ lục 2.A.1 về phép tổng.) Vậy
ta có định nghĩa sau đây
ĐỊNH NGHĨA 2.1 (Trung Bình Của Một Phân Phối)
Với một biến ngẫu nhiên rời rạc, trung bình của phân phối (µ) được định nghĩa là
được gọi là momen bậc hai của phân phối của X xung quanh giá trị gốc Khái niệm của
kỳ vọng toán học có thể mở rộng cho bất kỳ hàm số nào của x Vậy, ta có sự diễn tả sau đây cho giá trị kỳ vọng của một hàm tổng quát g(X):
} VÍ DỤ 2.5
Trang 23Điểm Kiểm Tra Khả Năng Học Thuật Về Từ Vựng (VSAT) đối với một sinh viên nộp đơn xin vào đại học có giá trị trải từ 0 đến 700 Bảng 2.3 có một ví dụ của phân phối xác suất của điểm VSAT cho một tổng thể lớn các sinh viên đại học Trung bình của phân phối này được tính là 100 × 0 + 225 × 0,003 + … + 675 × 0,063 = 506,25
} Bảng 2.3 Phân Phối Xác Suất Của Điểm VSAT
} Bài Tập Thực Hành 2.1
Giả sử có 10.000 vé số 1$ được bán và có ba giải thưởng được đưa ra: giải nhất 5.000$, giải nhì 2.000$, và giải ba 500$ Kỳ vọng thắng giải là bao nhiêu?
} Bài Tập Thực Hành 2.2
Một thợ bánh mì có hàm xác suất như sau cho nhu cầu bánh mì (tính theo tá hay 12 đơn
vị mỗi ngày) Tồn kho trung bình nên là bao nhiêu?
f(x) 0,05 0,10 0,25 0,30 0,20 0,10 0
Chúng ta viết một số kết quả liên quan đến giá trị kỳ vọng mà không có chứng minh Những kết quả này được kiến nghị nên được nghiên cứu kỹ lưỡng bởi vì chúng sẽ được sử dụng thường xuyên trong các chương sau (Hãy thử chứng minh chúng.)
Tính chất 2.1
a E(X – µ) = E(X) – µ = 0
b Nếu c là hằng số hay là biến không ngẫu nhiên, E(c) = c
c Nếu c là hằng số hay là biến không ngẫu nhiên, E[cg(X)] = cE[g(x)]
Trang 24d E[u(X) + v(X)] = E[u(X)] + E[v(X)]
Diễn tả bằng từ ngữ, giá trị kỳ vọng của độ lệch so với trung bình là 0 Giá trị kỳ vọng của một hằng số hay một biến không ngẫu nhiên chính bằng nó Giá trị kỳ vọng của một hằng số nhân với một biến ngẫu nhiên bằng hằng số nhân với giá trị kỳ vọng Giá trị kỳ vọng của tổng các hàm số của X là tổng các kỳ vọng Đáp án cho Bài tập 2.6 trong Phụ lục B có chứng minh về Tính chất 2.1 cho trường hợp rời rạc
Phương Sai và Độ Lệch Chuẩn của Một Biến Ngẫu Nhiên
Đặt µ = E(X) là trung bình của phân phối của X Một trường hợp đặc biệt của hàm g(X), mà kỳ vọng của nó được định nghĩa trong Phương trình (2.2), được quan tâm đáng kể Cho g(X) = (X – µ)2 X – µ là một đại lượng để xem X lệch bao nhiêu so với trung bình
µ Bình phương đại lượng này sẽ phóng rộng các độ lệch và xử lý các độ lệch dương và âm như nhau Trung bình có trọng số xác suất của các độ lệch bình phương này (hay, cụ thể hơn, kỳ vọng của chúng) là một đo lường của sự phân tán của các giá trị X xung
quanh giá trị trung bình µ Nó được gọi là phương sai của phân phối (hay momen định
tâm bậc hai) và được ký hiệu bởi σ2 hay Var(X) Nó là một đo lường của sự phân tán của X xung quanh µ Một cách chính thức, ta có định nghĩa sau
ĐỊNH NGHĨA 2.2 (Phương Sai và Độ Lệch Chuẩn)
Phương sai của X được định nghĩa là
Căn bậc hai (σ) của biểu thức này được gọi là độ lệch chuẩn (s.d.)
Tính chất 2.2 liệt kê vài tính chất của phương sai đúng cho cả phân phối liên tục và rời rạc
Tính chất 2.2
a σ2 = E[(X – µ)2] = E[X2 – 2µX + µ2] = E(X2) – 2µE(X) + µ2 = E(X2) – µ2
b Theo đó nếu c là một hằng số hay không ngẫu nhiên, Var(c) = 0
c Nếu a và b là các hằng số hay không ngẫu nhiên, Var(a + bX) = b2σ2
} VÍ DỤ 2.6
Hàm xác suất của một biến ngẫu nhiên rời rạc được cho như sau:
Trang 25x 0 1 2 3 f(x) 0,1 0,3 0,4 0,2
Hãy tính trung bình, phương sai, và độ lệch chuẩn
µ = E(X) = ∑xif(xi) = (0 × 0,1) + (1 × 0,3) + (2 × 0,4) + (3 × 0,2) = 0 + 0,3 + 0,8 + 0,6 = 1,7
E(X2) = ∑xi2f(xi) = (0 × 0,1) + (1 × 0,3) + (4 × 0,4) + (9 × 0,2) = 0 + 0,3 + 1,6 + 1,8 = 3,7
Var(X) = E(X2) – µ2 = 3,7 – (1,7)2 = 0,81
σ = Var(X) = 0,9
} BÀI TẬP THỰC HÀNH 2.3
Hãy tính trung bình, phương sai, và độ lệch chuẩn cho các phân phối trong các Bảng 2.1 và 2.3
} BÀI TẬP THỰC HÀNH 2.4
Hãy chứng tỏ rằng nếu biến ngẫu nhiên X có trung bình µ và độ lệch chuẩn σ, biến ngẫu
nhiên biến đổi Z = (X – µ)/σ (thường tham chiếu như là giá trị z) có trung bình 0 và
phương sai là 1
Phân Phối Chuẩn Tổng Quát
Phân phối chuẩn được trình bày trong Phần 2.1 có trung bình 0 và phương sai đơn vị Một phân phối chuẩn tổng quát, với trung bình µ và phương sai σ2, thường được viết là N(µ,
σ2), có hàm mật độ như sau:
µ
−
−πσ
2
)x(exp2
1
trong đó exp ký hiệu của hàm mũ Nếu X là phân phối chuẩn, nó được viết là X ∼ N(µ,
σ2) Ba phân phối xác suất chuẩn được trình bày trong Hình 2.4 Vài tính chất của phân phối chuẩn được liệt kê trong Tính chất 2.3
Trang 26Tính chất 2.3
Phân phối chuẩn, với trung bình µ và phương sai σ2 [được viết là N(µ, σ2)], có các tính chất sau:
a Đối xứng xung quanh giá trị trung bình µ và có dạng hình chuông
b Diện tích dưới đường cong chuẩn giữa µ – σ và µ + σ – nghĩa là trong khoảng 1 độ lệch chuẩn tính từ trung bình – hơi lớn hơn 2/3(0,6826) 95,44 phần trăm diện tích nằm trong khoảng 2 độ lệch chuẩn tính từ giá trị trung bình – nghĩa là, giữa µ – 2σ và µ + 2σ 99,73 phần trăm diện tích nằm trong khoảng 3 độ lệch chuẩn tính từ giá trị trung bình Vậy, gần như toàn bộ phân phối nằm giữa µ – 3σ và µ + 3σ
} Hình 2.4 Ba Phân Phối Chuẩn
c Nếu X có phân phối chuẩn, với trung bình µ và độ lệch chuẩn σ, thì biến ngẫu nhiên
“chuẩn hóa” Z = (X – µ)/σ có phân phối chuẩn chuẩn hóa N(0,1) Bởi tính chất này, diện tích giữa hai điểm a và b trong N(µ, σ2) sẽ bằng với diện tích giữa các điểm mút
chuẩn hóa (a – µ)/σ và (b – µ)/σ trong N(0, 1) Bảng A.1 có các diện tích theo chuẩn hóa giữa trung bình 0 và các giá trị khác nhau của Z
d Nếu X được phân phối theo N(µ, σ2), thì Y = a + bX, trong đó a và b là hằng số cố định, được phân phối theo N(a + bµ, b2σ2)
Trang 27Một nhà sản xuất lốp xe đã nhận thấy rằng tuổi thọ của một loại lốp nào đó là một biến ngẫu nhiên chuẩn với trung bình là 30.000 dặm và độ lệch chuẩn là 2.000 dặm Công ty mong muốn đảm bảo lốp xe đó cho N dặm với việc trả lại toàn bộ tiền nếu lốp xe không dùng được đến giới hạn đó Giả sử công ty muốn đảm bảo rằng xác suất mà một lốp xe
bị trả lại không quá 0,10 (nghĩa là không quá 10 phần trăm số lốp xe sẽ được bán) Giá trị N công ty nên chọn là bao nhiêu?
Cho X là tuổi thọ của lốp xe Vậy X được phân phối theo N(30.000, 2.0002) Ta
X
σ
µ-
của 0,10 phía bên trái của z, ta cần tìm điểm d (= – z) sao cho diện tích giữa 0 và d là 0,40 (do tính chất đối xứng) Từ Bảng A.1 của phụ lục, ta lưu ý rằng P(0 ≤ Z ≤ d = 1,282)
= 0,40, nghĩa là nếu
σ
µ-
N ≤ – 1,282, thì bất đẳng thức trên sẽ thỏa mãn Vậy, N ≤ µ – 1,282σ = 30.000 – (1,282)2.000; nghĩa là N ≤ 27.436 dặm
} Hình 2.5 Đồ Thị Mật Độ Chuẩn Chuẩn Hóa
Hệ Số Biến Thiên
Trang 28Hệ số biến thiên được định nghĩa là tỷ số σ/µ, trong đó tử số là độ lệch chuẩn và mẫu số
là trị trung bình Đó là một đại lượng của sự phân tán của phân phối tương đối so với trị
trung bình của phân phối Chúng ta sẽ gặp phải khái niệm này lần nữa trong Chương 14 khi thực hiện một dự án thực nghiệm
Để có thảo luận của các đo lường khác đặc trưng cho một phân phối, xem Ramanathan (1993, Phần 3.5) Phần Máy Tính Thực Hành 2.2 (xem Bảng Phụ lục D.1) minh họa các khái niệm này cho người sử dụng GRELT, dùng dữ liệu mẫu về điểm trung bình của 427 sinh viên
} 2.3 Các Xác Suất Kết Hợp, Đồng Phương Sai, và Tương Quan
Các hàm xác suất được xác định với một cặp biến ngẫu nhiên nào đó (ví dụ như biến
PRICE và SQFT hay biến tiêu dùng và thu nhập) được gọi là phân phối xác suất kết hợp hay phân phối hai biến Để việc trình bày đơn giản hơn, phần thảo luận chỉ tập trung vào
các biến ngẫu nhiên rời rạc Sự khái quát hoá đối với trường hợp biến liên tục có thể dễ dàng suy ra Gọi X và Y là hai biến ngẫu nhiên rời rạc, x và y là các giá trị tương ứng mà
hai biến trên có thể đạt được Xác suất mà X = x và Y = y được gọi là hàm xác suất kết
hợp đối với X và Y và được biểu thị thông qua hàm fXY(x, y) Vì thế ta có hàm fXY(x, y)
= P(X = x, Y = y), có nghĩa là P(X = x và Y = y) Vì hàm xác suất thường được biểu thị bằng f() nên chúng ta dùng ký hiệu XY đặt ở bên dướiđể quy định hai biến ngẫu nhiên kết hợp đang quan sát là X và Y
} V Í D Ụ 2.8
Hãy xem xét cuộc thí nghiệm thảy một cặp súc sắc Có thể có 36 trường hợp xảy ra, được biểu thị theo (1, 1), (1, 2), …, (6, 6), trong đó chữ số đầu tiên là kết quả của súc sắc thứ nhất và số hạng thứ hai biểu thị kết quả của súc sắc thứ hai Mỗi kết quả đều có khả năng xảy ra như nhau, và vì vậy xác suất xảy ra của mỗi kết quả cụ thể là 1/36 Bây giờ, đặt biến ngẫu nhiên X = số lần xuất hiện của số 3 ở kết quả thu được Do đó, nêu kết quả là (1, 5) thì X = 0; nếu là (3, 6) thì X = 1; và X = 2 khi và chỉ khi kết quả là (3, 3) Giá trị
X chỉ chỉ có thể là 0, 1, và 2 Kế tiếp, chúng ta định nghĩa biến ngẫu nhiên Y = số lần xuất hiện của số 5 xuất hiện nơi kết quả cụ thể, giá trị của Y cũng chỉ có thể là 0, 1, và 2 Kết quả (1, 3) sẽ tương ứng với X = 1 và Y = 0 Dễ dàng kiểm chứng các giá trị xác suất kết hợp cho trong bảng 2.4 Ví dụ, biến cố kết hợp (X = 1, Y = 1) có thể xảy ra chỉ khi có kết quả là (3, 5) hoặc (5, 3), mỗi trường hợp đều có xác suất là 1/36 Vì thế, f(1, 1) = P(X
= 1, Y = 1) = 1/36 Các giá trị xác suất khác cũng được tính toán tương tự (hãy kiểm chứng các kết luận này như là bài tập thực hành)
Trang 29Sự Độc Lập Thống Kê
Các biến ngẫu nhiên rời rạc được gọi là sự độc lập thống kê nếu P(X = x và Y = y) =
P(X = x) P(Y = y) Vì vậy trong trường hợp này, xác suất kết hợp là tích của các xác suất riêng lẻ Đối với trường hợp biến có dạng liên tục, chúng ta sẽ có fXY(x, y) = fX(x)
fY(y)
Xác Suất Có Điều Kiện
Để biết thêm về xác suất của những biến cố xảy ra kết hợp của hai biến ngẫu nhiên X và
Y, chúng ta cũng cần nên biết về xác suất xảy ra của biến ngẫu nhiên cụ thể (Y) nào đó
cho trước sự kiện đã xảy ra của một biến (X) ngẫu nhiên khác Ví dụ, chúng ta có thể muốn biết xác suất để giá mua một căn nhà là 200.000 đô la, nếu cho trước diện tích sinh
hoạt phải là 1.500 thước vuông Anh Yêu cầu này sẽ dẫn chúng ta đến khái niệm xác
suất có điều kiện, được định nghĩa trong trường hợp biến ngẫu nhiên dạng rời rạc như sau:
P(Y = y X = x) =
)xX(P
)yY,xX(P
)y,x(f
X
XY với mọi giá trị của x sao cho fX(x) > 0
Trong đó fXY(x, y) là hàm mật độ xác suất kết hợp của X và Y và fX(x) là hàm mật độ
xác suất của riêng biến X, thường được đề cập đến như là hàm mật độ cận biên của
biến X Lưu ý rằng xác suất có điều kiện phụ thuộc vào cả giá trị x và y Khi cả hai biến ngẫu nhiên này phụ thuộc thống kê lẫn nhau thì phân phối xác suất có điều kiện trở thành các phân phối cận biên tương ứng Để hiểu được điều này, hãy lưu ý rằng sự độc lập thống kê ngầm định fXY(x, y) = fX(x) fY(y) Rút ra từ kết luận này, chúng ta có:
fYX (yx) = fXY(x, y)/fX(x) = fY(y) và fXY (xy) = fXY(x, y)/fY(y) = fX(x) } Bảng 2.4 Phân phối xác suất kết hợp đối với số lần xuất hiện các con số 3 (X) và
số 5 (Y) khi một cặp súc sắc được thảy
Trang 30} Bảng 2.5 Phân Phối Cận Biên Đối Với Số Lần Xuất Hiện Các Con Số 3 (X) Và Số
5 (Y) Khi Một Cặp Súc Sắc Được Thảy
} Bảng 2.6 Phân Phối Có Điều Kiện Đối Với Số Lần Xuất Hiện Các Con Số 5 (Y)
Cho Trước Số Lần Xuất Hiện Của Các Số 3 (X) Khi Một Cặp Súc Sắc Được Thảy
P(Y = 0X = 0) = P(X = 0, Y = 0)/ P(X = 0) = 16/36 ÷ 25/36 = 0,64
Trang 31Tiến hành tương tự, chúng ta sẽ có được các giá trị phân phối có điều kiện của biến Y với X cho trước trình bày trong bảng 2.6
Giá Trị Kỳ Vọng Toán Học Trong Trường Hợp Hai Biến
Khái niệm kỳ vọng toán học có thể mở rộng dễ dàng sang trường hợp các biến ngẫu nhiên gồm hai biến Cho trước hàm g(X, Y) và hàm xác suất kết hợp f(x, y), giá trị kỳ vọng của g(X, Y) được xác định bằng cách nhân g(x, y) với f(x, y) và cộng tổng các giá trị có thể có của x và y Chúng ta có các định nghĩa sau đây
ĐỊNH NGHĨA 2.3 ( GIÁ TRỊ KỲ VỌNG )
Giá trị kỳ vọng của g(X, Y) được xác định như sau:
)y,x()y,x(g
Trong đó phép tính tổng hai lần biểu diễn phép tính tổng trên tất cả các giá trị có thể có của x và y (Vì vậy giá trị kỳ vọng sẽ bằng tổng có trọng số với giá trị xác suất kết hợp được dùng làm trọng số)
Gọi µx là giá trị kỳ vọng của biến ngẫu nhiên X, và µy là giá trị kỳ vọng của biến ngẫu nhiên Y Phương sai của chúng được xác định tương tự như trường hợp đơn biến:
])X[(
}BÀI TẬP THỰC HÀNH 2.5
Từ các giá trị xác suất kết hợp cho trong bảng 2.4, hãy tính trị trung bình µx = E(X), µy =
Giá Trị Kỳ Vọng Có Điều Kiện và Phương Sai Có Điều Kiện
Giá trị kỳ vọng của Y với X cho trước được gọi là giá trị kỳ vọng của Y với X cho
trước Một cách cụ thể hơn, đối với một cặp biến ngẫu nhiên rời rạc, thì E(YX =x) =
yfYX(x,y) như một trọng số Giá trị kỳ vọng của Y với X cho trước
Trang 32còn được gọi là giá trị hồi quy của Y theo X Từ bảng 2.6, chúng ta có thể thấy rằng
E(YX = 0) = (0,64 × 0) + (0,32 × 1) + (0,04 × 2) = 0,32 + 0,08 = 0,4; E(YX = 1) = 0,2; và E(YX = 2) = 0 Trong mô hình hồi quy đơn giản được trình bày trong ví dụ 1.1, chúng ta có PRICE = α + β SQFT + u Nếu E(uSQFT) = 0 thì E(PRICESQFT) = α + β SQFT Vì vậy, phần xác định của mô hình là giá trị kỳ vọng có điều kiện của biến PRICE với SQFT cho trước, khi E(uSQFT) = 0
Khái niệm giá trị kỳ vọng có điều kiện đã trình ở trên có thể mở rộng dễ dàng để
tính toán phương sai có điều kiện, được xác định như sau Gọi µ*(X) là giá trị kỳ vọng
có điều kiện của Y cho trước X, được ký hiệu là E(YX) Phương sai có điều kiện của Y với X cho trước được định nghĩa như sau Var(YX) = EYX [(Y – µ* )2 | X ] Nói cách khác, cố định giá trị của biến X và tính toán giá trị trung bình có điều kiện của Y với X cho trước, và sau đó tính toán phương sai xung quanh giá trị trung bình này với trọng số là mật độ có điều kiện fYX(x,y)
Một số tính chất của giá trị kỳ vọng có điều kiện sử dụng trong môn học kinh tế lượng được tóm tắt sau đây Để hiểu rõ thêm về phần chứng minh, xin tham khảo tác giả Ramanathan (1993, phần 5.2)
Tính chất 2.4 Đối với mọi hàm u(x) thì ta luôn có E[u(x)X] = u(x) Tính chất này ngầm định
rằng khi tiến đến giá trị kỳ vọng có điều kiện cho trước X thì hàm u(X) tiến đến
giá trị hằng số Do đó, một trường hợp đặc biệt được suy ra là nếu c là hằng số thì
E(cX) = c
Tính chất 2.5 E([a(x) + b(X)Y]X) = a(X) + b(X) E(YX)
Tính chất 2.6 EXY(Y) = EX [EYX (YX)] Tính chất này có nghĩa là giá trị kỳ vọng không điều
kiện của Y, sử dụng mật độ chung giữa X và Y, có thể tính toán được bằng cách tính trước tiên giá trị kỳ vọng có điều kiện của Y với X cho trước (là biểu thức trong dấu ngoặc vuông), sau đó tính giá trị kỳ vọng của chúng theo X Tính chất
này được gọi là luật của các giá trị kỳ vọng lặp (law of iterated expectations)
Tính chất 2.7 Var(Y) = EX[Var(YX)] + VarX[E(YX)] Nói cách khác, giá trị phương sai của
Y sử dụng hàm mật độ kết hợp fXY(x, y) tính toán được sẽ tương đương với giá trị kỳ vọng của phương sai có điều kiện của biến Y cộng với phương sai của giá trị kỳ vọng có điều kiện của biến Y với X cho trước
Đồng phương sai và tương quan
Khi gặp phải hai biến ngẫu nhiên, một trong những vấn đề thường thu hút sự quan tâm là
mối quan hệ giữa hai biến này như thế nào? Khái niệm đồng phương sai và tương quan
là hai cách để đo lường mức độ quan hệ “chặt” giữa hai biến ngẫu nhiên đó
Trang 33Hãy xem xét hàm g(X, Y) = (X – µX)(Y – µY) Giá trị kỳ vọng của hàm số này được
gọi là đồng phương sai giữa X và Y và được ký hiệu là σXY hay Cov(X, Y)
ĐỊNH NGHĨA 2.4 ( ĐỒNG PHƯƠNG SAI )
Giá trị đồng phương sai giữa X và Y được xác định như sau
= E(XY) – µyE(X) – µxE(Y) + µxµy = E(XY) – µxµy
Dễ dàng suy ra từ kết luận trên rằng Cov(X,X) = Var(X)
Các định nghĩa về phương sai và đồng phương sai đều đúng trong cả hai trường hợp phân phối có dạng rời rạc và liên tục Vì phương sai chỉ là một đại lượng đo lường mức độ phân tán của biến ngẫu nhiên xung quanh giá trị trung bình, nên đồng phương sai giữa hai biến ngẫu nhiên sẽ là đại lượng đo lường mức độ liên kết chung giữa chúng Giả sử rằng hai biến ngẫu nhiên rời rạc X và Y quan hệ đồng hướng với nhau, và do đó khi giá trị Y tăng thì giá trị X cũng tăng theo như biểu diễn trên hình 2.6 Các vòng tròn nhỏ biểu thị các cặp giá trị của X và Y tương ứng với các kết quả khả dĩ giới hạn Đường gạch chấm biểu diễn giá trị trung bình µx và µy Bằng cách chuyển trục toạ độ đến đường gạch chấm này với gốc toạ độ là (µx, µy), chúng ta có thể thấy rằng Xi – µx và Yi – µy là độ dài tính từ gốc toạ độ mới, đối với một kết quả nào đó được ký hiệu bằng hậu tố i Từ hình vẽ, có thể chứng minh rằng các điểm nằm trong phần tư thứ nhất và thứ ba sẽ làm cho tích (Xi – µx)(Yi – µy) luôn có giá trị dương, vì từng số hạng trong biểu thức sẽ cùng dương hoặc cùng âm Khi chúng ta tính toán đại lượng đồng phương sai là tổng có trọng số các tích biểu thức trên, kết quả cuối cùng có khuynh hướng nhận giá trị dương vì có nhiều số hạng dương hơn các số hạng âm Vì vậy, giá trị đồng phương sai có khuynh hướng dấu dương Trong trường hợp cả hai biến X và Y di chuyển theo hướng ngược lại, giá trị Cov(X, Y) sẽ có dấu âm
Mặc dù đại lượng đồng phương sai rất có ích trong việc xác định tính chất của mối liên kết giữa X và Y nhưng nó tồn tại một vấn đề khá nghiêm trọng là các giá trị tính bằng số rất nhạy đối với giá trị đơn vị dùng để đo biến X và Y Nếu X là một loại biến tài chính tính bằng đô-la hơn là tính bằng đơn vị ngàn đô-la, đại lượng đồng phương sai sẽ dốc đứng do ảnh hưởng của hệ số 1.000 Để tránh vấn đề này, người ta sẽ sử dụng đại
lượng đồng phương sai “được chuẩn hóa” Đại lượng này còn được gọi là hệ số tương
quan giữa biến X và Y và được ký hiệu là ρxy
ĐỊNH NGHĨA 2.5 ( HỆ SỐ TƯƠNG QUAN )
Trang 34Hệ số tương quan giữa biến X và Y được định nghĩa như sau:
2 / 1 y
x
xy xy
)]
Y(Var)X(Var[
)Y,X(Cov
=σσ
σ
=
Nếu biến X và Y có quan hệ dương thì hệ số tương quan sẽ có dấu dương Nếu biến
X và y có quan hệ âm thì chúng sẽ di chuyển theo hướng ngược lại Trong trường hợp này, giá trị đồng phương sai và hệ số tương quan đều có dấu âm Hệ số tương quan hoàn toàn có thể bằng zero Trong trường hợp này, chúng ta có thể kết luận rằng biến x và y
không có tương quan Người ta có thể viết rằng 2 1
Giá trị ρxysẽ bằng 1 khi và chỉ khi có một mối quan hệ tuyến tính chính xác giữa X và
Y theo biểu thức Y – µy = β( X – µx) Nếu ρxy = 1 thì quan hệ giữa X và Y được gọi
là tương quan hoàn hảo Nêu lưu ý rằng mối tương quan hoàn hảo chỉ xảy ra khi giữa X
và Y có mối quan hệ tuyến tính một cách chính xác Ví dụ, Y có thể xuất hiện trong biểu
thức dạng Y = X2, rõ ràng là có biểu hiện mối quan hệ nhưng hệ số tương quan giữa X và
Y sẽ không thể bằng 1 Vì vậy, hệ số tương quan sẽ đo lường phạm vi của mối liên kết tuyến tính giữa hai biến
Nếu biến X và Y là hai biến độc lập thì fXY(x, y) = fX(x) fY(y), có nghĩa là xác suất kết hợp chính là tích của các xác suất riêng lẻ Trong trường hợp này, nên lưu ý từ định nghĩa của σxy, chúng ta có
)y(fx(fy)(
x x
=E(X −µx)E(Y −µy)
Nhưng do E(X – µx) = E(X) – µx = 0 (xin xem tính chất 2.1a), nên σxy = 0 và ρxy = 0 nếu
hai biến ngẫu nhiên này là độc lập Hay nói cách khác, nếu biến X và Y là hai biến độc
lập thì chúng sẽ không tương quan nhau
Kết luận ngược lại có thể không còn chính xác (nghĩa là mối tương quan zero sẽ không ngầm định tính chất độc lập), và có thể kiểm chứng thông qua các ví dụ sau Đặt
fXY(x, y) tương tự như trong bảng 2.7
Trang 35Cov(X, Y) = E(XY) – E(X) E(Y)
+ (10 × 3 × 0,2) = 16
Vì vậy, Cov(X, Y) = 0 Nhưng biến X và Y là không độc lập vì P(X = 2, Y = 6) = 0, P(X
= 2) = 0,2, và P(Y = 6) = 0,4 Do đó, xác suất kết hợp sẽ không thể bằng tích của các xác suất riêng lẻ
}BÀI TẬP THỰC HÀNH 2.6
Sử dụng các biến X và Y với xác suất kết hợp cho trong bảng 2.4, hãy tính giá trị Cov(X, Y) và ρxy (lưu ý rằng bạn đã tính giá trị trung bình và phương sai trong bài tập 2.5)
}BÀI TẬP THỰC HÀNH 2.7 +
Giả sử biến ngẫu nhiên X chỉ có thể nhận các giá trị 1, 2, 3, 4, và 5, mỗi giá trị ứng với xác suất bằng nhau và bằng 0,2 Cho Y = X2 Hãy tính hệ số tương quan giữa X và Y và chứng minh rằng hệ số này không bằng 1, cho dù giữa biến X và Y có mối quan hệ chính xác
} Bảng 2.7 Ví Dụ Cho Thấy Đồng Phương Sai Bằng Không Không Nhất Thiết Phải Là Độc Lập
b Hệ số tương quan ρxy nằm trong khoảng – 1 đến + 1
Trang 36c Nếu X và Y là hai biến độc lập thì σxy = Cov(X, Y) = 0; có nghĩa là, X và Y không tương quan nhau Trong trường hợp này, kết hợp (a) và hệ quả rút ra từ tính chất này,
ta có Var(X + Y) = Var(X) + Var(Y) và Var(X – Y) = Var(X) + Var(Y)
d Giá trị ρxy sẽ bằng 1 khi và chỉ khi tồn tại mối quan hệ tuyến tính chính xác giữa X và Y theo biểu thức Y – µy = β( X – µx)
e Giá trị tương quan giữa biến X và chính nó bằng 1
f Nếu U = a0 + a1X, V = b0 + b1Y, và a1b1 > 0 thì ρuv = ρxy; nghĩa là hệ số tương quan sẽ thay đổi trong trường hợp đơn vị đo được điều chỉnh theo tỷ lệ Nếu a1b1 < 0 thì ρuv = – ρxy Tuy nhiên, nếu U = a0 + a1X + a2Y, V = b0 + b1X + b2Y thì ρuv ≠ ρxy Điều này có nghĩa là giá trị tương quan không thay đổi trong trường hợp có sự biến đổi tuyến tính tổng quát (ai và bi được giả thiết có giá trị khác zero)
g Nếu giá trị a1, a2, b1 và b2 là cố định thì Cov(a1X + a2Y, b1X + b2Y) = a1b1Var(X) + (a1b2 + a2b1)Cov(X, Y) + a2b2Var(Y)
Phân Phối Nhiều Biến *
Trong phần này, các khái niệm vừa trình bày ở trên sẽ được mở rộng cho trường hợp có nhiều hơn hai biến ngẫu nhiên Gọi x1, x2, …, xn tương ứng với n số biến ngẫu nhiên Và hàm mật độ xác suất kết hợp của chúng là fX(x1, x2, …, xn) Tương tự như trước đây, chúng là độc lập nếu hàm mật độ xác suất PDF chung là tích của mỗi PDF riêng lẻ Vì vậy, chúng ta có
fX(x1, x2, …, xn) = fX1(x1) fX2(x2) fXn(xn)
Trong trường hợp đặc biệt khi mỗi giá trị x được phân phối giống nhau và độc lập lẫn
nhau (được ký hiệu là iid – independently and idetically distributed), chúng ta có
fX(x1, x2, …, xn) = fX (x1) fX (x2) fX (xn)
Trong đó fX(x) là hàm phân phối chung của mỗi giá trị x Một số kết quả đáng quan tâm
về phân phối đa biến được trình bày trong tính chất 2.9
Tính chất 2.9
a Nếu a1, a2, …, an là hằng số hoặc không ngẫu nhiên thì E[a1x1 + a2x2 + + anxn] =
a1E(x1) + a2E(x2) + + anE(xn) Vì vậy, giá trị kỳ vọng của một tổ hợp tuyến tính các số hạng bằng tổ hợp tuyến tính của mỗi giá trị kỳ vọng riêng lẻ Trong ký hiệu phép lấy tổng, ta có E[Σ(aixi)] = ΣE(aixi) = ΣaiE(xi)
b Nếu mỗi xi đều có giá trị trung bình bằng nhau thì E(xi) = µ, chúng ta có E(Σai xi) = µΣai Đặc biệt, nếu tất cả hệ số ai đều bằng nhau và bằng 1/n thì chúng ta sẽ có
Trang 37E(Σxi/n) = E( x ) = µ Vì vậy, giá trị kỳ vọng của giá trị trung bình của các biến ngẫu nhiên có phân phối giống nhau sẽ bằng giá trị trung bình chung của chúng
c Var[Σ(aixi)] = Σia2i Var(xi) + ∑∑
≠ j i
σ ) thì tổ hợp tuyến tính của tập biến x cho trước có dạng a1 x1 +
a2 x2 + + an xn cũng sẽ có dạng phân phối chuẩn với giá trị trung bình là a1 µ1 +
a2 µ2 + + an µn và giá trị phương sai là 2
1
2 1
2
2 2
n
2 n
a σ Trong ký hiệu phép lấy tổng, chúng ta có thể viết như sau U = Σ( ai xi) ∼ N[(Σai µi), (Σ 2
i
2 i
a σ )]
g Nếu tất cả các x1, x2, , xn đều độc lập và có phân phối giống nhau (iid) tuân theo phân phối chuẩn N(µ, σ2) thì giá trị trung bình của chúng là x = (1/n)Σxi sẽ có dạng phân phối chuẩn với giá trị trung bình bằng µ và phương sai bằng σ2/n, nghĩa là x ∼ N(µ, σ2/n) Tương tự, chúng ta có z = n(x−µ)/σ ∼ N(0, 1)
} 2.4 Lấy Mẫu Ngẫu Nhiên và Các Phân Phối Lấy Mẫu
Một kiểm định bằng thống kê có thể phát sinh thêm ngoài nhu cầu giải quyết một bài toán cụ thể nào đó Nó có thể là một sự cố gắng nhằm giải thích một cách hợp lý hành vi trong quá khứ của một tác nhân nào đó hay dự báo các hành vi trong tương lai của
chúng Trong việc định dạng vấn đề, điều quan trọng là phải xác định được một không
gian thống kê hợp lý, hay tổng thể mà bao gồm tổng tất cả các phần tử có liên quan đến thông tin yêu cầu Thuật ngữ tổng thể được dùng theo một nghĩa tổng quát và không chỉ
giới hạn khi đề cập đến các sinh vật mà thôi Tất cả các hạt giống trong thùng lưu trữ, mọi công ty trong thành phố, và tất cả các bồn sữa được sản xuất bởi trại bò sữa cũng
được gọi là tổng thể
Một nhà phân tích sẽ quan tâm nhiều đến những kết luận rút ra về những tính chất của tổng thể Điều hiển nhiên là chi phí sẽ rất cao nếu nghiên cứu từng phần tử của tập chính để đưa ra các kết luận Do đó mà nhà phân tích sẽ chọn ra một mẫu gồm một số phần tử, tiến hành quan sát chúng, và sử dụng những quan sát này để rút các kết luận về đặc điểm của tổng thể mà mẫu phần tử làm đại diện Quá trình này được gọi là lấy mẫu
Trang 38Có thể có rất nhiều cách lấy mẫu: lấy mẫu ngẫu nhiên, lấy mẫu phán đoán, lấy mẫu chọn lọc, lấy mẫu có hoặc không có hoàn trả phần tử trở lại tổng thể, lấy mẫu phân tầng,
v.v Trong tài liệu này, chúng tôi chỉ đề cập đến lấy mẫu ngẫu nhiên, là cách lấy mẫu
thường dùng nhất
ĐỊNH NGHĨA 2.6 (Lấy mẫu ngẫu nhiên)
Một mẫu ngẫu nhiên đơn giản của n yếu tố là một mẫu có tính chất rằng mọi tổ hợp của
n yếu tố đều có một cơ hội là mẫu được chọn bằng nhau Một mẫu ngẫu nhiên của các
quan sát đối với một biến ngẫu nhiên X là một tập hợp của các biến ngẫu nhiên độc lập,
được phân phối giống nhau (iid) X1, X2, , Xn, mỗi biến có cùng phân phối xác suất như phân phối của X
Các Phân Phối Mẫu
Một hàm của các giá trị quan sát của các biến ngẫu nhiên không chứa bất kỳ thông số
chưa biết nào được gọi là một trị thống kê mẫu Hai trị thống kê mẫu được sử dụng một
cách thường xuyên nhất là trung bình mẫu (ký hiệu là x_) và phương sai mẫu (ký hiệu là
Lý do phải chia cho n – 1 chứ không phải là n được giải thích trong Phần 2.7 Căn bậc
hai của phương sai mẫu (s) được gọi là độ lệch chuẩn mẫu hay sai số chuẩn Sự khác biệt giữa một trị thống kê mẫu và một thông số tổng thể phải được hiểu một cách rõ
ràng Giả sử biến ngẫu nhiên X có giá trị kỳ vọng µ và phương sai σ2 Đây là những thông số tổng thể có giá trị cố định và không ngẫu nhiên Tuy nhiên ngược lại trung bình mẫu x_ và phương sai mẫu s2 là các biến ngẫu nhiên Điều này là do những thử nghiệm khác nhau của một thí nghiệm cho các giá trị trung bình mẫu và phương sai khác nhau Bởi vì các trị thống kê này là các biến ngẫu nhiên, nó có ý nghĩa khi nói về các phân
phối của chúng Nếu chúng ta rút ra một mẫu ngẫu nhiên có cỡ mẫu là n và tính trung
bình mẫu x_, chúng ta thu được một giá trị nhất định Lặp lại thí nghiệm này nhiều lần,
mỗi lần rút ra một mẫu ngẫu nhiên có cùng cỡ mẫu n Chúng ta sẽ có được nhiều giá trị
của trung bình mẫu Chúng ta khi đó có thể tính tỷ số những lần mà các giá trị trung bình
Trang 39này rơi vào một khoảng xác định Tỷ số này cho chúng ta xác suất mà tại đó trung bình
mẫu sẽ nằm trong khoảng xác định đoù (xem khái niệm tần suất trong xác suất đã được giới thiệu trong Phần 2.1 và trong Ví dụ 2.1) Bằng cách thay đổi khoảng này, chúng ta có thể đạt được toàn bộ khoảng xác suất, từ đó phát ra một phân phối xác suất Phân
phối này được gọi là phân phối của trung bình mẫu Với một cách tương tự, chúng ta có
thể tính phương sai mẫu cho mỗi lần lặp lại thử nghiệm đó và sử dụng các giá trị khác
nhau có được từ cách này để đạt được phân phối của phương sai mẫu Bởi vì trung bình
và phương sai mẫu này là dành cho một mẫu có kích cỡ xác định là n, chúng ta sẽ kỳ vọng các phân phối mẫu phụ thuộc vào n cũng như vào những thông số của phân phối
tổng thể mà mẫu đã được rút ra từ đó
Lấy Mẫu từ một Phân phối Chuẩn
Các phân phối mẫu của trung bình và phương sai mẫu là mối quan tâm đáng kể trong kinh tế lượng và thống kê, đặc biệt là khi tổng thể mà các quan sát được rút ra từ đó có
phân phối chuẩn Cho X là một biến ngẫu nhiên có phân phối chuẩn với trung bình µ và
phương sai σ2 Vì vậy, X ∼ N(µ,σ2) Hãy rút ra một mẫu ngẫu nhiên có cỡ n từ tổng thể,
đo lường biến ngẫu nhiên, và thu được các quan sát x1, x2, , xn Phân phối mẫu của x_
và s2? Chúng ta lưu ý rằng trung bình mẫu là một sự kết hợp tuyến tính của n biến ngẫu
nhiên từ Tính chất 2.9g, chúng ta thấy rằng sự kết hợp tuyến tính này cũng có một phân phối chuẩn Cụ thể là x_ cũng có trung bình µ và Var(x_) = σ2 / n Do đó chúng ta có tính
chất sau
Tính chất 2.10
a Nếu một mẫu ngẫu nhiên x1, x2, , xn được rút ra từ một tổng thể chuẩn với trung bình µ và phương sai σ2, trung bình mẫu x_ được phân phối chuẩn với trung bình µ và phương sai σ2/n Vì vậy, x_ ∼ N (µ,σ2/n) Chúng ta chú ý từ điểm này phân phối của
trung bình mẫu có một sự phân tán nhỏ hơn chung quanh trung bình, và cỡ mẫu càng lớn thì phương sai càng nhỏ
b Phân phối của Z = (x_ − µ) / (σ / √n ) = √n (x_ − µ) / σ là N (0,1)
Các công thức của phân phối của phương sai mẫu được xác định trong Phương trình (2.9) sẽ được bàn tiếp ở Phần 2.7
Các phân phối Mẫu Lớn
Khi cỡ mẫu lớn, chúng ta có thể thu được từ một số tính chất khá hữu ích trong thực tế
Hai trong số này là luật số lớn và lý thuyết giới hạn trung tâm được phát biểu ở Tính
chất 2.11
Trang 40Tính chất 2.11
a Luật số lớn: Gọi Z_ là trung bình của một mẫu ngẫu nhiên các giá trị Z1, Z2, ,
Zn , được phân phối một cách độc lập và giống nhau Khi đó Z_ hội tu về E(Z) Nói ngắn gọn là khi n tăng, trung bình mẫu của một tập hợp các biến ngẫu nhiên tiến tới
giá trị kỷ vọng của nó Một trường hợp đặc biệt của sự gia tăng này xảy ra khi Z_ = x_
, trung bình mẫu Bởi vì E(x_) = µ, trung bình của tổng thể, x_ hội tụ về µ Tương tự s2
= [∑(xi – x_)2] / (n –1) hội tụ về σ2 khi n tiến tới vô cực
b Lý thuyết giới hạn trung tâm: Gọi x1, x2, , xn là mẫu ngẫu nhiên của các quan sát từ cùng một phân phối và gọi E(xi) = µ và Var(xi) = σ2 Khi đó phân phối mẫu của biến ngẫu nhiên Zn = √n (x_ − µ) / σ hội tụ về phân phối chuẩn chuẩn hóa N (0,1) khi n hội tụ về vô cực
Lý thuyết giới hạn trung tâm rất có hiệu lực bởi vì nó vẫn đúng ngay cả khi phân phối
xuất phát của các quan sát là không chuẩn Điều này có nghĩa là nếu chúng ta chắc chắn rằng cỡ mẫu là lớn, thì chúng ta có thể sử dụng biến ngẫu nhiên Zn được xác định ở trên để trả lời các câu hỏi về tổng thể của các quan sát mà chúng ta rút ra được, và chúng ta không cần biết phân phối chính xác của tổng thể mà từ đó các quan sát được rút ra
} 2.5 Các thủ tục Ước lượng Các Thông số
Cho đến đây chúng ta đã có thảo luận các chủ đề cụ thể về xác suất và thống kê để tự chuẩn bị cho hai mục tiêu cơ bản của bất kỳ một nghiên cứu thực nghiệm nào: việc ước lượng các thông số chưa biết và việc kiểm định các giả thuyết Trong phần này chúng ta sẽ thảo luận vấn đề của việc ước lượng Kiểm định giả thuyết sẽ được đề cập ở Phần 2.8 Trong một khảo sát thực nghiệm, nhà phân tích thường vẫn biết, hoặc có thể ước đoán được dạng tổng quát của các phân phối xác suất của các biến ngẫu nhiên được quan tâm Tuy nhiên, các giá trị cụ thể của các thông số tổng thể của các phân phối là chưa biết Như đã có đề cập trước đây, một điều tra toàn diện về tổng thể là vượt ngoài phạm
vi câu hỏi vì chi phí cho việc này quá lớn Do đó, nhà khảo sát chỉ đạt đến một mẫu quan sát đối với các biến được quan tâm và sử dụng chúng để rút ra những suy luận về phân phối xác suất đằng sau đó
Như là một minh họa, giả sử chúng ta biết rằng chiều cao của một người có phân phối gần như chuẩn nhưng chúng ta không biết trị trung bình, µ, của phân phối, hay phương sai của nó, σ2 Vấn đề của việc ước lượng đơn giản chỉ là một cách lựa chọn một mẫu các đối tượng, đo đạc chiều cao từng người một, và sau đó dùng các phương pháp định lượng để thu được các ước lượng của µ và σ2 Thuật ngữ ước lượng được dùng để chỉ
công thức cho chúng ta giá trị bằng số của các thông số được quan tâm Mỗi giá trị bằng
số chính là một giá trị ước lượng