1. Trang chủ
  2. » Thể loại khác

KIẾN THỨC XÁC XUẤT THÔNG KÊ KINH TẾ LƯỢNG

24 93 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 24
Dung lượng 4,94 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Một số phân phối liên tục thông dụngPhân phối chuẩn Biến ngẫu nhiên liên tục Z được gọi là có phân phối chuẩn tắc, ký hiệu Z : N0,1, nếu hàm mật độ có dạng: 2 21 Hình 2.3: Mật độ xác su

Trang 1

Chương 2

MỘT SỐ KIẾN THỨC CƠ BẢN VỀ XÁC SUẤT THỐNG KÊ

2.1 BIẾN NGẪU NHIÊN RỜI RẠC

Biến ngẫu nhiên rời rạc là biến mà tập giá trị của nó là hữu hạnhoặc vô hạn đếm được Người ta thường sử dụng bảng phân phối xácsuất để mô tả về biến ngẫu nhiên rời rạc

X x 1 x 2x n P(x

)

p 1

p 2

p n

trong đó nếu i j thì x ix j , n có thể là vô hạn và

Mục tiêu: Tóm lược lại các kiến thức cơ bản về xác suất và thống kêliên quan đến môn học kinh tế lượng nhằm giúp người đọc tiếp cậnmôn học dễ dàng hơn

Trang 2

(i) Var X( ) 0� , dấu “=” xảy ra khi và chỉ khi XC;

(ii)Var cX( )�c Var X2 ( ) với c là hằng số;

( ) ( ) ( ).

Ví dụ 2.1: Sử dụng thang đo Likert (1-hoàn toàn không hài lòng;

2-không hài lòng; 3-bình thường; 4-hài lòng; 5-hoàn toàn rất hài lòng)

để đánh giá mức độ hài lòng của khách hàng về một dịch vụ bán hàng

Sử dụng bảng hỏi và thu được bảng phân phối xác suất của mức độ hàilòng của khách hàng như sau:

p i 0.16 0.22 0.28 0.20 0.14Tính trung bình:

Trang 3

đó (P X  k) C p n p n k k(  ) ,n kk 0,1, ,n và X gọi là phân phối nhị

thức, ký hiệuX : B n p( , ).

Hình 2.1: Mật độ xác suất của phân phối nhị thức

Phân phối Poisson

Xét số lần xảy a một sự kiện trong một khoảng thời gian nhấtđịnh và giả sử rằng (i) Xác suất xảy ra sự kiện luôn bằng nhau trongnhững khoảng thời gian có độ dài như nhau; (ii) Số sự kiện xảy ratrong hai khoảng thời gian là độc lập nhau

Gọi X là số lần xảy ra sự kiện trong khoảng thời gian xác định thì X có phân phối Poisson với tham số  , ký hiệu là ( ) P  và khi đó

xác suất để trong khoảng thời gian xác định đó có k lần sự kiện xảy ra

với k 0,1, , , n , trong đó  là trung bình

số lần xảy ra sự kiện trong khoảng thời gian nói trên

Hình 2.2: Mật độ xác suất của một số phân phối Poisson

Trang 4

Biến ngẫu nhiên rời rạc hai chiều

Cho biến ngẫu nhiên hai chiều ( , )X Y có phân phối xác suất

(i) Tính đối xứng: Cov X Y( , )Cov Y, X( );

(ii) Cov X X( , )Var X( );

(iii) Cov aX bY( � )a2Var X( ) 2�ab Cov X Y( , )b2Var Y( )

Hệ số tương quan giữa , X Y

( , ) ( , )

(i) Tính đối xứng: ( , )X Y  (Y, X);

(ii)  �1 ( , ) 1X Y �;

Trang 5

Ví dụ 2.2: Tỷ suất sinh lời theo tháng của hai cổ phiếu X và Y được

cho dưới dạng bảng phân phối xác suất đồng thời như sau:

Trang 6

2.2 BIẾN NGẪU NHIÊN LIÊN TỤC

Biến ngẫu nhiên liên tục là biến có tập giá trị lấp đầy mộtkhoảng trên trục số

Hàm f x ( ) xác định trên R được gọi là hàm mật độ của

biến ngẫu nhiên liên tục X nếu xác suất để X nhận giá trị trongkhoảng [ , ] a b là diện tích của hình giới hạn bởi đường mật độ đó,

trục hoành và hai đường thẳng vuông góc với trục hoành tại haiđiểm x a x b  ,  Khi đó

(i) Xác xuất để X nhận giá trị trong khoảng [ , ]a b là:

b a

Trang 7

Một số phân phối liên tục thông dụng

Phân phối chuẩn

Biến ngẫu nhiên liên tục Z được gọi là có phân phối chuẩn tắc,

ký hiệu Z : N(0,1), nếu hàm mật độ có dạng:

2

21( )

Hình 2.3: Mật độ xác suất của phân phối chuẩn tắc

Từ định nghĩa phân vị của một biến ngẫu nhiên thì phân vị Z

của phân phối chuẩn tắc là một số thực thỏa mãn P Z Z(  ) và nóthường được cho sẵn trong bảng tra hay có thể tính trực tiếp trên cácphần mềm thống kê

Trang 8

Biến ngẫu nhiên X được gọi là có phân phối chuẩn với tham số

2

,

  và ký hiệu X : N( , 2) nếu hàm mật độ xác suất có dạng:

2 2

( ) 21

(i) Nếu X : N( , 2)thì E X( ) ;Var X( ) 2.

(ii) Mod X( ) Med X( ) 

(iii) Nếu X1 : N( , 1 12); X2 : N( 2, 22)và X X1, 2độc lậpthì với mọi ,a b� thì R aX1bX2cũng có phân phối chuẩn.

Trang 9

ChoX X1, 2, ,X nlà các biến ngẫu nhiên độc lập, cùng phân

phối chuẩn tắc (0,1)N Khi đó biến ngẫu nhiên  2 X12 X22  X n2

là phân phối Khi bình phương n bậc tự do và ký hiệu là 2( )n .

Hình 2.4: Hàm mật độ xác suất của phân phối 2( )n

Phân phối Student

Cho Z : N(0,1); V : 2( )n và độc lập nhau Khi đó biến ngẫu

là phân phối Student bậc tự do n, ký hiệu là T( )n .

Khi n� thì phân phối 30 T( )n xấp xỉ phân phối chuẩn tắc.

Hình 2.5: Hàm mật độ xác suất của phân phối T( )n và (0,1)N

Phân phối Fisher

Trang 10

Giống như phân vị của phân phối chuẩn tắc, các phân vị của cácphân phối (2 )n ; T( )nF(n n1 2 , )được cho trong các bảng tra với một

số giá trị  đặc biệt hoặc có thể tính trên các phần mềm thống kê.

2.3 HÀM PHÂN PHỐI XÁC SUẤT

Hàm ( )F x xác định với mọi x R� được gọi là hàm phân phối

của biến ngẫu nhiên X nếu ( ) F xP X < x( ); � x R

)

p 1

p 2

n Khi đó hàm phân phối của X là:

1

1 2

0( )

(ii) Nếu hàm phân phối ( )F x có đạo hàm thì '( ) F xf x( ).

2.4 LUẬT SỐ LỚN VÀ ĐỊNH LÝ GIỚI HẠN TRUNG TÂM

Luật số lớn cho biết giá trị trung bình của một dãy biến ngẫu

nhiên độc lập sẽ hội tụ theo xác suất về trung bình chung Vì vậy khi

số biến ngẫu nhiên đủ lớn có thể lấy trung bình của nhóm xấp xỉ cho

nếu x x�1;

nếu x1  �x x2;

nếu x nx

Trang 11

giá trị trung bình chung Trường hợp đặc biệt, một dãy biến ngẫunhiên độc lập X X1, , ,2 X n có cùng phân phối với kỳ vọng là

Ví dụ 2.3: Giả sử X là chiều cao (cm) của một thanh niên Việt Nam

trưởng thành thì X là một biến ngẫu nhiên có E X ( )   ;

i in Khi đó X là chiều cao trung bình của n cá thể và nó được

cho là xấp xỉ với chiều cao trung bình của thanh niên Việt nam

Định lý giới hạn trung tâm cho biết tổng đủ lớn (khoảng 30

biến trở lên) của các biến ngẫu nhiên độc lập sẽ xấp xỉ phân phốichuẩn Trường hợp đặc biệt, nếu dãy biến ngẫu nhiên độc lập

1, 2, , n

X X X có cùng phân phối với trung bình E X( )i , phương sai

2

( )i ,

Var X   i 1,n thì S n (X1X2  X n) sẽ xấp xỉ với phân

phối chuẩn N n n( , 2). Khi đó n

  xấp xỉ phân phối(0,1)

N

2.4 THỐNG KÊ CƠ BẢN

Từ cuối thế kỷ IXX, các nhà thống kê quan tâm tới việc đưa rakết luận từ dữ liệu và thống kê suy diễn bắt đầu có những bước tiếnmạnh mẽ và đến nay suy diễn thống kê đã không thể thiếu trongnghiên cứu của tất cả các lĩnh vực như y học, giáo dục, kinh tế, tàichính, tâm lý, môi trường, nông nghiệp,…

Thống kê là thuật ngữ được dùng chỉ ngành khoa học nghiêncứu những vấn đề liên quan đến thu thập, phân tích và biểu diễn dữliệu

Trang 12

Thống kê ứng dụng chia làm hai phần: Thống kê mô tả và thống

kê suy diễn Thống kê mô tả là tập hợp những phương pháp tóm tắt và

mô tả dữ liệu thu thập được (bảng tần số, tần suất, biểu đồ trung tâm,

số đo biến động,…) Thống kê suy diễn là tập hợp các phương pháp

để tổng quát hóa, ước lượng, dự báo, ra quyết định Các phương phápnày sử dụng dữ liệu trên mẫu để đưa ra kết luận cho tổng thể nghiêncứu (ước lượng điểm, ước lượng khoảng, kiểm định T, kiểm định Khibình phương, phân tích phương sai,…)

2.4.1 Tổng thể và mẫu

a Tổng thể

Khái niệm: Tập hợp tất cả các phần tử x x1, , ,2 x N

mang một dấuhiệu nghiên cứu được gọi là tổng thể (population) và thường ký hiệu

là biến ngẫu nhiên X, số phần tử của tổng thể gọi là kích thước tổngthể, ký hiệu là N

x N

Xác suất p để lựa chọn một phần tử có đặc tính trong tổng thể.

Như vậy, tổng thể ban đầu được mô tả bởi biến ngẫu nhiên X với

tham số lý thuyết chưa biết được ký hiệu chung là  và ở đây chỉ đềcập đến  là một trong ba tham số cơ bản đó là kỳ vọng , phươngsai 2, xác suấtp

Khi nghiên cứu nếu điều tra được toàn bộ tổng thể thì tính đạidiện cao, sai số đại diện với tổng thể gần như bằng 0 Tuy nhiênnghiên cứu toàn bộ tổng thể chỉ khi theo hướng tổng điều tra hoặc khitổng thể không quá lớn còn điều đó gần như không cho phép về thờigian, kinh phí cũng như thực tiễn Do đó để có suy luận về tổng thể thìcần thực hiện lấy mẫu và sử dụng luật số lớn với sai số chấp nhận chotrước

Trang 13

b Mẫu

Khái niệm: Mẫu là một phần của tổng thể được chọn theo cách thức

nhất định với một số lượng hợp lý, số phần tử của mẫu được gọi là

kích thước mẫu, ký hiệu là n Nguyên tắc chọn mẫu phải có tính đại

diện cao

Có hai cách chọn mẫu:

(i) Mẫu ngẫu nhiên hay mẫu xác suất là mẫu ở đó các phần tửcủa tổng thể đều có khả năng được chọn vào mẫu như nhau Có cáchchọn mẫu ngẫu nhiên đơn, chọn mẫu hệ thống, chọn mẫu phân tầngcân xứng và không cân xứng, chọn mẫu theo cụm

(ii) Mẫu không ngẫu nhiên là mẫu mà các phần tử của tổng thểkhông cùng khả năng được chọn vào mẫu

Trong phạm vi giáo trình đề cập đến chọn mẫu ngẫu nhiên vì cóthể áp dụng được lý thuyết xác suất thống kê trong xử lý dữ liệu đểsuy diễn kết quả cho tổng thể chung từ mẫu

Các tham số mẫu ngẫu nhiên

Lấy mẫu ngẫu nhiênX X1, 2, ,X n độc lập, cùng phân phối với

X thì các tham số của mẫu hay thống kê mẫu, ký hiệu là $ bao gồm:

2( , );

1

n i i

Độ lệch chuẩn mẫu hiệu chỉnh: SS2 (2.14)

Tần suất mẫu f có phân phối chuẩn

(1 )( , p p )

N p

n

Các tham số của một mẫu cụ thể

Trang 14

Lấy giá trị mẫu cụ thể x x1, , ,2 x n thu được:

Độ lệch chuẩn mẫu hiệu chỉnh: ss2 (2.19)

Trung vị (Median): Giả sử x x1, , ,2 x n được sắp xếp theo thứ tự

tăng dần Nếu n lẻ thì trung vị là quan sát thứ n1 , nếu n chẵn thì

trung vị là quan sát ở vị trí n2;n22

Mode: là giá trị mẫu có tần số lớn nhất trong tập mẫu.

Hình 2.6: Mẫu dữ liệu (a) đối xứng, (b) lệch phải, (c) lệch trái

Hệ số bất đối xứng hay độ xiên (skewness):

3 1

3 2

x x n

S

x x n

Trang 15

Hệ số nhọn (Kurtosis):

4 1

2 2 1

x x n

K

x x n

trung hơn mức bình thường; đỉnh của đồ thị hình chuông của phân phối

Mean 0.485185 Median 0.330000 Maximum 3.320000 Minimum -0.530000 Std Dev 0.676971 Skewness 1.657465 Kurtosis 6.430626 Jarque-Bera 76.80811 Probability 0.000000

Trang 16

Hình 2.7: Thống kê mô tả CPI của Việt Nam từ tháng 11/2011-9/2017

Hệ số tương quan mẫu

Cho mẫu gồm các cặp dữ liệu ( , );( , ); ,( , ) ;x y1 1 x y2 2 K x y n n

s s

(2.21), trong đó hiệpphương sai mẫu: 1

2.4.2 Ước lượng các tham số tổng thể

Ước lượng các tham số của tổng thể là một cách tính gần đúngcác giá trị của một tham số chưa biết dựa trên thông tin từ một mẫu

Có hai loại ước lượng là ước lượng điểm và ước lượng khoảng:

a Ước lượng điểm

Ước lượng điểm của một tham số tổng thể  là một tham sốmẫu (hay thống kê) $ xác định trên một mẫu nào đó và nó là mộtbiến ngẫu nhiên nếu mẫu là ngẫu nhiên và là con số khi mẫu nhận giátrị cụ thể

Tiêu chuẩn đánh giá ước lượng điểm:

Ước lượng không chệch: Thống kê $ là một ước lượng khôngchệch của một tham số tổng thể  nếu E( )$  

Trang 17

Ước lượng chệch: Thống kê $ là một ước lượng chệch của mộttham số tổng thể  nếu E( )$ �.

Ước lượng hiệu quả nhất: Thống kê $ là một ước lượng hiệuquả nhất của tham số tổng thể  nếu phương sai của nó là nhỏ nhấttrong các ước lượng không chệch của 

Ước lượng vững: Thống kê $ là một ước lượng vững của tham

số tổng thể  nếu nó hội tụ theo xác suất về  khi kích thước mẫu tănglên

Người ta chứng minh được kết quả sau đây:

Tham số tổng thể  Ước lượng không chệch, hiệu quả nhất

2

b Ước lượng khoảng

Khoảng tin cậy của một tham số tổng thể  là một khoảng giátrị mà ta tin rằng tham số  thuộc vào khoảng đó

Xác suất để khoảng tin cậy chứa tham số gọi là độ tin cậy vàthường là 90%, 95%, 99%

Ước lượng tham số của tổng thể  sao cho nó nằm trong mộtkhoảng ( , ) 1 2 được tính toán dựa trên mẫu, với xác suất đủ lớn gọi là

ước lượng khoảng

Công thức ước lượng khoảng P(  1   2) 1 ;trong đó

( , )  là khoảng tin cậy; (1)là độ tin cậy; ( 2 1)là độ dàikhoảng tin cậy

Xét bài toán tổng thể có phân phối chuẩn với trung bình là ,

phương sai là  Với một mẫu cụ thể tính được các tham số của mẫu.2Khi đó ta có:

Khoảng tin cậy của trung bình của tổng thể

Trang 18

( 1) n

( 1) n

2 2 ( 1)

2 2

( 1) 1

với giả thuyết H0 sẽ là đối thuyết H1

Kiểm định một giả thuyết là khi có một giả thiết về phân phốitổng thể ta sẽ thực hiện so sánh giả thuyết với một mẫu dữ liệu Nếu

Trang 19

dữ liệu khác xa (bất thường) so với giả thuyết H0 thì có bằng chứng

thống kê bác bỏ giả thuyết H0.

Trong cấu trúc của H0 luôn có một dấu bằng và đối thuyết H1

luôn có dấu , ,� hoặc,  

Bài toán kiểm định cặp giả thuyết mong muốn đối thuyết H1

đúng và giả thuyếtH0bị bác bỏ Khi đó việc chấp nhận đối thuyết H1

trong các bài toán kiểm định với các dấu , ,� hoặc,   sẽ tương ứngvới giả thuyết H0 có dấu  �, , hoặc, �. Vì vậy trong giáo trình này

sẽ sử dụng giả thuyết H0 có dấu đẳng thức hoặc đẳng thức và bất

  P (sai lầm loại 2) P(không bác bỏ H0|H0sai).

Trong thực hành thì sai lầm loại 1 được xem là nghiên trọng hơnsai lầm loại 2 nên thường ấn định trước số  và được gọi là mức ýnghĩa Thông thường  0.1; 0.05 hoặc  0.01.

(ii) Tiêu chuẩn kiểm định:

Một nhận định bị nghi ngờ,Một nhận định ngược lại H0

Trang 20

Cùng với một mức ý nghĩa  chọn ra một quy luật phân phốixác suất, gọi là Thống kê, để kiểm định cặp giả thuyết sao cho xácsuất sai lầm loại 2 là nhỏ nhất Với mẫu cụ thể thống kê là một giá trịxác định và gọi là giá trị quan sát.

(iii) Miền bác bỏ: Căn cứ vào mức ý nghĩa  xác định miền bác

bỏH0. (iv) Sử dụng giá trị tới hạn hoặc xác suất ý nghĩa để xem có thểbác bỏ được giả thuyết H0 hay không?

Sử dụng giá trị tới hạn: Với mức ý nghĩa  thống kê kiểm định

sẽ xác định miền bác bỏ giả thuyết H0.Nếu giá trị quan sát rơi vàomiền bác bỏ thì bác bỏ H0, chấp nhận đối thuyết H1 Ngược lại giá trị

quan sát không rơi vào miền bác bỏ thì chưa có căn cứ bác bỏ H0.

Hình 2.8: Minh họa miền bác bỏ giả thuyết H0

Sử dụng xác suất ý nghĩa (p - value): Với mẫu cụ thể thống kê

xác định giá trị quan sát và xác định được xác suất phạm sai lầm loại

1, gọi là xác suất ý nghĩa, p - value Nếu p - value <  thì bác bỏ giảthuyết H0,ngược lại thì chưa có căn cứ bác bỏ giả thuyết H0

thu được

Bảng 2.1: Bảng tóm tắt miền bác bỏ kiểm định trung bình một tổng thể

Kiểm định Giả thuyết

0

H Đối thuyết H1 Miền bác bỏ H0

Trang 21

Bảng 2.2: Bảng tóm tắt miền bác bỏ kiểm định phương sai một tổng thể

Kiểm định Giả thuyết

/2 2

2 1 2

1 /2

n n

2 0

 

Trang 22

sự thay đổi các giả thiết trên sai số ngẫu nhiên Vì vậy cùng với lýthuyết đại số tuyến tính trên các ma trận, lý thuyết xác suất và thống

kê là một trong những kiến thức nền để sinh viên tiếp cận mô hìnhkinh tế lượng

Chương 2 đã hệ thống ngắn gọn khái niệm phân phối của biếnngẫu nhiên rời rạc, biến ngẫu nhiên liên tục, các tham số đặc trưng,một số phân phối thường gặp Lý thuyết hồi quy trong kinh tế lượng

cơ bản tập trung ước lượng giá trị trung bình của biến phụ thuộc theomột hay nhiều biến độc lập, đó chính là kỳ vọng có điều kiện của mộtbiến ngẫu nhiên theo các giá trị xác định của các biến khác Do đóphân phối rời rạc của biến ngẫu nhiên hai chiều dẫn đến bài toán tính

kỳ vọng có điều kiện của một biến ngẫu nhiên với giá trị cụ thể củabiến khác là nền tảng để nắm bắt lý thuyết mô hình hồi quy bội và mởrộng đối với biến ngẫu nhiên liên tục Mục tiêu của kinh tế lượng làkiểm định các giả thuyết đối với các tham số của mô hình nên chương

2 đề cập đến luật số lớn, định lý giới hạn trung tâm Đây là cơ sở lýthuyết để đưa các quy luật phân phối xác suất vào bài toán ước lượng

và kiểm định dựa trên mẫu ngẫu nhiên Lưu ý là trong hầu hết cácphần mềm khi đầu ra là phương sai mẫu, độ lệch chuẩn mẫu thì đó

2 0

 

Trang 23

chính là phương sai mẫu hiệu chỉnh, độ lệch chuẩn mẫu hiệu chỉnh bởiđây là các ước lượng không chệnh của phương sai và độ lệch chuẩncủa tham số tổng thể Bên cạnh đó giá trị hệ số nhọn trong các phầnmềm khác nhau thường khác nhau do tính chất chuẩn hóa so với phânphối chuẩn tắc,… nên việc nắm bắt công thức toán cơ bản và áp dụngtrên các ví dụ đơn giản sẽ giúp sinh viên chủ động khi ứng dụng cácphần mềm tính toán khác nhau.

TỪ KHÓA

Conditional expectation: Kỳ vọng có điều kiện;

Conditional probability: Xác suất có điều kiện;

Continuous random variable: Biến ngẫu nhiên liên tục;

Correlation: Hệ số tương quan;

Covariance: Hiệp phương sai;

Cumulative distribution function: Hàm phân phối xác suất;Discrete random variable: Biến ngẫu nhiên rời rạc;

Expected value: Giá trị kỳ vọng;

Joint probability distribution: Phân phối xác suất đồng thời;Marginal distribution: Phân phối biên duyên;

Mean: Giá trị trung bình;

Probability density function: Hàm mật độ xác suất;

Standard deviation: Độ lệch chuẩn;

Statistical independence: Độc lập thống kê;

Variance: Phương sai

BÀI TẬP

Bài tập 2.1: Lãi suất (đơn vị: %) khi đầu tư vào cổ phiếu A và B là các

biến ngẫu nhiên X A, X B có bảng phân phối xác suất như sau.

Ngày đăng: 10/08/2021, 00:36

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w