1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn Thạc sĩ Khoa học: Một số tiêu chuẩn lựa chọn mô hình

59 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Một số tiêu chuẩn lựa chọn mô hình
Tác giả Phạm Thị Hoa
Người hướng dẫn TS. Trần Mạnh Cường
Trường học Đại học Quốc gia Hà Nội
Chuyên ngành Lý thuyết xác suất và thống kê toán học
Thể loại Luận văn thạc sĩ khoa học
Năm xuất bản 2013
Thành phố Hà Nội
Định dạng
Số trang 59
Dung lượng 444,29 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • 1.1 Lượng thông tin Fisher (9)
  • 1.2 Ước lượng hợp lý cực đại (10)
  • 1.3 Hồi quy tuyến tính (12)
    • 1.3.1 Giới thiệu mô hình hồi quy tuyến tính cổ điển (12)
    • 1.3.2 Phương pháp ước lượng bình phương cực tiểu (13)
    • 1.3.3 Tính chất ước lượng bằng phương pháp bình phương cực tiểu (15)
  • 1.4 Hồi quy Poisson (15)
  • 1.5 Hồi quy logistic (16)
  • 2.1 Tiêu chuẩn thông tin Akaike (18)
    • 2.1.1 Khoảng cách Kullback- Leibler (18)
    • 2.1.2 Ước lượng hợp lý cực đại và khoảng cách Kullback- Leibler 11 (19)
    • 2.1.3 Định nghĩa AIC (25)
    • 2.1.4 AIC và khoảng cách Kullback- Leibler (27)
    • 2.1.5 Tiêu chuẩn Takeuchi (32)
    • 2.1.6 AIC hiệu chỉnh cho hồi quy tuyến tính (33)
  • 2.2 Tiêu chuẩn thông tin Bayesian(BIC) (36)
    • 2.2.1 Nguồn gốc của BIC (36)
    • 2.2.2 Định nghĩa BIC (38)
    • 2.2.3 Ai là người viết ’The Quiet Don’ ? (43)
  • 3.1 Giới thiệu về phần mềm R (46)
  • 3.2 Áp dụng với bộ số liệu (46)

Nội dung

Kiến thức chuẩn bị Trong chương này, tôi trình bày các kiến thức cơ bản về lượng thông tin Fisher,ước lượng hợp lí cực đại, và các dạng của phân tích hồi quy như hồi quy tuyếntính, hồi q

Lượng thông tin Fisher

Định nghĩa 1.1.1: X là một biến ngẫu nhiên hoặc vectơ ngẫu nhiên có phân bố phụ thuộc vào tham số chưa biết θ ∈ Θ, với mật độ f(x, θ) Giả sử rằng f(x, θ) khả vi theo θ.

X df (x,θ) dθ dλ < ∞ Khi đó lượng thông tin Fisher về tham số θ chứa trong X là

Dễ dàng chỉ ra rằng E θ [ dlnf dθ (X,θ) ] = 0 Do đó

Với một điều kiện không quá chặt đặt lênf (x, θ)người ta cũng chứng minh được

I X (θ) = −E [ d 2 lnf (X, θ) dθ 2 ] Chú ý:Nếu X 1 , X 2 là hai biến ngẫu nhiên độc lập cùng phụ thuộc vào tham số θ thì mật độ đồng thời của X 1 , X 2 là: f (x 1 , x 2 , θ) = f X 1 (θ).f X 2 (θ) Nên:

1 ,X 2 ) (θ) = V ar[dlnf (X 1 , X 2 , θ) dθ ] = V ar[dlnf X 1 (X 1 , θ) dθ ] + V ar[dlnf X 2 (X 2 , θ) dθ ]

Do đó nếuX 1 , X 2 , , X n là một mẫu ngẫu nhiên về X, thì lượng thông tin Fisher về tham số θ chứa trong mẫu là:

Ví dụ 1.1.1 Tính lượng thông tin trong mẫu đơn giản (X 1 , X 2 , , X n ) lấy từ họ phõn bố chuẩn với tham số (à, σ 2 )đối với tham số σ 2

Ta có hàm mật độ đồng thời của X 1 , X 2 , , X n là p(X, à, σ 2 ) = 1

2σ 4 Trường hợp nhiều chiều: Khi phân bố của X phụ thuộc N tham số θ = (θ 1 , θ 2 , , θ N ) T thì ma trận thông tin Fisher có dạng

]. Đây là ma trận đối xứng, xác định không âm Với một số điều kiện chính quy người ta chỉ ra được rằng

Ước lượng hợp lý cực đại

Cho một mô hình thống kê \((X, B, P_\theta, \theta \in \Theta)\), trong đó \(\Theta\) là khoảng mở trong không gian Euclide k chiều và \(P_\theta\) là độ đo \(\sigma\)-hữu hạn trên \(B\) Đặt \(p(x, \theta) = dP_\theta\) Hàm \(L(X, \theta) = \prod_{i=1}^{n} p(X_i, \theta)\) được xem như hàm của tham số \(\theta\) với \(X\) cố định, gọi là hàm hợp lý Thống kê \(\theta(X): \hat{X} \rightarrow \Theta\) được gọi là ước lượng hợp lý cực đại của tham số \(\theta\) nếu:

Từ định nghĩa suy ra muốn tìm ước lượng hợp lý cực đại phải tìm điểm dừng.

• Nếu θ ∈ R 1 , ta giải phương trình sau gọi là phương trình hợp lý

∂θ = 0; phương trình trên tương đương với phương trình

• Nếu θ = (θ 1 , , θ p )thì phương trình hợp lý là

∂θ i = 0; i = 1, p tương đương với phương trình

Nghiệm của phương trình hợp lý được gọi là ước lượng hợp lý cực đại Để xác định xem nghiệm này có phải là ước lượng hợp lý cực đại hay không là một nhiệm vụ không đơn giản Tuy nhiên, đã có chứng minh cho thấy nếu nghiệm của phương trình hợp lý không phải là hằng số, thì nghiệm đó sẽ tạo ra cực đại cho hàm hợp lý, từ đó khẳng định rằng nó chính là ước lượng hợp lý cực đại.

Ví dụ 1.2.1 Giả sử (X 1 , X 2 , , X n ) là mẫu ngẫu nhiên từ phân phối chuẩn

N (à; σ 2 ) Tỡm ước lượng hợp lý cực đại của (à; σ 2 ).

Hồi quy tuyến tính

Giới thiệu mô hình hồi quy tuyến tính cổ điển

Giả sử có k biến độc lập X₁, , Xₖ được sử dụng để dự báo, trong khi Y là biến phụ thuộc cần dự đoán, chẳng hạn như giá nhà ở hiện tại Y chủ yếu phụ thuộc vào các yếu tố sau:

• X 1 là diện tích sử dụng (m 2 ),

• X 3 là giá của năm qua,

• X 4 là chất lượng xây dựng (giá xây dựng trên một m 2 ).

Sự phụ thuộc giữa biến Y và các biến X 1, , X k thường rất phức tạp, nhưng trong một số trường hợp, sự phụ thuộc này lại đơn giản hơn Mô hình hồi quy tuyến tính cổ điển cho rằng Y phụ thuộc tuyến tính vào các biến X i, tức là Y có thể được biểu diễn như một hàm bậc nhất của các biến này cùng với sai số ngẫu nhiên ε.

Y = β 0 + β 1 X 1 + + β k X k + ε, trong đó β i , i = 0, k là các hệ số chưa biết.

Bây giờ ta tiến hành n quan sát độc lập đồng thời vềk + 1 biến X 1 , , X k , Y. Giả sử các số liệu quan sát tuân theo mô hình sau: y 1 = β 0 + β 1 x 11 + + β k x 1k + ε 1 y 2 = β 0 + β 1 x 21 + + β k x 2k + ε 2

(i) E(ε j ) = 0 (việc đo đạc không chịu sai lệch hệ thống),

(ii) D(ε j ) = σ 2 (phương sai không đổi hay độ chuẩn xác đo đạc như nhau)

(iii) cov(ε i , ε j ) = 0 với mọi i 6= j = 1, n (các sai lệch từng bước không ảnh hưởng đến nhau)

Mô hình trên có thể viết dưới dạng ma trận như sau:

Phương pháp ước lượng bình phương cực tiểu

Một bài toán đặt ra là hãy dựa trên ma trận X và vectơ Y của các giá trị quan sát hãy ước lượng vectơ tham số β vàσ 2

Nếu chúng ta sử dụng b là giá trị thử của β thì giữa các quan sát y j và

Chương 1 Kiến thức chuẩn bị b 1 x j1 + + b k x jk sẽ bị một độ lệch y j − b 0 − (b 1 x j1 + + b k x jk ), nói chung độ lệch này sẽ khác không.

Phương pháp ước lượng bình phương tối thiểu là hãy chọn giá trị của vectơ b sao cho

Đại lượng \$\hat{\beta}\$ được xác định để cực tiểu hóa phiếm hàm \$S(b) = (Y - Xb)^T (Y - Xb)\$, và được gọi là ước lượng bình phương cực tiểu của \$\beta\$ Các phần dư của phép hồi quy được ký hiệu là \$\hat{\epsilon}_j = y_j - (\hat{\beta}_0 + \hat{\beta}_1 x_{j1} + \ldots + \hat{\beta}_k x_{jk})\$, với \$j = 1, n\$.

X 1 , , X k là tuyến tính, nên phương trình

Y ˆ = ˆ β 0 + ˆ β 1 x 1 + + ˆ β k x k được gọi là phương trình hồi quy tuyến tính mẫu.

Ta có kết quả sau: Đặt ˆ y j = ˆ β 0 + ˆ β 1 x j1 + + ˆ β k x jk

Mệnh đề 1.3.1 Nếu ma trận X không ngẫu nhiên có hạng k + 1 ≤ n thì ước lượng bình phương cực tiểu có dạng: β ˆ = (X T X ) −1 X T Y Khi đó

Chương 1 Kiến thức chuẩn bị thỏa mãn

Tính chất ước lượng bằng phương pháp bình phương cực tiểu

1) Ước lượngβ ˆ là ước lượng không chệch với

2) Phần dưε ˆcó tính chất: ε ˆ = 0 (điều này cũng tương đương với Y = ˆ Y )

1 ε ˆ 2 j /(n − k − 1) là ước lượng không chệch của σ 2 , tức là E(ˆ σ 2 ) = σ 2 ,

4) β ˆ và ε ˆlà không tương quan cov( ˆ β, ε) = 0, ˆ cov( ˆ β, ˆ σ 2 ) = 0 Định lí 1.3.2 (Định lý Gauss về ước lượng bình phương cực tiểu) 1.Trong mô hình tuyến tính cổ điển (1.1) và (1.2) với hạng đầy đủ k + 1 ≤ n thì ước lượng c T β ˆ = c 0 β ˆ 0 + c 1 β ˆ 1 + + c k β ˆ k của c T β = c 0 β 0 + c 1 β 1 + + c k β k là ước lượng không chệch với phương sai bé nhất so với bất kỳ ước lượng tuyến tính không chệch dạng a T Y = a 1 y 1 + + a n y n

2 Nếu thêm giả thiết rằngε có phân bố chuẩnN n (0, σ 2 I n ) thì c T β ˆ là một ước lượng không chệch với phương sai cực tiểu của c T β so với bất kỳ ước lượng không chệch nào khác.

Hồi quy Poisson

Chương 1 trình bày kiến thức về mô hình biến đáp ứng Y, được giả định có phân bố Poisson và phụ thuộc vào các biến độc lập Mô hình được diễn đạt qua công thức ln E(Y | x) = a₁x₁ + a₂x₂ + + aₖxₖ + a₀.

Người ta ước lượng các tham số của mô hình dựa trên ý tưởng phương pháp hợp lý cực đại như sau:

Do đó mật độ của phân bố Poisson là (λ = e θ T x )

Giả sử ta có bộ dữ liệu gồm m vectơx i ∈ R, i = 1, mvà m giá trịy 1 , y 2 , , y m ∈ R. Với mỗi θ, xác suất thu được bộ dữ liệu này là

Theo phương pháp hợp lý cực đại ta chọn tham số θ cực đại xác suất trên, tức là tìm θ ˆ θ ˆ =argmax`(θ, X, Y ) trong đó:

Hồi quy logistic

Chương 1 Kiến thức chuẩn bị mô hình hồi quy logistic Trong mô hình hồi quy logistic người ta giả sử rằng log( π

1 − π ) = β T X, trong đó: π là xác suất nhận giá trị 1 của biến phụ thuộc Y, tức

0 xác suất 1 − π β = (β 0 , β 1 , , β k ) T ; X = (1, x 1 , , x k ) T Dựa trên các quan sát (Y i , X i ) = (y i , x i1 , x i2 , , x ik ) = (y i , x iT )người ta cần ước lượng β.

Hàm xác suất đồng thời là: g(y 1 , , y n ) = n

= `(β) Ước lượng hợp lý cực đại của β là β ˆ =argmax β

Một số tiêu chuẩn lựa chọn mô hình

Dữ liệu có thể được mô phỏng bằng nhiều phương pháp khác nhau, từ những cách đơn giản đến những phương pháp phức tạp với nhiều tham số Khi có nhiều biến covarian được đo, chúng ta có thể sử dụng tất cả hoặc chỉ một số trong số đó trong mô hình Để lựa chọn mô hình tốt nhất từ danh sách các ứng cử viên, người ta sử dụng các tiêu chuẩn thông tin Chương này sẽ trình bày hai tiêu chuẩn thông tin quan trọng: tiêu chuẩn thông tin Akaike và tiêu chuẩn thông tin Bayesian.

Tiêu chuẩn thông tin Akaike

Khoảng cách Kullback- Leibler

Khoảng cách Kullback-Leibler là một độ đo không đối xứng trong lý thuyết xác suất và lý thuyết thông tin, được sử dụng để đánh giá sự khác biệt giữa hai phân bố P và Q.

Q Cụ thể hơn, độ lệch Kullback- Leibler của Q khỏi P ký hiệu là KL(P k Q) là độ đo lượng thông tin mất đi khi dùng Q để xấp xỉ P Chính xác hơn khoảng cách Kullback- Leibler đo số bit trung bình dư ra để mã hóa một mẫu khi dùng

Khái niệm khoảng cách Kullback-Leibler, được giới thiệu bởi Solomon Kullback và Richard Leibler vào năm 1951, liên quan đến lý thuyết thông tin Định nghĩa 2.1.1 nêu rõ rằng, cho các phân phối xác suất rời rạc P và Q, khoảng cách Kullback-Leibler của Q từ P được xác định như sau.

Q(i)(ii) Cho các phân phối xác suất liên tục P và Q Khoảng cách Kullback- Leibler của Q từ P được định nghĩa là tích phân

Chương 2 Một số tiêu chuẩn lựa chọn mô hình

−∞ p(x) ln p(x) q(x) dx ở đó p và q là kí hiệu mật độ của P và Q.

Nếu P và Q là các độ đo xác suất trên một tập X, và Q liên tục tuyệt đối theo P, thì khoảng cách Kullback-Leibler từ P tới Q được định nghĩa như sau.

X ln dP dQ dP ở đó dP dQ là đạo hàm Radon-Nikodym của Q theo P.

Nếu à là một độ đo nào đú trờn X mà p = dP dà và q = dQ dà tồn tại, khi đú khoảng cách Kullback- Leibler từ P tới Q là

(ii) Khoảng cách Kullback- Leibler là định nghĩa tốt cho phân phối liên tục và bất biến dưới các phép biến đổi tham số.

(iii) Khoảng cách Kullback- Leibler là cộng tính đối với các phân phối độc lập. Nếu P 1 , P 2 là các phân phối độc lập với P (x, y) = P 1 (x).P 2 (y) và Q(x, y) =

(iv) Khoảng cách Kullback- Leibler của phân phối Q từ phân phối P không phải là khoảng cách thông thường, mà là độ đo lượng thông tin mất đi khi dùng

Ước lượng hợp lý cực đại và khoảng cách Kullback- Leibler 11

Chương 2 Một số tiêu chuẩn lựa chọn mô hình phân bố và trường hợp hồi quy Trước hết, chúng ta bắt đầu với một minh họa đơn giản để thấy được cách hoạt động của phương pháp hợp lý cực đại, nó sử dụng dữ liệu và một mô hình tham số để cung cấp một mô hình ước lượng.

Trong bộ dữ liệu về trọng lượng sinh thấp (Hosmer và Lemeshow, 1999), có tổng cộng n = 189 phụ nữ và trẻ sơ sinh Bài viết này trình bày cách phương pháp hợp lý cực đại được sử dụng để ước lượng các tham số của mô hình Các biến kết quả Y 1 , , Y n là các biến ngẫu nhiên nhị phân, với giá trị 1 khi trẻ có trọng lượng sinh thấp và 0 trong trường hợp ngược lại Các biến độc lập bao gồm trọng lượng của người mẹ (x 2,i), tuổi của người mẹ (x 3,i), chủng tộc đen (x 4,i) và các chủng tộc khác (x 5,i) Mô hình hồi quy logistic thường được áp dụng cho các tình huống như vậy.

1 +exp(x t i θ) với i = 1, , n; θ là một vectơ tham số 5 chiều Hàm hợp lý L n (θ) là tích của các số hạng p y i i (1 − p i ) 1−y i , dẫn đến loga hàm hợp lý có dạng

Một ước lượng hợp lý cực đại cho tham số θ được xác định bằng cách tối đa hóa hàm hợp lý n(θ) theo θ, với kết quả là θ ˆ = (1.307, −0.014, −0.026, 1.004, 0.443) t Các mô hình mà chúng ta xây dựng cho các quan sát Y = (Y 1 , , Y n ) bao gồm một số tham số θ = (θ 1 , , θ p ) T, trong đó f(y, θ) là hàm mật độ đồng thời cho Y Hàm hợp lý sẽ được xác định dựa trên các tham số này.

Hàm log hợp lý được định nghĩa là \( L_n(\theta) = f(y_{obs}, \theta) \), trong đó \( y_{obs} \) là giá trị dữ liệu quan sát Thay vì làm việc với hàm hợp lý, chúng ta thường sử dụng loga của hàm hợp lý \( L_n(\theta) = \log L_n(\theta) \) Mục tiêu là ước lượng hợp lý cực đại của \( \theta \) bằng cách tối đa hóa \( L_n(\theta) \).

Chương 2 Một số tiêu chuẩn lựa chọn mô hình θ ˆ = ˆ θ ML =argmax θ

(` n ). a Trường hợp độc lập và cùng phân phối Hàm hợp lý và loga hàm hợp lý có thể được viết là

Khoảng cách gắn liền với phương pháp hợp lý cực đại là khoảng cách Kullback- Leibler

(2.1) nó là khoảng cách từ mật độ đúng g tới xấp xỉ của nó là f (., θ). Áp dụng luật số lớn

Để ước lượng hợp lý cực đại, ta có thể sử dụng công thức \$\int g(y) \log f(y, \theta) dy = E[g \log f(Y, \theta)\$ với \$\hat{\theta}\$ là giá trị cực đại của \$n(\theta)\$, có xu hướng hội tụ hầu chắc chắn tới \$\theta_0\$, giá trị cực tiểu của khoảng cách Kullback-Leibler giữa mô hình thực và mô hình xấp xỉ Do đó, ta có \$\hat{\theta} \xrightarrow{a.s.} \theta_0 = \arg\min_{\theta}\$.

{KL(g, f (., θ))}, giá trị θ 0 gọi là sai số nhỏ nhất hoặc xấp xỉ tốt nhất.

Ước lượng hợp lý cực đại cung cấp xấp xỉ tham số tốt nhất với mật độ đúng g trong lớp tham số f(., θ) Nếu mô hình tham số là đầy đủ và chính xác, thì g(y) = f(y, θ₀) và khoảng cách Kullback-Leibler đạt giá trị tối thiểu bằng 0.

Ta xác định hàm vectơ điểm số của mô hình là \$u(y, \theta) = \frac{\partial \log f(y, \theta)}{\partial \theta}\$ và hàm ma trận thông tin là \$I(y, \theta) = \frac{\partial^2 \log f(y, \theta)}{\partial \theta \partial \theta}\$ Vectơ điểm số có các thành phần \$\frac{\partial \log f(y, \theta)}{\partial \theta_j}\$ với \$j = 1, \ldots, p\$ và hàm ma trận thông tin có kích thước \$p \times p\$, với các thành phần là các đạo hàm cấp.

Chương 2 Một số tiêu chuẩn lựa chọn mô hình hai ∂ 2 log ∂θ f (y,θ) j ∂θ k với j, k = 1, , p Chú ý rằng vì tham số sai số nhỏ nhất cực tiểu khoảng cách Kullback- Leibler nên

Chúng ta cũng cần xác định

Các ma trận cỡ p × p là giống nhau khi g(y) bằng với f (y, θ 0 ), ∀y Trong các trường hợp như vậy, ma trận

Z f (y, θ 0 )I(y, θ 0 )dy (2.3) được gọi là ma trận thông tin Fisher của mô hình.

Dưới các điều kiện chính quy và cơ bản khác nhau, có thể chứng minh rằng θ ˆ = θ 0 + J −1 U n + O p (n −1/2 ), ở đó, U n = n −1 Pn i=1 u(Y i , θ 0 ).

Ký hiệu Z n = O p (n −1/2 ), nghĩa là √ nZ n = O p (1) hội tụ tới 0 theo xác suất.

Từ định lý giới hạn trung tâm có sự hội tụ theo phân phối

Kết hợp với trên suy ra

Trong trường hợp hồi quy, các mô hình hồi quy bao gồm các quan sát (x_i, Y_i) Ký hiệu g(y | x) đại diện cho mật độ thật của Y | x Mô hình tham số sử dụng mật độ f(y | x, θ), và loga hàm hợp lý sẽ được xác định từ đó.

Giả sử xa hơn rằng có một số phân phối covarian cơ sở C mà tạo ra các vectơ covarian x 1 , , x n Khi đó n 1 Pn i=1 a(x i ) hội tụ tới R a(x)dC(x), với một hàm a

Chương 2 Một số tiêu chuẩn lựa chọn mô hình bất kỳ sao cho tích phân này tồn tại và loga hàm hợp lý

Z Z g(y | x) log f (y | x, θ)dydC (x) Đối với vectơ covarian x đã cho, khoảng cách Kullback-Leibler được xác định như sau

Một cách đầy đủ khoảng cách Kullback-Leibler đạt được bởi tích phânKL x theo phân phối covarian

Để ước lượng hợp lý cực đại, tham số $\hat{\theta}$ có xu hướng hội tụ tới giá trị tham số với sai số nhỏ nhất, nhằm tối thiểu hóa KL divergence giữa hai phân phối $g$ và $f_{\theta}$ Để đạt được kết quả này, cần xác định hàm điểm số $p_{x1}$ và hàm ma trận thông tin $I_{p \times p}$ của mô hình $u(y | x, \theta) = \frac{\partial \log f(y|x,\theta)}{\partial \theta}$ và $I(y | x, \theta) = \frac{\partial^2 \log f(y|x,\theta)}{\partial \theta \partial \theta}$.

Cho θ 0,n là giá trị tham số sai số nhỏ nhất liên quan với mật độ g(y | x) Xác định các ma trận

Mô hình hồi quy tương đồng của J và K được biểu diễn bằng \$V ar g u(Y | x_i , \theta_{0,n})\$ Dưới các điều kiện bản chất của loại tuyến tính, có sự hội tụ theo xác suất của \$J_n\$ và \$K_n\$ tới các giới hạn \$J\$ và \$K\$.

X i=1 u(Y i | x i , θ 0,n ) hội tụ theo phân phối tới U 0 ∼ N p (0, K) Một đại diện quan trọng cho ước lượng hợp lý cực đại là

Chương 2 Một số tiêu chuẩn lựa chọn mô hình

√ n(ˆ θ − θ 0,n ) = J n −1 √ nU n + O p (1), mà cũng dẫn đến phân phối giới hạn chuẩn, thậm chí khi mô hình giả định không bằng mô hình thật,

Các ước lượng cho J n và K n là

Chú ý rằng J n = K n khi mô hình giả định bằng với mô hình thật và trong trường hợp này J ˆ n và K ˆ n là các ước lượng của cùng một ma trận.

Hồi quy tuyến tính chuẩn được mô tả bởi phương trình \$Y_i = x_t^i \beta + \sigma \epsilon_i\$, trong đó \$\beta\$ là vectơ p-chiều của các hệ số hồi quy và các biến ngẫu nhiên \$\epsilon_1, \ldots, \epsilon_n\$ là độc lập và cùng phân phối Hàm hợp lý được sử dụng để ước lượng các tham số trong mô hình này.

Khi đó loga hàm hợp lý là

Giả sử rằng ε i không nhất thiết là chuẩn nhưng có trung bình không, độ lệch chuẩn 1 Sau khi tính toán dẫn đến

Chương 2 Một số tiêu chuẩn lựa chọn mô hình

Mô hình hồi quy Poisson được áp dụng cho dữ liệu độc lập \(Y_1, \ldots, Y_n\) với các vectơ covarian p-chiều \(x_1, \ldots, x_n\) Trong đó, \(Y_i\) tuân theo phân phối Poisson với tham số \(\xi_i = \exp(x_i^T \beta)\) Hàm phân phối xác suất được biểu diễn như sau: \[f(Y_i | x_i, \beta) = e^{-\xi_i} \cdot \xi_i^{Y_i}\]

⇒lnf (Y i | x i , β) = −ξ i + Y i lnξ i −lnY i ! = −exp(x t i β ) + Y i (x t i β) −lnY i !

X i=1 ξ ˆ i x i x t i , ở đó, ξ ˆ i =exp(x t i β) ˆ Ước lượng cho K n là

Khi mô hình giả định bằng mô hình thật các ma trận ước lượng này là như nhau.

Định nghĩa AIC

Đối với một mô hình tham số M, tiêu chuẩn thông tin Akaike(AIC) được xác định như sau:

AIC(M ) = 2` n (ˆ θ) − 2length(θ) = 2` n,max − 2length(θ), (2.5) ở đó length(θ)là số các tham số ước lượng trong mô hình, ` n,max là cực đại của loga hàm hợp lý.

Chương 2 Một số tiêu chuẩn lựa chọn mô hình

Ví dụ 2.1.4 Phân phối mũ và Weibull

Mô hình Weibull có hàm phân phối tích lũy là

Mật độ chính là đạo hàm của hàm phân phối tích lũy, f (y, θ, γ) =exp{−(θy) γ }θ γ γ.y γ−1 Hàm hợp lý là

⇒ ` n (y, θ, γ) =lnL n (y, θ, γ) = −θ γ Pn i=1 y γ i + nγlnθ + nlnγ + (γ − 1)Pn i=1lny i

⇒AIC(wei) = 2` n (y, θ, ˆ γ) ˆ − 4 = 2Pn i=1 {−(ˆ θy i ) γ ˆ + ˆ γlnθ ˆ +lnˆ γ + (ˆ γ − 1)lny i } − 4. Chú ý rằng với γ = 1 tương ứng với mô hình đơn giản hơn là mô hình mũ Khi đó, ta có:

Trong mô hình mũ, ước lượng hợp lý cực đại cho tham số θ được biểu diễn bằng công thức \((lne^{\theta} - e^{\theta}y_i) - 2\) Đối với mô hình Weibull, ước lượng hợp lý cực đại được ký hiệu là \((\hat{\theta}, \gamma)\) Mô hình có giá trị AIC lớn nhất sẽ được chọn là mô hình phù hợp nhất cho dữ liệu.

Ví dụ 2.1.5 Hồi quy tuyến tính

Mô hình hồi quy tuyến tính truyền thống cho phân tích dữ liệu y i trong mối quan hệ với các vectơ covarian x i = (x i,1 , , x i,p ) t , với i = 1, , n, đưa đến

Mô hình hồi quy tuyến tính có thể được biểu diễn dưới dạng phương trình \$Y_i = x_{i,1} \beta_1 + \ldots + x_{i,p} \beta_p + \epsilon_i\$, với \$i = 1, \ldots, n\$ và các sai số \$\epsilon_1, \ldots, \epsilon_n\$ độc lập từ phân phối chuẩn \$N(0, \sigma^2)\$ Vectơ hệ số hồi quy được ký hiệu là \$\beta = (\beta_1, \ldots, \beta_p)^t\$ Thông thường, biến \$x_{i,j}\$ đầu tiên được gán giá trị hằng số 1, do đó \$\beta_1\$ là tham số bị chắn Mô hình này có thể được viết gọn hơn dưới dạng ma trận là \$Y = X\beta + \epsilon\$, trong đó \$Y = (Y_1, \ldots, Y_n)^t\$; \$\epsilon = (\epsilon_1, \ldots, \epsilon_n)^t\$ và \$X\$ là ma trận kích thước \$n \times p\$, với \$x_i^t\$ là hàng thứ \$i\$ của ma trận \$X\$.

L n (β, σ) = 1 σ n (2π) n/2 e − 2σ 1 2 P n i=1 (y i −x t i β) 2 Loga hàm hợp lý là

Chương 2 Một số tiêu chuẩn lựa chọn mô hình

` n (β, σ) tăng theo β tương đương với cực tiểu

X i=1 x i Y i , ở đó P n = n −1 X t X = n −1 Pn i=1 x i x t i , giả sử X có hạng đủ p Ước lượng hợp lý cực đại của σ là cực đại của ` n ( ˆ β, σ)và là căn bậc hai của ˆ σ 2 = n −1 SSE( ˆ β) = n −1 n

⇒ ` n,max = −nlnˆ σ − 1 2 n − n 2 ln(2π) và ta có

Tập hợp con tối ưu của các covarian cho phương pháp AIC được xác định bằng cách tối thiểu hóa nlnσ ˆ + p, áp dụng cho tất cả các mô hình ứng cử viên.

AIC và khoảng cách Kullback- Leibler

Ý tưởng của AIC là "phạt" một lượng từ hàm hợp lý cực đại cho các mô hình phức tạp Bài viết này sẽ giải thích lý do tại sao công thức AIC có dạng (2.5) cho cả hai trường hợp độc lập cùng phân bố và mô hình hồi quy Chìa khóa nằm ở việc ước lượng giá trị kỳ vọng của khoảng cách Kullback-Leibler từ mô hình thật đến mô hình tham số.

Trường hợp độc lập cùng phân phối. Ước lượng hợp lý cực đạiθ ˆ nhằm mục đích tới giá trị tham số sai số nhỏ nhất

Chương 2 Một số tiêu chuẩn lựa chọn mô hình mà cực tiểu khoảng cách Kullback- Leibler Với ước lượng hợp lý cực đại θ ˆ thì khoảng cách Kullback- Leibler là:

Khoảng cách Kullback-Leibler càng nhỏ thì mô hình tham số càng gần với mô hình thật R gloggdy giống nhau cho mọi mô hình, do đó mô hình có R n càng lớn càng tốt Tuy nhiên, R n là biến ngẫu nhiên, vì vậy cần xem xét kỳ vọng của nó.

Chiến lược AIC ước lượng Q n cho từng mô hình ứng cử viên và chọn mô hình có ước lượng Q n cao nhất, tương đương với việc tìm kiếm mô hình có khoảng cách Kulback-Leibler nhỏ nhất Để ước lượng Q n từ dữ liệu, một phương pháp là thay thế g(y)dy trong R n bằng phân phối thực nghiệm của dữ liệu.

Z n là trung bình của các biến độc lập cùng phân bố có trung bình 0,

Chương 2 Một số tiêu chuẩn lựa chọn mô hình

Chúng ta bắt đầu bằng cách áp dụng số hạng thứ hai trong khai triển Taylor mở rộng của R n, kết hợp với hàm điểm số và hàm thông tin của mô hình đã được xác định.

( Vì E g u(Y, θ 0 ) =R g(y)u(y, θ 0 )dy = 0 nên R g(y)u(y, θ 0 ) t (ˆ θ − θ 0 )dy = 0) Tương tự, số hạng thứ hai của khai triển Taylor mở rộng của Q ˆ n dẫn đến

2 (ˆ θ − θ 0 ) t J n (ˆ θ − θ 0 ), ở đó J n = − n 1 Pn i=1 I (Y i , θ 0 ) − → p J. Điều này chỉ ra rằng Q ˆ n − R n có thể được mở rộng như là

Chương 2 Một số tiêu chuẩn lựa chọn mô hình

Từ (2.7)dẫn đến xấp xỉ

Như vậy cần chọn mô hình có Q ˆ n − p ∗ /n lớn nhất, mà

Q ˆ n − p ∗ /n = n −1 {` n (ˆ θ) − p ∗ }, do đó cần chọn mô hình có ` n (ˆ θ) − p ∗ lớn nhất.

Nếu mô hình xấp xỉ chính xác với g(y) = f(y, θ₀), thì J = K và p* = p = length(θ), tức là kích thước của mô hình Trong trường hợp này, n⁻¹VₙtJVₙ gần với n⁻¹χ²ₚ Khi p* = p, ngay cả khi không có kiểm tra phù hợp nào của mô hình, sẽ dẫn đến công thức AIC (2.5).

Trong trường hợp hồi quy, phép đo khoảng cách kéo theo khi phân tích ước lượng hợp lý cực đại phù hợp với khoảng cách Kullback-Leibler, liên quan đến phân phối của các vectơ x trong không gian của các covarian Đối với một mô hình tham số với dữ liệu hồi quy quan sát (x₁, y₁), , (xₙ, yₙ), hồi quy tương tự với (2.6) được áp dụng.

Z g(y | x i )logf (y | x i , θ)dy ˆ bao gồm phân phối thực nghiệm của các vectơ covarianx 1 , , x n Một ước lượng ban đầu của Q n là

Cho θ 0,n là giá trị tham số sai số nhỏ nhất liên quan với phân phối thực nghiệm của x 1 , , x n , tức là cực đại của n −1 n

Một số hạng thứ hai của Taylor mở rộng dẫn đến

Chương 2 Một số tiêu chuẩn lựa chọn mô hình ở đó V n = √ n(ˆ θ − θ 0,n )và

Tương tự, số hạng thứ hai của Taylor mở rộng của Q ˆ n dẫn đến

2 n −1 V n t J n V n + O p (n −1 ), với Z n là trung bình của các biến có trung bình 0

Làm tương tự như trường hợp độc lập cùng phân bố ta cũng được kết quả tương tự.

Tóm lại, cho một lớp các mô hình Dùng tiêu chuẩn AIC để lựa chọn mô hình tốt nhất ta làm như sau:

Bước 1: Tính giá trị AIC cho mỗi mô hình Bước 2: Chọn mô hình có giá trị AIC lớn nhất

Trong bộ dữ liệu về trọng lượng sinh thấp, có 189 phụ nữ và trẻ sơ sinh Biến x 1 được định nghĩa là hằng số đánh chặn (x 1 = 1), trong khi x 2 đại diện cho trọng lượng của người mẹ trước khi mang thai Các biến x được biểu diễn dưới dạng x = (1, x 2 )^t Thêm vào đó, x 3 là tuổi của người mẹ, x 4 là chủng tộc đen, và x 5 là chủng tộc khác, với z được định nghĩa là z = (x 3 , x 4 , x 5 )^t Do trọng lượng của người mẹ được cho là có ảnh hưởng đến trọng lượng sinh, biến x 2 luôn được bao gồm trong tất cả các mô hình phân tích.

Chương 2 Một số tiêu chuẩn lựa chọn mô hình

Mô hình ` n (ˆ θ) length(θ) Giá tị AIC Thứ tự x 1 , x 2 -114.345 2 -232.691 x 1 , x 2 , x 3 -113.562 3 -233.123 x 1 , x 2 , x 4 -112.537 3 -231.075 (1) x 1 , x 2 , x 5 -114.050 3 -234.101 x 1 , x 2 , x 3 , x 4 -112.087 4 -232.175 (3) x 1 , x 2 , x 3 , x 5 -113.339 4 -234.677 x 1 , x 2 , x 4 , x 5 -111.630 4 -231.259 (2) x 1 , x 2 , x 3 , x 4 , x 5 -111.330 5 -232.661

Bảng 2.1.Các giá trị AIC cho 8 mô hình ứng cử viên hồi quy logistic cho dữ liệu trọng lượng sinh thấp

Trong ký hiệu này mô hình hồi quy logistic có công thức:

Xác suất trọng lượng sinh thấp được mô tả bởi công thức \$ P(\text{trọng lượng sinh thấp} | x, z) = 1 + \exp(x \exp(x^t \beta + z^t \beta + z^t \gamma)^t \gamma) \$, trong đó \$ \beta = (\beta_1, \beta_2)^t \$ và \$ \gamma = (\gamma_1, \gamma_2, \gamma_3)^t \$ là các tham số ước lượng Sử dụng xấp xỉ chuẩn cho ước lượng hợp lý cực đại \$ \hat{\theta} = (\hat{\beta}, \hat{\gamma}) \approx d N p (\theta_0, n^{-1} J n^{-1}) \$, chúng ta thu được các p-giá trị tương ứng là 1.307, -0.014, -0.026, 1.004, 0.443 Đối với mô hình này, việc tính toán cực đại loga hàm hợp lý và xác định giá trị AIC là rất đơn giản.

AIC lựa chọn mô hình chỉ bao gồm biến x4, như được thể hiện trong bảng 2.1, với ước lượng xác suất cho Y_i = 1 là p̂_i, và k là số tham số ước lượng Công thức được sử dụng là {y_i ln p̂_i + (1 - y_i) ln(1 - p̂_i)} - 2k, trong đó p̂_i đại diện cho xác suất trọng lượng sinh thấp.

P ˆ (trọng lượng sinh thấp| x, z) = exp(1.198−0.0166x 2 +0.891x 4 )

AIC giữa các mô hình xếp hạng tốt nhất có sự khác biệt nhỏ, do đó, chúng ta không thể khẳng định chắc chắn rằng mô hình x 4 là lựa chọn cần thiết hơn so với các mô hình khác.

Tiêu chuẩn Takeuchi

Chương 2 Một số tiêu chuẩn lựa chọn mô hình quát p ∗ /n, chính xác hơn

Các xấp xỉ khác nhau cho độ sai lệch của \$\hat{Q}_n\$ được xác định thông qua các ước lượng khác nhau của \$\hat{p}^*\$, dẫn đến độ sai lệch hiệu chỉnh \$n^{-1} (\hat{n}_{max} - \hat{p}^*)\$ cho ước lượng \$Q_n\$.

Sử dụng AIC theo cách quen thuộc nhất là đặt p ∗ của (2.8) bằng kích thước mô hình p = length(θ) Khi mô hình sử dụng là mô hình thật, p ∗ = p, nhưng điều này không đúng trong trường hợp tổng quát Để không giả định rằng mô hình sử dụng là mô hình thật, một mô hình mạnh mẽ hơn có thể được áp dụng Do đó, chúng ta ước lượng p ∗ bằng cách sử dụng các ước lượng của các ma trận J và K Takeuchi (1976) đã đề xuất một ước lượng tương ứng với tiêu chuẩn này.

Với các ước lượng J ˆ và K ˆ được đề cập trong (2.4), chúng ta sẽ phân tích (2.9) như một kết quả của tiêu chuẩn lựa chọn loại AIC Cả TIC và AIC đều dựa vào ước lượng hợp lý cực đại, do đó chúng dễ bị ảnh hưởng bởi các giá trị dữ liệu ngoại lai trong nhiều mô hình.

Cả phương pháp AIC và TIC đều có thể áp dụng cho nhiều loại mô hình tham số khác nhau, với điều kiện là điều chỉnh phù hợp các dạng của \$\hat{J}\$ và \$\hat{K}\$, tức là của \$\hat{p}^*\$ ở trên.

AIC hiệu chỉnh cho hồi quy tuyến tính

AIC đặc thù sẽ chọn các mô hình phức tạp hơn khi kích thước mẫu tăng lên, do cực đại của loga hàm hợp lý tăng tuyến tính với n, trong khi phần phạt cho sự phức tạp tỷ lệ với số tham số Chúng ta sẽ xem xét mô hình hồi quy tuyến tính chi tiết hơn và một số cách tính toán chính xác dẫn đến sự sửa đổi kích thước mẫu của AIC.

Chúng ta xem xét mô hình hồi quy tuyến tính tổng quát Y = Xβ + ε và tìm được AIC trực tiếp có thể đạt được là

Chương 2 Một số tiêu chuẩn lựa chọn mô hình

AIC được định nghĩa bởi công thức \$AIC = -2n \ln \hat{\sigma} - 2(p + 1) - n - n \ln(2\pi)\$ với \$\hat{\sigma}^2 = \frac{||res||^2}{n}\$ và \$res = Y - X \hat{\beta}\$ Mục tiêu của AIC là chọn mô hình ứng viên với giá trị tối thiểu của \$n \ln \hat{\sigma} + p\$ từ các mô hình ứng cử viên AIC ước lượng kỳ vọng của khoảng cách Kullback-Leibler giữa mô hình thực \$g(y | x)\$ và mô hình ước lượng \$f(y | x, \hat{\theta})\$ Giả sử rằng \$g(y | x)\$ có trung bình \$\xi(x)\$ và độ lệch chuẩn là hằng số \$\sigma_0\$ Khi mô hình giả định trùng với mô hình thực, ta có \$\xi_i = \xi(x_i) = x^T_i \beta\$ Việc thay đổi \$\hat{\sigma}^2\$ là tự nhiên, đặc biệt trong trường hợp mô hình giả định trùng với mô hình thực, khi đó \$SSE = ||res||^2 \sim \sigma^2 \chi^2_{n-p}\$, và ta chia \$||res||^2\$ cho \$n - p\$ để có ước lượng không chệch Mặc dù điều này thường được thực hiện trong tính toán ước lượng, nhưng ít được sử dụng trong thực hành với AIC Tổng quát, ta có \$\hat{\sigma}^2 = \frac{||res||^2}{n - a} = \frac{1}{n - a} n\$.

(Y i − x t i β) ˆ 2 , (2.11) với trường hợp a = 0 và a = p tương ứng với ước lượng hợp lý cực đại và tương ứng với ước lượng không chệch Ta có

Chương 2 Một số tiêu chuẩn lựa chọn mô hình

(x t i β ˆ − ξ i ) 2 /σ 2 0 + 1}], ở đó ξ i = x t i β và σ 0 = σ. Đối với các giá trị phù hợp,

X β ˆ = X (X t X) −1 X t Y = X(X t X) −1 X t (Xβ + ε) = Xβ + Hε sử dụng ma trận mũ H = X(X t X) −1 X t Điều này chỉ ra rằng n −1 n

(x t i β ˆ − x t i β) 2 = n −1 ||X β ˆ − Xβ|| 2 = n −1 ε t Hε có trung bình bằng n −1 ET r(Hεε t ) = σ 2 T r(H )/n = (p/n)σ 2

Sử dụng công thức E(1/χ 2 n−p ) = 1/(n − p − 2) với điều kiện n > p + 2, dẫn đến việc điều chỉnh chiến lược của công thức (2.10) nhằm đạt được hình phạt chính xác hơn Đầu tiên, giữ nguyên ước lượng hợp lý cực đại σ ˆ, sử dụng a = 0, nhưng áp dụng hình phạt cực đại loga cho hàm hợp lý với thừa số kiểm tra chính xác hơn.

Chú ý rằng hình phạt phức tạp này mạnh mẽ hơn với phiên bản chuẩn của AIC.

Sự sửa đổi thứ hai thật sự đơn giản hơn Nó bao gồm việc sử dụng a = p + 2 trong (2.11) và giữ nguyên hình phạt thông thường là 2(p + 1):

Chương 2 Một số tiêu chuẩn lựa chọn mô hình ở đó(ˆ σ ∗ ) 2 = ||res|| 2 /(n − p − 2) Điều này tương tự như AIC thông thường nhưng với một ước lượng hiệu chỉnh σ Đặc biệt là, AIC hiệu chỉnh này chọn mô hình với nlnˆ σ ∗ + p nhỏ nhất.

Trong hai sự điều chỉnh AIC c và AIC ∗ c, chỉ có AIC c là điều chỉnh trực tiếp và tổng quát cho các mô hình hồi quy tham số tổng quát Điều này gợi ý rằng số hạng phạt có thể được áp dụng cho cả các mô hình hồi quy tuyến tính chuẩn và các mô hình hợp lý tổng quát.

Tiêu chuẩn thông tin Bayesian(BIC)

Nguồn gốc của BIC

Một mô hình có thể được xác định bằng cách tính toán xác suất hậu nghiệm cho từng mô hình và chọn mô hình có xác suất hậu nghiệm cao nhất Đối với các mô hình được ký hiệu là M₁, M₂, , Mₖ và y là vectơ dữ liệu quan sát y₁, y₂, , yₙ.

Lý thuyết của Bayes cung cấp xác suất hậu nghiệm của các mô hình

Z Θ j f (y|M j , θ j )π(θ j |M j )dθ j (2.15) ở đó Θ j là không gian tham số của θ j. Trong biểu thức này

• f (y|M j , θ j ) = L n,j (θ j ) là hàm hợp lý của dữ liệu của mô hình thứ j và các tham số của nó;

• π(θ j |M j )là mật độ tiên nghiệm của θ j cho mô hình M j ;

• P (M j )là xác suất tiên nghiệm của mô hình M j;

• f (y) là hàm hợp lý không điều kiện của dữ liệu.

Sau cùng là tính toán thông qua f (y) = k

Chương 2 Một số tiêu chuẩn lựa chọn mô hình là hàm hợp lý biên duyên hoặc mật độ biên duyên của mô hình j Trong các so sánh của các xác suất hậu nghiệm P (M j | y) qua các mô hình khác nhau, f (y) không quan trọng vì nó là hằng số qua các mô hình. Đặt

BIC n,j exact = 2logλ n,j (y) (2.17) Khi đó

Giá trị BIC chính xác thường ít được áp dụng trong thực tế do khó khăn trong việc tính toán Phương pháp này yêu cầu phải chi tiết hóa các tiên nghiệm cho tất cả các mô hình và tham số Biểu thức BIC sẽ được trình bày trong phần sau, cho thấy tính hiệu quả và sự tiệm cận với BIC chính xác.

Chúng ta mong muốn tìm một xấp xỉ choλ n,j (y) Ta có λ n,j (y) =

Z Θ exp{nh n,j (θ)}π(θ|M j )dθ, với h n,j (θ) = n −1 ` n,j (θ)và p là độ dài của θ Phương pháp xấp xỉ Laplace cơ bản phù hợp cho các tích phân như vậy, và theo phương pháp này

Đối với công thức Z Θ exp{nh(θ)}g(θ)dθ, ta có thể viết lại như sau: \$$Z Θ \exp\{nh(\theta)\}g(\theta)d\theta = \left( \frac{2\pi}{n} \right)^{p/2} \exp\{nh(\theta_0)\} \left\{ g(\theta_0) |J(\theta_0)|^{-1/2} + O(n^{-1}) \right\},\$$trong đó \(\theta_0\) là giá trị cực đại của hàm \(h(.)\) và \(J(\theta_0)\) là ma trận Hessian \(-\frac{\partial^2 h(\theta)}{\partial \theta \partial \theta^t}\) tại \(\theta_0\) Các xấp xỉ này trở nên chính xác khi \(h\) là một dạng toàn phương âm, ví dụ như với hàm log hợp lý Gaussian và \(g\) là một hằng số Trong trường hợp này, \(h(\theta) = n^{-1} \sum_{j=1}^{n} \ell_{n,j}(\theta)\) và các cực đại của nó tương ứng với ước lượng hợp lý cực đại \(\hat{\theta}_j\) cho mô hình \(M_j\) Do đó, với \(J_{n,j}(\hat{\theta}_j)\) như trong (2.3), ta có:\$$\lambda_{n,j}(y) \approx L_{n,j}(\hat{\theta})(2\pi)^{p/2} n^{-p/2} |J_{n,j}(\hat{\theta}_j)|^{-1/2} \pi(\hat{\theta}_j | M_j).\$$

Quay trở lại các phương trình (2.15) và (2.16), chúng ta có thể đưa ra một số xấp xỉ cho mỗi λ n,j (y) Xấp xỉ đầu tiên được hình thành từ vế phải của phương trình (2.19) Bằng cách lấy logarit và nhân với 2, chúng ta thu được xấp xỉ được ký hiệu là BIC ∗ n,j.

Chương 2 Một số tiêu chuẩn lựa chọn mô hình có 2logλ n,j (y) gần với

BIC ∗ n,j = 2` n,j (ˆ θ j ) − p jlogn + p jlog(2π) −log|J n,j (ˆ θ j )| + 2logπ j (ˆ θ j ), trong đó p j là độ dài của θ j Bằng cách bỏ qua các số hạng sau, chúng ta có thể đơn giản hóa công thức này thành BIC.

2logλ n,j (y) ≈BICn,j = 2` n,j,max − p jlogn, (2.21) hoặc

Để đạt được các xấp xỉ trên, ước lượng hợp lý cực đại cần phải nằm trong không gian tham và các hàm loga hợp lý, với mật độ tiên nghiệm khả vi cấp 2 Kết quả đầu tiên được Schwarz (1978) công bố cho thấy rằng các điều kiện này là mạnh hơn, đặc biệt là các mô hình mà ông nghiên cứu thuộc họ mũ.

Chú ý rằng trong công thức BIC, các phân bố tiên nghiệm hoàn toàn không cần thiết Chỉ có cực đại loga hàm hợp lý được sử dụng để tính toán giá trị BIC Với kích thước mẫu lớn, BIC mang lại phương pháp đơn giản hơn để thực hiện loại trừ thông qua việc tính toán hàm hợp lý biên duyên hoặc các thừa số Bayes.

M 2, thừa số Bayes là bằng với sự chênh lệch hậu nghiệm chia cho sự chênh lệch tiên nghiệm,

P (M 2 )/P (M 1 ) = λ n,2 (y) λ n,1 (y) Điều này có thể sử dụng cho từng cặp so sánh của các mô hình.

Định nghĩa BIC

Tiêu chuẩn thông tin Bayesian của Schwarz (1978) và Akaike (1977, 1978) đã đưa đến dạng của một hình phạt loga hàm hợp lý Cụ thể là,

BIC(M ) = 2log−likelihood max (M ) − (logn)dim(M ), (2.22)

Chương 2 Một số tiêu chuẩn lựa chọn mô hình đối với mỗi mô hình ứng cử viên M, với dim(M) là số các tham số ước lượng trong mô hình và n là kích thước mẫu của dữ liệu.

Mô hình có giá trị BIC cao nhất được xác định là mô hình tốt nhất, với BIC của (2.22) được xây dựng tương tự như AIC của (2.5), nhưng áp dụng hình phạt mạnh hơn cho các mô hình phức tạp (với n ≥ 8) Chúng ta sẽ minh họa hoạt động của BIC thông qua một loạt ví dụ.

Ví dụ 2.2.1 Phân phối mũ và Weibull Đối với mô hình weibull, ta có hàm hợp lý là

⇒ ` n (θ, γ ) = −θ γ Pn i=1 y γ i + nγlnθ + nlnγ + (γ − 1)Pn i=1lny i Để lựa chọn mô hình tốt nhất theo BIC chúng ta tính

Với γ = 1 tương ứng với mô hình mũ, và ta có

Mô hình Weibull sử dụng ước lượng hợp lý cực đại cho tham số θ, ký hiệu là eθ, trong khi (ˆ θ, γ) ˆ là ước lượng hợp lý cực đại cho mô hình này Để xác định mô hình tốt nhất, chúng ta cần chọn mô hình có giá trị BIC cao nhất.

Ví dụ 2.2.2 Dữ liệu trọng lượng sinh thấp

Mô hình Giá trị BIC Thứ tự cho thấy các giá trị BIC khác nhau cho các biến khác nhau Cụ thể, mô hình x 1 có giá trị BIC là -239.914, trong khi mô hình x 1, x 3, x 4 có giá trị BIC là -246.471 Các mô hình khác như x 1, x 2 và x 1, x 3, x 5 lần lượt có giá trị BIC là -239.174 và -246.296 Mô hình x 1, x 3 có giá trị BIC là -242.395, trong khi x 1, x 4, x 5 có giá trị -245.387 Các mô hình phức tạp hơn như x 1, x 2, x 3, x 5 và x 1, x 2, x 4, x 5 có giá trị BIC lần lượt là -247.644 và -244.226 Cuối cùng, mô hình x 1, x 2, x 3, x 4, x 5 có giá trị BIC là -248.869, cho thấy sự thay đổi đáng kể trong các giá trị BIC khi xem xét các biến khác nhau.

Chương 2 Một số tiêu chuẩn lựa chọn mô hình số đánh chặn x 1 = 1; x 2 là trọng lượng của người mẹ trước khi mang thai; x 3 là tuổi của người mẹ; x 4 chỉ chủng tộc đen; x 5 là chỉ các chủng tộc khác và x 4 = x 5 là chỉ chủng tộc trắng Đối với mô hình hồi quy logistic tìm được BIC có công thức

Giá trị BIC được tính bằng công thức \$y_i \ln \hat{p}_i + (1 - y_i) \ln(1 - \hat{p}_i) - \text{length}(\beta) \ln n\$, trong đó \$\hat{p}_i\$ là ước lượng xác suất cho \$Y_i = 1\$ và \$\text{length}(\beta)\$ là số các hệ số hồi quy ước lượng Với kích thước mẫu \$n = 189\$, ta có \$\ln 189 \approx 5.2417\$ Các giá trị của BIC có thể dễ dàng tính toán trong R thông qua hàm tương ứng.

AIC(fitted.object,k=log(sample.size)).

Trong bảng 2.2 chúng ta kiểm tra 2 4 mô hình mà luôn bao gồm một hằng số đánh chặn x 1 = 1.

Mô hình BIC tốt nhất theo bảng 2.2 chỉ bao gồm biến x2 và một hằng số đánh chặn Hệ số đánh chặn được ước lượng là 0.998, trong khi tham số ước lượng độ dốc là -0.014 cho x2, tạo ra mô hình phù hợp.

P ˆ (trọng lượng sinh thấp| x 2 ) = exp(0.998−0.014x 2 )

Mô hình tốt thứ hai là mô hình chỉ gồm biến x1, tiếp theo là mô hình chứa cả x2 và x4 Mô hình ký hiệu (3) là mô hình tốt nhất theo tiêu chí AIC, trong khi mô hình tốt thứ hai theo AIC là mô hình chứa x2, x4 và x5 Cần lưu ý rằng BIC có xu hướng lựa chọn các mô hình với ít biến hơn so với các mô hình được chọn bởi AIC.

Khi so sánh hai tiêu chuẩn AIC và BIC, có những thuận lợi và khó khăn khác nhau Tuy nhiên, BIC khắc phục được một trong những nhược điểm của AIC, đó là khả năng phát hiện mô hình thật với xác suất 1 khi kích thước mẫu tăng lên BIC thường ưu tiên lựa chọn các mô hình đơn giản hơn Dưới đây là một ví dụ minh họa.

Tỷ lệ tử vong ở Ai Cập cổ đại đã được nghiên cứu qua một tập hợp dữ liệu về tuổi thọ, được thu thập bởi W Spiegelberg vào năm 1901 và phân tích bởi Karl Những thông tin này giúp hiểu rõ hơn về cuộc sống và tuổi thọ của người dân trong thời kỳ này.

Chương 2 Một số tiêu chuẩn lựa chọn mô hình

Pearson (1902) Bộ dữ liệu chứa tuổi tử vong của 141 xác ướp Ai Cập ở thời kỳ

La Mã, với 82 đàn ông và 59 phụ nữ, có niên đại từ 100 năm trước công nguyên, cho thấy tuổi thọ của họ dao động từ 1 đến 96 Pearson cho rằng đây có thể được xem như một mẫu ngẫu nhiên Chúng ta sẽ áp dụng tiêu chí AIC để lựa chọn mô hình tốt nhất từ một bộ sưu tập nhỏ các mô hình tham số ứng cử viên cho tỷ lệ tử vong Đối với mỗi mô hình đề xuất \( f(t, \theta) \), chúng ta sẽ cực đại hóa loga hàm hợp lý.

X i=1 logf (t i , θ), với t 1 , , t n là các tuổi thọ và sau đó tính toán

AIC= 2` n (ˆ θ) − 2p, với p là độ dài của θ. Chúng ta xét 9 mô hình sau:

Mô hình 1 là theo luật số mũ, với mật độ b.exp(−bt).

Mô hình 2 là Gamma, với mật độ {b a /Γ(a)}t a−1 exp(−bt).

Mụ hỡnh 3 là loga chuẩn, với mật độ tương ứng Φ{(logt − à)/σ}/(σt).

Mô hình 4 là Gompertz mà đưa đến tỷ lệ tử vong hoặc nguy hiểm h(t) = f (t)/F [t, ∞) Mô hình này tương ứng với mật độ f (t) = exp{−H(t)}h(t), với H(t) =Rt

0 h(s)ds = (a/b){exp(bt) − 1} là tỷ lệ nguy hiểm tích lũy.

Mô hình 5 là Makeham mở rộng của Gompertz, với tỷ lệ nguy hiểm h(t) = k + a.exp(bt), với k mà k + a.exp(bt 0 ) > 0, ở đó t 0 là tuổi nhỏ nhất (t 0 = 1).

Mô hình 6 sử dụng các tham số như nhau (a, b)cho cả nam và nữ.

Mô hình 7 sử dụng (a, b 1 ) và(a, b 2 ) cho nam và nữ (cùng có tham số a).

Mô hình 8 sử dụng (a 1 , b) và(a 2 , b) cho nam và nữ (cùng có tham số b).

Mô hình 9 sử dụng (a 1 , b 1 ) và (a 2 , b 2 ) mà không có các tham số chung cho hai nhóm.

Chương 2 Một số tiêu chuẩn lựa chọn mô hình

Các tham số Các tham số ước lượng ` n (ˆ θ) AIC

Bảng 2.3 Tỷ lệ tử vong ở Ai Cập cổ đại: Các tham số ước lượng, cực đại loga hàm hợp lý và điểm số AIC cho 9 mô hình.

Các tham số ` n (ˆ θ) BIC Thứ tự

Bảng 2.4 Tỷ lệ tử vong ở Ai Cập cổ đại: Cực đại của loga hàm hợp lý và các điểm số BIC cho 9 mô hình ứng cử viên.

Các giá trị BIC cho từng mô hình có thể dễ dàng tra cứu trong bảng 2.3, trong khi các kết quả cụ thể được trình bày trong bảng 2.4 Giá trị cực đại của loga hàm hợp lý được tìm thấy trong cột ` n (ˆ θ).

BIC = 2` n (ˆ θ) − plnn, với p là độ dài θ và n = 141, lnn = 4.949 Hình phạt của BIC ngặt hơn của AIC.

Mô hình 1 có một tham số, kết quả là BIC 1 = 2(−623.777) −ln141 = −1252.503.

Mô hình 2, 3, 4 và 6 đều có hai tham số, trong đó mô hình Gompertz (mô hình 4) được đánh giá là tốt nhất nhờ có điểm số BIC cao nhất Các mô hình 5, 7 và 8 cũng được xem xét.

Mô hình 8 là lựa chọn tốt nhất trong danh sách các mô hình ứng cử viên, dựa trên các giá trị BIC được trình bày trong bảng.

Chương 2 Một số tiêu chuẩn lựa chọn mô hình

Mô hình tốt nhất theo cả tiêu chuẩn AIC và BIC là giống nhau BIC áp dụng mức phạt nặng hơn cho các mô hình lớn khi so với AIC, điều này thể hiện rõ qua mô hình 9, nơi nó xếp hạng 2 theo AIC nhưng chỉ xếp hạng 4 theo BIC Khi kích thước mẫu lớn, BIC sẽ đưa ra hình phạt nặng hơn, dẫn đến khả năng xuất hiện các xếp hạng khác nhau giữa AIC và BIC.

Ai là người viết ’The Quiet Don’ ?

Giải thưởng Nobel văn học năm 1965 được trao cho Mikhail Sholokhov

Mikhail Sholokhov (1905 − 1984) là tác giả của sử thi "And Quiet Flows the Don" (hay "The Quiet Don"), phản ánh cuộc sống và sự hình thành của xã hội Cossack trong Liên Xô mới Tại Nga, tác phẩm của ông đã được xuất bản hơn một ngàn bản và tiêu thụ hơn sáu mươi triệu bản Tuy nhiên, vào mùa thu năm 1974, một bài báo ở Paris do nhà phê bình nổi tiếng 'D' viết đã gây chấn động khi tuyên bố rằng "The Quiet Don" không hoàn toàn do Sholokhov viết, mà thực chất là của Fiodor Kriukov, một tác giả đã chống lại chủ nghĩa Bônsevich và qua đời năm 1920 Bài viết này đã nhận được sự tín nhiệm và uy tín tương đương với Aleksandr Solzhenitsyn, người nhận giải Nobel năm năm sau Sholokhov Liệu đây có phải là một trong những vụ trộm cắp trắng trợn nhất trong lịch sử văn học?

Câu hỏi về nguồn gốc tác giả của 0 T heQuietDon 0 được thiết lập trong các số hạng của việc lựa chọn một trong 3 mô hình:

M 1 : Tuyển tập văn bản Sh và QD từ cùng một phân phối thống kê, trong khi

Kr biểu diễn một phân phối thống kê khác;

M 2 : Sh không phải là thống kê thích hợp với Kr và QD, tuy nhiên đến từ cùng một phân phối;

M 3: Sh, Kr, QD biểu diễn 3 phân phối thống kê khác nhau.

Ký hiệu θ Sh , θ Kr , θ QD cho 3 vectơ tham số (p, ξ, a, b), tương ứng với Sh, Kr, QD.

Mô hình M1 có tham số θ Sh = θ QD, trong khi θ Kr khác; mô hình M2 có θ Kr = θ QD, trong khi θ Sh khác; và mô hình M3 cho phép ba vectơ tham số khác nhau Đối với các phân tích liên quan, chúng tôi sử dụng các tham số ước lượng dựa trên dữ liệu thô cho từng mô hình riêng biệt của Sh và Kr.

QD, chẳng hạn như tổng số câu thực sự Các giá trị tham số này được tìm thấy là giá trị số bằng cách sử dụng n l m trong R :

Chương 2 Một số tiêu chuẩn lựa chọn mô hình θ ˆ Sh se θ ˆ Kr se θ ˆ QD se p 0.184 0.021 0.057 0.023 0.173 0.022 ξ 9.099 0.299 9.844 0.918 9.454 0.367 a 2.093 0.085 2.338 0.092 2.114 0.090 b 0.163 0.007 0.178 0.008 0.161 0.007 Độ lệch tiêu chuẩn (se) đạt được từ ước lượng của ma trận thông tin Fisher nghịch đảo.

Cho ba khả năng M1, M2, M3, xác suất tiên nghiệm P(M1), P(M2), P(M3) có thể được thiết lập, trong đó Solzhennitsyn sẽ đưa ra P(M1) thấp hơn và P(M2) cao hơn Các quan sát trung hòa có thể bắt đầu với ba xác suất bằng 1/3 Định nghĩa L1(θ1), L2(θ2), L3(θ3) là ba hàm hợp lý, với các tiên nghiệm π1, π2, π3 tương ứng cho (θSh, θKr, θQD) = (θ1, θ2, θ3) Dưới M1, có một tiên nghiệm π1,3 cho θ1 = θ3 và một tiên nghiệm tương tự π2,3 cho θ2 = θ3.

M 2 Theo sắp xếp tổng quát cho lựa chọn mô hình Bayesian, chúng ta có

Trong các số hạng của hàm hợp lý quan sát biên duyên λ 1 =

L 1 (θ 1 )L 2 (θ 2 )L 3 (θ 3 )π 1 (θ 1 )π 2 (θ 2 )π 3 (θ 3 )dθ 1 dθ 2 dθ 3 , các tích phân tương ứng là 8 chiều, 8 chiều và 12 chiều.

Bây giờ cho n Sh = n 1 , n Kr = n 2 , n QD = n 3 Áp dụng các phương pháp của mục 2.2.1 qua (2.19) với λ 1

Chương 2 Một số tiêu chuẩn lựa chọn mô hình

Các xấp xỉ trong tình huống này là hoàn toàn chính xác Chúng ta sẽ thảo luận về việc không có sự khác biệt thực sự giữa các tiên nghiệm Tất cả những khác biệt này liên quan đến việc đánh giá tiên nghiệm của các vectơ (p, ξ, a, b) của ba phân phối xác suất Tính toán đã dẫn đến kết quả này.

BIC ∗ 1 = 2(` 1,3,max + ` 2,max ) − 4log(n 1 + n 3 ) − 4logn 2 −log|J 1,3 | −log|J 2 | + 8log(2π), BIC ∗ 2 = 2(` 2,3,max + ` 1,max ) − 4log(n 2 + n 3 ) − 4logn 1 −log|J 2,3 | −log|J 1 | + 8log(2π), BIC ∗ 3 = 2(` 1,max + ` 2,max + ` 3,max ) − 4logn 1 − 4logn 2 − 4logn 3 −log|J 1 | −log|J 2 |

Các tính toán nhằm tìm các ước lượng hợp lý cực đại cho tham số chung θ của Sh và QD dưới mô hình M1, cũng như cho tham số chung θ của Kr và QD dưới mô hình M2, đã dẫn đến những kết quả quan trọng.

Dựa trên các chỉ số AIC và BIC, chúng ta có thể kết luận rằng dữ liệu độ dài câu nói rất mạnh mẽ nghiêng về người đoạt giải Nobel, đồng thời bác bỏ cáo buộc của 'D' như một suy đoán Tính toán các mô hình xác suất hậu nghiệm theo công thức (2.24) cho kết quả rất gần với 0.

M 2 và M 3 gần như tương đương với M 1 Áp dụng công thức (2.19) với các xác suất tiên nghiệm bằng nhau, ta nhận được xác suất 0.998 cho Sholokhov, trong khi 0.002 còn lại được chia sẻ giữa Kriukov và mô hình trung hòa với ba tuyển tập khác nhau Ngay cả Solzhenitsyn, nếu bắt đầu với P(M 1) = 0.05 và P(M 2) = 0.95, cũng sẽ phải điều chỉnh lại xác suất.

Xác suất cho lớp M1 là 0.99 và lớp M2 là 0.01 Lập luận này có thể được áp dụng để xây dựng một công thức tổng quát cho việc phân loại, đặc biệt trong các trường hợp mà các lớp mật độ được mô hình hóa.

Giới thiệu về phần mềm R

R là phần mềm phân tích dữ liệu do Ross Ihaka và Robert Gentleman phát triển tại Đại học Auckland, New Zealand, và hiện nay vẫn đang được cải tiến bởi một nhóm các nhà khoa học.

R là một phần mềm sử dụng cho phân tích thống kê và đồ thị Về bản chất

R là một ngôn ngữ máy tính đa dạng, phục vụ cho nhiều mục đích khác nhau, từ tính toán đơn giản đến phân tích thống kê phức tạp Người dùng có thể phát triển phần mềm chuyên môn bằng R để giải quyết các vấn đề tính toán cụ thể.

R cung cấp một loạt các phép toán và hàm đa dạng, hỗ trợ hầu hết các hàm số thông dụng Bên cạnh đó, nhiều gói mở rộng cho R cũng cung cấp các hàm phục vụ cho các tính toán phức tạp và nâng cao.

Áp dụng với bộ số liệu

Các phép đo hộp sọ của người Ai Cập được thu thập từ các nhà khảo cổ học qua nhiều thời kỳ nhằm thiết lập các sinh trắc học và nghiên cứu tiến hóa Dữ liệu này bao gồm bốn phép đo từ 30 hộp sọ, đại diện cho năm khoảng thời gian khác nhau, lần đầu tiên được trình bày bởi Thomson và Randall-Maciver vào năm 1905 Năm khoảng thời gian đó bao gồm 4000 năm trước công nguyên, 3300 năm trước công nguyên, 1850 năm trước công nguyên và 200 năm trước công nguyên.

150 năm sau công nguyên Đối với mỗi trong số 150 hộp sọ, các phép đo được

Chương 3 trình bày các phép đo quan trọng của hộp sọ, bao gồm chiều rộng tối đa (MB), chiều cao (BH), chiều dài (BL) và chiều cao mũi (NH) Chúng tôi sẽ lựa chọn mô hình cho bộ dữ liệu dựa trên bốn phép đo này, liên quan đến hộp sọ của nam giới Ai Cập sống trong các khoảng thời gian khác nhau.

Chúng ta đang tập trung vào nghiên cứu một xu hướng có thể xuất hiện trong các phép đo theo thời gian và mối quan hệ tương quan giữa các phép đo này.

Giả sử xấp xỉ chuẩn, chúng ta thiết lập độ tin cậy 95% cho số đo trung bình của bốn phép đo trong mỗi khoảng thời gian Kết quả cho thấy chiều rộng tối đa của hộp sọ có xu hướng tăng theo thời gian, trong khi chiều dài của hộp sọ lại có xu hướng giảm.

Lựa chọn mô hình cho dữ liệu hộp sọ Ai Cập bắt đầu bằng việc xây dựng danh sách các mô hình khả thi, dựa trên các giả định thông thường.

Trong bài viết này, chúng ta xem xét mô hình vectơ trung bình và cấu trúc hiệp phương sai cho biến ngẫu nhiên \$Y_{t,i} \sim N_4(\xi_{t,i}, \Sigma_{t,i})\$ Giả sử trong khoảng thời gian \$n_t = 30\$, các vectơ bốn chiều của số đo trên hộp sọ được coi là độc lập và có cùng phân phối.

Ta có bảng số liệu về bốn số đo trên hộp sọ của nam giới ở Ai cập như sau:

MB BH BL NH Năm

Chúng ta áp dụng vào bộ dữ liệu trên với một số mô hình sau:

Mô hình 1 được xây dựng dựa trên giả định tối thiểu, trong đó mỗi khoảng thời gian t sẽ có một vectơ trung bình khác nhau, ký hiệu là ξ t, cùng với ma trận hiệp phương sai khác nhau, ký hiệu là Σ t Hàm hợp lý của mô hình này có dạng cụ thể.

L M 1 =Q5 t=1 {Q30 i=1 φ(Y t,i − ξ t , Σ t )}, ở đó,φ(y, Σ)là mật độ của phân phối chuẩnN (0, Σ) Các ước lượng hợp lý cực đại ξ ˆ t = y t, vàΣ ˆ t = n −1 t Pn t i=1 (y t,i − y t, )(y t,i − y t, ) t Cực đại loga hàm hợp lý là

Để tính toán các giá trị AIC và BIC, chúng ta cần xác định số lượng tham số trong mô hình Mô hình này bao gồm 5 vectơ trung bình bốn chiều với 20 tham số, cùng với 50 tham số từ các ma trận hiệp phương sai 4x4 đối xứng Tổng cộng, mô hình này có 70 tham số ước lượng.

Mô hình 2: Chúng ta sẽ đơn giản hóa mô hình 1 bằng cách giả định rằng năm ma trận hiệp phương sai Σ t là bằng nhau Điều này có nghĩa là không xác định bất kỳ cấu trúc nào cho các ma trận này và không có giả định nào về vectơ trung bình Hàm hợp lý sẽ có dạng như sau.

Ước lượng hợp lý cực đại cho vectơ trung bình ξ t không thay đổi, trong khi ma trận hiệp phương sai chung Σ được ước lượng bằng ma trận Σ ˆ M 2 = (1/5)P5 t=1 Σ ˆ t Cực đại của loga hàm hợp lý được xác định bởi công thức L M 2 =Q5 t=1 {Q30 i=1 φ(Y t,i − ξ t , Σ)}.

Vì chỉ có một ma trận hiệp phương sai, nên số các tham số ước lượng cho mô hình 2 là 5.4 + 10 = 30.

Mô hình 3: Chúng ta sẽ phát triển một mô hình đơn giản hơn với ma trận hiệp phương sai chung tương tự như mô hình 2, và sử dụng vectơ trung bình chung ξ t = ξ cho tất cả 5 khoảng thời gian Hàm hợp lý được xác định trong mô hình này.

L M 3 =Q5 t=1 {Q30 i=1 φ(Y t,i − ξ, Σ)}, ước lượng hợp lý cực đại cho vectơ trung bình là ξ ˆ = (1/5)P5 t=1 ξ ˆ t = y và ước lượng của ma trận hiệp phương sai là Σ ˆ M 3 = ˆ Σ M 2 +P5 t=1 n t n (y t, − y )(y t, − y ) t Cực đại của loga hàm hợp lý là

Có 4 + 10 = 14 tham số ước lượng trong mô hình.

Mô hình 4: Mô hình này chúng ta xem xét một xu hướng tuyến tính theo thời gian trong vectơ trung bình Cụ thể, chúng ta giả định rằng ξ t = a j + b j t,

Chương 3 Áp dụng với j = 1, 2, 3, 4 Để dễ dàng tính toán, ta đặt ξ t = α + β(timet −time1 )/1000, ở đó t = 1, 2, 3, 4, 5 Hàm hợp lý là

Ma trận hiệp phương sai được giả định là giống nhau cho 5 khoảng thời gian, với tổng số tham số trong mô hình là 18 Đối với cấu trúc trung bình, ước lượng hợp lý cực đại được tìm thấy là α ˆ = (131.59, 133.72, 99.46, 50.22) và β ˆ = (1.104, −0.544, −1.390, 0.331).

Mô hình 5 duy trì xu hướng tuyến tính như mô hình 4, nhưng bổ sung cấu trúc vào ma trận hiệp phương sai Sự đơn giản hóa này giả định rằng bốn phép đo trên hộp sọ có tương quan bằng nhau, dẫn đến tổng số tham số trong mô hình là 13 (8 + 5).

Bằng cách sử dụng phần mềm R để chạy bộ dữ liệu trên với 5 mô hình nêu ở trên ta có các kết quả sau:

Mô hình Số các tham số AIC Xếp hạng BIC Xếp hạng

Mô hình 2 có giá trị AIC và BIC lớn hơn mô hình 1, cho thấy sự ưu tiên cho cấu trúc hiệp phương sai chung Giá trị AIC của mô hình 3 chỉ nhỏ hơn một chút so với mô hình 1, nhưng lại thấp hơn nhiều so với mô hình 2, điều này cho thấy sự ưu tiên cho mô hình 3.

Giá trị BIC trong mô hình 3 cao hơn so với mô hình 1 và 2, cho thấy BIC ưu tiên các mô hình đơn giản với vectơ trung bình và ma trận hiệp phương sai chung Đồng thời, các giá trị AIC và BIC của mô hình 4 cũng lớn hơn so với các mô hình 1, 2, 3, điều này cho thấy sự ưu tiên của mô hình tuyến tính theo thời gian.

5 là lớn nhất trong tất cả các mô hình ở trên, đây là mô hình đơn giản nhất và tốt nhất được chọn bởi cả AIC và BIC.

KẾT LUẬN Luận văn "Một số tiêu chuẩn lựa chọn mô hình" tập trung nghiên cứu các vấn đề sau:

Ngày đăng: 05/07/2023, 20:24

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w