1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phân tích số liệu của một số công trình xây dựng bằng thống kê toán học

86 19 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 86
Dung lượng 564,13 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Sau đó là một vài ví dụ về mô hình tuyến tính tổng quát như mô hìnhhồi quy tuyến tính, mô hình so sánh hai mẫu bằng phép kiểm định t, mô hìnhANOVA một nhân tố… Tiếp theo là phương trình

Trang 1

Hà Nội - 2012

Trang 2

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Mã số:60 46 15

Người hướng dẫn khoa học: PGS TS Hồ Đăng Phúc

Hà Nội - 2012

Trang 3

Lời cảm ơn………

Lời mở đầu……… 1

Chương 1 Mô hình tuyến tính tổng quát……… 2

1.1 Giới thiệu mô hình tuyến tính tổng quát………2

1.1.1 Mục đích của hồi quy bội……… …2

1.1.2 Những tính toán để giải phương trình hồi quy bội……… … …3

1.1.3 Mở rộng của mô hình hồi quy bội thành mô hình tuyến tính tổng quát …….6

1.2 Một số ví dụ về mô hình tuyến tính tổng quát……… 9

1.2.1 Lập phương trình dạng ma trận……… 11

1.2.2 Ước lượng tham số……… 12

1.2.3 Quan điểm hình học……… …… 16

1.3 Mô hình tuyến tính tổng quát đa biến ……….……18

1.3.1 Ước lượng bình phương bé nhất cho mô hình tuyến tính tổng quát……… 18

1.3.2 Tính chất của ma trận sai số…… ……… ……… …….…….20

1.3.3 Tính chất của ma trận hệ số hồi quy……… ……… ……… 21

1.3.4 Tổng các bình phương và tích chéo ứng với giả thuyết và ứng với sai số… 21

1.3.5 Thống kê kiểm định giả thuyết tuyến tính tổng quát đa biến……… …… 22

1.4 Phân phối phần dư trong mô hình tuyến tính tổng quát… ……… 24

1.4.1 Phần dư đơn biến……… ……… ……… 29

1.4.2 Phân phối đồng thời của phần dư đơn biến……… 33

Trang 4

1.4.4 Phân phối đồng thời cho trường hợp đặc biệt của phần dư đa biến… 40

Chương 2 Phân tích số liệu kiểm toán của một số công trình xây dựng…… 43

2.1 Mô tả số liệu……… 43

2.1.1 Địa điểm thi công……….… 44

2.1.2 Loại công trình phân theo đặc tính kỹ thuật……….… 47

2.1.3 Loại công trình phân theo chức năng sử dụng……….… 48

2.1.4 Cỡ công trình……….… 51

2.2 Phân tích mức ảnh hưởng của các nhân tố đến tỷ lệ sai phạm……… 54

2.2.1 Phân tích phương sai cho 4 nhân tố ……….… 54

2.2.2 Mô hình hồi quy tuyến tính tổng quát……… … 55

Kết luận và kiến nghị……… 61

Tài liệu tham khảo……… 62

Trang 5

Lời cảm ơn chân thành và sâu sắc nhất của tôi xin dành tặng cho PGS TS HồĐăng Phúc Chính nhờ sự hướng dẫn tận tình của thầy mà tôi mới thực hiện và hoànthành được luận văn này Bên cạnh đó, tôi xin gửi lời cảm ơn chân thành tới BanGiám đốc cùng các nhân viên phòng Kiểm toán đầu tư xây dựng của công ty Hợpdanh kiểm toán Việt Nam (CPA Việt Nam) vì đã cung cấp cho tôi những số liệuchính xác, có giá trị thống kê của các công trình xây dựng mà công ty đã thực hiệnkiểm toán Nhờ những số liệu này mà tôi đã thực hiện được phần phân tích ởchương 2 của luận văn Tôi cũng xin chân thành cảm ơn Ban Chủ nhiệm khoa, cácgiảng viên trong Khoa Toán – Cơ – Tin học và các học viên của lớp Cao học Toán

2007 – 2009 trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội đã độngviên, khuyến khích, chia sẻ kinh nghiệm, kiến thức và hướng dẫn tôi trong suốt quátrình học tập vừa qua

Trong quá trình làm luận văn chắc chắn không thể tránh khỏi những thiếu sót, tôirất mong nhận được sự chỉ bảo tận tình của các thầy cô và bạn bè đồng nghiệp

Trang 6

LỜI MỞ ĐẦU

Mô hình tuyến tính tổng quát đã được nhiều nhà khoa học nghiên cứu và ứngdụng trong nhiều lĩnh vực khoa học và đời sống khác nhau Trong luận văn này, tôitrình bày các cơ sở lý thuyết của mô hình tuyến tính tổng quát và ứng dụng của nótrong việc phân tích các kết quả kiểm toán của một số công trình xây dựng Luậnvăn được chia thành 2 chương

Chương đầu tiên là những giới thiệu về mô hình tuyến tính tổng quát Trongchương này, tôi đưa ra sự mở rộng của mô hình hồi quy bội thành mô hình tuyếntính tổng quát Sau đó là một vài ví dụ về mô hình tuyến tính tổng quát như mô hìnhhồi quy tuyến tính, mô hình so sánh hai mẫu bằng phép kiểm định t, mô hìnhANOVA một nhân tố… Tiếp theo là phương trình của mô hình tuyến tính đa biến

và các tính chất của ước lượng tổng bình phương bé nhất, tính chất của ma trận sai

số, tính chất của ma trận hệ số hồi quy,… Phần cuối của chương 1 là nội dung trìnhbày về phân phối phần dư trong mô hình tuyến tính tổng quát Trong đó, chúng taxem xét các định nghĩa, định lí của phần dư đơn biến, phân phối đồng thời của phần

dư đơn biến, phân phối đồng thời của phần dư đa biến và phân phối đồng thời chotrường hợp đặc biệt của phần dư đơn biến

Chương thứ hai giới thiệu kết quả ứng dụng mô hình tuyến tính tổng quát vàoviệc nghiên cứu số liệu kiểm toán của 129 công trình xây dựng đã được công tyCPA Việt Nam thực hiện công tác kiểm toán trong thời gian gần đây Chương nàytìm hiểu, xem xét các yếu tố của công trình như địa điểm, đặc điểm, chức năng sửdụng và cỡ công trình ảnh hưởng như thế nào đối với khả năng xảy ra sai sót trongcông tác quyết toán tài chính đối với mỗi công trình Thông qua việc áp dụng môhình tuyến tính tổng quát, chương này chỉ ra trong các yếu tố trên thì yếu tố nào tácđộng một cách có ý nghĩa lên tỷ lệ sai phạm của các các công trình khi quyết toán(so với kiểm toán) Từ đó có thể rút ra được một số kết luận có ý nghĩa thực tế

Trang 7

CHƯƠNG 1: MÔ HÌNH TUYẾN TÍNH TỔNG QUÁT

1.1 GIỚI THIỆU MÔ HÌNH TUYẾN TÍNH TỔNG QUÁT

Mô hình tuyến tính tổng quát có thể xem là mở rộng của hồi quy tuyến tính bội.Hiểu rõ về mô hình hồi quy bội là bước chuẩn bị để tìm hiểu về mô hình tuyến tínhtổng quát Vì vậy chúng ta sẽ xem xét mục đích của hồi quy bội, các thuật toán tínhtoán được sử dụng để giải quyết vấn đề hồi quy và làm thế nào để mở rộng mô hìnhhồi quy bội thành mô hình tuyến tính tổng quát

1.1.1 Mục đích của hồi quy bội

Mục đích chung của hồi quy bội là định lượng mối quan hệ giữa một vài biếnđộc lập (còn gọi là biến dự báo) và một biến phụ thuộc (biến đáp ứng) Ví dụ, mộtđại lý bất động sản có thể dựa trên kích thước của mỗi căn nhà, số lượng phòng ngủ,thu nhập trung bình trong khu phố tương ứng theo số liệu điều tra dân số để đánhgiá chủ quan về giá bán của căn nhà Sau khi thông tin này được tổng hợp lại nó sẽcho ta biết xem liệu yếu tố nào liên quan và ảnh hưởng như thế nào đến mức giá màmột ngôi nhà được bán Ví dụ, người ta có thể thấy rằng số lượng phòng ngủ có vaitrò dự báo tốt hơn về giá mà một ngôi nhà bán tại một khu phố cụ thể so với yếu tố

”nhà đẹp” (đánh giá chủ quan)

Các nhà quản lý nhân sự thường sử dụng phương pháp hồi quy bội để xác địnhmức lương thích hợp cho nhân viên được tuyển dụng Họ có thể xác định một sốyếu tố như "khả năng đáp ứng" (KNDU) hoặc “số người cần giám sát" (No_GS) làmột trong những đóng góp vào giá trị của công việc Các nhà phân tích thường tiếnhành một cuộc khảo sát lương so sánh giữa các công ty trên thị trường, ghi mứclương và những đặc điểm tương ứng (ví dụ, mức độ công việc) cho các vị trí khácnhau Thông tin này có thể được sử dụng trong một phân tích hồi quy bội để xâydựng một phương trình hồi quy có dạng:

Mức lương = 0,5 * KNDU + 0.8 * No_GS

Trang 8

Khi phương trình hồi quy đã được xác định, các nhà phân tích bây giờ có thể dễdàng xây dựng một biểu đồ của mức lương dự kiến (dự đoán) và tiền lương thực tếcủa những người đang đương chức trong công ty của họ Vì vậy, các nhà phân tích

có thể xác định các vị trí đã trả lương thấp (dưới đường hồi quy) hoặc trả quá nhiều(ở trên đường hồi quy), hoặc trả lương công bằng

Trong xã hội và khoa học tự nhiên, phương pháp hồi quy bội được sử dụng rấtrộng rãi trong nghiên cứu Nói chung, hồi quy bội cho phép các nhà nghiên cứu đặt

ra câu hỏi (và hy vọng câu trả lời) về những vấn đề tổng quát "dự báo tốt nhất về …

là gì" Ví dụ, các nhà nghiên cứu giáo dục có thể muốn tìm hiểu các yếu tố dự đoántốt nhất về kết quả học tập ở trường trung học là gì Xã hội học có thể muốn tìm ranhiều chỉ số xã hội dự đoán tốt nhất về việc nhóm người nhập cư mới có thích ứng

và được hoà nhập vào xã hội hay không,

1.1.2 Những tính toán để giải phương trình hồi quy bội

Không gian con một chiều trong không gian hai chiều là một đường thẳng được

định nghĩa bởi phương trình Y = b 0 + b1 X Theo phương trình này, biến Y có thể

được biểu diễn như một hàm của hằng số ( 0) và tích của hệ số ( 1) với biến X.

Hằng số 0 cũng được gọi là hệ số chặn, còn 1 được gọi là hệ số dốc hay hệ số hồiquy Ví dụ, điểm trung bình các môn học của học sinh được dự đoán bằng công thức

1 + 0,02 * IQ Vì vậy, khi biết rằng một học sinh có chỉ số IQ là 130, chúng ta sẽ dự

đoán rằng điểm trung bình các môn học của học sinh đó sẽ là 3,6

Trong trường hợp hồi quy bội, khi có nhiều biến dự báo, không gian con hồi quythường không được hình dung trong một không gian hai chiều, nhưng tính toán làmột sự mở rộng trực tiếp của các tính toán trong trường hợp dự báo đơn biến Ví dụ,

nếu ngoài các yếu tố IQ chúng ta có thêm vài yếu tố để dự đoán (ví dụ: Động lực, ý

thức kỷ luật), chúng ta có thể xây dựng một phương trình tuyến tính có chứa tất cảcác biến đó Nói chung, các phương pháp hồi quy bội sẽ ước lượng một phươngtrình tuyến tính có dạng:

Trang 9

Y =b0 + b1 X1 + b2 X 2 + + bk X k

với k là số các yếu tố dự báo Lưu ý rằng trong phương trình này, các hệ số hồi quy (

1, , k) đại diện cho những đóng góp độc lập của mỗi biến dự báo vào giá trị của

biến phụ thuộc Nói cách khác thì đó chính là sự tương quan của biến X i với biến Y,

sau khi kiểm soát tác động của tất cả các biến độc lập khác Loại tương quan nàycũng được gọi là tương quan riêng phần Ví dụ sau sẽ làm rõ vấn đề này

Bình thường người ta có thể thấy sự tương quan có ý nghĩa giữa chiều dài tóc vàchiều cao con người (người thấp có mái tóc dài hơn) Tuy nhiên, nếu chúng ta thêmbiến Giới tính vào phương trình hồi quy bội, sự tương quan này sẽ biến mất Điềunày là do tính trung bình thì phụ nữ có mái tóc dài hơn nhưng cũng thấp hơn so vớinam giới Như vậy, sau khi chúng ta loại bỏ sự khác biệt giới tính bằng cách đưabiến giới tính vào phương trình, mối quan hệ giữa chiều dài tóc và chiều cao biếnmất bởi vì chiều dài tóc không có tác động đặc biệt nào cho các dự báo chiều cao.Nói một cách khác, sau khi kiểm soát biến giới tính, sự tương quan giữa chiều dàitóc và chiều cao là không có ý nghĩa

Không gian con hồi quy (một đường thẳng trong hồi quy đơn, một phẳng hoặckhông gian con có số chiều cao hơn trong hồi quy bội) là dự đoán tốt nhất của biến

phụ thuộc Y, được đưa ra bởi các biến độc lập X Tuy nhiên, thực tế là rất hiếm khi chúng ta hoàn toàn dự đoán được chính xác giá trị của Y và thường có sự sai lệch

giữa những điểm quan sát được so với không gian con hồi quy thích hợp Độ lệchcủa một điểm cụ thể từ điểm tương ứng gần nhất trên không gian con hồi quy dựđoán (dự đoán giá trị của nó) được gọi là phần dư Vì mục tiêu của các phương pháphồi quy tuyến tính là đưa ra một không gian con là một hàm tuyến tính của các biến

có thể được sử dụng để đưa ra một tiêu chuẩn "phù hợp nhất" Cụ thể, trong bài toán hồiquy, không gian con được tính sao cho tổng các bình phương độ lệch của các điểm quansát được so với không gian con đó là nhỏ nhất Như vậy, phương pháp chung gọi là ướclượng bình phương bé nhất

Trang 10

Các tính toán thực tế liên quan đến việc giải quyết các bài toán hồi quy có thể

được biểu diễn gọn gàng và tiện lợi bằng cách sử dụng ma trận Giả sử rằng n giá trị

quan sát của Y và n giá trị quan sát cho k biến X khác nhau Sau đó Y i , X iki

thể đại diện tương ứng cho các quan sát thứ i của biến Y, các quan sát thứ i của các

biến X, và giá trị phần dư chưa biết Tập hợp những số hạng này đưa vào ma trận, ta

trong đó là một vector cột của các hệ số cần ước lượng, bao gồm hệ số chặn và k

hệ số hồi quy chưa biết Vì mục tiêu của hồi quy bội là tổng bình phương độ lệch

nhỏ nhất nên hệ số hồi quy cần tìm thoả mãn phương trình chuẩn tắc

X ' X b = X 'Y Khi các biến X là độc lập tuyến tính thì phương trình trên có một nghiệm duy nhất

Khi nhân cả hai vế của phương trình với nghịch đảo của X'X ta được

( X ' X )-1 X ' X b = ( X ' X )-1 X 'Y

hay

Kết quả này đưa ra lời giải cho phương trình hồi quy trong đó chỉ có 2 ma trận X

và Y với 3 phép toán cơ bản của ma trận là: (1) chuyển vị ma trận bao gồm việc đổi

chỗ các phần tử của hàng và của cột trong một ma trận, (2) phép nhân ma trận,

Trang 11

trong đó bao gồm việc tìm tổng các tích của các phần tử cho mỗi tổ hợp hàng và cộtcủa hai hoặc nhiều ma trận, và (3) nghịch đảo ma trận, trong đó bao gồm việc tìm

ma trận có tính chất giống với số nghịch đảo, nghĩa là ma trận thỏa mãn

A-1AA = A cho một ma trận A.

Tuy nhiên mô hình hồi quy bội còn có những hạn chế cần chú ý là (1) nó được

sử dụng để phân tích duy nhất một biến phụ thuộc, (2) nó không thể cung cấp một

lời giải cho các hệ số hồi quy khi các biến X là không độc lập tuyến tính và do đó nghịch đảo của X'X không tồn tại Khi khắc phục những hạn chế này thì mô hình hồi

quy bội được chuyển thành mô hình tuyến tính tổng quát

1.1.3 Mở rộng của mô hình hồi quy bội thành mô hình tuyến tính tổng quát

Một trong những điểm mà mô hình tuyến tính tổng quát khác với mô hình hồi

quy bội là số lượng của các biến phụ thuộc có thể được phân tích Véc tơ Y của n quan sát của một biến Y duy nhất có thể được thay thế bằng một ma trận Y gồm n quan sát của m biến Y khác nhau Tương tự, vector của hệ số hồi quy cho một

biến Y duy nhất có thể được thay thế bởi ma trận B của hệ số hồi quy, với một véc tơ của hệ số B cho mỗi biến trong số m biến phụ thuộc Những thay thế đó cho phép

mô hình được gọi là mô hình hồi quy đa biến, nhưng cần nhấn mạnh rằng các côngthức ma trận của mô hình hồi quy bội và đa biến là giống hệt nhau, ngoại trừ số

lượng các cột trong ma trận Y và B Phương pháp giải các hệ số B cũng giống nhau,

đó là, tập m các hệ số hồi quy khác nhau được xác định riêng rẽ cho m biến phụ

thuộc khác nhau trong mô hình hồi quy đa biến

Mô hình tuyến tính tổng quát tiến một bước vượt lên trên mô hình hồi quy đabiến bằng cách chấp nhận các phép biến đổi tuyến tính hoặc tổ hợp tuyến tính củanhiều biến phụ thuộc Sự mở rộng này mang lại cho mô hình tuyến tính tổng quátnhiều lợi thế quan trọng hơn mô hình hồi quy bội và mô hình hồi quy đa biến Mộtlợi thế đầu tiên là các kiểm định đa biến có thể được áp dụng trên một tập nhiều

Trang 12

biến phụ thuộc có liên quan Các phép kiểm định riêng rẽ về ý nghĩa của các biếnphụ thuộc liên quan là không độc lập với nhau và có thể không thích hợp Các phépkiểm định đa biến của các tổ hợp tuyến tính độc lập của các biến phụ thuộc có thểgiúp thấy rõ những tổ hợp nào của các biến độc lập liên quan đến các biến dự báo,

tổ hợp nào không liên quan Một lợi thế khác là khả năng phân tích ảnh hưởng củacác nhân tố được đo lặp lại Các thiết kế phép đo lặp lại hoặc các thiết kế nội đốitượng thường được phân tích bằng cách sử dụng kỹ thuật phân tích phương saiANOVA Các tổ hợp tuyến tính của các biến đáp ứng phản ánh hiệu quả của phép

đo lặp (biến độc lập được đo dưới những điều kiện khác nhau) có thể được thiết kế

và kiểm định ý nghĩa bằng cách tiếp cận đơn biến hoặc đa biến để phân tích cácphép đo lặp trong mô hình tuyến tính tổng quát

Một điều quan trọng thứ hai mà mô hình tuyến tính tổng quát khác với mô hìnhhồi quy bội là nó có thể cung cấp một lời giải cho các phương trình chuẩn tắc khi

các biến X không độc lập tuyến tính và nghịch đảo của X'X không tồn tại Sự dư thừa của các biến X có thể là không thực chất (ví dụ, có thể xảy ra hai biến dự báo

hoàn toàn tương quan trong một tập dữ liệu nhỏ), là ngẫu nhiên (ví dụ, hai bản saocủa cùng một biến có thể vô tình được sử dụng trong một phân tích) hoặc có chủđịnh (ví dụ, biến chỉ thị với các giá trị đối nhau có thể được sử dụng trong phân tích,như khi cả hai biến dự báo Nam và Nữ được sử dụng trong việc thể hiện giới tính).Tìm nghịch đảo chính quy của một ma trận có hạng không đầy đủ cũng giống nhưviệc tìm nghịch đảo của số 0 trong số học thông thường Không có nghịch đảo bởi

vì không được phép chia cho số 0 Vấn đề này được giải quyết trong mô hình tuyến

tính tổng quát bằng cách sử dụng một nghịch đảo suy rộng của ma trận X'X trong việc giải các phương trình chuẩn tắc Một nghịch đảo suy rộng cho một ma trận A là

ma trận A- bất kỳ thỏa mãn

AA-A = A.

Ma trận nghịch đảo suy rộng là không duy nhất và chỉ duy nhất khi ma trận A có

hạng đầy đủ Khi đó, nó chính là ma trận nghịch đảo chính quy Ma trận nghịch đảo

Trang 13

suy rộng của một ma trận có hạng không đầy đủ có thể được tính bằng cách đơn

giản bằng cách thay các phần tử 0 vào các hàng và cột dư của ma trận Giả sử rằng

có một ma trận X'X với r-cột độc lập tuyến tính (với r là hạng của X’X) thì ta phân

chia như sau

é A

X'X =ê

với A11 là ma trận vuông cấp r Sau đó, nghịch đảo chính quy của A11 tồn tại và một

nghịch đảo tổng quát của X'X là

Tuy nhiên trong thực tế, một nghịch đảo tổng quát đặc biệt của X'X để tìm một

lời giải cho các phương trình chuẩn tắc thường được tính bằng cách sử dụng toán tử

quét Nghịch đảo suy rộng này, được gọi là nghịch đảo g2, có hai tính chất quan

trọng Một là việc gán các phần tử 0 trong các hàng và các cột dư là không cần thiết

Hai là sự phân vùng hoặc sắp xếp lại các cột của X'X là không cần thiết, vì vậy ma

trận có thể tự nghịch đảo “tại chỗ”

Có vô số nghịch đảo tổng quát của một ma trận X'X không có hạng đầy đủ, do đó

có vô số nghiệm của các phương trình chuẩn tắc Điều này có thể gây ra sự khó hiểu

về bản chất của mối quan hệ của các biến dự báo và biến phụ thuộc, bởi vì các hệ số

hồi quy có thể thay đổi tùy thuộc vào nghịch đảo suy rộng cụ thể được chọn để giải

các phương trình chuẩn tắc Tuy nhiên, điều đó không đáng ngại vì tính chất bất

biến quan trọng của nhiều kết quả có thể thu được bằng cách sử dụng mô hình tuyến

tính tổng quát

Sau đây là một ví dụ đơn giản để minh họa các tính chất bất biến quan trọng nhất

của việc sử dụng nghịch đảo suy rộng trong mô hình tuyến tính tổng quát Nếu

Trang 14

cả hai biến dự báo Nam và Nữ với giá trị đối nhau được sử dụng trong một phântích giới tính, tùy vào từng trường hợp mà biến dự báo được coi là phần dư thừa (ví

dụ, biến Nam có thể được coi là phần dư thừa với biến Nữ, hoặc ngược lại) Bất kỳbiến dự báo nào được coi là phần dư thừa, bất kỳ nghịch đảo suy rộng tương ứngnào được sử dụng trong việc giải các phương trình chuẩn tắc, và bất kỳ kết quảphương trình hồi quy nào được sử dụng để tính toán các giá trị dự đoán về các biếnphụ thuộc, các giá trị dự đoán và các phần dư tương ứng cho nam và nữ sẽ khôngthay đổi Trong việc sử dụng mô hình tuyến tính tổng quát, người ta phải nhớ rằngviệc tìm kiếm một nghiệm cụ thể của các phương trình chuẩn tắc chỉ là một bướctrung gian để xác định giá trị đáp ứng của các biến phụ thuộc

Không giống như mô hình hồi quy bội thường được áp dụng cho trường hợp các

biến X liên tục, mô hình tuyến tính tổng quát hay sử dụng để phân tích cho một mô

hình phân tích phương sai ANOVA hoặc MANOVA với các biến dự báo rời rạchoặc với cả hai loại biến dự báo rời rạc và liên tục, cũng như mô hình hồi quy bộihay đa biến với các biến dự báo liên tục Ví dụ, giới tính rõ ràng là một biến độc lậprời rạc Có hai phương pháp cơ bản mà giới tính có thể được mã hoá thành một haynhiều biến dự báo và được phân tích bằng cách sử dụng mô hình tuyến tính tổngquát

1.2 MỘT SỐ VÍ DỤ VỀ MÔ HÌNH TUYẾN TÍNH TỔNG QUÁT

Giả thiết rằng chúng ta sẽ tiến hành một thí nghiệm trong đó chúng ta sẽ quan sát

một biến đáp ứng hay biến phụ thuộc Y j , trong đó j = 1,…,J là các chỉ số của quan

chúng ta có một tập gồm K (K < J) biến giải thích hay biến độc lập x jk (được đo đạc

mà không có sai số), với k = 1,…,K là chỉ số của các biến độc lập (hay biến giải

thích) Các biến độc lập có thể là các hiệp biến liên tục hoặc rời rạc, các hàm củacác hiệp biến, hoặc chúng có thể là các biến hình thức chỉ thị các mức độ của mộtnhân tố thực nghiệm

Trang 15

Một mô hình tuyến tính tổng quát biểu diễn các biến đáp ứng Y j theo các số hạngcủa một tổ hợp tuyến tính của các biến độc lập cộng với phần sai số,

Yj = xj1b1 + + x jkbk + + xjKb K + ej

giải thích x jk Các sai số ε j là các biến ngẫu nhiên độc lập có phân bố chuẩn giống

iid ( )

nhau với trung bình 0 và phương sai σ2, được viết là e j: N 0,s 2 Các mô hìnhtuyến tính với các phân bố sai số khác là các mô hình tuyến tính tổng quát hóa,thường được ký hiệu là GLM

Nhiều phương pháp thống kê tham số cổ điển là các trường hợp riêng của môhình tuyến tính tổng quát Chúng ta sẽ minh họa điểm này bằng việc xem xét cácphương trình của hai mô hình nổi tiếng sau

a Mô hình hồi quy tuyến tính.

Một ví dụ đơn giản là hồi quy tuyến tính trong đó chỉ một biến độc lập liên tục

thường được viết như sau

Y j = m + x j b + e j

Trong đó các tham số chưa biết là µ, một hằng số trong mô hình, hệ số hồi quy β

iid ( )

và sai số ej: N 0,s2 Biểu thức này có thể được viết lại theo dạng mô hình tuyến

tính tổng quát bằng việc sử dụng một biến hình thức lấy giá trị x j1 = 1 cho mọi j,

Yj = x j1m + x j2 b 2 + e j

mà đó là một dạng của phương trình (1.1) khi thay thế β1 bằng µ.

b Mô hình so sánh hai mẫu bằng phép kiểm định t.

Mô hình so sánh hai mẫu là một

tổng quát, trong đó giả thiết rằng Y

trường hợp đặc biệt của một mô hình tuyến tính

j1 và Y j2 là hai nhóm độc lập của các biến ngẫu

Trang 16

nhiên, phép so sánh Y qj:N (mq,s 2), với q = 1, 2, và đánh giá giả thuyết H: µ1 = µ2

Chỉ số j đánh số các điểm dữ liệu trong cả hai nhóm Phương pháp biểu diễn mô

hình thống kê theo quy chuẩn như sau

Phương trình (1.2) có dạng của phương trình (1.1) sau khi đánh số lại cho qj Ở

đây các biến hình thức cho biết nó là thành viên của nhóm nào, trong đó x qj1 chỉ ra

khi nào quan sát Y qj ở nhóm thứ nhất, trong trường hợp đó nó có giá trị 1 khi q = 1,

và 0 khi q = 2 Tương tự như vậy

Mô hình tuyến tính tổng quát có thể được biểu diễn một cách ngắn gọn bằng

cách sử dụng ký kiệu ma trận Viết lại phương trình (1.1) ở dạng đầy đủ cho mỗi

quan sát j cho ta một tập hợp các phương trình sau

Trang 17

trong đó Y là vector cột của các quan sát, ε là vector cột của các số hạng sai số, β là

vector cột của các tham số b = [b1,¼ , b k ,¼, bK ]T Ma trận X có cấp J x K, với

phần tử thứ jk là x jk, được gọi là ma trận thiết kế Ma trận này có một dòng cho mỗi

quan sát, và một cột (biến giải thích) cho mỗi tham số của mô hình Điểm quan

trọng về ma trận thiết kế đó là nó là một mô tả gần hoàn chỉnh mô hình với phần dư

của mô hình là các số hạng sai số

1.2.2 Ước lượng tham số

Khi một thực nghiệm đã được hoàn tất, chúng ta có các quan sát của các biến

ngẫu nhiên Y j , được ký hiệu là y j Thông thường các phương trình của hệ biểu diễn

mô hình tuyến tính tổng quát (với ε = 0) không thể giải được vì số lượng K các tham

số thường được chọn nhỏ hơn số lượng J của các quan sát Do đó một số phương

pháp ước lượng tham số đòi hỏi dữ liệu “thích hợp nhất” cần phải được sử dụng

Điều này đạt được bằng cách sử dụng phương pháp bình phương bé nhất thông

Trang 19

đó đo đạc mức độ phù hợp của mô hình với các ước lượng đó của các tham số Các

ước lượng bình phương bé nhất là các ước lượng tham số làm nhỏ nhất tổng bình

phương các phần dư, với dạng đầy đủ là

Đối với mô hình tuyến tính tổng quát, các ước lượng bình phương bé nhất là các

ước lượng vững, và là các ước lượng không chệch tuyến tính tốt nhất Đó là vì, liên

quan đến tất cả các ước lượng tham số tuyến tính xây dựng nên từ kết hợp tuyến

tính của dữ liệu được quan sát có kỳ vọng là giá trị đúng của các tham biến, ước

lượng bình phương bé nhất có phương sai bé nhất

toán X có hạng đầy đủ, thì các ước lượng bình phương bé nhất sẽ là

a Các mô hình không có lời giải duy nhất

Nếu X có các cột phụ thuộc tuyến tính, nó sẽ là ma trận có hạng không đầy đủ,

gọi là tham số hóa dư thừa: có vô hạn các tập hợp tham số mô tả cùng một mô hình

Trang 20

Tương ứng, sẽ có vô hạn các ước lượng bình phương bé nhất bµ

thỏa mãn cácphương trình

b Mô hình ANOVA một nhân tố

Một ví dụ đơn giản về một mô hình như vậy là mô hình phân tích phương saimột nhân tố cổ điển (ANOVA) Một cách tổng quát, một mô hình ANOVA xác địnhbiến thiên của một biến đáp ứng được quan sát chịu các ảnh hưởng của các mức tácnhân Phần biến thiên không giải thích còn lại được sử dụng để đánh giá mức ýnghĩa của các tác động Mô hình ANOVA một nhân tố được viết như sau:

Yqj = m + a q + eqj

này rõ ràng không xác định duy nhất với bất kỳ µ và α q nào, các tham số µ’ = µ + d

và α q ’ = α q – d cho một mô hình tương đương với bất kỳ hằng số d nào Đó chính là

mô hình là không xác định cho đến mức của một hằng số cộng giữa biểu thức hằng

số µ và các tác động nhóm α q Có thể lập luận tương tự như trên cho bất kỳ tập các

µ ¶

ước lượng bình phương bé nhất m , aq nào Ở đây có một bậc vô định trong mô hình,

điều đó làm cho ma trận tính toán có hạng Q nhỏ hơn số các tham số (số các cột của

ma trận X) Nếu vector dữ liệu Y có các quan sát được sắp xếp theo nhóm, khi đó trong trường hợp 3 nhóm (Q = 3), ma trận tính toán và các vector tham số là:

Trang 21

Rõ ràng rằng ma trận này có hạng không đầy đủ: cột đầu tiên là tổng của các cộtkhác Do đó trong mô hình này, người ta không thể kiểm tra trong mô hình này tác

động của một hay nhiều nhóm Tuy nhiên lưu ý rằng việc cộng vào hằng số µ không

tác động đến các hiệu số tương đối giữa các cặp của các tác động nhóm Do đó cáchiệu số trong các tác động nhóm được ước lược duy nhất mà không cần xét đến tập

cụ thể của các ước lượng tham số được sử dụng Nói cách khác, thậm chí nếu môhình là tham số hóa dư thừa, vẫn có các tổ hợp tuyến tính có ích của các tham số(chính là các hiệu số giữa các cặp của các tác động nhóm)

c Ràng buộc nghịch đảo suy rộng

Trong mô hình với tham số không xác định duy nhất, một tập các ước lượngbình phương bé nhất có thể được xác định bằng việc đưa vào các ràng buộc đối với

cần chú ý rằng các ước lượng thực sự thu nhận được phụ thuộc vào ràng buộc cụ thểhoặc phụ thuộc vào phương pháp lấy nghịch đảo suy rộng được lựa chọn

Có một số ràng buộc cụ thể dựa trên việc loại bỏ các cột từ ma trận tính toán.Trong ví dụ ANOVA một nhân tố, người ta có thể loại bỏ biểu thức hằng số để xâydựng một ma trận tính toán có các cột là độc lập tuyến tính Với các tính toán phứctạp hơn, dạng của ma trận tính toán có thể thay đổi rất nhiều làm cho mô hình banđầu trở nên khó nhận biết

Một cách khác là phương pháp lấy nghịch đảo suy rộng ma trận có thể được sử

chúng ta có thể sử dụng (X T X )- thay vì (X T X )-1 trong phương trình (1.3) Một

= (Y q· ) (1+

q 1

Trang 22

a = · - m

µ q Y q

µ

sát chỉ số j, chính là trung bình của dữ liệu trong nhóm q.

Sử dụng nghịch đảo suy rộng trong ước lượng tham số ở các mô hình với tham

số không xác định duy nhất là một giải pháp thường được sử dụng Như đã đượcgiới thiệu ở trên, phương pháp này vẫn không cho phép kiểm tra các tổ hợp tuyếntính của các tác động mà có một số lượng vô hạn các ước lượng tham số Chú ý rằng

ràng buộc giả nghịch đảo cho ta giữ nguyên tất cả các cột của ma trận X.

1.2.3 Quan điểm hình học

Đối với một số người, quan điểm hình học cung cấp một cảm nhận trực quancho phương pháp phân tích

Vector của các giá trị quan sát Y định nghĩa một điểm đơn trong không gian

là một tổ hợp tuyến tính của các cột của ma

trận tính toán X Các cột của ma trận X là các vector J do đó X b °

với một b °

cho

Chiều của không gian con là rank(X) Nhắc lại rằng không gian được xây dựng nên

là khoảng cách từ X b °

đến Y.

µ

xây dựng bởi các cột của X mà gần nhất với dữ liệu Y Đường vuông góc từ Y

tại sao không có các ước lượng bình phương bé nhất duy nhất nếu không gian X có hạng không đầy đủ; khi đó bất kỳ điểm nào trong không gian X có thể nhận được bằng các tổ hợp tuyến tính vô hạn các cột của X, chính là nghiệm tồn tại trên một

siêu mặt và không phải là một điểm

Trang 23

Nếu X có hạng đầy đủ, khi đó định nghĩa ma trận của phép chiếu là

trong đó I J là ma trận đơn vị có hạng J Như vậy RY = e, và R là một phép chiếu ma

trận vào không gian trực giao với không gian X.

Sau đây là một ví dụ có liên quan mật thiết, xem xét một hồi quy tuyến tính chỉ

với ba quan sát Dữ liệu được quan sát là y = [ y1, y2 , y3 ]T định nghĩa một điểm

trong không gian Euclide ba chiều Â3 Mô hình dẫn đến ma trận tính toán

Cho trước các giá trị x j khác nhau, các cột của X hình thành nên một không gian con

hai chiều trong Â3 , một mặt phẳng (Hình 1.1)

Hình 1.1

Trang 24

1.3 MÔ HÌNH TUYẾN TÍNH TỔNG QUÁT ĐA BIẾN

Mô hình tuyến tính tổng quát đa biến là sự mở rộng của các trường hợp đơn

biến Thay vì có một biến phụ thuộc trong một cột của vectơ y, chúng ta có một tập

Ta thấy rằng số lượng các cột của ma trận B phù hợp với số lượng các cột của

ma trận Y Mô hình có thể trình bày lại như sau

với mỗi cột Y đưa vào một phương trình hồi quy với các cột tương ứng của B coi

như là các vector hệ số Ta có thể diễn tả mô hình một cách ngắn gọn nhất bằngcách sử dụng

1.3.1 Ước lượng bình phương bé nhất cho mô hình tuyến tính tổng quát

Làm thế nào để ước lượng được các giá trị chưa biết trong ma trận B? Khi sai số

ε của Y chỉ là một vectơ, ta có thể chọn hàm mục tiêu là e 'e Mặt khác ma trận e 'e

không là một đại lượng vô hướng mà là một tổng bình phương và tích chéo của ma trận

cấp p x p Trong trường hợp này ta sẽ làm vết của e 'e đạt giá trị nhỏ nhất Hàm mục tiêu

sẽ là

Trang 25

Tr(BY’X) Chúng ta có thể viết lại phương trình trên một cách đơn giản là

Trang 26

1.3.2 Các tính chất của ma trận sai số

Để nói về sự phân phối của ma trận sai số ε, chúng ta sẽ phải sắp xếp lại nó một

chút bằng cách sử dụng toán tử Vec(.) được định nghĩa như sau:

Cho ma trận A cấp m x n với các hàng a1’,…, am’, ta định nghĩa

ëê a m'.

ù ú

ú ú û

Như vậy, toán tử Vec tiến hành ghép các hàng của ma trận A với nhau để được một

vectơ hàng có độ dài m x n.

Chúng ta giả sử, trong một mô hình đa biến tương tự đối với các giả thiết Gauss

Markov rằng phân phối của ma trận ε cỡ n x p là

Vec ( e ) : N ( 0 np x 1, In Ä å p x p)

được định nghĩa như sau:

Các ma trận hiệp phương sai cho Vec(ε) là ma trận cấp ) là ma trận cấp np x np Ma trận hiệp

phương sai đó có một cấu trúc đặc biệt Nó gợi nhớ tới cấu trúc trong trường hợp

đơn biến là s2 I = I.s2 Thay vào đó chúng ta có ma trận phân vùng như sau

Trang 27

é åê

1.3.3 Tính chất của ma trận hệ số hồi quy

Bây giờ ta sẽ xem xét kỳ vọng và phương sai của ước lượng trong phương trình

(1.5) Nhưng trước tiên, ta cần xem xét một số các tính chất của kỳ vọng và phương

sai Các kỳ vọng sẽ là đơn giản, vì

kiểm tra các giả thuyết tuyến tính của một số cột của B Dạng tổng quát của các giả

thuyết là

Ta thấy q hàng của A kiểm định giả thuyết liên quan đến k biến độc lập Do vậy,

biến phụ thuộc, nên M là ma trận cấp p x r với r ≤ p.

1.3.4.Tổng các bình phương và tích chéo ứng với giả thuyết và ứng với sai số

Trong mô hình tuyến tính đơn biến, tổng bình phương ứng với giả thuyết là một

đại lượng vô hướng tương ứng với biến phụ thuộc duy nhất Phương trình sau đây

Trang 28

đưa đến tổng bình phương và tích chéo của ma trận ứng với giả thuyết được thể

hiện trong phương trình (1.6)

Kết quả là ma trận cấp r x r với r là số cột của M và C, hay nói cách khác là số

lượng các biến phụ thuộc được biến đổi trong giả thuyết trong phương trình (1.6)

Tổng bình phương và tích chéo ứng với sai số cũng là một ma trận cấp r x r,

E = M 'éY'Y -Y'X(X 'X)-1X 'YùM .

Trong trường hợp đơn biến, chúng ta gọi F là tỷ lệ giữa tổng bình phương ứng với

giả thuyết và tổng bình phương ứng với sai số Đó chính là tỷ số giữa độ biến động

ứng với giả thuyết và độ biến động do yếu tố ngẫu nhiên gây ra F được tính như

1.3.5 Thống kê kiểm định giả thuyết tuyến tính tổng quát đa biến

Nếu s là hạng của E -1H , thì ta có giá trị riêng l ³ l ³¼ ³ l của hệ

(E

-1H - lI )x = 0 Nói chung, s = Min (q, r), có nghĩa là số lượng các giá trị riêng được xác định tùy thuộc số hàng của A hoặc số cột của M nhỏ hơn Phương trình đặc trưng của H

(H + E )-1

éë H (H + E )-1 - q I ùû x = 0

với

Trang 29

Trong đó, i tương tự như tỷ lệ F, là giá trị riêng của E -1H Trong khi i là tương

tự như bình phương tương quan đa biến, là giá trị riêng của H (H + E )-1 Bây giờ

ta có bốn cách khác nhau để kiểm định giả thuyết đa biến do bốn nhà thống kê khácnhau đề xuất Bốn cách đó là:

trong đó, như ở phần trước, q là số hàng hoặc hạng của A, r là số cột hoặc hạng của

M, nhưng có thêm một số tham số khác Cụ thể là có giá trị

u = rq - 2 ,

Trang 31

với n là kích thước mẫu, k là số cột của X Bậc tự do của F’ là r • q và ct – 2u Xấp

xỉ là chính xác nếu s = Min (r, q) ≤ 2, tức là hạng của E -1H nhỏ hơn hoặc bằng 2.

1.4 PHÂN PHỐI PHẦN DƯ TRONG MÔ HÌNH TUYẾN TÍNH TỔNG

QUÁT

Xét mô hình tuyến tính tổng quát đa biến

với Y và e là ma trận ngẫu nhiên cấp n x p, X là ma trận cấp n x q đã biết và B là ma

trận cấp q x p của tham số chưa biết được gọi là hệ số hồi quy, X có hạng a £ q ; n ³

p + a Đầu tiên, chúng ta giả sử e là một ma trận ngẫu nhiên phân phối chuẩn tắc,

Trang 33

: W p (n

tương ứng cho ước lượng không chệch của XB và S.

Ma trận phần dư được định nghĩa là

là một ma trận ngẫu nhiên phân phối chuẩn hạng p( n - a) tức

là e$ ~ N nxp (n-a),p(0,(I n - H ) Ä å) với covæç vec (e $T)ö÷ = ((I n - H )Ä å) Ngoài ra,

i có thể phụ thuộc tuyến tính với nhau Chúng ta định nghĩa các chỉ

số I = {i1, , i k } với i s = 1, , n ; s = 1, , k và k £ n -a sao cho véc tơ e$

è k øKhi đó e$

Trang 34

Tương tự như khi định nghĩa e$

với D-1/2 là ma trận đường chéo với các phần tử (1- h i1i1 )-1/2 , ,(1- h i k i k )-1/2

Hơn nữa, cần lưu ý rằng r I T có thể được định nghĩa là

Trang 35

và khi I = {i} thì

I iI

Cả hai phần dư student hóa ngoại vi

u I T Nhưng trong trường hợp này thì

và u I có thể được định nghĩa tương tự

Trang 36

Có thể nảy sinh một số khó khăn trong việc xác định phân phối xác suất của các

như vậy, có một định nghĩa thay thế được đề xuất cho u I T và u I

có chỉ số trong tập I từ không gian mẫu.

Cần lưu ý rằng trong bất kỳ định nghĩa nào của phần dư student hóa nội tại thì

Trang 37

với A1/2 là căn bậc 2 của ma trận không âm A, tức là (A1/2)2 = A Với các chỉ số I

ta định nghĩa

Trang 38

và ngoại vi Tương tự như vậy, các độ đo tiêu chuẩn trong kiểm định dựa trên thểtích của miền tin cậy dạng ellipsoid hoặc thương của các phương sai có thể đượcbiểu diễn như một hàm của phần dư student hóa nội tại và ngoại vi Thật không may

là phân phối của nhiều độ đo như vậy là không rõ ràng, có nghĩa là kết quả phảiđược đưa ra trên cơ sở của một biểu đồ có sẵn và một danh sách các giá trị gốc,được tính toán trên các số liệu mẫu để đối chiếu

Nhiều nhà nghiên cứu đã tìm cách tránh việc tìm phân phối đồng thời của cácloại phần dư khác nhau vì nói chung phân phối của các phần dư đó là kỳ dị đối với

kỳ dị lại có giá trị khi xét với độ đo Hausdorff được định nghĩa trên một không giancon Affin Tuy nhiên khi các loại phần dư khác nhau thu được theo các phép biếnđổi của phân phối kỳ dị thì việc xác định các Jacobians đối với độ dô Hausdor là cầnthiết

Bây giờ ta định nghĩa các lớp còn lại của phần dư cho các trường hợp đơn biến

không kỳ dị theo giả thuyết của mô hình (1.8)

Trang 39

1.4.1 Phần dư đơn biến

Để tìm phân phối của r i , chúng ta cần xác định phân phối của r I T Trong phần

Kết quả này được thành lập cho trường hợp mô hình có hạng không đầy đủ, một kếtquả tương tự cho mô hình có hạng đầy đủ có thể dễ dàng thu được bằng cách cho

a = q dưới đây Trước tiên chúng ta xem các định nghĩa sau :

Định nghĩa 1.4.1 Ma trận ngẫu nhiên X có cấp p x n

i) được gọi là ma trận ngẫu nhiên đối xứng có phân phối Pearson loại I (còn gọi là

ma trận ngẫu nhiên phân phối t nghịch đảo) với tham số q Î R, M : p x n,

å : p x p, F : n x n vớiq> -1,S> 0 vàF >0nếu hàm mậtđộxác suất của nó là

S : p x p, F : n x n với r > 0, S > 0 và F > 0 nếu hàm mật độ xác suất của nó là

và được ký hiệu là X : Mt pxn(r , M , åÄF) hoặc X : t p(r , M , å) khi n = 1

ma trận phân phối T nghịch đảo) với tham số q Î R, M : p x n, å : p x p, F : n x n

với q > 1, å > 0 và F > 0 nếu hàm mật độ xác suất của nó có dạng

(1- tr((X - M ) T S- 1 (X - M )F-1))q

Trang 40

Gn[q 2] T -1 -1 -(q- p - n-1)/2

ppn/2Gn[(q - p) / 2]| S |n/2| F |p/2

iv) được gọi là ma trận ngẫu nhiên phân phối T với tham số r Î R, M : p x n,

S : p x p, F : n x n với r > 0, å > 0 và F > 0 nếu hàm mật độ xác suất là

I n + (X - M ) TS -1(X -M)F -1 -r/2

ppn/2Gn[(r - p) / 2]| S |n/2| F |p/2

Gn[a]

gamma đa biến,

n

Gn[ a ] = pn (n-1)/4 ÕG(a - (1- i) / 2)

i=1

Định lý 1.4.1 (Phần dư student hóa nội tại) Trong mô hình (1.8) với p = 1 (trường

hợp đơn biến), r i có phân phối Pearson loại II, r i : MPII ((n -a - 3) 2,0, n -a ) Như

vậy hàm mật độ của nó được cho bởi

Ngày đăng: 20/11/2020, 09:35

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w