Tiếp theo là phương trình của mê hình tuyến tinh đa biến và cáo tĩnh chất của ước lượng tổng bình phương bé nhất, Lính chất của ma trận sai số, tỉnh chất của ma trận hệ số hỏi quy,...
Trang 1
DAI HOC QUOC GIA HA NOI
TRUONG DAI HOC KHOA HOC TỰ NHIÊN
DANG THI PHUONG MAI
PHAN TiCH SO LIEU CUA MOT SO CONG TRINH XAY DUNG
BANG THONG KE TOAN HOC
LUẬN VĂN THẠC SĨ Chuyên ngành: Lý thuyết xác suất và thống kê toán học
Hà Nội - 2012
Trang 2
ĐẠI HỌC QUOC GIA HA NOI TRUONG DAI HOC KHOA HOC TU NHIEN
DANG THI PHUONG MAI
PHAN TiCH SO LIEU CUA MOT SO CONG TRINH XAY DUNG
BANG THONG KE TOAN HOC
Trang 31.1.2 Những tính toán đẻ giải phương trình hỏi quy bôi „3 1.1.3 Mở rộng của mỏ hình hỏi quy bội thành mô hình tuyến tỉnh tông, quát G
1.2 Một số vỉ ủụ về mô hình tuyển tỉnh tổng quát 9
1.3 Quan điểm hình học 16
1.3.1 Ước lượng bình phương bé nhất cho mô hình tuyến tính tổng quát 18
1.3.4 Tổng các bình phương và tích chéo ứng với giã thuyết và ứng với sai sô 21 1.3.5 Thống kê kiểm định giả thuyết tuyến tính tông quái đa biến 32
1.4 Phan phi phan de trong mé hink tuyén tink ting quit 24
1.4.2 Phân phổi đồng thời của phân dư đơn biển 33
Trang 41.4.3 Phan phối déng théi cia phan dư da biển
1.4.4 Phân phối dồng thời cho trường hợp đặc biệt của phan du da bién Chương 2 Phân tích số Hệu kiểm toán của một số công trình xây dựng
21 Mô tả xỗ liệu
3.1.2 Loại công trình phân theo đặc tinh ky thuat
2.1.3 Loại công trình phân theo chite năng sử đụng
3.1.4 Cð công trình
23 Phân tích mức ănh hưỡng của các nhân tô đến tỷ lệ sai phạm
2.2.1 Phan tich phương sai cho 4 nhân tố
2.3.2 Mô hình hỏi quy tuyển tính tổng quát
Kết luận và kiểu nghị
Tài liệu tham khảo
-Ò-35
-43 4
Trang 5LOI CAM ON
Lời cam on chân thành và sâu sắc nhất của tôi xin dành tặng cho PGS TS Hé Dãng Phúc Chính nhờ sự hướng dẫn tận tỉnh của thấy mà tôi mới thực hiện vá hoàn
thành được luận văn mày Bên cạnh đó, tốt xin gửi lời cảm ơn chân thành tới Ban
Giảm dốc củng các nhân viên phòng Kiểm toán dâu tư xây dựng của công ty Hợp đanh kiểm toán Việt Nam (CPA Việt Nam) vi đã cung cấp cho tôi những số liệu
chính xác, có giá trị thống kẻ của các công trình xây dựng mẻ công ty đã thưc hiện
kiểm toán Nhờ những số liệu nảy mà tôi đã thực hiện được phan phan tích ở chương 2 của luận văn Tôi cững xin chân thành cảm ơn Ban Chủ nhiệm khoa, các
giảng viên trong Khoa Toán — Co — Tin hoc va các học viên của lớp Cao học Toản
2007 — 2009 trường Dại học Khoa học Tự nhiên, Dại học Quốc gia Lià Nội đã động
Trang 6LOI MO DAU
‘M6 hinh tnyén Linh tổng quái đá được nhiều nhà khoa học nghiên cửu và ứng dụng trong nhiều lĩnh vực khoa học và dời sống khảz nhau Trong luận văn này, tôi trình bảy các cơ sở lý thuyết của mỏ hình tuyến tính tổng quát và ứng dung của nó trong việc phân tích các kết quả kiếm toán của một số cảng trình xây dung Luận
văn được clua thành 2 chương
Chương đầu tiên là những giới thiệu về mô hình tuyến tính tổng quát Trong,
chương này, tôi đưa ra sự mở rộng của mô hình hỏi quy bội thành mỏ hình tuyến
tỉnh lổng quái San đó là mội vài ví dụ về mô hình tuyến tính tông quát nữnr nô Lrình hổi quy tuyến tính, mô hình so sánh hai mẫu bằng phép kiểm dịnh t mỏ hình
ANOVA một nhân tổ Tiếp theo là phương trình của mê hình tuyến tinh đa biến
và cáo tĩnh chất của ước lượng tổng bình phương bé nhất, Lính chất của ma trận sai
số, tỉnh chất của ma trận hệ số hỏi quy, Phản cuối của chương 1 lả nội dụng trù: bây về phân phổi phan du trong mô hình tuyến tính tống quát Trong đó, chúng ta xem xé! các định ngiữa, định lí của phần dư don biến, phân phối đẳng thời của phan
du don biến, phân phối đồng thời của phần du da bién va phân phổi đồng thời cho trường hợp đặc biệt của phân dư đơn biển
Chương thứ hai giới thiện kết quả ứng dụng mô hình tuyển tính tổng quát vào
việc nghiên cứu số liệu kiểm Load của 129 công trình xây đựng đã được công ty CPA Việt Nam thực biện công tác kiểm toán trong thởi gian gần đây Chương này tim hiểu, xem xét các yếu tố của công trình như địa điểm, đặc điểm, chức năng sử dụng và cỡ công tinh ảnh hưởng như thế nào đổi với khả răng xây ra sai sót trong công tác quyết toán tải chính đối với mỗi công trình Thông qua việc áp dụng mô
hình tuyên tính tổng quát, chương nảy chỉ ra trong các yêu tổ trên thì yên tổ nào tác
dộng một cách có ý nghĩa lên tỷ lê sai phạm của các cáu công trình khi quyết loán
(so với kiểm toàn) Từ đó cỏ thể rút ra được một số kết luận có ý nghĩa trực tế
Trang 7CHƯƠNG 1: MÔ HÌNH TUYẾN TÍNH TỎNG QUÁT
1.1 GIỚI THIỆU MÔ HÌNH TUYẾN TÍNH TÔNG QUÁT
Mô hình tuyến tính tổng quát có thể xem là mở rộng của hỏi quy tuyến tỉnh bội Tiểu rõ vẻ mê hình hẻi quy bội là bước chuẩn bị đề tìm hiểu về mô hình tuyển tính tổng quát Vì vậy chúng 1a sẽ xem xét mục đích của hỏi quy bội, các thuật toán tỉnh toán được sứ dụng đề giải quyết vấn đề hỏi quy và làm thể nảo đề mở rộng mô hình
hồi quy bội thành mô hình tuyển tính tổng quát
1.1.1 Mục đích của hỗi quy bội
Mục đích chung của hỏi quy bội lá định lượng mỗi quan hệ giữa một vài biến độc lập (còn gọi là biến dự báo) và một biến phụ thuộc (biến đáp ứng) Ví dụ, muội đại lý bất động sản có thê dựa trên kích thước của mỗi căn nhà, số lượng phòng ngũ, thu nhập trung bình trong khu phổ tương ứng theo sẻ liệu điểu tra dân số đề đánh giả chủ quam về giá bản via cin nba Sau khủ thông tín này được tổng hợp lại nó sẽ cho ta biết xem liệu yếu tổ nào liên quan vả ánh hưởng như thé nao dến mức giả mà một ngôi nhà được bán Ví dụ, người ta có thể thấy rằng số lượng phòng ngũ có vai trò đự bảo tốt hơn về giá mà một ngôi nhà bán tại một khu phố cụ thế so với yêu tổ
“nhà đẹp” (đánh giá chủ quan)
Các nhà quản lý nhân sự thường sử dụng phương pháp hỏi quy bội đẻ xác dinh
nức lương thích hợp cho nhân viên được tuyển đụng Họ có thế xác định một số
yéu té nbs "kha năng đáp ứng" (ENDU) hoặc “số người cần gián sát" (No G8) là
xuột trong những dóng góp vào giá trị của công việc Các nhủ phân tích thường tiến
hành một cuộc khảo sát hương so sánh giữa các công †y trên thị trường, ghỉ mức
lương và những đặc điểm tương ứng (ví dụ, mức độ uông việc) cho các vị trí khác
nhau Thông tin nay có thể được sử dụng trong một phân tích hồi quy bội đề xây đựng một phương trình hỏi quy có dạng;
Mức lương = 0,5 * KNDU + 0.8 * No GS
Trang 8Khi phương trình hồi quy dã dược xác định, các nhà phân tích bây giờ có thể để ding xây dựng một biểu đồ của mức lương dự kiến (dự đoán) và tiến lương thực tế
của những người đang đương chức trong cổng ty của họ Vì vậy, các nhà phân tích
có thể xác định các vị trị dã trả lương thấp (dưới đường hỏi quy) hoặc trả quả nhiều (6 trén đường hếi quy), hoặc trả lương công bằng
Trong xã hội và khoa học tự nhiên, phương pháp hỏi quy bội được sử đựng rất
rộng rãi trong nghiên cứu Nói chung, hồi quy bởi cho phép các nhà nghiên crm dat
ra câu hỏi (và hy vọng câu trã lời) về những vẫn đề tổng quát "dự báo tốt nhất về
là gì” Vĩ đo, các nhà nghiên cứu giáo đục 06 thé muến tìm hiểu các yêu tổ đự đoán
tốt nhất về kết quả học tập ở trường trung lọc là gì Xã hội lọc có thế muốn tim ra nhiều chỉ số xã hội dự doán tốt nhất về việc nhỏm người nhập cư mới có thích ứng,
và được hoà nhập vào xã hội hay không,
1.1.2 Những tính toán để giải phương trình hồi quy bội
Không gian cơn một chiều trong không gian hai chiều là một đường thẳng được đỉnh nghĩa bởi phương trình ¥ — 8, + 8,X Theo phương trinh nay, biển Ÿ có thế được biểu diễn như một hàm của hằng sé (4) va tich của hệ số (Ø¡) với biến X,
Hằng số đụ cũng được gọi là hệ số chắn, côn đụ được gọi là hệ số đốc hay hệ số hỏi quy Ví dụ, diễm trung binh các môn học của học sinh được dự doan bằng công, thúc 7 1 6,02 *7@ Vì vậy, khi biết rằng một học sinh có chỉ số 7Q là 130, chúng ta
sẽ dự đoán rằng điểm trung bình các tôn học của học sinh đó sẽ là 3,6
Trong trường hợp hải quy bội, khi cỏ nhiều biến dự báo, không gian con hồi quy thường không được hình dung trong một không gian bai chiều, nhưng tỉnh toán là
một sự mở rộng trực tiếp của các tính toán trong trường hợp dụ báo đơn biến Ví dụ,
Tiểu ngoài các yếu tổ F@ chúng 1a có thêm vải yêu tố để du đoán (vi dụ: Động lực, ý thức kỹ luật), chúng ta có thể xây dụng một phương trình tuyến tính có chửa tất cả
các biến đó Nói chung, các phương pháp hồi quy bội sẽ tước hrợng một phương
trình tuyển tính có dạng,
Trang 9F= B,+ BX BX ++ BX,
với É là số các yếu tố dự báo Lưu ý răng trong phương trình này, các hệ số hỏi quy
(đi đ¿) đại diện cho những đóng góp độc lập của mỗi biến đự báo vào giá trị của biển phụ thuộc Nói cách khác thì đó chính là sự tương quan của biển X; với biển Y,
sau khi kiểm soát tác động của tát cả các biến độc lập khá
c Loại tường quan này
cũng được gọi lả tương quan riêng phần Vì dụ sau sẽ làm rõ vẫn để này
Binh thường người ta có thể thấy sự tương quan cỏ ý nghĩa giữa chiêu đài tóc và chiều caa con người (người thấp có mái tóc đài hen) Tuy nhiên, nêu chứng ta thêm biển Giới tính vào phương trình hồi quy bội, sự tương quan này sẽ biến mất Điệu nảy là do tỉnh trung bình thì phụ nữ có mái tỏc dài hơn nhưng cũng thấp hơn sơ với nam giới Như vậy, sau khi chúng ta loại bỏ sự khác biệt giới tính bằng cách đưa biển giới tính vào phương trình, mỗi quan hệ giữa chiếu đải tóc và chiêu cao biến mất bởi vi chiếu dài tóc không có tac động đặc biệt nào cho các dự bảo chiều cao
Nói một cách khác, sau khi kiểm soát biển giới linh, sự lương quan giữa chiểu đãi
tóc và chiéu cao la khéng cd ¥ nghia
Không gian con hồi quy (một dường thẳng trong hổi quy dơn, một phẳng hoặc
không gian con có số chiều cao hơn trong hếi quy bội) là dự đoán tốt nhật của biển
phụ thuộc Y, được đưa ra bởi các biến độc lập X- Tuy nhiền, thục tế lã rật hiếm khi
chúng ta hoàn loàn dự đoán được chính xác
giữa những điểm quan sát được so với không gian con hỏi quy thích hợp Dộ lệch
ná trị của Ÿ và thường có sự sai lệch
của một điểm cu thế từ điểm tương ứng gần nhất trên không gian con hỏi quy dự
đoán (đự doán giá trị của nó) dược gọi là phẩn dự Vì mnụe tiêu của các phương pháp
hỏi quy tuyến tính là đưa ra một không gian con là một hàm tuyển tỉnh của các biến
XX nhằm quan sat bién F cang gần càng lối, các giá trị dự cho những diém quan sat
có thể được sử dụng dé dua ra một tiều chuẩn "phủ hợp nhất", Cụ thẻ, trong, bài toán hỏi quy, không gian con được tỉnh sao cho tổng các bình phương độ lệch của các điểm quan sát được so với không gian con đó là nhỏ nhài Như vậy, phương pháp chung gọi là ước lượng, bình phương, bé nhất,
Trang 10Các tỉnh toán thực tế liên quan đến việc giải quyết các bài toán hồi quy có thé được biểu diễn gọn gàng và tiện lợi bằng cách sử dụng ra trận Giả sử rằng ï¡ giả trị quan sát của Y và ø giá trị quan sát cho & biển X khác nhau Sau đó Y„ Ý¿ và s¡ có
thể đại điện tương ứng cho các quan sát thử ¡ của biển Y, các quan sát thứ ï của các
biển X; và giá trị phần dự chưa biếL Tap lop ning sé hang nay đưa vào 1na trận, ta
trong đó đ là một voctrr cột của các hệ số cân ưóc lượng, bao gồm hệ số chặn và k
hệ số hồi quy chưa biết Vì mục tiêu của hỏi quy bội là tổng binh phương, dộ lệch thỏ nhất nên hệ số hỏi quy cản từm thoả mãn phương trình chuân tắc
Kết quá này đưa ra lời giải cho phương trình hồi quy trong đỏ chí có 2 ma trận
và Ÿ với 3 phép toán co bản của ma trận là: (1) chuyền vị ma trận bao gồm việc đổi
shỗ các phản tử của hàng và của cột trong một ma trận, (2) phép nhân ma tận,
Trang 11trong đỏ bao gồm việc tìm tổng các tích của các phân tử eho mỗi tổ hợp hang và cột của bai hoặc nhiều ma trận, và (3) nghịch đão ma trận, trong đỏ bao gồm việc tim
ma tan cé Lính chất giống với số rughich đốo, nghĩa là ma trận thôa mãn
A'AM-A
cho mét ma tran 4
Tuy nhiên mô hùnh hổi quy bội con có những hạn ché can chu y la (1) no durge
sử dụng để phân tích duy nhất một biến phụ thuộc, (2) nó không thể cung cấp một
di quy khi các biến # là không độc lập tuyến tính và do đó nghịch đảo của X'Y không tổn tại Khi khắc phục những hạn chế nảy thí mô hình
lời giải cho các hệ số
hôi quy bội được chuyển thành mô hình tuyên tính tổng quát
1.1.3 Mở rộng của mô hình hỗi quy bội thành mô hình tuyến tính tổng quát
Một trong những điểm mà mê hình tuyên tính tống quát khác với mỏ hình hồi
ác biến phụ thuộc có thể đuợc phân tích Véc lơ Ÿ của n quy bội là số lượng,
quan sát của một biến Ÿ duy nhất có thể dược thay thể bằng một ma trận Y gồm ø quan sát của r biến Y khác nhau Tương tự, vector / của hệ số hồi quy cho một
biển Y duy nhất có thể được thay thế bởi ma trận # của hệ số hồi quy, với một véc
tơ của hệ số 8 cho mỗi biển trong số z biên phụ thuộc Những thay thể đó che phép
Tô hình được gọi là mô hình hồi quy da biến, nhưng cần nhầm mạnh rằng các công, thức ma trận của mô hình hdi quy bội và đa biến là giống hệt nhau, ngoại trừ số Tượng cáu cột trong na Iran Ÿ và Ð Phương pháp giải các hệ số B cũng giống nhau,
đó là, tập mì cáo hệ số hỏi quy khác nhau dược xác dịnh riêng rế cho z biến phụ
thuộc khác nhau trong mmô hình hồi quy đa biển
Mô hình tuyến tính tổng quát tiến một bước vượt lên trên mỗ hình hỏi quy đa biế
ằng cách chấp nhận các phép biển đổi tuyển tính hoặc tổ hợp Luyển lính của
nhiều biến phụ thuộc Sự mở rộng nảy mang lại cho mỏ hình tuyến tính tổng quát thiểu lợi thế quan trọng hơn mô hình hồi quy bội và mô hình hồi quy đã biến Một loi thé đầu tiên là các kiếm định đa biến có thế được 4p dung trên một tập nhiều
Trang 12biển phụ thuộc có liên quan Các phép kiểm định riêng rẽ về ý nghĩa của các biểu
phụ thuộc liên quan là không độc lập với nhau và có thể không thích hợp, Các phép
kiểm định đa biến của các tổ hợp tuyển tính độc lập của các biến phụ thuộc có thể
giúp thấy rõ những tổ hợp nao của các biến độc lập liên quan dến các biến dự báo,
tổ hợp nào không liên quan Một lợi thẻ khác là khả năng phân tích ảnh hưởng của
các nhân tổ dược do lắp lại Các thiết kế phép do lắp lại hoặc các thiết kế nội đốt tượng thường được phản tích bằng cách sử dụng kỷ thuật phân tích phương sai
-ANOVA Các tổ hợp tuyên tính của các biến đáp ứng phản ánh hiệu quả của phép
do lap (bién déc lap được đo dưới những điều kiện khác nhau) có thể được thiết kế
và kiểm định ý nghĩa bằng cách tiếp cận đơn biên hoặc đa biển để phân tích các
phép đo lặp trong mô hình tuyến tính tổng quát
Một điều quan trong thứ hai mả mô hình tuyên tính tống quát khác với mê hình
ii quy bội là nó có thể cúng cấp một lời giải cho các phương trình chuẩn tắc khi các biến ,Ý không độc lập tuyển tính vá nghịch đáo của X'X không ton tai Sw du thừa của các biên X có thể là không thực chất (ví đụ, có thể xây ra hai biến đự báo
hoàn Loàn tương quan trong một lập dữ liệu nhỏ), lá ngẫu nhiên (ví dụ, hai bn sao
của cùng một biến có thể võ tỉnh được sử dụng trong một phân tích) hoặc có chủ
định (vi đụ, biến chỉ thị với cáo gia trị đổi nhau có thể được sử dựng trong phân tích,
như khi cả hai biến dự báo Nam và Nữ được sử dụng trong việc thể hiện giới tinh)
‘Tim nghịch đảo chính quy của một ma trận có hạng không dây đủ cũng giống nhự
việc tìm nghịch đảa của số D trong số học thông thường Không có nghịch đảo bởi
vi không dược phép chia cho sỏ 0 Van dé nay dược giải quyết trong nd hinh tuyến tính tổng quát bằng cách sử đụng một nghịch đảo suy rộng của ma tran Y/Y trong
việc giải các phương trình chuẩn tắc Một nghịch đảo suy rồng cho một ma trận 4 là
ma tran 4 bat ky théa man
ATA A
Mã trận nghịch đão suy rộng là không duy nhất và chỉ duy nhật khi ra trận A có
hạng đầy đủ, Khi đó, nó chính là ma trận nghịch đảo chính quy Ms trận nghịch đảo
Trang 13suy rộng của một ma trận có hang khéng day dủ có thể duoc tinh bang cach don giản bằng cách thay các phân tử Ö vào các hang va cột du của ma trận Giả sử rằng,
cỗ một ma trận X5 với r-cột độc lập tuyến tỉnh (với r là hạng ofa XX) thì ta phân
chia như sau
với An là mà trên vuông cấp z Sau đó, nghịch đão chính quy của hy lồn tại và một
nghịch đảo tổng quat cla XY 1a
: `
44) -|* 0,
với mỗi 1na trận 0 (không) gồm các số Ô vả có số chiều giống như rna trận ⁄4 tương,
ứng
'Tuy nhiên trong thực tế, một nghịch đão tổng quát đặc biệt của X7Y để tim một
lời giải cho các phương trình clmân tắc thường được tính bằng cách sử dụng toán tử
quốt Nghịch đảo suy rong nay, được gọi là nghịch đão g2, có hai tính chất quan trọng Một la việc gán các phần tử Ö trong các hàng vá các cột dư lá không cần thiết Hai la su phân vùng hoặc sắp xép lại các cột của X⁄X là không cân thiết, vi vậy ma
trận có thể Lự nghịch đão “tại chỗ”,
Có vô số nghịch đão tổng quái cửa một ma lrận X?X không có hạng dây đủ, do
đó có võ số nghiệm của các phương trình chuẩn tắc Điều này có thể gây ra sự khó tiểu về bản chất của mỗi quan hệ cửa các biến dự báo và biến phụ thuộc, bởi vì các
hệ số hổi quy có thẻ thay đối tủy thuộc vào nghịch dão suy rộng cụ thể dược chon
để giải các phương trình chuẩn tắc Tuy nhiên, điền đó không dang ngại vì tỉnh chất bất biển quan trọng của nhiều kết quả có thể thu được bằng cách sử đụng mô hình tuyến tỉnh tổng quát
Sau day là một vi du don giản dễ mình họa các tính chất bất biến quan trọng, thất của việc sử dựng nghịch đảo suy rộng trong mô hình tuyến tính tổng quát, Nếu
Trang 14cả hai biến dự báo Nam và Nữ với giả trị đối nhau được sử dụng trong một phân tích giới tỉnh, tùy vào từng trường hợp má biển dự báo được coi lá phân dư thừa (ví
đụ, biển Nam cĩ thé được coi là phần dư thừa với biên Nữ, hoặc ngược lại) Bất kỳ
biển dự báo nao dược coi là phân dư thửa, bất kỹ nghịch dao suy rộng tương ứng, nảo được sử đụng trong việc giải các phương trình chuẩn tắc, và bất kỳ kết quả
phương trinh hồi quy nào được sử dụng dé tính tốn các giá Irị đự dộn về các biển phụ thuộc, các giả trị dự đồn và các phần dự tương ứng cho nam và nữ sẽ khơng,
thay đổi Trong việc sử đựng mơ hinh tuyến tỉnh tng quát, người ta phải nhớ rằng,
việc tìm kiếm một nghiệm cụ thê của các phương Irinh chuẩn tắc chứ là một bước trưng gian để xác định giả trị đáp ứng của các biến phụ thuộc
Khơng giống như mơ hình hỏi quy bơi thường được áp dụng chơ trường hợp các biên X liên tuc, mơ hình tuyên tính tổng quát hay sử dụng để phản tích cho một mơ
hình phân lích phương sai ANOVA hoặc MANOVA với các biển dự báo rời rạc
hoặc với cả hai loại biến dự báo rời rạc và liên tục, cũng như mê hình hỏi quy bội hay đa biển với các biến dự báo liền tục Vi dụ, giới tính r6 ràng là một biên độc lập
rơi rạc Cĩ hai phương pháp cơ bần mà giới tính cĩ thể dược mã hố thành mot hay
nhiều biến dự báo va được phân tích bằng cách sử dụng mơ hình tuyển tính tổng,
quát
1.2 MỘT SỐ VÍ DỤ VỀ MƠ HỈNH TUYỂN TINE TONG QUAT
Giả thiết rằng chúng †a sẽ tiến hành một thí nghiệm trong đĩ chúng ta sẽ quan
sát một hiển đáp ứng hay biến phụ thuộc ¥;, wong doy 1 J la eae chỉ số của quan sát V, là một biển ngấu nhiên Chúng ta cũng giả thiết rằng với mỗi một quan sát chúng ta cĩ một tập gềm K (K < J) biến giải thích hay biến độc lập x„ (được đo
đạc mà khơng cĩ sai số), với &— 1, ,& là chỉ số của các biển độc lặp (hay biến giải
thích) Các biển độc lập cĩ thể là các biệp biến liên tục hoặc rời rac, cdc ham cia các hiệp biến, hoặc chúng cơ thể là các biến hình thức chỉ thị các mức độ của một nhân tổ thực nghiệm
Trang 15nhau với trung binh © và phuong sai 0”, dược viết là e, ~N(0,ø`) Các mô hình
tuyển tính với các phân bé sai số khác là các mê hình tuyển tính tống quát hóa,
thường dược kỷ hiệu là GLM
hiểu phương pháp thong ké tham số có diễn là các trường hợp riêng của mô tình tuyển tính tổng quát Chúng ta sẽ mình họa điểm này bằng việc xem xét các
phương trình của hai mô hình nỗi Géng sau
a Mé hinh hai quy tuyên tính,
Một ví đụ đơn giản là hồi quy tuyến tính trong đỏ chỉ một biền độc lập liên tục
duy nhất x, được quan sát (không có sai sở) trong mỗi quan sát ƒ — 1 /, Mô hình
thường được viết như sau
Ÿ,—xx,B+e,
‘Trong đó các tham số chưa biết là ¿, một hằng số trong mô hình, hệ số hỏi quy 6
và sai số e, ~ N(0,ø”) Biểu thức này có thế được viết lại theo dạng mô hình tuyển
tính tổng quát bằng việc sử dụng một biển hình thức lây giả trị x,; = 1 che mọi 7,
Tị— xa 1 xa, Le,
zrà đó là một đạng của phương trình (1.L) khi thay thể /ị bằng w
b Mồ hình sa sảnh hai mẫu bằng pháp kiểm định í
Mô hình so sánh hai mẫu là một trường hợp đặc biệt của một mô hình tuyển tính (Ong quat, trong dé gid tél rang Fy va Fy la hai nhóm độc lập của các biển ngẫu
Trang 16Chí số 7 6 4, chi ra rằng có hai mức đổi với hiệu ứng nhỏm, / va #; Ở đây
sự TN (9.7) Biển thức này có thể được viết lại sử dụng các biển hình thức x„a và
gp niu sau
Phương trình (1.2) có dạng của phương trinh (1.1) sau khi đánh số lại cho g7 Ở dây các biến hình thức cho biết nó là thành viên của nhỏm nào, trong dỗ xua chỉ ra khi nào quan sát Y„ ở nhóm thử nhất, trong trường hợp đỏ nó có giả trị L khi ø = 1,
và 0 khi ø = 2 Tương tự nữ vậy
x=
1.2.1 Lập phương trình dạng ma trận
Mô hình tuyển tính tổng quát có thể được biểu diễn một cách ngắn gọn bằng,
cách sử đụng ký kiệu ma trận Viết lại phương trình (1.1) ở dạng đầy đủ cho mỗi
quan sát cho ta một tập hợp các phương trinh sau
Fa MB Ft Be Ft eB Y= 8B +-.— 8, B, ++ 8B +8,
Kaan bo tah bon XzẾN DỤ
Hệ trên cỏ dạng ma trận tương dương như sau
Trang 17trong đỏ Y là vector cột của các quan sát, z là vector cột của các số hạng sai số, Ø là
Yeotor cật của cáo tham số 8 =[f8 f, By] Ma trận X có cấp J x #, với
phần tử thứ 7k là x„, được gọi là ma trận thiết kế Ma trận này có một dòng cho mỗi
quan sải, và xuội cột (biển giải thích) cho mỗi than số của mô hình, Điểm quan
trọng về ma trận thiết kế đỏ là nó là một mô tả gân hoàn chính mỏ hình với phần du
của mô hình là các số hạng sai số
1.2.2 Ước lượng tham số
khi một thực nghiệm đã được hoàn tắt, chúng ta có các quan sát của các biến
ngẫu nhiên Y;, được ký hiệu là y„ Thông thưởng các phương trình của hệ biểu diễn
mô hình tuyến tính tổng quất (với e = 0) không thể giải được vì số lượng à các tham
số thường được chọn nhỏ hơn số lượng ở của các quan sát Do đó một số phương
pháp ước lượng tham số đôi hồi dữ liêu “thích hợp nhất” cần phải được sử dụng Tiểu này đạt được bằng cách sử dựng phương pháp bình phương bé nhất thông
thường
Kỹ hiệu một tập các giá trị ước lượng tham số bởi # =| Ae] Các tham
số đó din đến các giả trì tương ứng Ÿ — [ Ÿ,, ,ƒ, | — Ä , cha cáo sai số phim dr
Trang 1813
đó do dạc mức dộ phù hợp của mô hình với các ước lượng đó của các tham số, Các
tước lượng bình phương bé nhất là các ước lượng tham số làm nhỏ nhất tổng bình
phương cáo phẩn dư, với dạng đẩy đô là
Đôi với mô hiùt tuyển tính lổng quát, các ưóc lượng bình phương bé nhật là các
trớc hượng vững, vả là các tóc lượng không chệch tuyển tình tết nhật D6 là vị, liên
quan đến tÁI cả các ước lượng than số tuyến tính xây dựng nên từ kết hợp tuyến
tỉnh của dữ liệu dược quan sát có kỳ vọng la gid trị dúng của các tham biến, ước
lượng binh phương bẻ nhất có phương sai bẻ nhất
Nếu (XX) khá nghịch, mà thực tế nó sẽ là như vậy nêu vả chí nếu ma trận tỉnh
toán X có hạng đây đủ, thì các ước lượng bình phương bé nhật sẽ là
+ Các mô hình không có lời giải duy nhất
Nếu + có các cột phụ thuộc tuyến tính, nó sẽ là ma trận có hạng khéng day di, khi đỏ (X”X) suy biến và không khả nghịch Trong trường hợp nảy mô bình được
gọi là than sé héa đự thừa: có vô hạn các lâp hợp [am số mô tä cùng mộ mô hình:
Trang 1914
Tương ứng, sẽ cỏ vô hạn các ước lượng bình phương bé nhất Ø thỏa mãn các
phương Irình
b Mé hinh ANOVA mét nhan tb
Mét vi du don gian vé mét mé hinh nhu vay 1a mé hinh phân tích phương sai
một nhân tổ cổ điển (ANOVA) Mét cach tổng quát, một mô hình ANOVA xác định biến thiên của một biển đáp ứng được quan sát chịu các ảnh hưởng của các
mức tác nhân Phan biến Hiên không giải thích còn lại được sử dụng để đánh giá mức ý nghĩa của các tác dộng, Mô hình ANOVA một nhân tô được viết như sau:
Y,=Ht+a, +8,
,@ Các tham số của mô hình
Trong đó Ÿ„ là quan sát thú ƒ trong nhóm 4 =
nảy rõ ràng không xác định duy nhất với bất kỷ ¿ và a„ nào, các tham số ø”' = # + đ
va 0,' = a —d cho một mồ hình tương đương với bắt kỳ hằng số đ não Đó chính là
mô hình là không xác dịnh cho dén mức của một hằng số cộng giữa biểu thức hằng,
số ø và các tác động nhóm ø, Có thể lập luận tương tự như trên cho bắt kỳ tập các
tớc lượng bình phương bé nhất 2, đ, nào Ở đây có một bậc võ định trong mô
hình, điện đó làm cho ma trận tính toán có hạng @ nhé hon sé các tham sẻ (số các
cột của ma trên X) Nếu veolor dữ hệu Ÿ có các quan sả được sắp xếp theo nhóm, khi đỏ trong trường hợp 3 nhỏm (Ở = 3), ma trận tỉnh toán và các vector tham số là:
Trang 20Rõ ràng rằng ma trận này có hạng không dày đủ: cột đầu tiên là tổng của các cột khác Do đó trong mô hình này, người ta không thể kiểm tra trong mô hình này tác động của mội hay nhiều nhóm Tuy nhiên lưu ý rằng việc công vào hằng số 2 không tác động dén các hiệu số tương, dối giữa các cặp của các tac déng nhom Do
đó các hiệu số trong các tác động nhóm được ước lược đuy nhất mả không cần xét đến lập cụ thể của các ước lượng tham số được sử dụng Nói cách khác, thậm chí nếu mô hình là tham số hóa dư thửa, vẫn cỏ các tỏ hợp tuyến tỉnh cỏ ich của các
tham số (chính là các hiệu số giữa các cặp của cáo tác động nhóm)
© Ràng buộc nghịch đảo suy rộng
Trong mö hình với tham số không xác định đuy nhất, một tập các ước lượng
tình phương bé nhất có thể được xác định bằng việc đưa vào các ràng buộc đối với
các ước lượng hoặc bằng việc sử dụng cho (X”Y) Trong trưởng hợp nào thì cũng
cần chú ý răng các ước lượng thực sự thu nhận được phụ thuộc vào ràng buộc cụ thế
hoặc phụ thuộc vào phương pháp lây nghịch đáo suy rộng được lựa chọn
Có một số ràng buộc cụ [hệ dựa trên việc loại bỏ các cội lừ ra trận tính loán
'Trong ví dự ANOVA một nhân tổ, người ta có thẻ loại bó biểu thức hằng số để xây đựng một ma trận tính toán có cáo cột là độc lập tuyến tính Với các tỉnh toán phức tạp hơn, dạng của ma tran tính toán có thể thay đối rất nhiều làm cho mé hình ban
đầu trở nên khó nhận biết
Một cách khác là phương pháp lấy nghịch đáo suy rộng ma trận có thể được sử
dụng Đặt (X'x) w hiệu cho một ma trận nghịch dao suy rồng của (YX), Khi đó
chúng ta có thé sit dung ma) thay vì (xa trong phương trình (1.3) Một
tập các ước lượng bình phương bé nhất được cho bởi A = (X 'X] X'r=xY
Điều đó cho các rác lượng tham số bình phương bé nhất với tống các bình phương
là bé nhất (cực tiểu L; theo chuẩn || Ẩ||,) Ví đụ, với mô hình ANOVA một nhân tổ,
phương pháp này cho các ước lượng tham số 2=> «)/0+9) và
Trang 2116
ổ; —Ÿz„ —1 Chúng tạ stt dung ¥ 7 dé ky kigu giá tị trung bình của Ÿ trong quan
sát chỉ số 7, chính là trưng bình của đữ liệu trong nhóm ¿
Sử dụng nghịch đảo suy rộng trong ước lượng tham số ở các mô hình với tham
số không xác định đuy nhất là một giải pháp thường được sử đụng Như đã được
giới thiệu ở trên, phương pháp nay van không cho phép kiểm tra các tổ hợp tuyến tính của các tảo động má có một số lượng vô hạn các tróc lượng tham số Chủ ý
ring rang bude giả nghịch đảo cho ta giữ nguyên tất gã mác côi cia ma trên Ä'
1.2.3 Quan điểm hình học
Đổi với mệt số người, quan điểm hình học cung cấp một cảm nhận trực quan
cho phương pháp phân tích
Veulor cửa các giá trị quan sắt Ÿ đụ nghĩa một điểm đơn trong không gian
#f”, không gian Euclide / chiếu ÄŸ Ø là một tổ hợp tuyến tỉnh của các cột của ma
tran tinh toán X: Các cột của ma trận X là cdc vector J do do XB voi mot B cho
trước định nghĩa một điểm trong không gian RY Pidm nay nd trong không gian
cơn của “ được xây dựng nên bởi các cột của ma trận tính toán, khổng gian -
Chiều của không gian con là rank(X), Nhắc lại rằng không gian được xây dựng nền
từ các cột của X là một tập các điểm Xe với mọi c thuộc không gian 9Ÿ” Phân dư tổng các bình phương cho các ước lượng tham số /? là khoảng cách từ X /7 đến V
Do vay các uớo lượng bình phương bé nhất tương ứng với diễm trong không
gian xây dựng bởi các cột của X mà gần nhất với đữ liệu Y Dường vuông góc từ Y
vào không gian.Y giao với không gian đỏ tại điểm Ÿ — X Bây giờ sẽ rõ ràng là
tại sao không có các ưóc lượng bình phương bẻ nhất đuy nhất niều không gian Ä có hạng không đầy đủ; khi 46 bat kỳ điểm nào trong không gian X có thể nhận được
‘bang cac té hợp tuyến tính vẻ hạn các cột của X;, chính là nghiệm tên tại trên một
siêu mặt và không phẩt là một điểm.
Trang 22Nếu X có hạng dây đủ, khi dó dịh nghĩa ma trận của phép chiếu là
P„—X(X'X)XT Khi đó Ÿ — P2Y, và P„ về mãi hình học là một phép chiến
vào không gian X Tương tự như vậy ma trận của các phần dur la R=(7,-P,),
trong dé J; là ma trên đơn vị có hang J Nhu vay 2Y — e, va 2 là một phép chiếu ma trận vào không gian trực giao với không gian X
Sau đây là một ví đụ có liên quan mật thiết, xem xét một hỏi quy tuyển tính chỉ
với ba quan sát Dữ liện được quan sát là y—[»„J-,J;| đỉnh nghĩa một điểm
trong không gian Juchde ba chiều #° Mô hình dân đến ma trận tỉnh toán
lai x=l]1
1 x,
Cho trước cae gia trix, khac nhau, các cội của Ý hình thành nên một không gian con
hai chiêu trong #”, một mặt phẳng (1Iình L.1),
(Y„Y„Y)
(4, Xe X;) Mật phẳng
Hình 11
Trang 23p bién phụ thuộc trong một số cột của ma trận F Do đó mô hinh này là
Ya Pa Mp Vox ye [Po Ba Bon
Pa Pan Pap |] 1 Xn re | Bu Ba -~ Bi,
5 5 1 x,
Ta thay rằng số lượng các cột của ma trận Ö phủ hợp với số lượng các cột của
Tna trận Ÿ Mô hình có thể trình bay baa nh sau,
|9 ?‹-?,]=*[#, # ~#,]
với mỗi cột Y đưa vào một phương trình hỏi quy với các cột tương ứng cửa B coi
thư là các vector hệ số Ta cỏ thế điễn tả mô hình một cách ngắn gọn nhất bing
cách sử dụng,
Y=XR Tiếp eo, chúng ta định nghữa sai số cia ma tran du đoán cấp mx p là £ với
E=Ÿ-~Ÿ ,dođa
1.3.1 Ước lượng bình hương bé nhất cho mã hình tuyến tính tổng quát
Lam thế nào để ước lượng dược các giá trị chưa biết trong ràa Wan B? Khi sai số
cota Y chí là một veetơ, ta có thể chọn ham mục tiêu lá £'c Mặt khác ma trận £"£ không là một đại lượng vô hướng mà là một tổng bình phương và tích chéo của tua
trận cân „ x p Trong trường hợp này la sẽ làm vết của &'s đạt giá trị nhỏ nhảt
Liâm rnục tiều sé la
Trang 24#=TrƒY) 7Tr(—RY'X)! Tr(B'X'XE)
Trang 25Như vậy, toán tử Vee tién hath ghép cac hàng, của ma trận A véi nhau dé duge mét
vecto hang cé dd dai mx m
Chúng ta giả sử, trong một mô hình đa biến tương tự đối với các giả thiết Gauss Markov rang phân phối của ma trận £ cỡ n x p là
Vscœ) ~ N(0,„.¡,1,® „eo, 932, } 5
Trong dỏ tích Kronceker của các ma trận, dỗi khi dược gọi là tích trực tiếp Ø,
được định nghĩa như sau:
Trang 26
1.3.3 Tính chất của ma trận hệ số boi quy
Bay gid ta sẽ xem xét kỳ vọng và phương sai của ước lượng trong phương trinh
(1.5) Nhưng trước tiền, ta cần xem xét một số cáo tính chất của kỳ vọng và phương,
sai Các kỳ vong sẽ là don gian, vi
Khi ma trận # cỏ nhiều cột cần quan tâm , Ø là một vector cột, chứng, ta có thé
kiểm tra các giả thuyết tuyển tỉnh của một số cột của Z Dạng tổng quát của các giả
thuyết là
Ta thấy g hang của 4 kiểu định giả thuyết liên quan đến k biến dộc lập Do vậy,
⁄4 là một ma trận cấp ợ x & với ¿ < k Dỗng thời z cột của À7 kiểm tra giá thuyết về p tiễn phụ thuộc, niên Mf 1a ma tran cap p x r voir < p
1.3.4.Tổng các bình phương và tích chéo ứng với giả thuyết và ứng với sai số Trong mô hình tuyên tỉnh đơn biển, tổng bình phương img với giả thuyết là một
đại lượng vô lrưởng tương ứng với biến phụ thuộc duy nhát, Phương trình sau dây
Trang 27dua dén tổng bình phương và tích chéo của ma trận ứng với giả thuyết dược thé
hiện trong phương trình (1.6)
Trong trường hợp đơn biến, chúng la goi # là tỹ lệ giữa tổng lính phương ứng với
giả thuyết và tắng bình phương ímg với sai số Dö chính là tỷ số giữa độ biển động,
ứng với giả thuyết và độ biến động do yếu tổ ngẫu nhiên gây ra F được tính như
sau
Trong trường hợp đa biên, chứng ta sẽ làm tương tự theo các cách được trinh
bảy tiếp sau đây
1.3.5 Thông kê kiếm định giá thuyết tuyến tính tổng quát đa bién
Tiếu s là hạng, của # '77, thì ta có giả trị riêng A, 2 A,
(E1 )x=0
Noi chung, s Min (g.z), có nghĩa là số lượng cúc giá tỉ riêng được xác định
tủy thuộc số hàng của ⁄1 hoặc số cột của &Z nhỏ hơn Phương trình dặc trưng của
H(H LH} là
[Hứ L8)” 8ilx=0
với
Trang 2823
đo đó
Trong đỏ, À; Lương tự như tỷ lệ Ƒ, là giá trị riêng của E7 Trong khi ổ, là lương
tự như bình phương tương quan đa biển, là giả trị riêng của Z7(H + E) ` Bây giờ ta
Trang 2924
1 tiểu r`+ g”— 5< 0 với n là kích thước mẫu, È là số cột của * Hậc tự do của /” là r + ø và c†— 2w Xắp
xỉ là chính xác nêu s = Min (, 4) < 2, tức là hạng của E !# nhỏ hơn hoặc bằng 2
1.4 PHÂN PHỎI PHẢN ĐƯ TRONG MÔ HỈNH TUYẾN TỈNH TÔNG
với 4” langhich dao suy réng ctia A sao cho 44 A— A Do dé ude luong XB la
tất biển dù bất kỳ nghịch dao suy rộng (V”X) nào của X”X được sử đụng [lon
vita, XB va Eco phân phối độc lập Xñ~ N,,„(XR,X(Y'XYX @S) và
Trang 30n= ~W,(n—a,¥) Cudi cimg, ching ta ky higu XB=¥Bva Fa nS /(n-c)
tương ứng cho ước lượng không chệch của X# và 2,
Mã trận phần dư dược dịnh nghĩa là
Cáo véc tơ £; có thể phụ thuộc tuyên tính với nhau Chúng 1a định nghĩa các chỉ
số Ï ={U, & ]}với ý =L, « mì e =1, và k<n—œ sao cho véo tƠ E,, Eu
độc lập tuyến tính
Ta định nghĩa ma trận
far
ey é-| :
ar
ly
Khi đó £, là ma tận ngẫu nhiên có hạng đẩy đủ phân phỏi chuẩn, hơn nữa
§:~ N,„„(0,(, — H,)@Š), Hy tìm được tr ma trận H bằng cách xóa đi các hàng
và cáo cột cô chỉ số trong lap Ƒ,
Đất với mô hình đơn biến, tức là khi p1 la có thể xét các loại phản dư khác
nhau là
Trang 31phan dir Student héa ndi tai
——— : — phi du student hoa ngoai vi
voi D"” la ma tran đường chéo với các phần tữ (1— j;„ } "2, (1— „TY,
Hơn nữa, cần lưu ý rằng r” có thể được định nghĩa là
Cả bai phan du student hoa ngoai vi u7 va w, cd thé duoc dink nghĩa tượng tự
Nhung trong trường hợp này thi
Trang 32Có thế này sinh một sổ khó khăn trong việc xác định phân phổi xác suất của cáo
ma tran đó Một tình huồng tương tư cũng xảy ra đêi với œ, Đề tránh các vân đề như vậy, có một định nghĩa thay thẻ được đề xuất cho z7 và m, là
MỆT D Độ; và w— „1 (—11) Đội (1.10)
với đ; là độ lệch chuẩn được bình thành bằng cách loại bố các quan sat tương ứng
có chỉ số trong tập 7 từ không gian mẫu,
Cần lưu ý rằng trong bất kỳ định nghĩa nào của phần đư student hỏa nội tại thi
Trang 3328
Cac dạng đa biển của biểu thức (1.9) và (1.11) cũng đứng trong các trường hợp đó Nghiên cửu tất cá các loại phản phổi phần dư rất quan trọng trong các lĩnh vực khảo nhau của thống kề, đặc biệt lả trong phân tích đô nhạy (hoặc kiếm định hệ số Tiồi quy) và trong mồ hình tuyến tính Ảnh hướng của một biến vào mô hình hồi quy thường được nghiên cứu bằng cách sử đựng nhiều loại biên đổ có sẵn khác nhau Tương tự như vậy, ảnh hưởng của một hay nhiều quan sát vào các tham số của mô
tỉnh hổi quy được đánh giá hay do đạc bằng các độ do hay hàm khoảng cách khác
nhau Những độ đo nảy có thể biểu diễn bởi các ham của phần dư student hóa nội tại và ngoại vĩ Tương tự như vậy, các độ đo tiêu chuẩn trong kiểm định dựa trên thề tích của miễn tin cây đạng cllipsoid hoặc thương của các phương sai có thể dược biéu điễn như một hàm của phần dư student hóa nội tại và ngoại vị Lhật không may
là phân phốt của nhiều độ đo như vậy là không rõ rằng, có nghữa là kết quả phải được đưa ra trên cơ sở của một biểu dé cd sin và một danh sách các giả trị gốc,
được tính toán trên các sẻ liệu mẫu để đối chiếu
Nhiéu nha nghiên củu đã tìm cách tránh việc tìm phân phối đồng thời của các
loại phần dư khác nhau vi nói chưng phân phối của các phân đư đó là kỳ đị đối với
d6 do Lebesgue trong R”, Van đề được khắc phục khi quan sát thấy rằng phân phối
kỳ đi lại có giá tị khi xét với độ đo 1Tausdorff được định nghĩa trên một không gian cơn Affin Tuy nhiên khi các loại phần đư khác nhau thu được theo các phép biến
d6i của phân phối kỳ dị thi việc xác định các Jacobians dối với độ đỏ Hausdor là cân thiết
Bay giờ ta định nghĩa các lớp còn lại của phần đư cho các trường hợp đơn biến
và đa biển Chúng ta bắt đầu với ¿; và sau đó xác định mật độ của chúng, nó là không kỳ dị theo giả thuyết của mô hình (1.8)