Th ứ tư, các sai số có phương sai bằng nhau: tất c giá trả ị u được phân phối giống nhau với cùng phương sai ?2, sao cho ????? = ???2 = ?2.. Hình 11: Code R và kết quả khi v biẽ ểu đồ bo
Trang 1BÁO CÁO BÀI T ẬP LỚ N
MSMH: MT2013
GVHD: Nguyễn Bá Thi LỚP: L14
NHÓM: 19
HỌ TÊN: Lê Đình Huy MSSV: 2113481
TP.HCM, tháng 11 năm 2022
Trang 2Lời c ảm ơnLời đầu tiên, nhóm chúng em xin gửi lời cám ơn sâu sắc đến thầy Nguyễn Bá Thi, giảng viên đã hướng dẫn nhóm hoàn thành đề tài này Nhờ những bài giảng cùng sự tâm huy t c a th y mà nhóm chúng em nế ủ ầ ắm được cơ sở lý thuyết để hoàn thành bài báo cáo theo đúng thờ ạn đượi h c giao
Nhóm chúng em cũng xin gử ời cám ơn đếi l n những ý kiến đóng góp, sự giúp đỡ của thầy cô, bạn bè để bài báo cáo được hoàn thiện hơn
Nhóm xin chân thành cám ơn đến sự hợp tác làm việc, tương trợ nhau để hoàn thành báo cáo k p thị ời hạn và hoàn thi n nhệ ất của các thành viên trong nhóm
Do chưa có nhiều kinh nghiệm làm việc bằng phần mềm RStudio, cũng như những hạn chế về mặt kiến th c chắc chắn sẽ không tránh khỏi nh ng thi u sót ứ ữ ếRất mong nhận được sự nhận xét, ý kiến đóng góp, phê bình từ phía thầ đểy bài báo cáo được hoàn thiện hơn
Lời cuối cùng, nhóm xin g i lử ời cám ơn đến những người đã hỗ trợ nhóm trong quá trình làm bài báo cáo
Trang 33 | P a g e
Function) 2
1.2.2.2 Hàm hồi quy mẫu (SRF - Sample Regression Function) 2
1.2.3 Các gi thi t cả ế ủa phương pháp bình phương nhỏ nhất cho mô hình h i quy tuy n tính bồ ế ội 3
1.2.4 Độ phù h p cợ ủa mô hình 3
1.2.5 Ước lượng kho ng tin c y và kiả ậ ểm định các h s h ệ ố ồi quy 5
1.2.5.1 Ước lượng kho ng và giá tr ả ị ước lượng kho ảng 5
1.2.5.2. Kiểm định giả thiết đối với 𝜷𝒋 5
1.2.6 Kiểm định mức độ ý nghĩa chung của mô hình (trườ ng hợp đặc biệt c a kiủ ểm định WALD) 6
1.2.6.1 Khái quát v ề kiểm đị nh WALD 6
1.2.6.2 Kiểm định ý nghĩa của mô hình 7
1.3 Thực hiệ 8 n 1.3.1 Đọc dữ u (Import Data) liệ 8
1.3.2 Làm s ch dạ ữ liệ 8 u 1.3.3 Làm rõ dữ liệu (Data visualization) 9
1.3.4 Xây dựng các mô hình h i quy tuy n tínhồ ế 17
1.3.5 D ự báo (Predictions) 22
2 ANOVA 23
Trang 42.1 Đề bài 23
2.2 Cơ sở lý thuyế 23 t 2.2.1 Phân tích phương sai một yếu tố 23
2.2.2. Phân tích phương sai hai yếu tố 28
2.3 Thực hiệ 34 n 2.3.1 Đọc file dữ u, th liệ ực hi n thệ ống kê mô t và kiả ểm định 34
2.3.2 Phân tích phương sai một nhân tố (one way ANOVA) 42
2.3.2 Phân tích phương sai hai nhân tố (two way ANOVA) 50
II PHẦN RIÊNG 55
1 Giới thiệu đề tài 55
2 Cơ sở lý thuyết 56
2.1 Thống kê mô tả 56
2.1.1 Trung bình cộng 56
2.1.2 Trung vị 56
2.1.3 Độ l ch chuệ ẩ 56 n 2.1.4 Giá tr ị nhỏ nhất 56
2.1.5 Giá tr l n nhị ớ ất 56
2.1.6 Biểu đồ hist 56
2.1.7 Biểu đồ boxplot 56
2.1.8 Biểu đồ paris 56
2.1.9 H ồi quy tuy n tínhế 56
2.2 Các l nh dùng trong Rstudioệ 56
3 Thực hiện 57
3.1 Làm rõ dữ liệu 57
3.1.1 Đọc dữ liệ 57 u 3.1.2 Làm s ch dạ ữ liệ 57 u 3.1.3 Làm rõ dữ liệu 58
3.2 Mô hình dữ liệu 64
Trang 55 | P a g e
Trang 6Dữ liệu gốc được cung c p tấ ại:
https://www.kaggle.com/harlfoxem/housesalesprediction
Các bi n chính trong b d ế ộ ữ liệu:
price: Giá nhà được bán ra
sqft_living15: Diện tích trung bình c a 15 ngôi nhà g n nhủ ầ ất trong khu dân cư
floors: Số t ng cầ ủa ngôi nhà được phân loại từ 1 - 3.5
condition: Điều ki n ki n trúc c a ngôi nhà t 1 - 5, 1: rệ ế ủ ừ ất tệ và 5: rất tốt
sqft_above: Diện tích ngôi nhà
sqft_living: Diện tích khuôn viên nhà
1.2 Cơ sở lý thuyết
1.2.1 T ổng quan v mô hình h i quy tuy n tính b i ề ồ ế ộ
“Hồi quy tuyến tính bội” là mô hình với một biến ph thu c với hai hoặc nhiềụ ộ u bi n ếđộc lập: 𝑌 = 𝛽0+ 𝛽1𝑋1𝑖+ 𝛽2𝑋2𝑖+ ⋯ + 𝛽𝑘𝑋𝑘𝑖+ 𝜀𝑖
Trong đó: + 𝑌: Biến phụ thuộc
+ 𝑋𝑘𝑖: Biến độc lập
+ 𝛽1: Hệ số tự do (Hệ số ch n) ặ
+ 𝛽𝑘: Hệ số ồ h i quy riêng
Trang 71.2.2.2 Hàm h i quy mồ ẫu (SRF - Sample Regression Function)
Hàm h i quy m u là hàm sồ ẫ ố thể ệ hi n m i quan h gi a trung bình gi a bi n ph thuố ệ ữ ữ ế ụ ộc
Trang 8Giả thiết 𝛽 là ước lượng không chệch của 𝛽𝑚 𝑚, hơn nữa phải là một ước lượng hiệu quả
Ước lượng SRF: chọn một phương pháp nào đó để ước lượng các tham s c a F qua ố ủviệc tìm các tham s cố ủa F và lấy giá tr quan sát c a các tham s này làm giá tr x p x ị ủ ố ị ấ ỉcho tham s c a F ố ủ
1.2.3 Các giả thi ết của phương pháp bình phương nhỏ nhấ t cho mô hình h i quy ồ
tuyến tính b i ộ
Th ứ nh t, hàm h i quy là tuy n tính theo các tham s ấ ồ ế ố
Hồi quy trên thực tế được miêu tả dưới dạng:
Th ứ ba, các sai s ố độ ậ c l p v ới nhau.
Th ứ tư, các sai số có phương sai bằng nhau: tất c giá trả ị u được phân phối giống nhau với cùng phương sai 𝜎2, sao cho 𝑉𝑎𝑟(𝑢𝑖) = 𝐸(𝑢𝑖2) = 𝜎2
Th ứ năm, các sai số có phân phối chuẩn: điều này r t quan tr ng khi phát sinh kho ng ấ ọ ảtin c y và th c hi n kiậ ự ệ ểm định gi thuy t trong nh ng phả ế ữ ạm vi m u là nhẫ ỏ Nhưng phạm vi m u lẫ ớn hơn, điều này trở nên không m y quan tr ng ấ ọ
1.2.4 Độ phù hợp của mô hình
Trang 9+ ESS là tổng bình phương củ ấ ảa t t c các sai l ch gi a các giá tr c a bi n phệ ữ ị ủ ế ụ thuộc Y
nhận được ừ hàm h i quy m u và giá trt ồ ẫ ị trung bình c a chúng Phủ ần này đo độ chính xác c a hàm h i quy ủ ồ
+ RSS là tổng bình phương của tất cả các sai l ch gi a các giá tr quan sát Y và các giá ệ ữ ịtrị
nhận được từ hàm hồi quy
+ TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra + 0 ≤ 𝑅 ≤ 12
+ 𝑅2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động của biến ph ụ thuộc
Trang 10+ N u ế 𝑅2= 1 nghĩa là đườ, ng h i quy giồ ải thích 100% thay đổ ủi c a y
+ N u ế 𝑅2= 0 nghĩa là mô hình không đưa ra , thông tin nào v sề ự thay đổi của biến phụ
thuộc y
1.2.5 Ước lượng kho ng tin c y và kiả ậ ểm định các h s h i quy ệ ố ồ
1.2.5.1 Ước lượng kho ng và giá trả ị ước lượng khoảng
Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu Trong đó k là
số h s có trong ệ ố phương trình hồi quy đa biến:
𝜎2= ∑ 𝑒𝑖2
𝑛 − 𝑘+ Ước lượng 2 phía ta tìm được 𝑡𝛼(𝑛 − 𝑘 a mãn: )thỏ
𝑃(−𝑡𝛼
2(𝑛 − 𝑘 ) ≤) 𝛽 − 𝛽𝑗 𝑗
𝑆𝑒(𝛽 ) ≤ 𝑃(𝑡𝑗 𝛼2(𝑛 − 𝑘 ) )+ Kho ng tin cả ậy 1 − 𝛼 ủa 𝛽 c 𝑗là:
[𝛽 − 𝑡𝑗 𝛼
2(𝑛 − 𝑘 𝑆𝑒(𝛽) ); 𝛽𝑗 + 𝑡𝑗 𝛼
2(𝑛 − 𝑘 𝑆𝑒(𝛽) )] 𝑗
1.2.5.2 Kiểm định giả thiết đối với 𝜷𝒋
Kiểm định rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thu c hay không ộNói
cách khác là h s hệ ố ồi quy có ý nghĩa thống kê hay không Có thể đưa ra giả thiết nào
đó
đố ới v i 𝛽𝑗, chẳng hạn = 𝛽𝑗∗ Nếu giả thiết này đúng thì:
𝑇 =𝛽 − 𝛽𝑗 𝑗𝑆𝑒(𝛽 ) ~𝑇(𝑛 − 𝑘)𝑗
Trang 116 | P a g e
1.2.6 Kiểm đị nh mức độ ý nghĩa chung của mô hình (trường hợp đặc biệt của kiểm định WALD)
1.2.6.1 Khái quát v ề kiểm đị nh WALD
Đặt các mô hình giới hạn và không gi i hạn là: ớ
(𝑈):𝑌 = 𝛽1+ 𝛽2𝑥2+ ⋯ + 𝛽𝑚𝑥𝑚+ 𝛽𝑚+1 𝑚+1𝑥 + 𝛽𝑘𝑥𝑘+ 𝑢
(𝑅): 𝑌 = 𝛽1+ 𝛽2𝑥2+ ⋯ + 𝛽𝑚𝑥𝑚+ 𝑣
Mô hình (R) có được bằng cách bỏ b t một số biến ở mô hình (U), đó là: ớ 𝑥𝑚+1, … , 𝑥𝑘
Giả thuyết 𝐻0: 𝛽𝑚+1= 𝛽𝑘= ⋯ = 0
Giả thuyết 𝐻1: “Không phải đồng th i các tham số bờ ằng 0”
Trị thống kê kiểm định đối với giả thiết này là: (bác b H0, ch p nh n H1) ỏ ấ ậ
𝐹𝐶=[𝑅𝑆𝑆𝑅− 𝑅𝑆𝑆𝑈]
𝑅𝑆𝑆𝑈/(𝑛 − 𝑘) ~𝐹 𝛼, 𝑘 − 𝑚, 𝑛 − 𝑘( ) = 𝑅𝑈
2− 𝑅𝑅2/(𝑘 − 𝑚)
1 − 𝑅𝑈2/(𝑛 − 𝑘)
Trang 12Với 𝑅2 là số đo độ thích h p không hi u ch nh V i gi thuy t không, ợ ệ ỉ ớ ả ế 𝐹𝐶 có phân phối
F
với (k - m) bậc tự do đối với tử số và (n - k) bậc tự do đối với m u s ẫ ố
Bác bỏ giả thuyết 𝐻0 khi: 𝐹𝐶> 𝐹(𝛼, 𝑘 − 𝑚, 𝑛 − 𝑘) ho c giá tr P-value c a th ng kê F ặ ị ủ ốnhỏ hơn mức ý nghĩa cho trước
1.2.6.2 Kiểm định ý nghĩa của mô hình
Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thể:
Bước 1: Giả thuyết 𝐻0: 𝛽2= 𝛽3= ⋯ = 𝛽𝑘= 0
Giả thuyết 𝐻1: “có ít nhất m t trong nh ng giá trộ ữ ị β khác không”
Bước 2: H i quy Y theo m t s hồ ộ ố ạng không đổi và 𝑥 , 𝑥 , … , 𝑥2 3 𝑘 ⇒ Tính t ng bình ổphương sai số RSSU , RSSR Phân phối F là tỷ số của hai biến ngẫu nhiên phân phối khi
bình phương độc lập ⇒ trị thống kê:
𝐹𝐶=[𝑅𝑆𝑆𝑅− 𝑅𝑆𝑆𝑈]𝑅𝑆𝑆𝑈/(𝑛 − 𝑘) ~𝐹 𝛼, 𝑘 − 𝑚, 𝑛 − 𝑘( )
Vì 𝐻0: 𝛽2= 𝛽3= ⋯ = 𝛽𝑘= 0, nhận thấy rằng trị thống kê kiểm định đối với giả thuyết:
𝐹𝐶=𝐸𝑆𝑆𝑅/(𝑘 − 1)𝑅𝑆𝑆/(𝑛 − 𝑘) ~𝐹(𝛼,𝑘 − 1,𝑛 − 𝑘) Bước 3: Tra số liệu trong bảng F tương ứng v i b c t do (k - 1) cho t s và (n - k) ớ ậ ự ử ốcho
mẫu s , và vố ới mức ý nghĩa α cho trước
Bước 4: Bác b gi thuyỏ ả ết 𝐻0 ở mức ý nghĩa α nếu Fc > F(α, k - 1, n - k) Tính giá tr⇒ ị
p
= P (F > Fc | 𝐻0) và bác bỏ giả thuyết 𝐻0 nếu p bé hơn mức ý nghĩa α
Trang 138 | P a g e
Hình 1: Code R và kết qu ả khi đọc dữ liệu và xem 3 dòng u tiên cđầ ủa dữ liệu
1.3.2 Làm s ch d u ạ ữ liệ
(a) Tạo m t dộ ữ liệu con new_DF chỉ bao g m các bi n chính mà ta quan tâm ồ ế
Hình 2: Code R và kết qu khi t o mả ạ ột dữ liệu mới chỉ bao g m các bi n chínhồ ế
(b) Kiểm tra các dữ liệu bị khuyết trong new_DF
Trang 14Hình 3: Code R và kết qu khi kiả ểm tra dữ liệu b khuyị ết trong new_DF Nhận xét: Nhìn vào k t qu khi ki m tra dế ả ể ữ liệu bị khuyết trong new_DF, ta nhận thấy
có 20 d ữ liệu b khuy t t i bi n ị ế ạ ế price Do lượng d ữ liệu khuy t chiế ếm dưới 10% c a d ủ ữ
liệu, ta đưa ra phương pháp xử lí là xoá các quan sát chứa d ệu b khuyữli ị ế t
Hình 4: Code R khi xoá các quan sát chứa dữ liệu b khuy t ị ế
Hình 5: Code R và kết qu khi kiả ểm tra lại còn d ữ liệu b khuy t hay không ị ế
Nhận xét: Ta nhận th y sau khi x lý, không còn d ấ ử ữ liệu khuy ết
1.3.3 Làm rõ d ữ liệu (Data visualization)
(a) Chuyển đổi các biến price, sqft_living15 sqft_above sqft_living, , lần lượt thành
log(price), log(sqft_living15), log(sqft_above ), và log(sqft_living) Từ đây mọi sự tính
toán với các biến trên được hiểu là đã qua đổi bi n d ng log ế ạ
Trang 1510 | P a g e
đổ ỉi t lệ và làm cho biến đó có phân phối chuẩn Ngoài ra, trong trường hợp phần dư (phương sai thay đổi) do các biến độ ập gây ra, ta cũc l ng có thể chuyển đổi các biến đó sang dạng log
+ Di n giễ ải: đây là lý do giúp ta có thể di n gi i m i quan h gi a 2 bi n thu n tiễ ả ố ệ ữ ế ậ ện hơn Nếu ta lấy log c a bi n phủ ế ụ thuộc Y và biến độ ập X, khi đó hệ ố ồi quy β sẽc l s h
là h s co giãn và di n gi i sệ ố ễ ả ẽ như sau: X tăng 1% sẽ ẫn đến tăng việ d c ta s k v ng ẽ ỳ ọ
Y tăng lên β% (về mặt trung bình c a Y), ủ
+ Ước lượng mô hình phi tuyến: việc lấy log cho phép ta ước lượng các mô hình này bằng hồi quy tuy n tính ế
(b) Tính các giá trị thống kê mô tả (trung bình, trung v ị độ lệch chuẩn, giá tr l n nhất, ị ớgiá tr nhị ỏ nhất) cho các bi n ế log.price, log.sqft_above, log.sqft_living, log.sqft_living15 Xuất k t quế ả dướ ại d ng b ng ả
Hình 7: Code R và kết qu khi tính toán giá trả ị các biế log.price, log.sqft_above, n
log.sqft_living, log.sqft_living15
Trang 16(c) L p m t b ng th ng kê s ậ ộ ả ố ố lượng cho t ng ch ng loừ ủ ại của biế floorsn và condition
Hình 8: Code R và kết qu khi l p mả ậ ột bảng th ng kê số ố lượng cho t ng ch ng lo i cừ ủ ạ ủa
biến floors và condition (d) V biẽ ểu đồ histogram th hi n phân phể ệ ối của log.price
Hình 9: Code R và kết qu khi v biả ẽ ểu đồ histogram th ể hiện phân phối của log.price
Nhận xét: D a trên biự ểu đồ histogram c a bi n log.price, ta nh n thủ ế ậ ấy đồ thị có hình dạng phân phối chuẩn, log.price phân bố nhi u nhề ất ở kho ng t ả ừ 12.5 đến 13
(e) V biẽ ểu đồ boxplot th hi n phân ph i c a bi n ể ệ ố ủ ế log.price cho t ng nhóm phân loừ ại của biến floors và biến condition
Trang 1712 | P a g e
Hình 10: Code R và kết quả khi v biẽ ểu đồ boxplot th ể hiện phân phố ủa biến i c
log.price cho t ng nhóm phân loừ ại của biế floorsn
Nhận xét: dựa trên biểu đồ, giá nhà bán ra ng vứ ới từng nhóm nhà có số tầng khác nhau là khác nhau, biểu đồ thay đổi theo t ng giá tr c a bi n ừ ị ủ ế floors, suy ra, floors có
ảnh hưởng tới log.price
- V biẽ ểu đồ boxplot th hi n phân ph i c a bi n log.price cho t ng nhóm phân loể ệ ố ủ ế ừ ại của biến condition
Trang 18Hình 11: Code R và kết quả khi v biẽ ểu đồ boxplot th ể hiện phân phố ủa biến i c
log.price cho t ng nhóm phân loừ ại của biế conditionn
Nhận xét: dựa trên biểu đồ, giá nhà bán ra ng vứ ới từng nhóm nhà có số tầng khác nhau là khác nhau, biểu đồ thay đổi theo t ng giá tr c a bi n ừ ị ủ ế condition, suy ra,
condition có ảnh hưởng tới log.price.
(f) V biẽ ểu đồ phân tán th hi n phân ph i c a bi n ể ệ ố ủ ế log.price theo bi n ế
log.sqft_living15, log.sqft_above log.sqft_living,
- V biẽ ểu đồ phân tán th hi n phân phể ệ ối của bi n ế log.price theo bi n ế log.sqft_living15
Trang 1914 | P a g e
Hình 12: Code R và kết quả khi v biẽ ểu đồ phân tán th ể hiện phân phố ủa biến i c
log.price theo bi n ế log.sqft_living15
- V biẽ ểu đồ phân tán th hi n phân phể ệ ối của bi n ế log.price theo bi n ế log.sqft_above
Trang 20Hình 13: Code R và kết quả khi v biẽ ểu đồ phân tán th ể hiện phân phố ủa biến i c
log.price theo bi n ế log.sqft_above
- V biẽ ểu đồ phân tán th hi n phân phể ệ ối của bi n ế log.price theo bi n ế log.sqft_living
Trang 2116 | P a g e
Hình 14: Code R và kết quả khi v biẽ ểu đồ phân tán th ể hiện phân phối của biến
log.price theo bi n ế log.sqft_living
Nhận xét: Dựa trên các đồ thị phân tán, ta nh n thậ ấy log.price có quan h tuy n tính ệ ếvới các bi n ế log.sqft_living15, log.sqft_above, log.sqft_living (cụ thể là quan hệ đồng biến) Nhìn vào các đồ thị trên, ta nhận thấy việc chuyển đổi các biến sang dạng log(x)
sẽ hi u quệ ả hơn trong việc phân tích m i quan h tuyố ệ ến tính giữa các biến độ ập với c lbiến ph thu c (giá nhà) ụ ộ
Câu hỏi đặt ra lúc này là m i quan h gi a các bi n v i giá nhà là ng u nhiên hay thố ệ ữ ế ớ ẫ ực
sự có mối quan h tuy n tính gi a các bi n vệ ế ữ ế ới giá nhà Mô hình h i quy tuy n tính s ồ ế ẽgiúp ta kiểm tra điều này thông qua các kho ng tin c y và các phép kiả ậ ểm định Hơn nữa, nó còn cho phép ta ước lượng giá trị của biến phụ thuộc (giá nhà) theo các biến độc lập (số tầng, điều kiện ngôi nhà, diện tích nhà, )
Trang 221.3.4 Xây d ng các mô hình h i quy tuy n tính ự ồ ế
Chúng ta mu n khám phá r ng có nh ng nhân tố ằ ữ ố nào và tác động như thế nào đến giá nhà qu n King ở ậ
(a) Xét mô hình h i quy tuy n tính bao g m bi n log.price là bi n phồ ế ồ ế ế ụ thuộc Biến độc lập: floors, condition, log.sqft_living15, log.sqft_above, log.sqft_living
Mô hình được biểu diễn như sau:
log.price = 𝛽0 + 𝛽1 × log.sqft_living15 + 𝛽2 × floors1.5 + 𝛽3 × floors2 + + 𝛽11 ×
log.sqft_above + 𝛽12× log.sqft_living + εi
Trước khi ước lượng các hệ số βi, ta cần chuyển các biến floors và condition sang dạng factor
Hình 15: Code R và kết quả khi chuy n các bi n ể ế floors và condition sang dạng factor
Ta thực hiện ước lượng các hệ số 𝛽𝑖, i = 0, , 12:
Nhận xét: T kừ ết quả phân tích, ta thu được:
𝛽0
= 5.314428; 𝛽 = 0.462153; 𝛽1 = 0.181243; 𝛽2 = 0.067617, ., 𝛽3 = −0.142451; 11
𝛽 = 0.670249 12
Trang 23(b) Kiểm định các hệ số hồi quy:
Giả thuy t Hế 0: Hệ ố ồi quy không có ý nghĩa thố s h ng kê (𝛽𝑖 = 0)
Giả thuy t Hế 1: Hệ ố ồi quy có ý nghĩa thố s h ng kê (𝛽𝑖≠ 0)
Ta nh n th y Pr(>|t|) c a các h sậ ấ ủ ệ ố ứng v i bi n ớ ế condition2 ớn hơn mức ý nghĩa α = l0.05 nên ta chưa bác bỏ được giả thuyết H0 Do đó hệ số ứng với các biến này không
có ý nghĩa với mô hình hồi quy ta xây dựng Ta có thể cân nhắc loại bỏ biến condition
ra khỏi mô hình
(c) Xét 2 mô hình tuy n tính cùng bao gế ồm biế pricen là bi n ph thuế ụ ộc nhưng:+ Mô hình M1 chứa tất cả các biến còn l i là biạ ến độc lập
+ Mô hình M2 là loại bỏ ế condition ừ bi n t mô hình M1
Xây d ng mô hình m2 loự ại bỏ ế bi n condition t mô hình m1 ừ
Trang 24Hình 17: Code R và kết quả khi xây d ng mô hình h i quy tuy n tính m2 ự ồ ế
So sánh hi u qu c a hai mô hình: ệ ả ủ
Hình 18: code R và kết qu khi so sánh hi u qu c a hai mô hìnhả ệ ả ủ
Giả thuy t H : Hai mô hình hi u qu gi ng nhau ế 0 ệ ả ố
Giả thuy t H : Hai mô hình hi u qu khác nhau ế 1 ệ ả
Ta nh n th y Pr(>F) < 2.2e-16, tậ ấ ức bé hơn mức ý nghĩa α = 0.05 nên ta bác bỏ gi ảthuyết H V0 ậy hai mô hình hi u qu khác nhau M t khác, bi n bệ ả ặ ế ỏ đi là biế condition n
mà trong đó vẫn còn có biến condition2, condition3, condition4, condition5 có ý nghĩa với mô hình, do đó nếu bỏ đi biến có ý nghĩa ra khỏi mô hình sẽ khiến mô hình
tệ hơn Vì vậy ta ch n mô hình 1 là mô hình phù họ ợp nh ất
Trang 2520 | P a g e
𝑖
số đều bé hơn 2e − 16 (ngoài trừ biến condition2 lớn hơn mức ý nghĩa), điều này nói lên r ng ằ ảnh hưởng c a các biủ ến này có ý nghĩa rất cao lên log.price M t khác, h s ặ ệ ốhồi quy 𝛽𝑖 c a m t bi n dủ ộ ế ự báo cũng có thể được xem như ảnh hưởng trung bình lên
biến phụ thuộc price khi tăng một đơn vị của biến dự báo, giả sử rằng các biến dự báo
khác không đổi Cụ thể, 𝛽 = 0.462153 thì khi log c a di n tích trung bình c a 15 ngôi 1 ủ ệ ủnhà gần đó của một ngôi nhà bán ra tăng 1 đơn vị ta có th k v ng ể ỳ ọ log.price tăng lên
0.462153 v mề ặt đơn vị ủa log.price Tương tự đố ớ c i v i các bi n còn l i H s R hi u ế ạ ệ ố 2 ệchỉnh bằng 0.5097 nghĩa là 50.97% sự biến thiên trong log.price được gi i thích bả ởi các biến các biến độ ậc l p
(e) V bi u th sai s h i quy (residuals) và giá tr d báo (fitted values) ẽ đồ thị ể ị ố ồ ị ự
Trang 26Hình 19: Code R và kết quả khi v ẽ đồ thị sai số h i quy (residuals) và giá tr d báo ồ ị ự
(fitted values)
Đồ thị này vẽ các giá tr dự báo v i các giá tr thặng dư (sai số) tương ứng, dùng để ị ớ ịkiểm tra tính tuy n tính c a dế ủ ữ liệu, các sai s có kố ỳ v ng bọ ằng 0 và tính đồng nh t cấ ủa các phương sai sai số Nếu như giả định về tính tuyến tính của dữ liệu không thỏa, ta sẽ quan sát th y rấ ằng các điểm thặng dư (residuals) trên đồ thị ẽ s phân b theo mố ột hình mẫu (pattern) đặc trưng nào đó (ví dụ parabol) Nếu đường màu đỏ trên đồ thị phân tán
là đường thẳng nằm ngang mà không phải là đường cong, thì giả định tính tuyến tính của dữ liệu được thỏa mãn Để kiểm tra giả định phương sai đồng nhất thì các điểm thặng d phự ải phân tán đều nhau xung quanh đường thẳng màu đỏ Để ả đị gi nh các sai
số có kỳ v ng b ng 0 tho mãn ọ ằ ả thì đường màu đỏ phải nằm sát đường residuals = 0 + Đồ thị cho thấy giả định về tính tuyến tính của dữ liệu chưa thực sự thoả mãn + Đồ thị cho ta thấy rằng giả định các sai số có kỳ vọng bằng 0 chưa thoả mãn
Trang 2722 | P a g e
Hình 20: Code R và kết quả khi thực hiện d báo giá nhà t i 2 thu c tính ự ạ ộ
(b) So sánh kho ng tin c y cho 2 giá trả ậ ị dự báo này
Dựa vào k t qu , nh n thế ả ậ ấy độ dài khoảng ước lượng cho giá tr d báo c a thu c tính ị ự ủ ộX1 bé hơn so với độ dài khoảng ước lượng cho giá trị dự báo ở thuộc tính X2 Vậy khoảng ước lượng cho giá trị dự báo ở thuộc tính X1 hợp lý hơn
Trang 282 ANOVA
2.1 Đề bài
Bài tập 3: T p tin Diet.csv (cung c p bậ ấ ởi Đạ ọi h c Sheffield, Anh) chứa thông tin vềmột thử nghiệm về hi u qu c a các chệ ả ủ ế độ ăn kiêng trong việc giảm cân nặng đối v i ớnhững người trưởng thành Một người tham gia sẽ được áp dụng một trong ba chếđộ ăn kiêng khác nhau trong vòng 6 tu n l Cân n ng cầ ễ ặ ủa người tham gia sẽ đượcghi nhận trước và sau khi kết thúc thử nghiệm để đánh giá hiệu quả của từng chế ăn kiêng độChi tiết về b dộ ữ liệu như sau:
• Tổng số người tham gia: 78
• Tổng số biến: 7
• Mô tả các biến:
1 Person = s ố thứ ự ủa ngườ t c i tham gia th nghi m ử ệ
2 gender = gi i tính cớ ủa người tham gia (1 = nam, 0 = n ) ữ
3 Age = tuổi (năm)
4 Height = chi u cao (cm) ề
5 pre.weight = cân nặng trước khi áp dụng chế độ ăn kiêng (kg)
6 Diet = ch ế độ ăn kiêng (3 chế độ khác nhau)
7 weight6weeks = cân n ng sau 6 tuặ ần ăn kiêng
2.2 Cơ sở lý thuyết
2.2.1 Phân tích phương sai một y ếu tố
Phân tích phương sai một yếu tố (One-way ANOVA) là phân tích ảnh hưởng của một yếu
tố nguyên nhân (d ng biạ ến định tính) ảnh hưởng đến m t yộ ếu tố kết quả (d ng bi n ạ ếđịnh lượng) đang nghiên cứu Ta đi vào lý thuyết như sau:
a Trường hợp k tổng thể có phân phối bình thường và phương sai bằng nhau
Trang 2924 | P a g e
Hai giả định đầu tiên để tiến hành phân tích phương sai được mô tả như hình dưới đây,
ba t ng thổ ể đều có phân phối bình thường v i mớ ức độ phân tán tương đối gi ng nhau, ốnhưng ba vị trí chênh lệch của chúng cho thấy ba trị trung bình khác nhau Rõ ràng là nếu th c s có các giá tr cự ự ị ủa 3 t ng th và bi u diổ ể ể ễn được phân ph i cố ủa chúng như hình dưới thì không cần phải làm gì nữa mà kết luận được ngay là bạn bác bỏ H0 hay 3 tổng th này có trể ị trung bình khác nhau:
Nhưng chỉ có mẫu đại diện được quan sát, nên để ểm đị ki nh gi ả thuyết này, ta thực
hi ện các bước sau:
Bước 1: Tính các trung bình m u cẫ ủa các nhóm (xem như đại di n c a các t ng th ) ệ ủ ổ ểTính trung bình mẫu của từng nhóm 𝑥 , 𝑥1 , … , 𝑥2 theo công thức: 𝑘
Trang 30𝑥 =1 ∑ 𝑥𝑖𝑗
𝑛 𝑖
𝑗=1
𝑛𝑖 (𝑖 = 1, 2,3, … , 𝑘) Trung bình của k mẫu:
𝑥 =∑ 𝑛∑ 𝑛𝑘𝑖=1 𝑖𝑥1
𝑖 𝑘 𝑖=1
Bước 2: Tính các t ng cổ ác chênh lệch bình phương ( hay gọi t t là tắ ổng bình phương)
cộng các chênh lệch bình phương giữa các giá tr quan sát v i trung bình mị ớ ẫu c a t ng ủ ừnhóm, rồi sau đó lại tính t ng c ng kổ ộ ết quả tát c các nhóm l ả ại
Tổng các chênh lệch bình phương của từng nhóm
T ổng các chênh lệch bình phương giữa các nhóm (SSG) được tính bằng cách cộng các chênh lệch đượ ấy bình phương giữc l a các trung bình m u c a t ng nhóm v i trung ẫ ủ ừ ớbình chung c a k nhóm: ủ 𝑆𝑆𝐺 = ∑ ∑ (𝑥 − 𝑥)𝑘𝑖=1 𝑛𝑗=1𝑖 𝑖𝑗
Tổng các chênh lệch bình phương toàn bộ SST được tính b ng cách c ng t ng các ằ ộ ổchênh lệch đã lấy bình phương giữa từng giá trị quan sát của toàn bộ mẫu nghiên cứu (xij) với trung bình chung toàn bộ: 𝑆𝑆𝑇 = ∑ ∑ (𝑛𝑖 𝑥𝑖𝑗− 𝑥)2
𝑗=1 𝑘 𝑖=1
Vậy SST = SSW + SSG
Bước 3: Tính các phương sai (là trung bình của các chênh lệch bình phương)
Tính phương sai trong nội bộ nhóm (MSW) bằng công thức: 𝑀𝑆𝑊 =𝑆𝑆𝑊𝑛−𝑘 MSW là ước lượng phần biến thiên của yếu tố kết quả do các yếu tố khác gây ra (hay gi i thích) ả
Trang 3126 | P a g e
𝐹(𝑘 − 1; 𝑛 − 𝑘); 𝛼 là giá tr gi i h n tra t b ng tra s 8 vị ớ ạ ừ ả ố ới bậ ực t do tra theo c t s k-ộ ố
1 và hàng n-k, nhớ chọn b ng có mả ức ý nghĩa phù hợp
b Ki ểm tra các giả đị nh c ủa phân tích phương sai
Để khảo sát giả nh bằng nhau cđị ủa phương sai, biểu đồ ộp và râu cũng cho cả h m nhận ban đầu nhanh chóng:
Một phương pháp kiểm định tham số chắc chắn hơn cho giả định phương sai bằng nhau là kiểm định Levene v ề phương sai của các t ng th : ổ ể
Giả thuyết 𝐻0: 𝜎1 = 𝜎2 = ⋯ = 𝜎𝑘; 𝐻1: “Không phải tất cả các phương sai đều bằng nhau”
Trang 32Để quyết định chấp nhận hay bác b ỏ𝐻0 ta tính toán giá tr kiị ểm định F theo công th c: ứ
𝐹 =𝑆𝑚𝑎𝑥2
𝑆𝑚𝑖𝑛2 (𝑆𝑚𝑎𝑥2 là phương sai lớn nhất trong các nhóm nghiên cứu; 𝑆𝑚𝑖𝑛2 là phương sai
nhỏ nhất trong các nhóm nghiên cứu)
Giá trị F tính được được đem so sánh với giá trị 𝐹(𝑘; 𝑑𝑓); 𝛼 tra đượ ừ ảc t b ng phân phối Hartley Fmax (là b ng s 5 trong ph n phả ố ầ ụ lục) Trong đó k là số nhóm so sánh, bậc tự do 𝑑𝑓 tính theo công thức 𝑑𝑓 = 𝑛 − 1
Quy tắc quyết định: 𝐹𝑚𝑎𝑥> 𝐹 𝑘;( 𝑑𝑓); 𝛼 thì ta bác bỏ 𝐻0 cho rằng phương sai bằng nhau và ngược lại
c Phân tích sâu ANOVA
Sau khi phân tích và k t luế ận, có hai trường h p x y ra là ch p nh n gi thuyợ ả ấ ậ ả ết 𝐻0 ho c ặbác bỏ giả thuyết 𝐻0 N u ch p nh n gi thuyế ấ ậ ả ết 𝐻0 thì phân tích k t thúc N u bác b ế ế ỏgiả thuyết 𝐻0, ta k t lu n trung bình c a các t ng th không b ng nhau Vì vế ậ ủ ổ ể ằ ậy, ấn để vtiếp theo là phân tích sâu hơn để xác định nhóm (t ng th ) nào khác nhóm nào, nhóm ổ ểnào có trung bình lớn hơn hay nhỏ hơn
Phương pháp thông dụng để phân tích sâu ANOVA đó là phương pháp Tukey - kiểm định HSD (Honestly Significant Differences) Nội dung: so sánh từng cặp các trung bình nhóm mở ức ý nghĩa α nào đó cho tấ ảt c các c p kiặ ểm định có thể để phát hi n ra ệnhững nhóm khác nhau Công thức:
𝐶𝑘 =2! 𝑘 − 2(𝑘! )! =𝑘(𝑘 − 1)2Các giả thuyết cần kiểm định sẽ là:
Trang 3328 | P a g e
2.2.2 Phân tích phương sai hai yếu tố
Phân tích phương sai hai yếu tố (TWO-Way ANOVA) sẽ giúp chúng ta đưa thêm yếu
tố này vào trong phân tích, làm cho kết quả nghiên cứu cũng có giá trị
a Trường hợp có một quan sát mẫu trong một ô: nếu chúng ra ch có 1 m u quan ỉ ẫsát trong 1 ô thì t ng sổ ố đơn vị ẫ m u quan sát là 𝑛 = 𝐾 × 𝐻 (sắ ếp x p m u nghiên cẫ ứu
là K nhóm và H nhóm) Dạng t ng quát cổ ủa bảng này như sau:
Trang 34Bước 2: Tính tổng các chênh lệch bình phương
Tổng các chênh lệch bình phương toàn bộ:
SST = SSG + SSB + SSE
𝑆𝑆𝑇 = ∑ ∑(𝑥𝑖𝑗− 𝑥)2
𝐻 𝑗=1
𝐾 𝑖=1
c ủa t ất cả các nguyên nhân
Tổng các chênh lệch bình phương giữa các nhóm:
𝑆𝑆𝐺 = 𝐻 𝑥∑( 𝑖 − 𝑥)2 𝐾 𝑖=1
hưởng của yếu tố nguyên nhân thứ nhất, yếu tố dùng để phân nhóm ở cột
T ổng các chênh lệch bình phương giữa các khố : i
𝑆𝑆𝐵 = 𝐾 𝑥∑( 𝑗 − 𝑥)2
𝐻 𝑗=1
hưởng của yếu tố nguyên nhân thứ hai, yếu tố dùng để phân nhóm ở dòng
Trang 3530 | P a g e
Phương sai giữa các khối: 𝑀𝑆𝐵 =𝐻−1
Phương sai dư: 𝑀𝑆𝐸 =(𝐾−1 𝐻−1)𝑆𝑆𝐸)(
Bước 4: Kiểm định giả thuyết về ảnh hưởng của yếu tố nguyên nhân th nh t (c t) và ứ ấ ộyếu tố nguyên nhân thứ hai (dòng) đến y u t kế ố ết quả ằ b ng các tỉ s ố F:
𝐹1=𝑀𝑆𝐺𝑀𝑆𝐸
𝐹2=𝑀𝑆𝐵𝑀𝑆𝐸
Bước 5: Có 2 trường hợp trong quyết định bác bỏ giả thuyết 𝐻0
+ Đối với 𝐹1 ở mức ý nghĩa α, giả thuyết 𝐻0 cho r ng trung bình c a K t ng th theo ằ ủ ổ ểyếu tố nguyên nhân th nhứ ất (c t) bộ ằng nhau bị bác b khi: ỏ 𝐹1> 𝐹𝐾−1, 𝐾−1 𝐻−1 ,𝛼 ( )( )
+ Đối với 𝐹2 ở mức ý nghĩa α, giả thuyết 𝐻0 cho r ng trung bình c a H t ng th theo ằ ủ ổ ểyếu tố nguyên nhân th hai (dòng) b ng nhau bứ ằ ị bác b khi: ỏ 𝐹2> 𝐹𝐻−1, 𝐾−1 𝐻−1 ,𝛼 ( )( )
Trong đó:
- 𝐹𝐾−1, 𝐾−1 𝐻−1 ,𝛼 ( )( ) là giá trị tra trong bảng phân phối F với K 1 bậc tự do ở- tử số và 1)(H-1) bậc tự do ở mẫu số
Trang 36(K 𝐹𝐻−1, 𝐾−1 𝐻−1 ,𝛼 ( )( ) là giá trị tra trong bảng phân phối F với H 1 bậc tự do ở tử số và (K-
-1)(H-1) bậc tự do ở mẫu số
b Trường hợp có nhiều quan sát trong một ô
Để tăng tính chính xác khi kết luận về ảnh hưởng của hai yếu tố nguyên nhân đến yếu
tố k t qu c a m u cho mế ả ủ ẫ ột t ng thổ ể, ta tăng có mẫu quan sát trong điều ki n cho phép ệGọi L là s quan sát trong m t ô, ta có d ng t ng quát c a L quan sát trong m t s ô ố ộ ạ ổ ủ ộ ốnhư sau:
𝑥𝑖𝑗
=∑ 𝑥𝐿𝑠=1𝐿 𝑖𝑗𝑠
Trung bình chung của toàn bộ mẫu quan sát:
Trang 3732 | P a g e
𝑆𝑆𝐺 = 𝐻𝐿 ∑(𝑥𝑖 − 𝑥)2
𝐾 𝑖=1
Tổng các chênh lệch bình phương giữa các khối:
𝑆𝑆𝐵 = 𝐾𝐿 ∑(𝑥𝑗 − 𝑥)2
𝐻 𝑗=1
Tổng các chênh lệch bình phương giữa các ô:
𝑆𝑆𝐼 = 𝐿∑ ∑(𝑥𝑖𝑗 − 𝑥 − 𝑥𝑖 + 𝑥)𝑗 2
𝐻 𝑗=1
𝐾 𝑖=1
Tổng các chênh lệch bình phương các phần dư:
𝑆𝑆𝐸 = ∑ ∑ ∑(𝑥𝑖𝑗𝑠 − 𝑥)𝑖𝑗 2
𝐿 𝑠=1
= 𝑆𝑆𝑇 𝑆𝑆𝐺 𝑆𝑆𝐵 𝑆𝑆𝐼− − −
𝐻 𝑗=1
𝐾 𝑖=1
Bước 3: Tính các phương sai
Phương sai giữa các nhóm: 𝑀𝑆𝐺 =𝐾−1𝑆𝑆𝐺
Phương sai giữa các khối: 𝑀𝑆𝐵 =𝑆𝑆𝐵𝐻−1
Trang 38Phương sai giữa các ô: 𝑀𝑆𝐼 =(𝐾−1 𝐻−1𝑆𝑆𝐼)( )
Phương sai dư: 𝑀𝑆𝐸 =𝐾×𝐻×(𝐿−1)𝑆𝑆𝐸
Bước 4: Kiểm định giả thuyết về ảnh hưởng của yếu tố nguyên nhân thứ nhất (cột), yếu t nguyên nhân thố ứ hai (dòng), tương tác giữa hai y u tế ố đến yếu tố kết quả bằng các tỉ s ố F:
𝐹1=𝑀𝑆𝐺𝑀𝑆𝐸
𝐹2=𝑀𝑆𝐵𝑀𝑆𝐸
𝐹3=𝑀𝑆𝐸𝑀𝑆𝐼
Bước 5: Nguyên t c quyắ ết định trong ANOVA hai y u t : ế ố
+ Đố ới v i 𝐹1, mở ức ý nghĩa 𝛼 giả thuyết 𝐻, 0 cho rằng trung bình của K tổng thể theo
yếu tố nguyên nhân thứ nhất (cột) bằng nhau bị bác bỏ khi: 𝐹1> 𝐹𝐾−1, 𝐾𝐻 (𝐿−1),𝛼
+ Đối với 𝐹2, mở ức ý nghĩa , giả thuyết 𝛼 𝐻0 cho rằng trung bình của H tổng thể theo
yếu tố nguyên nhân thứ hai (dòng) bằng nhau bị bác bỏ khi: 𝐹2> 𝐹𝐻−1, 𝐾𝐻 (𝐿−1),𝛼
+ Đối với 𝐹3, mở ức ý nghĩa , giả thuyết 𝛼 𝐻0 cho rằng không có tác động qua lại giữa
yếu tố thứ nhất (cột) và yếu tố thứ hai (dòng) bằng nhau bị bác bỏ khi: