1 TRƯỜNG ĐẠI HỌC BÁCH KHOA THÀNH PHỐ HỒ CHÍ MINHBỘMÔNTOÁNỨNGDỤNG KHOAKỸTHUẬTHÓA HỌC oOo BÁO CÁO BÀI TẬP LỚNXÁC SUẤT THỐNG KÊĐỀTÀI 1 GVHD NGUYỄN KIỀUDUNG THỰC HIỆN NHÓM HH07SINHVIÊNTHỰCHIỆN 1) LêTrìnhK[.]
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA THÀNH PHỐ HỒ CHÍ
MINHBỘMÔNTOÁNỨNGDỤNG KHOAKỸTHUẬTHÓA HỌC
……….oOo………
BÁO CÁO BÀI TẬP LỚNXÁC SUẤTTHỐNG KÊĐỀTÀI 1GVHD:NGUYỄN KIỀUDUNG THỰC HIỆN:NHÓM
Trang 2MỤC LỤC
TÓMTẮT 4
LỜICẢMƠN 5
ĐỀBÀI 6
CHƯƠNG1:CƠSỞLÝTHUYẾT 8
I Phântíchhồiquy 8
1 Địnhnghĩa 8
2 Bảnchất 8
3 Ýnghĩa của hồiquytuyếntính 9
II Môhìnhhồiquybội 9
CHƯƠNG2:XỬ LÝSỐLIỆU 14
1 Đọcdữliệu(ImportData) 14
2 Làmsạchdữliệu(Data cleaning) 14
3 Làmrõdữliệu(DataVisualization) 16
a Chuyểnđổibiến 16
b Thốngkêmôtả 18
4 Xâydựngmôhìnhhồiquytuyếntính 23
5 Thựchiệndựbáochogiá nhàquậnKing 27
CHƯƠNG3:PHÂNTÍCHSỐLIỆU 29
1 Môtả dữliệu 29
2 Phântíchdữliệu 29
2.1 Đọcdữliệu 29
Trang 32.2 Chọnbiến 30
2.3 Làmsạchdữliệu 30
2.4 Làmrõdữliệu 31
2.5 Xâydựngcác môhìnhhồiquytuyếntính 34
2.6 Dự đoán 37
TÀILIỆUTHAMKHẢO 38
Trang 4Ở hoạt động 1, bản báo cáo trình bày việc áp dụng phương pháp phân tíchhồiquy tuyến tính bội vào việc phân tích mẫu dữ liệu là tập tin "gia_nha.csv"chứathông tin về giá bán ra thị trường (đơn vị đô la) của 21613 ngôi nhà ởquậnKing nước Mỹ trong khoảng thời gian từ tháng 5/2014 đến 5/2015 Từ kếtquảthu được rút ra những nhận xét về tác động của các thuộc tính đó đối vớisựthay đổi về giá bán ra của thị trường Để thu được kết quả phân tích, nhómđãsử dụng các hàm cơ bản của ngôn ngữ lập trình R và vận dụng linh hoạtgiảiquyết từng nhiệm vụ cụ thể đặt ra Kết quả được trình bày dưới dạng bảngsốliệu tính toán hoặc đồ thị cung cấp một cái nhìn trực quan về khảo sát nhằmsosánh, đối chiếu giữa ảnh hưởng của các điều kiện của ngôi nhà (số tầng,diệntích ngôi nhà, khuôn viên, phong cảnh xung quanh, ) lên giá nhà bán rathịtrường Trong bài báo cáo này, trước hết nhóm sẽ nêu cơ sở lý thuyết vàtínhtoán các giá trị thống kê mô tả để có một cái nhìn sơ lược, sau đó áp dụngcácphươngphápphântíchhồiquytuyếntínhbội
Ở hoạt đông 2, bản báo cáo trình bày việc áp dụng phương pháp phân tíchhồiquy tuyến tính vào việc phân tích, làm rõ dữ liệu và mô hình dữ liệu về cácyếutốảnhhưởngchấtlượngrượuvangđỏ
Trang 5Xác suất thống kê là một môn học đại cương có tầm quan trọng đối vớisinhviên nói chung và sinh viên nhóm ngành Khoa học Kỹ thuật nói riêng Dođó,việc dành cho môn học này một khối lượng thời gian nhất định và thựchành làđiều tất yếu để giúp sinh viên có cơ sở vững chắc về kiến thức và kỹnăng cầnthiết cho các môn học chuyên ngành cũng như công việc sau này Sựphát triểnvà ra đời của toán tin nói chung và phần mềm R Studio, ngôn ngữ Rnói riêngđã hỗ trợ rất nhiều trongq u á t r ì n h h ọ c t ậ p v à n g h i ê n
c ứ u b ộ m ô n X á c s u ấ t thống kê Việc phân tích và xử lý số liệu đã
caohơn.V ìv ậ y mà việct ì m hi ểu R S t u d i o v à ngônn g ữ R t r o n g v iệc t h ự c h
à n h môn học Xác suất thống kê rất quan trọng và có tính cấp thiết Ở bài tập lớnnày, nhóm thực hiện nộidung: Ứng dụng hồi quy tuyến tính bội để xử lývàphântíchdữliệu.Trongsuốtquátrìnhthựchiệnbàitập,nhómđãnhậnđượcrấtnhiềusự quantâm,ủnghộvàgiúpđỡtậntìnhcủathầycôvàbạnbè
Ngoài ra, nhóm cũng xin gửi lời tri ân chân thành nhất đến cô NguyễnKiềuDung – giảng viên giảng dạy bộ môn Xác suất thống kê của nhóm và làngườihướng dẫn cho đề tài này Nhờ sự hết lòng chỉ bảo mà nhóm đã hoànthành
bàitậpđúngtiếnđộvàgiảiquyếttốtnhữngvướngmắcgặpphải.Sựhướngdẫncủa cô đã là kim chỉ nam cho mọi hành động của nhóm và phát huy được tối đamối quan hệ hỗ trợ giữa cô và trò trong môitrường giáo dục Lời cuối, xin mộtlần nữa gửi lời biết ơn sâu sắc đến các cá nhân, các thầy
cô đã dành thời gianchỉ dẫn cho nhóm Đây chính là niềm tin, là động lực tolớn để nhóm có thểhoànthànhđềtàinày
Hoạtđộng1:
ĐỀBÀI
Tập tin "gia_nha.csv" chứa thông tin về giá bán ra thị trường (đơn vị đô la) của21613 ngôi nhà ở quận King nước Mỹ trong khoảng thời gian từ tháng 5/2014đến 5/2015 Bên cạnh giá nhà, dữ liệu còn bao gồm các thuộc tính mô tả chấtlượng ngôi nhà Dữ liệu gốc được cung cấp
Trang 6• view: Đánhgiácảnhquanxung quanhnhàtheo mứcđộtừthấpđếncao: 0-4.
• Sinh viên tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình
Khuyếnkhích sinh viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảosát, dựán, trong chuyênngànhcủa mình.Ngoàirasinhviêncóthểtựtìmkiếmdữ
Trang 7liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệu cung cấp trong tậptin"kho_du_lieu_BTL_xstk.xlsx".
• Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phântích dữ liệu của mình, nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu (datavisualization)và
môhìnhdữliệu(modelfitting)
Trang 8Ý tưởng chung như sau: giả sử ta có một biến ngẫu nhiên Y , mà ta muốnướclượngxấpxỉd ư ớ i d ạ n g m ộ t h à m s ố F ( X1, ,
XS)c ủ a c á c b i ế n n g ẫ u n h i ê n X1, ,XSkhác( c o n t r o l v a r i a b l e s ) , h a y c ò
n g ọ i l à b i ế n t ự d o , t r o n g k h i Y đ ư ợ c gọil àbiếnphụth uộc ,tứcl à khita cócác g
i á t r ị củaX1, ,XS,thìt am u ố n từ đó ước lượng được giá trị của Y Hàm số F này có thể phụ thuộc vào mộtsốthamsốβ=(β1, ,βS)nàođó.TacóthểviếtYnhưsau:
Y=F( X1, ,XS) +ϵtrong đóϵlà phần sai số (cũng là một biến ngẫu nhiên).Ta muốn chọn hàm Fmộtcách thích hợp nhất có thể, và các tham sốβ, sao cho sai sốϵl à n h ỏ
n h ấ tcóthể
Đạilượng đượcgọilàsaisốchuẩn(standarderror)củamôhìnhhồiqui.Môhìnhnàomàcósaisốchuẩncàngthấpthìđượccoilàcàngchínhxác
2 Bảnchất:
*BảnchấtcủabiếnphụthuộcY
Y nói chung được giả định là một biến ngẫu nhiên, và có thể được đolườngbằngmộttrongbốnthướcđosauđây:thangđotỷlệ,thangđokhoảng,thangđothứbậc,và thangđodanhnghĩa
Thang đo tỷ lệ (ratio scale): Một thang đo tỷ lệ có 3 tính chất: (1) tỷ số củahaibiến, (2) khoảng cách giữa hai biến, và (3) xếp hạng các biến Với thang đotỷlệ, ví dụ Y có hai giá trị,1và2thì tỷ số1/2và khoảng cách (2-1)làcácđạilượngcóýnghĩa;và cóthểsosánhhoặc xếpthứ tự
Thang đo khoảng (interval scale): Thang đo khoảng không thỏa mãn tínhchấtđầutiêncủa cácbiếncóthangđotỷlệ
Thang đo thứ bậc (ordinal scale): Các biến chỉ thỏa mãn tính chất xếp hạngcủathang đo tỷ lệ, chứ việc lập tỷ số hay tính khoảng cách giữa hai giá trị không cóýnghĩa
Thang đo danh nghĩa (nominal scale): Các biến thuộc nhóm này khôngthỏamãn bất kỳ tính chất nào của các biến theo thang đo tỷ lệ (như giới tính,tôngiáo, )
Trang 9Ta cũng giả định là hạng nhiễu có phân phối chuẩn với trung bình bằng 0vàphươngsaikhôngđổilà2:~N(0;2)
* Bảnchấtcủathamsốhồiquy
Thams ố h ồ i q u y ( t ổ n g t h ể ) , βS,l à n h ữ n g c o n s ố c ố đ ị n h ( f i x e d n u m b
e r s ) v à khôngngẫunhiên(notrandom),mặcdùmìnhkhôngthểbiếtgiátrịthựccủacácBslà baonhiêu
3 Ýnghĩa củahồiquytuyếntính:
Thuật ngữ tuyến tính (linear) trong mô hình hồi quy tuyến tính nghĩa làtuyếntính ở các hệ số hồi quy (linearity in the regression coefficients),βS, vàkhôngphảituyếntínhởcác biếnYvàX
Trang 10 Hệs ố j>0 : k h i đ ó m ố i q u a n h ệ g i ữ a Y v à Xjlà t h u ậ n c h i ề u, nghĩa là khi Xjtăng (hoặc giảm) trong điều kiện các biến độc lập kháckhôngđổithìYcũngsẽ tăng(hoặc giảm).
Hệ sốj< 0: khi đó mối quan hệ giữa Y và Xjlà ngượcchiều,nghĩa là khi Xjtăng (hoặc giảm) trong điều kiện các biến độc lập kháckhôngđổithìYsẽgiảm(hoặctăng)
Hệ sốj= 0: có thể cho rằng giữa Y và Xjkhông có tương quanvớinhau, cụ thể là Y có thể không phụ thuộc vào Xjhay là Xjk h ô n g t h ự c
s ự ảnhhưởngtớiY
Dựa vào kết quả ước lượng với một mẫu cụ thể, ta có thể đánh giá đượcmốiquan hệ giữa biến phụ thuộc và các biến độc lập trong mô hình một cáchtươngđối
Dù mô hình có nhiều biến độc lập nhưng vẫn tồn tại những yếu tố tác độngđếnbiến phụ thuộc nhưng không đưa vào mô hình vì nhiều lý do (không có sốliệuhoặckhôngmuốnđưavào).Dođótrongmôhìnhvẫntồntạisaisốngẫunhiên
ại diện cho các yếu tố khác ngoài các biến X
đi nữa, thì người ta giả định rằng ảnh hưởng trung j(j = 2,3,,k) có tác độngđếnYnhưngkhôngđưavàomôhìnhnhưlàbiếnsố
2 Các giảthiếtcủamôhình hồi quybội
Giả thiết2:Kỳvọngcủasaisốngẫunhiêntại mỗigiá trị(X2i,X3i,,Xki)bằng0:
3 Phươngp h á p ư ớ c l ư ợ n g m ô h ì n h h ồ i q u y b ộ i –
P h ư ơ n g p h á p b ì n h phươngnhỏnhất(OLS)
Sau khi xây dựng và tìm hiểu ý nghĩa của các hệ số hồi quy trong mô hình,vấnđề tiếp theo ta quan tâm là làm sao để có được các ước lượng đáng tin cậychocáchệsốjnày.Cũngnhưvớimôhìnhhồiquyhaibiến,tasẽsửdụngphương
Trang 11Với điều kiện số quan sát trong mẫu lớn hơn số hệ số hồi quy cần ước lượngvàgiả thiết 4 được thỏa mãn thì hệ phương trình trên sẽ có nghiệm duy nhất.Việcgiảih ệ p h ư ơ n g t r ì n h k h á d ễ d à n g q u a c á c p h ầ m m ề m t h ố n g k ê n ế u s
ố b i ế n
Trang 12không quá lớn Các giá trị ước lượng bằng phương pháp OLS dựa trên sốliệumẫucụthểđượcxemnhưlàcácướclượngđiểmcủacáchệsốtrongtổngthể.
Vớimôhìnhhồiquybội(hồiquykbiếnvớik>2),việcgiảihệphươngtrìnhđểtìmcácướclượnghệsố^j(j=1,2,3…k)sẽtrởnênkhókhănhơnsovớimô hình hồi quy 2
biến do đó ta sẽ có được các kết quả này với sự giúp của cácphầnmềmthốngkê
Từ kết quả ước lượng từ phương pháp OLS, ta có thể khai thác các thông tinđểđánhg i á t á c đ ộ n g c ủ a b i ế n đ ộ c l ậ p đ ố i v ớ i s ự t h a y đ ổ i c ủ a b i ế n p h ụ t h
u ộ c thôngqua ýnghĩa các hệ sốhồiquy
Khi các giả thiết từ 1 đến 4 thỏa mãn thì các ước lượng thu được từphươngpháp OLS là ước lượng tuyến tính, không chệch và có phương sai nhỏnhấttrong lớp các ước lượng tuyến tính không chệch Hay nói một cách khác,nếugiả thiết từ 1 đến 4 được thỏa mãn thì ước lượng OLS là ước lượng tốtnhấttronglớpcác ước lượngtuyếntínhkhôngchệch
4 Đánh giá mứcđộphùhợpcủamôhình hồi quybội
Khi đánh giá một mô hình dựa trên số liệu mẫu, nếu chỉ quan tâm đến cácướclượng hệ số và độ lệch chuẩn của nó thì chưa đầy đủ Có một con số cũng
gópphầnkhôngnhỏkhiđánhgiá chấtlượngmôhìnhđólàhệ sốxác định.
Sau khi ước lượng được mô hình hồi quy trong một khoảng tin cậy, tamuốnbiết hàm hồi quy mẫu phù hợp với số liệu mẫu đến mức nào Có thể đánhgiáđiềuđóqua hệ sốxác địnhbội.KýhiệuR2
Cáchxácđịnhhệ sốxácđịnhbội:
Tacó:
TSS (totalsum ofsquare):Tổng bình phươngđộ lệchtoànphần
ESS (Explained sum of square): Tổng bình phương độ lệch phần hồi
quyRSS(Residualsumofsquare):Tổngbìnhphươngphầndư
TSS=ESS+RSS
Khiđóhệsốxácđịnhbộicủamôhìnhđượcxácđịnhbởicôngthứcsau:
R2=×100%= (1-)×100%
Trang 13Do các thành phầnTSS,ESS,RSSđều không âm, nên từ biểu thức trên có
thểthấy0≤R2≤1
Giá trị R2gắn liền với mẫu do đó nó đo sự phù hợp của mô hình (hàm hồiquy)với số liệu mẫu Ta kỳ vọng rằng nếu mô hình có độ phù hợp cao với sốliệumẫuthìnócũngphùhợptrongtổngthể
Ýnghĩacủahệsốxácđịnhbội
Vớimôhìnhhồiquykbiến,R2cóýnghĩanhư sau:
R2là tỷ lệ (hay tỷ lệ phần trăm) sự thay đổi của biến phụ thuộc được giảithíchbởicác biếnđộc lậptrongmôhình
Vớiđiềukiện0≤R2≤1,tacóhaitrườnghợpđặcbiệtđólà:
R2=1nghĩalà100%sựthayđổicủabiếnphụthuộcđượcgiảithíchbởicácbiếnđộc lậptrongmôhình
R2=0nghĩalàcácbiếnđộclậpkhônggiảithíchđượcmộtchútnàođốivớisự thayđổicủa biếnphụthuộc
Rõràng,trongthựctế,khixemxétcácmốiquanhệgiữacácbiếnthôngquacácmôhìnhhồiquythìR2thườngnằmtrongkhoảng(0,1)nhiềuhơn
Một tính chất quan trọng của R2là nó sẽ tăng khi ta đưa thêm biến độc lập
vàomô hình Dễ dàng thấy rằngTSSkhông phụ thuộc vào số biến giải thích trongmô hình nhưngRSSlại giảm Do đó, nếu tăng số biến biến độc lập trong
môhình thì R2cũng tăng Như vậy, việc đưa thêm một biến số bất kỳ vào môhìnhnóichungsẽlàmgiatăngR2,khôngkểnócógiúpgiảithíchthêmchobiếnphụ thuộc hay không Điều này ngụ ý rằng R2chưa phải là thước đo tốt khimuốnsosánhcácmôhìnhvớisốbiếnkhácnhau
Để giải quyết vấn đề thiếu sót này, ta xem xét khái niệm R2hiệu chỉnh, kýhiệulà̅2
cụthểmàthựchiện tínhtoánsaocho phùhợp
Trang 14CHƯƠNG 2: XỬLÝSỐLIỆU
1 Đọcdữ liệu (Import Data):
house_price.csvKhai báo thư mục chứa tệp tin, dùng
Trang 16Từ kết quả R, ta thấy 20 hàng của cột Price có dữ liệu khuyết ở các hàng 26,54,151, …Vì số lượng dữ liệu khuyết là rất ít so với tổng số hàng dữ liệu (20 hàngtrong tổng số 21613 hàng)nên ta có thể bỏ qua dữ liệu khuyết này Ta có thểdùnglệnhdướiđâyđể xóa cáchàngchứa dữliệukhuyết
newDT<-na.omit(newDT)
TathấyRđãxóahàng 26,cũngnhưcáchàngphía dướichứadữ liệukhuyết
3 Làmrõdữliệu(Data Visualization)
a Chuyểnđổibiến:
Trang 17Nhìnv à o b ả n g s ố l i ệ u , t a t h ấ y c ó 2 l o ạ i b i ế n c ầ n đ ư ợ c p h â n t í c h g ồ m : b i
ế n phânloạivà biếnliêntục
Biến phânloạigồm:floors,condition, view
Biến liêntụcgồm:price, sqft_above,sqft_living, sqft_basement
Trước khi chúng ta làm rõ dữ liệu, chúng ta cần chuyển đổi các biến liên tụctrởthànhdạnglog(lấylogcácgiátrị)vàtừsaukhilấylog,tấtcảmọitínhtoánđềudựa trêngiá trịlogcủa các biến
Tuy nhiên, vì dữ liệu cột sqft_basement có giá trị 0, khi lấy log sẽ trở thành INF vì vậy trước khi lấy log chúng ta cần chuyển các giá trị 0 trongcộtsqft_basement thành giá trị 1 Để việc lấy log không bị lỗi và ta vẫn nhậnđượcgiátrịsauloglà giá trị0
-Để chuyển cácgiá trị 0 trongcộtsqft_basement thành giá trị 1,t a d ù n g
Trang 18Saukhichuyểngiátrị0thành1,chúngtacầnphảichuyểncộtdữliệusqft_basementđang ở dạng vecto trở thànhd ạ n g s ố v à l ấ y l o g c á c g i á t r ị
Trang 19Sử dụng lệnhapplylên các cột dữ liệu là biến liên tục với các hàm tính
trungbình (mean), trung vị (median), độ lệch chuẩn (sd), giá trị nhỏ nhất (min)
Trang 21Đối
vớibiếnliêntục,chúngtacòncóthểvẽbiểuđồquansáttươngquantuyếntínhgiữacác dữliệu,ta dùnglệnh
pairs(~price+sqft_living+sqft_above+sqft_basement,newDT,col="cyan4")
Trang 22Và cuối cùng, chúng ta vẽ phân phối của giá trị log_price theo các biếnphânloại floors và condition Cụ thể, chúng ta sẽ biết được đồ thị mô tả log_pricetheotừngfloorsvà conditionsboxplot(newDT$price~newDT$floors,xlab="Number of floors",
ylab="price",col="forestgreen")
boxplot(newDT$price~newDT$condition,xlab="Conditionlevels",ylab="Price",col="darkturquoise")
Hàmboxplot()vớicácbiếnchínhtươngtựnhưhàmhist()
Trang 24giả thiếtmức ýnghĩa 5% chúngtađặtgiảthiết
H0: các hệ số hồi quy ứng với các biến không có ý nghĩa thống
kêH1:cáchệsốhồiquyứngvớicác biếncóýnghĩa thốngkê
Đểnhậnxét,chúngtaquansátcộtPr(>|t|)
Trang 25Quan sát cột Pr: ứng với các biến floors2, condition2, condition3 có giá trị Prlớn hơn mức ý nghĩa 5% Nên đối với các biến này, ta chấp nhận giả thiết H0.Do đó các hệ số ứng với các biến này không có ý nghĩa thống kê => có thểloạibỏkhỏimôhình
Các biến còn lại đều có Pr nhỏ hơn mức ý nghĩa nên ta có thể bác bỏ H0, chấpnhận H1 tức là hệ số hồi quy ứng với các biến này có ý nghĩa trong thống kê.Dođó,khôngthể loạicác biếnnàyra khỏimôhình
Đặcbiệt,cácbiếncógiá trịPrlà<2e-16=10-16làrấtnhỏsovới mứcýnghĩa5% Do đó, các biến này có ảnh hưởng khá lớn đến biến phụ thuộc của chúngta–biếnprice
Chúng ta xét hai mô hình hồi quy tuyến tính là DT1 và DT2 như
Trang 26Vì giá trị Pr(> F) << 0,05 nên ta có thể bác bỏ giả thiết H0 và chấp nhận
giảthiết H1 Tức là hai mô hình hiệu quả khác nhau Quan sát từ kết quả DT1, tathấy biến condition vẫn còn biến condition5 ảnh hưởng đến mô hình Do đó khita bỏ hoàn toàn biến condition khỏi mô hình sẽ khiến mô hình tệ hơn Vì vậydựa trên kết quả anova và lậpluận từ biến condition chúng ta có thể rút ra
nhậnxétmôhìnhDT1hợplýhơnmôhìnhDT2
Tương tự như vậy, từ mô hình hồi quy DT1, ta thấy tất cả các biến floors (từfloors1.5 đến floors3.5) đều có Pr(>F) << 0,05 Nên biến floors có ảnh hưởnglớn đến biếnphụ thuộccủachúngta,vìvậy
giảsửnếucómôhìnhDT3(loạibỏbiếnfloors)thìmôhìnhDT3nàyvẫnsẽkhônghiệuquảbằngmô hìnhDT1
Xét mô hình DT4 (bỏ cả hai biến floors và condition) như vậy trong số các biếnchúng ta bỏ, có 2 biến mà hệ số của nó có ý nghĩa thống kê (có ảnh hưởng đếnbiến phụ thuộc price) là: biến floors (từ floors1.5 đến floors3.5) và biếncondition5 Do đó mô hình DT4không chỉ không hiệu quả bằng mô hình