Nghiên cứu và xây dựng ứng dụng phân tích dữ liệu kinh doanh thiết bị điện tử

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮTTT Ký hiệu Tiếng Anh Giải thích theo tiếng Việt 01 ARFF Attribute - relation file Định dạng tập tin thuộc tính 02 CDA Confirmatory data analysis Phân

Trang 1

NINH HOÀI ANH

NGHIÊN CỨU VÀ XÂY DỰNG ỨNG DỤNG

PHÂN TÍCH DỮ LIỆU KINH DOANH THIẾT BỊ ĐIỆN TỬ

Ngành: Công nghệ thông tin

Chuyên ngành: Kỹ thuật phần mềm

Mã số: 60480103

LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Nguyễn Hải Châu

Hà Nội - 2017

Trang 2

Lời cam đoan 3

Danh mục các ký hiệu và chữ viết tắt 4

Danh mục các hình vẽ và đồ thị 5

Danh mục các bảng 6

MỞ ĐẦU 7

CHƯƠNG 1 ĐẶT VẤN ĐỀ 10

1.1 Bài toán phân tích dữ liệu 10

1.2 Lựa chọn miền ứng dụng 11

1.3 Phương pháp và công cụ 11

1.3.1 Lựa chọn phương pháp 11

1.3.2 Lựa chọn công cụ 12

CHƯƠNG 2 MÔ HÌNH HỒI QUY TUYẾN TÍNH VÀ CÔNG CỤ HỖ TRỢ WEKA 13

2.1 Mô hình hồi quy tuyến tính 13

2.1.1 Lý thuyết về mô hình hồi quy 13

2.1.2 Mô hình hồi quy tuyến tính 14

2.1.3 Phương pháp bình phương tối thiểu để ước lượng các tham số của mô hình hồi quy tuyến tính 16

2.1.4 Ứng dụng mô hình hồi quy tuyến tính vào phân tích dữ liệu 19 2.2 Công cụ hỗ trợ xây dựng mô hình hồi quy tuyến tính WEKA 23

2.2.1 Giới thiệu về WEKA 23

2.2.2 Các chức năng chính của WEKA 24

2.2.3 Xây dựng mô hình hồi quy tuyến tính với WEKA 25

CHƯƠNG 3 THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 30

3.1 Phát biểu bài toán thực tế 30

3.2 Tiến hành xây dựng mô hình 31

3.2.1 Thu thập dữ liệu 31

3.2.2 Tiền xử lý dữ liệu 33

3.2.3 Lựa chọn thuộc tính 36

3.2.4 Xây dựng và đánh giá mô hình 37

3.3 Tính toán thử nghiệm độ chính xác dự báo 40

CHƯƠNG 4 KẾT LUẬN 42

TÀI LIỆU THAM KHẢO 43

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn này là do tôi thực hiện, được hoàn thành trên

cơ sở tìm kiếm, thu thập, nghiên cứu, tổng hợp phần lý thuyết và các phươngpháp kĩ thuật được trình bày trong các tài liệu được công bố trong nước và trênthế giới Các tài liệu tham khảo đều được nêu ở phần cuối của luận văn Luậnvăn này không sao chép nguyên bản từ bất kì một nguồn tài liệu nào khác

Nếu có gì sai sót, tôi xin chịu mọi trách nhiệm

Học viên

Ninh Hoài Anh

Trang 4

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

TT Ký hiệu Tiếng Anh Giải thích theo tiếng Việt

01 ARFF Attribute - relation file Định dạng tập tin thuộc tính

02 CDA Confirmatory data analysis Phân tích dữ liệu khẳng định

03 CPU Central Processing Unit Bộ vi xử lý trung tâm

04 DOM Document Object Model Mô hình đối tượng tài liệu

05 EDA Exploratory data analysis Phân tích dữ liệu thăm dò

06 ESS Explained sum of squares Tổng bình phương hồi quy

07 HTML Hypertext markup Ngôn ngữ đánh dấu siêu văn bản

10 RSS Residual sum of squares Tổng bình phương sai số

11 SRF Sample regression function Hàm hồi quy mẫu

12 TSS Total sum of squares Tổng bình phương toàn phần

Trang 5

DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ

Hình 1.1 Các bước của quá trình phân tích dữ liệu Hình 2.1 Sai số ei giữa Yi và ̂

Hình 2.2 Mối quan hệ giữa TSS, ESS và RSS

Hình 2.3 Một số hình ảnh về giao diện đồ họa người sử dụng của WEKAHình 2.4 Các bước xây dựng một mô hình hồi quy tuyến tính với WEKAHình 2.5 Lựa chọn thuộc tính được dự đoán

Hình 3.1 Các thực nghiệm xây dựng mô hình hồi quy tuyến tính để dự báo Hình 3.2 Mô hình DOM của tập tin HTML đơn giản

Hình 3.3 Quá trình khai thác thông tin từng sản phẩm

Hình 3.4 Quá trình tiền xử lý dữ liệu giai đoạn 1

Hình 3.5 Loại bỏ các bản ghi giống nhau của tập tin dữ liệu

Hình 3.6 Xử lý giá trị thiếu trong tập dữ liệu

Hình 3.7 Thiết lập bổ sung thông tin dữ liệu đầu ra

Hình 3.8 Mô hình hóa sai số của mô hình

Hình 3.9 Tập tin dữ liệu kết quả

Trang 6

DANH MỤC CÁC BẢNG

Bảng 2.1 Số liệu theo dõi dữ liệu bán hàng

Bảng 3.1 Danh sách thuộc tính của tập dữ liệu thu thậpBảng 3.2 Danh sách các thuộc tính đã tiền xử lý

Bảng 3.3 Kết quả kiểm thử mô hình

Bảng 3.4 Kết quả thêm biến độc lập vào mô hình

Trang 7

MỞ ĐẦU

Ngày nay, gắn liền với sự phát triển của Internet, mạng xã hội và các thiết

bị di động là sự gia tăng dữ liệu không ngừng trên toàn cầu Dữ liệu được sinh ratừng phút, từng giây, có ở khắp mọi nơi và chúng có thể chỉ cho ta thấy nhiềuđiều Tuy nhiên, làm thế nào để dữ liệu trở nên có ý nghĩa lại trở thành một vấn

đề không nhỏ đối với những cá nhân, tổ chức sở hữu những khối dữ liệu này.Trên thực tế, nhiều doanh nghiệp chưa được trang bị, ứng dụng hệ thống côngnghệ thông tin cần thiết giúp khai thác dữ liệu hiệu quả, từ đó đưa ra nhữngquyết định sáng suốt dựa trên những phân tích có chất lượng thay vì dựa trêntrực giác hay kinh nghiệm trong quá khứ

Với quy mô dữ liệu đa dạng, phong phú, dữ liệu có thể phản ánh thông tin

từ nhiều khía cạnh của đời sống xã hội hiện đại Ví dụ, các vị trí địa lý đều được

dữ liệu hóa, đầu tiên là bằng kinh độ, vĩ độ và gần đây là thông qua các hệ thốngđịnh vị toàn cầu GPS (Global positioning system) Những cuốn sách, tài liệugiấy đã được số hóa thành ebook, các file tài liệu số với nhiều định dạnh nhưpdf, txt, rtf Kể cả những mối quan hệ bạn bè, sự ưa thích “like” cũng được dữliệu hóa qua các mạng xã hội như Facebook, Zalo,… Những loại dữ liệu nàyđược sử dụng để phân tích nhờ vào sự giúp đỡ của những bộ máy tính với chiphí thấp, những phép toán thông minh, dựa trên những kiến thức toán học đượcvay mượn từ kiến thức thống kê Thay vì dạy cho máy tính có thể lái xe hoặcphiên dịch một ngôn ngữ, chúng ta có thể cung cấp đủ dữ liệu để máy tính có thểtính toán ra xác suất của tất cả mọi thứ mà chúng ta muốn tính toán

Phân tích dữ liệu (Data analysis) là khoa học khám phá dữ liệu thô nhằmrút ra kết luận từ những dữ liệu ấy Phân tích dữ liệu được sử dụng trong nhiềungành công nghiệp để hỗ trợ các công ty, tổ chức để đưa ra quyết định kinhdoanh tốt hơn hoặc trong các ngành khoa học để xác nhận hay bác bỏ các môhình, lý thuyết hiện có Quá trình phân tích dữ liệu bao gồm các bước kiểm định,làm sạch, chuyển đổi, mô hình hóa và phân tích dữ liệu với mục đích tìm thôngtin hữu ích, cho thấy kết luận hoặc hỗ trợ ra quyết định dựa trên bộ dữ liệu hiệncó

Vấn đề nghiên cứu và ứng dụng phân tích dữ liệu vào các lĩnh vực rất phổbiến và phát triển trên thế giới Tuy nhiên, tại Việt Nam, vấn đề này còn chưađược ứng dụng rộng rãi, nhất là trong lĩnh vực kinh doanh thương mại Trên cơ

Trang 8

sở các nghiên cứu đã có, luận văn tập trung vào các mục tiêu và các vấn đề cầngiải quyết sau:

Mục tiêu và phạm vi nghiên cứu:

Luận văn tập trung nghiên cứu về mô hình hồi quy tuyến tính, phươngpháp sử dụng mô hình hồi quy tuyến tính trong phân tích dữ liệu, tìm hiểu công

cụ hỗ trợ phân tích dữ liệu Weka

Mục tiêu chính của luận văn là dựa trên công cụ WEKA xây dựng được

mô hình hồi quy tuyến tính dự đoán giá của mặt hàng máy tính xách tay trên thịtrường Việt Nam thông qua việc phân tích dữ liệu bán hàng của Công ty cổ phầnthương mại Nguyễn Kim Từ đó, hỗ trợ các doanh nghiệp, nhà phân phối máytính xách tay đưa giá bán cạnh tranh nhất trên thị trường Bên cạnh đó, cũnggiúp người tiêu dùng ước lượng chi phí để mua một chiếc máy tính xách tay phùhợp với nhu cầu của bản thân

Phương pháp nghiên cứu:

Trong phạm vi luận văn này, tôi đã sử dụng 03 phương pháp nghiên cứukhoa học để tiếp cận và làm rõ những vấn đề của đề tài mà mình đã lựa chọn Đó

là các phương pháp nghiên cứu sau:

- Phương pháp phân tích và tổng hợp lý thuyết: Nghiên cứu các tài liệu

khác nhau về mô hình hồi quy tuyến tính, phân tích dữ liệu và công cụ WEKA;phân tích để tìm hiểu sâu sắc đối với mỗi vấn đề và tổng hợp để có cái nhìn tổngquan, đầy đủ về các vấn đề cần tìm hiểu

- Phương pháp thực nghiệm

lý dữ liệu bán máy tính xách tay; sử

quy tuyến tính để dự báo giá

khoa học: Chủ động tiến hành thu thập, xử

dụng công cụ WEKA xây dựng mô hình hồi

- Phương pháp phân tích, tổng kết kinh nghiệm: Nghiên cứu, phân tích

và đánh giá các mô hình đã xây dựng để từng bước xây dựng mô hình phù hợpnhất với độ tin cậy, chính xác cao hơn

Bố cục của luận văn:

Luận văn được trình bày với bố cục gồm 04 chương với những nội dung chính như sau:

Trang 9

Chương 1 - Đặt vấn đề: Phát biểu bài toán, lựa chọn miền ứng dụng và

giới thiệu các phương pháp và công cụ để giải quyết bài toán

Chương 2 - Mô hình hồi quy tuyến tính và công cụ hỗ trợ WEKA: Trình

bày cơ sở lý thuyết của mô hình hồi quy, đi vào cụ thể với mô hình hồi quytuyến tính Đồng thời, giới thiệu về công cụ WEKA, xây dựng mô hình hồi quytuyến tính với sự hỗ trợ của WEKA

Chương 3 - Thực nghiệm và đánh giá kết quả: Sử dụng công cụ WEKA

để xây dựng mô hình hồi quy tuyến tính dự báo giá bán máy tính xách tay củaCông ty cổ phần thương mại Nguyễn Kim Tiến hành phân tích, xây dựng môhình và đánh giá kết quả thu được

Chương 4 - Kết luận: Trình bày kết quả đạt được của luận văn và định

hướng phát triển trong tương lai

Trang 10

Chương 1 ĐẶT VẤN ĐỀ 1.1 Bài toán phân tích dữ liệu

Dữ liệu được tạo ra từng giây, từng phút trong đời sống xã hội hiện đại.Chúng có thể là dữ liệu web, dữ liệu từ các cảm biến, các tệp lưu nhật ký, dữliệu cá nhân, dữ liệu từ các thiết bị thông minh,… Từ khối dữ liệu này mà chúng

ta có thể tìm kiếm, khai thác và trích xuất ra những thông tin hữu ích Làm thếnào để có được những thông tin ấy là vấn đề được đặt ra Phân tích dữ liệu làmột trong những chìa khóa giúp chúng ta giải quyết vấn đề nêu trên Vậy phântích dữ liệu là gì?

Phân tích dữ liệu là một trong những ứng dụng thực tiễn của kỹ thuật khaiphá dữ liệu (Data mining) Phân tích dữ liệu là một quá trình trích xuất thông tinhữu ích từ tập dữ liệu được cung cấp Các bước cơ bản của quá trình phân tích

dữ liệu bao gồm: Kiểm định (Inspecting), làm sạch (Cleaning), chuyển đổi(Transforming), mô hình hóa (Modeling) và phân tích (Analysing) dữ liệu nhằmmục đích tìm kiếm thông tin, cho thấy kết luận, hỗ trợ đưa ra quyết định

Ki m đ nh ểm định ịnh Làm s ch ạch Chuy n đ i ểm định ổi Mô hình hóa Phân tích

Hình 1.1 Các bước của quá trình phân tích dữ liệuTrước khi có máy tính, nhiều phương pháp phân tích cho tập dữ liệu nhỏ

đã phát triển và tập trung phân tích từng biến riêng lẻ Ngày nay, khi khả năngtính toán của máy tính đã phát triển vượt bậc, phân tích dữ liệu đã phân tíchđồng thời quan hệ của nhiều biến

Phân tích dữ liệu được chia thành phân tích dữ liệu thăm dò EDA và phântích dữ liệu khẳng định CDA Phân tích dữ liệu thăm dò dùng dữ liệu để xácđịnh mối quan hệ giữa các biến độc lập với biến phụ thuộc hay xác định các biếnđược đưa vào mô hình Phân tích dữ liệu khẳng định sử dụng dữ liệu để khẳngđịnh giả thiết là đúng hoặc sai Hai phương pháp này không tách rời nhau màluôn đi cùng nhau để tìm ra những thông tin hữu ích từ tập dữ liệu đã có Trướchết, chúng ta sử dụng phương pháp EDA để xây dựng mô hình phù hợp từ tập

Trang 11

dữ liệu đã có Sau đó, sử dụng phương pháp CDA để khẳng định những thôngtin chúng ta nhận định là đúng hoặc sai.

1.2 Lựa chọn miền ứng dụng

Hiện nay, xung quanh chúng ta là một biển dữ liệu khổng lồ và khôngngừng mở rộng Khối dữ liệu này liên quan đến tất cả các khía cạnh của đờisống xã hội Đáp ứng nhu cầu hiểu biết vô tận của con người, giới học thuật đãnghiên cứu về phân tích dữ liệu nhằm chắt lọc những thông tin cần thiết, bổ íchđối với mỗi cá nhân, mỗi tập thể, mỗi lĩnh vực, mỗi quốc gia,… Giới kinh doanhcũng không thể bỏ qua công cụ hữu ích này để tăng cường lợi nhuận của doanhnghiệp từng ngày, thậm trí từng giờ Từ đó, nhiều giải pháp công nghệ đã đượcnghiên cứu với mục đích hỗ trợ các công ty, doanh nghiệp đưa ra các quyết địnhkinh doanh hợp lý, sáng suốt Thực tế, các công ty, tập đoàn lớn đã chuyển dần

từ chế tạo sản phẩm sang cung cấp dịch vụ phân tích kinh doanh Trước đây, tậpđoàn IBM chế tạo, sản xuất các sản phẩm công nghệ như máy chủ, máy tínhxách tay, máy tính để bản, thiết bị cho hạ tầng công nghệ thông tin Nhưng, ngàynay, tập đoàn IBM đang quan tâm nhiều hơn và cung cấp thêm dịch vụ phân tíchkinh doanh

Trong khuôn khổ luận văn này, tác giả tập trung nghiên cứu, ứng dụngphân tích dữ liệu vào lĩnh vực kinh doanh Dữ liệu bán hàng của các công tyđiện máy là khối dữ liệu đồ sộ với đa dạng các loại mặt hàng của nhiều nhà cungcấp được bày bán với mức giá có thể thay đổi theo thời gian và từng chươngtrình khuyến mãi khác nhau Khối dữ liệu này được thể hiện đầy đủ và đáng tincậy trên website của các công ty điện máy và có thể được thu thập một cáchchính xác thông qua các công cụ sẵn có Tác giả lấy dữ liệu bán hàng của Công

ty Cổ phần thương mại Nguyễn Kim là điển hình Phân tích dữ liệu bán hàngcủa Công ty cổ phần thương mại Nguyễn Kim để hỗ trợ các công ty điện máy dựđoán và đưa ra giá bán cạnh tranh nhất cho mặt hàng máy tính xách tay trên thịtrường Việt Nam

1.3 Phương pháp và công cụ

1.3.1 Lựa chọn phương pháp

Phân tích dữ liệu khẳng định là lựa chọn không thể bỏ qua để hỗ trợ đưa

ra quyết định kinh doanh sáng suốt Một mô hình dữ liệu được xây dựng dựatrên tập dữ liệu lịch sử Những thuật toán học máy được sử dụng để xây dựng

Trang 12

mô hình dữ liệu ẩn giấu trong tập dữ liệu này Sau khi mô hình dữ liệu được xácnhận, nó được coi là tổng quát hóa kiến thức và có thể dự đoán tương lai Bằngcách này, các doanh nghiệp có thể dự đoán các nguy cơ tiềm ẩn trong tương lai

để hoạch định chiến lược kinh doanh phù hợp

Thống kê cung cấp các phương pháp, kỹ thuật xây dựng mô hình toán học

để phân tích dữ liệu Hai phương pháp thống kê chính được sử dụng trong phântích dữ liệu là: Thống kê mô tả (Descriptive statistics) và thống kê suy diễn(Inferential statistics) Dữ liệu thống kê thường được thu thập để trả lời các câuhỏi được định trước Thống kê mô tả tóm tắt dữ liệu từ một mẫu thí nghiệm cònthống kê suy diễn rút ra kết luận từ dữ liệu Ngày nay, với sự phát triển khôngngừng về khả năng tính toán của máy tính, thống kê được sử dụng nhiều tronghọc máy (Machine learning) nhằm xây dựng các mô hình toán cho các thuật toánhọc máy Thống kê suy diễn được sử dụng nhiều trong phân tích dữ liệu khẳngđịnh

Trong khuôn khổ luận văn này, tác giả tập trung nghiên cứu mô hình hồiquy tuyến tính trong thống kê với mục đích xây dựng mô hình học máy cho bàitoán phân tích dữ liệu để dự đoán tương lai

1.3.2 Lựa chọn công cụ

Hiện tại, các công cụ hỗ trợ phân tích dữ liệu đã xuất hiện nhiều như R,SPSS, WEKA,… Tuy nhiên, tác giả lựa chọn và nghiên cứu phần mềm WEKA.Đây là phần mềm được phát triển bằng Java nhằm phát triển các kỹ thuật họcmáy và áp dụng chúng vào các bài toán khai phá dữ liệu trong thực tế

Trang 13

Chương 2

MÔ HÌNH HỒI QUY TUYẾN TÍNH

VÀ CÔNG CỤ HỖ TRỢ WEKA 2.1 Mô hình hồi quy tuyến tính

2.1.1 Lý thuyết về mô hình hồi quy

Phân tích hồi quy nghiên cứu sự phụ thuộc của biến phụ thuộc vào mộthay nhiều biến độc lập để ước lượng hay dự đoán giá trị trung bình của biến phụthuộc trên cơ sở các giá trị biết trước của biến độc lập Phân tích hồi quy được

mô hình hóa thông qua dưới dạng:

Trong đó:

- X là biến độc lập

- Y là biến phụ thuộc

- ε là sai số ngẫu nhiên

- f(X) = E(Y|X) là hàm hồi quy tổng thể PRF cho biết giá trị trung bình của biến Y sẽ thay đổi như thế nào khi biến X nhận các giá trị khác nhau

Mô hình (2.1) được gọi là mô hình hồi quy Để khảo sát mô hình hồi quyngười ta tiến hành quan sát các bộ số (Xi, Yi) Ở lần quan sát thứ i, biến X nhậngiá trị Xi, biến Y nhận giá trị Yi và sai số ngẫu nhiên là εi Khi đó, mô hình (2.1)trở thành:

εi là độ chênh lệch giữa giá trị quan sát Yi của biến phụ thuộc Y với giátrị trung bình của Y khi biến độc lập X nhận giá trị Xi ε tồn tại bởi nhiều yếu tốtác động Một yếu tố quan trọng là do ngoài các biến độc lập X đã được đưa vào

mô hình có thể còn có các biến khác chưa được xem xét tới cũng ảnh hưởng đếngiá trị của biến phụ thuộc Y nên ε đại diện cho phần ảnh hưởng ấy

Từ (2.2) ta có: εi = Yi - f(Xi)

=> εi  0  Yi - f(Xi)  0Nếu εi có giá trị càng nhỏ thì biến phụ thuộc Y càng quan hệ mật thiết haycàng phụ thuộc vào biến độc lập X Vì vậy, ε đóng vai trò quan trọng trong việc

Trang 14

đánh giá chất lượng của mô hình hồi quy Việc xây dựng mô hình hồi quy tốtthực chất là xác định hàm hồi quy tổng thể f(X) sao cho sai số ngẫu nhiên ε của

mô hình nhận giá trị nhỏ nhất Khi đó, ta có thể ước lượng hay dự đoán giá trịcủa biến phụ thuộc Y trên cơ sở các giá trị biết trước của biến độc lập X với một

độ tin cậy nhất định

Trong nhiều trường hợp, ta không có điều kiện để xét toàn bộ tổng thể củamột vấn đề Khi đó, ta có thể ước lượng giá trị trung bình của biến phụ thuộc từtập số liệu mẫu Thống kê học cung cấp phương pháp điều tra chọn mẫu chophép lấy tập số liệu tổng thể một số mẫu số liệu để nghiên cứu, phân tích và đưa

ra kết quả cho tổng thể với độ tin cậy cho trước Việc xây dựng hàm hồi quytổng thể được thực hiện thông qua việc xác định hàm hồi quy mẫu SRF, dùng nó

để ước lượng và kiểm định các giả thiết từ đó xây dựng hàm hồi quy tổng thể.Hàm hồi quy mẫu được xây dựng dựa trên tập số liệu mẫu

Mô hình hồi quy được chia làm 02 loại:

- Mô hình hồi quy đơn với hàm hồi quy tổng thể chỉ có 1 biến độc lập

2.1.2 Mô hình hồi quy tuyến tính

Mô hình hồi quy tuyến tính là mô hình hồi quy mà trong đó hàm hồi quy tổng thể có dạng tuyến tính

f(Xi) = E(Y|Xi) = β0 + β1X1i + β2X2i + … + βnXni (2.3)Trong đó:

- Xi là giá trị của các biến độc lập X ở quan sát thứ i

- E(Y|Xi) là giá trị trung bình của biến phụ thuộc Y khi biến độc lập X nhận các giá trị Xi ở quan sát thứ i

- β0, β1, β2, …, βn là các tham số hồi quy Tham số hồi quy β0 còn đượcgọi là hệ số tự do, nó cho biết giá trị trung bình của biến phụ thuộc Y là baonhiêu khi biến độc lập X nhận giá trị “0” Tham số hồi quy βj còn được gọi làcác hệ số góc, nó cho biết giá trị trung bình của biến phụ thuộc Y sẽ thay đổinhư thế nào khi giá trị của biến độc lập thứ j Xji tăng một đơn vị với điều kiệncác biến độc lập khác không thay đổi giá trị

Thật vậy: Giả sử Xji1 = Xji + 1

Trang 15

Nếu βj > 0 thì E(Y|Xi)1 > E(Y|Xi) tức là giá trị trung bình của Y tăng.

Thuật ngữ “tuyến tính” có thể được hiểu theo hai nghĩa: tuyến tính vớitham số và tuyến tính đối với biến số Tuy nhiên, hàm hồi quy tuyến tính luônđược hiểu là với tham số, nó có thể không tuyến tính với biến số

Như đã trình bày ở phần trước:

- Nếu f(Xi) = E(Y|Xi) = β0 + β1Xi thì mô hình được gọi là mô hình hồi quy tuyến tính đơn

- Nếu f(Xi) = E(Y|Xi) = β0 + β1X1i + β2X2i + … + βnXni với n >= 2 thì

mô hình được gọi là mô hình hồi quy tuyến tính bội

Đối với mô hình hồi quy tuyến tính, hàm hồi quy mẫu có dạng:

là ước lượng điểm của Yi

Khi đó, sai số ei = Yi - ̂ Minh họa bằng hình 2.1.

Hình 2.1 Sai số ei giữa Yi và ̂

Trang 16

Xét trường hợp, hàm hồi quy tổng thể có dạng:

f( 0 , 1 ) = ∑ =1 (Yi − 0 − 1 Xi) => min

Trang 17

Trong đó:

- ̅ là giá trị trung bình của X, ̅ =

- ̅ là giá trị trung bình của Y, ̅ = ∑ Xi

Các giả thuyết cơ bản của phương pháp bình phương tối thiểu:

- Giả thuyết 1: Quan hệ giữa X và Y là tuyến tính, các giá trị Xi cho trước

và không ngẫu nhiên

- Giả thuyết 2: Các sai số là đại lượng ngẫu nhiên có giá trị trung bình

bằng 0 tức là E( |Xi) = 0

- Giả thuyết 3: Các sai số là đại lượng ngẫu nhiên có phương sai không

đổi tức là Var( |Xi) = = const

- Giả thuyết 4: Không có sự tương quan giữa các tức là

Cov( | ) = 0 với ≠

- Giả thuyết 5: Không có sự tương quan giữa và Xi tức là

Var( |Xi) =

Định lý Gauss – Markov: Khi các giải thuyết 1 đến 5 được đảm bảo thì

các ước lượng của phương pháp OLS là các ước lượng tuyến tính, không chệch

và có phương sai nhỏ nhất trong lớp các ước lượng tuyến tính không chệch

Đối với hàm hồi quy 2 biến thì ̂

0 , ̂

1 tương ứng là các ước lượng tuyến tính, không chệch và có phương sai nhỏ nhất của β 0 , β 1

Hệ số xác định r 2 (coefficient of determination) đo độ phù hợp của hàm hồi quy mẫu:

- Tổng bình phương toàn phần TSS: là tổng bình phương của tất cả các sailệch giữa giá trị quan sát Yi với giá trị trung bình của chúng

Trang 18

- Tổng bình phương sai số RSS: là tổng bình phương tất cả các sai lệch giá trị quan sát Yi với giá trị của Y tính theo hàm hồi quy mẫu

RSS = ∑ =1 = ∑ =1 ( − )

Và TSS = ESS + RSS, minh họa bằng hình 2.2

Hình 2.2 Mối quan hệ giữa TSS, ESS và RSS

- Hệ số xác định r2 được xác định bởi công thức:

→ 0 : Hàm hồi quy mẫu là không phù hợp, biến phụ thuộc Y không phụ thuộc vào các biến độc lập X

Hệ số tương quan r (coefficient of correlation) đo độ tương quan giữa biến phụ thuộc Y và biến độc lập X: được xác định bởi công thức:

Trang 19

+ Nếu r > 0: X và Y có mối tương quan thuận

+ Nếu r < 0: X và Y có mối tương quan nghịch

+ ̂

1 = 0 thì r = 0 và ngược lại, có thể căn cứ vào dấu của ̂

1 để xác định tính thuận nghịch của mối tương quan+| | → 1 thì mối tương quan giữa X và Y càng chặt chẽ, nếu | | = 1 thì X và Y có quan hệ hàm số

+| | → 0 thì mối tương quan giữa X và Y càng lỏng lẻo, nếu | | = 0 thì X và Y độc lập với nhau

2.1.4 Ứng dụng mô hình hồi quy tuyến tính vào phân tích dữ liệu

Trên thực tế, khi phân tích dữ liệu, chúng ta phải xác định mối quan hệgiữa một biến phụ thuộc vào nhiều biến độc Ví dụ như, các yếu tố ảnh hưởngđến tốc độc của chiếc xe gắn máy đang chạy trên đường không chỉ phụ thuộcvào phân khối của động cơ mà còn phụ thuộc vào độ ma sát của mặt đường, sứccản của gió, trọng lượng hàng hóa trên xe,… Vì vậy, chúng ta cần xem xét các

mô hình hồi quy tuyến tính nhiều hơn 1 biến độc lập

Khi đó, hàm hồi quy tổng thể với k biến độc lập có dạng:

f(Xi) = E(Y|Xi) = β0 + β1X1i + β2X2i + … + βkXkiVới n quan sát ta có:

Trang 20

Các ước lượng OLS tìm được bằng cách tìm các ̂ sao cho:

Trang 21

Kết quả: Các hệ số hồi quy được ước lượng theo công thức (2.10)

Hệ số xác định r2 được định nghĩa như là tỷ lệ (%) sự biến động của biến phụ thuộc Y được giải thích bằng các biến độc lập Xk

Hệ số xác định đã điều chỉnh ̅̅̅2 để xác định có nên thêm 1 biến độc lập

so với r2 Chúng ta có thể quyết định thêm một biến độc lập mới vào mô hình

nếu ̅̅̅2 tăng lên khi tăng biến đó.

Định dạng
Số trang	43
Dung lượng	1,93 MB