Trong luận văn này tác giả xin giới thiệu mô hình NILM8 là một mô hình khuyến nghị tin tức và thử nghiệm mô hình trên tập dữ liệu được thu thập từ một trang tin tức trực tuyến thực tế,
Trang 1TRƯỜNG DẠI HỌC BÁCH KHOA HÀ NỘI
LUẬN VĂN THẠC SĨ
MMồ hình học sâu trong xứ lý ngôn ngữ
tự nhiên và bài toán khuyến nghị
ĐOÀN NGỌC HOÀNG
doanngochoanghy gmail.com
Ngành: Toán Tìn
Giảng viên hướng dẫn: T8 Lẻ ChíNgOC — cwadviB
Viện: ‘Yodan tng dung va ‘Lin hoc
HA NOI, 12/2021
Trang 2L61 CAM GN
Lai dầu tiên, tác giã xin bày tô lòng biét on chan thanh va sau sắc nhất tới T8
Lé Chi Ngoc, nguéi da tan tình hướng dẫn, hỗ trợ tác giả trong suốt quá trình
thực hiện luận văn này Tác giã xin trân trọng cám ơn Viện Toán ứng dụng và Tin hoc, Dai hoc Bach khoa 1Ià Nội đã tạo mọi điều kiện thuận lợi cho tác giả
trong quá trình học tập và nghiên cứu tại đây Xin cảm ơn các thầy cô, các bạn
sinh viên, học viên cao học của Viện bán ứng dụng và in học đã trao đổi cing
tác giá những kiến thức và kinh nghiệm quý báu để giúp cho luận văn này được hoán thiện hơn.Tác giá cũng xin gửi lời chân thành cẩm ơn tới các đồng nghiệp
1
the
những người Uhdin yén what eta mind lời
luôn bân cạnh động viên, chia sẽ về mặt tinh thần trang những lúc tác giả sặp khó khăn
Trang 3
TÓM TẮT NỘI DŨNG LUẬN VĂN
Bài toán khuyến nghi (Recommendation) là một trong những bài toán quan
trọng trong lĩnh vực điện toán xã hội (8ocial Computing) Bài toán khuyến nghị
có ý nghĩa to lớn trong việc tăng mức độ tương tấc, nãng cao trải nghiệm người đùng trên các nền tầng truyền thông xã hội trực tuyến Trong luận văn này tác
giả xin giới thiệu mô hình NILM8 là một mô hình khuyến nghị tin tức và thử
nghiệm mô hình trên tập dữ liệu được thu thập từ một trang tin tức trực tuyến
thực tế, Qua day có thể thấy được ứng dụng của các mô hình học sãu trong xử
lý ngôn ngữ tự nhiên giúp giải quyết các bài toán có thể áp dụng vào thực tế
Tw khéa: Social Computing, Recommendation, News Recommendation, NRMS
Hà Nội ngày tháng năm 2021
Trang 4LỜI NÓI DẦU
Nhờ su phát triển bùng nỗ của Internet hiện nay con người ngày càng có cơ
hội tiếp xúc với nhiều nguồn thống lin trên các nên tảng truyều không xã hội ví
đụ như mạng xã hội trực tuyến, mna sắm rực tuyến, tín tc trực tuyên, dian
dan, Vi vay sự ra đời của điện toán xã hội (Social eomnnting) để trả lời các
căn hỏi và giải quyết các vẫn đã, thách thức về hành vi của người đìng thöng
qua các nên tảng truyền thông xã hội trực tuyến Một trong ba bài toán quan
đó là bài toán khuyén nghj (Recommendation) Bai
trọng của điện toán xã
toán khuyến nghị có ý nghĩa to lớn trong vide nang cao trai nghiệm người dùng
trên các nền tảng truyền thông xã hội trực tuyến
'I*ong nội dựng luận văn, tác gi sẽ trình bày những nghiên cứu của mình về
mỗ hình học gân trong xử lý ngôn ngữ trí nhiền vã bài loán khuyến nghỉ ứng
« Chương 9: Trình bày va bai ton khuyến nghị và thuật toán NRMS
ø Chương ä: 1Yình bày về kết quả thực nghiệm của mỡ hình đề xuất trên dữ
liệu thủ Lhập tif mot trang web tin tite thiực Lễ
Luận văn được hoàn thành trong chương trình 'Lhạc sĩ Khoa học ngành loán tin tại Viện Ioán ứng dụng và in học, Đại học Hách Khoa Hà Nội dưới sự
hướng dẫn của T8 Tê Chí Ngọ
Mặc dù được hoàn Lhành với nhiều cỗ gắng nhưng do những hạn chế về thời
gian và kinh nghiệm, luận văn này không thể tránh khỏi những sai sói Táo giá
rất mong nhận dược những ý kiến đóng góp quý báu tt thầy eö và các bạn học
viên để luận văn được hoàn thiện hơn nữa.
Trang 5LỜI NÓI DẦU
Nhờ su phát triển bùng nỗ của Internet hiện nay con người ngày càng có cơ
hội tiếp xúc với nhiều nguồn thống lin trên các nên tảng truyều không xã hội ví
đụ như mạng xã hội trực tuyến, mna sắm rực tuyến, tín tc trực tuyên, dian
dan, Vi vay sự ra đời của điện toán xã hội (Social eomnnting) để trả lời các
căn hỏi và giải quyết các vẫn đã, thách thức về hành vi của người đìng thöng
qua các nên tảng truyền thông xã hội trực tuyến Một trong ba bài toán quan
đó là bài toán khuyén nghj (Recommendation) Bai
trọng của điện toán xã
toán khuyến nghị có ý nghĩa to lớn trong vide nang cao trai nghiệm người dùng
trên các nền tảng truyền thông xã hội trực tuyến
'I*ong nội dựng luận văn, tác gi sẽ trình bày những nghiên cứu của mình về
mỗ hình học gân trong xử lý ngôn ngữ trí nhiền vã bài loán khuyến nghỉ ứng
« Chương 9: Trình bày va bai ton khuyến nghị và thuật toán NRMS
ø Chương ä: 1Yình bày về kết quả thực nghiệm của mỡ hình đề xuất trên dữ
liệu thủ Lhập tif mot trang web tin tite thiực Lễ
Luận văn được hoàn thành trong chương trình 'Lhạc sĩ Khoa học ngành loán tin tại Viện Ioán ứng dụng và in học, Đại học Hách Khoa Hà Nội dưới sự
hướng dẫn của T8 Tê Chí Ngọ
Mặc dù được hoàn Lhành với nhiều cỗ gắng nhưng do những hạn chế về thời
gian và kinh nghiệm, luận văn này không thể tránh khỏi những sai sói Táo giá
rất mong nhận dược những ý kiến đóng góp quý báu tt thầy eö và các bạn học
viên để luận văn được hoàn thiện hơn nữa.
Trang 7b_ THỨ NGHIÊM VÀ ĐÁNH GIÁ KẾT QUA
Trang 8gi LỜI NÓI DẦU
Nhờ su phát triển bùng nỗ của Internet hiện nay con người ngày càng có cơ
hội tiếp xúc với nhiều nguồn thống lin trên các nên tảng truyều không xã hội ví
đụ như mạng xã hội trực tuyến, mna sắm rực tuyến, tín tc trực tuyên, dian
dan, Vi vay sự ra đời của điện toán xã hội (Social eomnnting) để trả lời các
căn hỏi và giải quyết các vẫn đã, thách thức về hành vi của người đìng thöng
qua các nên tảng truyền thông xã hội trực tuyến Một trong ba bài toán quan
đó là bài toán khuyén nghj (Recommendation) Bai
trọng của điện toán xã
toán khuyến nghị có ý nghĩa to lớn trong vide nang cao trai nghiệm người dùng
trên các nền tảng truyền thông xã hội trực tuyến
'I*ong nội dựng luận văn, tác gi sẽ trình bày những nghiên cứu của mình về
mỗ hình học gân trong xử lý ngôn ngữ trí nhiền vã bài loán khuyến nghỉ ứng
« Chương 9: Trình bày va bai ton khuyến nghị và thuật toán NRMS
ø Chương ä: 1Yình bày về kết quả thực nghiệm của mỡ hình đề xuất trên dữ
liệu thủ Lhập tif mot trang web tin tite thiực Lễ
Luận văn được hoàn thành trong chương trình 'Lhạc sĩ Khoa học ngành loán tin tại Viện Ioán ứng dụng và in học, Đại học Hách Khoa Hà Nội dưới sự
hướng dẫn của T8 Tê Chí Ngọ
Mặc dù được hoàn Lhành với nhiều cỗ gắng nhưng do những hạn chế về thời
gian và kinh nghiệm, luận văn này không thể tránh khỏi những sai sói Táo giá
rất mong nhận dược những ý kiến đóng góp quý báu tt thầy eö và các bạn học
viên để luận văn được hoàn thiện hơn nữa.
Trang 10
1.3.2 Ky thuat nhing ta} 0 eee ee ee 16
2_ỨNG DỤNG MÔ HÌNH HỌC SÂU VÀO
2.2 Mo hình khuyén nghi tin tite[NRMS] 35
BOGUS | NECA đ R4/42808)8/69E4 & 3 29
Trang 113.4 Ví dụ về đường cong RÓC và chỉ số AUC|
2.2 Minh họa phương phấp
2.3 Hệ thống khuyên nghị tin tức của Google News 23 2.4 Mo hinh hé thong khuyến nghị tin tức| - 24
2.5 Mo hinh khuyén nghi tin tức NRMS|] - 26
Hình ảnh hiển thị tin tức trên trang báo điện tử VnExpresl 31
j3.2_ Ví dụ về dữ liệu được thu thập và lưu trữ bằng công cụ Apache
3.3 Khung bình luận của một bài viết trên trang báo điện tử VnExpress| 33
Trang 13CHƯƠNG 1 CƠ SỞ LÝ THUYẾT
1.1 Máy học
Máy học [T[ là một thuật ngữ được khai sinh vào cuối những năm 50 bởi Arthur Samuel Nó là một lĩnh vu
của trí tuệ nhân tạo liên quan đến việc nghiên cứu
và xây dựng các kĩ thuật cho phép các hệ thống "học" tự động từ dữ liệu để giải
quyết những vấn đề cụ thể Ví dụ như các máy có thể "hoc" cach phan loai thư điện tử xem có phải thư rác (spam) hay khõng và tự động xếp thư vào thư mục
tương ứng,
Học máy có liên quan lớn đến thống kẽ, vì cả hai lĩnh vực đều nghiên cứu việc
phân tích dữ liệu, nhưng khác với thống kê, học máy tập trung vào sự phức tạp
của các giải thuật trong việc thực thi tính toán Nhiều bài toán suy luận được
át (supervised learning), học không giám sát (unsupervised learning)
Phương pháp học có giám sát đòi hỏi dữ liệu huấn luyện phải được gán nhãn
Một loạt các thuật toán máy học dựa trên phương pháp này bao gồm: Hồi quy
tuyến tính, Hồi quy logistie Phân lớp Bayes (naive bayes), Cây quyết định, K
- láng giềng gần nhất và Máy veetor hỗ trợ (support vector machine), Những phương pháp này chủ yếu là các phương pháp hồi quy và phân loại Nguyên tắc
hoạt động của các thuật toán này là việ
Với mỗi đầu vào z xác định một đầu ra tương ứng Cá
à tối ưu hóa
Trang 153.4 Ví dụ về đường cong RÓC và chỉ số AUC|
2.2 Minh họa phương phấp
2.3 Hệ thống khuyên nghị tin tức của Google News 23 2.4 Mo hinh hé thong khuyến nghị tin tức| - 24
2.5 Mo hinh khuyén nghi tin tức NRMS|] - 26
Hình ảnh hiển thị tin tức trên trang báo điện tử VnExpresl 31
j3.2_ Ví dụ về dữ liệu được thu thập và lưu trữ bằng công cụ Apache
3.3 Khung bình luận của một bài viết trên trang báo điện tử VnExpress| 33
Trang 17
1.3.2 Ky thuat nhing ta} 0 eee ee ee 16
2_ỨNG DỤNG MÔ HÌNH HỌC SÂU VÀO
2.2 Mo hình khuyén nghi tin tite[NRMS] 35
BOGUS | NECA đ R4/42808)8/69E4 & 3 29
Trang 18b_ THỨ NGHIÊM VÀ ĐÁNH GIÁ KẾT QUA
Trang 19
1.3.2 Ky thuat nhing ta} 0 eee ee ee 16
2_ỨNG DỤNG MÔ HÌNH HỌC SÂU VÀO
2.2 Mo hình khuyén nghi tin tite[NRMS] 35
BOGUS | NECA đ R4/42808)8/69E4 & 3 29
Trang 213.4 Ví dụ về đường cong RÓC và chỉ số AUC|
2.2 Minh họa phương phấp
2.3 Hệ thống khuyên nghị tin tức của Google News 23 2.4 Mo hinh hé thong khuyến nghị tin tức| - 24
2.5 Mo hinh khuyén nghi tin tức NRMS|] - 26
Hình ảnh hiển thị tin tức trên trang báo điện tử VnExpresl 31
j3.2_ Ví dụ về dữ liệu được thu thập và lưu trữ bằng công cụ Apache
3.3 Khung bình luận của một bài viết trên trang báo điện tử VnExpress| 33
Trang 22LỜI NÓI DẦU
Nhờ su phát triển bùng nỗ của Internet hiện nay con người ngày càng có cơ
hội tiếp xúc với nhiều nguồn thống lin trên các nên tảng truyều không xã hội ví
đụ như mạng xã hội trực tuyến, mna sắm rực tuyến, tín tc trực tuyên, dian
dan, Vi vay sự ra đời của điện toán xã hội (Social eomnnting) để trả lời các
căn hỏi và giải quyết các vẫn đã, thách thức về hành vi của người đìng thöng
qua các nên tảng truyền thông xã hội trực tuyến Một trong ba bài toán quan
đó là bài toán khuyén nghj (Recommendation) Bai
trọng của điện toán xã
toán khuyến nghị có ý nghĩa to lớn trong vide nang cao trai nghiệm người dùng
trên các nền tảng truyền thông xã hội trực tuyến
'I*ong nội dựng luận văn, tác gi sẽ trình bày những nghiên cứu của mình về
mỗ hình học gân trong xử lý ngôn ngữ trí nhiền vã bài loán khuyến nghỉ ứng
« Chương 9: Trình bày va bai ton khuyến nghị và thuật toán NRMS
ø Chương ä: 1Yình bày về kết quả thực nghiệm của mỡ hình đề xuất trên dữ
liệu thủ Lhập tif mot trang web tin tite thiực Lễ
Luận văn được hoàn thành trong chương trình 'Lhạc sĩ Khoa học ngành loán tin tại Viện Ioán ứng dụng và in học, Đại học Hách Khoa Hà Nội dưới sự
hướng dẫn của T8 Tê Chí Ngọ
Mặc dù được hoàn Lhành với nhiều cỗ gắng nhưng do những hạn chế về thời
gian và kinh nghiệm, luận văn này không thể tránh khỏi những sai sói Táo giá
rất mong nhận dược những ý kiến đóng góp quý báu tt thầy eö và các bạn học
viên để luận văn được hoàn thiện hơn nữa.
Trang 23CHƯƠNG 1 CƠ SỞ LÝ THUYẾT
1.1 Máy học
Máy học [T[ là một thuật ngữ được khai sinh vào cuối những năm 50 bởi Arthur Samuel Nó là một lĩnh vu
của trí tuệ nhân tạo liên quan đến việc nghiên cứu
và xây dựng các kĩ thuật cho phép các hệ thống "học" tự động từ dữ liệu để giải
quyết những vấn đề cụ thể Ví dụ như các máy có thể "hoc" cach phan loai thư điện tử xem có phải thư rác (spam) hay khõng và tự động xếp thư vào thư mục
tương ứng,
Học máy có liên quan lớn đến thống kẽ, vì cả hai lĩnh vực đều nghiên cứu việc
phân tích dữ liệu, nhưng khác với thống kê, học máy tập trung vào sự phức tạp
của các giải thuật trong việc thực thi tính toán Nhiều bài toán suy luận được
át (supervised learning), học không giám sát (unsupervised learning)
Phương pháp học có giám sát đòi hỏi dữ liệu huấn luyện phải được gán nhãn
Một loạt các thuật toán máy học dựa trên phương pháp này bao gồm: Hồi quy
tuyến tính, Hồi quy logistie Phân lớp Bayes (naive bayes), Cây quyết định, K
- láng giềng gần nhất và Máy veetor hỗ trợ (support vector machine), Những phương pháp này chủ yếu là các phương pháp hồi quy và phân loại Nguyên tắc
hoạt động của các thuật toán này là việ
Với mỗi đầu vào z xác định một đầu ra tương ứng Cá
à tối ưu hóa
Trang 24b_ THỨ NGHIÊM VÀ ĐÁNH GIÁ KẾT QUA
Trang 25
1.3.2 Ky thuat nhing ta} 0 eee ee ee 16
2_ỨNG DỤNG MÔ HÌNH HỌC SÂU VÀO
2.2 Mo hình khuyén nghi tin tite[NRMS] 35
BOGUS | NECA đ R4/42808)8/69E4 & 3 29
Trang 27LỜI NÓI DẦU
Nhờ su phát triển bùng nỗ của Internet hiện nay con người ngày càng có cơ
hội tiếp xúc với nhiều nguồn thống lin trên các nên tảng truyều không xã hội ví
đụ như mạng xã hội trực tuyến, mna sắm rực tuyến, tín tc trực tuyên, dian
dan, Vi vay sự ra đời của điện toán xã hội (Social eomnnting) để trả lời các
căn hỏi và giải quyết các vẫn đã, thách thức về hành vi của người đìng thöng
qua các nên tảng truyền thông xã hội trực tuyến Một trong ba bài toán quan
đó là bài toán khuyén nghj (Recommendation) Bai
trọng của điện toán xã
toán khuyến nghị có ý nghĩa to lớn trong vide nang cao trai nghiệm người dùng
trên các nền tảng truyền thông xã hội trực tuyến
'I*ong nội dựng luận văn, tác gi sẽ trình bày những nghiên cứu của mình về
mỗ hình học gân trong xử lý ngôn ngữ trí nhiền vã bài loán khuyến nghỉ ứng
« Chương 9: Trình bày va bai ton khuyến nghị và thuật toán NRMS
ø Chương ä: 1Yình bày về kết quả thực nghiệm của mỡ hình đề xuất trên dữ
liệu thủ Lhập tif mot trang web tin tite thiực Lễ
Luận văn được hoàn thành trong chương trình 'Lhạc sĩ Khoa học ngành loán tin tại Viện Ioán ứng dụng và in học, Đại học Hách Khoa Hà Nội dưới sự
hướng dẫn của T8 Tê Chí Ngọ
Mặc dù được hoàn Lhành với nhiều cỗ gắng nhưng do những hạn chế về thời
gian và kinh nghiệm, luận văn này không thể tránh khỏi những sai sói Táo giá
rất mong nhận dược những ý kiến đóng góp quý báu tt thầy eö và các bạn học
viên để luận văn được hoàn thiện hơn nữa.
Trang 283.4 Ví dụ về đường cong RÓC và chỉ số AUC|
2.2 Minh họa phương phấp
2.3 Hệ thống khuyên nghị tin tức của Google News 23 2.4 Mo hinh hé thong khuyến nghị tin tức| - 24
2.5 Mo hinh khuyén nghi tin tức NRMS|] - 26
Hình ảnh hiển thị tin tức trên trang báo điện tử VnExpresl 31
j3.2_ Ví dụ về dữ liệu được thu thập và lưu trữ bằng công cụ Apache
3.3 Khung bình luận của một bài viết trên trang báo điện tử VnExpress| 33
Trang 29CHƯƠNG 1 CƠ SỞ LÝ THUYẾT
1.1 Máy học
Máy học [T[ là một thuật ngữ được khai sinh vào cuối những năm 50 bởi Arthur Samuel Nó là một lĩnh vu
của trí tuệ nhân tạo liên quan đến việc nghiên cứu
và xây dựng các kĩ thuật cho phép các hệ thống "học" tự động từ dữ liệu để giải
quyết những vấn đề cụ thể Ví dụ như các máy có thể "hoc" cach phan loai thư điện tử xem có phải thư rác (spam) hay khõng và tự động xếp thư vào thư mục
tương ứng,
Học máy có liên quan lớn đến thống kẽ, vì cả hai lĩnh vực đều nghiên cứu việc
phân tích dữ liệu, nhưng khác với thống kê, học máy tập trung vào sự phức tạp
của các giải thuật trong việc thực thi tính toán Nhiều bài toán suy luận được
át (supervised learning), học không giám sát (unsupervised learning)
Phương pháp học có giám sát đòi hỏi dữ liệu huấn luyện phải được gán nhãn
Một loạt các thuật toán máy học dựa trên phương pháp này bao gồm: Hồi quy
tuyến tính, Hồi quy logistie Phân lớp Bayes (naive bayes), Cây quyết định, K
- láng giềng gần nhất và Máy veetor hỗ trợ (support vector machine), Những phương pháp này chủ yếu là các phương pháp hồi quy và phân loại Nguyên tắc
hoạt động của các thuật toán này là việ
Với mỗi đầu vào z xác định một đầu ra tương ứng Cá
à tối ưu hóa
Trang 33LỜI NÓI DẦU
Nhờ su phát triển bùng nỗ của Internet hiện nay con người ngày càng có cơ
hội tiếp xúc với nhiều nguồn thống lin trên các nên tảng truyều không xã hội ví
đụ như mạng xã hội trực tuyến, mna sắm rực tuyến, tín tc trực tuyên, dian
dan, Vi vay sự ra đời của điện toán xã hội (Social eomnnting) để trả lời các
căn hỏi và giải quyết các vẫn đã, thách thức về hành vi của người đìng thöng
qua các nên tảng truyền thông xã hội trực tuyến Một trong ba bài toán quan
đó là bài toán khuyén nghj (Recommendation) Bai
trọng của điện toán xã
toán khuyến nghị có ý nghĩa to lớn trong vide nang cao trai nghiệm người dùng
trên các nền tảng truyền thông xã hội trực tuyến
'I*ong nội dựng luận văn, tác gi sẽ trình bày những nghiên cứu của mình về
mỗ hình học gân trong xử lý ngôn ngữ trí nhiền vã bài loán khuyến nghỉ ứng
« Chương 9: Trình bày va bai ton khuyến nghị và thuật toán NRMS
ø Chương ä: 1Yình bày về kết quả thực nghiệm của mỡ hình đề xuất trên dữ
liệu thủ Lhập tif mot trang web tin tite thiực Lễ
Luận văn được hoàn thành trong chương trình 'Lhạc sĩ Khoa học ngành loán tin tại Viện Ioán ứng dụng và in học, Đại học Hách Khoa Hà Nội dưới sự
hướng dẫn của T8 Tê Chí Ngọ
Mặc dù được hoàn Lhành với nhiều cỗ gắng nhưng do những hạn chế về thời
gian và kinh nghiệm, luận văn này không thể tránh khỏi những sai sói Táo giá
rất mong nhận dược những ý kiến đóng góp quý báu tt thầy eö và các bạn học
viên để luận văn được hoàn thiện hơn nữa.
Trang 34CHƯƠNG 1 CƠ SỞ LÝ THUYẾT
1.1 Máy học
Máy học [T[ là một thuật ngữ được khai sinh vào cuối những năm 50 bởi Arthur Samuel Nó là một lĩnh vu
của trí tuệ nhân tạo liên quan đến việc nghiên cứu
và xây dựng các kĩ thuật cho phép các hệ thống "học" tự động từ dữ liệu để giải
quyết những vấn đề cụ thể Ví dụ như các máy có thể "hoc" cach phan loai thư điện tử xem có phải thư rác (spam) hay khõng và tự động xếp thư vào thư mục
tương ứng,
Học máy có liên quan lớn đến thống kẽ, vì cả hai lĩnh vực đều nghiên cứu việc
phân tích dữ liệu, nhưng khác với thống kê, học máy tập trung vào sự phức tạp
của các giải thuật trong việc thực thi tính toán Nhiều bài toán suy luận được
át (supervised learning), học không giám sát (unsupervised learning)
Phương pháp học có giám sát đòi hỏi dữ liệu huấn luyện phải được gán nhãn
Một loạt các thuật toán máy học dựa trên phương pháp này bao gồm: Hồi quy
tuyến tính, Hồi quy logistie Phân lớp Bayes (naive bayes), Cây quyết định, K
- láng giềng gần nhất và Máy veetor hỗ trợ (support vector machine), Những phương pháp này chủ yếu là các phương pháp hồi quy và phân loại Nguyên tắc
hoạt động của các thuật toán này là việ
Với mỗi đầu vào z xác định một đầu ra tương ứng Cá
à tối ưu hóa
Trang 36b_ THỨ NGHIÊM VÀ ĐÁNH GIÁ KẾT QUA
Trang 37gi CHƯƠNG 1 CƠ SỞ LÝ THUYẾT
1.1 Máy học
Máy học [T[ là một thuật ngữ được khai sinh vào cuối những năm 50 bởi Arthur Samuel Nó là một lĩnh vu
của trí tuệ nhân tạo liên quan đến việc nghiên cứu
và xây dựng các kĩ thuật cho phép các hệ thống "học" tự động từ dữ liệu để giải
quyết những vấn đề cụ thể Ví dụ như các máy có thể "hoc" cach phan loai thư điện tử xem có phải thư rác (spam) hay khõng và tự động xếp thư vào thư mục
tương ứng,
Học máy có liên quan lớn đến thống kẽ, vì cả hai lĩnh vực đều nghiên cứu việc
phân tích dữ liệu, nhưng khác với thống kê, học máy tập trung vào sự phức tạp
của các giải thuật trong việc thực thi tính toán Nhiều bài toán suy luận được
át (supervised learning), học không giám sát (unsupervised learning)
Phương pháp học có giám sát đòi hỏi dữ liệu huấn luyện phải được gán nhãn
Một loạt các thuật toán máy học dựa trên phương pháp này bao gồm: Hồi quy
tuyến tính, Hồi quy logistie Phân lớp Bayes (naive bayes), Cây quyết định, K
- láng giềng gần nhất và Máy veetor hỗ trợ (support vector machine), Những phương pháp này chủ yếu là các phương pháp hồi quy và phân loại Nguyên tắc
hoạt động của các thuật toán này là việ
Với mỗi đầu vào z xác định một đầu ra tương ứng Cá
à tối ưu hóa