Nghiên cứu hệ thống khối máy học mlblocks và ứng dụng vào dự đoán lộ trình tối ưu trong giao thông

Với lượng dữ liệu lớn như vậy, vấn đề được đặt ra ở đây là: “Làm thế nào chúng ta có thể sử dụng dữ liệu này một cách có ý nghĩa để cải thiện và tác động vào cuộc sống của chúng ta?”, “L

Trang 1

ĐẶNG THÁI DUY

NGHIÊN CỨU HỆ THỐNG KHỐI MÁY HỌC MLBLOCKS VÀ ỨNG DỤNG VÀO DỰ ĐOÁN LỘ

TRÌNH TỐI ƯU TRONG GIAO THÔNG

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Đà Nẵng - Năm 2017

Trang 2

ĐẶNG THÁI DUY

NGHIÊN CỨU HỆ THỐNG KHỐI MÁY HỌC MLBLOCKS VÀ ỨNG DỤNG VÀO DỰ ĐOÁN LỘ

TRÌNH TỐI ƯU TRONG GIAO THÔNG

Chuyên ngành: Hệ thống thông tin

Mã số: 60.48.01.04

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Người hướng dẫn khoa học: PGS.TSKH TRẦN QUỐC CHIẾN

Đà Nẵng - Năm 2017

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan bản luận văn này là công trình nghiên cứu riêng của tôi, không sao chép ở bất kỳ công trình khoa học nào trước đây Các kết quả nêu trong luận văn

có nguồn gốc rõ ràng và được trích dẫn đầy đủ Tôi xin chịu hoàn toàn trách nhiệm

về luận văn này

Học viên

Đặng Thái Duy

Trang 4

MỤC LỤC

DANH MỤC TỪ VIẾT TẮT v

DANH MỤC CÁC BẢNG vi

DANH MỤC CÁC HÌNH vii

DANH MỤC CÁC BIỂU ĐỒ viii

MỞ ĐẦU 1

1.Lý do chọn đề tài 1

2 Mục tiêu và nhiệm vụ đề tài 2

3 Đối tượng và phạm vi nghiên cứu 2

4 Giải pháp đề xuất 3

5 Kết quả dự kiến 3

6 Bố cục của luận văn 4

CHƯƠNG 1 TỔNG QUAN 5

1.1.KHÁI NIỆM MÁY HỌC 5

1.2.CÁC ỨNG DỤNG MÁY HỌC 6

1.3.QUÁ TRÌNH MÁY HỌC 13

1.4.CÁC PHƯƠNG PHÁP MÁY HỌC 19

1.4.1.Phương pháp học không giám sát (Unsupervised Learning) 20

1.4.2.Phương pháp học bán giám sát (Semi-Supervised Learning) 20

1.4.3.Phương pháp học có giám sát (Supervised Learning) 24

1.4.4.Học tăng cường (reinforcement learning) 25

1.5.TIỂU KẾT CHƯƠNG 28

CHƯƠNG 2 THIẾT KẾ VÀ THỰC THI KHỐI MÁY HỌC MLBLOCKS 29

2.1.TỔNG QUAN 29

2.2.KHÁI NIỆM MLBLOCK 30

2.3.CÁC ỨNG DỤNG MLBLOCK 31

2.3.1.Một số công cụ khai phá dữ liệu 31

2.3.2.Ngôn ngữ lập trình và thư viện cho ML 34

2.3.3.Công cụ thế hệ 2.0 36

Trang 5

2.3.4.Mô hình chung cho các bài toán Machine Learning 39

2.3.5.Mô hình khối máy học MLBlocks 42

2.4.THIẾT KẾ VÀ THỰC THI MLBLOCK CHO DỰ ĐOÁN LỘ TRÌNH GIAO THÔNG 43

2.4.1 Mô hình đề xuất 44

2.4.2 Sử dụng mô hình 45

CHƯƠNG 3 ỨNG DỤNG MLBLOCKS TRONG VIỆC DỰ ĐOÁN LỘ TRÌNH TỐI ƯU TRONG GIAO THÔNG TẠI THÀNH PHỐ ĐÀ NẴNG 47

3.1.THỰC TRẠNG VÀ GIẢI PHÁP 47

3.1.1.Thực trạng giao thông tại thành phố Đà nẵng 47

3.1.2.Giải pháp 49

3.2.CÁC BƯỚC XÂY DỰNG MÔ HÌNH DỰ ĐOÁN LỘ TRÌNH GIAO THÔNG 51

3.2.1.Bước 1: Dữ liệu thực nghiệm 51

3.2.2.Bước 2: Chia dữ liệu training và test 58

3.2.3.Bước 3: Huấn luyện 59

3.2.4.Bước 4: Thực hiện phân lớp 61

3.2.5.Bước 5: Tìm đường đi ngắn nhất 63

3.3.KẾT QUẢ THỰC NGHIỆM 69

3.3.1.Cài đặt môi trường thực nghiệm 69

3.3.2.Thực nghiệm test 70-30 70

3.3.3.Thực nghiệm Test Cross validation với dữ liệu thông thường 72

3.3.4.Thực nghiệm Test Cross validation với dữ liệu xét đến ngày nghỉ lễ 75

3.3.5.Biểu đồ so sánh kết quả thực nghiệm giữa dữ liệu bình thường và dữ liệu có xét đến ngày nghỉ lễ 78

3.3.6.Thực nghiệm với các mức độ tắc đường khác nhau 79

3.3.7.Biểu đồ so sánh kết quả thực nghiệm với các mật độ giao thông khác nhau 80

Trang 6

3.3.8.Thực nghiệm tìm đường đi ngắn nhất 81

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TƯƠNG LAI 82

TÀI LIỆU THAM KHẢO 83 QUYẾT ĐỊNH GIAO ĐỀ TÀI (Bản sao)

Trang 8

Navies Bayes, J48 và Neural Network với bộ phân lớp là

3.11 Test Cross - So sánh kết quả phân lớp sử dụng SVM,

Navies Bayes, J48 và Neural Network

Trang 9

2.4 Ví dụ một mô hình khối máy học lấy ý tưởng từ một

2.5 Mô hình Dự đoán lộ trình Giao thông 45 3.1 Tổng quan về tình trạng giao thông 48 3.2 Minh họa giải pháp tìm lộ trình giao thông 51

3.9 Thông tin chi tiết của các Attributes 61

Trang 10

DANH MỤC CÁC BIỂU ĐỒ

Số hiệu

Biểu đồ 3.1 So sánh Dữ liệu thông thường và Dữ liệu có ngày nghỉ

Trang 11

MỞ ĐẦU

1 Lý do chọn đề tài

Hiện nay, chúng ta đang sống trong một thế giới tràn ngập bởi các dữ liệu Mỗi ngày một lượng dữ liệu lớn được tạo ra trên nhiều thiết bị và những dữ liệu đó là nền tảng để chúng ta rút trích thông tin Một ví dụ đơn giản như sau: Trong một ngày, người dùng Facebook sử dụng khoảng 500 Terabytes, chúng ta có thể hình dung 1

GB có thể lưu trữ khoảng 7 phút video chất lượng HD, do đó 500 Terabytes tương ứng với 6 năm Video chất lượng HD

Với lượng dữ liệu lớn như vậy, vấn đề được đặt ra ở đây là: “Làm thế nào chúng

ta có thể sử dụng dữ liệu này một cách có ý nghĩa để cải thiện và tác động vào cuộc sống của chúng ta?”, “Làm thế nào chúng ta có thể trích xuất thông tin có ý nghĩa để phân tích hoặc xây dựng các thuật toán phức tạp để giải quyết các vấn đề xã hội như chống gian lận, hỗ trợ chăm sóc sức khỏe qua y học, hỗ trợ giải quyết vấn đề giao thông hoặc cải thiện giáo dục”

Đây chính là công việc của một nhà khoa học dữ liệu, khai phá dữ liệu, quyết định phải truy vấn gì, rút trích những thông tin gì, các phương pháp sử dụng để rút trích thông tin là gì và làm thế nào để sử dụng chúng một cách hiệu quả, từ đó có thể xây dựng được các mô hình dự báo, dự đoán hỗ và cải thiện cuộc sống con người Máy học là một lĩnh vực quan trọng trong tin học Mục tiêu chính của máy học

là tạo ra các phương pháp và chương trình làm cho máy tính có thể học như con người Lĩnh vực máy học có quan hệ mật thiết với lĩnh vực phát hiện tri thức, từ đó

nó rút trích và đưa ra những thông tin hay những dự báo cần thiết, có ý nghĩa

Để sử dụng các dữ liệu một cách có ý nghĩa và thiết thực, tôi ứng dụng sức mạnh của công nghệ thông tin trong lĩnh vực máy học để làm việc với tập dữ liệu Vì thế,

tôi thực hiện đề tài “Nghiên cứu hệ thống các khối máy học MLBlocks và ứng dụng vào dự đoán lộ trình tối ưu trong giao thông thành phố Đà Nẵng” Trong

đề tài, tôi sẽ đi sâu nghiên cứu về khối máy học MLBlocks và tôi ứng dụng vào thực tiễn bằng việc áp dụng khối máy học MLBlocks để dự đoán lộ trình tối ưu trong giao thông thành phố Đà Nẵng Từ đó, chúng ta sẽ có cách nhìn rõ nét hơn về máy học,

Trang 12

hiểu được tầm quan trọng và tính thực tiễn của máy học trong cuộc sống con người

2 Mục tiêu và nhiệm vụ đề tài

Mục tiêu

Tìm hiểu về máy học làm nền tảng cho việc khai thác kho dữ liệu

Thiết kế và kiến tạo mô hình của khối máy học MLBlocks phục vụ cho việc rút trích thông tin có ý nghĩa, xây dựng các mô hình dự đoán áp dụng vào thực tế cuộc sống con người

Tìm hiểu một số ứng dụng trong thực tế của hệ thống khối máy học MLBlocks Ứng dụng hệ thông máy học MLBlocks vào trong việc dự đoán điểm đến trong bài toán giao thông

- Phân tích thiết kế hệ thống: Vận dụng lý thuyết máy học, xây dựng và thiết

kế hệ thống khối máy học MLBlocks

- Xây dựng hệ thống ứng dụng: Tiến hành thu thập số liệu, cập nhật bản đồ giao thông thành phố Đà Nẵng, xây dựng cơ sở tri thức Trên cơ sở đó ứng dụng

MLBlock vào dự đoán điểm đến cho giao thông thành phố Đà Nẵng

3 Đối tượng và phạm vi nghiên cứu

3.1 Đối tượng nghiên cứu

- Nghiên cứu lý thuyết cơ bản khai phá dữ liệu, hệ chuyên gia, máy học

- Nghiên cứu, tìm hiểu lý thuyết về khối máy học MLBlocks và tìm hiểu một

số ứng dụng thực tế của MLBlock

- Nghiên cứu bản đồ thành phố Đà Nẵng

3.2 Phạm vi nghiên cứu

- Nghiên cứu về việc thiết kế và thực thi MLBlocks

- Dữ liệu bản đồ của địa bàn thành phố Đà Nẵng

Trang 13

- Ứng dụng của đề tài chỉ giới hạn trong phạm vi thành phố Đà Nẵng

3.3 Phương pháp nghiên cứu

Để hoàn thành mục tiêu đề ra, tôi chọn phương pháp nghiên cứu lý thuyết và tiến hành xây dựng ứng dụng thực nghiệm Cụ thể như sau:

- Về lý thuyết: Tham khảo các tài liệu lý thuyết liên quan

- Về thực nghiệm:

+ Thu thập số liệu bản đồ giao thông để xây dựng cơ sở tri thức

+ Ứng dụng MLBlocks trên số liệu thu thập được

- Nắm được lý thuyết máy học

- Nghiên cứu các thuật toán Vector máy học; K-Nearest Neighbor; cây quyết định; rừng ngẫu nhiên; Naive Bayes để làm cơ sở cho các nút phân tích dữ liệu

- Nắm được quá trình thiết kế và thực thi hệ thống khối máy học MLBlocks

Trang 14

giúp ích rất nhiều trong cuộc sống của con người Thành công của MLBlocks giúp con người có thể dự báo được những thiên tai có thể xảy ra, …

5.2 Thực tiễn

Ứng dụng hệ thống khối máy học MLBlocks trong việc dự đoán điểm đến trong giao thông tại thành phố Đà Nẵng

6 Bố cục của luận văn

Báo cáo của luận văn dự kiến tổ chức thành 3 chương chính như sau:

CHƯƠNG 1: TỔNG QUAN VỀ MÁY HỌC

Trình bày lý thuyết tổng quan về bài toán máy học và một số phương pháp làm

nền tảng cho việc xây dựng và thiết kế khối máy học

CHƯƠNG 2: THIẾT KẾ VÀ THỰC THI KHỐI MÁY HỌC MLBLOCKS

Trình bày khái niệm và mô hình MLBlocks, nghiên cứu cách thức xử lý dữ liệu

và kết xuất dữ liệu của MLBlocks, từ đó đưa ra mô hình khối máy học có thể áp dụng

để giải quyết bài toán tối ưu trong giao thông

CHƯƠNG 3: ỨNG DỤNG MLBLOCKS TRONG VIỆC DỰ ĐOÁN LỘ TRÌNH TỐI ƯU TRONG GIAO THÔNG TẠI THÀNH PHỐ ĐÀ NẴNG

Trình bày quá trình dự đoán lộ trình tối ưu trong giao thông thành phố Đà Nẵng qua việc áp dụng hệ thống MLBlocks Trong chương này sẽ trình bày chi tiết bài toán tối ưu lộ trình giao thông qua việc mô tả quá trình xử lý dữ liệu đầu vào và đánh giá

độ chính xác của kết quả thực nghiệm thu được

Trang 15

CHƯƠNG 1 TỔNG QUAN

1.1 KHÁI NIỆM MÁY HỌC

Học máy (Machine Learning) là một ngành khoa học nghiên cứu các thuật toán cho phép máy tính có thể học được các khái niệm (concept)[1]

Phân loại: Có hai loại phương pháp học máy chính[4]:

 Phương pháp quy nạp: Máy học/phân biệt các khái niệm dựa trên dữ liệu đã thu thập được trước đó Phương pháp này cho phép tận dụng được nguồn dữ liệu rất nhiều và sẵn có

 Phương pháp suy diễn: Máy học/phân biệt các khái niệm dựa vào các luật Phương pháp này cho phép tận dụng được các kiến thức chuyên ngành để hỗ trợ máy tính

Hiện nay, các thuật toán đều cố gắng tận dụng được ưu điểm của hai phương pháp này

Các ngành khoa học liên quan:

 Lý thuyết thống kê: các kết quả trong xác suất thống kê là tiền đề cho rất nhiều phương pháp học máy Đặc biệt, lý thuyết thống kê cho phép ước lượng sai số của các phương pháp học máy

 Các phương pháp tính: các thuật toán học máy thường sử dụng các tính toán

số thực/số nguyên trên dữ liệu rất lớn Trong đó, các bài toán như: tối ưu có/không ràng buộc, giải phương trình tuyến tính v.v… được sử dụng rất phổ biến

 Khoa học máy tính: là cơ sở để thiết kế các thuật toán, đồng thời đánh giá thời gian chạy, bộ nhớ của các thuật toán học máy

Các nhóm giải thuật học máy:

 Học có giám sát: Máy tính được xem một số mẫu gồm đầu vào (input) và đầu

ra (output) tương ứng trước Sau khi học xong các mẫu này, máy tính quan sát một đầu vào mới và cho ra kết quả

 Học không giám sát: Máy tính chỉ được xem các mẫu không có đầu ra, sau đó máy tính phải tự tìm cách phân loại các mẫu này và các mẫu mới

Trang 16

 Học nửa giám sát: Một dạng lai giữa hai nhóm giải thuật trên

 Học tăng cường: Máy tính đưa ra quyết định hành động (action) và nhận kết quả phản hồi (response/reward) từ môi trường (environment) Sau đó máy tính tìm cách chỉnh sửa cách ra quyết định hành động của mình

1.2 CÁC ỨNG DỤNG MÁY HỌC

Ứng dụng: Học máy có ứng dụng rộng khắp trong các ngành khoa học/sản xuất, đặc biệt những ngành cần phân tích khối lượng dữ liệu khổng lồ Một số ứng dụng thường thấy[4]

 Xử lý ngôn ngữ tự nhiên (Natural Language Processing): xử lý văn bản, giao tiếp người – máy…

 Nhận dạng (Pattern Recognition): nhận dạng tiếng nói, chữ viết tay, vân tay, thị giác máy (Computer Vision) …

 Tìm kiếm (Search Engine)

 Chẩn đoán trong y tế: phân tích ảnh X-quang, các hệ chuyên gia chẩn đoán tự động

 Sinh học: phân loại chuỗi gene, quá trình hình thành gene/protein

 Vật lý: phân tích ảnh thiên văn, tác động giữa các hạt …

 Phát hiện gian lận tài chính (financial fraud): gian lận thẻ tỉn dụng

 Phân tích thị trường chứng khoán (stock market analysis)

 Chơi trò chơi: tự động chơi cờ, hành động của các nhân vật ảo

Rôbốt: Là tổng hợp của rất nhiều ngành khoa học, trong đó học máy tạo nên hệ thần kinh/bộ não của người máy

Đối với các hoạt động về kinh doanh, phân tích thị trường, những năm gần đây cho thấy xu hướng bùng nổ đáng kinh ngạc về mặt nội dung trên các trang thông tin điện tử (Website) Với hiện trạng hiện nay, Tập đoàn Dữ liệu Quốc tế IDC (International Data Corporation) dự đoán, vào năm 2020 không gian số sẽ phình to gấp 300 lần – dữ liệu tăng từ khoảng 130 tỷ GB hiện nay lên đến 40.000 tỷ GB Dữ liệu, thông tin trên Website sẽ đạt đến con số không thể tin được cùng với tiềm năng

to lớn trong việc khai thác dữ liệu cho các hoạt động kinh doanh, tiếp thị hiệu quả

Trang 17

Bên cạnh đó, vấn đề then chốt nảy sinh từ xu hướng dữ liệu lớn này (còn gọi là “Big Data”) – đó chính là não bộ của con người chỉ có thể lưu giữ nhiều nhất khoảng 1 triệu GB dữ liệu Như vậy, với lượng dữ liệu quá lớn của thế giới trực tuyến đã vượt quá sự kiểm soát và xử lý của não bộ Thông tin, dữ liệu càng nhiều sẽ nâng cao khả năng, cơ hội tiếp cận với các thông tin cần thiết để chinh phục người dùng, chính vì vậy ngành kinh doanh, tiếp thị cần đến những hệ thống quản trị và xử lý thông tin hiệu quả hơn – Với khả năng mở rộng tương ứng để theo kịp quy mô khổng lồ của

không gian số sắp tới Thuật ngữ Machine learning (máy học) bắt đầu được sử dụng

phổ biến hơn bao giờ hết

Đối với lĩnh vực giao thông đường bộ tại các thành phố đang phát triển, bài toán đặt ra đó là làm thế nào để giảm thiểu tình trạng ùn ứ phương tiện tham gia giao thông trong điều kiện cơ sở hạ tầng đường bộ phát triển chậm so với mật độ dân số đang tăng nhanh kéo theo sự bùng nổ của các phương tiện giao thông cá nhân Bên cạnh

đó, có rất nhiều phương pháp tối ưu lộ trình giao thông được sử dụng với mục tiêu cuối cùng là chọn lộ trình ngắn nhất từ điểm xuất phát đến điểm đích mà bỏ qua việc phân tích các dữ liệu liên quan như: Giờ cao điểm, con đường thường xuyên xảy ra tắc đường, …Việc áp dụng phương pháp Machine learning xử lý tập dự liệu đủ lớn (dữ liệu sẽ tự phát triển và liên tục được hệ thống cập nhật, phân tích), sẽ giải quyết triệt để và bổ khuyết cho các giải pháp tối ưu lộ trình giao thông hiện nay vốn bị hạn chế trong các điều kiện thiếu thông tin, thông tin động

Hiểu đơn giản, Machine learning là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc phát triển các phương pháp kỹ thuật, cho phép máy móc “học” tự động từ

dữ liệu để hỗ trợ con người giải quyết vấn đề nhanh chóng với một lượng thông tin khổng lồ phát sinh hàng ngày Có thể nói động lực của Machine learning xuất phát từ nhu cầu thu nhận kiến thức ngày càng gia tăng trong khi nguồn lực con người đáp ứng cho nhu cầu này chỉ có giới hạn

Để hiểu rõ vai trò ngày càng to lớn và ứng dụng rộng rãi của Machine learning, nên bắt đầu tìm hiểu từ hệ thống phân loại Internet từ những ngày đầu mới xuất hiện

Machine learning gắn liền với quá trình phát triển Internet

Trang 18

Thực tế, Machine learning xuất hiện trước cả Internet, nhưng chỉ dưới dạng

những thuật toán cơ bản giúp phân loại thư rác (thuật toán Perceptron) Dần dần khi

Internet ra đời và có những bước tiến mới, Machine learning mới phát triển song hành

và ngày càng hoàn thiện hơn

Từ khi Internet ra đời vào những năm 1970, lượng thông tin con người tích lũy được cũng không phải là nhỏ Tuy nhiên lúc ấy chúng ta không biết làm gì với đống

dữ liệu này ngoài việc chép và lưu trữ Mãi cho đến khi Internet phát triển, ngày càng

có nhiều kết nối, cùng với sự xuất hiện của mạng xã hội khiến nhu cầu chia sẻ thông tin tăng trưởng chóng mặt, các nhà khoa học nhận ra rằng đằng sau những dữ liệu khổng lồ này là lượng tri thức vô giá Đó là lúc “Big Data” chính thức ra đời

Lúc này, để hiểu được giá trị ẩn chứa trong Big Data cũng như khai thác chúng trên qui mô lớn, con người cần đến những tài nguyên công nghệ – mà mấu chốt chính

là Machine learning

Còn nhớ sự ra đời của Yahoo (năm 1994) như một Website phục vụ tìm kiếm những trang Website hay hoặc các thông tin hữu ích,… – những nhu cầu đang rất phổ biến trong giai đoạn này Thành công của Yahoo dựa trên hoạt động lưu vết các trang thông tin điện tử, lưu lại các địa chỉ được yêu thích này dưới dạng các danh mục đặc trưng mà sau đó được sử dụng để cung cấp thông tin cho người dùng đang tìm kiếm Tuy nhiên khi Internet bắt đầu phát triển, hệ thống này nhanh chóng bộc lộ tính không hiệu quả Đơn giản vì nó quá thủ công nên không thể mở rộng, nâng cấp thêm nữa

Lúc này, Google dần nổi lên và thống trị nhờ sức sáng tạo trong việc hiểu về các Website Thông qua việc không ngừng phát triển các thuật toán Machine learning, Google đã tạo ra một hệ thống chuyên thu thập, phân tích về những ‘dự định’ và ‘giá trị’ của Website Quá trình này tập trung vào các tiêu chí như: ‘có bao nhiêu lượt truy cập đến Website từ liên kết ngoài’ hay ‘loại từ khóa nào có giá trị gắn kết với Website cao nhất’,…

Theo bước phát triển của dữ liệu, tiềm năng của Machine learning ứng dụng vào cuộc sống hằng ngày của con người không còn là câu hỏi mà đã trở thành thực tế vì

Trang 19

những giá trị to lớn nó mang lại trong khả năng thu thập, phân tích dữ liệu và hỗ trợ

ra quyết định Nhưng cần phải nhìn nhận rằng Machine learning chỉ là một công cụ đầy sức mạnh hỗ trợ cho hoạt động của con người, chứ không phải “liều thuốc trị bách bệnh” khiến con người có thể để mặc mọi vấn đề cho máy tính và các thuật toán

xử lý

Machine learning và vai trò của con người

Dù một hệ thống có sự phát triển tiên tiến về mặt công nghệ như thế nào đi nữa,

nó vẫn không bao giờ có thể thay thế được con người

Máy móc có sức mạnh trong việc tìm kiếm những mẫu hình liên quan đến hành

vi khách hàng, có thể nắm bắt tín hiệu dự định hoặc dự báo hành vi, nhưng lại không thể viết một bài báo giúp tạo động lực thúc đẩy người tiêu dùng mua sắm Nó có thể tiết lộ thứ khách hàng mục tiêu muốn đọc nhưng lại không thể tạo nên chính những nội dung này

Tương tự như vậy, vai trò của Machine learning chính là cung cấp những hiểu biết chuyên sâu cần để tối ưu hóa việc sản xuất nội dung, còn lĩnh vực sáng tạo thuộc

về trách nhiệm của con người

Machine learning hỗ trợ đưa ra các quyết định thông minh

Machine learning ngày càng thống trị trong nhiều mảng công nghệ khác nhau

Nó có thể là những công cụ đơn giản nhất như kiểm tra lỗi chính tả khi viết bài, hay thiết lập chế độ tự động loại bỏ thư rác trong hộp thư điện tử Mở rộng hơn, quy trình Machine learning còn được ứng dụng trên các mạng xã hội như Facebook, Twitter, Instagram, Google+ (giúp đưa ra các nội dung đề nghị), hay trên các nền tảng Website (giúp đưa ra lời khuyên dựa trên dự đoán về hành vi, sở thích của người dùng)[5][6] Trong lĩnh vực kinh doanh, Machine learning sẽ mang lại cơ hội hiểu biết sâu hơn về hành vi mua sắm của khách hàng Nó giúp “thuần hóa” lượng dữ liệu khổng

lồ sẵn có thành những hiểu biết có giá trị về các điểm tiếp xúc và hành vi khách hàng Thay vì cố gắng tìm hiểu ý định của người dùng theo cách thủ công, các doanh nghiệp

có thể dựa trên việc phân tích dữ liệu để mang lại một bức tranh rõ nét hơn về ‘sản phẩm khách hàng đang quan tâm’ hoặc ‘xu hướng mua sắm của khách hàng’

Trang 20

Quy trình xử lý ngôn ngữ tự nhiên (NLP – Natural Language Processing) là một trong những ứng dụng Machine learning cực kỳ hữu ích cho hoạt động tiếp thị Nói nôm na là làm cho máy tính có thể hiểu được ngôn ngữ của con người Bước đầu NLP phân tích nội dung dựa trên các chủ đề, sau đó nhóm chúng thành từng danh mục riêng và hiểu rõ từng đối tượng nào quan tâm đến từng danh mục nào

Ví dụ nội dung Website có thể được nhóm thành mục B2B và B2C, và trong từng mục sẽ được chia nhỏ thành nhiều chủ đề khác nhau như “personalization” (cá nhân hóa), “technology” (công nghệ), hay “machine learning” (Máy học) Khi người dùng truy cập Website và bắt đầu phát ra tín hiệu về mối quan tâm đối với một nội dung nào đó, hệ thống Machine learning có thể hiểu đâu là thứ người này quan tâm

và loại hình tiếp thị nào có thể phù hợp nhất giúp thúc đẩy hành động Từ những hiểu biết này, hệ thống máy học có thể nhóm người dùng vào những phân khúc nhất định

để nhắm mục tiêu quảng cáo một cách phù hợp nhất

Machine learning và tiếp thị nội dung

Khi công nghệ Machine learning bắt đầu chứng minh giá trị của mình, nó nhanh chóng được tích hợp vào các công cụ giúp tối ưu hóa nội dung tiếp thị

Ví dụ như công nghệ Vedo Intent của DataSift cũng sử dụng Machine learning

để giúp doanh nghiệp nắm bắt xu hướng của các khách hàng tiềm năng thông qua mạng xã hội Dựa vào những thông tin dự đoán mà hệ thống này mang lại, những sản phẩm/dịch vụ mới sẽ được đưa vào kế hoạch sản xuất Như vậy từ một hệ thống phỏng đoán và ước tính liên tục, hệ thống này đã trở thành một hệ thống hiệu quả và mang về lợi nhuận[7]

Khi hệ thống xử lý ngôn ngữ tự nhiên NLP bắt đầu hiểu dự định và những thứ người dùng muốn xem trên các trang thông tin điện tử, hệ thống quản trị nội dung có thể nhận dạng và hướng mục tiêu vào các nội dung được xác định là có thể khơi gợi

sự quan tâm của người dùng

Ngoài ra, Machine learning có thể hỗ trợ đánh giá chất lượng và tính phù hợp của nội dung dựa vào những tín hiệu quan trọng sau:

 Tần suất người dùng tham khảo nội dung

Trang 21

 Tần suất làm mới lại nội dung

Xu hướng/Mẫu hình thưởng thức nội dung theo thời gian – giúp quan sát và định vị chính xác thời điểm nào người dùng có thể quan tâm nhất đến việc theo dõi nội dung

Thông qua các đánh giá này, doanh nghiệp có thể điều chỉnh nội dung và các thông điệp sao cho hữu ích hơn, cá nhân hóa hơn, giúp tối ưu hóa trải nghiệm người dùng một cách hiệu quả

Áp dụng Machine Learning trong thực tế

Dưới đây là một số doanh nghiệp đi tiên phong và cho thấy được sức mạnh của Machine learning trong việc sản xuất nội dung

 Kraft [9]

Ông lớn ngành hàng bánh kẹo Kraft đã triển khai Quy trình Machine Learning

để theo dấu hơn 22.000 đặc trưng về tính cách của khách hàng tiềm năng dựa trên cách họ tương tác với các nội dung trực tuyến của thương hiệu Những nỗ lực đã mang về cho Kraft gần 1,1 tỷ lượt hiển thị quảng cáo mỗi năm Bên cạnh đó, công ty cũng bắt đầu nhận thấy hoạt động tiếp thị nội dung của mình thành công đáng kể khi mang lại tỷ lệ lợi nhuận cao gấp 4 lần so với hoạt động quảng cáo Các nội dung này phù hợp với từng đối tượng nên thu hút người dùng quan tâm đến thương hiệu Kraft

và xác xuất họ trở thành khách hàng mới trở nên cao hơn

Trang 22

 Một nhà sản xuất lốp xe nổi tiếng

Gần đây, một nhà sản xuất lốp xe nổi tiếng (xin được giấu tên) đã tiến hành áp dụng Machine learning cho các quảng cáo của mình Dựa trên việc triển khai các ý tưởng liên quan đến máy học, thương hiệu này đã đạt được mức tăng trưởng vượt trội trong việc bán sản phẩm tương ứng với tỷ lệ nhấp chuột đối với các quảng cáo và chiến lược kinh doanh mà hệ thống máy học hỗ trợ, từ 0,07% lên 0,32% – theo thông tin từ chuyên trang MarketingProfs

Những quảng cáo giờ đây có thể nhắm mục tiêu một cách chuẩn xác hơn, giúp hiển thị đến đối tượng thực sự có nhu cầu và giúp các tương tác có thể nhanh chóng thúc đẩy hành động

Tóm lại

Machine learning đang nhanh chóng chiếm lĩnh vị thế quan trọng trong thế giới khai thác dữ liệu số Các nhà khoa học, các tổ chức kinh doanh và mọi người cũng bắt đầu thấy được giá trị của xu hướng công nghệ này trong việc xử lý dữ liệu và cung cấp hiểu biết về dự định của người dùng trực tuyến Dưới đây là một số lưu ý liên quan đến vai trò và xu hướng của Machine learning trong thời gian sắp tới:

 Sẽ có một lượng lớn dữ liệu và nội dung được tạo ra và vượt xa khả năng của con người trong việc tổng hợp và tính toán Do đó, Machine learning sẽ trở thành công nghệ bắt buộc phải có cho hoạt động tiếp thị quảng cáo

 Machine learning giúp mang lại sức mạnh khai thác Big Data phục vụ cho hoạt động phân tích thay vì để mặc lượng dữ liệu không lồ này lãng phí

 Machine learning giúp tạo nên những trải nghiệm được cá nhân hóa tối ưu cho người dùng, qua đó gia tăng nhận thức và ấn tượng về thương hiệu

Machine learning giúp thương hiệu triển khai các nỗ lực tiếp thị một cách tốt hơn đối với đúng nhóm khách hàng mục tiêu

 Machine learning sẽ không bao giờ thay thế được các sáng tạo thuộc về con người, mà thay vào đó sẽ hỗ trợ quá trình sản xuất nội dung sao cho hiệu quả hơn

 Khi không gian số không ngừng mở rộng, hoạt động kinh doanh phải đối mặt với những thách thức không chỉ liên quan đến việc tạo nên sức ảnh hưởng giữa vô

Trang 23

vàn đối thủ cạnh tranh, mà còn liên quan đến việc vận dụng lượng lớn dữ liệu sẵn có nếu không muốn bị tụt lại

Machine learning mang đến cho con người sức mạnh để thực hiện các điều trên Khi đã nhận thức rõ sức mạnh của công nghệ này, con người có thể bắt đầu triển khai, quan sát và cải thiện cách nó hoạt động tương ứng với từng lĩnh vực trong đời sống

1952 – Arthur Samuel đã viết chương trình máy học đầu tiên Chương trình này

là trò chơi cờ ca-ro, và máy tính IBM càng chơi càng tiến bộ, học được các nước đi tạo lập nên chiến lược để chiến thắng và tích hợp các nước đi đó vào chương trình của mình

1957 – Frank Rosenblatt thiết kế hệ thần kinh (neural network) đầu tiên cho máy tính (gọi là “perceptron”) mô phỏng các quá trình tư duy của não người

1967 – Thuật toán “điểm lân cận gần nhất” (nearest neighbor) được viết ra cho phép các máy tính bắt đầu sử dụng dạng mẫu nhận thức rất cơ bản Thuật toán này có thể được sử dụng để vẽ một tuyến đường cho nhân viên bán hàng lưu động, bắt đầu

từ một thành phố ngẫu nhiên nhưng đảm bảo họ tới tất cả các thành phố trong một chuyến đi ngắn

1979 – Sinh viên Đại học Standford phát minh ra xe “Standford Car” có thể tự xác định được vật cản trong phòng

1981 – Gerald Dejong giới thiệu khái niệm Học qua giải thích (Explanation Based Learning – EBL), trong đó một máy tính phân tích dữ liệu huấn luyện và tạo ra một quy tắc chung mà nó có thể làm theo bằng cách loại bỏ các dữ liệu không quan trọng

1985 – Terry Sejnowski phát minh ra NetTalk, học cách phát âm giống như một đứa trẻ

Trang 24

1990 – Các nghiên cứu về marchine learning chuyển từ cách tiếp cận kiến-thức sang cách tiếp cận hướng-dữ-liệu Các nhà khoa học bắt đầu tạo các chương trình cho máy tính để phân tích một lượng lớn dữ liệu và rút ra kết luận – hay “học” – từ các kết quả

hướng-1997 – Máy tính Deep Blue của IBM đánh bại nhà vô địch cờ vua thế giới

2006 – Geoffrey Hinton tạo ra thuật ngữ “học sâu” (deep learning) để giải thích các thuật toán mới cho phép các máy tính “nhìn thấy” và phân biệt các đối tượng và văn bản trong hình ảnh và video

2010 – Máy Microsoft Kinect có thể theo dõi 20 tính năng của con người ở tốc

độ 30 lần mỗi giây, cho phép mọi người tương tác với máy tính thông qua các động tác và cử chỉ

2011 – Máy IBM Watson đánh bại các đối thủ là con người tại Jeopardy

2011 – Google Brain được phát triển, và hệ thần kinh sâu (deep neural network) của nó có thể học để phát hiện và phân loại các đối tượng bằng với khả năng của một chú mèo

2012 – X Lab của Google phát triển một thuật toán machine learning có khả năng tự duyệt video YouTube để xác định các video có chứa hình ảnh mèo

2014 – Facebook phát triển DeepFace, một thuật toán phần mềm có thể nhận diện hoặc xác minh các cá nhân trong các bức ảnh ở mức độ ngang với con người

2015 – Amazon ra mắt nền tảng machine learning riêng của mình

2015 – Microsoft tạo ra bộ công cụ máy học được phân bổ (Distributed Machine Learning Toolkit), cho phép phân bổ hiệu quả machine learning trên nhiều máy tính

2015 – Hơn 3.000 nhà nghiên cứu về AI và Robotics, được Stephen Hawking, Elon Musk và Steve Wozniak (và nhiều người khác) hậu thuẫn, đã ký một bức thư ngỏ cảnh báo nguy cơ của vũ khí tự hành có thể lựa chọn và nhắm vào các mục tiêu

mà không cần sự can thiệp của con người

2016 – Thuật toán trí tuệ nhân tạo (artificial intelligence algorithm) của Google

đã đánh bại một cầu thủ chuyên nghiệp trong trò cờ vây của Trung Quốc, vốn được coi là trò cờ phức tạp nhất thế giới và khó hơn cờ vua gấp nhiều lần Thuật toán

Trang 25

AlphaGo do Google DeepMind phát triển đã giành chiến thắng năm trên năm trận đấu cờ vây

Vậy liệu chúng ta đã tiến gần tới trí tuệ nhân tạo chưa? Một số nhà khoa học cho rằng đó thực ra là một câu hỏi sai Họ tin rằng một máy tính sẽ không bao giờ

“nghĩ” theo cách của bộ não con người, và việc so sánh các phân tích tính toán và thuật toán của một máy tính với mưu cao kế sâu của trí óc con người cũng giống như

so sánh trái táo với trái cam vậy

Dù thế nào, khả năng nhìn, hiểu và tương tác với thế giới xung quanh của máy tính đang phát triển với một tốc độ đáng kể Và khi lượng dữ liệu mà chúng ta tạo ra tiếp tục phát triển theo cấp số nhân thì khả năng xử lý và phân tích của máy tính cũng

sẽ tăng lên tương ứng

Các Quy trình cơ bản của máy học:

Các phần chính của một Quy trình Machine learning bao gồm:

Mô hình (Model) – là hệ thống mô phỏng các mẫu hình từ thực tế giúp đưa ra

dự báo hoặc nhận dạng

Các thông số (Parameter) – là những tín hiệu hoặc yếu tố được cho là có khả năng gây ảnh hưởng lên kết quả mô hình, được sử dụng để đưa ra quyết định

Cơ chế học hỏi (Learner) – là quá trình đánh giá, đối chiếu khác biệt giữa các

dự báo và kết quả thực tế, tiến hành các điều chỉnh thông số hợp lý cho đến khi mô

Trang 26

hình đạt được mức độ chính xác đặt ra

Giả sử trong thực tế phát sinh một nhu cầu như sau: một giảng viên muốn xác

định được lượng thời gian tối đa sinh viên cần dành cho việc học để đạt được điểm

số cao nhất có thể

Nhu cầu này được cụ thể hóa thành bài toán: tạo ra một cơ chế giúp dự báo điểm

số kiểm tra khi biết được thời gian dành cho việc học, qua đó cũng giúp xác định thời gian học tối ưu để đạt kết quả tốt nhất

Dĩ nhiên một giảng viên có thể thực hiện điều tra một nhóm sinh viên, sau đó xác định một mẫu hình chung cho nhóm này và thực hiện các ước lượng một cách thủ công Tuy nhiên trong thống kê, mẫu cần phải đủ lớn để cho độ chính xác nhất định Bên cạnh đó, Quy trình mô phỏng thực tế này đòi hỏi quá trình điều chỉnh lặp

đi lặp lại không ngừng với lượng lớn dữ liệu Điều này gây lãng phí thời gian, công sức và nhiều khi vượt quá khả năng của con người Chính lúc này một quá trình Machine learning sẽ phát huy hiệu quả tốt nhất

Bước 1 – Thiết lập mô hình (Model)

Để bắt đầu quá trình, giảng viên phải là người đưa ra những giả định đầu tiên vào mô hình, bao gồm:

Các biến (x) nào tác động lên kết quả mô hình (y): Ở đây chỉ có một yếu tố gây ảnh hưởng (x) là ‘thời gian học tập’, còn đầu ra (y) chính là ‘kết quả kiểm tra’ Mối quan hệ giữa x và y: Ở đây giả định x tác động lên y theo mối quan hệ

tuyến tính Có nghĩa là phương trình biểu diễn mối quan hệ là hàm bậc nhất: y=Wx + b Hiểu nôm na là: khi ‘thời gian học tập’ tăng lên 1 đơn vị thì ‘kết quả kiểm tra’

sẽ tăng lên (W +b) đơn vị; các thông số W,b này không đổi nên khi biểu diễn trên đồ thị y sẽ là đường thẳng

Ngoài ra, dựa trên phỏng đoán chủ quan, giảng viên có thể đưa ra các giả định

ban đầu như: W=1, b=5 (y= x + 5).Theo đó thời gian học và điểm số đạt được có thể

diễn giải như sau:

0 giờ = 5 điểm

1 giờ = 6 điểm

Trang 27

2 giờ = 7 điểm

3 giờ = 8 điểm

4 giờ = 9 điểm

5 giờ = 10 điểm

Điều này cũng thể hiện rằng giảng viên tin tưởng ‘việc học 5 giờ mỗi ngày sẽ

mang lại kết quả kiểm tra tốt nhất (10 điểm) cho sinh viên’

Như vậy từ những giả thiết ban đầu trên, máy tính sẽ khái quát vấn đề thành phương trình toán học được mô tả như đồ thị bên dưới

Bước 2 – Cung cấp dữ liệu đầu vào thực tế (Parameter)

Sau khi mô hình được thiết lập, các thông tin thực tế sẽ được đưa vào Giáo viên

sẽ cung cấp các dữ liệu thực tế về ‘kết quả kiểm tra – x’ và ‘thời gian học tập – y’ được thu thập từ các sinh viên nằm trong mẫu nghiên cứu

Biểu diễn tập (x, y) của mỗi sinh viên lên đồ thị ở trên và quan sát sơ bộ Kết quả thực tế không khớp với dự báo: từng điểm chấm (thể hiện cho từng sinh viên với

số điểm và thời gian học cụ thể) không nằm ngay trên đồ thị mà phân bổ rải rác bên trên hoặc bên dưới Điều này chứng tỏ các giả định ban đầu của giảng viên ở bước 1

là không chính xác và cần sự điều chỉnh Đây chính là lúc quá trình ‘tự học’ của máy tính được kích hoạt

Trang 28

Bước 3 – Quá trình điều chỉnh tự động (Learner)

Cơ chế Learner của hệ thống sẽ nhìn vào dữ liệu và các thông số, đánh giá độ chênh lệch giữa thực tế và mô hình, sau đó sử dụng nhiều công thức toán để điều

chỉnh các giả định ban đầu, chẳng hạn như W=1, b=4 (y = x + 4) Khi đó:

Với giả định này, máy tính đang điều chỉnh theo hướng cần có nhiều thời gian

học hơn (6 giờ) để đạt được điểm số tốt nhất

Bây giờ chạy lại mô hình với các giả định mới Số liệu thực tế tiếp tục được so sánh với mô hình được chỉnh sửa Nếu mô hình thành công thì dữ liệu thực tế phải gần với các số liệu dự báo Tuy nhiên theo quan sát, dữ liệu thực tế vẫn tiếp tục phân

bổ rời rạc thay vì nằm tập trung gần đường mô phỏng Do đó cơ chế tự học sẽ tiếp tục lặp đi lặp lại các thay đổi cho đến khi mô hình dự báo đạt được độ tin cậy cao nhất – khi đó với mỗi thời gian học nhất định, giảng viên có thể dự đoán gần chính xác điểm số kiểm tra trong thực tế

Trang 29

Những điểm cần lưu ý

Bên trên chỉ là một phác họa rất đơn giản về Quy trình Machine learning để giải bài toán tối ưu hóa, trong đó giá trị của các thông số được chọn sao cho tối ưu một tiêu chuẩn nào đó do người xây dựng mô hình quyết định Trong thực tế, vấn đề có thể phức tạp hơn rất nhiều:

Ngoài yếu tố thời gian học tập, còn rất nhiều thứ có thể tác động đến điểm số như khả năng tiếp thu, sức khỏe, điều kiện học tập,… của mỗi sinh viên, và mỗi yếu

tố lại tác động không hề giống nhau Do đó mô hình có thể không đơn giản chỉ là phương trình bậc 1 với một biến số mà có thể phức tạp hơn với nhiều biến hoặc là phương trình đa thức,…

Mẫu sinh viên được chọn có đủ lớn và có tính đại diện cho tổng thể hay không Quan trọng nhất là quan điểm của giảng viên về một mô hình tốt nhất, khả năng dự đoán của mô hình ở mức độ bao nhiêu là vừa, hay về việc xác định một tiêu chuẩn quan tâm nhất và chọn giá trị của tham số sao cho tối ưu tiêu chuẩn này (trong trường hợp này

mối quan tâm của giảng viên chính là thời gian học tối đa để tối ưu hóa điểm số)

1.4 CÁC PHƯƠNG PHÁP MÁY HỌC

Trong lĩnh vực máy học có nhiều phương pháp học khác nhau, trong phần này

đề cập đến 3 phương pháp học được sử dụng phổ biến nhất, gồm có: học không giám

sát, học bán giám sát và học có giám sát

Trang 30

1.4.1 Phương pháp học không giám sát (Unsupervised Learning)

Khái niệm học không giám sát: Học không giám sát là học với tập dữ liệu huấn luyện ban đầu hoàn toàn chưa được gán nhãn Học không giám sát là phương pháp học sử dụng cho lớp bài toán gom cụm, phân cụm (Clustering)

Nội dung phương pháp học không giám sát:

 Để thực hiện phân cụm, trước tiên cần một tập dữ liệu huấn luyện (training dataset) – là một tập các ví dụ học (training examples/instances) Trong đó, mỗi ví dụ học chỉ chứa thông tin biểu diễn (ví dụ: một vector các giá trị thuộc tính), mà không

có bất kỳ thông tin gì về nhãn lớp hoặc giá trị đầu ra mong muốn (expected output)

 Áp dụng một thuật toán học không có giám sát (ví dụ k-Means) để học hàm/mô hình mục tiêu (trong trường hợp này là hàm phân cụm ứng với thuật toán được chọn)

 Sử dụng một phương pháp thử nghiệm (có thể kết hợp với một tập dữ liệu có gán nhãn) để đánh giá hiệu năng/chất lượng của hàm mục tiêu học được

Một số thuật toán học không giám sát:

 Có rất nhiều thuật toán học không giám sát được ra đời và phát triển nhằm giải quyết bài toán phân cụm phục vụ khai thác hiệu quả nguồn dữ liệu chưa gán nhãn nhiều và rất đa dạng Việc lựa chọn sử dụng thuật toán nào tuỳ thuộc vào dữ liệu và mục đích của từng bài toán Trong đó các thuật toán thường được sử dụng như: k-

means, HAC (Hierarchical Agglomerative Clustering), SOM (Self-Organizing

Map), DBSCAN, FCM (Chi tiết các thuật toán này có thể tìm kiếm trên Internet)

1.4.2 Phương pháp học bán giám sát (Semi-Supervised Learning)

Trong thực tế, để có được một tập dữ liệu có chất lượng và đã được gán nhãn của một lĩnh vực, thường được thực hiện thủ công bằng tay bởi người có nhiều kinh nghiệm về lĩnh vực đó Vì vậy, dữ liệu đã được gán nhãn thường ít và đắt Trong khi

đó, dữ liệu chưa được gán nhãn lại rất nhiều và phong phú Phương pháp học bán giám sát (hay học nửa giám sát) được đặt ra để tận dụng cả hai nguồn dữ liệu này Khái niệm học bán giám sát: Học bán giám sát là học với tập dữ liệu huấn luyện gồm cả dữ liệu đã được gán nhãn và dữ liệu chưa được gán nhãn Tuỳ vào từng mục

Trang 31

đích cụ thể, học bán giám sát có thể được áp dụng cho bài toán phân lớp hoặc phân cụm

Nội dung phương pháp học bán giám sát:

 Nội dung chính của học bán giám sát là hệ thống sử dụng một tập học (training set) gồm 2 phần: các ví dụ học có nhãn, thường với số lượng (rất) ít, và các ví dụ học không có nhãn, thường với số lượng (rất) nhiều Thực tế cho thấy khi sử dụng kết hợp

dữ liệu không có nhãn với một lượng nhất định dữ liệu có nhãn có thể tăng độ chính xác đáng kể

 Một thuật toán học bán giám sát được sử dụng (ví dụ Self-training) sẽ học các

ví dụ có nhãn, sau đó tiến hành gán nhãn cho một số (có lựa chọn) các ví dụ không

có nhãn - một cách hợp lý, có đánh giá chất lượng công việc hay độ chính xác Tiếp theo, chọn các ví dụ vừa được gán nhãn có độ tin cậy cao (vượt trên một ngưỡng chọn trước) đưa vào kết hợp với tập dữ liệu có nhãn, tạo thành một tập dữ liệu huấn luyện mới

 Áp dụng một phương pháp kiểm thử (có thể kết hợp với một tập dữ liệu đã biết trước nhãn) để đánh giá hiệu năng/độ chính xác của mô hình

Một số thuật toán học bán giám sát:

Một số thuật toán thường được sử dụng gồm có: thuật toán Cực đại kỳ vọng (EM - Expectation Maximization), SVM truyền dẫn (TSVM - Transductive Support Vector Machine), Self-training, Co-training và các phương pháp dựa trên đồ thị (graph-based)

Việc lựa chọn thuật toán nào dựa trên một số định hướng: nếu các lớp dữ liệu

có tính phân cụm cao thì nên dùng EM với mô hình hỗn hợp sinh; nếu đã sử dụng SVM thì mở rộng thành TSVM; khi khó nâng cấp mô hình học có giám sát đã có, thì nên dùng self-training; nếu các đặc trưng của dữ liệu phân chia tự nhiên thành hai phần riêng rẽ thì nên dùng Co-training; còn nếu hai mẫu dữ liệu có đặc trưng tương

tự nhau hướng tới một lớp thì sử dụng phương pháp dựa trên đồ thị

Trong số các thuật toán học bán giám sát thông dụng, có 2 thuật toán tiêu biểu

là Self-training và Co-training:

Trang 32

Thuật toán Self-training:

Self-training là kỹ thuật học bán giám sát được sử dụng khá phổ biến do tận dụng được nguồn dữ liệu chưa gán nhãn lớn và ban đầu chỉ cần lượng nhỏ dữ liệu đã gán nhãn Nội dung chính của Self-training là lặp nhiều lần phương pháp học có giám sát

Gọi D: là tập các dữ liệu đã được gán nhãn

C: là tập các dữ liệu chưa gán nhãn

Thuật toán Self-training thực hiện như sau:

Lặp (cho đến khi C = Æ):

i Huấn luyện bộ phân lớp có giám sát h trên tập D

ii Sử dụng h để phân lớp dữ liệu trong tập C

iii Tìm tập con C’ Í C có độ tin cậy cao nhất:

D + C’ Þ D; C – C’ Þ C

Ban đầu huấn luyện bộ phân lớp bằng cách cho bộ phân lớp học một tập dữ liệu huấn luyện đã được gán nhãn (tập này thường nhỏ so với tập dữ liệu chưa gán nhãn) Dùng bộ phân lớp đã được huấn luyện, phân lớp cho các dữ liệu chưa được gán nhãn Trong số dữ liệu mới được gán nhãn, chọn các dữ liệu có độ tin cậy cao (lớn hơn một ngưỡng nào đó) kèm với nhãn vừa gán, đem bổ sung vào tập dữ liệu huấn luyện ban đầu Sau đó, bộ phân lớp được học lại trên tập huấn luyện mới (gồm dữ liệu đã gán nhãn ban đầu và dữ liệu do bộ phân lớp mới gán nhãn) và thuật toán được lặp lại Sau mỗi vòng lặp, bộ phân lớp sẽ bổ sung một số mẫu dữ liệu có độ tin cậy cao nhất cùng với dự đoán phân lớp của chúng vào tập dữ liệu huấn luyện Tên gọi Self-training xuất phát từ việc sử dụng dự đoán của nó để huấn luyện chính nó

Thuật toán Co-training:

Thuật toán Co-training dựa trên giả thuyết rằng các đặc trưng của tập dữ liệu huấn luyện có thể được phân chia thành 2 tập con (trường hợp lý tưởng là hai tập con này thoả mãn điều kiện độc lập nhau - conditional independent) Nội dung chính của thuật toán như sau:

 Dùng 2 bộ phân lớp phù hợp để học 2 tập con tương ứng (mỗi tập con huấn

Trang 33

luyện một bộ phân lớp)

 Mỗi bộ phân lớp thực hiện phân lớp cho các dữ liệu chưa gán nhãn, thu được kết quả là tập dữ liệu chưa gán nhãn kèm theo nhãn dự đoán của chúng Trong tập kết quả của bộ phân lớp 1, chọn ra những mẫu dữ liệu (kèm nhãn đã dự đoán) có độ tin cậy cao nhất bổ sung vào tập huấn luyện của bộ phân lớp 2 và ngược lại

 Mỗi bộ phân lớp được học lại tập dữ liệu huấn luyện (gồm dữ liệu gán nhãn ban đầu và dữ liệu gán nhãn mới bổ sung từ kết quả của bộ phân lớp kia) Quá trình được lặp lại cho đến khi tập dữ liệu chưa gán nhãn rỗng hoặc số vòng lặp đạt tới một ngưỡng được xác định trước

Thuật toán Co-training:

(1) Huấn luyện hai bộ phân lớp: f (1) từ (Xl (1), Yl), f (2) từ (Xl (2), Yl)

(2) Phân lớp các mẫu dữ liệu chưa gán nhãn Xu với f (1) và f (2) tách biệt nhau (U là tập các mẫu dữ liệu chưa gán nhãn)

(3) Chèn thêm vào f (1) k-most-confident (x, f (1) (x)) tới các dữ liệu đã gán nhãn của f (2)

(4) Chèn thêm vào f (2) k-most-confident (x, f (2) (x)) tới các dữ liệu đã gán nhãn của f (1)

(5) Lặp lại các quá trình trên

Thuật toán Co-training trên có thể viết như sau:

L: là tập các mẫu dữ liệu đã gán nhãn

U: là tập các mẫu dữ liệu chưa gán nhãn

(1) L có thể phân chia thành hai tập con L1 và L2 (trường hợp lý tưởng thì L1 và

L2 độc lập nhau)

(2) Cho bộ phân lớp h1 học L1 (hay L1 huấn luyện bộ phân lớp h1)

Cho bộ phân lớp h2 học L2 (hay dùng L2 huấn luyện bộ phân lớp h2)

(3) Dùng h1 phân lớp cho U thu được tập U1’ kèm nhãn dự đoán của chúng Dùng h2phân lớp cho U thu được tập U2’ kèm nhãn dự đoán của chúng

(4) Từ U1’ chọn ra u1 mẫu dữ liệu kèm theo nhãn của nó, có độ tin cậy cao nhất

Bổ sung u1 vào L2 Khi đó, L2 + u1 => L2

Trang 34

Từ U2’ chọn ra u2 mẫu dữ liệu kèm theo nhãn của nó, có độ tin cậy cao nhất Bổ sung u2vào L1 Khi đó, L1 + u2 => L1

(5) Dùng L1 mới huấn luyện bộ phân lớp h1 (hay h1 học L1)

Dùng L2 mới huấn luyện bộ phân lớp h2 (hay h2 học L2)

(6) Lặp lại từ bước (3) Cho đến khi tập U rỗng hoặc số vòng lặp đạt đến ngưỡng xác định trước

Có thể viết rút gọn bằng cách bỏ bước (5) Ở trên Bước (6) đổi thành bước (5): Lặp lại từ bước (2) Cho đến khi tập U rỗng hoặc số vòng lặp đạt đến ngưỡng xác định trước

1.4.3 Phương pháp học có giám sát (Supervised Learning)

Khái niệm học có giám sát:

Học có giám sát là học với tập dữ liệu huấn luyện ban đầu hoàn toàn được gán nhãn từ trước Học có giám sát là phương pháp học sử dụng cho lớp bài toán phân lớp, phân loại (Classification)

Nội dung phương pháp học có giám sát:

 Để thực hiện phân lớp, trước tiên phải chuẩn bị một tập dữ liệu huấn luyện

(trainning data set), để có tập dữ liệu huấn luyện phải thực hiện gán nhãn cho dữ liệu

ban đầu, đây được gọi là quá trình thu thập tập huấn luyện

 Lựa chọn một thuật toán phân lớp (ví dụ SVM) xây dựng bộ phân lớp

để học tập dữ liệu huấn luyện Hay nói cách khác, dùng tập dữ liệu huấn luyện để huấn luyện bộ phân lớp Thuật ngữ học có giám sát được hiểu là học tập dữ liệu đã

được gán nhãn trước (các dữ liệu kèm theo nhãn tương ứng này coi như đã được giám sát bởi người thực hiện gán nhãn)

 Sử dụng một tập dữ liệu kiểm tra (test data set) đã được gán nhãn trước, để kiểm tra tính đúng đắn của bộ phân lớp Sau đó, có thể dùng bộ phân lớp để phân lớp cho các dữ liệu mới

Một số thuật toán học có giám sát:

Một số thuật toán thường được lựa chọn khi xây dựng bộ phân lớp gồm có: máy vector hỗ trợ (Support Vector Machine – SVM); k láng giềng gần nhất (K Nearest

Trang 35

Neighbours – KNN); tiếp cận xác suất thống kê (Nạve Bayes – NB); Cây quyết định (Decision Tree – DT); sử dụng mạng nơron (Neural Network – Nnet); dựa trên vector trọng tâm (Centroid–base vector); hay tuyến tính bình phương nhỏ nhất (Linear Least Square Fit – LLSF) (Chi tiết các thuật tốn này cĩ thể tham khảo trên Internet)

1.4.4 Học tăng cường (reinforcement learning)

Khái niệm học tăng cường:

Trong ngành khoa học máy tính, học tăng cường (tiếng Anh: reinforcement

learning) là một lĩnh vực con của học máy, nghiên cứu cách thức một tác nhân trong một mơi trường (điều kiện cụ thể) nên chọn thực hiện các hành động nào để đạt thành cơng tốt nhất đối với một mục tiêu nào đĩ về lâu dài Các thuật tốn học tăng cường

cố gắng tìm một chiến lược ánh xạ các hành động của thế giới tới các hành động mà tác nhân nên chọn trong các hành động đĩ

‘Mơi trường’ thường được biểu diễn dưới dạng một Markov decision process –

các kỹ thuật quy hoạch động Các xác suất chuyển trạng thái và các xác suất thu lợi trong MDP thường là ngẫu nhiên nhưng lại tĩnh trong quá trình của bài tốn

(stationary over the course of the problem)

Khác với học cĩ giám sát, trong học tăng cường khơng cĩ các cặp dữ liệu vào/kết quả đúng, các hành động gần tối ưu cũng khơng được đánh giá đúng sai một

cách tường minh Hơn nữa, ở đây hoạt động trực tuyến (on-line performance) được

quan tâm, trong đĩ cĩ việc tìm kiếm một sụ cân bằng giữa khám phá (lãnh thổ chưa lập bản đồ) và khai thác (tri thức hiện cĩ) Trong học tăng cường, sự được và mất giữa khám phá và khai thác đã được nghiên cứu chủ yếu qua bài tốn multi-armed bandit

Một cách hình thức, mơ hình học tăng cường bao gồm:

S: tập các trạng thái của mơi trường;

Trang 36

{R}: tập các khoản "thưởng" với giá trị vô hướng

Tại mỗi thời điểm t, agent thấy được trạng thái của nó là s t \in S và tập các hành động có thể A(s t ) Nó chọn một hành động a \in A(s t) và nhận được từ môi trường trạng

thái mớis t+1 và một khoản thưởng r t+1 Dựa trên các tương tác này, agent học tăng

cường phải phát triển một chiến lược π:S {\displaystyle \rightarrow} A có tác dụng cực đại hóa lượng R=r0+r1+ +r n với các MDP có một trạng thái kết thúc, hoặc

lượng R=Σ tγt r t với các MDP không có trạng thái kết thúc (trong đó γ là một hệ số giảm khoản "thưởng trong tương lai" nào đó, với giá trị trong khoảng 0.0 và 1.0)

Do đó, học tăng cường đặc biệt thích hợp cho các bài toán có sự được mất giữa các khoản thưởng ngắn hạn và dài hạn Học tăng cường đã được áp dụng thành công cho nhiều bài toán, trong đó có điều khiển robot, điều vận thang máy, viễn thông, các trò chơi backgammon và cờ vua

Một số thuật toán học tăng cường:

Sau khi ta đã định nghĩa được một hàm trả về thích hợp cần được cực đại hóa,

ta cần chỉ rõ thuật toán sẽ được sử dụng để tìm chiến lược thu được kết quả trả về cao nhất Có hai cách tiếp cận chính, cách tiếp cận hàm giá trị và cách tiếp cận trực tiếp Cách tiếp cận trực tiếp dẫn đến hai bước sau đây:

 Với mỗi chiến lược có thể, lấy mẫu các kết quả trong khi thực hiện chiến lược đó

 Chọn chiến lược có kết quả trả về kỳ vọng cao nhất

Một vấn đề với cách tiếp cận này là số chiến lược có thể cực kỳ lớn, hoặc thậm chí vô hạn Một vấn đề khác là các giá trị trả về có thể ngẫu nhiên, khi đó sẽ cần đến một lượng lớn các mẫu để có thể ước lượng chính xác kết quả trả về của mỗi chiến lược Cách tiếp cận trực tiếp là cơ sở cho các thuật toán dùng trong ngành Robotic tiến hóa

Các vấn đề của cách tiếp cận trực tiếp có thể được làm giảm nhẹ nếu ta giả thiết một cấu trúc nào đó trong bài toán và bằng cách nào đó cho phép các mẫu thu được

từ một chiến lược này có thể được ảnh hưởng tới các ước lượng cho một chiến lược khác Cách tiếp cận hàm giá trị thực hiện điều này bằng cách chỉ giữ một tập các ước lượng về các giá trị trả về của một chiến lược π (thường là chiến lược hiện tại hoặc

Trang 37

chiến lược tối ưu) Trong các cách tiếp cận như vậy, người ta cố gắng ước lượng một trong hai hàm: giá trị trả về nếu xuất phát từ trạng thái s và theo chiến lược π như sau,

V(s) = E[R|s,π],

hoặc giá trị trả về kỳ vọng khi thực hiện hành động a trong trạng thái s và theo

chiến lược π nghĩa là,

Q(s,a) = E[R|s,π],

Nếu có sẵn chiến lược tối ưu Q, ta luôn có thể chọn các hành động tối ưu đơn

giản bằng cách tại mỗi trạng thái chọn hành động với giá trị cao nhất Để thực hiện được điều này với V, ta phải có một mô hình môi trường, dưới dạng các xác suất

P(s'|s,a), cho phép tính Q bằng công thức

Hoặc ta có thể sử dụng các phương pháp Actor-Critic, trong đó mô hình được chia làm hai phần: phần critic giữ ước lượng giá trị trạng thái V, và phần actor có trách nhiệm chọn các hành động thích hợp với mỗi trạng thái

Cho trước một chiến lược cố định π, việc ước lượng E[R|.] đối với γ=0 là đơn giản, do ta chỉ phải lấy trung bình của các khoản thưởng trực tiếp Cách dễ thấy nhất

để thực hiện việc này với γ>0 là lấy trung bình của tổng trả về sau mỗi trạng thái Tuy nhiên, kiểu lấy mẫu Monte Carlo đòi hỏi MPD phải kết thúc

Do đó, nói chung việc ước lượng không dễ Thực ra, việc này lại khá đơn giản khi ta nhận ra rằng giá trị kỳ vọng của R tạo nên một phương trình Bellman đệ quy: Bằng cách thay thế các giá trị kỳ vọng trên bằng các ước lượng của ta, và thực hiện thuật toán gradient descent với hàm chi phí lỗi bình phương, ta thu được TD(0)

- thuật toán học temporal difference learning Trong trường hợp đơn giản nhất, tập hợp các trạng thái và hành động đều là rời rạc và ta giữ các ước lượng dạng bản cho mỗi trạng thái Các phương pháp cặp đôi trạng thái-hành động là SARSA và Q-Learning Tất cả các phương pháp đều có các mở rộng mà nhờ đó một kiến trúc xấp

xỉ nào đó được sử dụng, mặc dù trong một số trường hợp, sự hội tụ không được đảm bảo sẽ xảy ra Các ước lượng thường được cập nhập bởi một dạng gradient descent, tuy rằng gần đây đã có các phương pháp bình phương tối thiểu cho các trường hợp xấp xỉ tuyến tính

Trang 38

Các phương pháp trên không những đều hội tụ về các ước lượng đúng cho một chiến lược cố định, và còn có thể được dùng để tìm chiến lược tối ưu Việc này thường được thực hiện bằng cách theo một chiến lược π được rút ra từ các ước lượng hiện tại, nghĩa là bằng cách hầu như luôn luôn chọn hành động với lượng giá cao nhất, và thỉnh thoảng chọn các hành động ngẫu nhiên để khám phá không gian Các chứng minh cho sự hội tụ tới chiến lược tối ưu cũng tồn tại đối với các thuật toán nói đến ở trênvới một số điều kiện nhất định Tuy nhiên tất cả các chứng minh này chỉ chứng

tỏ sự hội tụ tiệm cận, và về lý thuyết người ta còn biết rất ít về hành vi của các thuật toán học tăng cường trong trường hợp mẫu nhỏ, ngoại trừ trong các điều kiện tham

số (setting) rất hạn chế

Một phương pháp khác để tìm chiến lược tối ưu là tìm thẳng trong không gian các chiến lược Phương pháp không gian chiến lược định nghĩa chiến lược là một hàm có tham số π(s,θ) với các tham số θ Thông thường, một phương pháp leo đồi

(gradient method) được áp dụng để điều chỉnh các tham số Tuy nhiên, việc áp dụng

các phương pháp leo đồi không đơn giản, do không có thông tin nào về độ dốc

(gradient information) được giả thiết Thay vào đó, chính độ dốc phải được ước lượng

từ các mẫu nhiều nhiễu (noisy samples) của kết quả trả về Do điều này làm tăng

mạnh chi phí tính toán, nên việc sử dụng một phương pháp leo đồi mạnh hơn là leo

đồi độ dốc cao nhất(steepest gradient descent) có thể có lợi hơn Các phương pháp

leo đồi dùng cho không gian chiến lược đã được sự quan tâm lớn trong 5 năm trở lại đây và giờ đã đạt đến giai đoạn tương đối chính muồi, nhưng lĩnh vực nghiên cứu này

vẫn còn hoạt động Có nhiều cách tiếp cận khác, chẳng hạn luyện thép (simulated

annealing), có thể dùng để khám phá không gian chiến lược Các nghiên cứu về các

kỹ thuật này ít phát triển hơn

1.5 TIỂU KẾT CHƯƠNG

Trong chương này, luận văn trình bày lý thuyết tổng quan về máy học và một

số phương pháp làm nền tảng cho việc xây dựng và thiết kế khối máy học

Trang 39

CHƯƠNG 2 THIẾT KẾ VÀ THỰC THI KHỐI MÁY HỌC MLBLOCKS

6 năm Video chất lượng HD

Với lượng dữ liệu lớn như vậy, vấn đề được đặt ra ở đây là: “Làm thế nào chúng

ta có thể sử dụng dữ liệu này một cách có ý nghĩa để cải thiện và tác động vào sống của chúng ta?”, “Làm thế nào chúng ta có thể trích xuất thông tin có ý nghĩa để phân tích hoặc xây dựng các thuật toán phức tạp để giải quyết các vấn đề xã hội như chống gian lận, hỗ trợ chăm sóc sức khỏe qua y học, hỗ trợ giải quyết vấn đề giao thông hoặc cải thiện giáo dục”

Đây chính là công việc của một nhà khoa học dữ liệu, khai phá dữ liệu, quyết định phải truy vấn gì, rút trích những thông tin gì, các phương pháp sử dụng để rút trích thông tin là gì và làm thế nào để sử dụng chúng một cách hiệu quả, từ đó có thể xây dựng được các mô hình dự báo, dự đoán hỗ và cải thiện cuộc sống con người Máy học là một lĩnh vực quan trọng trong tin học Mục tiêu chính của máy học

là tạo ra các phương pháp và chương trình làm cho máy tính có thể học như con người Lĩnh vực máy học có quan hệ mật thiết với lĩnh vực phát hiện tri thức, từ đó

nó rút trích và đưa ra những thông tin hay những dự báo cần thiết, có ý nghĩa

Ví dụ 1: Nhà khoa học dữ liệu Albert đã được thuê để thực hiện một hệ thống

máy học có thể dự đoán học sinh bỏ học Anh ta dành vài tuần đầu lắp ráp các dữ liệu, quyết định những tính năng sử dụng, và trích xuất chúng bằng cách sử dụng hệ thống A Sau đó, ông quyết định để giải quyết bằng phân loại và mất vài tuần để vận hành hệ thống máy học (SVM) cũng như chỉnh các thông số của nó Nếu độ chính

Trang 40

xác của dự đoán từ 80% trở lên thì sẽ là tốt nhưng kết quả chỉ 79% thì lại không đạt yêu cầu Vậy làm thế nào để thực hiện công việc tốt hơn và ông được tư vấn là sử dụng phương án B là điều chỉnh chuỗi thông số liên tục theo thời gian để cho kết quả tốt nhất và sẽ mất nhiều thời gian hơn rất nhiều

2.2 KHÁI NIỆM MLBLOCK

MLBlocks là một hệ thống máy học cho phép các nhà khoa học dữ liệu có thể khám phá không gian dữ liệu dựa trên các kỹ thuật mô hình hóa một cách dễ dàng và hiệu quả Khối trong MLBlocks cung cấp khả năng tái sử dụng các module phần mềm, các thuật toán khai phá dữ liệu trong việc xây dựng và đào tạo mạng nơ ron nhân tạo Khái niệm MLBlocks ra đời từ năm 2015 và hiện nay vẫn đang được các nhà khoa học dữ liệu nghiên cứu, phát triển theo hướng xây dựng như một khung phát triển (framework) cho các hệ thống máy học sau này

Một số phương pháp thông dụng của kỹ thuật mô hình hóa:

 Mô hình phân biệt: Các mô hình thuộc thể loại này có thể kể đến như: SVMs,

Logistic Regression, Perceptron, Passive Aggressive Mô hình này áp dụng nhiều trong các bài toán xác suất, kỹ thuật mô hình này cố gắng để mô hình hóa xác suất P

có điều kiện (x | y), trong đó Y là "nhãn" (giá trị muốn dự đoán) và X là “mẫu” truy vấn

 Mô hình sản sinh: Kỹ thuật mô hình này cố gắng phân phối những điểm

chung của 𝑃 (𝑋, 𝑌), nó được gọi là "sản sinh" vì mô này có thể tạo ra những mẫu có giá trị dự đoán tốt hơn Ví dụ như mô hình Markov ẩn, mô hình hỗn hợp Gaussian và

Naive Bayes

 Mô hình phân nhóm: Một kỹ thuật học không giám sát, hệ thống sẽ tự học

tập bằng cách sử dụng trực tiếp các giá trị đã có để dự đoán một giá trị kế tiếp Nó nhóm dữ liệu dựa theo các điểm "tương tự như" và mỗi nhóm dữ liệu này được xem như tham số trong quá trình phân nhóm kế tiếp

 Mô hình hóa phân cụm: Một sự kết hợp của ba kỹ thuật trước đó Đầu tiên,

hệ thống sẽ áp dụng mô hình phân nhóm đối với các tập dữ liệu, sau đó sử dụng mô hình phân biệt hoặc mô hình sản sinh cho từng cụm dữ liệu khác nhau Mô hình này

Định dạng
Số trang	91
Dung lượng	4,51 MB

Nghiên cứu hệ thống khối máy học mlblocks và ứng dụng vào dự đoán lộ trình tối ưu trong giao thông

Học tăng cường (reinforcement learning)

Mơ hình khối máy học MLBlocks