1. Trang chủ
  2. » Thể loại khác

ỨNG DỤNG DEEP LEARNING ĐỂ DỰ ĐOÁN QUAN ĐIỂM TRONG TÀI LIỆU LUẬN VĂN THẠC SĨ KỸ THUẬT

63 20 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 63
Dung lượng 4,07 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trong luận văn này, học viên đã trình bày việc so sánh các lời giải cho bài toán phân tích quan điểm đối với ngôn ngữ Tiếng Việt.. Phương pháp thực nghiệm:Triển khai và đánh giá một số k

Trang 1

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA

DƯƠNG PHƯỚC QUỐC CƯỜNG

ỨNG DỤNG DEEP LEARNING

ĐỂ DỰ ĐOÁN QUAN ĐIỂM TRONG TÀI LIỆU

Chuyên ngành : Khoa học máy tính

Mã số : 8480101

LUẬN VĂN THẠC SĨ KỸ THUẬT

Người hướng dẫn khoa học: PGS.TS NGUYỄN THANH BÌNH

Đà Nẵng - Năm 2019

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan:

Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của PGS.TS Nguyễn Thanh Bình

Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên công trình, thời gian, địa điểm công bố

Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm

Trang 3

ỨNG DỤNG DEEP LEARNING ĐỂ DỰ ĐOÁN QUAN ĐIỂM TRONG TÀI

LIỆU

Học viên: Dương Phước Quốc Cường Chuyên ngành: Khoa học máy tính

Mã số: 8480101 - Khóa: 34 Trường Đại học Bách khoa – ĐHĐN

Tóm tắt -Những năm gần đây, ngày càng nhiều người nói về cách mạng công nghệ lần

thứ 4 Các chủ đề được nhắc tới nhiều nhất bao gồm Big Data, Deep Learning, IoT, Blockchain Mặc dù những sự đầu tư nghiên cứu gần đây tập trung vào nhiều hướng tiếp cận khác nhau, nhưng tất cả các nghiên cứu đó đều dần dần hướng tới một mục đích chung Mục đích chung đó là làm sao để máy tính thông minh hơn để có thể dần dần thay thế con người Để máy tính thông minh hơn thì chúng ta tìm cách làm cho máy tính học được từ con người Vì thế, lĩnh vực máy học (tiền thân của Deep Learning) chính là một

trong những hướng tiếp cận quan trọng trong giai đoạn cách mạng công nghiệp này

Máy học là một lĩnh vực mà trong đó nhiều bài toán lớn được đưa ra để các nhà khoa học cùng nghiên cứu Một trong những bài toán rất có giá trị kinh tế rất cao của máy học là bài toán tự động phân tích quan điểm Lời giải của bài toán đánh giá quan điểm sẽ mang đến cho các doanh nghiệp cái nhìn tổng quan về thị trường và về những dịch vu liên quan Vì bài toán phân tích quan điểm cũng là một trong những bài toán xử lý ngôn ngữ

tự nhiên, nên lời giải của nó cũng đóng góp đáng kể vào quá trình nghiên cứu xử lý ngôn ngữ tự nhiên này

Trong luận văn này, học viên đã trình bày việc so sánh các lời giải cho bài toán phân tích quan điểm đối với ngôn ngữ Tiếng Việt Trong đó, học viên đã làm nổi bật lên sự khác nhau giữa phương pháp máy học deep learning và not deep learning Với những phương pháp và hướng tiếp cận khác nhau, học viên đã thực hiện đánh giá định lượng để

so sách độ chính xác của các phương pháp Đóng góp cơ bản của luận văn này là một bộ khung để so sánh đánh giá đối với bài toán phân tích quan điểm trong tiếng Việt Những đọc giả quan tâm có thể áp dụng các phương pháp này cho bài toán của mình để có những

so sánh định lượng tương đối để có thể chọn ra giải pháp tốt nhất cho mình

Từ khoá: Khai phá, xử lý dữ liệu, ngôn ngữ tự nhiên, dự đoán quan điểm, thực nghiệm đề xuất và đánh giá giải pháp

Trang 4

USING DEEP LEARNING TO PREDICT OPINIONS IN DOCUMENTS

Student: Duong Phuoc Quoc Cuong Major: Computer Science

Code:8480101 Course: K34 University of Science and Technology- University of Danang

Abstract-In recent years, more and more people talk about the 4th generation of

industrial revolution The most popular topics include Big Data, Deep Learning, IoT, Blockchain Although people invest different researches in diversity of approaches, most

of researches follow a common purpose This common purpose is how to make machine more intelligent in orrder to replace human Then, the Machine Learning topic (the previous topic prior to Deep Learning) is one of the most important approaches during this generation of industrial revolution

Machine Learning domain proposes plenty of problems which challenge modern researchers One of the valuable problemin economic domain is the problem of Sentiment Analysis The solution of Sentiment Analysis brings a vision about the market and about the services to the company who invests the research to solve this problem Since Sentiment Analysis is also a Natural Language Processing, its solutions also contribute significantly the development of this domain

In this thesis, author presents a set of evaluation of solutions for the problem of Sentiment Analysis in Vietnamese language Authors also clarifies the difference between Deep Learning approaches and not-Deep Learning approaches With these difference approaches and solutions, author also present a quantitative comparison in order to evaluate the accuracy of these solutions for this Sentiment Analysis problem The main contribution of this thesis is an framework of evalutation which is recommended to use to compare and to evaluate the solutions for Sentiment Analysis problem in Vietnamese language Interest readers can apply these methods to their own problem in order to approximately compare these solutions and then to select the best one

Keywords: Mining, processing data, natural language, predicting views, proposing and evaluating solutions

Trang 5

MỤC LỤC

TRANG BÌA

LỜI CAM ĐOAN

TRANG TÓM TẮT LUẬN VĂN

MỤC LỤC

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH

MỞ ĐẦU 1

1 Lý do chọn đề tài 1

2 Mục đích nghiên cứu 2

3 Đối tượng và phạm vi nghiên cứu 2

4 Phương pháp nghiên cứu 2

5 Ý nghĩa khoa học và thực tiễn của đề tài 3

6 Bố cục luận văn 3

CHƯƠNG 1 TỔNG QUAN, CƠ SỞ LÝ THUYẾT 4

1.1 Bài toán khai phá quan điểm 4

1.1.1 Khái niệm khai phá dữ liệu 4

1.1.2 Quá trình khai phá tri thức từ dữ liệu 5

1.2 Machine learning 5

1.3 Deep Learning 7

1.3.1 Khái niệm 7

1.3.2 Các bài toán và ứng dụng 8

1.4 Xử lý ngôn ngữ tự nhiên 9

1.4.1 Định nghĩa 9

1.4.2 Cấu tạo, đặc điểm của ngôn ngữ tiếng Việt: 9

1.4.3 Các bước xử lý ngôn ngữ tự nhiên: 12

Kết chương 1 12

CHƯƠNG 2 BÀI TOÁN DỰ ĐOÁN QUAN ĐIỂM 13

2.1 Bài toán liên quan dự đoán quan điểm 13

2.1.1 Nguồn từ vựng nâng cao để phân tích tình cảm và khai thác ý kiến 13

2.1.2 Một số khảo sát vềphân tích tình cảm và khai thác ý kiến 14

2.2 Phương pháp máy học để giải bài toán dự đoán quan điểm 16

2.2.1 Trích xuất đặc trưng 16

2.2.2 Huấn luyện và dự đoán 19

Trang 6

2.2.3 Mạng nơ ron hồi quy 22

Kết chương 2 23

CHƯƠNG 3 MÔ TẢ BÀI TOÁN VÀ ĐỀ XUẤT GIẢI PHÁP 24

3.1 Vấn đề đề tài tập trung giải quyết 24

3.2 Đề xuất giải pháp 24

3.2.1 Thu thập và tiền xử lý dữ liệu 24

3.2.2 Thực nghiệm kiểm tra độ chính xác với phương pháp kiểm tra chéo 28

3.2.3 Kiểm tra thực tế 30

3.3 Mô hình giải pháp 30

3.3.1 Mô tả 30

3.3.2 Thư viện được sử dụng 31

3.3.3 Công cụ thực hiện 34

Kết chương 3 34

CHƯƠNG 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ GIẢI PHÁP 35

4.1 Thực ngiệm 35

4.1.1 Thực nghiệm 1: Trích xuất đặc trưng bình thường và thuật toán phân loại truyền thống 35

4.1.2 Thực nghiệm 2: Trích xuất đặc trưng bình thường và thuật toán phân loại neutral network 35

4.1.3 Thực nghiệm 3: Trích xuất đặc trưng learning và thuật toán phân loại truyền thống 38

4.1.4 Thực nghiệm 4: Trích xuất đặc trưng learning và thuật toán phân loại neutral network 39

4.1.5 Thực nghiệm 5: Trích xuất đặc trưng và dự đoán bằng deep learning 42

4.2 Đánh giá kết quả 44

Kết chương 4 44

KẾT LUẬN VÀ KIẾN NGHỊ 45

1 Kết quả đạt được: 45

2 Một số hạn chế: 45

3 Hướng phát triển và đề xuất: 45

TÀI LIỆU THAM KHẢO 46

QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN 48 BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC PHẢN BIỆN

Trang 7

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Ký hiệu

Diễn giải

NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên

TTNT Trí tuệ nhân tạo Trí tuệ nhân tạo

AI Artificial intelligence Trí tuệ nhân tạo

ANN Artificial Neural Network Mạng nơ-ron nhân tạo

CNN Convolution Neural Network Mạng nơ-ron tích chập

DNN Deep Neural Network Mạng neural sâu

GPU Graphics Processing Unit Đơn vị xử lý đồ họa

NN Neural Network Mạng nơ-ron

ReLU Rectified Linear Unit Hiệu chỉnh đơn vị tuyến tính

SIFT Scale-Invariant Feature

Transform

Biến đổi đặc trƣng tỉ lệ không thay đổi

SOM Self Organizing Maps Mạng nơ-ron tự tổ chức

SVM Support Vetor Machines Máy vector hỗ trợ

Trang 8

DANH MỤC CÁC BẢNG

Bảng 1-1.Tần suất xuất hiện độ dài từ tiếng Việt trên vdict.com 10

Bảng 4-1 Kết quả thực nghiệm 1 với Bag of word 35

Bảng 4-2 Kết quả thực nghiệm 1 với tf-idf 35

Bảng 4-3 Kết quả thực nghiệm 2 với Bag of word 36

Bảng 4-4 Kết quả thực nghiệm 2 với tf-idf 38

Bảng 4-5 Kết quả thực nghiệm 3 với word2vec 39

Bảng 4-6 Kết quả thực nghiệm 3 với doc2vec 39

Bảng 4-7 Kết quả thực nghiệm 4 với word2vec 40

Bảng 4-8 Kết quả thực nghiệm 4 với doc2vec 41

Bảng 4-9 Thống kê số từ của câu 44

Trang 9

DANH MỤC CÁC HÌNH

Hình 1-1 Minh họa về khai phá dữ liệu 4

Hình 1-2 Quy trìnhkhaiphá tri thức 5

Hình 1-3 Minh họa về machine learning 6

Hình 1-4 Deeplearning trong lĩnh vực AI 7

Hình 1-5 Mạng Deep learning gồm các node neural 8

Hình 2-1 Top 10 những từ tương tự nghĩa giữa postive và negative 13

Hình 2-2 Sentiment Classification Amazon review 14

Hình 2-3 Summary of the survey 15

Hình 2-4 Minh họa phân bố từ bằng word2vec 18

Hình 2-5 Minh họa Logistic Regression 21

Hình 2-6 Minh họa Multi-layer Perceptron 22

Hình 3-1 Tổng quát quy trình thực hiện 24

Hình 3-2 Dataset được thực nghiệm 25

Hình 3-3 Loại bỏ nhiễu 25

Hình 3-4 Trích xuất đặc trưng đầu vào (Feature extraction) 26

Hình 3-5 Quy trình tiền xử lý dữ liệu 27

Hình 3-6 Mô tả cross-validate 28

Hình 3-7 Quy trình nghiệm dự đoán vơi kiểm nghiệm cross validate 29

Hình 3-8 Đánh giá và kiểm tra thực tế 30

Hình 3-9 Hình dạng đầu vào của LSTM 32

Hình 3-10 Mô tả LSTM với times step 33

Hình 4-1 Kết quả thực nghiệm 2 với Bag of word 36

Hình 4-2 Kết quả thực nghiệm 2 với tf-idf 37

Hình 4-3 Kết quả thực nghiệm 4 với word2vec 40

Hình 4-4 Kết quả thực nghiệm 4 với doc2vec 41

Hình 4-5 Các bước của bài toán trích xuất thông tin quan điểm sử dụng RNN 42

Hình 4-6 Thống kê số từ của câu 43

Trang 10

MỞ ĐẦU

Cùng với sự phát triển không ngừng của khoa học công nghệ, đặc biệt là cuộc cách mạng công nghiệp lần thứ tư đang diễn ra rộng khắp trong tất cả các lĩnh vực của đất nước cũng như các nước trên thế giới, các chủ đề được nhắc tới nhiều nhất bao gồm Big Data, Deep Learning, IoT, Blockchain… Các sản phẩm CNTT trí tuệ nhân tạo và học máy ngày càng phát triển và là lĩnh vực được quan tâm đầu tư nghiên cứu nhiều nhất hiện, trong đó lĩnh vực học sâu (Deep Learning) là một loại phổ biến của máy học đã có những thành tựu phát triển vượt bậc

Ngày nay, để đáp ứng nhu cầu cuộc sống ngày càng cao của con người, các sản phẩm và dịch vụ đã có những bước phát triển rất mạnh mẽ Với mỗi loại sản phẩm và dịch vụ hiện nay lại rất phong phú về chủng loại, chất lượng, dịch vụ và đến từ nhiều nhà cung cấp khác nhau Do đó, việc duy trì phát triển sản phẩm dịch vụ có được số lượng khách hàng lớn đòi hỏi rất nhiều công sức Một trong những phương pháp cơ bản và hiệu quả nhất là lắng nghe ý kiến phản hồi của khách hàng về sản phẩm dịch

vụ Dựa trên những ý kiến phản hồi này, nhà cung cấp có thể đánh giá được chất lượng sản phẩm, dịch vụ cũng như sự phục vụ từ đó điều chỉnh sản phẩm phù hợp để đạt được hiệu quả kinh doanh tốt nhất Công việc trên có tên gọi là trích xuất thông tin quan điểm của người dùng Đây là bài toán cơ bản nhưng có ứng dụng rất lớn trong cuộc sống

Người tiêu dùng ngày càng có nhiều kênh khác nhau để tương tác với nhà cung cấp dịch vụ Bên cạnh các kênh truyền thống như email, điện thoại, fax thì các hình thức mới hơn như bình luận, phản hồi, chia sẽ trên các trang mạng xã hội, viết bài đánh giá sản phẩm, phản hồi trên các diễn đàn Và mạng xã hội là những kênh trao đổi thông tin phổ biến nhất hiện nay Qua các nguồn trên, dữ liệu được thu thập lại dưới dạng văn bản Từ dữ liệu dạng văn bản, luận văn sẽ trình bày phương pháp áp dụng deep learning để đưa ra các mô hình xử lý thông tin văn bản nhằm trích xuất được thông tin quan điểm của người dùng

1 Lý do chọn đề tài

Trong cuộc sống hiện đại ngày nay, du lịch đã trở nên vô cùng phổ biến Việc lên

kế hoạch điểm đến, đặt phòng, đặt vé, là những điều thiết yếu của mỗi chuyến đi Với sự phát triển của công nghệ, những nhận xét, bình luận và phản hồi của người sử dụng về trải nghiệm của họ với chuyến du lịch đóng vai trò như một nguồn thông tin quan trọng, nhất là với những người chủ doanh nghiệp khi họ muốn cải thiện dịch vụ của mình Đặc biệt, với việc đặt phòng khách sạn, thì nhận xét của khách hàng đã từng

sử dụng sẽ mang tính thực tế, khách quan và chi tiết hơn những gì được in sẵn trên

Trang 11

những tờ quảng cáo, phản ánh trực tiếp và gần như chính xác tình hình chất lượng dịch

vụ ở khách sạn đó

Hơn nữa, khách sạn và đại lý du lịch thường tiếp nhận và công khai nhận xét một cách có hệ thống thông qua việc đề xuất khách hàng đánh giá bình luận sau khi sử dụng dịch vụ Điều đó sẽ gây khó khăn cho các nhà quản lý trong việc cập nhật theo dõi nếu như chỉ dụng các công cụ tìm kiếm bình thường, bởi những nhận xét mới nhất

sẽ xuất hiện thường xuyên hơn đẩy những nhận xét cũ về sau, và họ có thể mất dấu hoặc bỏ qua những phản hồi mang thông tin quan trọng

Nghiên cứu các giải thuật dựa trên lý thuyết máy học và ứng dụng deep learning,

cụ thể LSTM để thực nghiệm dự đoán quan điểm của người dùng về một sản phẩm,

dịch vụ

3 Đối tượng và phạm vi nghiên cứu

Nghiên cứu về các phương pháp học máy (Machine Learning), máy học (deep learning) để dự đoán quan điểm của người dùng

Xử lý ngôn ngữ tự nhiên và các phương pháp vector hóa từ

Lý thuyết về trí tuệ nhân tạo, mạng neural và deep learning

Đánh giá trên các tập dữ liệu bằng các kỹ thuật học máy và deep Learning với mạng LSTM

Công cụ lập trình Python, các thư viện keras, tensorflow…

4 Phương pháp nghiên cứu

Nghiên cứu lý thuyết: Tổng hợp thu thập và nghiên cứu các tài liệu có liên quan đến đề tài như đã nêu trong mục 3 bao gồm: lý thuyết về khai phá quan điểm, xử lý ngôn ngữ tự nhiên, trích xuất đặc trưng Lý thuyết về học máy, mạng neural, deeplearning trong dự đoán quan điểm của tài liệu bình luận

Phương pháp thực nghiệm:Triển khai và đánh giá một số kỹ thuật về dự đoán quan điểm trong tài liệu bằng các kỹ thuật học máy và deep Learning với mạng LSTM Lựa chọn công cụ đã có để cài đặt, đề xuất mô hình và thể hiện cụ thể những kết quả

đã nghiên cứu, kết quả thực nghiệm so với các cơ sở dữ liệu chuẩn để so sánh đánh giá

Trang 12

5 Ý nghĩa khoa học và thực tiễn của đề tài

Tối ưu hóa chi phí, tăng hiệu suất và hiệu quả của hoạt động kinh doanh dịch vụ cũng như trải nghiệm của khách hàng

6 Bố cục luận văn

Luận văn được chia thành các phần sau:

Chương 1: Trình bày tổng quan cơ sở lý thuyết, một số khái niệm liên quan như bài toán khai phá quan điểm, machine learning, deep learning, xử lý ngôn ngữ tự nhiên

Chương 2: Đề tài liên quan bao gồm tên đề tài, tác giả, dữ liệu, phương pháp thực hiện và kết quả đạt được.Trình bày các phương pháp thực hiện trong luận văn bao gồm vector hóa như Bag of Words, TF-IDF, Word2vec, Doc2vec và thuật toán phân loại như SVM, Logistic Regression, Multi-layer Perceptron, mạng nơ ron hồi quy

Chương 3: Mô tả bài toán và đề xuất giải pháp Chương này đề cập vấn đề mà luận văn tập trung giải quyết, đề xuất giải pháp thực hiện, cụ thể hóa quy trình bằng

mô hình giải pháp

Chương 4: Thực nghiệm và đánh giá kết quả Chương này sẽ trình bày cái thực nghiệm khác nhau với phương pháp vector hóa và thuật toán phân loại khác nhau Đánh giá và so sánh từng thực nghiệm

Kết luận: Kết quả đạt được, hạn chế, hướng phát triển trong tương lai

Trang 13

CHƯƠNG 1 TỔNG QUAN, CƠ SỞ LÝ THUYẾT

1.1 Bài toán khai phá quan điểm

Khái niệm về khai phá dữ liệu là một bước của quá trình khai thác tri thức có rất nhiều cách diễn đạt khác nhau nhưng về bản chất đó là quá trình tự động trích xuất thông tin có giá trị (Thông tin dự đoán - Predictive Information) ẩn chứa trong khối lượng dữ liệu khổng lồ trong thực tế

Hình 1-1 Minh họa về khai phá dữ liệu Hand, D.J., 2006 Data Mining Encyclopedia of Environmetrics

Chuẩn bị dữ liệu để cho máy tính ―học‖ (Data)

Xây dựng mô hình thông qua dữ liệu đầu vào (Algorithm)

Đánh giá mô hình vừa mới xây dựng (Model)

Khai phá dữ liệu nhấn mạnh 2 khía cạnh chính đó là khả năng trích xuất thông tin

có ích tự động và thông tin mang tính dự đoán

Tóm lại, Khai phá dữ liệulà quá trình tìm kiếm các mẫu từ tập dữ liệu lớn hay có thể nói là quá trình biến dữ liệu thôthành thông tin hữu ích Nó cho phép doanh nghiệp phân tích dữ liệu từ nhiều góc độ khác nhau, tìm hiểu thêm thông tin về khách hàng,

về thói quen mua sắm của mình, phát hiện mối quan hệ tiềm ẩn, đưa ra các dữ liệu có

ý nghĩa.Từ đó, doanh nghiệp có cơ sở để xây dựng chiến lược tiếp thị và bán hàng hiệu quả hơn Khai phá dữ liệu phụ thuộc vào quá trình thu thập dữ liệu, tổ chức dữ liệu và

xử lý dữ liệu [8]

Trang 14

Hình 1-2 Quy trìnhkhaiphá tri thức

Quy trình khai phá dữ liệu là chuỗi lặp lại các thao tác:[8]

Làm sạch dữ liệu: Loại bỏnhiễu và Loại bỏ từ dừng (stopwords), loại bỏ các ký

tự không phải chữ cái hoặc chữ số

Tích hợp dữ liệu: Dữliệu của nhiều nguồn có thểtổhợplại

Lựa chọn dữ liệu: Những dữliệu phù hợp với phân tíchđược trích rút từ nguồn dữ liệu ban đầu

Chuyển đổi dữ liệu: Dữliệuđược chuyểnđổi hayđược hợp nhất về dạng thích hợp cho việc khai phá

Khai phá dữ liệu: Là tiến trình chính, trongđó các phươngpháp tính toán được áp dụng nhằm trích ra các mẫu dữ liệu

Đánh giá mẫu: Dựa trên các phương phápđo nhằmxác định độ chuẩn xác và lợi ích từ các mẫu biểu diễn tri thức

Biễu diễn tri thức: Sửdụng kỹthuật biểu diễnvà hiển thị tri thức được tổng hợp cho người dùng

1.2 Machine learning

―Học máy(machine learning) là một lĩnh vực của Trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kỹ thuật cho phép các hệ thống ―học‖ tự động từ dữ liệu để giải quyết những vấn đề cụ thể nào đó‖(Theo wikipedia)

Machine Learning là một nhánh con của AI Theo định nghĩa của Wikipedia, ―Machine learning is the subfield of computer science that ―gives

Trang 15

computers the ability to learn without being explicitly programmed‖ Nói đơn giản, Machine Learning là một lĩnh vực của Khoa Học Máy Tính, nó có khả năng tự học dựa trên dữ liệu đưa vào mà không cần phải được lập trình cụ thể

Ví dụ như các máy tính học cách phân loại thư điện tử xem có phải thư rác (spam) hay không và tự động xếp thư vào thư mục tương ứng; dạy máy tính (rô-bôt) cách băng qua đường thì theo cách truyền thống bạn sẽ đưa cho nó một loạt quy tắc hướng dẫn cách nhìn trái phải hay đợi xe và người đi qua,… Tuy nhiên nếu dùng học máy, chúng ta sẽ cho máy tính xem hàng nghìn video quay cảnh người ta băng qua đường an toàn và hàng nghìn video quay cảnh con người đó bị xe đâm để nó tự học

Từ đó máy tính có thể nhận thức và phân tích nhiều đặc trưng tốt hơn (thông minh hơn) từ các video để nhận biết được các sự vật hiện tượng mới xung quanh thông qua kho dữ liệu đã huấn luyện; Dạy máy tính có thể dự đoán quan điểm của ngôn ngữ, từ một câu bình luận đưa vào, máy các thể xác định được câu bình luận đó là tiêu tực hay tích cực … bằng cách ta huấn luyện cho máy tính học hàng nghìn câu mang ngữ nghĩa

là tích cực, hàng nghìn câu mang ngữ nghĩa là tiêu cực từ đó máy tính có thể tự động nhận thức và trích rút được đặc trưng của các câu bình luận thông qua kho dữ liệu đã được huấn luyện; Thuật toán phân lớp, có thể phân chia dữ liệu vào nhiều nhóm khác nhau Thuật toán phân lớp được dùng để nhận dạng chữ số tay cũng có thể được sử dụng để phân loại thư rác mà không cần thay đổi dòng mã nào Chúng đều dùng chung một thuật toán nhưng được truyền vào các dữ liệu huấn luyện khác nhau do đó nó dẫn đến các logic phân lớp khác nhau

Hình 1-3 Minh họa về machine learning

Vì vậy, việc phân tích hàng triệu dữ liệu về quan điểm, bình luận của khách hàng đối với các sản phẩm dịch vụ trong thời gian ngắn và đưa ra số liệu tổng hợp kết quả đánh giá của Khách hàng thì machine learning là một giải pháp được ưu tiên thực hiện

Trang 16

Như trong luận văn này giúp xử lý một lượng dữ liệu khá lớn, sau đó tính toán ra kết quả đánh giá của người dùng với thời gian rất nhanh

1.3 Deep Learning

1.3.1. Khái niệm

Học sâu (Deep Learning) là một phương pháp của máy học dựa trên một tập hợp

các thuật toán để cố gắng mô hình dữ liệu trừu tượng hóa ở mức cao bằng cách sử dụng nhiều lớp xử lý với cấu trúc phức tạp, hoặc bằng cách khác bao gồm nhiều biến đổi phi tuyến‖(Theo wikipedia) Hay nói cách khác là học sâu làmột kỹ thuật trong học máy, sử dụng các thuật toán liên quan đến các thuật toán dựa trên cấu trúc và hoạt động của bộ não động vật gọi là Mạng nơ ron nhân tạo dựa trên việc phân tích dữ liệu

về nhiều đặc trưng hơn nhờ sự hỗ trợ khả năng tính toán của máy tính

Học sâu tập trung giải quyết các vấn đề liên quan đến mạng nơ ron nhân tạo nhằm nâng cấp các công nghệ về nhận diện gióng nói, thị giác máy tính, và xử lý ngôn ngữ tự nhiên.[10]

Hình 1-4 Deeplearning trong lĩnh vực AI Deep learning nature, 521(7553), p.436

Có 3 loại layer chính của các nơ ron trong mạng nơ ron là: Input layer, các Hidden layer, Output layer Từ ―Deep‖ trong Deep Learning chỉ đến việc có nhiều hơn một hidden layer

Trang 17

Hình 1-5 Mạng Deep learning gồm các node neural Deep learning nature, 521(7553), p.436

Nổi tiếng nhất của Deep Learning có thể kể đến là CNN (Convolutional Neural Networks) được sử dụng nhiều nhất trong lĩnh vực thị giác máy tính (computer vision), RNN (Recurrent Neural Network) thường được ứng dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing)

Nhận dạng chữ viết: Với chương trình nhận dạng chữ viết in có thể chuyển hàng ngàn đầu sách trong thư viện thành văn bản điện tử trong thời gian ngắn Nhận dạng chữ viết của con người có ứng dụng trong khoa học hình sự và bảo mật thông tin (nhận dạng chữ ký điện tử)

Nhận dạng tiếng nói: Nhận dạng tiếng nói rồi chuyển chúng thành văn bản tương ứng Giúp thao tác của con người trên các thiết bị nhanh hơn và đơn giản hơn, chẳng hạn thay vì gõ một tài liệu nào đó bạn đọc nó lên và trình soạn thảo sẽ tự ghi nó ra Đây cũng là bước đầu tiên cần phải thực hiện trong ước mơ thực hiện giao tiếp giữa con người với robot Nhận dạng tiếng nói có khả năng trợ giúp người khiếm thị rất nhiều

Tổng hợp tiếng nói: Từ một văn bản tự động tổng hợp thành tiếng nói Thay vì phải tự đọc một cuốn sách hay nội dung một trang web, nó tự động đọc cho chúng ta Giống như nhận dạng tiếng nói, tổng hợp tiếng nói là sự trợ giúp tốt cho người khiếm thị, nhưng ngược lại nó là bước cuối cùng trong giao tiếp giữa robot với người

Dịch tự động (machine translate): Như tên gọi đây là chương trình dịch tự động

từ ngôn ngữ này sang ngôn ngữ khác Một phần mềm điển hình là Google Translate có thể dịch giữa các ngôn ngữ khác nhau

Tìm kiếm thông tin (information retrieval): Đặt câu hỏi và chương trình tự tìm ra nội dung phù hợp nhất

Tóm tắt văn bản: Từ một văn bản dài tóm tắt thành một văn bản ngắn hơn theo mong muốn nhưng vẫn chứa những nội dung thiết yếu nhất

Trang 18

Sinh văn bản: Từ các dữ liệu văn bản của một cá nhân tự tạo ra cú pháp và lối viết theo phong cách của cá nhân đó

Phân tích cảm xúc trong ngôn ngữ: Đây là khái niệm mới trong xử lý ngôn ngữ, bằng việc kết hợp giữa nhận dạng ngôn ngữ với phân tích cảm xúc, biểu cảm Mục tiêu

là máy tính nhận dạng đánh giá các mức độ tâm lý của con người trong ngôn ngữ

1.4 Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP)

Xử lý ngôn ngữ tự nhiên là một nhánh của trí tuệ nhân tạo tập trung vào các ứng dụng giải quyết các vấn đề về xử lý ngôn ngữ của con người Trong trí tuệ nhân tạo thì việc xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảo nhất của tư duy và giao tiếp.[4]

Xử lý ngôn ngữ là một kỹ thuật quan trọng nhằm giúp máy tính hiểu được ngôn ngữ của con người, qua đó hướng dẫn máy tính thực hiện và giúp đỡ con người trong những công việc có liên quan đến ngôn ngữ như: dịch thuật, phân tích dữ liệu văn bản,

dự đoán quan điểm tài liệu, nhận dạng tiếng nói, tìm kiếm thông tin

1.4.2.1 Cấu tạo từ tiếng Việt

Tiếng Việt là ngôn ngữ không biến hình từ và âm tiết tính, tức là mỗi âm tiết phát

âm tách rời và được thể hiện bằng một từ Hai đặc trưng này chi toàn bộ tổ chức của

hệ thống ngôn ngữ tiếng Việt

Tiếng tự thân nó không có ý nghĩa nhưng có thể ghép với nhau để tạo thành từ có nghĩa, thường xuyên gặp ở những từ mượn như phéc-mơ-tuya, a-pa-tít, mì-chính Trong tiếng Việt các tiếng thuộc nhóm đầu tiên chiếm đa số, các tiếng thuộc hai nhóm sau thường chỉ chiếm số ít, đặc biệt là nhóm thứ 3, chúng thường được gọi là tiếng vô nghĩa

Trang 19

1.4.2.3 Từ, cụm từ:

Từ được cấu tạo từ một hoặc nhiều tiếng Từ cấu tạo từ một tiếng gọi là từ đơn,

ví dụ: tôi, bạn, nhà, hoa… Từ cấu tạo bởi nhiều tiếng là từ ghép, giữa các tiếng có mối quan hệ về nghĩa

Từ ghép được phân thành từ ghép đẳng lập và từ ghép chính phụ Đối với từ ghép đẳng lập các thành phần cấu tạo từ có mối quan hệ bình đẳng với nhau về nghĩa

Ví dụ: ăn nói, bơi lội…

Đối với từ ghép chính phụ, các thành phần cấu tạo từ có mối quan hệ phụ thuộc với nhau về nghĩa, thành phần phụ có vai trò làm chuyên biệt hóa, tạo sắc thái cho thành phần chính

Ví dụ: hoa hồng, đường sắt…

Cụm từ là những kiến trúc gồm hai từ trở lên kết hợp với nhau theo những quan

hệ ngữ pháp nhất định

Ví dụ: Từ ―học‖ là từ gồm một tiếng; Từ ―đại học‖ là từ gồm hai tiếng; Cụm từ

―khoa học máy tính‖ gồm 2 từ hay 4 tiếng

Theo như thống kê trên trang http://vdict.com thì độ dài của một từ tiếng Việt được thể hiện trong bảng:

Bảng 1-1 Tần suất xuất hiện độ dài từ tiếng Việt trên vdict.com

Trang 20

1.4.2.4 Biến hình từ tiếng Việt

Tiếng Việt không có hiện tượng biến hình từ bằng những phụ tố mang ý nghĩa ngữ pháp bên trong từ như tiếng Anh Tuy nhiên, tiếng Việt cũng có một số hình thức biến hình như trường hợp thêm từ ―sự‖ trước một động từ để biến nó thành danh từ hay thêm tiếng ―hóa‖ sau một danh từ để biến nó thành động từ tương đương, ví dụ như ―lựa chọn‖ và ―sự lựa chọn‖, ―tin học‖ và ―tin học hóa‖

1.4.2.5 Từ đồng nghĩa

Từ đồng nghĩa là những từ tương đồng với nhau về nghĩa nhưng khác nhau về

âm thanh và phân biệt với nhau về một vài sắc thái ngữ nghĩa hoặc phong cách nào đó, hoặc đồng thời cả hai Những từ đồng nghĩa với nhau lập thành một nhóm gọi là nhóm đồng nghĩa Ví dụ: dễ, dễ dàng, dễ dãi là cùng một nhóm từ đồng nghĩa

Từ đồng nghĩa thực chất không phải là những từ trùng nhau hoàn toàn về nghĩa

mà có những khác biệt nhất định Chính sự khác biệt đó là lí do tồn tại và làm nên sự khác nhau giữa các từ trong một nhóm từ đồng nghĩa

Thông thường các từ chỉ đồng nghĩa ở một nghĩa, một ngữ cảnh nào đó Vì thế, một từ có nhiều nghĩa (đa nghĩa) có thể tham gia vào nhiều nhóm đồng nghĩa khác nhau Ví dụ, từ ―coi‖ có thể tham gia vào các nhóm như coi – xem (coi hát, xem hát), coi – giữ (coi nhà, giữ nhà)

1.4.2.6 Đặc điểm chính tả

Đặc điểm chính tả tiếng Việt có ý nghĩa rất quan trọng trong các hệ thống xử lý

dữ liệu văn bản Một số đặc điểm chính tả tiếng Việt cần quan tâm như:

Các tiếng đồng âm: kĩ/kỹ, lí, lý… thường bị sử dụng lẫn nhau như: lý luận, lí luận, kĩ thuật, kỹ thuật…

Các từ địa phương: một số từ địa phương sử dụng thay cho các từ phổ thông, chẳng hạn: cây kiểng/cây cảnh, đờn/đàn, đậu phộng/lạc…

Vị trí dấu thanh: theo quy định đánh dấu tiếng Việt, dấu được đặt trên nguyên âm

có ưu tiên cao nhất Tuy nhiên, khi soạn thảo văn bản nhiều bộ gõ không tuân thủ nguyên tắc này nên có hiện tượng dấu được đặt ở các vị trí khác nhau, chẳng hạn: toán, tóan, thuý, thúy…

Cách viết hoa: theo quy định, chữ cái đầu câu và tên riêng phải viết hoa, tuy nhiên vẫn tồn tại một số cách viết tuỳ tiện

Phiên âm tiếng nước ngoài: tồn tại cách viết giữ nguyên gốc tiếng nước ngoài và phiên âm ra tiếng Việt, ví dụ: Singapore/Xin−ga−po

Từ gạch nối: do cách viết dấu gạch nối tuỳ tiện, không phân biệt được giữa nối tên riêng hay chú thích

Trang 21

Kí tự ngắt câu: sử dụng nhiều loại kí tự đặc biệt như ―.‖, ―;‖, ―!‖, ―?‖, ―…‖ ngăn cách giữa các câu hoặc các vế câu trong câu ghép

Phân tích hình thái: Trong bước này từng từ sẽ được phân tích và các ký tự không phải chữ (như các dấu câu) sẽ được tách ra khỏi các từ.Trong tiếng Anh và nhiều ngôn ngữ khác, các từ được phân tách với nhau bằng dấu cách Tuy nhiên trong tiếng Việt, dấu cách được dùng để phân tách các tiếng (âm tiết) chứ không phải từ và phân tách từ trong tiếng Việt là một công việc không hề đơn giản.[4]

Phân tích cú pháp: Dãy các từ sẽ được biến đổi thành các cấu trúc thể hiện sự liên kết giữa các từ này Sẽ có những dãy từ bị loại do vi phạm các luật văn phạm

Phân tích ngữ nghĩa: Thêm ngữ nghĩa vào các cấu trúc được tạo ra bởi bộ phân tích cú pháp

Tích hợp văn bản: Ngữ nghĩa của một câu riêng biệt có thể phụ thuộc vào những câu đứng trước, đồng thời nó cũng có thể ảnh hưởng đến các câu phía sau

Phân tích thực nghĩa - Cấu trúc thể hiện điều được phát ngôn sẽ được thông dịch lại để xác định nó thật sự có nghĩa là gì

Tuy nhiên, ranh giới giữa 5 bước xử lý này có thể khác nhau Chúng có thể được tiến hành từng bước một, hoặc tiến hành cùng lúc - tùy thuộc vào giải thuật và ngữ cảnh cụ thể

Trong chương tiếp theo (chương 2) sẽ giới thiệu các đề tài liên quan đã được thực hiện và đề cập đến các phương pháp sẽ được sử dụng thực hiện trong bài toán của luận văn

Trang 22

CHƯƠNG 2 BÀI TOÁN DỰ ĐOÁN QUAN ĐIỂM

(SENTIMENT ANALYSIS)

2.1 Bài toán liên quan dự đoán quan điểm

SENTIWORDNET 3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining[3]

Trong nghiên cứu này trình bày SENTIWORDNET 3.0, một nguồn tài nguyên từ vựng được tích lũy rõ ràng để hỗ trợ phân loại tình cảm và ý kiến SENTIWORDNET 3.0 là phiên bản cải tiến của SENTIWORDNET 1.0, là nguồn tài nguyên từ vựng có sẵn được công khai cho mục đích nghiên cứu, hiện được cấp phép cho hơn 300 nhóm nghiên cứu và được sử dụng trong nhiều dự án nghiên cứu trên toàn thế giới Cả hai SENTIWORDNET 1.0 và 3.0 là kết quả của việc tự động chú thích tất cả các đồng bộ WORDNET theo mức độ tích cực, tiêu cực, và trung lập của chúng Hiện bao gồm (thêm vào bước học bán giám sát trước đó) một bước đi ngẫu nhiên để tinh chỉnh điểm

số

Hình 2-1 Top 10 những từ tương tự nghĩa giữa postive và negative

Sentiwordnet 3.0: an enhanced lexical resource for sentiment analysis and opinion

Trang 23

Khó khăn:

Đối với phương pháp này yêu cầu về yếu tố thời gian để hoàn thiện

Cần có bộ dữ liệu huấn luyện đủ lớn và đa dạng thì bộ tài nguyên tự vựng này mới có ý nghĩa Đặc biệt đối với ngôn ngữ tiếng việt với đa tầng ngữ nghĩa từ trong nhiều trường hợp khác nhau

Chỉ dừng lại ở mức độ từ Trong khi việc xem xét từ trong ngữ cảnh nào là quan trọng.bản chất của nó là phải biểu diễn câu thành dạng vector

Sentiment Analysis and Opinion Mining: A Survey [16]

Bài viết này trình bày một khảo sát bao gồm các kỹ thuật và phương pháp trong phân tích tình cảm với nhiều bộ dữ liệu thuộc các lĩnh vực khác nhau Giúp so sánh đánh giá được hiệu quả bằng phương pháp đánh giá khác nhau

Hình 2-2 Sentiment Classification Amazon review Sentiment analysis and opinion mining: a survey International Journal, 2(6), pp.282-

292

Trang 24

Hình 2-3 Summary of the survey Sentiment analysis and opinion mining: a survey International Journal, 2(6), pp.282-

292

Ý nghĩa:

Cung cấp cái phương pháp cho việc phân loại tình cảm

Tổng hợp kết quả của từng nghiên cứu với các phương pháp khác nhau với Precision, Recall, F1

Khó khăn:

Chủ yếu mang tính báo cáo kết quả dựa trên những nghiên cứu liên quan Cho nên sẽ có phần không công bằng bởi mỗi nghiên cứu được thực hiện trong điều kiện khác nhau như con người, kỹ thuật…

Trang 25

2.2 Phương pháp máy học để giải bài toán dự đoán quan điểm

Bằng cách sử dụngmột lượng lớn dữ liệu có sẵn, ta có thể ―dạy‖ cho máy tính

―học‖ để chúng có khả năng tự động thực hiện những tác vụ Vì vậy có thể sử dụng sức mạnh của máy tính cho việc tính toán, phân tích

Chúng ta làm cho cái máy học cách chúng ta dự đoán,thay chúng ta để dự đoán Đây được gọi là cách tiếp cận machine learning (machine learning approach) [17] Bài toán học máy để xử lý ngôn ngữ tự nhiên gồm các việc sau:

Ưu điểm:

Phương pháp đơn giản nhất cho việc trích xuất đặc trưng vector

Nhược điểm:

Có một vài điều cần lưu ý trong BoW[18]

Nhược điểm lớn nhất của BoW là nó không mang thông tin về thứ tự của các từ Cũng như sự liên kết giữa các câu, các đoạn văn trong văn bản

Ví dụ với tiếng việt, ba câu sau đây: ―Em yêu anh không?‖, ―Em không yêu anh‖,

và ―Không, (nhưng) anh yêu em‖ khi được trích chọn đặc trưng bằng BoW sẽ cho ra

ba vector giống hệt nhau, mặc dù ý nghĩa khác hẳn nhau

Với những ứng dụng thực tế, từ điển có nhiều từ khác nhau, có thể đến một trăm nghìn hoặc cả triệu, như vậy vector đặc trưng thu được sẽ rất dài

Có rất nhiều từ trong từ điển không xuất hiện trong một văn bản Như vậy các vector đặc trưng thu được thường có rất nhiều phần tử bằng 0 Các vector có nhiều phần tử bằng 0 được gọi là sparse vector

Nghĩ kỹ một chút, những từ hiếm đôi khi lại mang những thông tin quan trọng nhất mà chỉ loại văn bản đó có Đây là một nhược điểm của BoW Có một phương pháp cải tiến khác giúp khắc phục nhược điểm này có tên là Term Frequency-Inverse Document Frequency (TF-IDF) dùng để xác định tầm quan trọng của một từ trong một văn bản dựa trên toàn bộ văn bản trong cơ sở dữ liệu (corpus)

Trang 26

2.2.1.2 TF-IDF

Theo với đề xuất bài báo ở trên Chúng tôi tìm hiểu về TF-IDF và tham khảo với bài báo ―Using tf-idf to determine word relevance in document queries‖ của tác giả Ramos và các công sự

Cách xác định và tính weights cho vector là hết sức quan trọng, ảnh hưởng đến

độ chính xác của các thuật toán xếp hạng Việc các từ có trọng số khác nhau là do không phải các từ đều có sự quan trọng giống nhau, sử dụng số lần xuất hiện của các

từ làm vector không phải là một cách tối ưu Ở phương diện các documents, một vài từ

có thể mang nhiều thông tin hơn các từ còn lại[14]

Những từ thường xuyên xuất hiện sẽ không có nhiều thông tin nhưng vẫn có tỉ trọng(weight) ngang với các từ khác Ví dụ từ dừng chẳng hạn, chúng ta phân tích vềquán ăn nào đó thì từ "quán ăn" xuất hiện ở tất cả các câu.Chúng ta cần giảm tỉ trọng

về mặt thông tin nó xuống vì thông tin không mang nhiều giá trị.Những từ hiếm(rare word) từ khóa (key word) không có sự khác biệt về tỉ trọng thông tin[14]

Để khắc phục hạn chế này tf-idf đã ra đời.Tf-idf bao gồm 2 thành phần là tf(term frequency) và idf(inverse document frequency)

tf đo lường tỉ trọng tần suất từ w có trong văn bản d (document).Vì các văn bản thường có chiều dài khác nhau nên để tính tần suất ta chia nó cho tổng số từ trong văn bản d

Ưu điểm:

Với TF_IDF giúp giảm tỉ trọng của những từ thường xuyên suất hiện và tăng tỉ trọng những từ ít xuất hiện trong tài liệu hơn so với phương pháp bag of word

Nhược điểm:

Tuy nhiên phương pháp này còn nhiều hạn chế như

Độ dài vector rất dài Nếu cắt bớt bằng cách dựa trên những từ có tần suất cao thì mất mát những từ hiếm nhưng mang ý nghĩa trong câu

Dừng lại ở trọng số của từ trong câu Nhưng để đánh giá hay phân tích từ còn dựa vào ngữ cảnh mà từ được sử dụng

Trang 27

2.2.1.3 Word2vec

Với nhược điểm của hai phương pháp bag-of-word và tf-idf thì:

Độ dài của một vector là quá lớn (bằng độ dài của từ điển, có thể lên đến cả triệu) Không xác định được sự tương quan giữa các từ vì tích vô hướng của hai từ nào cũng bằng 0

Để khắc phục những nhược điểm trên thì theo bài báo ―Distributed representations of sentences and documents In International conference on machine learning (pp 1188-1196).‖ Được công bố bơi Le, Q and Mikolov, T., 2014, January

Đó là phương pháp Word2vec

Để xây dựng được vector mô tả phân bố quan hệ với tập từ điển, bản chất mô hình Word2vec sử dụng một mạng neural đơn giản với một lớp ẩn Sau khi được huấn luyện trên toàn bộ tập văn bản, toàn bộ lớp ẩn sẽ có giá trị mô hình hóa quan hệ của từ trong tập văn bản được huấn luyện ở mức trừu tượng Trong ngữ cảnh, từ sẽ được huấn luyện việc sử dụng thuật toán Continuous Bag of Words (CBOW) và skip gram Bản chất của CBOW là sử dụng ngữ cảnh để đoán từ (sử dụng các từ xung quanh (dựa trên window) để dự đoán từ ở giữa) và bản chất của skip gram là dùng từ để dự đoán ngữ cảnh (sử dụng 1 từ để dự đoán các từ xung quanh (hay ngữ cảnh)) Một trong hai cách sẽ được áp dụng để huấn luyện cho mô hình word2vec, trong đó cách sử dụng mô hình skip gram thường được sử dụng do việc đáp ứng tốt với tập dữ liệu lớn.[11]

Hình 2-4 Minh họa phân bố từ bằng word2vec Distributed representations of sentences and documents In International conference

on machine learning (pp 1188-1196)

Ưu điểm:

Trang 28

Word2vec giúp biến 1 từ ở dạng one-hot vector thành một vector có số chiều nhỏ hơn rất nhiều, và có thể tính được sự tương quan giữa hai từ dựa vào tích vô hướng giữa hai vector biểu diễn hai từ đó

Word2vec hữu dụng khi áp dụng để xác định các thông tin từ các n-gram gồm các từ bắt buộc phải xuất hiện liên tiếp nhau

Các phương pháp máy học dùng để huấn luyện và dự đoán

2.2.2.1 SVM (Support Vector Machine)

Một phương pháp khá phổ biến và mang lại kết quả khá tốt trong việc phân loại

đó là SVM (Support Vector Machine) Phương pháp này được đề cập trong bài báo của Manek và các cộng sự được viết năm 2017 ―Aspect term extraction for sentiment analysis in large movie reviews using Gini Index feature selection method and SVM classifier‖[12]

Trong bài báo này, một phương pháp lựa chọn tính năng dựa trên chỉ số Gini với trình phân loại Support Vector Machine (SVM) được đề xuất để phân loại tình cảm cho bộ dữ liệu đánh giá phim lớn

SVM là một phương pháp hiệu quả cho bài toán phân lớp dữ liệu Nó là một công cụ đắc lực cho các bài toán về xử lý ảnh, phân loại văn bản, phân tích quan điểm Một yếu tố làm nên hiệu quả của SVM đó là việc sử dụng Kernel function khiến cho các phương pháp chuyển không gian trở nên linh hoạt hơn [12]

Ý tưởng của SVM là tìm một siêu phẳng (hyper lane) để phân tách các điểm dữ liệu Siêu phẳng này sẽ chia không gian thành các miền khác nhau và mỗi miền sẽ chứa một loại giữ liệu

Siêu phẳng tối ưu mà chúng ta cần chọn là siêu phẳng phân tách có lề lớn nhất

Lý thuyết học máy đã chỉ ra rằng một siêu phẳng như vậy sẽ cực tiểu hóa giới hạn lỗi mắc phải

Ưu điểm của SVM:

Trang 29

Việc tính toán hiệu quả trên các tập dữ liệu lớn

Xử lý trên không gian số chiều cao: SVM là một công cụ tính toán hiệu quả trong không gian số chiều cao, trong đó đặc biệt áp dụng cho các bài toán phân loại văn bản

và phân tích quan điểm nơi chiều có thể cực kỳ lớn

Tiết kiệm bộ nhớ: Do chỉ có một tập hợp con của các điểm được sử dụng trong quá trình huấn luyện và ra quyết định thực tế cho các điểm dữ liệu mới nên chỉ có những điểm cần thiết mới được lưu trữ trong bộ nhớ khi ra quyết dịnh

Tính linh hoạt - phân lớp thường là phi tuyến tính Khả năng áp dụng Kernel mới cho phép linh động giữa các phương pháp tuyến tính và phi tuyến tính từ đó khiến cho hiệu suất phân loại lớn hơn

Nhược điểm của SVM:

Bài toán số chiều cao: Trong trường hợp số lượng thuộc tính (p) của tập dữ liệu lớn hơn rất nhiều so với số lượng dữ liệu (n) thì SVM cho kết quả khá tồi

Chưa thể hiện rõ tính xác suất: Việc phân lớp của SVM chỉ là việc cố gắng tách các đối tượng vào hai lớp được phân tách bởi siêu phẳng SVM Điều này chưa giải thích được xác suất xuất hiện của một thành viên trong một nhóm là như thế nào

Phương pháp hồi quy logistic là một mô hình hồi quy nhằm dự đoán giá trị đầu ra rời rạc (discrete target variable) y ứng với một véc-tơ đầu vào X Việc này tương đương với chuyện phân loại các đầu vào x vào các nhóm y tương ứng

Sử dụng phương pháp thống kê ta có thể coi rằng khả năng một đầu vào x: nằm vào một nhóm y0 là xác suất nhóm y0 khi biết x: p(y0∣x) Dựa vào công thức xác xuất hậu nghiệm ta có:

Trang 30

Hàm σ(a) ở đây được gọi là hàm sigmoid (logistic sigmoid function) Hình dạng chữ S bị chặn 2 đầu của nó rất đặt biệt ở chỗ dạng phân phối đều ra và rất mượt

Hình 2-5 Minh họa Logistic Regression

Ưu điểm:

Hữu ích trong deep learning trong khi xây dựng mạng lưới thần kinh

Đây là một kỹ thuật được sử dụng rộng rãi vì nó rất hiệu quả, không đòi hỏi quá nhiều tài nguyên tính toán, nó rất dễ hiểu, nó không yêu cầu các tính năng đầu vào phải được thu nhỏ, nó không yêu cầu điều chỉnh, dễ dàng thường xuyên và đầu ra xác suất dự đoán hiệu chuẩn tốt

Trang 31

Hình 2-6 Minh họa Multi-layer Perceptron

Một nút, còn được gọi là nơ ron hoặc Perceptron, là một đơn vị tính toán có một hoặc nhiều kết nối đầu vào có trọng số, hàm truyền kết hợp các đầu vào theo một cách nào đó và kết nối đầu ra.Các nút sau đó được tổ chức thành các lớp để bao gồm một mạng

Trong quá trình tìm hiêu thì chúng tôi đã tìm hiểu về Deep learning Deep learning đã nổi lên như một kỹ thuật học máy mạnh mẽ, học nhiều lớp biểu diễn hoặc feature của dữ liệu và tạo ra kết quả dự đoán với độ chính xác cao [20]

Và khá nổi bật trong deep learning thì mạng nơ-ron hồi quy (RNN - Recurrent Neural Network), một thuật toán được chú ý rất nhiều trong thời gian gần đây bởi các kết quả tốt thu được trong lĩnh vực xử lý ngôn ngữ tự nhiên

2.2.3.1 RNN(Recurrent Neural Network)

Ý tưởng chính của RNN là sử dụng chuỗi các thông tin Trong các mạng nơron truyền thống tất cả các đầu vào và cả đầu ra là độc lập với nhau Tức là chúng không liên kết thành chuỗi với nhau RNN được gọi là hồi quy (Recurrent) bởi lẽ chúng thực hiện cùng một tác vụ cho tất cả các phần tử của một chuỗi với đầu ra phụ thuộc vào cả các phép tính trước đó Nói cách khác, RNN có khả năng nhớ các thông tin được tính toán trước đó [20]

Mạng RNN có một chút thay đổi so với ANN, khi trạng thái trước đây của mạng (kết quả của lần tính toán trước) sẽ là đầu vào cho tính toán kế tiếp Phương pháp này cho phép mạng nơron học cấu trúc dạng chuỗi Ví dụ, bạn dự đoán từ tiếp theo có khả năng nhất trong câu dựa trên vài từ đầu tiên

Ngày đăng: 28/03/2021, 22:53

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w