Phát hiện văn bản chủ quan trong khai phá quan điểm

Luận văn “Phát hiện văn bản chủ quan trong khai phá quan điểm” tập trung vào khảo sát các phương pháp đã được áp dụng cho các ngôn ngữ khác trên thế giới,đặc biệt tập trung nghiên cứu để

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

-NGUYỄN NGỌC TRƯỜNG

PHÁT HIỆN VĂN BẢN CHỦ QUAN TRONG

KHAI PHÁ QUAN ĐIỂM

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2015

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS LÊ ANH CƯỜNG

Hà Nội - 2015

Trang 3

NHẬN XÉT CỦA CÁN BỘ HƯỚNG DẪN

………

Trang 4

LỜI CÁM ƠN

Để hoàn thành luận văn “Phát hiện văn bản chủ quan trong khai phá quan

điểm” này, tôi đã nhận được sự hướng dẫn và giúp đỡ nhiệt tình của các Thầy Cô, các

Anh Chị và các Bạn.

Lời đầu tiên, tôi xin bày tỏ lòng biết ơn chân thành đến Ban lãnh đạo cùng quý Thầy Cô trong khoa Công nghệ thông tin - Trường Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội đã tận tình dạy dỗ, truyền đạt kiến thức, kinh nghiệm quý báu và tạo điều kiện thuận lợi cho tôi trong suốt thời gian học tập tại trường và thực hiện đề tài.

Đặc biệt, tôi xin bày tỏ lòng biết ơn sâu sắc đến Thầy giáo hướng dẫn, PGS TS.

Lê Anh Cường, người đã tận tình hướng dẫn, giúp đỡ tôi trong suốt quá trình thực hiện đề tài.

Tôi cũng xin gửi lời cảm ơn tới nghiên cứu sinh Nguyễn Thị Xuân Hương và các Anh Chị, các Bạn sinh viên trong nhóm nghiên cứu đã hỗ trợ tôi rất nhiều trong quá trình thực hiện luận văn này Tôi xin gửi lời cảm ơn tới các Bạn trong khóa K19

đã ủng hộ và khích lệ tôi trong suốt thời gian học tập tại trường.

Tôi xin trân trọng gửi đến Gia đình, Bạn bè và Người thân những tình cảm tốt đẹp nhất đã giúp đỡ động viên tôi trong suốt quá trình học tập cũng như thực hiện và hoàn thành luận văn.

Mặc dù tôi đã cố gắng để hoàn thành luận văn một cách tốt nhất nhưng có thể

sẽ không tránh khỏi thiếu sót Kính mong nhận được sự cảm thông và chỉ bảo của quý Thầy Cô, các Anh Chị và các Bạn.

Hà Nội, ngày 01/11/2015

Học viên

Nguyễn Ngọc Trường

Trang 5

TÓM TẮT NỘI DUNG

Trong những năm gần đây, nghiên cứu về khai phá quản điểm đã nhận được sựquan tâm rộng rãi của các nhà nghiên cứu, các công ty hàng đầu về lĩnh vực công nghệthông tin như: Yahoo, Google, Microsoft, IBM…, các hội nghị lớn về trích chọn thôngtin, xử lý ngôn ngữ tự nhiên (TREC, CLEF, ACL, ) và đã đạt được những kết quả hữuích và mang lại lợi ích to lớn về cả mặt khoa học lẫn công nghiệp Tuy nhiên, đối vớingôn ngữ Tiếng Việt, các nghiên cứu về vấn đề này còn khá khiêm tốn và có rất nhiềucác bài toán đặt ra cần được tiếp tục nghiên cứu và phát triển

Luận văn “Phát hiện văn bản chủ quan trong khai phá quan điểm” tập trung

vào khảo sát các phương pháp đã được áp dụng cho các ngôn ngữ khác trên thế giới,đặc biệt tập trung nghiên cứu để áp dụng cho ngôn ngữ tiếng Việt Trên cơ sở áp dụngcác nghiên cứu đó và các công cụ xử lý ngôn ngữ tiếng Việt, luận văn tiến hành thựcnghiệm việc phân lớp văn bản chủ quan - khách quan cho các bình luận từ các trangbằng tiếng Việt Chúng tôi đã sử dụng một số đặc trưng để phân loại văn bản chủ quannhư bag of word, trích chọn các động từ và tính từ và áp dụng các phương pháp họcmáy thống kê cho bài toán này Các kết quả ban đầu đạt được khá khả quan

Nội dung luận văn được trình bày trong 4 chương như sau:

Chương 1 – Giới thiệu chung về khai phá quan điểm Chương này giới thiệu

những nội dung cơ bản nhất, cung cấp một cái nhìn khái quát về khai phá quan điểm,đồng thời cũng mô tả một số khái niệm cơ bản, cách tiếp cận, ý nghĩa và một số bàitoán điển hình đặt ra trong khai phá quan điểm

Chương 2 – Các nghiên cứu và phương pháp giải quyết Chương này giới

thiệu chung về một số tiếp cận phân lớp văn bản đã được đề xuất áp dụng cho bài toánkhai phá quan điểm

Chương 3 - Bài toán phát hiện văn bản chủ quan trong khai phá quan điểm Chương này mô tả chi tiết bài toán phát hiện văn bản chủ quan, một số nghiên

cứu hiện tại bao gồm cả các nghiên cứu trong tiếng Việt được áp dụng để giải quyếtbài toán

Chương 4 - Thực nghiệm phân lớp trên hai miền dữ liệu sản phẩm và giá xăng Chương này môt tả thực nghiệm từ việc tiến hành thu thập dữ liệu, thực hiện

tiền xử lý dữ liệu; sau đó tiến hành trích chọn một số đặc trưng và phân lớp chủ quantheo hai phương pháp Naive Bayes, SVM Cuối cùng, tổng hợp và đánh giá kết quảcho từng phương pháp

Trang 6

Lời cam đoan

Tôi xin cam đoan luận văn với đề tài “Phát hiện văn bản chủ quan trong khai

phá quan điểm” là công trình nghiên cứu của riêng tôi Các số liệu, kết quả được trình

bày trong luận văn là hoàn toàn trung thực và chưa từng được công bố trong bất kỳmột công trình nào khác

Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan

ở trong nước và quốc tế

Trong các nội dung được trình bày trong luận văn, tôi đã thể hiện rõ ràng vàchính xác những gì do tôi đóng góp

Luận văn này được hoàn thành trong thời gian tôi làm Học viên tại Khoa CôngNghệ Thông tin, Trường Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội

Học viên

Nguyễn Ngọc Trường

Trang 7

MỤC LỤC

Chương 1: Giới thiệu chung về khai phá quan điểm 6

1.1 Tổng quan 6

1 kiện act v quan điểm (Opinions) 9

1.3 Định nghĩa quan điểm 9

1.4 Một ố b i toán điển hình trong phân tích quan điểm 11

1.5 Vai trò v các ứng dụng 15

1.6 Những khó khăn v thách thức trong khai phá quan điểm tiếng Việt 18

Chương : Bài toán phân lớp v phân tích quan điểm 20

.1 Các b i toán phân lớp 20

2.2 Phân lớp quan điểm 21

.3 Quá trình phân lớp 21

.4 Khái quát một ố phương pháp phân lớp văn bản 22

.4.1 Phân lớp d a trên luật 22

.4 Phân lớp dụng các phương pháp học máy có giám át 23

.4.3 Phân lớp dụng học máy không giám sát 34

.4.4 Phân lớp dụng học máy bán giám át 35

2.5 Kết luận chung 36

Chương 3: Phát hiện văn bản chủ quan trong khai phá quan điểm 37

3.1 Phân biệt chủ quan v khách quan 37

3.1.1 Thông tin chủ quan 37

3.1.2 Thông tin khách quan 37

3 B i toán «Xây d ng bộ phân lớp để phân lớp các văn bản v o một trong hai lớp chủ quan hoặc khách quan» 39

3 .1 Phát biểu b i toán 39

3 Mô tả b i toán 39

3.3 Trích chọn đặc trưng 39

3.3.1 Đặc trưng v cách biểu diễn 39

3.3 Vấn đề trích chọn đặc trưng 46

3.3.3 Phương pháp trích chọn đặc trưng 47

3.4 Áp dụng một ố phương pháp phân lớp 53

Chương 4: Th c nghiệm phân lớp cho hai miền dữ liệu 54

4.1 Môi trường th c nghiệm 54

4.1.1 Phần cứng 54

Trang 8

4.1 Phần mềm v các công cụ 54

4 Quá trình th c nghiệm 55

4 .1 Dữ liệu ử dụng cho th c nghiệm 55

4 Th c hiện gán nhãn dữ liệu 57

4 .3 Trích chọn đặc trưng trong hệ thống của chúng tôi 58

4 .4 Bộ phân lớp Naive Baye 60

4 .5 Bộ phân lớp VM 63

4.3 Đánh giá kết quả 66

4.3.1 Phương pháp đánh giá 66

4.3 Nhận xét 67

Kết Luận 68

T i liệu tham khảo 70

Trang 9

Danh sách hình vẽ

ình 1.1: Tốc độ tăng trưởng tên miền Tiếng Việt 7

ình 1 : Độ tuổi người ử dụng Internet o với tổng dân ố ở Việt Nam 8

ình 1.3: Tổng hợp quan điểm về một chiếc điện thoại 14

ình 1.4: Tổng hợp các kiến o ánh giữa hai chiếc điện thoại với nhau 14

ình 1.5: Khai phá quan điểm người dùng 16

ình 1.6: Trang web entiment140 với từ khóa tìm kiếm l iphone 6 17

ình 1.7: Kết quả phân lớp quan điểm của entiment140 18

ình 1: Ví dụ về bộ phân lớp nhị phân VM 20

ình : Ví dụ mô hình phân lớp ử dụng học máy có giám át 22

ình 3: Ví dụ về cây quyết định 25

ình 4: Mô hình phân lớp ử dụng bộ phân lớp Naive Baye 26

ình 5: iêu phẳng với lề c c đại cho một VM phân tách dữ liệu thuộc hai lớp 32

ình 6: phân lớp VM ử dụng một ố các h m nhân 34

ình 3.1: Mô hình biểu diễn chủ quan v khách quan 37

ình 3 : Mô hình không gian vector của Chri tian Perone 41

ình 3.3: Biểu diễn văn bản dưới dạng vector 42

ình 3.4: Biểu diễn văn bản dưới dạng vector term frequency 42

ình 3.5: Tạo dữ liệu huấn luyện ử dụng bộ phân lớp d a trên luật 48

ình 4.1: Minh họa chương trình thu thập các bình luận trên báo điện tử 56

ình 4 : Minh họa chương trình thu thập các bình luận trên trên mạng xã hội 56

ình 4.3: Giao diện giới thiệu chương trình thu thập các bình luận 57

ình 4.4: Minh họa xây d ng từ điển đặc trưng 59

ình 4.5: Giao diện form học từ dữ liệu huấn luyện Training 61

ình 4.6: Giao diện form th c hiện phân lớp NB Cla ify 62

ình 4.7: Giao diện form giới thiệu chương trình About 62

ình 4.8: Minh họa biểu diễn dữ liệu huấn luyện 63

ình 4.9: Minh họa mảng các vector huấn luyện 63

ình 4.10: Giao diện form th c hiện phân lớp VM Cla ify 64

ình 4.11: Giao diện form chuyển đổi văn bản text ang vector 65

ình 4.1 : Giao diện giới thiệu chương trình phân lớp ử dụng VM 65

Trang 10

Danh sách bảng

Trang 12

Chương 1: Giới thiệu chung về khai phá quan điểm

1.1 Tổng quan

c c hơn v tạo ra ố lượng lớn các dữ liệu mới Những nội dung Web mới được tạo ra

bao gồm các đánh giá của khách h ng, các blog cá nhân b y tỏ kiến về các ản phẩm & dịchvụ,… - được gọi chung l dữ liệu phản hồi của người dùng trên Web Những nội dung đượcphản hồi từ các khách h ng không những bùng nổ về dung lượng m còn đa dạng về nộidung như các nhận xét, bình luận về ản phẩm, dịch vụ, văn hóa, chính trị, xã hội, thể thao,nghệ thuật,… Việc khai thác hiệu quả các thông tin n y ẽ mang lại giá trị hữu ích cho cácDoanh nghiệp để đưa ra chiến lược xây d ng kế hoạch tiếp thị v phát triển ản phẩm, chocác nh hoạch định chính ách, xã hội xác định những xu hướng phát triển v những vấn đềđang được quan tâm để đưa ra những chương trình h nh động phù hợp

Sự phát triển Internet ở Việt Nam

Internet ở Việt Nam được hình th nh v phát triển từ năm 1997 Từ đó đến nay, ViệtNam luôn được đánh giá l một trong những quốc gia có ố người ử dụng internet tăngnhanh nhất hằng năm Theo Báo cáo t i nguyên internet Việt Nam 014, trong 17 năm pháttriển của internet Việt Nam, t i nguyên internet - tham ố định danh phục vụ cho hoạt độnginternet tên miền.vn, địa chỉ IP, ố hiệu mạng đã tăng trưởng mạnh mẽ, tạo điều kiện thuậnlợi cho phát triển của internet Việt Nam Tính đến cuối năm 014: ố lượng tên miền “.vn”duy trì th c tế trên mạng l 91.103 tên Đạt tỷ lệ tăng trưởng 13%, đứng đầu ở Đông Nam Á

v đứng thứ 7 tại Châu Á Tên miền ".vn" giữ được tốc độ tăng trưởng tốt ngay cả nhữnggiai đoạn khó khăn của nền kinh tế trong nước v thế giới

gia dẫn đầu Thế Giới về tốc độ tăng trưởng [42]

Trang 13

nh 1.1: Tốc độ tăng trưởng tên miền Tiếng Việt

Những năm gần đây, việc đăng k ử dụng t i nguyên internet ở Việt Nam gia tăngmột cách đáng kể, đặc biệt l các tổ chức có mạng lưới kết nối đa hướng ử dụng ố hiệumạng A N v vùng địa chỉ độc lập Điều n y thể hiện phát triển đa dạng trong mạng lưới hạtầng thông tin, trong đó người ử dụng không ho n to n lệ thuộc v o mạng của các nh cungcấp, các loại hình dịch vụ kết nối tốc độ cao có mức độ tăng trưởng nhanh

chóng Dịch vụ truy cập internet qua hạ tầng di động 3G phát triển vượt bậc nhờ tiện lợi trong ử dụng v phổ biến của các thiết bị di động Tốc độ, kết nối internet trong nước v quốc tế ng y c ng nhanh, phục vụ đắc l c cho việc phát triển về ố lượng người

ử dụng v dịch vụ

Từ năm 010 đến nay, Việt Nam đã liên tục đứng trong top 0 quốc gia có ố ngườidùng Internet lớn nhất thế giới với tỷ lệ hơn 30% dân ố Việt Nam có ố lượng người dùngInternet nhiều thứ 8 trong khu v c Châu Á v đứng vị trí thứ 3 ở khu v c Đông Nam Á auIndone ia v Philippines) [43] Mặt khác, người ử dụng Internet nằm trong độ tuổi khá trẻ,

tỉ lệ nam giới là cao hơn và hơn 40% người dùng l nhân viên văn phòng Theo báo cáo củaNetCitzen Việt Nam, độ tuổi trung bình ử dụng Internet tại Việt Nam l 9, thấp hơn độ tuổitrung bình của dân ố l 36

Trang 14

nh 1.2: Độ tuổi người sử dụng Internet so với tổng dân số ở Việt Nam

Theo trình độ học vấn v nghề nghiệp, khoảng 54% ố người ử dụng Internet có trình

độ Cao đẳng, đại học trở lên Nhìn chung, 70% người ử dụng Internet l bộ phận trí thức,nhân viên văn phòng, còn lại l công nhân, nội trợ, tiểu thương buôn bán nhỏ, chủ cửa hng…[44]

Internet phát triển đã góp phần tạo lập cộng đồng, thúc đẩy hoạt động của các tổchức xã hội, nâng cao năng l c ản xuất v thương mại, tạo ra nhiều của cải vật chất trong xãhội v nâng cao đời ống người dân Internet còn l ân chơi bổ ích, một kênh giải trí hấp dẫnvới nhiều ứng dụng phục vụ người dùng

Sự phát triển lớn mạnh Internet ở Việt Nam cùng với sự phát triển của các trang mạng xã hội, blog, websites, các ứng dụng (văn bản, blog, bình luận, âm thanh, hình ảnh, ) ngày càng nhiều, do đó một lượng lớn các thông tin, các quan điểm, ý kiến bình luận được đưa lên internet tạo thành kho dữ liệu khổng lồ Việc thu thập và xử lý các thông tin này sẽ đem lại nhiều hiệu quả to lớn về kinh tế - xã hội, đồng thời thúc đẩy việc phát triển các phương pháp nghiên cứu về xử lý dữ liệu, xử lý ngôn ngữ nói chung và xử

lý ngôn ngữ Tiếng Việt nói riêng.

Khai thác tìm kiếm t i nguyên trên Internet nói chung hay khai thác thông tin từmạng xã hội để phục vụ các mục tiêu ản xuất, kinh doanh, quảng bá ản phẩm, các mụctiêu về chính trị, xã hội đã v đang thu hút được quan tâm của các nh nghiên cứu Tuynhiên, đa dạng về cách thể hiện cũng như nội dung từ các nguồn thông tin mạng xã hộiluôn là bài toán khó khi tổ chức thu thập, phân tích, tổng hợp thông tin một cách chínhxác, hiệu quả nhất Trên thế giới, đã có rất nhiểu công bố của các nh nghiên cứu cho phântích và khai phá quan điểm v các ứng dụng th c tiễn Có nhiều cách tiếp cận khác nhau đểgiải quyết cho vấn đề n y, tuy nhiên việc áp dụng cũng phụ thuộc v o từng nét văn hóa,đặc trưng ngôn ngữ của mỗi quốc gia

Đối với ngôn ngữ tiếng Việt, các nghiên cứu mới chỉ tập trung ở một ố lĩnh v c vềkhai thác quan điểm cho một ố ản phẩm, dịch vụ v mới dừng lại ở những b i toán vấn

Trang 15

đề n y chưa nhiều v còn hạn chế Đây cũng l l do để chúng tôi chọn đề t i … cho miền dữ

liệu tiếng Việt

Dữ liệu văn bản (text) hay thông tin dạng văn bản có thể chia thành loại ch nh:

kiện: lcác vấn đề, và các thuộc tính của chúng

Ví dụ: Thông tinhồng tím”

Quan điểm: l những biểu hiện chủ quan mô tả nhận xét, đánh giá, thẩm định, thái

độ, v cảm xúc của con người đối với các th c thể như các ản phẩm, dịch vụ, các tổ

chức,các cá nhân, các vấn đề, kiện, chủ đề, v các thuộc tính của chúng, thể hiện dưới dạng

tích c c, tiêu c c hay trung lập

VD: Một nhận xét về âm thanh của điện thoại: “Âm thanh của chiếc điện thoại n y

rất tuyệt”

1.3 Định nghĩa quan điểm

Quan điểm là sự thể hiện tình cảm hoặc ngụ ý một cách t ch cực (positive) hoặc

tiêu cực (negative) hoặc trung lập (neutral) của con người về một sự vật, sự việc, hiện

tượng,… nào đó.

Theo Bing liu [20], một quan điểm l một bộ gồm hai th nh phần chính: một đối

tượng g v một tình cảm s trên đối tượng đó.

Bộ (g, s)

Trong đó, g có thể l một th c thể (entity) hay một đặc trưng a pect của th c thể có

thể hiện quan điểm trên đó; và s l thể hiện quan điểm mang giá trị tích c c, tiêu c c, hoặc

trung tính, hoặc một giá trị thể hiện mức độ của quan điểm ví dụ., 1 đến 5 ao Tích

orientation hay các mức độ phân c c quan điểm entimemnt polarities) [20]

Trong đó, T l một hệ thống phân cấp của các th nh phần, các th nh phần con, v W l

một tập hợp các thuộc tính của e Mỗi th nh phần hoặc mỗi th nh phần con cũng có tập các

thuộc tính của riêng nó

thuộc tính như: tuổi thọ của pin v trọng lượng pin

Trang 16

Một th c thể được thể hiện bởi hệ thống phân cấp với các mức khác nhau để thể hiện mối quan hệ giữa chúng Biểu diễn n y quá phức tạp cho các ứng dụng vì việc xử l ngôn ngữ t nhiên để nhận dạng các th nh phần v các thuộc tính tại các mức khác nhau l rất khó khăn, trong khi đó nó không cần thiết trong phần lớn các ứng dụng Do đó, để đơn giản, chúng ta biểu diễn th nh hai mức v ử dụng thuật ngữ các đặc trưng a pect để thể hiện

cả các th nh phần v các thuộc tính Khi đó hệ thống phân cấp có nút gốc l

th c thể v các nút l l các đặc trưng khác nhau của th c thể Trong các t i liệu nghiên cứu, các th c thể đôi khi được gọi l các đối tượng object v các đặc trưng được gọi l các đặc tính feature [20]

Định nghĩa quan điểm

Quan điểm được định nghĩa một cách đầy đủ l bộ 5 giống như dưới đây:

Quan điểm := <e i , a ij , s ijkl , h k , t l >

 e i : tên của một thực thể,

 a ij : một kh a cạnh của thực thể e i

 s ijkl : quan điểm trên kh a cạnh a ij của thực thể e i (t nh phân cực của tình

cảm: t ch cực, tiêu cực, hoặc trung t nh, hoặc thể hiện với mức độ của sức mạnh / cường độ)

 h k : là người đưa ra quan điểm

 t l : thời gian khi quan điểm được h k bày tỏ

Một quan điểm đưa ra trên th c thể chính, các đặc trưng của nó thường được ử dụng

hiện quan điểm [20]

đã ử dụng Việc khai thác các kiến, nhận xét, bình luận của người dùng về các ản phẩm,dịch vụ, các vấn đề chính trị, xã hội, các chủ đề, một cách hiệu quả đem lại nhiều lợi íchlớn cho các cá nhân, tổ chức, doanh nghiệp Do đó các phương pháp t động hoặc bán tđộng thu thập, phân loại v đo lường thông tin đã đang ng y c ng phát triển Các nhiệm vụliên quan đến việc phân tích dữ liệu bên trên thường được gọi chung l khai phá quan điểm

Khai phá quan điểm bao gồm nhiều bước và nhiều kỹ thuật khác nhau được áp dụng cho các bước khác nhau Khai phá quan điểm là lĩnh vực nghiên cứu phân t ch ý kiến, quan điểm, đánh giá, thẩm định, thái độ và cảm xúc của mọi người đối với các thực thể như sản phẩm, dịch vụ, tổ chức, cá nhân, vấn đề, sự kiện, chủ đề và các kh a cạnh của nó.

Ngoài ra, khai phá quan điểm còn có nhiều tên gọi v nhiệm vụ khác nhau như: khaiphá quan điểm, trích chọn quan điểm, phân tích tình cảm, phân tích chủ quan, phân tíchtác động, phân tích cảm xúc, khai phá đánh giá của người dùng… Trên th c tế, thuật

10

Trang 17

ngữ khai phá quan điểm v phân tích tình cảm thường được ử dụng phổ biến hơn, còntrong nghiên cứu thì phân tích tình cảm hay khai phá quan điểm được ử dụng như nhau[ 0] Thuật ngữ phân tích tình cảm xuất hiện đầu tiên trong t i liệu Na ukawa and Yi,

003 , còn khai phá quan điểm xuất hiện đầu tiên trong t i liệu Dave, Lawrence andPennock, 003 Tuy nhiên, những nghiên cứu về quan điểm v kiến xuất hiện ớm hơntrong các t i liệu Da and Chen, 2001; Morinaga et al, 2002; Pang, Lee andVaithyanathan, 2002; Tong, 2001; Turney, 2002; Wiebe, 2000) [20]

1.4 Một số b i toán điển h nh trong phân tích quan điểm

Đối tượng của Phân tích quan điểm

Cho một văn bản quan điểm d, xác định tất cả các bộ quan điểm gồm 5 th nh phần (ei, aij, sijkl, hk, tl) trong d

Các nhiệm vụ chính để giải quyết bài toán này xuất phát từ 5 th nh phần trong đó gồm:

- Nhiệm vụ 1: Tr ch chọn và phân loại thực thể Bài toán này có thể xem như tương

tự với bài toán nhận dạng và phân loại thực thể.

- Nhiệm vụ : Tr ch chọn và phân loại đặc trưng

- Nhiệm vụ 3: Tr ch chọn và phân loại người đưa quan điểm

- Nhiệm vụ 4: Tr ch chọn và chuẩn hóa thời gian

- Nhiệm vụ 5: Phân lớp quan điểm ở mức kh a cạnh

- Nhiệm vụ 6: Sinh bộ quan điểm gồm 5 thành phần (e i , a ij , s ijkl , h k , t l )

Phân lớp quan điểm có thể được xem l mở rộng phù hợp nhất của học chủ đề Pang

v Lee, 008 Nhiệm vụ phân lớp quan điểm mức t i liệu l xác định xem nó thể hiện l tích c

c, tiêu c c hoặc trung lập Phần lớn đối tượng dữ liệu được nghiên cứu cho vấn đề n y l cácnhận xét tr c tuyến trên Web

Ví dụ: với một đánh giá ản phẩm, hệ thống xác định xem nhận xét về ản phẩm ấy ltốt hay xấu

Phát biểu b i toán:

Cho một văn bản d chứa quan điểm đánh giá về một thực thể, xác định tình cảm của người đưa quan điểm về thực thể Tức là xác định s ijkl trong bộ (e i , a ij , s ijkl , h k , t l ) trong đó e, h, t được giả định là biết hoặc không biết.

trị ố hoặc điểm với một dãy đưa ra thì đây l b i toán hồi quy

Giả thuyết: Phân lớp quan điểm hay hổi quy giả thuyết rằng t i liệu quan điểm d ví

dụ l một nhận xét về ản phẩm thể hiện các quan điểm trên một th c thể đơn v bao gồmcác quan điểm từ một người đánh giá h

Trang 18

Câu chủ quan v phân lớp quan điểm

mỗi câu Trên th c tế, không có khác biệt cơ bản giữa phân loại mức câu v mức t i liệu, bởi

vì câu chính l một t i liệu ngắn

Phát biểu b i toán:

Cho một câu x, xác định có hay không x thể hiện quan điểm là t ch cực, tiêu cực

hay trung lập hoặc không chứa quan điểm.

Ví dụ: cho một nhận xét “Chương trình n y chạy quá chậm!”

theo Trong phần lớn các ứng dụng, chúng ta cần biết các mục tiêu quan điểm, từ đó cho

thấy một câu thể hiện l quan điểm tích c c, tiêu c c hay trung lập nhưng không biết các th c

thể/ đặc trưng của quan điểm đó l gì Tuy nhiên, phân lớp mức câu vẫn rất hữu ích trong

một ố trường hợp, nếu chúng ta biết các th c thể v các đặc trưng của th c thể được đề cập

trong một câu, bước n y có thể giúp xác định có hay không quan điểm về các th c thể v các

đặc trưng l tích c c, tiêu c c hay trung lập

Nhiệm vụ đầu tiên

chứa thông tin quan điểm hay l thông tin khách quan

Nhiệm vụ thứ hai hay còn gọi l

trung lập

Phân tích quan điểm d a trên đ c trưng Aspect-based Sentiment Analysis)

Phân tích quan điểm mức câu v mức t i liệu thường không hiệu quả với các ứng

dụng bởi vì chúng không xác định được quan điểm cho mỗi mục tiêu Thậm chí, nếu giả

thuyết đặt ra l mỗi t i liệu đánh giá cho một th c thể, một t i liệu quan điểm tích c c hay

tiêu c c về một th c thể không có nghĩa l chúng tích c c hay tiêu c c cho tất cả các đặc

trưng của th c thể Để phân tích một cách ho n chỉnh, chúng ta cần khai thác các đặc trưng

v xác định đặc trưng n o có quan điểm l tích c c, tiêu c c, hay trung lập cho mỗi đặc trưng

đó

1 Tr ch các đặc trưng: nhiệm vụ này tr ch các đặc trưng được đánh giá.

Ví dụ, trong câu: “Chất lượng âm thanh của chiếc điện thoại n y tuyệt thật”

Đặc trưng “chất lượng âm thanh” của th c thể “chiếc điện thoại n y” được đánh

Trang 19

phân lớp quan điểm đặc trưng: nhiệm vụ này xác định quan điểm trong các đặc trưng khác nhau là t ch cực, tiêu cực hay trung lập.

Phân tích các quan điểm so sánh

Ngo i việc tr c tiếp b y tỏ quan điểm tích c c hay tiêu c c về một th c thể, đối tượng

v các khía cạnh của nó, người ta cũng có thể b y tỏ quan điểm bằng cách o ánh các th cthể, đối tượng v các khía cạnh của nó với nhau Theo Jindal v Liu quan điểm như vậyđược gọi l quan điểm so sánh [20]

Các quan điểm o ánh được biểu diễn khác với các quan điểm thông thường, ở cả vềngữ nghĩa, nghĩa v hình thức cú pháp

Ví dụ về câu biểu diễn quan điểm thông thường l “chất lượng hình ảnh của chiếc

điện thoại này thật là tuyệt vời”.

Ví dụ về câu biểu diễn quan điểm o ánh l “chất lượng hình ảnh của chiếc điện

thoại iphone 6 tốt hơn so với iphone 5” Câu này không nói chất lượng hình ảnh của chiếc

tích thì cần những kỹ thuật khác nhau

đây: “Chiếc điện thoại iphone 6 rộng hơn 1 inch so với chiếc điện thoại iphone 5s” Câu

n y không biểu diễn quan điểm

Nghiên cứu trong văn bản tiếng Anh, thực tế có hai kiểu so sánh là: quan điểm so

sánh và quan điểm so sánh hơn nhất Tuy nhiên, chúng được nghiên cứu cùng với nhau v

gọi chung l các quan điểm o ánh vì các phương pháp xử l bằng tay v ngữ nghĩa của chúng

l tương t nhau

Tổng hợp ý kiến quan điểm

Trong phần lớn các ứng dụng phân tích quan điểm, việc cần thiết l nghiên cứu cácquan điểm từ nhiều người dùng xem yếu tố t nhiên khách quan của các quan điểm vì nếuchỉ tìm kiếm quan điểm từ một người dùng l không đủ Do đó hình thức tổng hợp quanđiểm l cần thiết

Phần lớn các nghiên cứu tổng hợp quan điểm đều d a trên cấu trúc của quan điểm,

Tiếp cận n y được gọi l tổng hợp quan điểm d a trên đặc trưng a pect-based summary).Khung l m việc n y cũng được phát triển v ứng dụng rộng rãi trong công nghiệp Ví dụnhư các hệ thống phân tích quan điểm của Micro oft Bing v Google

Product earch cũng ử dụng dạng tổng hợp n y Kết quả của tổng hợp quan điểm có thể được biểu diễn theo hình thức cấu trúc hoặc t i liệu văn bản ngắn [ 0]

Ví dụ: Tổng hợp các kiến trên một đối tượng điện thoại được thể hiện d a trên các đặc trưng của đối tượng giống như dưới đây:

Trang 20

nh 1.3: Tổng hợp quan điểm về một chiếc điện thoại

Tổng hợp các kiến o ánh giữa hai đối tượng với nhau, minh họa l hai chiếc điện thoại dưới đây:

nh 1.4: Tổng hợp các ý kiến so sánh giữa hai chiếc điện thoại với nhau

Với tổng hợp quan điểm, người dùng dễ d ng xác định được kiến của những ngườidùng hiện tại Các nh ản xuất có được cái nhìn tổng quát giải thích tại ao người dùng thíchhay không thích ản phẩm của mình, thích ở những điểm gì hoặc không thích ở nhữngđiểm gì…

Phát hiện quan điểm rác

Các quan điểm được khai thác từ các trang mạng xã hội đã hỗ trợ ng y c ng nhiềucho các cá nhân v tổ chức ử dụng trong việc đưa ra các quyết định mua ản phẩm, l a chọnbầu cử hay cho ản xuất v quảng bá ản phẩm,… Các quan điểm tích c c thường mang lạilợi nhuận v chỗ đứng cho các doanh nghiệp v cá nhân Tuy nhiên một ố hệ thống lại đưalên những nhận xét quan điểm giả mạo nhằm thúc đẩy hoặc hạ uy tín của một ố ản phẩm,dịch vụ, tổ chức, cá nhân v thậm chí l các kiến không tiết lộ thật

Trang 21

định của họ, hoặc cá nhân hoặc tổ chức m họ bí mật l m việc cho Những người n yđược gọi l người đưa quan điểm rác (spammer) v hoạt động của họ gọi l pam (Jindal vàLiu, 2008; Jindal và Liu, 2007).

Ý kiến rác về các vấn đề xã hội v chính trị có thể rất đáng ợ do họ có thể l m giảcác kiến v huy động quần chúng v o việc đi ngược lại pháp l , thuần phong mỹ tục hayđạo đức Ng y nay, những kiến trên phương tiện truyền thông xã hội l ng y c ng được ử

dụng nhiều trong th c tế, pam kiến ngày càng tràn lan và càng tinh vi Đó l mộtthách thức lớn bài toán này Tuy nhiên, việc pam phải được phát hiện để đảm bảo rằng cáccác kiến trên các phương tiện truyền thông tiếp tục l một nguồn đáng tin cậy cho dư luận

xã hội, chứ không phải l các kiến giả, dối trá, v lừa đảo

Phát hiện nội dung rác nói chung đã được nghiên cứu trong nhiều lĩnh v c Web và

email là hai loại được nghiên cứu rộng rãi nhất của spam Có hai loại chính của Web rác

là: liên kết rác v nội dung pam Ca tillo v Davi on, 010; Liu, 2006 và 2011)

Liên kết rác l rác trên các iêu liên kết, m hầu như không tồn tại trong phần đánhgiá Mặc dầu liên kết quảng cáo được phổ biến trong các hình thức khác của phương tiệntruyền thông xã hội Nội dung rác còn thêm phổ biến nhưng không liên quan từ trong cáctrang web mục tiêu để đánh lừa công cụ tìm kiếm, để l m cho nó có liên quan đến nhiềutruy vấn tìm kiếm, nhưng điều n y khó xảy ra trong các b i đăng kiến

Email rác đề cập đến các quảng cáo không mong muốn, m cũng rất hiếm trong các kiến trên mạng

1.5 Vai trò và các ứng dụng

Quan điểm là trung tâm của hầu hết các hoạt động của con người bởi vì nó là nhân tố ch nh ảnh hưởng đến hành vi của con người Bất cứ khi nào chúng ta cần phải đưa ra quyết định chúng ta sẽ cần tham khảo ý kiến của những người khác.

dùng về các ản phẩm v dịch vụ của họ Bản thân mỗi cá nhân cũng muốn biết kiến của

người khác về các ứng cử viên chính trị trước khi quyết định bỏ phiếu [20]

Trang 22

nh 1.5: Khai phá quan điểm người dùng

Việc khai thác những thông tin trên Internet hay mạng xã hội đã trở nên giúp ích rấtnhiều cho những người l m công tác quản l Nh quản l xã hội có thể tìm hiểu quan

điểm của dân chúng đối với một ố kiện xã hội Từ đó, nh quản l có thể điều chỉnh chiếnlược v chính ách một cách hợp l v hiệu quả hơn

Các hệ thống máy tìm kiếm hiện tại như Google, Yahoo, Bing… cho phép ngườidùng đánh v o từ khoá v hiển thị các t i liệu liên quan đến từ khoá n y Khi ử dụng những

hệ thống như vậy cho mục tiêu tìm kiếm quan điểm đặc biệt l với ngôn ngữ Tiếng Việt,người dùng ẽ phải t lọc lấy các thông tin chứa quan điểm, t đọc v phân tích đánh giá quanđiểm n o l hữu ích, l tích c c hay tiêu c c ơn thế nữa, quan điểm ẽ chứa ở nhiều web itekhác nhau, nhiều vị trí khác nhau Vì vậy, người dùng ẽ khó có một cái nhìn to n diện, vìkhông thể thống kê đầy đủ, v tổng hợp lại

Trên thế giới đã có nhiều các nghiên cứu về khai phá quan điểm nói chung v khaiphá quan điểm cho ản phẩm nói riêng, chẳng hạn như hệ thống như entiment140 [46] Vớiđầu v o l tên ản phẩm hoặc thương hiệu, hệ thống ẽ đưa ra tổng hợp các bình luận (tweets)của người dùng Twitter về ản phẩm hoặc thương hiệu n y, đồng thời đưa ra tỷ lệ tích cc/tiêu c c của các quan điểm về đối tượng đó iện tại, hệ thống n y mới chỉ áp dụng chongôn ngữ tiếng Anh v tiếng Tây Ban Nha

Trang 23

nh 1.6: Trang web entiment140 với từ khóa t m kiếm l iphone 6

Kết quả m hệ thống này tổng hợp được thể hiện như bên dưới đây Trong đó, m uxanh thể hiện bình luận tweet l tích c c po itive còn m u đỏ thể hiện bình luận tweet l tiêu c

c negative

Trang 24

nh 1.7: Kết quả phân lớp quan điểm của sentiment140

iện nay, các hệ thống t động thu thập v phân tích quan điểm của cộng đồng mạng cho tiếng Việt còn ơ khai v chưa được ứng dụng rộng rãi

Chính vì những l do trên, việc nguyên cứu các vấn đề của xử l ngôn ngữ t nhiên tiếng Việt v các phương pháp học máy, trên cơ ở đó xây d ng hệ thống t động thu thập v phân tích quan điểm nhằm đánh giá, thống kê mức độ quan tâm, ủng hộ của cộng đồng đốivới các ản phẩm, cá nhân, tổ chức, kiện kinh tế, xã hội… l một việc l m rất có nghĩa

1.6 Những khó khăn v thách thức trong khai phá quan điểm tiếng

Việt

Phần lớn các nghiên cứu hiện nay về khai phá quan điểm v phân tích tình cảm đều

hạn chế Một ố nghiên cứu mới chỉ tập trung v o phân tích quan điểm ở mức câu, mức t iliệu v kết quả còn hạn chế Một trong những vấn đề tác động đến kết quả đó l một ố bàitoán cơ bản ử dụng cho tiếng Việt như: tách từ, phân tích cú pháp, phân tích ngữ nghĩa,các công cụ entiwordnet v Wordnet của tiếng Việt đang trong giai đoan phát triển, độchính xác chưa cao nên ít nhiều ảnh hưởng tới kết quả của các nghiên cứu khai phá quanđiểm trên ngôn ngữ Tiếng Việt

Việc xây d ng bộ ngữ liệu chung cho b i toán phân tích quan điểm để dùng cho cácnghiên cứu chưa đa dạng v chưa được quan tâm đúng mức Các nhóm nghiên cứu mới chỉtập trung v o một ố lĩnh v c như một ố ản phẩm v dịch vụ v chưa có tính thống nhất đểdùng chung cho nghiên cứu

Ngo i ra, những khó khăn m chúng ta có thể bắt gặp trong quá trình khai phá quanđiểm trên ngôn ngữ tiếng Việt cũng như bất kỳ ngôn ngữ n o khác như:

nhiều th c thể, nhiều o ánh, nhiều nhiễu, ít từ, có nhiều từ lóng, thiếu dấu câu, sai chínhtả…gây khó khăn trong bước xử lí dữ liệu

th c thể v đặc trưng của th c thể

hầu hết các nghiên cứu đều bỏ qua điều n y

phân lớp quan điểm ử dụng dữ liệu từ một miền đã huấn luyện thường hoạt động kém hiệuquả trong các miền ứng dụng khác Các từ v thậm chí cả cấu trúc ngôn ngữ được ử

dụng trong các lĩnh v c khác nhau để thể hiện kiến quan điểm có thể rất khác nhau Cùngmột từ nhưng trong một lĩnh v c có thể mang nghĩa khẳng định nhưng lại mang nghĩa phủđịnh trong lĩnh v c khác Chất lượng bình luận có thể thay đổi từ đối tượng đến đối tượng

v từ cộng đồng đến cộng đồng Điều n y có nghĩa l nó phụ thuộc rất nhiều

Trang 25

vào nguồnnơi bình luận: forum #youtube #dantri) Các bình luận có thể bị kiểm oát/kiểmduyệt theo chính ách của mỗi nguồn.

Tổng kết chương

Chương n y luận văn trình b y tổng quát khai phá quan điểm Một ố khái niệm, các

b i toán chính v ứng dụng của khai phá quan điểm trong th c tế nhằm cung cấp cái nhìntổng quan cho b i toán n y Ở chương tiếp theo, khóa luận ẽ trình b y nội dung b i toánphân lớp quan điểm, một lớp b i toán chính trong khai phá quan điểm

Trang 26

Chương 2: B i toán phân lớp v phân tích quan điểm

Trong chương n y, chúng tôi trình b y về b i toán phân lớp, một ố phương phápphân lớp được ử dụng rộng rãi v áp dụng cho một ố b i toán phân tích quan điểm

2.1 Các b i toán phân lớp

Phân lớp l một quá trình đưa một đối tượng dữ liệu v o một hay nhiều lớp chotrước d a trên một mô hình hoặc thuật toán phân lớp cùng với một tập dữ liệu đã được gánnhãn từ trước còn gọi l tập huấn luyện Quá trình n y còn được gọi l quá trình gán nhãn

Trang 27

Tương t như b i toán phân lớp nhị phân ở trên với ố lượng lớp lớn hơn hai Phânlớp nhị phân được coi là một trường hợp riêng của phân lớp đa lớp Một cách giải quyếtđơn giản l chúng ta cố gắng quy b i toán phân lớp đa lớp về b i toán phân lớp nhị phân Vềbản chất, b i toán phân lớp nhị phân l một trường hợp riêng của phân lớp đa lớp.

Phân lớp đa trị

Mỗi đối tượng dữ liệu trong tập huấn luyện v các đối tượng dữ liệu mới có thểthuộc về một, hai, hay nhiều lớp

Phân lớp phân cấp

2.2 Phân lớp quan điểm

Theo tác giả Bing Liu có ba phương pháp chính để phân lớp quan điểm [20]:

- Phân lớp dựa vào cụm từ thể hiện quan điểm

- Phân lớp dựa vào phương pháp phân lớp văn bản

- Phân lớp dựa hàm t nh điểm số

Trong luận văn n y ẽ tập trung v o phương pháp phân lớp quan điểm d a v ophương pháp phân lớp văn bản v ẽ trình b y chi tiết ở phần tiếp theo

2.3 Quá tr nh phân lớp

Quá trình phân lớp dữ liệu thường gồm hai bước:

Bước 1: Xây d ng mô hình tạo bộ phân lớp Trong bước n y, mô hình ẽ được xây d

ng d a trên việc phân tích các đối tượng dữ liệu đã được gán nhãn từ trước Tập các mẫu

dữ liệu n y còn được gọi l tập dữ liệu huấn luyện training data et Các nhãn lớp của tập dữliệu huấn luyện được xác định bởi con người trước khi xây d ng mô hình Vì vậy, phươngpháp n y còn được gọi l học máy có giám át upervi ed learning

Bước 2: ử dụng mô hình đã xây d ng để tiến h nh phân lớp dữ liệu Chúng ta ử

dụng tập dữ liệu kiểm tra te t data et để kiểm tra độ chính xác cũng như hiệu quả của môhình Nếu độ chính xác l chấp nhận được, mô hình ẽ được áp dụng để xác định nhãn lớpcho các dữ liệu mới trong tương lai

Về cơ bản, thuật toán phân lớp l một ánh xạ từ miền dữ liệu cụ thể ang miền giá trịcủa thuộc tính lớp, d a v o giá trị của các thuộc tính của dữ liệu

Trang 28

nh 2.2: Ví dụ mô h nh phân lớp sử dụng học máy có giám sát

2.4 Khái quát một số phương pháp phân lớp văn bản

2.4.1 Phân lớp d a trên luật

Ýtưởng: Mỗi luật phân lớp ẽ được định nghĩa như au:

r: (điều kiện) → y Tập các luật R = {r 1 , r 2 , r 3 … r n }

Trang 29

Ưu nhược điểm:

ướng tiếp cận d a trên luật yêu cầu phải cĩ các chuyên gia ngơn ngữ cung cấp cácluật, các biểu thức chính quy regural expre ion , các từ khĩa, đặc trưng….cho từng lớp.Các hạn chế của hướng tiếp cận n y là:

Xây d ng mơ hình cho phương pháp n y rất tốn thời gian v cơng ức, cần cĩ cộng tác của nhiều chuyên gia trong lĩnh v c ngơn ngữ học khi xây d ng các mẫu câu v văn phạm cho từng loại câu đĩ

Các luật ngữ pháp viết tay v văn phạm của từng loại câu rất cứng nhắc, khơng linhđộng Khi một dạng câu mới xuất hiện, mơ hình theo hướng n y khơng thể xử l được.Muốn xử l được mơ hình cần phải được cung cấp những luật mới Vấn đề nhập nhằng củacác văn phạm ngữ pháp rất khĩ xử l , kiểm ốt v phụ thuộc v o đặc điểm của từng ngơnngữ

Pang, Lee, và Vaithyanathan đã áp dụng các phương pháp học máy để phân lớpquan điểm cho một t i liệu Các phương pháp họ đã ử dụng như: Nạve Baye , MaximumEntropy, v VM, v thường ử dụng khung túi đặc trưng chuẩn tandard bag-of-featuresframework để th c hiện các thuật tốn học máy liên quan đến các b i tốn về phân lớpquan điểm Qua một ố những th c nghiệm về phân lớp quan điểm, Pang v Lee đã cải tiếnbằng cách loại bỏ những câu khách quan ọ đã phát triển một bộ phát hiện chủ quan cĩ thểxác định xem câu l chủ quan hay khơng au đĩ, họ loại bỏ những câu khách quan trước khitiếp tục việc th c hiện phân lớp quan điểm [20]

2.4.2 Phân lớp s dụng các phương pháp học máy cĩ giám sát

ầu hết các phương pháp hiện cĩ để phân lớp chủ quan d a trên học máy cĩ giámsát

Năm 1999, Wiebe, Bruce v O' ara th c hiện phân lớp chủ quan ử dụng bộ phân lớpBayes với một tập các đặc trưng nhị phân, như: hiện diện của một đại danh từ, tính từ,…trong câu

Một trong những khĩ khăn của việc áp dụng học máy cĩ giám sát là xây dựng bộ

dữ liệu huấn luyện với số lượng lớn.

Năm 003, để tiết kiệm cơng

Wiebe đã đề xuất một thuật tốn boot

ức gán nhãn bằng tay một cách hiệu quả, Riloff và trapping để gán nhãn dữ liệu huấn luyện t động

Trang 30

Thuật toán hoạt động bằng cách: đầu tiên ử dụng hai phân lớp có độ chính xác cao(HP-SUBJ và HP-Obj để t động xác định một ố câu l chủ quan v khách quan Bộ phân lớp

có độ chính xác cao ử dụng danh ách các từ ngữ các từ đơn hay n-gram) là đầu mối tốtnhất

đầu mối chủ quan mạnh

mạnh n o

Các bộ phân lớp ẽ cho độ chính xác rất cao v độ hồi tưởng thấp Các câu trích chọn

au đó được thêm v o tập dữ liệu huấn luyện để học mẫu Các mẫu nhận được ử dụng để tđộng xác định câu chủ quan v khách quan, au đó được thêm v o tập huấn luyện, v lặp lạicho các bước tiếp theo của thuật toán

Đối với việc học mẫu, một tập hợp các mẫu cú pháp được cung cấp để hạn chế cácloại mẫu được học Một ố ví dụ mẫu cú pháp v mẫu ví dụ trong tiếng Anh được trình b ytrong bảng dưới đây

Bảng 2.1: Các mẫu cú pháp v ví dụ trong tiếng Anh

2.4.2.1 Phân lớp d a trên cây quyết định

Cây quyết định được coi l công cụ mạnh, phổ biến v thích hợp với các ứng dụng khai phá dữ liệu ai thuật toán d a trên cây quyết định điển hình áp dụng cho hai phạm

phát triển, cách thức lưu trữ phân chia dữ liệu, v một ố đặc điểm khác, C4.5 l thuật

toán phổ biến nhất khi phân lớp tập dữ liệu vừa v nhỏ, PRINT l thuật toán tiêu biểu ápdụng cho những tập dữ liệu có kích thước c c lớn [5]

Cây quyết định là cấu trúc biểu diễn dưới dạng cây Trong đó, mỗi nút trong (internal node) biểu diễn một thuộc t nh, nhánh (branch) biểu diễn giá trị có thể có của thuộc t nh, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng của cây gọi

là gốc.

Cây quyết định có thể được dùng để phân lớp bằng cách xuất phát từ gốc của cây

chuyển đổi về các luật quyết định

V dụ:

Xem xét bảng dữ liệu huấn luyện au đây:

24

Trang 31

Bảng 2.2: Dữ liệu huấn luyện sử dụng cho cây quyết định

Các thuật toán xây d ng một cây ẽ d đoán giá trị của một cột d a trên các cột còn lạitrong tập huấn luyện Do đó, mỗi nút trong cây đại diện cho một trường hợp cụ thể chomột cột Quyết định về nơi đặt nút n y được th c hiện bởi các thuật toán, v một nút

nhau của mỗi cột Cây quyết định l biểu đồ phát triển có cấu trúc dạng cây, như mô tảtrong hình vẽ au:

nh 2.3: Ví dụ về cây quyết định

Trong cây quyết định:

• Gốc: l node trên cùng của cây

• Node trong: biểu diễn một kiểm tra trên một thuộc tính đơn hình chữ nhật

• Nhánh: biểu diễn các kết quả của kiểm tra trên node trong mũi tên

25

Trang 32

• Node lá: biểu diễn lớp hay phân phối lớp hình trịn

Ưu nhược điểm:

giải thích ngắn gọn

các kỹ thuật khác thường địi hỏi phải chuẩn hĩa dữ liệu, tạo các biến phụ hoặc loại bỏ cácgiá trị rỗng

ạn chế của cây quyết định khơng thích hợp cho những b i tốn với mục tiêu l d đốn giá trị của thuộc tính liên tục như thu nhập, huyết áp hay lãi xuất ngân h ng… Cây quyết định cũng khĩ giải quyết với những dữ liệu thời gian liên tục nếu khơng bỏ ra nhiều cơng ức cho việc đặt ra biểu diễn dữ liệu theo các mẫu liên tục [5]

2.4.2.2 Phân lớp sử dụng Nạve Bayes

Bộ phân lớp Nạve Baye NB l phương pháp phân loại d a v o xác uất được ử dụngrộng rãi trong lĩnh v c máy học [Mitchell, 1996] [Joachim , 1997] [Ja on, 001], được ửdụng lần đầu tiên trong lĩnh v c phân loại bởi Maron v o năm 1961 au đĩ trở nên phổ biếndùng trong nhiều lĩnh v c như trong các cơng cụ tìm kiếm [Rij bergen et al, 1970], các bộlọc email [ ahami et al, 1998]…

Ý tưởng:

Bộ phân lớp Naive Bayes cịn được gọi là phân lớp xác suất đơn giản dựa trên định lý Bayes với giả định các đặc trưng là độc lập với nhau.

Bộ phân lớp Naive Bayes phù hợp với b i tốn khi ố chiều của các yếu tố đầu v o

tốt hơn o với các phương pháp phân loại phức tạp hơn [20]

nh 2.4: Mơ h nh phân lớp sử dụng bộ phân lớp Naive Bayes

Bộ phân lớp Naive Baye được đơn giản hĩa bằng việc giả định rằng các đặc trưng

Naive Baye hoạt động khá tốt o với các bộ phân lớp phức tạp khác

Trang 33

Thuật tốn:

Nạve Baye d a trên định l Baye được phát biểu như au:

Áp dụng trong bài tốn phân lớp, các dữ kiện gồm cĩ:

Áp dụng hai cơng thức trên ta uy ra:

Trang 34

Ýtưởng cơ bản của cách tiếp cận Nạve Bayes là sử dụng xác suất cĩ điều kiện của các từ để dự đốn xác suất lớp văn bản chủ quan hoặc khách quan của một bình luận cần phân loại.

Điểm quan trọng của phương pháp n y chính l ở chỗ giả định rằng xuất hiện của tất

cả các từ trong văn bản đều độc lập với nhau Giả định đĩ l m cho việc tính tốn NB hiệuquả v nhanh chĩng hơn các phương pháp khác vì khơng ử dụng việc kết hợp các từ để đưa

ra phán đốn lớp Kết quả d đốn ẽ bị ảnh hưởng bởi kích thước tập dữ liệu, chất lượngcủa khơng gian đặc trưng…

Cài đặt thuật tốn:

Mơ tả vector đặc trưng của bình luận: L vector cĩ ố chiều l ố đặc trưng trong to ntập dữ liệu, các đặc trưng n y đơi một khác nhau Nếu văn bản cĩ chứa đặc trưng đĩ ẽ cĩgiá trị 1, ngược lại l 0

Đầu v o:

 Các vector đặc trưng của văn bản trong tập huấn luyện Ma trận MxN, với M l

ố vector đặc trưng trong tập huấn luyện, N l ố đặc trưng của vector

 |doc i|: ố văn bản của tập huấn luyện thuộc phân lớp i

 |total doc |: ố văn bản trong tập huấn luyện.

 m ố phân lớp

Các bước c i đặt:

 Khởi tạo mảng A, B cĩ kích thước m.

 Duyệt qua các văn bản trong tập dữ liệu, đếm ố văn bản trong mỗi phân lớp lưu v o A

Trang 35

 : ố văn bản của tập huấn luyện thuộc phân lớp i.

 ố giá trị cĩ thể cĩ của đặc trưng thứ k

với xuất hiện vuất khơng xuất hiện theo cơng thức

kích thước l N

 Duyệt qua các văn bản trong tập dữ liệu, tiến h nh thống kê các chỉ ố cần thiết

 Nhãn/lớp của văn bản cần phân loại.

Cơng thức tính xác uất thuộc phân lớp i khi biết trước mẫu X

xác uất thuộc từng phân lớp cho văn bản, v chọn ra lớp cĩ xác uất cao nhất

Áp dụng:

Năm 1999, Wiebe, Bruce v O' ara th c hiện phân lớp ử dụng bộ phân lớp Nạve

Baye với một tập hợp các đặc trưng nhị phân (ví dụ như, xuất hiện trong câu của một danh

từ, tính từ, một ố từ chỉ ố lượng, )

v một bộ phân lớp Baye Phương pháp câu tương t

hay quan điểm l

ử dụng hệ thống

chung, v yn et

unigram , bigram , trigram , phân loại từ v ng,

hướng tích c

ví dụ, "JJ +" cho tính từ tích c c , cùng với các đặc trưng mã hĩa tình cảm nếu cĩ

động từ đầu tiên, các chủ đề chính Cơng việc n y áp dụng cho cả việc phân lớp một câu

chủ quan l tích c c hay tiêu c c

29

Trang 36

2.4.2.3 Phân lớp sử dụng MEM

Đối với b i toán phân lớp dữ liệu, Entropy c c đại l một kỹ thuật dùng để ước lượngxác uất các phân phối từ dữ liệu

Ý tưởng:

Tư tưởng chủ đạo của nguyên l Entropy c c đại l :

“mô hình phân phối đối với mỗi tập dữ liệu và tập các ràng buộc đi cùng phải đạt

được độ cân bằng đều nhất có thể ” – có Entropy c c đại

các giá trị ước lượng được của các đặc trưng Từ các r ng buộc inh ra bởi tập dữ liệu n y,

mô hình ẽ tiến h nh tính toán để có được một phân phối với Entropy c c đại

Ví dụ về mô hình Entropy c c đại: “Giả ử với bộ phân lớp b i báo của báo điện từVnexpre Bốn lớp chính chỉ ra đó l pháp_luật, thể_thao, quốc_tế, văn_hóa Các thống kêtrên tập dữ liệu mẫu chỉ ra rằng trung bình 70% các t i liệu trong lớp thể_thao có chứa từbóng_đá Như vậy một cách tr c quan có thể thấy rằng nếu một t i liệu D có chứa từbóng_đá thì xác uất được phân v o lớp thể_thao l 70% v xác uất phân v o ba lớp còn lại10% bằng nhau giữa các lớp v nếu D không chứa từ thể_thao thì xác uất phân phối

của D l đều cho bốn lớp mỗi lớp 5% ” Trong ví dụ trên “t i liệu chứa cụm bóng_đá thì

có xác uất phân v o lớp thể_thao l 70%” l một r ng buộc của mô hình [48]

Thuật toán:

tập dữ liệu huấn luyện Một đặc trưng trong mô hình Entropy c c đại được biểu diễn bởimột h m f(x, y , trong đó x l t i liệu v y l lớp Entropy c c đại cho phép giới hạn mô hìnhphân phối để có thể thu các giá trị kỳ vọng cho mỗi đặc trưng của tập dữ liệu Vì vậy, ta cóthể đặt xác uất phân phối của dữ liệu x cho lớp y là P(y|x thỏa mãn phương trình sau:

Xem xét b i toán phân lớp, với Y l tập các lớp, X l tập các thông tin ngữ cảnh, l những thông tin quan trọng cần cho việc phân lớp văn bản v o lớp Y một cách chính xác Nhiệm vụ trong b i toán phân lớp l xây d ng một mô hình thống kê m d đoán chính xác lớpcủa văn bản bất kì Mô hình như vậy chính l phương pháp ước lượng xác uất có điều kiện

p y|x Mô hình Entropy c c đại cung cấp một phương pháp đơn giản để ước lượng xác uất

có điều kiện p y|x thông qua việc thống kê các thuộc tính quan trọng quan át được từ tập

dữ liệu huấn luyện

nhất một lần trong tập dữ liệu huấn luyện

30

Trang 37

Entropy l bị chặn dưới bởi 0, Entropy của mô hình không có không chắc chắn nào

v chặn trên bởi log|Y|, Entropy của phân phối ngang bằng nhau trên to n bộ các giá

trị có thể |Y| của y Với định nghĩa n y, chúng ta đã ẵn ng để biểu diễn nguyên l

thế n o để ta tối ưu được các r ng buộc, tức tìm ra được p* ∈ C l m c

Có nhiều thuật toán dùng để ước lượng tham ố, điển hình l

IIS, L-BFGS

2.4.2.4 Phân lớp sử dụng

Thuật toán upport Vector Machine

giới thiệu v o năm 1995

lớp khác nhau Với một bộ các ví dụ luyện tập thuộc hai thể loại cho trước, thuật toánluyện tập VM xây d ng một mô hình VM để phân loại các ví dụ khác v o hai thể loại đó

Ýtưởng:

Ýtưởng ch nh của thuật toán này là cho trước một tập huấn luyện được biểu diễn trong không gian vector trong đó mỗi tài liệu là một điểm, phương pháp này tìm ra một siêu phẳng h quyết định tốt nhất có thể chia các điểm trên không gian này thành hai lớp riêng biệt tương ứng lớp + và lớp -.

Chất lượng của iêu mặt phẳng n y được quyết định bởi khoảng cách gọi l biên củađiểm dữ liệu gần nhất của mỗi lớp đến mặt phẳng n y Khoảng cách biên c ng lớn thì mặtphẳng quyết định c ng tốt đồng thời việc phân loại c ng chính xác Mục đích thuật toán

VM tìm ra được khoảng cách biên lớn nhất để tạo kết quả phân lớp tốt Các ví dụ mớicũng được biểu diễn trong cùng một không gian v được thuật toán d đoán thuộc một tronghai lớp tùy v o ví dụ đó nằm ở phía n o của ranh giới Ban đầu SVM được thiết kế để giảiquyết b i toán phân lớp nhị phân hai lớp

Thuật toán:

Trong mô hình học có giám át, thuật toán được cho trước một ố điểm dữ liệu cùngvới nhãn của chúng thuộc một trong hai lớp cho trước Mục tiêu của thuật toán là xác địnhxem một điểm dữ liệu mới ẽ được thuộc về lớp n o Mỗi điểm dữ liệu được biểu diễn dướidạng một vector p-chiều, v ta muốn biết liệu có thể chia tách hai lớp dữ liệu bằng một iêuphẳng p − 1 chiều Đây gọi l phân loại tuyến tính Có nhiều iêu phẳng có thể phân loạiđược dữ liệu Một l a chọn hợp l trong chúng l iêu phẳng có lề lớn nhất giữa hai lớp [27]

Trang 38

nh 2.5: iêu phẳng với lề c c đại cho một VM phân tách dữ liệu thuộc hai lớp

Xét b i toán phân lớp đơn giản nhất – phân lớp hai lớp với tập dữ liệu mẫu:

{(xi, yi i = 1,… N, x i ∈ R m , y i ∈ {−1, 1}}

Trong đó mẫu huấn luyện l các vector được phân lớp th nh các mẫu dương v mẫu âm như trong hình 5:

Bản chất phương pháp n y l một b i toán tối ưu với mục tiêu l tìm ra một không gian v iêu mặt phẳng quyết định h trên ao cho ai ố phân lớp l thấp nhất Tập

phân lớp VM l mặt iêu phẳng phân tách các mẫu dương khỏi các mẫu âm với độ chênh lệch c c đại, trong đó độ chênh lệch – còn gọi l Lề margin xác định bằng khoảng cách giữa các mẫu dương v các mẫu âm gần mặt iêu phẳng nhất hình 5 Mặt iêu phẳng n y được gọi l mặt iêu phẳng lề tối ưu

Các mặt iêu phẳng trong không gian đối tượng có phương trình l :

Tương đương với:

32

Trang 39

Với w = w1 + w2 + …+ wn l vector trọng ố, C l độ dịch, khi thay đổi w v C thì hướng v khoảng cách từ gốc toạ độ đến mặt iêu phẳng thay đổi.

Tập phân lớp VM được định nghĩa như au:

Trong đó:

ign z = +1 nếu z ≥ 0sign(z) = -1 nếu z < 0Nếu f x = +1 thì x thuộc về lớp dương, v ngược lại, nếu f x = -1 thì x thuộc về lớp âm

Mục tiêu của phương pháp VM l ước lượng w v C để c c đại hoá lề giữa các lớp

dữ liệu dương v âm Các giá trị khác nhau của lề cho ta các họ iêu mặt phẳng khác nhau,

v lề c ng lớn thì năng l c của máy học c ng giảm Như vậy, c c đại hoá lề th c chất l việc tìm một máy học có năng l c nhỏ nhất Quá trình phân lớp được coi l tối ưu khi ai ố phânlớp l c c tiểu

Ta phải giải phương trình au:

ta có phương trình tổng quát của iêu phẳng tìm ra được bởi thuật toán VM l :

f(x1, x2,…, xn = C +∑ wixi

Với i = 1, 2…, n Trong đó n l ố dữ liệu huấn luyện

au khi đã tìm được phương trình của iêu phẳng bằng thuật toán VM, áp dụng công thức n y để tìm ra nhãn lớp cho các dữ liệu mới

ọc v phân lớp VM, ử dụng một trong ố các h m nhân au:

Định dạng
Số trang	79
Dung lượng	1,59 MB