Luận văn “Phát hiện văn bản chủ quan trong khai phá quan điểm” tập trung vào khảo sát các phương pháp đã được áp dụng cho các ngôn ngữ khác trên thế giới,đặc biệt tập trung nghiên cứu để
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
-NGUYỄN NGỌC TRƯỜNG
PHÁT HIỆN VĂN BẢN CHỦ QUAN TRONG
KHAI PHÁ QUAN ĐIỂM
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2015
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS LÊ ANH CƯỜNG
Hà Nội - 2015
Trang 3NHẬN XÉT CỦA CÁN BỘ HƯỚNG DẪN
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
Trang 4LỜI CÁM ƠN
Để hoàn thành luận văn “Phát hiện văn bản chủ quan trong khai phá quan
điểm” này, tôi đã nhận được sự hướng dẫn và giúp đỡ nhiệt tình của các Thầy Cô, các
Anh Chị và các Bạn.
Lời đầu tiên, tôi xin bày tỏ lòng biết ơn chân thành đến Ban lãnh đạo cùng quý Thầy Cô trong khoa Công nghệ thông tin - Trường Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội đã tận tình dạy dỗ, truyền đạt kiến thức, kinh nghiệm quý báu và tạo điều kiện thuận lợi cho tôi trong suốt thời gian học tập tại trường và thực hiện đề tài.
Đặc biệt, tôi xin bày tỏ lòng biết ơn sâu sắc đến Thầy giáo hướng dẫn, PGS TS.
Lê Anh Cường, người đã tận tình hướng dẫn, giúp đỡ tôi trong suốt quá trình thực hiện đề tài.
Tôi cũng xin gửi lời cảm ơn tới nghiên cứu sinh Nguyễn Thị Xuân Hương và các Anh Chị, các Bạn sinh viên trong nhóm nghiên cứu đã hỗ trợ tôi rất nhiều trong quá trình thực hiện luận văn này Tôi xin gửi lời cảm ơn tới các Bạn trong khóa K19
đã ủng hộ và khích lệ tôi trong suốt thời gian học tập tại trường.
Tôi xin trân trọng gửi đến Gia đình, Bạn bè và Người thân những tình cảm tốt đẹp nhất đã giúp đỡ động viên tôi trong suốt quá trình học tập cũng như thực hiện và hoàn thành luận văn.
Mặc dù tôi đã cố gắng để hoàn thành luận văn một cách tốt nhất nhưng có thể
sẽ không tránh khỏi thiếu sót Kính mong nhận được sự cảm thông và chỉ bảo của quý Thầy Cô, các Anh Chị và các Bạn.
Hà Nội, ngày 01/11/2015
Học viên
Nguyễn Ngọc Trường
Trang 5TÓM TẮT NỘI DUNG
Trong những năm gần đây, nghiên cứu về khai phá quản điểm đã nhận được sựquan tâm rộng rãi của các nhà nghiên cứu, các công ty hàng đầu về lĩnh vực công nghệthông tin như: Yahoo, Google, Microsoft, IBM…, các hội nghị lớn về trích chọn thôngtin, xử lý ngôn ngữ tự nhiên (TREC, CLEF, ACL, ) và đã đạt được những kết quả hữuích và mang lại lợi ích to lớn về cả mặt khoa học lẫn công nghiệp Tuy nhiên, đối vớingôn ngữ Tiếng Việt, các nghiên cứu về vấn đề này còn khá khiêm tốn và có rất nhiềucác bài toán đặt ra cần được tiếp tục nghiên cứu và phát triển
Luận văn “Phát hiện văn bản chủ quan trong khai phá quan điểm” tập trung
vào khảo sát các phương pháp đã được áp dụng cho các ngôn ngữ khác trên thế giới,đặc biệt tập trung nghiên cứu để áp dụng cho ngôn ngữ tiếng Việt Trên cơ sở áp dụngcác nghiên cứu đó và các công cụ xử lý ngôn ngữ tiếng Việt, luận văn tiến hành thựcnghiệm việc phân lớp văn bản chủ quan - khách quan cho các bình luận từ các trangbằng tiếng Việt Chúng tôi đã sử dụng một số đặc trưng để phân loại văn bản chủ quannhư bag of word, trích chọn các động từ và tính từ và áp dụng các phương pháp họcmáy thống kê cho bài toán này Các kết quả ban đầu đạt được khá khả quan
Nội dung luận văn được trình bày trong 4 chương như sau:
Chương 1 – Giới thiệu chung về khai phá quan điểm Chương này giới thiệu
những nội dung cơ bản nhất, cung cấp một cái nhìn khái quát về khai phá quan điểm,đồng thời cũng mô tả một số khái niệm cơ bản, cách tiếp cận, ý nghĩa và một số bàitoán điển hình đặt ra trong khai phá quan điểm
Chương 2 – Các nghiên cứu và phương pháp giải quyết Chương này giới
thiệu chung về một số tiếp cận phân lớp văn bản đã được đề xuất áp dụng cho bài toánkhai phá quan điểm
Chương 3 - Bài toán phát hiện văn bản chủ quan trong khai phá quan điểm Chương này mô tả chi tiết bài toán phát hiện văn bản chủ quan, một số nghiên
cứu hiện tại bao gồm cả các nghiên cứu trong tiếng Việt được áp dụng để giải quyếtbài toán
Chương 4 - Thực nghiệm phân lớp trên hai miền dữ liệu sản phẩm và giá xăng Chương này môt tả thực nghiệm từ việc tiến hành thu thập dữ liệu, thực hiện
tiền xử lý dữ liệu; sau đó tiến hành trích chọn một số đặc trưng và phân lớp chủ quantheo hai phương pháp Naive Bayes, SVM Cuối cùng, tổng hợp và đánh giá kết quảcho từng phương pháp
Trang 6Lời cam đoan
Tôi xin cam đoan luận văn với đề tài “Phát hiện văn bản chủ quan trong khai
phá quan điểm” là công trình nghiên cứu của riêng tôi Các số liệu, kết quả được trình
bày trong luận văn là hoàn toàn trung thực và chưa từng được công bố trong bất kỳmột công trình nào khác
Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan
ở trong nước và quốc tế
Trong các nội dung được trình bày trong luận văn, tôi đã thể hiện rõ ràng vàchính xác những gì do tôi đóng góp
Luận văn này được hoàn thành trong thời gian tôi làm Học viên tại Khoa CôngNghệ Thông tin, Trường Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội
Học viên
Nguyễn Ngọc Trường
Trang 7MỤC LỤC
Chương 1: Giới thiệu chung về khai phá quan điểm 6
1.1 Tổng quan 6
1 kiện act v quan điểm (Opinions) 9
1.3 Định nghĩa quan điểm 9
1.4 Một ố b i toán điển hình trong phân tích quan điểm 11
1.5 Vai trò v các ứng dụng 15
1.6 Những khó khăn v thách thức trong khai phá quan điểm tiếng Việt 18
Chương : Bài toán phân lớp v phân tích quan điểm 20
.1 Các b i toán phân lớp 20
2.2 Phân lớp quan điểm 21
.3 Quá trình phân lớp 21
.4 Khái quát một ố phương pháp phân lớp văn bản 22
.4.1 Phân lớp d a trên luật 22
.4 Phân lớp dụng các phương pháp học máy có giám át 23
.4.3 Phân lớp dụng học máy không giám sát 34
.4.4 Phân lớp dụng học máy bán giám át 35
2.5 Kết luận chung 36
Chương 3: Phát hiện văn bản chủ quan trong khai phá quan điểm 37
3.1 Phân biệt chủ quan v khách quan 37
3.1.1 Thông tin chủ quan 37
3.1.2 Thông tin khách quan 37
3 B i toán «Xây d ng bộ phân lớp để phân lớp các văn bản v o một trong hai lớp chủ quan hoặc khách quan» 39
3 .1 Phát biểu b i toán 39
3 Mô tả b i toán 39
3.3 Trích chọn đặc trưng 39
3.3.1 Đặc trưng v cách biểu diễn 39
3.3 Vấn đề trích chọn đặc trưng 46
3.3.3 Phương pháp trích chọn đặc trưng 47
3.4 Áp dụng một ố phương pháp phân lớp 53
Chương 4: Th c nghiệm phân lớp cho hai miền dữ liệu 54
4.1 Môi trường th c nghiệm 54
4.1.1 Phần cứng 54
Trang 84.1 Phần mềm v các công cụ 54
4 Quá trình th c nghiệm 55
4 .1 Dữ liệu ử dụng cho th c nghiệm 55
4 Th c hiện gán nhãn dữ liệu 57
4 .3 Trích chọn đặc trưng trong hệ thống của chúng tôi 58
4 .4 Bộ phân lớp Naive Baye 60
4 .5 Bộ phân lớp VM 63
4.3 Đánh giá kết quả 66
4.3.1 Phương pháp đánh giá 66
4.3 Nhận xét 67
Kết Luận 68
T i liệu tham khảo 70
Trang 9Danh sách hình vẽ
ình 1.1: Tốc độ tăng trưởng tên miền Tiếng Việt 7
ình 1 : Độ tuổi người ử dụng Internet o với tổng dân ố ở Việt Nam 8
ình 1.3: Tổng hợp quan điểm về một chiếc điện thoại 14
ình 1.4: Tổng hợp các kiến o ánh giữa hai chiếc điện thoại với nhau 14
ình 1.5: Khai phá quan điểm người dùng 16
ình 1.6: Trang web entiment140 với từ khóa tìm kiếm l iphone 6 17
ình 1.7: Kết quả phân lớp quan điểm của entiment140 18
ình 1: Ví dụ về bộ phân lớp nhị phân VM 20
ình : Ví dụ mô hình phân lớp ử dụng học máy có giám át 22
ình 3: Ví dụ về cây quyết định 25
ình 4: Mô hình phân lớp ử dụng bộ phân lớp Naive Baye 26
ình 5: iêu phẳng với lề c c đại cho một VM phân tách dữ liệu thuộc hai lớp 32
ình 6: phân lớp VM ử dụng một ố các h m nhân 34
ình 3.1: Mô hình biểu diễn chủ quan v khách quan 37
ình 3 : Mô hình không gian vector của Chri tian Perone 41
ình 3.3: Biểu diễn văn bản dưới dạng vector 42
ình 3.4: Biểu diễn văn bản dưới dạng vector term frequency 42
ình 3.5: Tạo dữ liệu huấn luyện ử dụng bộ phân lớp d a trên luật 48
ình 4.1: Minh họa chương trình thu thập các bình luận trên báo điện tử 56
ình 4 : Minh họa chương trình thu thập các bình luận trên trên mạng xã hội 56
ình 4.3: Giao diện giới thiệu chương trình thu thập các bình luận 57
ình 4.4: Minh họa xây d ng từ điển đặc trưng 59
ình 4.5: Giao diện form học từ dữ liệu huấn luyện Training 61
ình 4.6: Giao diện form th c hiện phân lớp NB Cla ify 62
ình 4.7: Giao diện form giới thiệu chương trình About 62
ình 4.8: Minh họa biểu diễn dữ liệu huấn luyện 63
ình 4.9: Minh họa mảng các vector huấn luyện 63
ình 4.10: Giao diện form th c hiện phân lớp VM Cla ify 64
ình 4.11: Giao diện form chuyển đổi văn bản text ang vector 65
ình 4.1 : Giao diện giới thiệu chương trình phân lớp ử dụng VM 65
Trang 10Danh sách bảng
Trang 12Chương 1: Giới thiệu chung về khai phá quan điểm
1.1 Tổng quan
c c hơn v tạo ra ố lượng lớn các dữ liệu mới Những nội dung Web mới được tạo ra
bao gồm các đánh giá của khách h ng, các blog cá nhân b y tỏ kiến về các ản phẩm & dịchvụ,… - được gọi chung l dữ liệu phản hồi của người dùng trên Web Những nội dung đượcphản hồi từ các khách h ng không những bùng nổ về dung lượng m còn đa dạng về nộidung như các nhận xét, bình luận về ản phẩm, dịch vụ, văn hóa, chính trị, xã hội, thể thao,nghệ thuật,… Việc khai thác hiệu quả các thông tin n y ẽ mang lại giá trị hữu ích cho cácDoanh nghiệp để đưa ra chiến lược xây d ng kế hoạch tiếp thị v phát triển ản phẩm, chocác nh hoạch định chính ách, xã hội xác định những xu hướng phát triển v những vấn đềđang được quan tâm để đưa ra những chương trình h nh động phù hợp
Sự phát triển Internet ở Việt Nam
Internet ở Việt Nam được hình th nh v phát triển từ năm 1997 Từ đó đến nay, ViệtNam luôn được đánh giá l một trong những quốc gia có ố người ử dụng internet tăngnhanh nhất hằng năm Theo Báo cáo t i nguyên internet Việt Nam 014, trong 17 năm pháttriển của internet Việt Nam, t i nguyên internet - tham ố định danh phục vụ cho hoạt độnginternet tên miền.vn, địa chỉ IP, ố hiệu mạng đã tăng trưởng mạnh mẽ, tạo điều kiện thuậnlợi cho phát triển của internet Việt Nam Tính đến cuối năm 014: ố lượng tên miền “.vn”duy trì th c tế trên mạng l 91.103 tên Đạt tỷ lệ tăng trưởng 13%, đứng đầu ở Đông Nam Á
v đứng thứ 7 tại Châu Á Tên miền ".vn" giữ được tốc độ tăng trưởng tốt ngay cả nhữnggiai đoạn khó khăn của nền kinh tế trong nước v thế giới
gia dẫn đầu Thế Giới về tốc độ tăng trưởng [42]
Trang 13nh 1.1: Tốc độ tăng trưởng tên miền Tiếng Việt
Những năm gần đây, việc đăng k ử dụng t i nguyên internet ở Việt Nam gia tăngmột cách đáng kể, đặc biệt l các tổ chức có mạng lưới kết nối đa hướng ử dụng ố hiệumạng A N v vùng địa chỉ độc lập Điều n y thể hiện phát triển đa dạng trong mạng lưới hạtầng thông tin, trong đó người ử dụng không ho n to n lệ thuộc v o mạng của các nh cungcấp, các loại hình dịch vụ kết nối tốc độ cao có mức độ tăng trưởng nhanh
chóng Dịch vụ truy cập internet qua hạ tầng di động 3G phát triển vượt bậc nhờ tiện lợi trong ử dụng v phổ biến của các thiết bị di động Tốc độ, kết nối internet trong nước v quốc tế ng y c ng nhanh, phục vụ đắc l c cho việc phát triển về ố lượng người
ử dụng v dịch vụ
Từ năm 010 đến nay, Việt Nam đã liên tục đứng trong top 0 quốc gia có ố ngườidùng Internet lớn nhất thế giới với tỷ lệ hơn 30% dân ố Việt Nam có ố lượng người dùngInternet nhiều thứ 8 trong khu v c Châu Á v đứng vị trí thứ 3 ở khu v c Đông Nam Á auIndone ia v Philippines) [43] Mặt khác, người ử dụng Internet nằm trong độ tuổi khá trẻ,
tỉ lệ nam giới là cao hơn và hơn 40% người dùng l nhân viên văn phòng Theo báo cáo củaNetCitzen Việt Nam, độ tuổi trung bình ử dụng Internet tại Việt Nam l 9, thấp hơn độ tuổitrung bình của dân ố l 36
Trang 14nh 1.2: Độ tuổi người sử dụng Internet so với tổng dân số ở Việt Nam
Theo trình độ học vấn v nghề nghiệp, khoảng 54% ố người ử dụng Internet có trình
độ Cao đẳng, đại học trở lên Nhìn chung, 70% người ử dụng Internet l bộ phận trí thức,nhân viên văn phòng, còn lại l công nhân, nội trợ, tiểu thương buôn bán nhỏ, chủ cửa hng…[44]
Internet phát triển đã góp phần tạo lập cộng đồng, thúc đẩy hoạt động của các tổchức xã hội, nâng cao năng l c ản xuất v thương mại, tạo ra nhiều của cải vật chất trong xãhội v nâng cao đời ống người dân Internet còn l ân chơi bổ ích, một kênh giải trí hấp dẫnvới nhiều ứng dụng phục vụ người dùng
Sự phát triển lớn mạnh Internet ở Việt Nam cùng với sự phát triển của các trang mạng xã hội, blog, websites, các ứng dụng (văn bản, blog, bình luận, âm thanh, hình ảnh, ) ngày càng nhiều, do đó một lượng lớn các thông tin, các quan điểm, ý kiến bình luận được đưa lên internet tạo thành kho dữ liệu khổng lồ Việc thu thập và xử lý các thông tin này sẽ đem lại nhiều hiệu quả to lớn về kinh tế - xã hội, đồng thời thúc đẩy việc phát triển các phương pháp nghiên cứu về xử lý dữ liệu, xử lý ngôn ngữ nói chung và xử
lý ngôn ngữ Tiếng Việt nói riêng.
Khai thác tìm kiếm t i nguyên trên Internet nói chung hay khai thác thông tin từmạng xã hội để phục vụ các mục tiêu ản xuất, kinh doanh, quảng bá ản phẩm, các mụctiêu về chính trị, xã hội đã v đang thu hút được quan tâm của các nh nghiên cứu Tuynhiên, đa dạng về cách thể hiện cũng như nội dung từ các nguồn thông tin mạng xã hộiluôn là bài toán khó khi tổ chức thu thập, phân tích, tổng hợp thông tin một cách chínhxác, hiệu quả nhất Trên thế giới, đã có rất nhiểu công bố của các nh nghiên cứu cho phântích và khai phá quan điểm v các ứng dụng th c tiễn Có nhiều cách tiếp cận khác nhau đểgiải quyết cho vấn đề n y, tuy nhiên việc áp dụng cũng phụ thuộc v o từng nét văn hóa,đặc trưng ngôn ngữ của mỗi quốc gia
Đối với ngôn ngữ tiếng Việt, các nghiên cứu mới chỉ tập trung ở một ố lĩnh v c vềkhai thác quan điểm cho một ố ản phẩm, dịch vụ v mới dừng lại ở những b i toán vấn
Trang 15đề n y chưa nhiều v còn hạn chế Đây cũng l l do để chúng tôi chọn đề t i … cho miền dữ
liệu tiếng Việt
Dữ liệu văn bản (text) hay thông tin dạng văn bản có thể chia thành loại ch nh:
kiện: lcác vấn đề, và các thuộc tính của chúng
Ví dụ: Thông tinhồng tím”
Quan điểm: l những biểu hiện chủ quan mô tả nhận xét, đánh giá, thẩm định, thái
độ, v cảm xúc của con người đối với các th c thể như các ản phẩm, dịch vụ, các tổ
chức,các cá nhân, các vấn đề, kiện, chủ đề, v các thuộc tính của chúng, thể hiện dưới dạng
tích c c, tiêu c c hay trung lập
VD: Một nhận xét về âm thanh của điện thoại: “Âm thanh của chiếc điện thoại n y
rất tuyệt”
1.3 Định nghĩa quan điểm
Quan điểm là sự thể hiện tình cảm hoặc ngụ ý một cách t ch cực (positive) hoặc
tiêu cực (negative) hoặc trung lập (neutral) của con người về một sự vật, sự việc, hiện
tượng,… nào đó.
Theo Bing liu [20], một quan điểm l một bộ gồm hai th nh phần chính: một đối
tượng g v một tình cảm s trên đối tượng đó.
Bộ (g, s)
Trong đó, g có thể l một th c thể (entity) hay một đặc trưng a pect của th c thể có
thể hiện quan điểm trên đó; và s l thể hiện quan điểm mang giá trị tích c c, tiêu c c, hoặc
trung tính, hoặc một giá trị thể hiện mức độ của quan điểm ví dụ., 1 đến 5 ao Tích
orientation hay các mức độ phân c c quan điểm entimemnt polarities) [20]
Trong đó, T l một hệ thống phân cấp của các th nh phần, các th nh phần con, v W l
một tập hợp các thuộc tính của e Mỗi th nh phần hoặc mỗi th nh phần con cũng có tập các
thuộc tính của riêng nó
thuộc tính như: tuổi thọ của pin v trọng lượng pin
Trang 16Một th c thể được thể hiện bởi hệ thống phân cấp với các mức khác nhau để thể hiện mối quan hệ giữa chúng Biểu diễn n y quá phức tạp cho các ứng dụng vì việc xử l ngôn ngữ t nhiên để nhận dạng các th nh phần v các thuộc tính tại các mức khác nhau l rất khó khăn, trong khi đó nó không cần thiết trong phần lớn các ứng dụng Do đó, để đơn giản, chúng ta biểu diễn th nh hai mức v ử dụng thuật ngữ các đặc trưng a pect để thể hiện
cả các th nh phần v các thuộc tính Khi đó hệ thống phân cấp có nút gốc l
th c thể v các nút l l các đặc trưng khác nhau của th c thể Trong các t i liệu nghiên cứu, các th c thể đôi khi được gọi l các đối tượng object v các đặc trưng được gọi l các đặc tính feature [20]
Định nghĩa quan điểm
Quan điểm được định nghĩa một cách đầy đủ l bộ 5 giống như dưới đây:
Quan điểm := <e i , a ij , s ijkl , h k , t l >
e i : tên của một thực thể,
a ij : một kh a cạnh của thực thể e i
s ijkl : quan điểm trên kh a cạnh a ij của thực thể e i (t nh phân cực của tình
cảm: t ch cực, tiêu cực, hoặc trung t nh, hoặc thể hiện với mức độ của sức mạnh / cường độ)
h k : là người đưa ra quan điểm
t l : thời gian khi quan điểm được h k bày tỏ
Một quan điểm đưa ra trên th c thể chính, các đặc trưng của nó thường được ử dụng
hiện quan điểm [20]
đã ử dụng Việc khai thác các kiến, nhận xét, bình luận của người dùng về các ản phẩm,dịch vụ, các vấn đề chính trị, xã hội, các chủ đề, một cách hiệu quả đem lại nhiều lợi íchlớn cho các cá nhân, tổ chức, doanh nghiệp Do đó các phương pháp t động hoặc bán tđộng thu thập, phân loại v đo lường thông tin đã đang ng y c ng phát triển Các nhiệm vụliên quan đến việc phân tích dữ liệu bên trên thường được gọi chung l khai phá quan điểm
Khai phá quan điểm bao gồm nhiều bước và nhiều kỹ thuật khác nhau được áp dụng cho các bước khác nhau Khai phá quan điểm là lĩnh vực nghiên cứu phân t ch ý kiến, quan điểm, đánh giá, thẩm định, thái độ và cảm xúc của mọi người đối với các thực thể như sản phẩm, dịch vụ, tổ chức, cá nhân, vấn đề, sự kiện, chủ đề và các kh a cạnh của nó.
Ngoài ra, khai phá quan điểm còn có nhiều tên gọi v nhiệm vụ khác nhau như: khaiphá quan điểm, trích chọn quan điểm, phân tích tình cảm, phân tích chủ quan, phân tíchtác động, phân tích cảm xúc, khai phá đánh giá của người dùng… Trên th c tế, thuật
10
Trang 17ngữ khai phá quan điểm v phân tích tình cảm thường được ử dụng phổ biến hơn, còntrong nghiên cứu thì phân tích tình cảm hay khai phá quan điểm được ử dụng như nhau[ 0] Thuật ngữ phân tích tình cảm xuất hiện đầu tiên trong t i liệu Na ukawa and Yi,
003 , còn khai phá quan điểm xuất hiện đầu tiên trong t i liệu Dave, Lawrence andPennock, 003 Tuy nhiên, những nghiên cứu về quan điểm v kiến xuất hiện ớm hơntrong các t i liệu Da and Chen, 2001; Morinaga et al, 2002; Pang, Lee andVaithyanathan, 2002; Tong, 2001; Turney, 2002; Wiebe, 2000) [20]
1.4 Một số b i toán điển h nh trong phân tích quan điểm
Đối tượng của Phân tích quan điểm
Cho một văn bản quan điểm d, xác định tất cả các bộ quan điểm gồm 5 th nh phần (ei, aij, sijkl, hk, tl) trong d
Các nhiệm vụ chính để giải quyết bài toán này xuất phát từ 5 th nh phần trong đó gồm:
- Nhiệm vụ 1: Tr ch chọn và phân loại thực thể Bài toán này có thể xem như tương
tự với bài toán nhận dạng và phân loại thực thể.
- Nhiệm vụ : Tr ch chọn và phân loại đặc trưng
- Nhiệm vụ 3: Tr ch chọn và phân loại người đưa quan điểm
- Nhiệm vụ 4: Tr ch chọn và chuẩn hóa thời gian
- Nhiệm vụ 5: Phân lớp quan điểm ở mức kh a cạnh
- Nhiệm vụ 6: Sinh bộ quan điểm gồm 5 thành phần (e i , a ij , s ijkl , h k , t l )
Phân lớp quan điểm có thể được xem l mở rộng phù hợp nhất của học chủ đề Pang
v Lee, 008 Nhiệm vụ phân lớp quan điểm mức t i liệu l xác định xem nó thể hiện l tích c
c, tiêu c c hoặc trung lập Phần lớn đối tượng dữ liệu được nghiên cứu cho vấn đề n y l cácnhận xét tr c tuyến trên Web
Ví dụ: với một đánh giá ản phẩm, hệ thống xác định xem nhận xét về ản phẩm ấy ltốt hay xấu
Phát biểu b i toán:
Cho một văn bản d chứa quan điểm đánh giá về một thực thể, xác định tình cảm của người đưa quan điểm về thực thể Tức là xác định s ijkl trong bộ (e i , a ij , s ijkl , h k , t l ) trong đó e, h, t được giả định là biết hoặc không biết.
trị ố hoặc điểm với một dãy đưa ra thì đây l b i toán hồi quy
Giả thuyết: Phân lớp quan điểm hay hổi quy giả thuyết rằng t i liệu quan điểm d ví
dụ l một nhận xét về ản phẩm thể hiện các quan điểm trên một th c thể đơn v bao gồmcác quan điểm từ một người đánh giá h
Trang 18Câu chủ quan v phân lớp quan điểm
mỗi câu Trên th c tế, không có khác biệt cơ bản giữa phân loại mức câu v mức t i liệu, bởi
vì câu chính l một t i liệu ngắn
Phát biểu b i toán:
Cho một câu x, xác định có hay không x thể hiện quan điểm là t ch cực, tiêu cực
hay trung lập hoặc không chứa quan điểm.
Ví dụ: cho một nhận xét “Chương trình n y chạy quá chậm!”
theo Trong phần lớn các ứng dụng, chúng ta cần biết các mục tiêu quan điểm, từ đó cho
thấy một câu thể hiện l quan điểm tích c c, tiêu c c hay trung lập nhưng không biết các th c
thể/ đặc trưng của quan điểm đó l gì Tuy nhiên, phân lớp mức câu vẫn rất hữu ích trong
một ố trường hợp, nếu chúng ta biết các th c thể v các đặc trưng của th c thể được đề cập
trong một câu, bước n y có thể giúp xác định có hay không quan điểm về các th c thể v các
đặc trưng l tích c c, tiêu c c hay trung lập
Nhiệm vụ đầu tiên
chứa thông tin quan điểm hay l thông tin khách quan
Nhiệm vụ thứ hai hay còn gọi l
trung lập
Phân tích quan điểm d a trên đ c trưng Aspect-based Sentiment Analysis)
Phân tích quan điểm mức câu v mức t i liệu thường không hiệu quả với các ứng
dụng bởi vì chúng không xác định được quan điểm cho mỗi mục tiêu Thậm chí, nếu giả
thuyết đặt ra l mỗi t i liệu đánh giá cho một th c thể, một t i liệu quan điểm tích c c hay
tiêu c c về một th c thể không có nghĩa l chúng tích c c hay tiêu c c cho tất cả các đặc
trưng của th c thể Để phân tích một cách ho n chỉnh, chúng ta cần khai thác các đặc trưng
v xác định đặc trưng n o có quan điểm l tích c c, tiêu c c, hay trung lập cho mỗi đặc trưng
đó
1 Tr ch các đặc trưng: nhiệm vụ này tr ch các đặc trưng được đánh giá.
Ví dụ, trong câu: “Chất lượng âm thanh của chiếc điện thoại n y tuyệt thật”
Đặc trưng “chất lượng âm thanh” của th c thể “chiếc điện thoại n y” được đánh
Trang 19phân lớp quan điểm đặc trưng: nhiệm vụ này xác định quan điểm trong các đặc trưng khác nhau là t ch cực, tiêu cực hay trung lập.
Phân tích các quan điểm so sánh
Ngo i việc tr c tiếp b y tỏ quan điểm tích c c hay tiêu c c về một th c thể, đối tượng
v các khía cạnh của nó, người ta cũng có thể b y tỏ quan điểm bằng cách o ánh các th cthể, đối tượng v các khía cạnh của nó với nhau Theo Jindal v Liu quan điểm như vậyđược gọi l quan điểm so sánh [20]
Các quan điểm o ánh được biểu diễn khác với các quan điểm thông thường, ở cả vềngữ nghĩa, nghĩa v hình thức cú pháp
Ví dụ về câu biểu diễn quan điểm thông thường l “chất lượng hình ảnh của chiếc
điện thoại này thật là tuyệt vời”.
Ví dụ về câu biểu diễn quan điểm o ánh l “chất lượng hình ảnh của chiếc điện
thoại iphone 6 tốt hơn so với iphone 5” Câu này không nói chất lượng hình ảnh của chiếc
tích thì cần những kỹ thuật khác nhau
đây: “Chiếc điện thoại iphone 6 rộng hơn 1 inch so với chiếc điện thoại iphone 5s” Câu
n y không biểu diễn quan điểm
Nghiên cứu trong văn bản tiếng Anh, thực tế có hai kiểu so sánh là: quan điểm so
sánh và quan điểm so sánh hơn nhất Tuy nhiên, chúng được nghiên cứu cùng với nhau v
gọi chung l các quan điểm o ánh vì các phương pháp xử l bằng tay v ngữ nghĩa của chúng
l tương t nhau
Tổng hợp ý kiến quan điểm
Trong phần lớn các ứng dụng phân tích quan điểm, việc cần thiết l nghiên cứu cácquan điểm từ nhiều người dùng xem yếu tố t nhiên khách quan của các quan điểm vì nếuchỉ tìm kiếm quan điểm từ một người dùng l không đủ Do đó hình thức tổng hợp quanđiểm l cần thiết
Phần lớn các nghiên cứu tổng hợp quan điểm đều d a trên cấu trúc của quan điểm,
Tiếp cận n y được gọi l tổng hợp quan điểm d a trên đặc trưng a pect-based summary).Khung l m việc n y cũng được phát triển v ứng dụng rộng rãi trong công nghiệp Ví dụnhư các hệ thống phân tích quan điểm của Micro oft Bing v Google
Product earch cũng ử dụng dạng tổng hợp n y Kết quả của tổng hợp quan điểm có thể được biểu diễn theo hình thức cấu trúc hoặc t i liệu văn bản ngắn [ 0]
Ví dụ: Tổng hợp các kiến trên một đối tượng điện thoại được thể hiện d a trên các đặc trưng của đối tượng giống như dưới đây:
Trang 20nh 1.3: Tổng hợp quan điểm về một chiếc điện thoại
Tổng hợp các kiến o ánh giữa hai đối tượng với nhau, minh họa l hai chiếc điện thoại dưới đây:
nh 1.4: Tổng hợp các ý kiến so sánh giữa hai chiếc điện thoại với nhau
Với tổng hợp quan điểm, người dùng dễ d ng xác định được kiến của những ngườidùng hiện tại Các nh ản xuất có được cái nhìn tổng quát giải thích tại ao người dùng thíchhay không thích ản phẩm của mình, thích ở những điểm gì hoặc không thích ở nhữngđiểm gì…
Phát hiện quan điểm rác
Các quan điểm được khai thác từ các trang mạng xã hội đã hỗ trợ ng y c ng nhiềucho các cá nhân v tổ chức ử dụng trong việc đưa ra các quyết định mua ản phẩm, l a chọnbầu cử hay cho ản xuất v quảng bá ản phẩm,… Các quan điểm tích c c thường mang lạilợi nhuận v chỗ đứng cho các doanh nghiệp v cá nhân Tuy nhiên một ố hệ thống lại đưalên những nhận xét quan điểm giả mạo nhằm thúc đẩy hoặc hạ uy tín của một ố ản phẩm,dịch vụ, tổ chức, cá nhân v thậm chí l các kiến không tiết lộ thật
Trang 21định của họ, hoặc cá nhân hoặc tổ chức m họ bí mật l m việc cho Những người n yđược gọi l người đưa quan điểm rác (spammer) v hoạt động của họ gọi l pam (Jindal vàLiu, 2008; Jindal và Liu, 2007).
Ý kiến rác về các vấn đề xã hội v chính trị có thể rất đáng ợ do họ có thể l m giảcác kiến v huy động quần chúng v o việc đi ngược lại pháp l , thuần phong mỹ tục hayđạo đức Ng y nay, những kiến trên phương tiện truyền thông xã hội l ng y c ng được ử
dụng nhiều trong th c tế, pam kiến ngày càng tràn lan và càng tinh vi Đó l mộtthách thức lớn bài toán này Tuy nhiên, việc pam phải được phát hiện để đảm bảo rằng cáccác kiến trên các phương tiện truyền thông tiếp tục l một nguồn đáng tin cậy cho dư luận
xã hội, chứ không phải l các kiến giả, dối trá, v lừa đảo
Phát hiện nội dung rác nói chung đã được nghiên cứu trong nhiều lĩnh v c Web và
email là hai loại được nghiên cứu rộng rãi nhất của spam Có hai loại chính của Web rác
là: liên kết rác v nội dung pam Ca tillo v Davi on, 010; Liu, 2006 và 2011)
Liên kết rác l rác trên các iêu liên kết, m hầu như không tồn tại trong phần đánhgiá Mặc dầu liên kết quảng cáo được phổ biến trong các hình thức khác của phương tiệntruyền thông xã hội Nội dung rác còn thêm phổ biến nhưng không liên quan từ trong cáctrang web mục tiêu để đánh lừa công cụ tìm kiếm, để l m cho nó có liên quan đến nhiềutruy vấn tìm kiếm, nhưng điều n y khó xảy ra trong các b i đăng kiến
Email rác đề cập đến các quảng cáo không mong muốn, m cũng rất hiếm trong các kiến trên mạng
1.5 Vai trò và các ứng dụng
Quan điểm là trung tâm của hầu hết các hoạt động của con người bởi vì nó là nhân tố ch nh ảnh hưởng đến hành vi của con người Bất cứ khi nào chúng ta cần phải đưa ra quyết định chúng ta sẽ cần tham khảo ý kiến của những người khác.
dùng về các ản phẩm v dịch vụ của họ Bản thân mỗi cá nhân cũng muốn biết kiến của
người khác về các ứng cử viên chính trị trước khi quyết định bỏ phiếu [20]
Trang 22nh 1.5: Khai phá quan điểm người dùng
Việc khai thác những thông tin trên Internet hay mạng xã hội đã trở nên giúp ích rấtnhiều cho những người l m công tác quản l Nh quản l xã hội có thể tìm hiểu quan
điểm của dân chúng đối với một ố kiện xã hội Từ đó, nh quản l có thể điều chỉnh chiếnlược v chính ách một cách hợp l v hiệu quả hơn
Các hệ thống máy tìm kiếm hiện tại như Google, Yahoo, Bing… cho phép ngườidùng đánh v o từ khoá v hiển thị các t i liệu liên quan đến từ khoá n y Khi ử dụng những
hệ thống như vậy cho mục tiêu tìm kiếm quan điểm đặc biệt l với ngôn ngữ Tiếng Việt,người dùng ẽ phải t lọc lấy các thông tin chứa quan điểm, t đọc v phân tích đánh giá quanđiểm n o l hữu ích, l tích c c hay tiêu c c ơn thế nữa, quan điểm ẽ chứa ở nhiều web itekhác nhau, nhiều vị trí khác nhau Vì vậy, người dùng ẽ khó có một cái nhìn to n diện, vìkhông thể thống kê đầy đủ, v tổng hợp lại
Trên thế giới đã có nhiều các nghiên cứu về khai phá quan điểm nói chung v khaiphá quan điểm cho ản phẩm nói riêng, chẳng hạn như hệ thống như entiment140 [46] Vớiđầu v o l tên ản phẩm hoặc thương hiệu, hệ thống ẽ đưa ra tổng hợp các bình luận (tweets)của người dùng Twitter về ản phẩm hoặc thương hiệu n y, đồng thời đưa ra tỷ lệ tích cc/tiêu c c của các quan điểm về đối tượng đó iện tại, hệ thống n y mới chỉ áp dụng chongôn ngữ tiếng Anh v tiếng Tây Ban Nha
Trang 23nh 1.6: Trang web entiment140 với từ khóa t m kiếm l iphone 6
Kết quả m hệ thống này tổng hợp được thể hiện như bên dưới đây Trong đó, m uxanh thể hiện bình luận tweet l tích c c po itive còn m u đỏ thể hiện bình luận tweet l tiêu c
c negative
Trang 24nh 1.7: Kết quả phân lớp quan điểm của sentiment140
iện nay, các hệ thống t động thu thập v phân tích quan điểm của cộng đồng mạng cho tiếng Việt còn ơ khai v chưa được ứng dụng rộng rãi
Chính vì những l do trên, việc nguyên cứu các vấn đề của xử l ngôn ngữ t nhiên tiếng Việt v các phương pháp học máy, trên cơ ở đó xây d ng hệ thống t động thu thập v phân tích quan điểm nhằm đánh giá, thống kê mức độ quan tâm, ủng hộ của cộng đồng đốivới các ản phẩm, cá nhân, tổ chức, kiện kinh tế, xã hội… l một việc l m rất có nghĩa
1.6 Những khó khăn v thách thức trong khai phá quan điểm tiếng
Việt
Phần lớn các nghiên cứu hiện nay về khai phá quan điểm v phân tích tình cảm đều
hạn chế Một ố nghiên cứu mới chỉ tập trung v o phân tích quan điểm ở mức câu, mức t iliệu v kết quả còn hạn chế Một trong những vấn đề tác động đến kết quả đó l một ố bàitoán cơ bản ử dụng cho tiếng Việt như: tách từ, phân tích cú pháp, phân tích ngữ nghĩa,các công cụ entiwordnet v Wordnet của tiếng Việt đang trong giai đoan phát triển, độchính xác chưa cao nên ít nhiều ảnh hưởng tới kết quả của các nghiên cứu khai phá quanđiểm trên ngôn ngữ Tiếng Việt
Việc xây d ng bộ ngữ liệu chung cho b i toán phân tích quan điểm để dùng cho cácnghiên cứu chưa đa dạng v chưa được quan tâm đúng mức Các nhóm nghiên cứu mới chỉtập trung v o một ố lĩnh v c như một ố ản phẩm v dịch vụ v chưa có tính thống nhất đểdùng chung cho nghiên cứu
Ngo i ra, những khó khăn m chúng ta có thể bắt gặp trong quá trình khai phá quanđiểm trên ngôn ngữ tiếng Việt cũng như bất kỳ ngôn ngữ n o khác như:
nhiều th c thể, nhiều o ánh, nhiều nhiễu, ít từ, có nhiều từ lóng, thiếu dấu câu, sai chínhtả…gây khó khăn trong bước xử lí dữ liệu
th c thể v đặc trưng của th c thể
hầu hết các nghiên cứu đều bỏ qua điều n y
phân lớp quan điểm ử dụng dữ liệu từ một miền đã huấn luyện thường hoạt động kém hiệuquả trong các miền ứng dụng khác Các từ v thậm chí cả cấu trúc ngôn ngữ được ử
dụng trong các lĩnh v c khác nhau để thể hiện kiến quan điểm có thể rất khác nhau Cùngmột từ nhưng trong một lĩnh v c có thể mang nghĩa khẳng định nhưng lại mang nghĩa phủđịnh trong lĩnh v c khác Chất lượng bình luận có thể thay đổi từ đối tượng đến đối tượng
v từ cộng đồng đến cộng đồng Điều n y có nghĩa l nó phụ thuộc rất nhiều
Trang 25vào nguồnnơi bình luận: forum #youtube #dantri) Các bình luận có thể bị kiểm oát/kiểmduyệt theo chính ách của mỗi nguồn.
Tổng kết chương
Chương n y luận văn trình b y tổng quát khai phá quan điểm Một ố khái niệm, các
b i toán chính v ứng dụng của khai phá quan điểm trong th c tế nhằm cung cấp cái nhìntổng quan cho b i toán n y Ở chương tiếp theo, khóa luận ẽ trình b y nội dung b i toánphân lớp quan điểm, một lớp b i toán chính trong khai phá quan điểm
Trang 26Chương 2: B i toán phân lớp v phân tích quan điểm
Trong chương n y, chúng tôi trình b y về b i toán phân lớp, một ố phương phápphân lớp được ử dụng rộng rãi v áp dụng cho một ố b i toán phân tích quan điểm
2.1 Các b i toán phân lớp
Phân lớp l một quá trình đưa một đối tượng dữ liệu v o một hay nhiều lớp chotrước d a trên một mô hình hoặc thuật toán phân lớp cùng với một tập dữ liệu đã được gánnhãn từ trước còn gọi l tập huấn luyện Quá trình n y còn được gọi l quá trình gán nhãn
Trang 27Tương t như b i toán phân lớp nhị phân ở trên với ố lượng lớp lớn hơn hai Phânlớp nhị phân được coi là một trường hợp riêng của phân lớp đa lớp Một cách giải quyếtđơn giản l chúng ta cố gắng quy b i toán phân lớp đa lớp về b i toán phân lớp nhị phân Vềbản chất, b i toán phân lớp nhị phân l một trường hợp riêng của phân lớp đa lớp.
Phân lớp đa trị
Mỗi đối tượng dữ liệu trong tập huấn luyện v các đối tượng dữ liệu mới có thểthuộc về một, hai, hay nhiều lớp
Phân lớp phân cấp
2.2 Phân lớp quan điểm
Theo tác giả Bing Liu có ba phương pháp chính để phân lớp quan điểm [20]:
- Phân lớp dựa vào cụm từ thể hiện quan điểm
- Phân lớp dựa vào phương pháp phân lớp văn bản
- Phân lớp dựa hàm t nh điểm số
Trong luận văn n y ẽ tập trung v o phương pháp phân lớp quan điểm d a v ophương pháp phân lớp văn bản v ẽ trình b y chi tiết ở phần tiếp theo
2.3 Quá tr nh phân lớp
Quá trình phân lớp dữ liệu thường gồm hai bước:
Bước 1: Xây d ng mô hình tạo bộ phân lớp Trong bước n y, mô hình ẽ được xây d
ng d a trên việc phân tích các đối tượng dữ liệu đã được gán nhãn từ trước Tập các mẫu
dữ liệu n y còn được gọi l tập dữ liệu huấn luyện training data et Các nhãn lớp của tập dữliệu huấn luyện được xác định bởi con người trước khi xây d ng mô hình Vì vậy, phươngpháp n y còn được gọi l học máy có giám át upervi ed learning
Bước 2: ử dụng mô hình đã xây d ng để tiến h nh phân lớp dữ liệu Chúng ta ử
dụng tập dữ liệu kiểm tra te t data et để kiểm tra độ chính xác cũng như hiệu quả của môhình Nếu độ chính xác l chấp nhận được, mô hình ẽ được áp dụng để xác định nhãn lớpcho các dữ liệu mới trong tương lai
Về cơ bản, thuật toán phân lớp l một ánh xạ từ miền dữ liệu cụ thể ang miền giá trịcủa thuộc tính lớp, d a v o giá trị của các thuộc tính của dữ liệu
Trang 28nh 2.2: Ví dụ mô h nh phân lớp sử dụng học máy có giám sát
2.4 Khái quát một số phương pháp phân lớp văn bản
2.4.1 Phân lớp d a trên luật
Ýtưởng: Mỗi luật phân lớp ẽ được định nghĩa như au:
r: (điều kiện) → y Tập các luật R = {r 1 , r 2 , r 3 … r n }
Trang 29Ưu nhược điểm:
ướng tiếp cận d a trên luật yêu cầu phải cĩ các chuyên gia ngơn ngữ cung cấp cácluật, các biểu thức chính quy regural expre ion , các từ khĩa, đặc trưng….cho từng lớp.Các hạn chế của hướng tiếp cận n y là:
Xây d ng mơ hình cho phương pháp n y rất tốn thời gian v cơng ức, cần cĩ cộng tác của nhiều chuyên gia trong lĩnh v c ngơn ngữ học khi xây d ng các mẫu câu v văn phạm cho từng loại câu đĩ
Các luật ngữ pháp viết tay v văn phạm của từng loại câu rất cứng nhắc, khơng linhđộng Khi một dạng câu mới xuất hiện, mơ hình theo hướng n y khơng thể xử l được.Muốn xử l được mơ hình cần phải được cung cấp những luật mới Vấn đề nhập nhằng củacác văn phạm ngữ pháp rất khĩ xử l , kiểm ốt v phụ thuộc v o đặc điểm của từng ngơnngữ
Pang, Lee, và Vaithyanathan đã áp dụng các phương pháp học máy để phân lớpquan điểm cho một t i liệu Các phương pháp họ đã ử dụng như: Nạve Baye , MaximumEntropy, v VM, v thường ử dụng khung túi đặc trưng chuẩn tandard bag-of-featuresframework để th c hiện các thuật tốn học máy liên quan đến các b i tốn về phân lớpquan điểm Qua một ố những th c nghiệm về phân lớp quan điểm, Pang v Lee đã cải tiếnbằng cách loại bỏ những câu khách quan ọ đã phát triển một bộ phát hiện chủ quan cĩ thểxác định xem câu l chủ quan hay khơng au đĩ, họ loại bỏ những câu khách quan trước khitiếp tục việc th c hiện phân lớp quan điểm [20]
2.4.2 Phân lớp s dụng các phương pháp học máy cĩ giám sát
ầu hết các phương pháp hiện cĩ để phân lớp chủ quan d a trên học máy cĩ giámsát
Năm 1999, Wiebe, Bruce v O' ara th c hiện phân lớp chủ quan ử dụng bộ phân lớpBayes với một tập các đặc trưng nhị phân, như: hiện diện của một đại danh từ, tính từ,…trong câu
Một trong những khĩ khăn của việc áp dụng học máy cĩ giám sát là xây dựng bộ
dữ liệu huấn luyện với số lượng lớn.
Năm 003, để tiết kiệm cơng
Wiebe đã đề xuất một thuật tốn boot
ức gán nhãn bằng tay một cách hiệu quả, Riloff và trapping để gán nhãn dữ liệu huấn luyện t động
Trang 30Thuật toán hoạt động bằng cách: đầu tiên ử dụng hai phân lớp có độ chính xác cao(HP-SUBJ và HP-Obj để t động xác định một ố câu l chủ quan v khách quan Bộ phân lớp
có độ chính xác cao ử dụng danh ách các từ ngữ các từ đơn hay n-gram) là đầu mối tốtnhất
đầu mối chủ quan mạnh
mạnh n o
Các bộ phân lớp ẽ cho độ chính xác rất cao v độ hồi tưởng thấp Các câu trích chọn
au đó được thêm v o tập dữ liệu huấn luyện để học mẫu Các mẫu nhận được ử dụng để tđộng xác định câu chủ quan v khách quan, au đó được thêm v o tập huấn luyện, v lặp lạicho các bước tiếp theo của thuật toán
Đối với việc học mẫu, một tập hợp các mẫu cú pháp được cung cấp để hạn chế cácloại mẫu được học Một ố ví dụ mẫu cú pháp v mẫu ví dụ trong tiếng Anh được trình b ytrong bảng dưới đây
Bảng 2.1: Các mẫu cú pháp v ví dụ trong tiếng Anh
2.4.2.1 Phân lớp d a trên cây quyết định
Cây quyết định được coi l công cụ mạnh, phổ biến v thích hợp với các ứng dụng khai phá dữ liệu ai thuật toán d a trên cây quyết định điển hình áp dụng cho hai phạm
phát triển, cách thức lưu trữ phân chia dữ liệu, v một ố đặc điểm khác, C4.5 l thuật
toán phổ biến nhất khi phân lớp tập dữ liệu vừa v nhỏ, PRINT l thuật toán tiêu biểu ápdụng cho những tập dữ liệu có kích thước c c lớn [5]
Cây quyết định là cấu trúc biểu diễn dưới dạng cây Trong đó, mỗi nút trong (internal node) biểu diễn một thuộc t nh, nhánh (branch) biểu diễn giá trị có thể có của thuộc t nh, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng của cây gọi
là gốc.
Cây quyết định có thể được dùng để phân lớp bằng cách xuất phát từ gốc của cây
chuyển đổi về các luật quyết định
V dụ:
Xem xét bảng dữ liệu huấn luyện au đây:
24
Trang 31Bảng 2.2: Dữ liệu huấn luyện sử dụng cho cây quyết định
Các thuật toán xây d ng một cây ẽ d đoán giá trị của một cột d a trên các cột còn lạitrong tập huấn luyện Do đó, mỗi nút trong cây đại diện cho một trường hợp cụ thể chomột cột Quyết định về nơi đặt nút n y được th c hiện bởi các thuật toán, v một nút
nhau của mỗi cột Cây quyết định l biểu đồ phát triển có cấu trúc dạng cây, như mô tảtrong hình vẽ au:
nh 2.3: Ví dụ về cây quyết định
Trong cây quyết định:
• Gốc: l node trên cùng của cây
• Node trong: biểu diễn một kiểm tra trên một thuộc tính đơn hình chữ nhật
• Nhánh: biểu diễn các kết quả của kiểm tra trên node trong mũi tên
25
Trang 32• Node lá: biểu diễn lớp hay phân phối lớp hình trịn
Ưu nhược điểm:
giải thích ngắn gọn
các kỹ thuật khác thường địi hỏi phải chuẩn hĩa dữ liệu, tạo các biến phụ hoặc loại bỏ cácgiá trị rỗng
ạn chế của cây quyết định khơng thích hợp cho những b i tốn với mục tiêu l d đốn giá trị của thuộc tính liên tục như thu nhập, huyết áp hay lãi xuất ngân h ng… Cây quyết định cũng khĩ giải quyết với những dữ liệu thời gian liên tục nếu khơng bỏ ra nhiều cơng ức cho việc đặt ra biểu diễn dữ liệu theo các mẫu liên tục [5]
2.4.2.2 Phân lớp sử dụng Nạve Bayes
Bộ phân lớp Nạve Baye NB l phương pháp phân loại d a v o xác uất được ử dụngrộng rãi trong lĩnh v c máy học [Mitchell, 1996] [Joachim , 1997] [Ja on, 001], được ửdụng lần đầu tiên trong lĩnh v c phân loại bởi Maron v o năm 1961 au đĩ trở nên phổ biếndùng trong nhiều lĩnh v c như trong các cơng cụ tìm kiếm [Rij bergen et al, 1970], các bộlọc email [ ahami et al, 1998]…
Ý tưởng:
Bộ phân lớp Naive Bayes cịn được gọi là phân lớp xác suất đơn giản dựa trên định lý Bayes với giả định các đặc trưng là độc lập với nhau.
Bộ phân lớp Naive Bayes phù hợp với b i tốn khi ố chiều của các yếu tố đầu v o
tốt hơn o với các phương pháp phân loại phức tạp hơn [20]
nh 2.4: Mơ h nh phân lớp sử dụng bộ phân lớp Naive Bayes
Bộ phân lớp Naive Baye được đơn giản hĩa bằng việc giả định rằng các đặc trưng
Naive Baye hoạt động khá tốt o với các bộ phân lớp phức tạp khác
Trang 33Thuật tốn:
Nạve Baye d a trên định l Baye được phát biểu như au:
Áp dụng trong bài tốn phân lớp, các dữ kiện gồm cĩ:
Áp dụng hai cơng thức trên ta uy ra:
Trang 34Ýtưởng cơ bản của cách tiếp cận Nạve Bayes là sử dụng xác suất cĩ điều kiện của các từ để dự đốn xác suất lớp văn bản chủ quan hoặc khách quan của một bình luận cần phân loại.
Điểm quan trọng của phương pháp n y chính l ở chỗ giả định rằng xuất hiện của tất
cả các từ trong văn bản đều độc lập với nhau Giả định đĩ l m cho việc tính tốn NB hiệuquả v nhanh chĩng hơn các phương pháp khác vì khơng ử dụng việc kết hợp các từ để đưa
ra phán đốn lớp Kết quả d đốn ẽ bị ảnh hưởng bởi kích thước tập dữ liệu, chất lượngcủa khơng gian đặc trưng…
Cài đặt thuật tốn:
Mơ tả vector đặc trưng của bình luận: L vector cĩ ố chiều l ố đặc trưng trong to ntập dữ liệu, các đặc trưng n y đơi một khác nhau Nếu văn bản cĩ chứa đặc trưng đĩ ẽ cĩgiá trị 1, ngược lại l 0
Đầu v o:
Các vector đặc trưng của văn bản trong tập huấn luyện Ma trận MxN, với M l
ố vector đặc trưng trong tập huấn luyện, N l ố đặc trưng của vector
|doc i|: ố văn bản của tập huấn luyện thuộc phân lớp i
|total doc |: ố văn bản trong tập huấn luyện.
m ố phân lớp
Các bước c i đặt:
Khởi tạo mảng A, B cĩ kích thước m.
Duyệt qua các văn bản trong tập dữ liệu, đếm ố văn bản trong mỗi phân lớp lưu v o A
Trang 35 : ố văn bản của tập huấn luyện thuộc phân lớp i.
ố giá trị cĩ thể cĩ của đặc trưng thứ k
với xuất hiện vuất khơng xuất hiện theo cơng thức
kích thước l N
Duyệt qua các văn bản trong tập dữ liệu, tiến h nh thống kê các chỉ ố cần thiết
Nhãn/lớp của văn bản cần phân loại.
Cơng thức tính xác uất thuộc phân lớp i khi biết trước mẫu X
xác uất thuộc từng phân lớp cho văn bản, v chọn ra lớp cĩ xác uất cao nhất
Áp dụng:
Năm 1999, Wiebe, Bruce v O' ara th c hiện phân lớp ử dụng bộ phân lớp Nạve
Baye với một tập hợp các đặc trưng nhị phân (ví dụ như, xuất hiện trong câu của một danh
từ, tính từ, một ố từ chỉ ố lượng, )
v một bộ phân lớp Baye Phương pháp câu tương t
hay quan điểm l
ử dụng hệ thống
chung, v yn et
unigram , bigram , trigram , phân loại từ v ng,
hướng tích c
ví dụ, "JJ +" cho tính từ tích c c , cùng với các đặc trưng mã hĩa tình cảm nếu cĩ
động từ đầu tiên, các chủ đề chính Cơng việc n y áp dụng cho cả việc phân lớp một câu
chủ quan l tích c c hay tiêu c c
29
Trang 362.4.2.3 Phân lớp sử dụng MEM
Đối với b i toán phân lớp dữ liệu, Entropy c c đại l một kỹ thuật dùng để ước lượngxác uất các phân phối từ dữ liệu
Ý tưởng:
Tư tưởng chủ đạo của nguyên l Entropy c c đại l :
“mô hình phân phối đối với mỗi tập dữ liệu và tập các ràng buộc đi cùng phải đạt
được độ cân bằng đều nhất có thể ” – có Entropy c c đại
các giá trị ước lượng được của các đặc trưng Từ các r ng buộc inh ra bởi tập dữ liệu n y,
mô hình ẽ tiến h nh tính toán để có được một phân phối với Entropy c c đại
Ví dụ về mô hình Entropy c c đại: “Giả ử với bộ phân lớp b i báo của báo điện từVnexpre Bốn lớp chính chỉ ra đó l pháp_luật, thể_thao, quốc_tế, văn_hóa Các thống kêtrên tập dữ liệu mẫu chỉ ra rằng trung bình 70% các t i liệu trong lớp thể_thao có chứa từbóng_đá Như vậy một cách tr c quan có thể thấy rằng nếu một t i liệu D có chứa từbóng_đá thì xác uất được phân v o lớp thể_thao l 70% v xác uất phân v o ba lớp còn lại10% bằng nhau giữa các lớp v nếu D không chứa từ thể_thao thì xác uất phân phối
của D l đều cho bốn lớp mỗi lớp 5% ” Trong ví dụ trên “t i liệu chứa cụm bóng_đá thì
có xác uất phân v o lớp thể_thao l 70%” l một r ng buộc của mô hình [48]
Thuật toán:
tập dữ liệu huấn luyện Một đặc trưng trong mô hình Entropy c c đại được biểu diễn bởimột h m f(x, y , trong đó x l t i liệu v y l lớp Entropy c c đại cho phép giới hạn mô hìnhphân phối để có thể thu các giá trị kỳ vọng cho mỗi đặc trưng của tập dữ liệu Vì vậy, ta cóthể đặt xác uất phân phối của dữ liệu x cho lớp y là P(y|x thỏa mãn phương trình sau:
Xem xét b i toán phân lớp, với Y l tập các lớp, X l tập các thông tin ngữ cảnh, l những thông tin quan trọng cần cho việc phân lớp văn bản v o lớp Y một cách chính xác Nhiệm vụ trong b i toán phân lớp l xây d ng một mô hình thống kê m d đoán chính xác lớpcủa văn bản bất kì Mô hình như vậy chính l phương pháp ước lượng xác uất có điều kiện
p y|x Mô hình Entropy c c đại cung cấp một phương pháp đơn giản để ước lượng xác uất
có điều kiện p y|x thông qua việc thống kê các thuộc tính quan trọng quan át được từ tập
dữ liệu huấn luyện
nhất một lần trong tập dữ liệu huấn luyện
30
Trang 37Entropy l bị chặn dưới bởi 0, Entropy của mô hình không có không chắc chắn nào
v chặn trên bởi log|Y|, Entropy của phân phối ngang bằng nhau trên to n bộ các giá
trị có thể |Y| của y Với định nghĩa n y, chúng ta đã ẵn ng để biểu diễn nguyên l
thế n o để ta tối ưu được các r ng buộc, tức tìm ra được p* ∈ C l m c
Có nhiều thuật toán dùng để ước lượng tham ố, điển hình l
IIS, L-BFGS
2.4.2.4 Phân lớp sử dụng
Thuật toán upport Vector Machine
giới thiệu v o năm 1995
lớp khác nhau Với một bộ các ví dụ luyện tập thuộc hai thể loại cho trước, thuật toánluyện tập VM xây d ng một mô hình VM để phân loại các ví dụ khác v o hai thể loại đó
Ýtưởng:
Ýtưởng ch nh của thuật toán này là cho trước một tập huấn luyện được biểu diễn trong không gian vector trong đó mỗi tài liệu là một điểm, phương pháp này tìm ra một siêu phẳng h quyết định tốt nhất có thể chia các điểm trên không gian này thành hai lớp riêng biệt tương ứng lớp + và lớp -.
Chất lượng của iêu mặt phẳng n y được quyết định bởi khoảng cách gọi l biên củađiểm dữ liệu gần nhất của mỗi lớp đến mặt phẳng n y Khoảng cách biên c ng lớn thì mặtphẳng quyết định c ng tốt đồng thời việc phân loại c ng chính xác Mục đích thuật toán
VM tìm ra được khoảng cách biên lớn nhất để tạo kết quả phân lớp tốt Các ví dụ mớicũng được biểu diễn trong cùng một không gian v được thuật toán d đoán thuộc một tronghai lớp tùy v o ví dụ đó nằm ở phía n o của ranh giới Ban đầu SVM được thiết kế để giảiquyết b i toán phân lớp nhị phân hai lớp
Thuật toán:
Trong mô hình học có giám át, thuật toán được cho trước một ố điểm dữ liệu cùngvới nhãn của chúng thuộc một trong hai lớp cho trước Mục tiêu của thuật toán là xác địnhxem một điểm dữ liệu mới ẽ được thuộc về lớp n o Mỗi điểm dữ liệu được biểu diễn dướidạng một vector p-chiều, v ta muốn biết liệu có thể chia tách hai lớp dữ liệu bằng một iêuphẳng p − 1 chiều Đây gọi l phân loại tuyến tính Có nhiều iêu phẳng có thể phân loạiđược dữ liệu Một l a chọn hợp l trong chúng l iêu phẳng có lề lớn nhất giữa hai lớp [27]
Trang 38nh 2.5: iêu phẳng với lề c c đại cho một VM phân tách dữ liệu thuộc hai lớp
Xét b i toán phân lớp đơn giản nhất – phân lớp hai lớp với tập dữ liệu mẫu:
{(xi, yi i = 1,… N, x i ∈ R m , y i ∈ {−1, 1}}
Trong đó mẫu huấn luyện l các vector được phân lớp th nh các mẫu dương v mẫu âm như trong hình 5:
Bản chất phương pháp n y l một b i toán tối ưu với mục tiêu l tìm ra một không gian v iêu mặt phẳng quyết định h trên ao cho ai ố phân lớp l thấp nhất Tập
phân lớp VM l mặt iêu phẳng phân tách các mẫu dương khỏi các mẫu âm với độ chênh lệch c c đại, trong đó độ chênh lệch – còn gọi l Lề margin xác định bằng khoảng cách giữa các mẫu dương v các mẫu âm gần mặt iêu phẳng nhất hình 5 Mặt iêu phẳng n y được gọi l mặt iêu phẳng lề tối ưu
Các mặt iêu phẳng trong không gian đối tượng có phương trình l :
Tương đương với:
32
Trang 39Với w = w1 + w2 + …+ wn l vector trọng ố, C l độ dịch, khi thay đổi w v C thì hướng v khoảng cách từ gốc toạ độ đến mặt iêu phẳng thay đổi.
Tập phân lớp VM được định nghĩa như au:
Trong đó:
ign z = +1 nếu z ≥ 0sign(z) = -1 nếu z < 0Nếu f x = +1 thì x thuộc về lớp dương, v ngược lại, nếu f x = -1 thì x thuộc về lớp âm
Mục tiêu của phương pháp VM l ước lượng w v C để c c đại hoá lề giữa các lớp
dữ liệu dương v âm Các giá trị khác nhau của lề cho ta các họ iêu mặt phẳng khác nhau,
v lề c ng lớn thì năng l c của máy học c ng giảm Như vậy, c c đại hoá lề th c chất l việc tìm một máy học có năng l c nhỏ nhất Quá trình phân lớp được coi l tối ưu khi ai ố phânlớp l c c tiểu
Ta phải giải phương trình au:
ta có phương trình tổng quát của iêu phẳng tìm ra được bởi thuật toán VM l :
f(x1, x2,…, xn = C +∑ wixi
Với i = 1, 2…, n Trong đó n l ố dữ liệu huấn luyện
au khi đã tìm được phương trình của iêu phẳng bằng thuật toán VM, áp dụng công thức n y để tìm ra nhãn lớp cho các dữ liệu mới
ọc v phân lớp VM, ử dụng một trong ố các h m nhân au: