Khách hàng là những người được mời hoặc tự phát tham gia đánh giá bằng văn bản để chia sẻ kinh nghiệm của họ, ý kiến và khuyến nghị đối với các sản phẩm khác nhau.. Với thực tế ở trên, l
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 3MỤC LỤC
LỜI CAM ĐOAN 1
MỤC LỤC 4
DANH MỤC HÌNH VẼ 6
KÝ TỰ VIẾT TẮT 7
LỜI CẢM ƠN 8
MỞ ĐẦU 9
Chương 1- GIỚI THIỆU BÀI TOÁN TÓM TẮT VĂN BẢN 11
1.1 Định nghĩa tóm tắt văn bản 11
1.2 Quy trình tóm tắt tự động văn bản 12
1.3 Một số ứng dụng của tóm tắt văn bản 12
1.4 Sự phân loại các phương pháp tóm tắt 13
1.5 Tóm tắt đa văn bản 15
1.5.1 Giới thiệu 15
1.5.2 Tiêu chuẩn về chất lượng của tóm tắt đa văn bản 15
1.5.3 Các yêu cầu của tóm tắt đa văn bản: 16
1.6 Bài toán tóm tắt ý kiến đánh giá về sản phẩm từ nhiều người dùng 17
Chương 2 - KIẾN THỨC CƠ SỞ 20
2.1 Khai thác ý kiến 20
2.1.1 Định nghĩa 20
2.1.2 Bối cảnh lịch sử 20
2.1.3 Các cơ sở khoa học 21
2.2 Khai phá luật kết hợp (Assocition Rules) 27
2.2.1 Giới thiệu 27
2.2.2 Các bước để tìm ra luật kết hợp 29
2.3 Phương pháp tính độ tương đồng câu sử dụng độ đo Cosine 30
2.4 Kỹ thuật tối đa biên liên quan – MMR 30
Chương 3 - SỬ DỤNG KỸ THUẬT TÓM TẮT ĐA VĂN BẢN CHO BÀI TOÁN TÓM TẮT Ý KIẾN ĐÁNH GIÁ VỀ SẢN PHẨM TỪ NHIỀU NGƯỜI DÙNG 32
3.1 Xử lý các đánh giá trực tuyến của khách hàng 32
3.2 Tóm tắt văn bản tự động 34
3.3 Tóm tắt dựa trên cấu trúc chủ đề 35
3.3.1 Quá trình tiền xử lý dữ liệu (Pre-processing) 36
3.3.2 Xác định chủ đề (Topic Identification) 36
3.3.3 Trích chọn các câu ứng cử viên (Candidate sentence extraction) 39
3.3.4 Bước xử lý cuối cùng và trình bày bản tóm tắt 39
Trang 4Chương 4 - THỬ NGHIỆM VÀ ĐÁNH GIÁ 41
4.1 Môi trường thử nghiệm 41
4.2 Dữ liệu thử nghiệm 41
4.3 Quá trình thử nghiệm 44
4.4 Kết quả thử nghiệm 45
4.4.1 Kết quả xác định danh sách các mục từ chính: 45
4.4.2 Bản tóm tắt cuối cùng 46
4.5 Đánh giá thử nghiệm 46
KẾT LUẬN 50
TÀI LIỆU THAM KHẢO 51
Trang 5DANH MỤC HÌNH VẼ
Hình 1: Một ví dụ về tóm tắt ý kiến dựa trên thuộc tính 24 Hình 2: Tóm tắt các ý kiến dựa vào thuộc tính của máy ảnh kỹ thuật số 24 Hình 3: So sánh các ý kiến đánh giá về 2 máy ảnh kỹ thuật số 24 Hình 4: Xếp hạng các chủ đề dựa vào tập các đánh giá về điện thoại Nokia 38 Hình 5: Bản tóm tắt cuối cùng 40 Hình 6: Kết quả thử nghiệm xác định danh sách các mục từ chính 45 Hình 7: Kết quả thử nghiệm của bản tóm tắt 46 Hình 8: Bản tóm tắt được tạo ra bằng phương pháp tóm tắt dựa vào phân cụm trên tập các đánh giá về điện thoại Nokia 47
Trang 6KÝ TỰ VIẾT TẮT
PDA Personal Digital Assistant
TID Transaction Identifier
WAP Wireless Application Protocol
Trang 7MỞ ĐẦU
Với việc phát triển nhanh chóng của thương mại điện tử, ngày càng có nhiều các sản phẩm được rao bán trên mạng và cũng ngày càng nhiều người mua sản phẩm trực tuyến Để tăng cường sự hài lòng của khách hàng và kinh nghiệm mua sắm, một thực tế phổ biến cho các nhà kinh doanh trực tuyến là cho phép khách hàng của họ có thể đánh giá hoặc phát biểu ý kiến về các sản phẩm mà họ
đã mua Với việc ngày càng nhiều người dùng sử dụng mua bán trực tuyến thì số lượng người đánh giá về sản phẩm ngày càng tăng lên Kết quả là, số lượng ý kiến mà một sản phẩm nhận được tăng lên nhanh chóng Hơn nữa, rất nhiều ý kiến đánh giá là dài nhưng chỉ có một vài câu có nội dung về đánh giá sản phẩm Điều này thực sự khó khăn cho một khách hàng tiềm năng có thể đọc chúng để thực hiện một quyết định đúng đắn về việc có nên mua sản phẩm hay không Nếu anh/cô ấy chỉ đọc một vài ý kiến thì có thể nhận được một cái nhìn không đúng đắn về sản phẩm Số lượng lớn các ý kiến cũng gây ra khó khăn cho các nhà sản xuất để theo dõi ý kiến khách hàng đối với các sản phẩm của họ Đối với một nhà sản xuất, đó là những khó khăn truyền thống vì rất nhiều các trang web kinh doanh có thể bán cùng một sản phẩm và các nhà sản xuất có thể (hầu
như) sản xuất rất nhiều loại sản phẩm
Bằng cách dựa vào những lợi thế của công nghệ thông tin, các công ty sản xuất có thể thu thập thông tin khách hàng trong một quy mô lớn để cung cấp chiến lược cũng như hỗ trợ kỹ thuật cho sản phẩm của họ phục vụ cho việc thiết
kế, phát triển sản phẩm và tiếp thị bán hàng Khảo sát thống kê là một phương pháp tiếp cận chung được áp dụng rộng rãi để thu thập thông tin của khách hàng
và hành vi của khách hàng Tuy nhiên, các nghiên cứu trước đây sử dụng thông tin của khách hàng chủ yếu tập trung vào tính toán và phân tích dữ liệu cho mục đích giới thiệu sản phẩm, cá nhân hoá, và phân tích các nhân tố làm tăng cường lòng trung thành của khách hàng Tuy nhiên, dữ liệu văn bản chiếm một phần đáng kể của thông tin khách hàng đã phần nào bị bỏ qua Trong khi đó, tính toán
và phân tích dữ liệu được cấu trúc và tổ chức tốt với các ứng dụng cơ sở dữ liệu, điều này làm cho họ xử lý tương đối dễ dàng Một vài kỹ thuật được thành lập
để phân tích và quản lý những dữ liệu này Ví dụ: phân tích xử lý trực tuyến (OLAP) và khai thác dữ liệu Ngược lại, dữ liệu văn bản viết bằng ngôn ngữ tự nhiên lại thường được lưu trữ dưới dạng văn bản không có cấu trúc hoặc bán cấu trúc Xử lý dữ liệu văn bản yêu cầu không thể thiếu kiến thức từ các lĩnh vực khác nhau như: cơ sở dữ liệu, truy vấn thông tin, học máy và xử lý ngôn ngữ tự nhiên Vì vậy, tồn tại một mức độ khó khăn hơn trong xử lý thông tin văn bản
Trang 8Tương tự như các dữ liệu số, dữ liệu văn bản cung cấp thông tin phong phú trong việc thúc đẩy sự thu thập thông tin về kinh doanh cũng như thông tin về sự cạnh tranh, đặc biệt là với sự phát triển bùng nổ của trang web dựa trên các ứng dụng kinh doanh
Hiện nay, nhu cầu về kỹ thuật tiên tiến đã tăng lên rất nhiều để giảm thời gian cần thiết để có được các thông tin và tri thức hữu ích từ tập hợp dữ liệu lớn văn bản như email, bản ghi nhớ, các trang web và thậm chí cả tin nhắn Khách hàng là những người được mời hoặc tự phát tham gia đánh giá bằng văn bản để chia sẻ kinh nghiệm của họ, ý kiến và khuyến nghị đối với các sản phẩm khác nhau Một số người tiêu dùng hành động một cách chuyên nghiệp bằng những phương pháp khác nhau để so sánh các sản phẩm tương tự từ sự khác nhau về thương hiệu và đưa ra ý kiến ủng hộ hoặc phản đối Những đánh giá sản phẩm là rất cần thiết đối với việc thiết kế và sản xuất sản phẩm của nhà sản xuất, nhà sản xuất có thể hiểu rõ hơn những điều khách hàng quan tâm và cải tiến sản phẩm cho phù hợp Tuy nhiên, việc xử lý thông tin quan trọng như vậy không phải là một nhiệm vụ nhỏ Số lượng đánh giá một cách trực tiếp của khách hàng có thể phát triển rất nhanh chóng và nó là tốn thời gian để thực sự đọc qua tất cả chúng bằng “tay” Làm thế nào để đối phó với các số lượng lớn khách hàng đánh giá và lựa chọn thông tin hữu ích từ họ đã trở thành một nhiệm vụ quan trọng nhưng đầy thách thức
Với thực tế ở trên, luận văn tiến hành nghiên cứu, giải quyết và đề xuất phương pháp tập hợp mối quan tâm của khách hàng từ việc đánh giá sản phẩm trực tuyến bằng cách sử dụng tóm tắt văn bản tự động Cơ sở của đề tài là các kết quả nghiên cứu đã được công bố trên thế giới về bài toán tóm tắt văn bản tự động Luận văn cũng tiến hành thử nghiệm tóm tắt trên một tập các đánh giá về một sản phẩm cụ thể
Ngoài phần mở đầu và kết luận, kết cấu của luận văn bao gồm 4 chương:
- Chương 1: “Giới thiệu bài toán tóm tắt văn bản” tóm tắt một số các ứng dụng của tóm tắt văn bản, phát biểu bài toán tóm tắt ý kiến về sản phẩm từ nhiều người dùng
- Chương 2: “Kiến thức cơ sở” trình bày một số thuật toán, phương pháp sử dụng trong quá trình tóm tắt
- Chương 3: “Sử dụng kỹ thuật tóm tắt đa văn bản cho bài toán tóm tắt” sẽ đi sâu vào phương pháp tóm tắt cụ thể để giải quyết bài toán chính của luận văn
- Chương 4: “Thử nghiệm và đánh giá” sẽ trình bày quá trình thử nghiệm của luận văn và các kết quả đạt được trong quá trình thử nghiệm Đồng thời cũng đưa ra các phân tích và đánh giá về kết quả đạt được
Trang 9Chương 1- GIỚI THIỆU BÀI TOÁN TÓM TẮT VĂN BẢN 1.1 Định nghĩa tóm tắt văn bản
Tóm tắt được định nghĩa là một văn bản được tạo ra từ một hoặc nhiều văn bản mà văn bản này chứa đựng các thông tin quan trọng trong văn bản gốc đồng thời ngắn gọn hơn văn bản gốc Như vậy, tóm tắt văn bản là một quá trình chắt lọc hầu hết các thông tin quan trọng từ một hay nhiều văn bản nguồn để tạo
ra một bản tóm tắt ngắn gọn, cô đọng cho những người dùng hay nhiệm vụ cụ thể
Khi việc tóm tắt được thực hiện bằng khả năng của một máy tính, nghĩa là
tự động, thì gọi là tóm tắt văn bản tự động
Như vậy, tóm tắt văn bản tự động là quá trình mà một máy tính tạo ra một phiên bản ngắn hơn của văn bản so văn bản gốc (hoặc một tập hợp các văn bản) nhưng vẫn còn giữ hầu hết các thông tin quan trọng của văn bản gốc Quá trình này có thể được xem như quá trình nén và có thể sẽ bị mất thông tin Như vậy, một hệ thống tóm tắt văn bản phải xác định các phần quan trọng và giữ chúng lại Nhưng cái gì là quan trọng lại dựa trên nhu cầu của người sử dụng hoặc mục đích của bản tóm tắt
Tóm tắt văn bản = quá trình làm giảm độ dài hoặc giảm độ phức tạp về nội dung của văn bản gốc, mà không làm mất ý chính
Mặc dù trong thực tế, tóm tắt văn bản hướng truyền thống là tập trung vào văn bản đầu vào Đầu vào của quá trình tóm tắt có thể bao gồm các thông tin đa phương tiện như hình ảnh, âm thanh hay video cũng như những thông tin trực tuyến hay những siêu văn bản Hơn nữa, chúng ta có thể nói việc tóm tắt chỉ trên một văn bản hoặc nhiều văn bản Trong trường hợp việc tóm tắt được thực hiện trên nhiều văn bản thì quá trình tóm tắt được gọi là tóm tắt đa văn bản (Multi-document Summarization (MDS)) và các văn bản nguồn có thể là một ngôn ngữ hay nhiều ngôn ngữ khác nhau
Đầu ra của hệ thống tóm tắt có thể là một đoạn trích hoặc một bản tóm tắt Chúng ta có thể phân biệt giữa các bản tóm tắt tổng quát và các bản tóm tắt mà người dùng tập trung vào
Tóm lại: Bài toán tóm tắt văn bản bao gồm
Trang 10- Thể hiện lại văn bản từ văn bản ban đầu
- Chuyển đổi văn bản đã biểu diễn thành một biểu diễn tóm tắt
- Cuối cùng là sinh ra một bản tóm tắt văn bản từ biểu diễn tóm tắt Một quá trình tổng hợp tự động có thể được chia thành ba bước:
- Bước tiền xử lý: một đại diện có cấu trúc của văn bản ban đầu thu được
- Bước xử lý: một thuật toán phải chuyển đổi cấu trúc văn bản vào một cấu trúc bản tóm tắt
- Bước cuối cùng thu được một bản tóm tắt từ cấu trúc bản tóm tắt ở trên
Để việc tóm tắt được hiệu quả thì đòi hỏi phải phân tích rõ ràng và chi tiết các nhân tố bối cảnh Sparck Jones đã phân chia ra thành 3 nhân tố chính: các nhân tố đầu vào, các nhân tố mục đích và nhân tố đầu ra
- Các nhân tố đầu vào Các đặc trưng quan trọng của văn bản đã được tóm tắt xác định cách mà một bản tóm tắt có thể đạt được Các đặc trưng này có thể là: hình thức văn bản (ví dụ như cấu trúc văn bản); loại chủ đề (bình thường, chuyên ngành hoặc hạn chế) hay số đơn vị đầu vào (một hoặc nhiều tài liệu)
- Các nhân tố mục đích: Đây thường là những nhân tố quan trọng nhất Chúng
có thể là ba loại: tình hình đề cập đến bối cảnh trong bản tóm tắt được sử dụng, người đọc bản tóm tắt và mục đích sử dụng (tóm tắt để làm việc gì?)
- Các nhân tố đầu ra: nội dung, định dạng và phong cách
1.3 Một số ứng dụng của tóm tắt văn bản
- Trong hội thảo: Độc giả được mời tới hội nghị để thảo luận Nếu có một
bản tóm tắt về nội dung cuộc thảo luận thì sẽ giúp họ tiết kiệm được thời gian hơn
- Tóm tắt văn bản cũng có thể hữu ích cho việc hiển thị văn bản trên thiết bị
cầm tay như PDA
Trang 11- Tóm tắt tin tức tới định dạng SMS hay WAP cho điện thoại di động hay
PDA
- Cho phép máy tính “giả” (synthetical) đọc các bản tóm tắt
- Tiến hành tìm kiếm bằng các ngôn ngữ nước ngoài và nhận về được một
bản dịch tóm tắt tự động
- Trong các máy tìm kiếm (search engine): tóm tắt các thông tin trong danh
sách kết quả bởi các máy tìm kiếm Đưa ra các mô tả ngắn gọn về các kết quả tìm kiếm được(như máy tìm kiếm Google)
- Tóm tắt hội nghị: tìm hiểu những gì đã trình bày tại hội nghị
- Các thiết bị cầm tay: tạo ra một bản tóm tắt ngắn gọn của một cuốn sách
theo kích thước của màn hình
- Hỗ trợ cho người tàn tật: tóm lược văn bản và đọc nó cho người mù
1.4 Sự phân loại các phương pháp tóm tắt
* Nếu so sánh các hình thức của bản tóm tắt thì có 2 phương pháp tóm tắt:
- Trích chọn (Extracts): đây là những bản tóm tắt hoàn chỉnh bao gồm các trình tự từ đã được sao chép từ các tài liệu gốc giống với chuỗi các từ có thể được sử dụng các cụm từ, các câu hoặc các đoạn văn Phương pháp này bị mâu thuẫn, thiếu sự cân bằng, và thiếu sự gắn kết Các câu có thể được trích xuất ra khỏi bối cảnh, liên quan đến sự trùng lặp
có thể bị phá vỡ
- Trừu tượng (Abstracts): là những bản tóm tắt chứa các trình tự từ không có trong văn bản ban đầu Cho đến bây giờ nó là một nhiệm vụ quá khó cho máy tính để giải quyết nó thành công
Một bản tóm tắt có thể chứa các từ không xuất hiện trong bản gốc Phương pháp tóm tắt Abstract vẫn còn khá yếu, vì vậy hầu hết các nghiên cứu đã tập trung vào các phương pháp trích chọn
* Nếu dựa vào mức độ của quá trình tóm tắt lại có thể chia ra:
- Hướng tiếp cận mức độ nông (Surface-level ): trong hướng tiếp cận này, thông tin được trình bày theo quan điểm: nói sơ qua về các đặc tính và kết hợp chúng với nhau Các đặc tính đó ví dụ như: thống kê những từ ngữ nổi bật, những vị trí nổi bật, những từ ngữ gợi ý những cụm
từ, tên miền cụ thể hoặc những từ ngữ truy vấn của người dùng Kết quả
là ta có 1 dạng đoạn trích
- Hướng tiếp cận mức độ sâu (Deep-level ): hướng tiếp cận này có thể tạo ra các trích lục hoặc tóm tắt Các trường hợp sau này sử dụng tổng hợp liên quan đến thế hệ ngôn ngữ tự nhiên Chúng cần một số phân tích
Trang 12ngữ nghĩa, ví dụ như có thể sử dụng các phương pháp tiếp cận thực thể và xây dựng một đại diện của các thực thể văn bản (đơn vị văn bản) và các mối quan hệ giữa chúng để xác định các phần nổi bật Chúng cũng có thể
sử dụng phương pháp luận và mô hình cấu trúc văn bản, ví dụ như: đánh dấu siêu văn bản hoặc cấu trúc tu từ
* Nếu dựa vào mục đích tóm tắt thì có thể phân loại thành:
- Các bản tóm tắt chỉ báo (Indicative summaries) đưa ra những thông tin viết tắt về các chủ đề chính của một tài liệu Các tóm tắt này phải giữ các đoạn quan trọng nhất và thường được sử dụng như là một phần kết thúc của các hệ thống IR, được trả lại bởi hệ thống tìm kiếm thay cho một tài liệu đầy đủ Mục đích của các bản tóm tắt này là để giúp người dùng quyết định xem tài liệu ban đầu có đáng để đọc hay không
Độ dài của bản tóm tắt này có phạm vi bằng từ 5 đến 10% của các văn bản hoàn chỉnh
- Các bản tóm tắt cung cấp nhiều thông tin (Informative summaries) cung cấp một bản thay thế cho tài liệu đầy đủ, giữ lại những chi tiết quan trọng, đồng thời giảm khối lượng thông tin Thông tin tóm tắt thường là 20-30% thông tin của văn bản gốc
- Các tóm tắt theo kiểu bình luận hay đánh giá (Critical or Evaluative summaries) nắm bắt những quan điểm của tác giả bản tóm tắt
về một chủ đề nhất định Mục điểm báo, tạp chí là ví dụ điển hình, nhưng các mục này là một đoạn rất nhỏ ngoài phạm vi của các hệ thống tóm tắt
tự động ngày nay
* Nếu dựa vào người đọc thì có thể phân loại tóm tắt thành:
- Tóm tắt chung: khi các kết quả được hướng tới một cộng đồng người đọc lớn, tất cả các chủ đề chính là quan trọng như nhau
- Tóm tắt dựa trên câu hỏi: khi kết quả được dựa trên một câu hỏi ví
dụ như "Những nguyên nhân nào dẫn đến lạm phát cao? "
- Tóm tắt tập trung người dùng hoặc tập trung chủ đề: phù hợp với
sự quan tâm của một số người dùng đặc biệt hoặc chỉ nhấn mạnh những chủ đề đặc biệt
* Nếu dựa vào số lượng các văn bản có giá trị trong cơ sở dữ liệu văn bản thì có thể phân loại tóm tắt thành:
- Tóm tắt đơn văn bản: việc tóm tắt được thực hiện trên một văn bản
- Tóm tắt đa văn bản: việc tóm tắt được thực hiện từ nhiều văn bản
* Ngoài ra còn một số cách để phân loại các loại tóm tắt:
- Tóm tắt đơn ngôn ngữ với đa ngôn ngữ
Trang 13- Tóm tắt bài báo khoa học, báo cáo hoặc tin tức
- Tóm tắt chung hoặc tóm tắt có liên quan truy vấn
họ nhanh chóng làm quen được với những thông tin chứa trong một nhóm lớn các tài liệu Bằng cách như vậy, hệ thống tóm tắt đa văn bản thực hiện việc tập hợp những tin tức ở bước tiếp theo khi mà thông tin ngày nay đang trong tình trạng quá tải
Tóm tắt đa văn bản tạo ra các báo cáo thông tin chính xác và toàn diện Nhiều ý kiến khác nhau được đặt lại với nhau và được phác thảo ra, tất cả các chủ đề được mô tả từ nhiều quan điểm trong một tài liệu duy nhất Trong khi mục tiêu của một bản tóm tắt ngắn gọn là để đơn giản hóa việc tìm kiếm thông tin và giảm thời gian bằng cách tập trung vào hầu hết các tài liệu nguồn có liên quan Một cách toàn diện, bản thân tóm tắt đa văn bản đã bao gồm các thông tin cần thiết, do đó hạn chế sự cần thiết phải truy nhập vào các tập tin ban đầu khi
có yêu cầu về sàng lọc thông tin Tóm tắt tự động đưa ra các thông tin đã được trích xuất từ nhiều nguồn thuật toán khác nhau mà không có bất kỳ sự biên tập hoặc sự can thiệp chủ quan của con người, do đó làm cho nó hoàn toàn không thiên vị
Nhiệm vụ tóm tắt đa văn bản đã trở thành phức tạp hơn nhiều hơn so với nhiệm vụ tóm tắt một văn bản duy nhất Khó khăn này xuất phát từ việc đa dạng chuyên đề không thể tránh khỏi trong một tập hợp lớn các tài liệu
Ý tưởng về hệ thống tóm tắt đa văn bản không chỉ đơn giản là rút ngắn các văn bản nguồn nhưng trình bày thông tin tổ chức xung quanh các khía cạnh quan trọng để trình bày những quan điểm đa dạng về chủ đề này Khi đạt được chất lượng như vậy, một bản tóm tắt đa văn bản tự động được hiểu là giống như một cái nhìn tổng quan về một chủ đề đã đưa ra
1.5.2 Tiêu chuẩn về chất lƣợng của tóm tắt đa văn bản
- Cấu trúc rõ ràng: bao gồm một đề cương về nội dung chính mà từ đó dễ
dàng chuyển đến được các phần nội dung của văn bản đầy đủ
- Văn bản trong các phần được chia thành các đoạn có ý nghĩa
Trang 14- Từng bước một có thể chuyển đổi từ nhiều khía cạnh tổng quát đến các
khía cạnh chuyên đề cụ thể hơn
- Có khả năng đọc tốt (good readability)
1.5.3 Các yêu cầu của tóm tắt đa văn bản:
Có hai loại tình huống trong đó tóm tắt đa văn bản sẽ hữu ích:
- Người sử dụng là phải đối mặt với một tập các tài liệu tương tự nhau và họ muốn đánh giá một cách tổng quan các thông tin trong tập hợp đó
- Có một tập hợp các tài liệu về các chủ đề có liên quan với nhau được trích xuất
từ nhiều tập hợp khác nhau là kết quả của một truy vấn hoặc một cụm chủ đề đã được liên kết
Trong trường hợp đầu tiên, nếu tập hợp là đủ lớn, nó chỉ có ý nghĩa tới cụm đầu tiên và phân loại tài liệu Sau đó, thử hoặc tóm tắt mỗi cụm mà mỗi cụm này có liên kết chặt chẽ với nhau
Trong trường hợp thứ hai, có thể xây dựng một bản tóm tắt tổng hợp văn bản có chứa các điểm chính của chủ đề, được tăng cường bằng thông tin cơ bản không
dự phòng và / hoặc truy vấn có liên quan
Người sử dụng tìm kiếm thông tin theo các nhu cầu và mục tiêu khác nhau Khi một nhóm ba người tạo ra một bản tóm tắt đa văn bản của 10 bài báo về các thử nghiệm của Microsoft trong một ngày nhất định, một người tóm tắt tập trung vào các chi tiết được trình bày ở cuộc họp, một người tóm tắt tập trung vào tất
cả các ý kiến của các sự kiện trong ngày, và người thứ ba xem mức độ của các mục tiêu và kết quả của cuộc thử nghiệm Như vậy, một ý tưởng tóm tắt đa văn bản sẽ có thể giải quyết các mức độ chi tiết khác nhau và là khó khăn để hiểu ngôn ngữ tự nhiên Một giao diện cho hệ thống tổng hợp nhu cầu để có thể cho phép người dùng nhập thông tin tìm kiếm mục tiêu, thông qua một truy vấn, một nền tảng hồ sơ cá nhân quan tâm và / hoặc một cơ chế thông tin phản hồi có liên quan
Dưới đây là một danh sách các yêu cầu đối với tóm tắt đa văn bản:
- Phân nhóm: có khả năng phân nhóm để các tài liệu và các đoạn tương tự với
nhau tìm ra được các thông tin liên quan với nhau
- Khả năng gộp: có khả năng tìm kiếm và trích xuất các điểm chính trên nhiều
văn bản
- Tránh sự dư thừa: có khả năng làm cho việc dư thừa là tối thiểu giữa các đoạn
trong bản tóm tắt
- Tiêu chuẩn gắn kết trong bản tóm tắt: khả năng phối hợp các đoạn văn bản
theo cách có lợi cho người đọc Yêu cầu này có thể bao gồm:
Trang 15+ Trật tự văn bản: Tất cả các đoạn văn bản của tài liệu được xếp hạng
từ cao nhất rồi đến tất cả các đoạn tài liệu tiếp theo xếp hạng thứ 2, v.v + Xếp hạng thứ tự: những thông tin đưa ra đầu tiên hầu hết là các thông tin có ích vì vậy người đọc có thể có được tối đa các nội dung thông tin ngay cả khi họ dừng lại không đọc bản tóm tắt
+ Sự gắn kết chủ đề : Nhóm các đoạn văn với nhau bằng cách phân nhóm chủ đề sử dụng các tiêu chuẩn tương tự giữa các đoạn và trình bày thông tin bằng cách xếp hạng các nhóm trọng tâm
+ Thứ tự thời gian: Các đoạn văn bản được xếp thứ tự theo thời gian dựa trên sự xuất hiện của các sự kiện
- Sự gắn kết: Các bản tóm tắt được tạo ra có thể đọc được và có liên quan đến
người sử dụng
- Ngữ cảnh: Bao gồm các ngữ cảnh có khả năng vì vậy người đọc có thể hiểu
được bản tóm tắt
- Xác định các mâu thuẫn nguồn gốc: Các bài viết thông thường có lỗi (chẳng
hạn như: thay vì viết là tỷ thì lại viết là triệu, vv), tóm tắt đa văn bản phải có khả năng nhận biết và báo cáo các mâu thuẫn nguồn gốc
- Cập nhật bản tóm tắt: Một bản tóm tắt đa văn bản mới phải đưa được vào
trong nó bản tóm tắt trước đó Trong trường hợp này, rất cần hệ thống để theo dõi và phân loại các sự kiện
- Một giao diện người dùng có hiệu quả:
+ Attributability: Người dùng muốn có thể truy cập dễ dàng vào một đoạn văn bản nguồn Điều này có thể được tóm tắt trên 1 tài liệu
+ Mối liên hệ: Người dùng muốn xem xét mối liên hệ giữa các đoạn văn bản nguồn với các đoạn văn bản được hiển thị mà để từ đó có thể nêu bật sự mâu thuẫn trong văn bản nguồn
+ Lựa chọn nguồn văn bản: Người dùng muốn có thể lựa chọn hoặc loại bỏ các thông tin khác khau Ví dụ, người dùng có thể muốn loại bỏ các thông tin từ một số báo cáo tin tức nước ngoài thiếu tin cậy
+ Bối cảnh: Người dùng muốn có thể “phóng to” trong phạm vi xung quanh các đoạn văn được lựa chọn
+ Redirection: Người dùng sẽ có thể làm nổi bật một phần nào đó của tóm tắt tổng hợp và đưa ra một lệnh tới hệ thống đã chỉ ra
1.6 Bài toán tóm tắt ý kiến đánh giá về sản phẩm từ nhiều người dùng
Trang 16Hiện nay, có 2 hình thức lấy ý kiến của khách hàng về sản phẩm rất phổ biến trên các trang web thương mại:
- Nhà sản xuất đưa ra một mẫu đánh giá trước cho người dùng, người dùng
chỉ có thể đánh giá theo các phương án đã có sẵn
Ví dụ: Bạn thấy giao diện của điện thoại Nokia hiện tại mà bạn đang dùng có tiện lợi hay không?
Bản tóm tắt như ở trên thường được thực hiện khi nhà sản xuất đã tung một sản phẩm mới ra thị trường và nhà sản xuất cần thăm dò ý kiến của khách hàng về sản phẩm mới của họ Tuy nhiên, nếu nhà sản xuất muốn phát triển sản phẩm thì rất khó để phát hiện các khách hàng đang cần gì ở sản phẩm của mình
- Nhà sản xuất đưa ra một câu hỏi về sản phẩm và khách hàng có thể tự đưa
ra, tự viết các ý kiến đánh giá liên quan đến sản phẩm đó
Ví dụ: Bạn hãy đánh giá điện thoại Nokia hiện tại mà bạn đang dùng?
Khách hàng có thể đánh giá như sau:
- Tôi thấy điện thoại Nokia này có chất lượng pin rất tốt
- Giá cả của chiếc điện thoại Nokia này rất hợp lý
Phía nhà sản xuất tập hợp các ý kiến đã đánh giá của khách hàng theo cách: những khía cạnh nào của sản phẩm được đánh giá nhiều nhất sẽ được xếp ở trên và cứ lần lượt như vậy
Với bản tóm tắt này thì nhà sản xuất hoàn toàn có thể biết được khách hàng đang hài lòng về khía cạnh (mặt) nào của sản phẩm (nhiều khách hàng đánh giá) và cần phát triển về khía cạnh (mặt) nào của sản phẩm trong thế hệ sản phẩm tiếp theo
Trong bản luận văn này tập trung và cách đánh giá thứ 2
Như vậy, có thể phát biểu một cách ngắn gọn bài toán tóm tắt ý kiến về sản phẩm từ nhiều người dùng như sau:
Trang 17Input: Cho trước một tập hợp các văn bản đánh giá (là tập hợp nhiều ý kiến đánh giá về 1 sản phẩm cụ thể từ nhiều khách hàng, mỗi khách hàng cho 1 hay nhiều
ý kiến về 1 sản phẩm cụ thể cho trước)
Output: Sinh ra 1 bản tóm tắt, trong đó các khía cạnh của sản phẩm được đánh giá được sắp theo thứ tự từ đánh giá nhiều nhất đến ít nhất Đồng thời đưa ra được những ý kiến tương ứng với các khía cạnh của sản phẩm đã được đánh giá
Trang 18Chương 2 - KIẾN THỨC CƠ SỞ 2.1 Khai thác ý kiến
2.1.1 Định nghĩa
Cho 1 tập các văn bản đánh giá D có chứa các ý kiến (các quan điểm) về một đối tượng Khai thác ý kiến nhằm mục đích trích xuất các thuộc tính và các thành phần của đối tượng đã được đánh giá trong mỗi văn bản d D và xác định các ý kiến bình luận là tích cực, tiêu cực hay trung lập
2.1.2 Bối cảnh lịch sử
Văn bản thông tin trên thế giới có thể được phân loại thành hai loại chính:
sự kiện và ý kiến Văn bản sự kiện là các báo cáo khách quan về các thực thể và các sự kiện trên thế giới Văn bản ý kiến là các báo cáo chủ quan phản ánh quan điểm hay nhận thức của người dân về các thực thể và các sự kiện Phần lớn các nghiên cứu trước đây về xử lý thông tin văn bản hầu như chỉ tập trung vào khai thác và thu nhận các thông tin thực tế, ví dụ: truy vấn thông tin, tìm kiếm Web, khai thác văn bản, xử lý ngôn ngữ tự nhiên Tuy nhiên, các ý kiến là rất quan trọng để đưa ra quyết định Điều này không chỉ đúng cho các cá nhân mà cũng đúng đối với tổ chức
Trước khi có Web, khi một cá nhân cần phải đưa ra quyết định, anh ta/cô
ta thường hỏi ý kiến từ bạn bè và gia đình Khi một tổ chức cần lấy ý kiến của công chúng về sản phẩm và dịch vụ của mình, tổ chức đó thường tiến hành khảo sát và tập trung vào các nhóm Với Web, đặc biệt là với sự bùng nổ nhanh chóng của người sử dụng tạo ra nội dung trên Web, thế giới đã được thay đổi Mỗi người có thể đưa các ý kiến về sản phẩm lên các trang web kinh doanh và thể hiện quan điểm trên hầu hết các lĩnh vực trong các diễn đàn Internet, các nhóm thảo luận và blog Giờ đây, khi muốn mua một sản phẩm, người ta không cần thiết phải hỏi ý kiến bạn bè và gia đình bởi vì có rất nhiều ý kiến của người dùng
đã từng sử dụng sản phẩm được cung cấp ở trên trang web Đối với một công ty,
có thể không cần phải tiến hành việc khảo sát mà tổ chức tập trung thành các nhóm hoặc tận dụng tư vấn bên ngoài để tìm ra ý kiến của người tiêu dùng hay quan điểm về các sản phẩm của công ty hay các sản phẩm của các đối thủ cạnh tranh
Tuy nhiên, việc tìm ra được nguồn ý kiến và giám sát chúng trên Web vẫn có thể là một nhiệm vụ khó khăn bởi vì có một số lượng lớn các nguồn khác nhau tồn tại trên web và từng nguồn lại chứa một khối lượng thông tin khổng lồ Trong nhiều trường hợp, ý kiến được ẩn trong các bài viết được đưa lên diễn đàn
Trang 19và blog Nó gây ra khó khăn cho người đọc để tìm kiếm các nguồn có liên quan, trích xuất câu thích hợp, đọc chúng, tổng hợp và tổ chức chúng thành các hình thức thích hợp Như vậy, một hệ thống tóm tắt và khai thác ý kiến tự động là cần thiết Khai thác ý kiến còn được gọi là phân tích quan điểm được phát triển từ nhu cầu này Trong phần tiếp theo, xin đưa ra một số nội dung:
- Mô hình trừu tượng của khai thác ý kiến
- Phân loại quan điểm
- Tóm tắt và khai thác ý kiến dựa vào các thuộc tính
- Khai thác ý kiến từ những câu so sánh
2.1.3 Các cơ sở khoa học
Mô hình khai thác ý kiến
Nhìn chung, các ý kiến có thể được thể hiện trên bất cứ điều gì, ví dụ như một sản phẩm, một dịch vụ, một chủ đề, một cá nhân, một tổ chức hoặc một sự
kiện Thuật ngữ đối tượng được sử dụng để biểu diễn cho các thực thể ở trên
Một đối tượng có một tập các thành phần (hoặc các bộ phận) và một tập các thuộc tính (feature) Mỗi thành phần lại có thể có một tập các thành phần con và một tập các thuộc tính con Và như vậy, một đối tượng có thể được phân cấp theo thứ tự dựa trên một phần của mối quan hệ
Định nghĩa đối tượng: Một đối tượng O là một thực thể (có thể là một sản
phẩm, một chủ đề, một người, một sự kiện hoặc một tổ chức)
Tuy nhiên, đối với một người dùng bình thường, có lẽ là quá phức tạp để
sử dụng một đại diện phân cấp (cây) Để đơn giản hóa thì không sử dụng cấu trúc cây phân cấp Từ “thuộc tính” (feature) được sử dụng để đại diện cho cả các thành phần và các thuộc tính Sử dụng các thuộc tính cho các đối tượng (đặc biệt
là sản phẩm) là khá phổ biến trong thực tế Lưu ý rằng trong định nghĩa này, đối tượng chính là một tính năng, đó là nút gốc của cây
Trang 20Lấy một văn bản đánh giá d, có thể là đánh giá sản phẩm, mà một diễn đàn hoặc blog đánh giá về một đối tượng đặc biệt O Trong trường hợp tổng quát, d bao gồm một chuỗi các câu d = <s1, s2, , sm >
Định nghĩa thuộc tính rõ ràng và thuộc tính ẩn: Nếu thuộc tính f xuất hiện
trong tài liệu đánh giá d thì thuộc tính f được gọi là thuộc tính rõ ràng trong d
Ví dụ: “Tuổi thọ của pin của máy ảnh này là rất ngắn” (Thuộc tính rõ ràng: tuổi thọ của pin)
“Máy ảnh này quá to” (Thuộc tính ẩn: kích thước)
Định nghĩa ý kiến thông qua một thuộc tính: thông qua ý kiến về một thuộc
tính f của đối tượng O được đánh giá trong d là một nhóm các câu liên tiếp trong
d thể hiện một quan điểm tích cực hay tiêu cực về f
Điều này có nghĩa là có thể là một chuỗi các câu (ít nhất là một) cùng thể hiện một ý kiến về một đối tượng hoặc một tính năng của đối tượng Nó cũng có thể
là một câu thể hiện ý kiến về nhiều thuộc tính
Ví dụ: “chất lượng hình ảnh của máy ảnh này là tốt, nhưng tuổi thọ pin thì ngắn”
Định nghĩa Ý kiến rõ ràng và ý kiến ẩn):
- Ý kiến rõ ràng: thường là một câu chủ quan
Ví dụ: "Chất lượng hình ảnh của máy ảnh này là tuyệt vời."
- Ý kiến ẩn: một câu khách quan
Ví dụ: "Tai nghe đã bị hỏng hai ngày nay"
Định nghĩa người đánh giá: Người đánh giá cụ thể là một người hoặc một tổ
chức đưa ra ý kiến đánh giá đó
Trong trường hợp các ý kiến về sản phẩm được đăng tải trên diễn đàn và blog, người đánh giá thường là các tác giả của các bài viết Những người đánh giá thường rất quan trọng trong các bài báo vì họ thường tuyên bố một cách rõ ràng
về cá nhân hay tổ chức đưa ra ý kiến đó Ví dụ, người đánh giá ở trong câu
“John bày tỏ sự bất đồng về hiệp ước” chính là "John"
Định nghĩa (định hướng ngữ nghĩa của một ý kiến): Định hướng ngữ nghĩa
của một ý kiến về một tính năng f là ý kiến tích cực, tiêu cực hoặc trung lập Với mô hình cho một đối tượng và một tập các ý kiến dựa vào thuộc tính của đối tượng ta có thể định nghĩa mô hình khai thác ý kiến dựa trên thuộc tính
Mô hình khai thác ý kiến dựa trên thuộc tính:
Cho một đối tượng O và một tập hữu hạn các thuộc tính F = {f1, f2, , fn}, trong đó bao gồm các đối tượng chính nó Mỗi thuộc tính fi F có thể được biểu diễn với một tập hợp hữu hạn các từ hay các cụm từ Wi là từ đồng nghĩa
Đó là một tập hợp các từ đồng nghĩa tương ứng với bộ W ={W1, W2, , Wn}
Trang 21cho n thuộc tính Trong một văn bản đánh giá d đánh giá đối tượng O, một người đánh giá j bình luận về một tập con các thuộc tính Sj F Với mỗi thuộc tính fk Sj mà người đánh giá j bình luận, anh/chị hãy chọn một từ hoặc cụm từ
từ tập Wk để mô tả thuộc tính này, và sau đó biểu diễn một ý kiến là tích cực, tiêu cực hoặc trung lập trên fk Nhiệm vụ khai thác ý kiến là tìm ra tất cả những thông tin đã bị ẩn từ văn bản d đã cho
Đầu ra của quá trình khai thác ý kiến: Cho một văn bản đánh giá d, kết quả khai thác là một tập hợp gồm 4 thành phần (H, O, f, SO), trong đó H là người đánh giá, O là các đối tượng, f là một thuộc tính của đối tượng và SO là định hướng ngữ nghĩa của các ý kiến đã được biểu diễn trên thuộc tính f trong một câu của
d Ý kiến trung lập bị bỏ qua ở trong đầu ra vì chúng thường không có ích
Cho một tập hợp các văn bản đánh giá D có chứa các ý kiến về một đối tượng,
mô hình này giới thiệu ba bài toán chính trong thực tế như sau:
- Bài toán 1: F và W là chưa biết
Như vậy, trong khai thác ý kiến, ta cần phải thực hiện ba nhiệm vụ:
+ Nhiệm vụ 1: Xác định và trích chọn các thuộc tính của đối tượng đã được nhận xét trong mỗi văn bản đánh giá d D
+ Nhiệm vụ 2: Xác định các ý kiến là tích cực, tiêu cực hoặc trung lập
+ Nhiệm vụ 3: Nhóm các từ đồng nghĩa của các thuộc tính, như những người khác nhau có thể sử dụng các từ hoặc cụm từ khác nhau để đánh giá về cùng một thuộc tính
- Bài toán 2: Cho biết F nhưng W là không biết
Nhiệm vụ 3 trở thành bài toán kết hợp các thuộc tính đã được phát hiện với tập thuộc tính F đã cho
- Bài toán 3: Cho biết W (sau đó F cũng được biết )
Chỉ cần thực hiện nhiệm vụ 2
Ví dụ :
Một công ty điện thoại di động muốn khai thác ý kiến đánh giá của khách hàng
về một vài mô hình điện thoại của công ty Như vậy, không cần phải thực hiện nhiệm vụ 1 và 3
Đầu ra: kết quả cuối cùng là một tập các cặp Mỗi cặp được ký hiệu là (f, SO), trong đó f là một thuộc tính và SO là định hướng ngữ nghĩa
Tóm tắt ý kiến: Có nhiều cách được sử dụng để khai thác các kết quả Một cách đơn giản là tạo một bản tóm tắt dựa trên thuộc tính của đối tượng của các ý kiến
Trang 22Hình 1: Một ví dụ về tóm tắt ý kiến dựa trên thuộc tính
Hình 1 ở trên là tóm tắt các ý kiến trong một tập các đánh giá về một sản phẩm cụ thể: máy ảnh kỹ thuật số, digital_camera_1 Trong hình trên,
"CAMERA" chính là đại diện cho máy ảnh (nút gốc của hệ thống phân cấp đối tượng) Có 125 ý kiến bày tỏ là tích cực và 7 ý kiến bày tỏ là tiêu cực về CAMERA “Picture quality” và "size" là hai thuộc tính của sản phẩm 123 ý kiến bày tỏ là tích cực về “Picture quality”, và chỉ có 6 ý kiến bày tỏ là tiêu cực
về các thuộc tính này Các điểm cho các câu cụ thể và/hoặc toàn bộ đánh giá cung cấp cho các ý kiến tích cực hay tiêu cực về thuộc tính Với tóm tắt như vậy, người sử dụng có thể dễ dàng nhìn thấy khách hàng hiện tại cảm nhận thế nào về máy ảnh kỹ thuật số Nếu anh ta/cô ta quan tâm đến một thuộc tính cụ thể, anh/cô ta có thể đi sâu vào các liên kết để xem lý do tại sao các khách hàng hiện tại thích hoặc/và không thích nó
Hình 2: Tóm tắt các ý kiến dựa vào thuộc tính của máy ảnh kỹ thuật số
Hình 3: So sánh các ý kiến đánh giá về 2 máy ảnh kỹ thuật số
Trang 23Bản tóm tắt trong hình 1 có thể được dễ dàng hình dung hơn bằng cách sử dụng một biểu đồ hình cột (Hình 2) Trong hình, mỗi cột ở phía trên trục X cho biết số ý kiến tích cực về một thuộc tính (được liệt kê ở trên), và phần phía dưới trục X cho biết số ý kiến tiêu cực về các thuộc tính đó Ví dụ, người ta có thể chỉ
ra tỷ lệ phần trăm của các ý kiến tích cực (hay tiêu cực) trên mỗi thuộc tính Hình 3 là hình ảnh so sánh trực quan của ý kiến người tiêu dùng về hai máy ảnh
kỹ thuật số Rất rõ ràng để người dùng thấy được sự khác biệt giữa các thuộc tính của mỗi máy ảnh
Phân loại quan điểm
Phân loại quan điểm đã được nghiên cứu rộng rãi trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) Nó được định nghĩa như sau: Cho một tập các văn bản đánh giá D, xác định xem mỗi văn bản d D thể hiện một ý kiến tích cực hoặc tiêu cực (hoặc quan điểm) trên một đối tượng Ví dụ, cho một tập hợp các đánh giá về một bộ phim, hệ thống sẽ phân loại chúng thành những đánh giá tích cực và những đánh giá tiêu cực Rõ ràng, đây là vấn đề phân loại học tập Nó là tương tự nhưng cũng khác với lớp các phân loại văn bản dựa trên cấu trúc chủ
đề, các lớp này đã phân loại văn bản vào các lớp chủ đề đã được định nghĩa trước, ví dụ như: chính trị, khoa học, thể thao Trong phân loại dựa trên cấu trúc chủ đề, các từ liên quan đến chủ đề là rất quan trọng Tuy nhiên, trong phân loại quan điểm thì các từ liên quan đến chủ đề lại không quan trọng Thay vào
đó, các từ ý kiến biểu thị cho ý kiến tích cực hay tiêu cực lại là quan trọng, ví dụ như: tuyệt vời, quá tuyệt vời, khủng khiếp, xấu, tồi tệ nhất v.v Hầu hết các kỹ thuật hiện nay áp dụng một số hình thức của công nghệ học máy để phân loại Các thuật toán cũng được thiết kế để phân loại quan điểm, khai thác các từ và cụm từ ý kiến và cùng với một số chức năng
Phân loại này được cho là ở mức tài liệu vì nó cho rằng mỗi tài liệu là một đơn
vị thông tin cơ bản Phân loại quan điểm do đó có các giả định sau đây: Mỗi tài liệu đánh giá (ví dụ: một đánh giá) tập trung vào một đối tượng duy nhất O và bao gồm các ý kiến của một người giữ ý kiến duy nhất Từ mô hình khai thác ý kiến của một đối tượng O ở trên, chính nó cũng là một thuộc tính (nút gốc của
hệ thống phân cấp đối tượng), tình cảm quan điểm cơ bản xác định định hướng ngữ nghĩa có ý kiến đã bày tỏ trên O trong mỗi tài liệu đánh giá mà đáp ứng các giả thiết ở trên
Ngoài việc phân loại quan điểm ở cấp tài liệu, các nhà nghiên cứu cũng đã nghiên cứu phân loại ở mức độ câu, tức là, phân loại từng câu như một câu chủ quan hoặc khách quan và/hoặc thể hiện một ý kiến tích cực hay tiêu cực Cũng giống như việc phân loại tài liệu, phân loại quan điểm ở cấp câu không xem xét
Trang 24các thuộc tính của đối tượng đã được nhận xét trong một câu Các câu ghép cũng
là một vấn đề Một câu như vậy thường thể hiện nhiều hơn một ý kiến, ví dụ như: chất lượng hình ảnh của máy ảnh này là tuyệt vời và do đó tuổi thọ pin được lâu nhưng ống kính thì quá nhỏ"
Khai thác ý kiến dựa vào thuộc tính
Phân loại văn bản đánh giá ở mức tài liệu hoặc mức câu không nói rõ người đưa ra ý kiến thích hay không thích cái gì Một tài liệu tích cực trên một đối tượng không có nghĩa rằng người đưa ra ý kiến có ý kiến tích cực trên tất cả các khía cạnh hoặc các thuộc tính của đối tượng Tương tự như vậy, một tài liệu tiêu cực không có nghĩa rằng người giữ ý kiến không thích mọi thứ của đối tượng Trong một tài liệu đánh giá (ví dụ: đánh giá một sản phẩm), người giữ ý kiến thường viết cả hai khía cạnh tích cực và tiêu cực của đối tượng, mặc dù quan điểm chung về đối tượng có thể là tích cực hay tiêu cực Để có được các khía cạnh chi tiết như vậy, việc tiến đến mức độ thuộc tính là rất cần thiết Dựa trên mô hình đã được đưa ra trước đây, có ba nhiệm vụ khai thác chính là:
1 Xác định các thuộc tính của đối tượng: Ví dụ, trong câu "chất lượng hình ảnh của máy ảnh này là tuyệt vời” thì thuộc tính của đối tượng là "chất lượng hình ảnh" Phương pháp khai phá sử dụng mô hình không giám sát được sử dụng Kỹ thuật này về cơ bản là tìm kiếm các danh từ và cụm danh từ thường xuyên như các thuộc tính, mà thường là thuộc tính đích thực Rõ ràng, rất nhiều kỹ thuật khai thác thông tin cũng được áp dụng, ví dụ như: các lĩnh vực có điều kiện ngẫu nhiên (CRF), mô hình Markov ẩn (HMM), và nhiều lĩnh vực khác
2 Định hướng ý kiến: Nhiệm vụ này xác định các ý kiến về các thuộc tính của 1 đối tượng là tích cực, tiêu cực hay trung lập Trong câu trên, các ý kiến về "chất lượng hình ảnh" là tích cực Với bước này, có thể thực hiện theo nhiều cách tiếp cận khác nhau Cách tiếp cận dựa trên từ vựng đã được thực hiện khá tốt Cách tiếp cận dựa trên từ vựng cơ bản sử dụng các từ và cụm từ ý kiến trong mỗi câu
để định hướng cho ý kiến về một thuộc tính Các phương pháp học có giám sát khác nhau là các phương pháp tiếp cận có thể là tốt hơn
3 Nhóm các từ đồng nghĩa: Các thuộc tính của cùng một đối tượng có thể được thể hiện bằng các từ hoặc cụm từ khác nhau Ở nhiệm vụ này sẽ tiến hành nhóm những từ đồng nghĩa lại với nhau
Khai thác các câu so sánh
Việc trực tiếp thể hiện ý kiến tích cực hay tiêu cực trên một đối tượng hoặc các thuộc tính của nó chỉ là một hình thức đánh giá So sánh các đối tượng với một số đối tượng tương tự khác là tương tự như vậy Sự so sánh có khác nhau từ ý kiến trực tiếp Ví dụ, một câu đánh giá tiêu biểu là "chất lượng hình
Trang 25ảnh của máy ảnh x là rất tốt" Một câu so sánh tiêu biểu là "chất lượng hình ảnh của máy ảnh x là tốt hơn so với máy ảnh y" Nói chung, một câu so sánh thể hiện mối quan hệ dựa trên sự giống nhau và khác nhau của nhiều đối tượng Khai thác câu so sánh về cơ bản bao gồm việc nhận biết những thuộc tính nào và những đối tượng nào đã được so sánh
2.2 Khai phá luật kết hợp (Assocition Rules)
2.2.1 Giới thiệu
Với việc sử dụng máy quét, các siêu thị lớn và các cửa hàng đã thu thập được một số lượng lớn các hồ sơ giao dịch của khách hàng trong cơ sở dữ liệu của họ Mỗi bản ghi là một danh sách tất cả các mặt hàng đã mua của một khách hàng trên một giao dịch mua duy nhất Người quản lý sẽ quan tâm đến việc có một số các mặt hàng luôn được mua cùng với nhau
Một doanh nghiệp có thể sử dụng kiến thức về các mô hình mua bán để cải thiện
vị trí của các mặt hàng này trong các cửa hàng hoặc bố trí các trang thư đặt hàng
và các trang web
Nhu cầu này đã dẫn đến sự phát triển của các kỹ thuật mà tự động tìm kiếm sự kết hợp giữa các mặt hàng đã được lưu trữ trong cơ sở dữ liệu Luật kết hợp là một trong những kỹ thuật phổ biến nhất của khai thác dữ liệu cho các mô hình khám phá địa phương trong các hệ thống học không giám sát
Một giỏ hàng đề cập đến một tập hợp các mặt hàng được mua bởi một khách hàng trong một lần giao dịch duy nhất Ở đây, ta không quan tâm đến số lượng các mặt hàng của một loại được mua trong một giao dịch mà chỉ quan tâm đến các loại mặt hàng khác nhau nào đã được mua cùng nhau
Mục đích là để tìm ra tập các mặt hàng (itemsets) mà xuất hiện cùng nhau trong nhiều giao dịch Nói cách khác là, muốn khám phá những sự kết hợp quan trọng giữa các mặt hàng mà sự hiện diện của một số mặt hàng trong một giao dịch sẽ bao hàm sự hiện diện của một số mặt hàng khác trong cùng một giao dịch Các luật kết hợp cung cấp thông tin dưới hình thức các câu lệnh if-then Các quy tắc này được tính toán từ các dữ liệu, và không giống như các quy tắc if-then của logic, các luật kết hợp là xác suất trong tự nhiên Trong liên kết phân tích tiền đề (if là một phần của các câu lệnh If-then) và kết quả (phần then) thì tập các mặt hàng là rời nhau (không có bất kỳ một mặt hàng nào là chung) Ngoài các tiền
đề và kết quả, một luật kết hợp có hai con số quan trọng biểu diễn mức độ có ích
và không chắc chắn về nguyên tắc Hai con số này phải được xác định trước bởi các chuyên gia đã biết rõ về doanh nghiệp