1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát hiện câu so sánh trong tiếng việt và áp dụng trong miền dữ liệu điện thoại

18 434 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 18
Dung lượng 583,63 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Phát hiện câu so sánh trong tiếng việt và áp dụng trong miền dữ liệu điện thoại

Trang 1

Đại học Quốc Gia Hà Nội – Đại học Công Nghệ

Khoa Công Nghệ ThôngTin

CÔNG TRÌNH DỰ THI GiẢI THƯỞNG “SINH VIÊN NGHIÊN CỨU KHOA HỌC”

NĂM 2012

Tên công trình: Phát hiện câu so sánh trong tiếng Việt và áp dụng trong miền dữ

liệu”điện thoại”

Họ và tên sinh viên:

Đào Tuấn Vũ – K53CB Tiêu Thị Phương – K54CC

Giáo viên hướng dẫn:

CN Vũ Tiến Thành

CN Trần Xuân Tứ

Hà nội -2012

Trang 2

NỘI DUNG

I ĐẶT VẤN ĐỀ 4

1.ĐỘNG LỰC VÀ MỤC ĐÍCH 4

2.GIỚI THIỆU VỀ KHAI PHÁ QUAN ĐIỂM 5

2.1 Khái niệm về khai phá quan điểm 5

2.2 Ứng dụng của khai phá quan điểm 5

2.3 Bài toán khai phá quan điểm dựa trên câu so sánh 6

3 PHÁT HIỆN CÂU SO SÁNH TRONG TIẾNG VIỆT VÀ ÁP DỤNG TRONG MIỀN DỮ LIỆU”ĐIỆN THOẠI” 7

4.MỘT SỐ NGHIÊN CỨU LIÊN QUAN 8

4.1 Nghiên cứu của Bing Liu và cộng sự về khai phá câu so sánh 8

4.2 Một số nghiên cứu khác 9

II MÔ HÌNH GIẢI QUYẾT BÀI TOÁN 10

1.TIỀN XỬ LÝ DỮ LIỆU 12

2.P HÁT HIỆN CÂU SO SÁNH 12

2.1 Trích xuất tập ứng viên cho bộ phân lớp: 12

2.2 Học bộ phân lớp thứ nhất 12

2.3 Học bộ phân lớp thứ hai 13

III THỰC NGHIỆM 14

1.CẤU HÌNH THỰC NGHIỆM 14

2.DỮ LIỆU THỰC NGHIỆM 14

3.THỰC NGHIỆM HỆ THỐNG 15

KẾT LUẬN 16

TÀI LIỆU THAM KHẢO 17

Trang 3

TÓM TẮT

Khai phá quan điểm so sánh là một bài toán nhận được sự quan tâm trên thế giới Mặc dù bài toán này có liên quan tới bài toán khai phá quan điểm dựa trên đặc trưng sản phẩm nhưng nó khá là khác biệt Mục tiêu của bài toán gồm có (1) phát hiện câu so sánh

từ văn bản và (2) trích xuất các quan hệ so sánh

Trong những năm gần đây, một số giải pháp phát hiện câu so sánh được đưa ra [JL06, HW08] Tuy nhiên, đối với tiếng Việt, chưa có một nghiên cứu nào đi sâu vào vấn

đề này

Trong báo cáo này, chúng tôi sử dụng kỹ thuật học bán giảm sát để phát hiện câu so sánh trên miền sản phẩm điện thoại di động dựa trên hướng tiếp cận của Nitin Jindal và cộng sự [JL06] Chúng tôi đề xuất một mô hình tự động phát hiện câu so sánh dựa trên học máy bán giám sát EM với kết quả tốt (f1 là 0.78)

Trang 4

Các bảng và hình vẽ Bảng 1 Môi trường thực nghiệm 14 Bảng 2.Thống kê số lượng câu đánh giá 15

Bảng 3 Đánh giá trích xuất đặc trưng Error! Bookmark not defined.

Bảng 4 Đánh giá xác định định hướng quan điểm (chưa có phát hiện câu so sánh)

Error! Bookmark not defined Bảng 5 Đánh giá xác định định hướng quan điểm (Có phát hiện câu so sánh) Error! Bookmark not defined.

Hình 1 Mô hình 11 Hình 2 Bảng tổng kết quan điểm trên từng đặc trưng của điện thoại Apple Iphone 4

32G Error! Bookmark not defined.

Trang 5

I ĐẶT VẤN ĐỀ

1 Động lực và mục đích

Ngày nay mạng xã hội phát triển rất phổ biến và mạnh mẽ Theo một số liệu thống

kê1 một trang mạng xã hội được ưa chuộng hiện nay là facebook Có tới 500 triệu người dùng, và mỗi ngày có trên 50% số lượng người dùng đăng nhập tài khoản, cứ 20 phút thì trên facebook lại có 3 triệu thông điệp được gửi đi Các thông điệp này chứa đựng rất nhiều ý kiến chủ quan của người sử dụng mạng xã hội về một sự vật, sản phẩm hay sự kiện nào đó Rất nhiều người muốn biết rằng những ý kiến đó mang ý nghĩa tích cực, tiêu cực tới sự vật, sản phẩm hay sự kiện nào đó Chẳng hạn, một công ty rất muốn biết thái

độ của người sử dụng đối với sản phẩm của mình, một người khi muốn mua một sản phẩm nào đó thường tìm thông tin xung quanh sản phẩm của mính muốn mua Khai phá quan điểm giúp họ có thể nhanh chóng biết được nhưng thông tin đó

Từ thực tế cần thiết mà trên thế giới bài toán khai phá quan điểm rất được quan tâm nghiên cứu Đặc biệt có một số hội nghị chuyên về khai phá quan điểm như: Workshop

on Opinion Mining for Business Intelligence (OMBI'10), Workshop on Opinion Mining and Sentiment Analysis, ICDM-2011 Workshop on Sentiment Elicitation from Natural Text for Information Retrieval and Extraction, International Workshop on Search and Mining User-generated Contents, Workshop on Social Theory and Social Computing, Workshop on Mining User-Generated Content Bên cạnh đó có rất nhiều bài báo về khai phá quan điểm tại các hội nghị nổi tiếng như: International World Wide Web Conference, ACM Transactions on Intelligent Systems and Technology

Không dừng lại ở việc nghiên cứu về phương pháp, hiện nay nhiều hệ thống về khai

há quan điểm đã được ứng dụng trong thực tiễn: Twitter Sentiment2 và TweetFeel3 Hiện nay, tại Việt Nam, đã có một số hệ thống về khai phá quan điểm như ePiORM4 Tuy nhiên, theo tìm hiểu của nhóm chưa có hệ thống khai phá quan điểm nào trên miền các sản phẩm điện thoại di động Xuất phát nhu cầu thực tế đấy, chúng tôi đã chọn bài toán nghiên cứu, xây dựng và thử nghiệm một mô hình khai phá quan điểm cho miền tiếng Việt

1

http://www.bbc.co.uk/news/technology-10713199

2 http://twittersentiment.appspot.com/

3 http://www.tweetfeel.com/

4 http://orm.epi.vn/

Trang 6

2 Giới thiệu về khai phá quan điểm

2.1 Khái niệm về khai phá quan điểm

Thông tin có thể chia làm hai loại chính đó là thông tin khách quan và thông tin chủ quan Trong đó, thông tin khách quan là những phát biểu khách quan về các vật hay sự kiện trong cuộc sống Còn thông tin chủ quan là những phát biểu chủ quan phản ánh cảm xúc, nhận thức của người phát biểu về các vật và sự kiện

Bing Liu [Liu10] đã định nghĩa khai phá quan điểm như sau: “Với một tập văn bản

D chứa các quan điểm hoặc cảm nghĩ về một đối tượng, mục tiêu của khai phá quan điểm

là trích xuất các thuộc tính và thành phần của đối tượng được đề cập trong mỗi văn bản d thuộc D và xác định xem liệu các quan điểm đó là tích cực, tiêu cực hay trung lập.”

Bài toán khai phá quan điểm gồm có 3 bài toán điển hình [Liu10]:

- Phân lớp quan điểm

- Khai phá quan điểm dựa trên đặc trưng

- Khai phá quan điểm dựa trên câu so sánh

2.2 Ứng dụng của khai phá quan điểm

Do có rất nhiều ứng dụng nên khai phá quan điểm đã trở thành một lĩnh vực rất được quan tâm hiện nay Bing Liu [Liu10] đã chỉ ra hai ứng dụng chính của khai phá quan điểm:

Thứ nhất, ứng dụng cho người dùng cuối, nếu một người muốn mua một sản phẩm

họ thường tìm kiếm thông tin, các đánh giá của người khác về sản phẩm đó Khai phá quan điểm giúp họ thay vì ngồi đọc một số lượng lớn các bình luận thì chỉ cần xem đánh giá tóm tắt về sản phẩm

Thứ hai, các tổ chức hoặc doanh nghiệp, khai phá quan điểm cũng rất hữu ích đối với các doanh nghiệp Khai phá dữ liệu giúp họ biết thái độ của người dùng đối với sản phẩm mới của tổ chức hoặc doanh nghiệp để có thế đưa ra các định hướng tiếp theo

Trang 7

2.3 Bài toán khai phá quan điểm dựa trên câu so sánh

2.3.1 Một số khái niệm liên quan

Câu so sánh là loại câu rất hay được người dùng đưa ra khi nhận xét về một sự vật, hiện tượng nào đó Nó có thể mô tả rõ ràng về sự vật, hiện tượng đó hơn là nói một cách chung chung Chính vì vậy, chúng tôi sẽ tiến hành khai phá câu so sánh để củng cố kết quả đánh giá về các sản phẩm của người dùng

Ví dụ: “Điện thoại A tốt hơn điện thoại B” với câu “điện thoại A tốt”

Trong trường hợp này với câu đầu tiên có thể nhiều người đã sử dụng điện thoại B

và đã biết điện thoại B này “tốt” đến mức độ nào, nên có thể suy ra được chất lượng của điện thoại A Còn câu thứ hai thì chỉ nói lên một cách chung chung và khó có thể đánh giá được độ “tốt” của điện thoại A

2.3.2 Phân loại câu so sánh

Câu so sánh có thể chia làm hai loại [JL06]:

- So sánh có thể phân cấp được: là các câu so sánh dựa trên các quan hệ lớn hơn, nhỏ hơn, bằng, hoặc lớn hơn hoặc nhỏ hơn tất cả

Ví dụ: iphone 4 có màn hình đẹp hơn samsung galaxy sii

- So sánh không thể phân cấp được: là các câu so sánh mang tính ngụ ý ám chỉ việc

so sánh

Ví dụ: iphone 4 có cảm ứng còn nokia 1002 thì không có

Với câu so sánh có thể phân cấp được ta có thể chia làm 3 loại [JL06]:

- So sánh bằng: mối quan hệ theo kiểu bằng nhau giữa hai thực thể trên một vài đặc trưng

Ví dụ: Samsung Galaxy S II có hệ điều hành tương đương iphone 4s

- So sánh hơn: mối quan hệ theo kiểu hơn hoặc kém giữa hai thực thể trên một vài đặc trưng

Ví dụ: Màn hình của LG Optimus tốt hơn màn hình Nokia C3-01

Trang 8

- So sánh nhất: mối quan hệ hơn hoặc kém hơn giữa một thực thể với tất cả các thực thể khác trên một vài đặc trưng

Ví dụ: Kiểu dáng của Samsung Galaxy Mini là đẹp nhất trong các điện thoại hiện nay

3 Phát hiện câu so sánh trong tiếng Việt và áp dụng trong miền dữ liệu”điện thoại”

Hiện nay, theo khảo sát của nhóm thì chưa có một nghiên cứu nào về việc phát hiện câu so sánh trong tiếng Việt Bài toán phát hiện câu so sánh trong tiếng Việt và áp dụng trong miền dữ liệu “điện thoại” được phát biểu như sau:

“Với một tập văn bản gồm các câu bình luận tiếng Việt D chứa các quan điểm hoặc cảm nghĩ về một sản phẩm Mục tiêu của bài toán là phát hiện các câu so sánh trong mỗi văn bản d thuộc D và phân lớp các quan điểm đó là so sánh hơn, so sánh nhất hay so sánh bằng.”

Trang 9

4 Một số nghiên cứu liên quan

Hiện tại, theo khảo sát của nhóm chưa có bất cứ nghiên cứu nào liên quan đến khai phá câu so sánh trong tiếng Việt và trên thế giới cũng có ít nghiên cứu đến bài toán này

4.1 Nghiên cứu của Bing Liu và cộng sự về khai phá câu so sánh

Việc khai phá quan điểm dựa trên câu so sánh được chia làm hai nhiệm vụ chính gồm trích xuất các câu so sánh và trích xuất các quan hệ so sánh Nitin Jindal và Bing Liu [JL06],[JL06-1] đề xuất ra mô hình để trích xuất các câu so sánh và trích xuất các quan

hệ so sánh

- Trích xuất tập ứng viên là câu so sánh:

Từ tập từ khóa được tạo bằng tay (gồm 83 từ) mô hình sẽ tìm ra những câu chứa từ khóa để tạo thành tập ứng viên là câu so sánh

- Sử dụng học máy để loại bỏ các câu không phải là câu so sánh:

Jindal và Liu đã chỉ ra rằng tập ứng viên là câu so sánh này có độ hồi tưởng rất cao (98% theo tập dữ liệu) tuy nhiên lại có độ chính xác thấp (32% theo tập dữ liệu) Do vậy, Jindal và Liu đã sử dụng học máy để loại bỏ những câu không là câu so sánh từ tập này Jindal và Liu sử dụng phương pháp học máy bayes với các thuộc tính là các luật chuỗi lớp cho kết quả khá cao (độ đo F1 là 81%)

- Sử dụng học máy để phân lớp các câu so sánh vào một trong ba lớp như trong phần giới thiệu

Sau khi đã loại bỏ tập các câu không phải là so sánh, Jindal và Liu tiếp tục sử dụng một bộ phân lớp nữa để phân các câu so sánh vào các lớp: so sánh hơn, so sánh bằng, so sánh nhất

Jindal và Liu chỉ ra rằng có thể sử dụng mặc dù có thể gộp hai quá trình phân lớp lại tuy nhiên thì kết quả thực nghiệm không cao bằng việc chia thành hai bộ phân lớp riêng biệt

Tác giả đã sử dụng học máy SVM với các đặc trưng là các từ khóa cũng đã cho kết quả cao (độ chính xác là 96%)

Trang 10

4.2 Một số nghiên cứu khác

Nitin Jindal và Bing Liu [JL06] đã đề xuất ra phương pháp đầu tiên cho việc khai

phá quan điểm dựa trên câu so sánh (phát hiện câu so sánh và trích xuất quan hệ so sánh)

Phương pháp này phát hiện câu so sánh bằng các từ khóa (có độ hồi tưởng cao) sau đó sử

dụng các luật chuỗi lớp kết hợp với gán nhãn từ loại làm đặc trưng trong bộ phân lớp Để

trích xuất quan hệ so sánh tác giả sử dụng luật chuỗi nhãn kết hợp với một phương pháp

học riêng chọn ra các luật chuỗi nhãn tốt nhất bao phủ toàn bộ dữ liệu

Yang và Ko [YK09] đã cải tiến phương pháp trích xuất của Nitin Jindal và Bing Liu

và áp dụng trong việc phát hiện câu so sánh trong văn bản tiếng Hàn Quốc Bằng việc

chia tập từ khóa ra làm hai phần sao cho tập các câu chứa từ khóa ở một phần có độ chính

xác cao (trên 90%) và tập các câu chứa từ khóa ở phần còn lại có độ chính xác thấp Sau

đó cũng giống phương pháp của Jindal và Liu tác giả sử dụng học máy để phần lớp phần

dữ liệu còn lại

Ngoài ra, Xiaojiang Huang và cộng sự [HWYX] cũng đã tiến hành việc phát hiện

câu so sánh trong tiếng Trung Quốc dựa trên nghiên cứu của Nitin Jindal và Bing Liu

[JL06]

Qua việc nghiên cứu một số công trình liên quan, chúng tôi đề xuất một mô hình

phát hiện câu so sánh dựa trên mô hình trích chọn câu so sánh trong [JB06] Tuy nhiên

chúng tôi đã thay đổi đặc trưng trong cho bộ học bằng các cac đoạn dãy gán nhãn

Trang 11

II Mô hình giải quyết bài toán

Trong phần này chúng tôi đề xuất một mô hình câu so sánh dựa trên mô hình đề xuất của Bing Liu [JB06-2]

Mô hình được chia làm ba pha chính gồm có:

+ Pha 1: Tiền xử lý dữ liệu

+ Pha 2: Trích xuất tập ứng viên

+ Pha 3: Học bộ phân lớp thứ nhất

+ Pha 4: Học bộ phân lớp thứ hai

Trang 12

Hình 1 Mô hình

Trang 13

1 Tiền xử lý dữ liệu

Do dữ liệu được lấy về là các bình luận của người dùng tại trang bán hàng trực tuyến nên chưa chuẩn Nhóm đã tiến hành chuẩn hóa lại dữ liệu để kết quả có độ chuẩn xác cao

Ví dụ: chuyển câu “cai dien thoai nay dep qua” thành “cái điện thoại này đẹp quá” Sau khi chuẩn hóa dữ liệu, chúng tôi sử dụng công cụ WordSeg để tách từ và gán nhãn từ loại

2 Phát hiện câu so sánh

Đây là phần chính trong mô hình của chúng tôi nhằm phát hiện câu so sánh trong các bình luận Việc trích xuất câu so sánh gồm ba quá trình đó là:

- Trích xuất tập ứng viên cho bộ phân lớp

- Học bộ phân lớp thứ nhất: để trích xuất ra các câu so sánh

- Học bộ phân lớp thứ hai: phân các câu so sánh đã trích xuất ở bước trên vào một trong 3 lớp: so sánh hơn, so sánh bằng, so sánh nhất

2.1 Trích xuất tập ứng viên cho bộ phân lớp:

Dữ liệu sau khi được chuẩn hóa sẽ được lọc bằng tập từ khóa tạo thành tập ứng viên cho bộ phân lớp trong đó:

-Tập các từ khóa là tập các từ mang ý nghĩa so sánh Chúng tôi thống kê được có 51

từ khóa

- Tập ứng viên là các câu có chứa những từ khóa

Phát hiện câu so sánh bằng học máy bán giám sát:

2.2 Học bộ phân lớp thứ nhất

Chúng tôi đã thay thế việc trích chọn đặc trưng bởi các luật chuỗi nhãn như trong [JL06] bằng các đoạn dãy gán nhãn

Các đoạn chuỗi nhãn được trích chọn như sau: coi những từ khóa là điểm chốt để xây dựng các đặc trưng Các dãy được tạo bởi chốt và các từ liền kề quanh nó với bán

Trang 14

kính là r Trong quá trình thực nghiệm chúng tôi thấy rằng r đạt giá trị tốt nhất tại giá trị

là 4

Từ những dãy này chúng tôi tiến hành gán nhãn là so sánh hoặc không so sánh cho

bộ dữ liệu học

Ví dụ: “iphone/N 5/M thì/C chuẩn_bị/V ra/R chạy/V nhanh/A hơn/R”

<{C}{V}{R}{V}{A}{hơnR}> so sánh

Tiếp theo chúng tôi sử dụng học máy bán giám sát EM để học bộ phân lớp với các dãy gán nhãn là đặc trưng Mỗi câu nếu chứa một dãy gán nhãn nào đó trong tập đặc trưng thì giá trị tương ứng cho đặc trưng đó được gán là 1, ngược lại được gán là 0

2.3 Học bộ phân lớp thứ hai

Với việc phân lớp này, tập từ khóa được sử dụng làm tập đặc trưng để phân lớp Các lớp là so sánh hơn, so sánh bằng và so sánh nhất Nếu câu có chứa một từ khóa trong tập đặc trưng thì giá trị tương ứng cho đặc trưng đó được gán giá trị là 1, và là 0 trong trường hợp khác Bộ học SVM-kNN được chúng tôi áp dụng và cho kết quả tốt

Ngày đăng: 07/12/2015, 15:23

HÌNH ẢNH LIÊN QUAN

Hình 1. Mô hình - Phát hiện câu so sánh trong tiếng việt và áp dụng trong miền dữ liệu điện thoại
Hình 1. Mô hình (Trang 12)
Bảng 1. Môi trường thực nghiệm - Phát hiện câu so sánh trong tiếng việt và áp dụng trong miền dữ liệu điện thoại
Bảng 1. Môi trường thực nghiệm (Trang 15)
Bảng 2.Thống kê số lượng câu đánh giá - Phát hiện câu so sánh trong tiếng việt và áp dụng trong miền dữ liệu điện thoại
Bảng 2. Thống kê số lượng câu đánh giá (Trang 16)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w