Ta có thể hiểu đơn giản rằng, quan điểm là những ý kiến đánh giá mang tính tích cực, tiêu cực hoặc trung lập dưới cấp độ tài liệu, các câu hay thực thể và đặc trưng của... Ví dụ, đưa ra
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LÊ QUANG HÙNG
XÁC ĐỊNH CÂU SO SÁNH TRONG TÀI LIỆU VĂN BẢN TIẾNG ANH
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội – 2014
Trang 2TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LÊ QUANG HÙNG
XÁC ĐỊNH CÂU SO SÁNH TRONG TÀI LIỆU VĂN BẢN TIẾNG ANH
Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin
Mã Số: 60480104
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN VĂN VINH
TS NGUYỄN PHÚ BÌNH
Hà Nội – 2014
Trang 3vô cùng bổ ích trong suốt quá trình tôi tham gia học tập và nghiên cứu tại trường
Tôi cũng xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp luôn động viên giúp
đỡ mỗi khi tôi gặp khó khăn cũng như tạo mọi điều kiện thuận lợi để tôi hoàn thành nhiệm vụ học tập và nghiên cứu trong suốt thời gian qua
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan những kết quả trong luận văn này là do tôi nghiên cứu, tổng hợp
và thực hiện Toàn bộ những nội dung trong luận văn là kết quả của chính cá nhân tôi hoặc được tổng hợp từ những nguồn tài liệu khác nhau Tất cả các nguồn tài liệu đều có nguồn gốc rõ ràng và trích dẫn đầy đủ
Tôi xin hoàn toàn chịu trách nhiệm với lời cam đoan của mình Nếu có gì sai trái, tôi xin chịu mọi hình thức kỷ luật theo quy định
Hà Nội, tháng 11 năm 2014
Học viên
Lê Quang Hùng
Trang 5MỤC LỤC
LỜI CẢM ƠN 2
LỜI CAM ĐOAN 3
MỤC LỤC 4
DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT 5
DANH MỤC HÌNH VẼ 6
DANH MỤC BẢNG 7
MỞ ĐẦU 8
CHƯƠNG 1 – TỔNG QUAN VỀ PHÂN TÍCH QUAN ĐIỂM 10
1.1 Phân lớp quan điểm 11
1.1.1 Phân lớp dựa trên cụm từ thể hiện quan điểm 12
1.1.2 Phân lớp dựa trên các phương pháp phân lớp văn bản 15
1.1.3 Phân lớp sử dụng hàm hệ số 16
1.2 Khai phá quan điểm dựa trên đặc trưng và tóm tắt 17
1.2.1 Định nghĩa bài toán 17
1.2.2 Trích rút đặc trưng của đối tượng 24
1.2.3 Phân lớp định hướng quan điểm 31
1.3 Khai phá câu so sánh và quan hệ so sánh 32
CHƯƠNG 2 – KHAI PHÁ CÂU SO SÁNH 34
2.1 Định nghĩa bài toán 34
2.2 Phương pháp tiếp cận 36
2.3 Luật tuần tự phân lớp 37
2.3.1 Định nghĩa 37
2.3.2 Xây dựng cơ sở dữ liệu luật 38
2.4 Học phân lớp 41
CHƯƠNG 3 – THỰC NGHIỆM 43
3.1 Quá trình thực nghiệm 43
3.2 Chuẩn bị dữ liệu và xây dựng bộ phân lớp 44
3.3 Kết quả thực nghiệm 48
KẾT LUẬN 51
TÀI LIỆU THAM KHẢO 52
Trang 6
DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT STT Từ viết tắt Tiếng Anh Tiếng Việt
1 CSR Class Sequential Rules Luật tuần tự phân lớp
2 CRF Conditional Random Fields
3 LSR Label Sequential Rules Luật tuần tự gán nhãn
4 NPL Natural Language Processing Xử lý ngôn ngữ tự nhiên
6 PMI Pointwise Mutual Information Thông tin tương hỗ theo
từng điểm
7 SO Semantic/opinion Orientation Hướng quan điểm
Trang 7DANH MỤC HÌNH VẼ
Hình 1.1: Ví dụ về bảng tóm tắt các quan điểm dựa trên đặc trưng 21
Hình 1.2: Bảng tóm tắt và so sánh trực quan dựa trên đặc trưng 22
Hình 1.3: Ví dụ về bản đánh giá ở dạng 1 25
Hình 1.4: Ví dụ về bản đánh giá ở dạng 2 25
Hình 1.5: Ví dụ về bản đánh giá ở dạng 3 25
Hình 2.1: Phương pháp tiếp cận của Nitin Jindal và Bing Liu 36
Hình 2.2: Giải thuật CSR-Apriori 41
Hình 3.1: Các bước trong quá trình thực nghiệm 43
Hình 3.2: Tỷ lệ phân bổ dữ liệu 44
Hình 3.3: Dữ liệu đầu vào 45
Hình 3.4: Gán thẻ từ loại và xây dựng cơ sở dữ liệu luật 47
Hình 3.5: Thực hiện giải thuật CSR-Apriori 47
Hình 3.6: Huấn luyện và phân lớp 48
Hình 3.7: So sánh các phương pháp 49
Hình 3.8: Biến thiên độ đo Precision khi thay đổi kích thước tập huấn luyện 50
Trang 8DANH MỤC BẢNG
Bảng 1.1: Thẻ từ loại theo chuẩn Penn Treebank 12
Bảng 1.2: Các mẫu tags để trích xuất 2 cụm từ từ các bài đánh giá 14
Bảng 2.1: Ví dụ về cơ sở dữ liệu các luật cho khai phá CSR 38
Bảng 3.1: Số lượng dữ liệu 44
Bảng 3.2: Tham số cho giải thuật CSR-Apriori 45
Bảng 3.3: Từ khóa 46
Bảng 3.4: Kết quả thực nghiệm 49
Trang 9MỞ ĐẦU
Những năm gần đây, những nghiên cứu của miền ứng dụng xử lý ngôn ngữ tự nhiên (NPL – Natural Language Processing) ngày càng phát triển đã hỗ trợ rất đắc lực cho con người trong việc xác định và trích xuất ra dữ liệu cần thiết từ kho dữ liệu các trang Web của hàng ngàn, hàng vạn bài báo, đánh giá… mà chúng ta không thể trực tiếp thực hiện được Việc trích xuất dữ liệu một cách chính xác tạo tạo tiền đề phát triển cho rất nhiều ứng dụng phân tích quan điểm
Trong môi trường kinh doanh, khi bất cứ một sản phẩm mới nào được đưa ra thị trường, nhà sản xuất luôn muốn biết quan điểm của người tiêu dùng về sản phẩm của họ, cũng như sự so sánh sản phẩm đó với sản phẩm của những đối thủ cạnh tranh Trong thời đại bùng nổ thông tin như hiện nay, hầu hết các thông tin này đều sẵn có trên các trang Web dưới dạng các bài tin tức, đánh giá của khách hàng, thảo luận trên các diễn đàn, mạng xã hội, …Việc trích xuất được những thông tin này hết sức quan trọng cho những nhà kinh doanh trong việc đưa ra các kế hoạch tiếp thị cũng như đánh giá tính hiệu quả của sản phẩm trên thị trường Bên cạnh đó, việc so sánh cũng rất hữu ích cho chính các khách hàng tiềm năng của họ, nó giúp các khách hàng đưa ra các quyết định mua hàng sáng suốt hơn Qua đây ta thấy việc so sánh là một trong những cách đánh giá thuyết phục nhất đối với một mặt hàng nói riêng và các đối tượng nói chung
Câu so sánh có liên quan đến sự thể hiện quan điểm trực tiếp nhưng cũng có nhiều điểm khác biệt Đó là, câu so sánh thường diễn tả quan điểm về hai hay nhiều thực thể dựa trên các đặc trưng hay thuộc tính giống nhau giữa chúng Câu thể hiện quan điểm trực tiếp thông dụng hơn nhưng câu so sánh cũng được sử dụng khá rộng rãi, chiếm tỷ lệ 10% trong các văn bản thể hiện quan điểm do người dùng tạo ra trên Web [10] Việc xác định câu so sánh là bước tiền xử lý quan trọng, tạo tiền đề cho việc phát triển các lĩnh vực phân tích quan điểm khác trong mảng khai phá so sánh
Hiện nay trên thế giới đã có nhiều công trình do các nhà nghiên cứu tiến hành để giải quyết bài toán khai phá so sánh trong các ngôn ngữ khác nhau Trong luận văn này, chúng tôi sử dụng phương pháp học máy kết hợp với luật tuần tự phân lớp để giải quyết bài toán “Xác định câu so sánh trong tài liệu văn bản tiếng Anh” Qua đó đưa ra đánh giá
về phương pháp đã nghiên cứu cũng như định hướng mở rộng nghiên cứu dựa trên kết quả của luận văn này
Trang 10Bố cục luận văn gồm các chương như sau:
Chương 1: Tổng quan về phân tích quan điểm, tập trung giới thiệu tầm quan trọng của ứng dụng phân tích quan điểm, các nhiệm vụ chính, các bài toán áp dụng cùng các phương pháp giải quyết, trong đó có bài toán khai phá so sánh
Chương 2: Khai phá câu so sánh, phân tích chi tiết về bài toán khai phá câu so sánh trong văn bản tiếng Anh cũng như phương pháp tiếp cận để giải quyết bài toán này
Chương 3: Thực nghiệm, tóm lược kết quả cài đặt thực nghiệm cách tiếp cận đã trình bày ở chương 2 để giải quyết bài toán xác định câu so sánh trong văn bản tiếng Anh
Trang 11CHƯƠNG 1 – TỔNG QUAN VỀ PHÂN TÍCH QUAN ĐIỂM
Sự tăng trưởng nhanh chóng của các trang web trong những năm qua làm cho Web trở thành nguồn dữ liệu truy cập công cộng lớn nhất trên thế giới Khai thác Web nhằm phát hiện tối đa và triệt để các thông tin hữu ích hoặc kiến thức từ các liên kết web, nội dung trang, và nhật ký sử dụng Căn cứ vào các loại chính của dữ liệu được sử dụng trong quá trình khai thác, nhiệm vụ khai thác web có thể được phân loại thành ba loại chính: khai thác cấu trúc Web, khai thác sử dụng Web và khai thác nội dung Web Khai thác cấu trúc web phát hiện ra kiến thức từ các siêu liên kết, đại diện cho cấu trúc của trang web Khai thác sử dụng Web nhằm tìm kiếm thói quen người dùng từ nhật ký sử dụng Khai thác nội dung web chiết xuất thông tin/kiến thức hữu ích từ nội dung trang web Web chứa một lượng lớn thông tin trong các văn bản phi cấu trúc Việc phân tích những văn bản này là rất quan trọng, đem lại khối lượng lớn các thông tin có giá trị
Nhiệm vụ phân tích không chỉ là thách thức kỹ thuật vì cần phải xử lý ngôn ngữ tự nhiên, mà còn rất hữu ích trong thực tế Từ những năm 1950, các phương pháp phân tích quan điểm sơ khởi đã được thực hiện trên tài liệu giấy, thường là ý kiến về sản phẩm và đánh giá phim ảnh Cùng với sự phát triển của các phương tiện truyền thông và internet, công chúng đã có thể dễ dàng bày tỏ quan điểm hơn và quan điểm có thể đo đếm được Ví
dụ, các doanh nghiệp luôn muốn tìm hiểu dư luận xã hội hoặc ý kiến người tiêu dùng về sản phẩm và dịch vụ của họ Khách hàng tiềm năng cũng muốn biết ý kiến của người dùng hiện tại trước khi họ sử dụng dịch vụ hay mua một sản phẩm Phân tích quan điểm cũng có thể cung cấp thông tin có giá trị cho việc đặt quảng cáo tại các trang web Nếu trong một trang, người dùng bày tỏ quan điểm hay những cảm xúc tích cực về một sản phẩm, thì đó có thể là một gợi ý tốt để đặt quảng cáo của chính sản phẩm đó Tuy nhiên, nếu mọi người bày tỏ ý kiến tiêu cực về sản phẩm, thì việc đặt quảng cáo của sản phẩm
đó cần phải xem xét lại Hoặc tốt hơn hết là có thể đặt quảng cáo sản phẩm của đối thủ cạnh tranh
Web đã thay đổi đáng kể cách thức mà mọi người bày tỏ quan điểm của mình Họ có thể gửi ý kiến về các sản phẩm tại các trang web của người bán và bày tỏ quan điểm của
họ về bất cứ điều gì trong các diễn đàn, các nhóm thảo luận, blog,…v.v., mà ta thường gọi
là người dùng tạo ra nội dung hoặc người dùng tạo ra phương tiện truyền thông Hành vi này cung cấp các nguồn thông tin mới và đo lường được với nhiều ứng dụng thực tế Các
kỹ thuật hiện đang được phát triển để khai thác các nguồn đó để giúp các doanh nghiệp,
cá nhân có được thông tin đó một cách hiệu quả và dễ dàng
Ta có thể hiểu đơn giản rằng, quan điểm là những ý kiến đánh giá mang tính tích cực, tiêu cực hoặc trung lập dưới cấp độ tài liệu, các câu hay thực thể và đặc trưng của
Trang 12chúng Mục đích của phân tích quan điểm là xác định thái độ và khuynh hướng của một đối tượng truyền thông, thông qua sự phân cực theo ngữ cảnh của những gì đối tượng đó nói hoặc viết Thái độ của đối tượng có thể được phản ánh trong các bài đánh giá của chính họ, những trạng thái cảm xúc của chủ thể hoặc trạng thái của các giao tiếp mà họ sử dụng để tạo ra sự ảnh hưởng đến người đọc hoặc người nghe
Trong chương này chúng tôi tập trung tìm hiểu ba nhiệm vụ của phân tích quan điểm, các bài toán áp dụng cũng như ưu nhược điểm của từng phương pháp được sử dụng theo các nghiên cứu trong [1]:
- Phân lớp quan điểm: Nhiệm vụ này coi việc phân tích quan điểm là vấn đề của khai phá văn bản Nó phân loại một văn bản cần đánh giá là tích cực hay tiêu cực
Ví dụ, đưa ra một đánh giá về sản phẩm, hệ thống sẽ xác định liệu các đánh giá thể hiện quan điểm tích cực hay tiêu cực của người đánh giá Việc phân loại thường ở cấp độ tài liệu (document-level) Không khám phá chi tiết về những gì mọi người thích hay không thích
- Phân tích quan điểm dựa trên đặc trưng và tổng hợp ý kiến: Nhiệm vụ này đi đến cấp độ câu(sentence-level) để khai phá các chi tiết, ví dụ, những khía cạnh nào của một đối tượng mà mọi người thích hay không thích Các đối tượng có thể là một sản phẩm, một dịch vụ, một chủ đề, một cá nhân, một tổ chức, …v.v Ví dụ, trong một đánh giá, hệ thống cần đưa ra các tính năng của sản phẩm đã được nhận xét bởi người đánh giá và xem ý kiến về từng tính năng đó là tích cực hay tiêu cực Trong câu, “This camera size is too big,” đưa ra nhận xét về “size” và
có ý kiến tiêu cực Một bản tóm tắt có cấu trúc cũng sẽ được tổng hợp ra từ kết quả phân tích
- Khai phá câu so sánh câu và mối quan hệ: So sánh là một dạng khác của việc đánh giá, bằng việc so sánh trực tiếp một đối tượng đối với một hoặc nhiều đối tượng tương tự khác Ví dụ, các câu sau đây so sánh hai máy ảnh: “Camera A is cheaper than camera B” Ta sẽ xác định câu so sánh và trích xuất các mối quan
hệ so sánh thể hiện trong đó
1.1 Phân lớp quan điểm
Cho một tập các văn bản cần đánh giá D, bộ phân lớp quan điểm phân loại mỗi tài liệu d D vào một trong hai lớp, tích cực và tiêu cực Tích cực có nghĩa là d thể hiện một quan điểm tích cực Tiêu cực có nghĩa là d thể hiện một ý kiến tiêu cực Ví dụ, đưa ra một
số ý kiến về một bộ phim, hệ thống phân loại chúng thành các đánh giá tích cực và đánh giá tiêu cực
Trang 13Ứng dụng chính của phân lớp quan điểm là đưa ra một quyết định nhanh chóng dựa trên các quan điểm hiện có về một đối tượng Nhiệm vụ tuy là tương tự với các ứng dụng phân loại văn bản dựa trên chủ đề kinh điển nhưng cũng có điểm khác, trong đó phân loại tài liệu vào các lớp chủ đề được xác định trước, ví dụ như, chính trị, khoa học, thể thao,
…v.v Trong phân loại dựa trên chủ đề, các từ liên quan đến chủ đề rất quan trọng Tuy nhiên, trong phân lớp quan điểm, các từ liên quan đến chủ đề là không quan trọng Thay vào đó là các từ mang tính biểu cảm những ý kiến tích cực hay tiêu cực mới thực sự là yếu tố là quan trọng, ví dụ như: great, excellent, amazing, horrible, bad, worst, …v.v Các nghiên cứu hiện có ở mảng này chủ yếu là ở cấp độ tài liệu, ví dụ, để phân loại từng tài liệu là tích cực hay tiêu cực (trong một số trường hợp, lớp trung lập cũng được sử dụng) Người ta cũng có thể mở rộng phân loại như vậy đến cấp độ câu, nghĩa là, để phân loại các câu xem thể hiện một quan điểm tích cực, tiêu cực hoặc trung lập Chúng ta sẽ tìm hiểu về một số phương pháp dưới đây
1.1.1 Phân lớp dựa trên cụm từ thể hiện quan điểm
Phương pháp này thực hiện phân lớp dựa trên những từ và cụm từ thể hiện quan điểm tích cực và tiêu cực trong văn bản cần đánh giá Các thuật toán được mô tả ở đây dựa trên nghiên cứu của Turney [2], được thiết kế để phân loại các đánh giá của khách hàng
Thuật toán này sử dụng kỹ thuật xử lý ngôn ngữ tự nhiên là gán thẻ từ loại speech tagging – POS tagging) Từ loại của một từ là phân loại theo ngôn ngữ học được định nghĩa bởi hành vi cú pháp hoặc hình thái từ của nó Các loại thẻ từ loại thường gặp trong ngữ pháp tiếng Anh là: noun (danh từ), verb (động từ), adjective (tính từ), adverb (trạng từ), pronoun (đại từ), preposition (giới từ), conjunction (liên từ) và interjection (thán từ) Từ đó, có rất nhiều loại phát sinh từ các hình thức khác nhau của các loại này
(part-of-Ví dụ, một động từ có thể là một động từ ở dạng nguyên thể, hay dạng quá khứ, …v.v Gán thẻ từ loại là việc gán cho mỗi từ trong một câu với một từ loại thích hợp Nghiên cứu của Santorini [3] trình bày chi tiết về gán thẻ từ loại theo chuẩn Penn Treebank, được
thể hiện trong bảng 1.1
Bảng 1.1: Thẻ từ loại theo chuẩn Penn Treebank
Trang 14Thẻ Diễn giải Thẻ Diễn giải
IN
Preposition or subordinating
Verb, 3rd person singular present
Trang 15Thuật toán gồm 3 bước:
- Bước 1: Thực hiện trích rút các cụm từ có chứa tính từ hay trạng từ Lý do cho việc này là các nghiên cứu đã chỉ ra rằng tính từ và trạng từ là những từ chỉ thị tốt về tính chủ quan và quan điểm Tuy nhiên, mặc dù một tính từ biệt lập có thể chỉ ra tính chủ quan, nhưng có thể bối cảnh không đủ để xác định định hướng về ngữ nghĩa (hoặc quan điểm) của nó Ví dụ, tính từ “unpredictable” (khó lường)"
có thể có một định hướng tiêu cực trong đánh giá về ô tô, trong một cụm từ như
“unpredictable steering” (tay lái khó kiểm soát), nhưng nó có thể có một định hướng tích cực trong đánh giá về một bộ phim, trong một cụm từ như
“unpredictable plot” (cốt chuyện phim không thể đoán trước được) Do đó, các thuật toán trích xuất hai từ liên tiếp, trong đó một từ là một tính từ/trạng từ và từ kia là một từ thể hiện ngữ cảnh
Hai từ liên tiếp được trích rút nếu thẻ từ loại của chúng thỏa mãn bất kỳ mẫu nào trong bảng 1.2 Ví dụ, mẫu ở dòng số 2 nghĩa là hai từ liên tiếp được trích rút nếu
từ thứ nhất là adverb (trạng từ) và từ thứ hai là adjective (tính từ), nhưng từ thứ
ba (không được trích rút) không thể là noun (danh từ) NNP và NNPS tránh xuất hiện cùng nhau sao cho tên của đối tượng cần đánh giá không ảnh hưởng đến việc phân loại
Bảng 1.2: Các mẫu tags để trích xuất 2 cụm từ từ các bài đánh giá
Ví dụ 1: Trong câu “this camera produces beautiful pictures”, “beautiful pictures”
được trích rút vì nó thỏa mãn mẫu số 1
- Bước 2: Thực hiện ước tính định hướng ngữ nghĩa của các cụm từ được trích xuất bằng cách sử dụng phương pháp Pointwise Mutual Information - PMI được đưa ra trong phương trình (1.1):
Trang 16𝑃𝑀𝐼(𝑡𝑒𝑟𝑚1, 𝑡𝑒𝑟𝑚2) = log2[ Pr(𝑡𝑒𝑟𝑚1∧ 𝑡𝑒𝑟𝑚2)
Pr(𝑡𝑒𝑟𝑚1) Pr(𝑡𝑒𝑟𝑚2)] (1.1)
Ở đây, Pr(term 1 term 2 ) là xác suất xuất hiện đồng thời của term 1 và term 2 và
Pr(term 1 )Pr(term 2 ) là xác suất đồng thời của 2 term khi chúng là độc lập thống
kê Do đĩ tỷ số giữa Pr(term 1 term 2 ) và Pr(term 1 )Pr(term 2 ) là số đo mức độ
phụ thuộc thống kê giữa chúng Hàm logarit của tỷ lệ này là lượng thơng tin chúng ta thu được về sự cĩ mặt của một từ khi chúng ta quan sát một từ khác Hướng ngữ nghĩa/quan điểm (Semantic/opinion Orientation - SO) của một cụm
từ được tính tốn dựa trên sự kết hợp với các tham chiếu của từ tích cực
“excellent” và sự kết hợp của nĩ với các tham chiếu của từ tiêu cực “poor”
SO(phrase) = PMI(phrase, “excellent”) - PMI(phrase, “poor”) (1.2) Xác suất được tính tốn bằng cách tiến hành truy vấn vào một cơng cụ tìm kiếm
và thu thập số lần truy cập (hits) Đối với mỗi truy vấn tìm kiếm, cơng cụ tìm
kiếm thường cho biết số tài liệu liên quan đến truy vấn, đĩ là số lượng hits Như vậy, bằng cách tìm kiếm hai thuật ngữ với nhau và riêng biệt, chúng ta cĩ thể ước tính xác suất trong phương trình 1 Turney [2] đã sử dụng cơng cụ tìm kiếm AltaVista vì nĩ cĩ tốn tử NEAR, vốn làm hạn chế việc tìm kiếm các tài liệu cĩ chứa các từ trong vịng mười từ, trong mỗi sắp xếp Gọi hits là số kết quả trả về Phương trình (1.2) cĩ thể được viết lại thành phương trình (1.3):
𝑆𝑂(𝑝ℎ𝑟𝑎𝑠𝑒) = log2[ℎ𝑖𝑡𝑠(𝑝ℎ𝑟𝑎𝑠𝑒 𝑁𝐸𝐴𝑅 "excellent") ℎ𝑖𝑡𝑠("poor")
ℎ𝑖𝑡𝑠(𝑝ℎ𝑟𝑎𝑠𝑒 𝑁𝐸𝐴𝑅 "poor") ℎ𝑖𝑡𝑠("excellent")] (1.3)
Để tránh phép chia cho 0, hệ số 0.01 được cộng thêm vào hits
- Bước 3: Đưa ra một bài đánh giá, thuật tốn tính tốn SO trung bình của tất cả các cụm từ trong bài đánh giá, và phân loại bài đánh giá theo khuyến nghị nếu như SO trung bình là tích cực, nếu khơng khuyến nghị thì ngược lại
Độ phân loại chính xác cuối cùng trên các bài đánh giá từ nhiều lĩnh vực khác nhau từ 84% cho đánh giá xe hơi, và 66% đối với phim ảnh
1.1.2 Phân lớp dựa trên các phương pháp phân lớp văn bản
Phương pháp tiếp cận đơn giản nhất để phân lớp quan điểm là đưa bài tốn về bài tốn phân lớp văn bản dựa trên chủ đề Sau đĩ, cĩ thể sử dụng bất kỳ thuật tốn phân lớp văn bản nào, ví dụ như Nạve Bayesian, SVM, kNN, …v.v
Phương pháp này đã được thử nghiệm bởi Pang và cộng sự [4], đưa các bài đánh giá
về phim ảnh về hai lớp, tích cực và tiêu cực Thực nghiệm đã chỉ ra rằng sử dụng từ đơ (unigram) trong việc phân loại thực hiện tốt tương đương cách sử dụng Nạve Bayesian hay SVM Kết quả thử nghiệm sử dụng 700 ý kiến tích cực và 700 ý kiến tiêu cực cho
Trang 17thấy hai thuật tốn phân loại đạt 81% và 82,9 Tuy nhiên, đánh giá trung lập khơng được
sử dụng trong thực nghiệm này, làm cho vấn đề trở nên dễ dàng hơn Đồng thời tác giả cũng khơng áp dụng quá trình xử lý từ dẫn xuất (stemming) và loại bỏ từ dừng (stopword)
Trong đĩ t i là một thuật ngữ và C là một lớp và C’ là phần bù của nĩ, tức là, not
C, và Pr(t i | C) là xác suất cĩ điều kiện ti thuộc lớp C Nĩ được tính bằng cách lấy số lần mà t i xuất hiện trong các bài đánh giá thuộc lớp C chia cho tổng số các
thuật ngữ trong các bài đánh giá thuộc lớp C Hệ số của thuật ngữ do đĩ là sự tính tốn độ sai lệch so với các lớp khác, nằm trong khoảng từ -1 đến 1
- Bước 2: Để phân lớp một tài liệu mới d i = t 1 t n, thuật tốn tính tổng hệ số của tất cả các thuật ngữ và sử dụng dấu của tổng số để xác định lớp Phương trình (1.5) sử dụng để phân lớp như sau:
𝑐𝑙𝑎𝑠𝑠(𝑑𝑖) = {𝐶 𝑒𝑣𝑎𝑙(𝑑𝑖) > 0
𝐶′ 𝑒𝑣𝑎𝑙(𝑑𝑖) < 0 (1.5) Trong đĩ,
Trong bài báo này, tác giả thực nghiệm thay phiên các kỹ thuật phân lớp, ví dụ như Nạve Bayesian, SVM, và một vài thuật tốn dựa trên các hàm hệ số khác Tác giả cũng
đã thử một số chiến lược thay thế từ để cải thiện kết quả tổng quan, ví dụ,
Thay thế tên sản phẩm bằng token (“_productname”)
Thay thế các từ hiếm gặp bằng token (“_unique”)
Thay thế các từ loại đặc thù bằng token (“_producttypeword”)
Trang 18 Thay thế các số bằng NUMBER
Một số phương pháp điều chỉnh ngôn ngữ học bằng cách sử dụng từ điển WordNet,
từ dẫn xuất, phủ định, và sắp xếp thứ tự cũng đã được thử nghiệm Tuy nhiên, chúng không hữu ích, và thường bị giảm độ chính xác phân lớp
Tóm lại, lợi thế chính của phân lớp quan điểm ở cấp độ tài liệu là cung cấp một quan điểm thông dụng trên một đối tượng, một chủ đề hay một sự kiện Những hạn chế chính của phân lớp ở cấp độ tài liệu là:
Nó không cung cấp chi tiết về những gì mọi người thích hay không thích Trong một tài liệu đánh điển hình như các bài đánh giá sản phẩm, tác giả thường viết các khía cạnh cụ thể của một đối tượng mà họ thích hay không thích Khả năng trích xuất được các chi tiết đó mới thực sự hữu ích trong thực tế
Không hề dễ dàng khi áp dụng cho tài liệu không phải là bài đánh giá, ví dụ như các bài viết trên diễn đàn và blog, bởi vì mặc dù trọng tâm chính của họ có thể không phải là đánh giá hoặc xem xét một sản phẩm, nhưng trong đó vẫn có thể chứa một vài câu thể hiện quan điểm Trong trường hợp này, chúng ta cần phải xác định và trích xuất câu thể hiện quan điểm đó
1.2 Khai phá quan điểm dựa trên đặc trưng và tóm tắt
Mặc dù nghiên cứu các văn bản đánh giá ở mức độ tài liệu rất hữu ích trong nhiều trường hợp, nhưng thực tế mong muốn nhiều hơn thế Một văn bản tích cực đối với một đối tượng cụ thể không có nghĩa là tác giả có ý kiến tích cực về mọi khía cạnh của đối tượng Tương tự như vậy, một văn bản tiêu cực không có nghĩa là tác giả không thích mọi khía cạnh của đối tượng Ví dụ, trong một bài đánh giá sản phẩm, người đánh giá thường
đi vào cả hai khía cạnh tích cực và tiêu cực của sản phẩm, mặc dù quan điểm chung về sản phẩm có thể là tích cực hoặc tiêu cực Để có được các khía cạnh chi tiết như vậy, chúng ta cần phải đi đến cấp độ câu Hai nhiệm vụ khá rõ ràng là:
1 Xác định và trích xuất các tính năng của sản phẩm mà người đánh giá đã bày tỏ ý kiến, được gọi là đặc trưng của sản phẩm Ví dụ, trong câu “the picture quality of this camera is amazing,” đặc trưng của sản phẩm là “picture quality”
2 Xác định xem quan điểm về các đặc trưng là tích cực, tiêu cực hay trung lập Trong câu trên, quan điểm về đặc trưng “picture quality” là tích cực
1.2.1 Định nghĩa bài toán
Nói chung, quan điểm có thể được thể hiện trên bất cứ điều gì, ví dụ như, một sản phẩm, một cá nhân, một tổ chức, một sự kiện, một chủ đề, …v.v Chúng ta sử dụng thuật ngữ chung “đối tượng” để biểu thị thực thể được nhận xét Các đối tượng có một tập hợp
Trang 19các thành phần và cũng là một tập hợp các thuộc tính Vì vậy, các đối tượng có thể được phân cấp theo thành phần của các quan hệ, tức là, mỗi thành phần cũng có thể có các thành phần phụ của nó Ví dụ, một sản phẩm (ví dụ, một chiếc xe, một máy ảnh kỹ thuật số) có thể có các thành phần khác nhau, một sự kiện có thể có các sự kiện con, một chủ đề
có thể có các đề mục nhỏ, …v.v Ta có định nghĩa sau đây:
Định nghĩa đối tượng: Một đối tượng O là một thực thể có thể là một sản phẩm, con
người, sự kiện, tổ chức, hoặc một chủ đề Nó được kết hợp bởi cặp, O: (T, A), trong đó T
là một phân cấp hoặc phân loại các thành phần, các thành phần con, …v.v, và A là một tập hợp các thuộc tính của O Mỗi thành phần lại có của riêng mình một tập các tiểu hợp
phần và các thuộc tính
Ví dụ 2: “Digital camera” là một đối tượng Nó có một tập hợp các thành phần, ví dụ,
lens, battery, …v.v, và cũng là một tập hợp các thuộc tính, ví dụ như, picture quality, size, weight, …v.v Battery cũng có các thuộc tính của nó, ví dụ như, battery life, battery size, battery weight, …v.v
Về cơ bản, một đối tượng được biểu diễn ở dạng cây Gốc là đối tượng chính Mỗi nút không phải gốc là một thành phần hoặc tiểu hợp phần của đối tượng Mỗi liên kết đại diện cho mối quan hệ Mỗi nút cũng được liên kết với một tập các thuộc tính Một quan điểm có thể được thể hiện trên bất kỳ nút nào và bất thuộc tính nào của nút
Ví dụ 3: Theo ví dụ 2, một người có thể diễn tả quan điểm về chiếc máy ảnh (nút gốc), ví
dụ như: “I do not like this camera”, hoặc về một trong những thuộc tính của nó, ví dụ như: “the picture quality of this camera is poor” Tương tự, một người có thể diễn tả quan điểm về một thành phần của chiếc máy ảnh, ví dụ: “the battery of this camera is bad”, hoặc quan điểm về thuộc tính của thành phần, ví dụ: “the battery life of this camera is too short”
Để đơn giản, chúng ta sử dụng từ “đặc trưng” (features) để đại diện cho cả thành phần và các thuộc tính, cho phép chúng ta bỏ qua các hệ thống phân cấp Sử dụng các đặc trưng cho sản phẩm cũng khá phổ biến trong thực tế Đối với một người dùng bình thường, nó có lẽ là quá phức tạp để nhìn vào phân cấp các tính năng sản phẩm và thể hiện quan điểm Lưu ý rằng trong khuôn khổ này thì chính đối tượng cũng được coi là một đặc trưng
Gọi các văn bản cần đánh giá (ví dụ, các bài đánh giá sản phẩm) là r Thông thường
r bao gồm một chuỗi các câu r = <s 1 , s 2 , , s m >
Trang 20Định nghĩa đặc trưng ẩn và hiện: Nếu một đặc trưng f xuất hiện trong văn bản r,
nó được gọi là một đặc trưng hiện trong r Nếu f không xuất hiện trong r nhưng được ngụ
ý, nó được gọi là một đặc trưng ẩn trong r
Ví dụ 4: “battery life” trong câu sau là một đặc trưng hiện:
“The battery life of this camera is too short”
“Size” là một đặc trưng ẩn trong câu sau đây, nó không xuất hiện trong câu nhưng lại được ngụ ý:
“This camera is too large”
Định nghĩa đoạn văn thể hiện quan điểm quan điểm về một đặc trưng: Đoạn văn thể
hiện quan điểm quan điểm về một đặc trưng f của một đối tượng được đánh giá trong r là một nhóm các câu liên tiếp trong r thể hiện một quan điểm tích cực hoặc tiêu cực đến f
Thông thường thì một chuỗi các câu (hoặc ít nhất là một câu) trong một văn bản cùng bày tỏ ý kiến về một đối tượng hoặc một đặc trưng của đối tượng Ngoài ra, nó có thể là một câu duy nhất bày tỏ ý kiến về nhiều hơn một đặc trưng:
“The picture quality is good, but the battery life is short”
Định nghĩa quan điểm ẩn và hiện: Quan điểm hiện về một đặc trưng f là một câu chủ
quan diễn tả trực tiếp một quan điểm tích cực hay tiêu cực Quan điểm ẩn về một đặc
trưng f là một câu khách quan hàm ý một quan điểm tích cực hay tiêu cực
Ví dụ 5: Câu sau đây diễn tả quan điểm hiện:
“The picture quality of this camera is amazing”
Trong khi đó câu sau đây lại diễn tả quan điểm ẩn:
“The earphone broke in two days”
Mặc dù câu này nêu một thực tế khách quan (giả sử đó là sự thật), nó ngầm thể hiện một quan điểm tiêu cực về chiếc tai nghe
Định nghĩa chủ thể quan điểm: Chủ thể của một quan điểm cụ thể là một người hoặc
một tổ chức nêu lên quan điểm đó
Trong trường hợp của các bài đánh giá sản phẩm, các bài viết diễn đàn và blog, chủ thể của quan điểm luôn là những người đăng bài, mặc dù đôi khi một vài tác giả trích dẫn hoặc nhắc lại quan điểm của các tác giả khác Chủ thể của quan điểm nắm vai trò quan trọng hơn trong các bài viết mới, vì họ thường tuyên bố rõ ràng cá nhân hay tổ chức đang đưa ra quan điểm Ví dụ, chủ thể quan điểm trong câu “John expressed his disagreement
on the treaty” là “John”
Trang 21Ta đặt mọi thứ lại với nhau để xác định một mô hình về một đối tượng và một tập các quan điểm về đối tượng Một đối tượng được biểu diễn với một tập hợp hữu hạn các
đặc trưng, F = {f 1 , f 2 , , f n } Mỗi đặc trưng f i trong F có thể được thể hiện bằng một tập
hợp hữu hạn các từ hoặc cụm từ W i, là từ đồng nghĩa Nghĩa là, chúng ta có một tập hợp
các từ đồng nghĩa tương ứng W = {W 1 , W 2 , , W n } cho n đặc trưng Từ đó mỗi đặc trưng
f i trong F có một tên (ký hiệu là f i ), sao cho f i W i Mỗi tác giả hoặc chủ thể quan điểm j bình luận về một tập con các đặc trưng S j F Đối với mỗi đặc trưng f k S j mà chủ thể
quan điểm j bình luận, anh/cô ta chọn một từ hoặc cụm từ từ W k để mô tả các đặc trưng,
và sau đó thể hiện một quan điểm tích cực hoặc tiêu cực về nó
Mô hình đơn giản này bao phủ hầu hết các trường hợp nhưng không phải là tất cả
Ví dụ, nó không thể giải quyết tình huống đã mô tả trong câu sau đây: “the viewfinder and the lens of this camera are too close”, câu diễn tả quan điểm tiêu cực về khoảng cách giữa hai thành phần của đối tượng “camera” Chúng ta sẽ tuân theo mô hình được đơn giản hóa này trong phần tiếp theo của chương
Mô hình này cho thấy trong thực tế có ba vấn đề chính Với một tập các văn bản đầu vào D, ta có:
Vấn đề 1: Cả F và W là chưa biết Do đó, để phân tích quan điểm chúng ta cần phải thực
hiện ba nhiệm vụ:
Nhiệm vụ 1: Xác định và trích xuất các đặc trưng của đối tượng đã được nhận xét
trong mỗi văn bản d D
Nhiệm vụ 2: Xác định các quan điểm về các đặc trưng là tích cực, tiêu cực hay trung lập
Nhiệm vụ 3: Nhóm các từ đồng nghĩa của các đặc trưng, để những người khác nhau có thể sử dụng các từ hoặc cụm từ khác nhau để mô tả một đặc trưng
Vấn đề 2: Biết F nhưng chưa biết W Điều này cũng tương tự như vấn đề 1, nhưng dễ
dàng hơn đôi chút Cả ba nhiệm vụ cho vấn đề 1 vẫn cần phải được thực hiện, nhưng
Nhiệm vụ 3 trở thành vấn đề ghép các đặc trưng tìm được với tập các đặc trưng đã cho F
Vấn đề 3: Biết W (do đó F cũng đã biết) Chúng ta chỉ cần phải thực hiện nhiệm vụ 2 ở
trên, cụ thể là, xác định các quan điểm về các đặc trưng là tích cực, tiêu cực hay trung lập sau khi tất cả các câu có chứa chúng được chiết xuất (khá đơn giản)
Rõ ràng, vấn đề đầu tiên là khó giải quyết nhất Vấn đề 2 dễ hơn một chút Vấn đề 3
dễ nhất, nhưng rất thực tế
Ví dụ 6: Một công ty điện thoại di động muốn khai thác các đánh giá của khách hàng về
một vài mẫu điện thoại của mình Rất thực tế khi đưa ra tập đặc trưng F mà công ty quan
Trang 22tâm và cũng như tập các từ đồng nghĩa của mỗi đặc trưng (mặc dù các tập có thể không đầy đủ) Do đó, không cần thực hiện nhiệm vụ 1 và 3 (là những vấn đề rất thách thức)
Kết quả: Kết quả cuối cùng cho mỗi văn bản d là một tập các cặp Mỗi cặp được ký hiệu
là (f, SO), trong đó f là một đặc trưng và SO là định hướng ngữ nghĩa hoặc quan điểm (tích cực hay tiêu cực) thể hiện trong d về đặc trưng f Chúng ta bỏ qua quan điểm trung
lập vì chúng thường không hữu ích
Lưu ý rằng mô hình này không xem xét đến độ mạnh của mỗi quan điểm, nghĩa là, cho quan điểm là rất tiêu cực (hoặc tích cực) hay chỉ hơi tiêu cực (hoặc tích cực)
Có rất nhiều cách để sử dụng các kết quả Một cách đơn giản đưa ra một bản tóm tắt dựa trên các đặc trưng của các quan điểm về đối tượng Chúng ta sử dụng một ví dụ sau
để minh họa cho điều này
Ví dụ 7: Giả sử chúng ta tóm tắt các đánh giá về một máy ảnh kỹ thuật số cụ thể,
digital_camera_1 Bản tóm tắt trông giống như trong hình 1.1
Hình 1.1: Ví dụ về bảng tóm tắt các quan điểm dựa trên đặc trưng
Trong hình 1.1, “picture quality” và “size” là những đặc trưng sản phẩm Có 123 ý kiến thể hiện quan điểm tích cực về picture quality, và chỉ có 6 thể hiện quan điểm tiêu cực Các <câu nhận xét cụ thể> liên kết các điểm số tới các câu cụ thể và/hoặc toàn bộ bài đánh giá cho thấy quan điểm tích cực hay tiêu cực về đặc trưng
Với một bản tóm tắt như vậy, người dùng có thể dễ dàng nhìn thấy hiện tại khách hàng cảm nhận như thế nào về chiếc máy ảnh kỹ thuật số Nếu anh/cô ta quan tâm đến một tính năng đặc biệt, anh/cô ta có thể đi sâu bằng cách đi theo các <câu đánh giá cụ thể> đã được liên kết để xem lý do tại sao khách hàng thích nó và/hoặc những gì họ chưa hài lòng Bản tóm tắt cũng có thể được hình dung bằng cách sử dụng một biểu đồ thanh
Trang 23Hình 1.2 (A) cho thấy các tính năng dựa trên bản tóm tắt ý kiến của một máy ảnh kỹ thuật
số
Trong hình, các thanh ở trên trục X cho thấy tỉ lệ những quan điểm tích cực về các tính năng khác nhau, và các thanh ở dưới trục X cho thấy tỉ lệ các quan điểm tiêu cực về các tính năng đó
(A): Bản tóm tắt quan điểm dựa trên đặc trưng của chiếc máy ảnh kỹ thuật số
(B): So sánh quan điểm về hai chiếc máy ảnh kỹ thuật số
Hình 1.2: Bảng tóm tắt và so sánh trực quan dựa trên đặc trưng
Trang 24So sánh tóm tắt quan điểm của một vài sản phẩm cạnh tranh thậm chí còn thú vị hơn Hình 1.2 (B) cho thấy một so sánh trực quan của những ý kiến của người tiêu dùng trên hai máy ảnh kỹ thuật số cạnh tranh nhau Ta có thể thấy rõ người tiêu dùng nhìn nhận về các tính năng khác nhau của mỗi sản phẩm Máy ảnh kỹ thuật số 1 rõ ràng là vượt trội so với máy ảnh kỹ thuật số 2 Cụ thể, hầu hết khách hàng có ý kiến tiêu cực về chất lượng hình ảnh, pin và zoom của máy ảnh kỹ thuật số 2 Tuy nhiên, trên ba tính năng tương tự, khách hàng chủ yếu là có quan điểm tích cực về máy ảnh kỹ thuật số 1 Về kích thước và trọng lượng, khách hàng có ý kiến tương tự trên cả hai máy ảnh Như vậy, biểu diễn trực quan cho phép người dùng nhìn thấy rõ các máy ảnh so sánh với nhau như thế nào theo từng tính năng
Tiếp theo, chúng ta thảo luận bốn vấn đề quan trọng khác
Phân tách các quan điểm trên chính các đối tượng và các đặc trưng của nó: Rất hữu
ích khi phân tách quan điểm trên chính các đối tượng và quan điểm về các đặc trưng của đối tượng Các quan điểm về các đối tượng phản ánh tâm lý chung của tác giả về đối tượng, đó là những gì công việc phân lớp quan điểm đang thực hiện ở cấp độ tài liệu
Mức độ chi tiết của phân tích: Chúng ta hãy quay trở lại cách biểu diễn của một đối
tượng với một cây thành phần và mỗi thành phần có một tập các thuộc tính Chúng ta có thể nghiên cứu quan điểm ở bất kỳ mức độ nào
Mức độ 1: Xác định quan điểm về chính đối tượng và thuộc tính của nó
Mức độ 2: Xác định quan điểm về các thành phần chính của đối tượng, và quan điểm về các thuộc tính của các thành phần
Ví dụ 8: Cho xem xét sau đây của một máy ảnh (đối tượng),
“I like this camera Its picture quality is amazing However, the battery life is a little short” Trong câu đầu tiên, những quan điểm tích cực là ở mức 1, tức là, một quan điểm tích cực trên máy ảnh Các quan điểm tích cực về chất lượng hình ảnh trong câu thứ hai cũng là ở mức 1 là “picture quality” - một thuộc tính của máy ảnh Câu thứ ba thể hiện một quan điểm tiêu cực đối với một thuộc tính của pin (cấp 2), một thành phần của máy ảnh
Xác định chủ thể quan điểm: Trong một số ứng dụng, rất hữu ích khi xác định và trích
xuất ý kiến của người thể hiện quan điểm, tức là, các cá nhân hoặc tổ chức đã bày tỏ ý kiến nhất định Như chúng ta đã đề cập trước đó, người nêu quan điểm rất hữu ích cho các chủ đề mới và các tài liệu chính thống, trong đó người hoặc tổ chức phát biểu ý kiến thường được ghi trong văn bản rõ ràng Tuy nhiên, những người như vậy như vậy cần phải được xác định bởi hệ thống Trong trường hợp nội dung người dùng tạo ra trên mạng, những người nêu quan điểm thường là tác giả của bài viết trên diễn đàn, các blogger, hoặc
Trang 25nhận xét, những người này thông thường phải đăng nhập bằng tài khoản của mình mặc dù danh tính thực sự của họ trong thế giới thực có thể chưa biết
Xác định đối tượng được đánh giá và giải quyết vấn đề đại từ: Trong đánh giá sản
phẩm, các đối tượng được đánh giá là đã biết Tuy nhiên, đây không phải là trường hợp quan điểm được bày tỏ trên blog và các diễn đàn thảo luận Ví dụ, trong bài viết sau đây:
“I have a Canon S50 camera purchased from Amazon It takes great photos”, hai câu hỏi thú vị được nêu ra: (1) Bài viết ca ngợi đối tượng nào và (2) “It” có nghĩa là gì trong câu thứ hai? Rõ ràng, chúng ta biết rằng bài viết này ca ngợi “Canon S50 camera”, là đối tượng được đánh giá, và ta cũng biết rằng “It” ở đây có nghĩa là “Canon S50 camera”, đây chính là bài toán giải quyết vấn đề đại từ Tuy nhiên, để có một hệ thống tự động phát hiện ra câu trả lời cho câu hỏi này là một vấn đề thách thức Cho đến nay, rất ít công trình thực hiện được điều này
1.2.2 Trích rút đặc trưng của đối tượng
Các nghiên cứu hiện tại về trích rút đặc trưng chủ yếu được thực hiện từ các bài đánh giá sản phẩm trực tuyến Chúng ta sẽ tập trung vào các bài đánh giá trong phần này Một thực tế phổ biến là người bán hàng trực tuyến (ví dụ, amazon.com) luôn yêu cầu khách hàng của họ đánh giá các sản phẩm đã mua Ngoài ra còn có các trang web đánh giá chuyên dụng như epinions.com Có ba dạng chính khi đánh giá trên Web Các định dạng đánh giá khác nhau có thể cần các kỹ thuật khác nhau để thực hiện nhiệm vụ trích rút đặc trưng
Dạng 1 – Dựa vào ưu nhược điểm và đánh giá chi tiết: Người đánh giá được yêu cầu
mô tả ưu và khuyết điểm riêng biệt và cũng viết một bài đánh giá chi tiết Ví dụ về đánh giá loại này được đưa ra trong hình 1.3
Dạng 2 – Dựa vào ưu điểm và nhược điểm: Người đánh giá được yêu cầu mô tả ưu và
nhược điểm riêng, nhưng không có một đánh giá chi tiết riêng biệt như trong dạng 1 Đó
là, các chi tiết có trong ưu và nhược điểm Ví dụ về đánh giá này được đưa ra trong hình 1.4
Dạng 3 – Dạng tự do: Người đánh giá có thể viết một cách tự do, tức là, không tách ưu
và nhược điểm Ví dụ về đánh giá này được đưa ra trong hình 1.5
Đối với dạng 1 và 2, định hướng quan điểm (hoặc ngữ nghĩa) (tích cực hay tiêu cực)
về các đặc trưng sẽ được đề cập đến vì ưu và khuyết điểm được tách ra Chỉ có đặc trưng sản phẩm cần phải được xác định Đối với dạng 3, chúng ta cần phải xác định cả đặc trưng sản phẩm và định hướng quan điểm
Trang 26Ở cả hai dạng 2 và 3, các nhận xét thường sử dụng câu đầy đủ Tuy nhiên, với dạng
1, ưu và nhược điểm có xu hướng rất ngắn gọn Ví dụ, trong hình 1.3, ưu điểm, chúng ta
có “Great photos, easy to use” được chi tiết hóa trong phần đánh giá chi tiết
PROS AND CONS OF THE IPHONE 6 PLUS
Posted by TopTenSM | MobileNews | Social Buzz
Pros: Bigger screen with high resolution Retina HD display, Better battery life and very fast, Modern technologies and a great camera, More storage for the same relative price
Cons: This phone is very expensive, This iPhone can be bigger than what you may have expected, This new iPhone’s features have been around on Android phones for ages, Apple Pay might not be as secure as Apple claims it would be, The rear camera sticks out
a little bit
The bottom line is up to you, all you need to do is make your own conclusion whether this iPhone is worth each penny you pay for it or not Just remember: Apple is a synonym of quality, and if you are looking for quality, Apple is the perfect place to find it.
Hình 1.3: Ví dụ về bản đánh giá ở dạng 1
“It is a great digital still camera for this century”
September 1 2004
Pros: It’s small in size, and the rotatable lens is great It’s very easy to use, and has fast
response from the shutter The LCD …
Cons: It almost has no cons It could be better if the LCD is bigger and it’s going to be
best if the model is designed to a smaller size
Hình 1.4: Ví dụ về bản đánh giá ở dạng 2 GREAT Camera., Jun 3, 2004
Reviewer: jprice174 from Atlanta, Ga
I did a lot of research last year before I bought this camera It kinda hurt to leave behind
my beloved nikon 35mm SLR, but I was going to Italy, and I needed something smaller, and digital
The pictures coming out of this camera are amazing The 'auto' feature takes great pictures most of the time And with digital, you're not wasting film if the picture doesn't come out
Hình 1.5: Ví dụ về bản đánh giá ở dạng 3