1. Trang chủ
  2. » Công Nghệ Thông Tin

Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)

59 323 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 59
Dung lượng 1,4 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

-

Đỗ Thị Thu Hà

XÁC ĐỊNH BÀI VIẾT CHỨA Ý ĐỊNH NGƯỜI DÙNG TRÊN DIỄN ĐÀN LUẬN VĂN THẠC SĨ KỸ THUẬT

(Theo định hướng ứng dụng)

HÀ NỘI - 2016

Trang 2

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

-

Đỗ Thị Thu Hà XÁC ĐỊNH BÀI VIẾT CHỨA Ý ĐỊNH

NGƯỜI DÙNG TRÊN DIỄN ĐÀN

Chuyên ngành: Khoa học máy tính

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan, luận văn này là công trình nghiên cứu khoa học thực thụ của cá nhân, được thực hiện dưới sự hướng dẫn khoa học của TS Ngô Xuân Bách

Các số liệu, kết quả nghiên cứu và kết luận được trình bày trong luận văn là trung thực và chưa được công bố ở bất kỳ hình thức nào

Tôi xin chịu trách nhiệm về công trình nghiên cứu của mình

HỌC VIÊN

Đỗ Thị Thu Hà

Trang 4

LỜI CẢM ƠN

Lời đầu tiên, tôi xin chân thành cảm ơn TS Ngô Xuân Bách – Học viện Công nghệ Bưu chính Viễn Thông, người đã trực tiếp hướng dẫn tôi thực hiện luận văn này Với sự hướng dẫn, cung cấp tài liệu, động viên của Thầy đã giúp tôi vượt qua nhiều khó khăn về chuyên môn trong suốt quá trình thực hiện luận văn

Tôi xin chân thành cảm ơn, Ban Giám đốc, Ban chủ nhiệm Khoa Sau Đại học và Khoa Công nghệ Thông tin, cùng các Thầy, Cô đã giảng dạy và quản lý đào tạo trong suốt hai năm theo học tại Học viện Công nghệ Bưu chính Viễn thông

Tôi xin chân thành cảm ơn, Hội đồng chấm đề cương đã đưa ra góp ý cho đề cương luận văn, giúp tôi xác định rõ và hoàn thiện hơn về mục đích cũng như nội dung cho luận văn

Cuối cùng, tôi xin cảm ơn gia đình, bạn bè, và các đồng nghiệp đã động viên, tạo điều kiện cho tôi trong suốt thời gian học tập và nghiên cứu

Một lần nữa, tôi xin chân thành cảm ơn !

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC KÝ HIỆU, VIẾT TẮT vi

DANH MỤC CÁC BẢNG vii

DANH MỤC CÁC HÌNH VẼ viii

MỞ ĐẦU 1

CHƯƠNG 1: TỔNG QUAN BÀI TOÁN PHÁT HIỆN Ý ĐỊNH NGƯỜI DÙNG 3 1.1.Xử lý ngôn ngữ tự nhiên 3

1.2.Khái niệm phân loại văn bản 4

1.2.1.Bài toán phân loại văn bản 6

1.3.Bài toán phát hiện ý định người dùng trên diễn đàn 7

1.4.Các nghiên cứu liên quan 8

1.5.Kết chương 10

CHƯƠNG 2: CÁC PHƯƠNG PHÁP PHÁT HIỆN Ý ĐỊNH NGƯỜI DÙNG DỰA TRÊN HỌC MÁY 11

2.1.Phương pháp giải quyết bài toán 11

2.2.Các phương pháp biểu diễn đặc trưng của văn bản 12

2.2.1.Phương pháp TF-IDF 12

a Giới thiệu phương pháp 12

2.2.2.Phương pháp N-Gram 16

a Giới thiệu phương pháp 16

b Công thức tính “xác suất thô” 17

2.3.Các phương pháp học máy xây dựng mô hình phân lớp dữ liệu 18

Trang 6

2.3.1.Phương pháp Nạve Bayes 18

a Định lý Bayes 18

b Mạng Bayes (Bayesian Network) 19

c Khái niệm mạng Bayes 19

d Tính độc lập xác suất trong mạng Bayes 20

e Cách xây dựng mạng Bayes 21

f Phân lớp Naive Bayes 22

2.3.2.Phương pháp SVM (Support Vector Machine) 22

a Giới thiệu phương pháp 22

b Thuật tốn SVM 23

c Huấn luyện SVM 25

d Các ưu thế của SVM trong phân lớp văn bản 26

2.4.Xây dựng chương trình giải quyết bài tốn 27

2.4.1.Thuật tốn EM 27

2.4.2.Thuật tốn FS-EM 29

2.4.3.Thuật tốn Co-Class 30

2.5.Kết chương 32

CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 33

3.1.Dữ liệu thực nghiệm 33

3.2.Thiết lập thực nghiệm 34

3.3.Cơng cụ thực nghiệm 34

3.3.1.Thực nghiệm trên 1 miền dữ liệu 35

3.3.2.Thực nghiệm trên 2 miền dữ liệu 36

a Kịch bản 1 36

b Kịch bản 2 37

3.4.Kết quả thực nghiệm 37

Trang 7

3.4.1.Thực nghiệm trên 1 miền dữ liệu 37

3.4.2.Thực nghiệm trên 2 miền dữ liệu 38

a Kịch bản 1 38

b Kịch bản 2 39

3.4.3.So sánh kết quả thực nghiệm Co-Class với các thuật toán khác 42

3.5.Nhận xét thực nghiệm và kết luận 44

KẾT LUẬN VÀ KIẾN NGHỊ 46

PHỤ LỤC 47

TÀI LIỆU THAM KHẢO 49

Trang 8

DANH MỤC KÝ HIỆU, VIẾT TẮT

EM Expectation - Maximization Cực đại hóa kỳ vọng

NPL Natural language processing Xử lý ngôn ngữ tự nhiên

OCI Online commercial intention Ý định thương mại trực tuyến

SVM Support Vector Machine Máy véc-tơ hỗ trợ

Trang 9

DANH MỤC CÁC BẢNG

Bảng 3.1: Danh sách trang web thu thập dữ liệu 33

Bảng 3.2: Danh sách tập dữ liệu thu được và nhãn dữ liệu 33

Bảng 3.3: Độ chính xác trung bình khi thực nghiệm dữ liệu cùng miền 38

Bảng 3.4: Độ chính xác khi thực nghiệm dữ liệu khác miền kịch bản 1 39

Bảng 3.5: Độ chính xác khi thực nghiệm chủ đề “Điện thoại”, “Điện tử” 40

Bảng 3.6: Độ chính xác khi thực nghiệm chủ đề “Camera”, “TV” 41

Trang 10

DANH MỤC CÁC HÌNH VẼ

Hình 1.1: Bài toán phân lớp văn bản 4

Hình 1.2: Bài toán phát hiện ý định người dùng 7

Hình 2.1: Phương pháp xây dựng chương trình cho bài toán 11

Hình 2.2: Mô tả mô hình vector của văn bản 14

Hình 3.1: So sánh độ chính xác khi thực nghiệm cùng miền 3 thuật toán 42

Hình 3.2: So sánh độ chính xác khi thực nghiệm chéo miền 3 thuật toán 43

Hình 3.3: So sánh độ chính xác khi thực nghiệm chéo miền 3 thuật toán 43

Trang 11

Trong thời gian gần đây, mạng internet ngày càng phát triển mạnh mẽ và rộng rãi, tại diễn đàn mua bán hay thảo luận, ta vẫn bắt gặp những bài viết như “Tôi đang tìm mua một TV plasma 40 inch” hay “Có ai biết chỗ bán quyển sách này không?” Như vậy trong trường hợp đó, ta thấy rằng người dùng hiện đang có ý định muốn mua một chiếc TV hay một quyển sách Từ ý định này, có thể dễ dàng đưa ra quảng cáo dựa trên ý định của người dùng về sản phẩm mà họ đang quan tâm

Đã có một số đề tài trước đây nghiên cứu về chủ đề phân tích ý định người dùng như “Online commercial intention identification” việc xác định ý định người dùng được dựa trên lịch sử người dùng tìm kiếm trên mạng xã hội hay những website tìm kiếm Hoặc trong đề tài phân tích quan điểm người dùng “Natural Language Processing” dựa trên ý định người dùng mong muốn, nhận xét về sản phẩm Như vậy trong những đề tài trước, việc phân tích quan điểm hay ý định người dùng chủ yếu dựa vào hành vi của người dùng

Trong luận văn sẽ trình bày một hướng xác định khác của bài toán là việc phát hiện phân tích ý định của người dùng cần được dựa vào chính những nội dung,

dữ liệu mà người dùng đưa ra Ví dụ như trong tình huống người dùng nhập “Tôi thấy iPhone nên có màn hình lớn hơn” sẽ có ý nghĩa khác so với câu “Tôi muốn mua một chiếc iPhone 5S”

Luận văn sẽ làm rõ cách giải quyết các vấn đề dưới đây:

- Xác định bài viết có chứa ý định giữa nhiều bài viết không có ý định

Trang 12

- Trong một văn bản chứa rất nhiều dữ liệu không liên quan tới chủ đề, tuy nhiên việc xử lý tập dữ liệu cần tìm ra được đâu là dữ liệu nhiễu không liên quan tới ý định người dùng để trích xuất ra được kết quả phân lớp chính xác nhất

- Khi thực hiện xác định ý định người dùng trên 1 chủ đề mới mà chưa

có dữ liệu thực để làm dữ liệu học máy Việc áp dụng bài toán xác định ý định người dùng chéo miền là rất quan trọng Như vậy luận văn sẽ làm rõ được phương pháp xác định ý định người dùng trong 2 trường hợp: dữ liệu cùng miền và dữ liệu chéo miền

Để xây dựng chương trình xác định ý định người dùng, luận văn đưa ra các phương pháp xác định ý định người dùng đã có trước đây như thuật toán EM, thuật toán FS-EM và đề xuất thuật toán Co-Class áp dụng trong trường hợp xác định ý định với dữ liệu trái miền giúp cải thiện được kết quả thu được

Luận văn được chia làm 3 phần:

Chương 1: Luận văn giới thiệu chung về lĩnh vực xử lý ngôn ngữ tự nhiên,

các bài toán ứng dụng của lĩnh vực xử lý ngôn ngữ tự nhiên như phân loại văn bản, phân loại quan điểm v.v Giới thiệu về bài toán phát hiện ý định người dùng trên diễn đàn

Chương 2: Luận văn trình bày về các phương pháp phát hiện ý định sử dụng

phương pháp học máy: phương pháp phân lớp dữ liệu, phương pháp biểu diễn đặc trưng cho văn bản, thuật toán học máy sử dụng trong đề tài Phát biểu bài toán mở rộng của đề tài là khi áp dụng cho 2 trường hợp dữ liệu cùng miền và chéo miền, đưa ra giải pháp và so sánh về độ phức tạp giữa các thuật toán

Chương 3: Luận văn trình bày về kết quả thực nghiệm thuật toán để cuối

cùng đưa ra kết quả so sánh trong quá trình cài đặt thực tế, phân tích, đánh giá kết quả thu được và đưa ra kết luận

Trang 13

CHƯƠNG 1: TỔNG QUAN BÀI TOÁN PHÁT HIỆN Ý

ĐỊNH NGƯỜI DÙNG

Trong chương này, luận văn trình bày chung về lĩnh vực xử lý ngôn ngữ tự nhiên, các bài toán ứng dụng của lĩnh vực xử lý ngôn ngữ tự nhiên như phân loại văn bản, phân loại quan điểm v.v Hướng tiếp cận, lý do chọn đề tài và giới thiệu bài toán phát hiện ý định người dùng trên diễn đàn

1.1 Xử lý ngôn ngữ tự nhiên

Trong mọi lĩnh vực của đời sống, đi cùng với sự phát triển ngày càng mạnh mẽ của công nghệ thông tin, người dùng yêu cầu những ứng dụng máy tính mới hỗ trợ được phần lớn công việc, các ứng dùng đòi hỏi sự thông minh và đạt hiệu quả cao Mặc dù vậy vẫn tồn tại khoảng cách lớn giữa tư duy con người và máy tính, một trong những trở ngại lớn nhất là vấn đề ngôn ngữ Ngôn ngữ tự nhiên của con người và ngôn ngữ của máy tính có nhiều khác biệt Sự khác nhau này dẫn tới sự ra đời của lĩnh vực nghiên cứu xử lý ngôn ngữ tự nhiên

Xử lý ngôn ngữ tự nhiên (natural language processing – NLP) là một nhánh của trí tuệ nhân tạo, tập trung vào các ứng dụng xử lý trên ngôn ngữ của con người Trong trí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất

vì xử lý ngôn ngữ tự nhiên liên quan đến việc xây dựng các hệ thống máy tính hiểu được tư duy và ý nghĩa của ngôn ngữ con người, từ đó có thể tiến hành xử lý chúng

Xử lý ngôn ngữ là một kĩ thuật quan trọng nhằm giúp máy tính hiểu được ngôn ngữ của con người, qua đó hướng dẫn máy tính thực hiện và giúp đỡ con người trong những công việc có liên quan đến ngn ngữ như: dịch thuật, phân tích dữ liệu văn bản, nhận dạng tiếng nói, tìm kiếm thông tin v.v

Xử lý ngôn ngữ tự nhiên là lĩnh vực đã được nghiên cứu từ nhiều năm nay và đạt được nhiều bước tiến quan trọng trong những năm gần đây, đặc biệt trong việc xây dựng các ứng dụng như dịch máy, tìm kiếm thông tin, trích chọn thông tin, tóm tắt văn bản, trả lời tự động và khai phá quan điểm [1] [2] v.v

Trang 14

1.2 Khái niệm phân loại văn bản

Trong những năm gần đây, sự phát triển vượt bậc của công nghệ thông tin dẫn đến việc tăng chóng mặt số lượng các giao dịch thông tin trên mạng Internet đặc biệt là các trang tin tức điện tử, mạng xã hội, diễn đàn trao đổi thông tin… Do

đó mà số lượng văn bản xuất hiện trên mạng Internet cũng tăng theo nhanh chóng Với lượng thông tin lớn như vậy, một yêu cầu lớn đặt ra với chúng ta là làm sao có thể tổ chức và tìm kiếm thông tin một cách có hiệu quả nhất, từ đó có thể dễ dàng khai thác nguồn thông tin vô tận đó nhanh và chính xác, đem lại kết quả cao nhất Từ những yêu cầu trên, ý tưởng cho bài toán phân loại văn bản xuất hiện để giúp giải quyết những vấn đề trên Tuy nhiên, trên thực tế khối lượng thông tin trên Internet lại quá lớn, như vậy việc phân loại văn bản thủ công tuy đem lại kết quả cao nhưng lại không thể thực hiện được Hướng giải quyết cho tất cả vấn đề trên là xây dựng các hệ thống học máy phân loại văn bản tự động

Phân loại văn bản là xử lý nhóm các tài liệu thành các lớp khác nhau Việc phân lớp tài liệu liên quan đến xử lý ra quyết định Với mỗi xử lý phân loại, đầu vào

là một văn bản, cần phải có một quyết định đưa ra xem văn bản đó có thuộc lớp nào hay không Nếu tài liệu thuộc một lớp nào đó thì sau đó cần chỉ ra lớp mà tài liệu đó thuộc vào Ví dụ đưa ra một văn bản bất kỳ như “Apple vừa cho ra mắt sản phẩm Iphone 7”, như vậy cần chỉ được văn bản trên thuộc lớp công nghệ di động, chứ không phải thuộc lớp thể thao, giải trí, xã hội…

Hình 1.1: Bài toán phân lớp văn bản

Đặc điểm nổi bật của bài toán này là sự đa dạng của chủ đề văn bản và tính

đa chủ đề của văn bản Tính đa chủ đề của văn bản làm cho sự phân loại chỉ mang tính tương đối và có phần chủ quan, nếu do con người thực hiện, và dễ bị nhập

Trang 15

nhằng khi phân loại tự động Rõ ràng một bài viết về giáo dục cũng có thể xếp vào kinh tế nếu như bài viết bàn về vấn đề đầu tư cho giáo dục và tác động của đầu tư này đến kinh tế - xã hội Về bản chất, một văn bản là một tập hợp từ ngữ có liên quan với nhau tạo nên nội dung ngữ nghĩa của văn bản Từ ngữ của một văn bản là

đa dạng do tính đa dạng của ngôn ngữ (đồng nghĩa, đa nghĩa, từ vay mượn nước ngoài,…) và số lượng từ cần xét là lớn Thông thường, các lớp cho trước là các chủ

đề nào đó, những cũng có nhiều ứng dụng mà các lớp được thiết lập theo những tiêu chí khác, như phân lớp theo độ ưu tiên, phân lớp theo chủ đề

Các hệ thống phân loại văn bản thường làm việc cùng với các thuật toán tự học (Learning algorithm) Để thực thi thuật toán, cần cung cấp một tập mẫu để cho máy tính học Tập mẫu này gồm có một tập các văn bản được gán nhãn và phân lớp trước, từ cơ sở đó, khi một văn bản được cung cấp cho hệ thống, thì hệ thống sẽ xử

lý thông tin, tiến hành so sánh văn bản đó với các tập mẫu cho trước để phân loại văn bản Bài toán phân loại văn bản là bài toán khó và đang được nghiên cứu rất nhiều trong thời gian gần đây

Việc phân loại văn bản có thể thực hiện bằng phương pháp thủ công, tức là đọc nội dung từng văn bản và gán văn bản đó vào một lớp nào đó Nhưng thực tế,

hệ thống gồm rất nhiều văn bản, vậy nên cách này sẽ tốn rất nhiều thời gian và công sức mà đôi khi việc phân lớp thủ công lại không chính xác khi gặp phải những khó khăn như sau:

- Đối với các lĩnh vực đặc biệt, phân loại các chủ đề về chuyên ngành như y tế, tài chính, ngân hàng vào các lớp cho trước thì cần có sự hiểu biết về các lĩnh vực đó

- Phân loại thủ công đôi khi không chính xác vì quyết định phụ thuộc vào sự hiểu biết và mục đích của người thực hiện phân loại, như vậy kết quả thu được sẽ mang tính cá nhân là chủ yếu

- Quyết định của 2 cá nhân khác nhau có thể nảy sinh bất đồng về quan điểm

Trang 16

Như vậy phương pháp phân loại văn bản thủ cơng là khơng khả thi Do vậy, các hệ thống cần phải sử dụng các phương pháp phân loại văn bản tự động, để phân lớp tự động người ta sử dụng các phương pháp học máy trong trí tuệ nhân tạo như: Nạve Bayes, K láng giềng gần nhất, mạng nơron, máy vector hỗ trợ… để giải quyết bải tốn

Chính vì những nhược điểm của phương pháp thủ cơng nên việc xây dụng một bộ phân lớp văn bản tự động là một điều rất quan trọng và cần thiết, đặc biệt là khi hầu hết các thơng tin được sinh ra và lưu trữ điện tử Việc phân lớp văn bản sẽ giúp tối ưu việc lưu trữ dữ liệu một cách hiệu quả nhất để dễ dàng tìm kiếm và đạt kết quả cao

1.2.1 Bài tốn phân loại văn bản

Phân loại văn bản đã trở thành lĩnh vực nghiên cứu chính trong hệ thống thơng tin hiện nay bởi sự đa dạng của các ứng dụng biến thể của nĩ Phân loại văn bản là cơng việc được sử dụng để hỗ trợ trong quá trình tìm kiếm thơng tin (Information Retrieval), trích chọn thơng tin (Information Extraction), lọc văn bản

tự động Một trong những ứng dụng của phân loại văn bản là trong lĩnh vực hiểu văn bản, việc phân lớp văn bản cĩ thể sử dụng để lọc các văn bản hoặc một phần văn bản chứa dữ liệu cần tìm mà khơng làm mất đi ý nghĩa của văn bản

Phân loại văn bản cĩ nhiều bài tốn biến thể như:

- Phân cụm văn bản: Đưa các văn bản cĩ nội dung giống nhau vào các

nhĩm [8]

- Tĩm tắt văn bản: Tĩm tắt nội dung của một văn bản cho trước

- Xác định quan điểm văn bản

Tuy nhiên, trong nội dung luận văn sẽ tập trung vào 2 dạng biến thể của bài tốn phân loại văn bản là:

- Bài tốn phân lớp dữ liệu

- Bài tốn ra quyết định, xác định quan điểm của văn bản

Trang 17

1.3 Bài toán phát hiện ý định người dùng trên diễn đàn

Trong thời gian gần đây, mạng internet ngày càng phát triển mạnh mẽ và rộng rãi, tại diễn đàn mua bán hay thảo luận, ta vẫn bắt gặp những bài viết như “Tôi đang tìm mua một TV plasma 40 inch” hay “Có ai biết chỗ bán quyển sách này không?” Như vậy trong trường hợp đó, ta thấy rằng người dùng hiện đang có ý định muốn mua một chiếc TV hay một quyển sách Từ ý định này, ta có thể dễ dàng đưa ra quảng cáo dựa trên ý định của người dùng về sản phẩm mà họ đang quan tâm

Vậy nên ý tưởng của luận văn là sẽ đi sâu vào giải quyết bài toán xác định ý định người dùng, giả sử trong tình huống ta thu thập một tập các văn bản trên diễn đàn về một chủ đề bất kỳ, dựa vào nội dung của văn bản đó, ta cần xác định và đưa

ra kết luận rằng người dùng có thực sự quan tâm, hay có nhu cầu muốn mua sản phẩm đó hay không

Hình 1.2: Bài toán phát hiện ý định người dùng

Tuy nhiên, không phải tất cả các bài viết của người dùng đều thể hiện ý định

rõ ràng là cần mua, bán sản phẩm nào đó như “Đã có ai đọc quyển sách này chưa”, bài viết chỉ muốn hỏi về nội dung của quyển sách mà không có nhu cầu mua Hay các bài viết chứa một lượng dữ liệu lớn, nhưng chỉ có một phần nhỏ trong đó thể hiện ra ý định của người dùng, còn phần còn lại chỉ là dữ liệu nhiễu gây khó khăn

Trang 18

trong quá trình phát hiện ý định của người dùng như “Năm kia tôi mua chiếc máy tính để bàn này với giá 10 triệu đồng, máy sử dụng 2 năm vẫn mới và chạy tốt Tôi đang muốn nhượng lại máy tính để đổi máy tính xách tay Nhân tiện, tôi muốn mua máy tính xách tay với giá 15 triệu trở xuống Có ai bán không?”

Như vậy việc xác định ý định văn bản của người dùng không chỉ dừng lại ở việc phân biệt bài viết có thể hiện rõ ràng ý định của người dùng hay không, mà ta còn cần phải xác định được ý định của người dùng trên một tập dữ liệu nhiễu không liên quan, để trích xuất ra được kết quả chính xác

Hiện nay, trên thế giới đã có một số nghiên cứu về việc phân loại văn bản và xác định ý định của người dùng trên mạng xã hội Nhưng các nghiên cứu này chỉ đạt kết quả cao khi áp dụng trên dữ liệu cùng miền và đưa ra kết quả không chính xác trên dữ liệu chéo miền Mà trên thực tế, ta không thể thu thập được dữ liệu đầy

đủ cho tất cả các miền, như vậy việc áp dụng dữ liệu của miền này để xác định ý định cho dữ liệu của miền dữ liệu khác mà đạt được kết quả chính xác cao là rất quan trọng [3]

Luận văn gặp một số khó khăn khi xây dựng phương pháp giải quyết bài toán xác định ý định người dùng như sau:

- Xác định những bài viết có chứa ý định rõ ràng

- Giữa những thông tin gây nhiễu, xác định chính xác ý định của bài viết thể hiện

- Nghiên cứu áp dụng bài toán xác định ý định người dùng trong 2 trường hợp: dữ liệu cùng miền và dữ liệu chéo miền

1.4 Các nghiên cứu liên quan

Trước đây, đã có một số nghiên cứu về chủ đề phân tích quan điểm trên mạng xã hội [6]

Ví dụ như trong đề tài “Online commercial intention (OCI) identification [4]” việc xác định ý định người dùng được dựa trên lịch sử người dùng tìm kiếm trên mạng xã hội hay những website tìm kiếm Khi xác định quan điểm người dùng dựa trên lịch sử tìm kiếm của người dùng, việc xác định sẽ dựa trên từ khóa được sử

Trang 19

dụng (thường là 2-3 từ), ví dụ khi người dùng muốn tìm kiếm hoặc mua 1 mặt hàng thì thay vì viết “Tôi muốn mua 1 chiếc TV” thì người dùng sẽ nhập từ khóa “TV Sony” hoặc “TV Samsung” để tìm kiếm Như vậy khi xác định quan điểm dựa vào hành vi tìm kiếm sẽ không đánh giá chính xác ý định của người dùng tại thời điểm

về sản phẩm nào đó

Hiện nay, việc phân tích quan điểm hay ý định người dùng chủ yếu dựa vào lịch sử tìm kiếm, hay từ khóa tìm kiếm của người dùng trên internet, các mạng xã hội rất phổ biến hay còn gọi là dựa vào hành vi của người dùng Như vậy điểm khác biệt của luận văn ở đây là việc phát hiện phân tích ý định của người dùng được dựa vào chính những nội dung, dữ liệu mà người dùng đưa ra

Hiện nay đã có một số nghiên cứu về việc phân loại văn bản và xác định ý định của người dùng trên mạng xã hội Nhưng các nghiên cứu này chỉ đạt kết quả cao khi áp dụng trên dữ liệu cùng miền và đưa ra kết quả không chính xác trên dữ liệu chéo miền Mà trên thực tế, ta không thể thu thập được dữ liệu đầy đủ cho tất cả các miền, như vậy việc áp dụng dữ liệu của miền này để xác định ý định cho dữ liệu của miền dữ liệu khác mà đạt được kết quả chính xác cao là rất quan trọng

Như chương 1 đã trình bày, trong phần này đề tài trình bày rõ hơn về phương pháp xác định ý định của người dùng trên diễn đàn Phương pháp áp dụng xác định

ý định của người dùng sẽ làm rõ được những vấn đề sau:

- Xác định những bài viết có chứa ý định và bài viết không có ý định

- Việc xử lý tập dữ liệu để trích xuất ra được đâu là dữ liệu nhiễu không liên quan tới ý định người dùng để trích xuất ra được kết quả chính xác

Trang 20

- Nghiên cứu áp dụng bài toán xác định ý định người dùng trong 2 trường hợp: dữ liệu cùng miền và dữ liệu chéo miền

1.5 Kết chương

Xử lý ngôn ngữ tự nhiên là một lĩnh vực mới tuy nhiên khá quen thuộc với mọi người và hiện nay trở thành xu hướng nghiên cứu mới cho ngành công nghệ thông tin

Như vậy Chương 1 đã trình bày khái quát về lĩnh vực xử lý ngôn ngữ tự nhiên, giới thiệu về bài toán phân loại văn bản Sau đó đề xuất bài toán xác định ý định người dùng và các nghiên cứu liên quan tới đề tài xác định ý định người dùng, từ đó đưa ra những vấn đề cần làm rõ và giải quyết trong luận văn

Trong Chương 2, luận văn sẽ trình bày về hướng giải quyết cho bài toán xác định ý định người dùng, và đi sâu hơn trình bày về các phương pháp sẽ áp dụng để giải quyết bài toán

Trang 21

CHƯƠNG 2: CÁC PHƯƠNG PHÁP PHÁT HIỆN Ý ĐỊNH

NGƯỜI DÙNG DỰA TRÊN HỌC MÁY

Trong chương này, luận văn trình bày chi tiết về các phương pháp được áp dụng trong bài tốn phát hiện ý định người dùng Chương 2 gồm 3 phần:

- Trình bày về phương pháp giải quyết bài tốn phát hiện ý định người dùng đã cĩ, đưa ra hướng phát triển thuật tốn để cải thiện kết quả xử

lý trong 2 trường hợp dữ liệu cùng miền và chéo miền

- Trình bày về các phương pháp biểu diễu đặc trưng cho văn bản được

áp dụng trong bài tốn phát hiện ý định người dùng: N-Gram, IDF

TF Trình bày về các phương pháp học máy, xây dựng mơ hình phân lớp

dữ liệu cho bài tốn phát hiện ý định người dùng: Nạve Bayes, Support Vector Machine (SVM)

2.1 Phương pháp giải quyết bài tốn

Các bước thực hiện để xây dựng phương pháp giải quyết cho bài tốn xác định ý định người dùng được mơ tả như trong hình vẽ dưới đây:

Hình 2.1: Phương pháp xây dựng chương trình cho bài tốn

Để giải quyết bài tốn xác định ý định của người dùng trên diễn đàn, ta sẽ thực hiện xác định qua 2 giai đoạn chính như sau:

 Giai đoạn Huấn luyện: sẽ thu thập dữ liệu mẫu, thực hiện tiền xử lý (loại bỏ các ký tự đặc biệt, ký tự thừa, các từ stopwords khơng ảnh hưởng tới ý nghĩa của văn bản) Xây dựng 2 bộ dữ liệu học đã gán nhãn và bộ dữ liệu thực

Trang 22

nghiệm chưa gán nhãn Trong đề tài giai đoạn huấn luyện sẽ sử dụng 2 thuật tốn là TF-IDF, và N-Gram với n=1,2,3…

 Giai đoạn Phân loại: sẽ tiến hành thực hiện các thuật tốn trích chọn đặc trưng và phân lớp cần thiết để xác định các đặc trưng và các lớp dữ liệu đầu

ra Sử dụng kết quả ở giai đoạn Tiền xử lý làm dữ liệu đầu vào cho các thuật tốn trích chọn đặc trưng và phân lớp, từ đĩ đưa ra kết luận về nhãn của bộ

dữ liệu chưa gán nhãn Giai đoạn phân loại trong đề tài sẽ sử dụng 2 thuật tốn là SVM và thuật tốn Nạve Bayes để tiến hành phân lớp cho dữ liệu Các phần tiếp theo của chương 2 sẽ trình bày chi tiết hơn về các thuật tốn được lựa chọn và áp dụng vào việc xác định ý định của văn bản

2.2 Các phương pháp biểu diễn đặc trưng của văn bản

2.2.1 Phương pháp TF-IDF

a Giới thiệu phương pháp

Mục đích của việc phân loại là để phân loại ra các thơng điệp mà chứa văn bản khơng phù hợp với chủ đề của danh sách, các tính năng văn bản là các tính năng chính trong hệ thống Các tính năng văn bản sẽ đại diện cho sự liên quan giữa chủ đề của văn bản với danh sách như thế nào Mỗi danh sách cĩ một chủ đề khác nhau (hoặc nhiều chủ đề), vì vậy hệ thống cần một phương thức để tự động lấy ra chủ đề chính của 1 nguồn danh sách, và tính tốn sự tương tự của thơng điệp với chủ đề của nguồn

Trong phương pháp tiếp cận truyền thống cũng là một trong những phương pháp được sử dụng nhiều nhất đĩ là phương pháp tần suất thuật ngữ ”term frequency” (TF) hay tần suất thuật ngữ - nghịch đảo tần suất văn bản “term frequency-inverse document frequency” (viết tắt là TF-IDF) được sử dụng trong việc phân loại văn bản Về cơ bản thì thuật tốn TF-IDF là một kỹ thuật giúp chuyển đởi thơng tin dưới dạng văn bản thành một mơ hình vector trong khơng gian qua các trọng số Mơ hình vector trong khơng gian và thuật tốn TF-IDF được phát triển bởi Gerard Salton vào đầu thập niên 1960s

Mặc dù đơn giản, nhưng mơ hình vector khơng gian và những cải tiến của nĩ hiện nay vẫn là cách phở biến để biểu diễn văn bản trong khai phá dữ liệu và truy

Trang 23

xuất thông tin Tuy nhiên, một trong những điểm yếu của mô hình vector không gian là số chiều lớn (high- dimensonal), có khoảng cỡ chục triệu chiều trong không gian vector nếu như luận văn áp dụng chúng vào cơ chế tìm kiếm web

Phương pháp này chỉ ra tầm quan trọng của một từ với văn bản trong hàng loạt các văn bản như thế nào Trong TF-IDF, tầm quan trọng của một từ với văn bản lớn hơn khi nó được sử dụng ở trong một văn bản, và nó sẽ thấp hơn khi một từ xuất hiện nhiều trong nhiều bộ văn bản

Thuật toán này được biểu diễn dưới công thức sau:

TF-IDF(t, d, D) = TF(t, d) * IDF(t, D) (2.1) Trong đó:

- t là thuật ngữ hay có thể là một từ trong văn bản

- d là văn bản cần được phân loại chủ đề

- N là tổng số văn bản trong bộ dữ liệu

- |{d ∈ D ∶ t ∈ d}| là số văn bản thuật ngữ t xuất hiện trong bộ dữ liệu Trọng số TF-IDF đạt kết quả cao khi tần suất của thuật ngữ trong văn bản cần phân loại cao và tần suất của thuật ngữ đó trong bộ dữ liệu chung để từ đó ta có thể phân loại ra được các thuật ngữ phổ biến với từng chủ đề Do trọng số trong hàm log của IDF luôn lớn hơn hoặc bằng 1, vì vậy giá trị của IDF và TF-IDF luôn lớn hơn hoặc bằng 0 Nếu một thuật ngữ xuất hiện trong nhiều tài liệu, thì trọng số bên trong hàm log sẽ có cận là 1, khi đó IDF và TF-IDF sẽ có cận là 0

Trang 24

Sau khi trọng số TF-IDF được tính toán sẽ sinh ra một chỉ số TF-IDF đại diện cho giá trị một vector của văn bản đó Từ đó ta có thể tính được tổng các vector sinh ra một vector cho cả văn bản, sau đó sử dụng vector để tính tần suất và

so sánh, đánh giá văn bản

Hình 2.2: Mô tả mô hình vector của văn bản

Trong đó:

- X1, X2,…,Xn là các từ xuất hiện trong câu

- W0, W1, W2,… ,Wn là các vector ứng với từng từ trong một văn bản Tương tự với 2 văn bản cũng như vậy, sau đó hệ thống có thể tính toán được tính tương đồng lượng giác giữa các vector trong văn bản Ngoài ra các vector có thể được sử dụng trong việc phân loại thuật toán như một vector các tính năng, trong trường hợp này thuật toán phân loại sẽ học những thuộc tính có ích để quyết định việc phân loại Trọng số TF-IDF là trọng số phổ biến được sử dụng trong các công cụ tìm kiếm cũng như các công việc phân loại văn bản khác nhau So với phương pháp tần số văn bản nghịch đảo, TF-IDF cho kết quả là một số thấp hơn với mỗi thuật ngữ nếu thuật ngữ đó xuất hiện nhiều lần trong bộ văn bản chung, điều này giúp loại bỏ các thuật ngữ phổ biến ví dụ như “the” hay “and” trong tiếng Anh, hoặc những từ thường gặp mà danh sách stopwords còn thiếu Tuy nhiên, trong trường hợp mà bộ văn bản gồm nhiều chủ đề, tần suất xuất hiện của một thuật ngữ

Trang 25

không đánh giá được là thuật ngữ này liên quan đến danh sách Vì vậy kế hoạch tính trọng số thường không sử dụng để nhận diện chủ đề của từng văn bản trong một bộ văn bản chung

Vì việc thực hiện tính trọng số không phù hợp với mục đích phân loại của đề tài, nên trong luận văn áp dụng một phương pháp mới mà về cơ bản điểm số là sự tương đồng của một văn bản so với chủ đề chính của một nguồn dữ liệu Khó khăn

ở đây chính là để phân biệt tần suất các từ thực sự liên quan với chủ đề chính của nguồn, và công việc đó là thường xuyên vì những từ đó thường khá phổ biến Việc phân biệt này là khả thi khi luận văn quan sát tần số xuất hiện của các từ trong một nguồn dữ liệu chung lớn hơn Khi tần số của một từ trong một nguồn có chủ đề đặc biệt (hay gọi là nguồn local) và trong một nguồn dữ liệu chung (hay gọi là nguồn global), khi mà một lượng người dùng lớn cập nhật các thông điệp để so sánh, tần

số của từ có thể giúp đánh giá mặc dù từ đó tần suất sử dụng nhiều trong nguồn Việc so sánh tần số sẽ đưa ra một cách nhìn chính xác hơn về độ liên quan giữa một từ cụ thể với một nguồn dữ liệu chủ đề như thế nào

Ví dụ, giả sử có một nguồn dữ liệu chủ đề bao gồm các bài viết từ một danh sách của một tập người dùng trên Twitter về chủ đề cơ sở dữ liệu, và có một nguồn cấp dữ liệu chung lớn hơn thu thập tất cả các bài viết bởi người dùng của Twitter về các chủ đề khác nhau Xét về trực quan từ “MySQL” sẽ được xuất hiện thường xuyên trong nguồn dữ liệu chủ đề, như là kết quả của sở thích của người dùng về hệ thống cơ sở dữ liệu Không giống như nguồn dữ liệu tập trung, nguồn dữ liệu chung sẽ chứa nhiều người dùng với nhiều sở thích khác nhau Vậy sẽ có hàng ngàn chủ

đề khác nhau trong nguồn dữ liệu chung này và một trong số chúng sẽ là hệ thống

cơ sở dữ liệu Vì vậy, tần số của chủ đề cơ sở dữ liệu trong nguồn dữ liệu chung sẽ thấp nhiều, do đó từ “MySQL” sẽ xuất hiện với tần số ít hơn Nếu luận văn đưa ra một từ phổ biến như thời gian, con người hoặc hôm nay, dự kiến rằng những từ này rất phổ biến trong cả nguồn dữ liệu chủ đề và nguồn dữ liệu chung “Today” có thể xuất hiện thường xuyên hơn “MySQL” trong nguồn dữ liệu chủ đề, tuy nhiên luận văn sẽ có thể phân biệt được 2 từ này bởi tần số của chúng trong nguồn dữ liệu

Trang 26

chung Các từ như “and”,”or”… có thể được gỡ bỏ bởi một danh sách từ dừng (stop words list), tuy nhiên những từ như “thanh niên” có thể là một thuật ngữ liên quan trong một số nguồn (Ví dụ như: Báo thanh niên trong nguồn tin tức)

2.2.2 Phương pháp N-Gram

a Giới thiệu phương pháp

Mô hình ngôn ngữ thống kê cho phép gán (ước lượng) xác suất cho một chuỗi m phần tử (thường là từ) P(w1w2…wm) tức là cho phép dự đoán khả năng một chuỗi từ xuất hiện trong ngôn ngữ đó Theo công thức Bayes:

Thì ta dễ dàng suy ra được:

P(w1w2…wm) = P(w1) * P(w2|w1) * P(w3|w1w2) *…* P(wm|w1w2…wm-1). (2.5) Theo công thức này thì bài toán tính xác suất của mỗi chuỗi từ quy về bài toán tính xác suất của một từ với điều kiện biết các từ trước nó (có thể hiểu

P(w1)=P(w1|start) là xác suất để w1 đứng đầu chuỗi hay nói cách khác người ta có thể đưa thêm ký hiệu đầu dòng start vào mỗi chuỗi)

Trong thực tế, dựa vào giả thuyết Markov người ta chỉ tính xác suất của một từ dựa vào nhiều nhất N từ xuất hiện liền trước nó, và thông thường N=0, 1, 2, 3 Vì vậy nhiều người gọi mô hình ngôn ngữ là mô hình N-gram, trong đó N là số lượng từ (bao gồm cả từ cần tính và các từ ngữ cảnh phía trước)

Theo công thức Bayes, mô hình ngôn ngữ cần phải có một lượng bộ nhớ vô cùng lớn để có thể lưu hết xác suất của tất cả các chuỗi độ dài nhỏ hơn m Rõ ràng, điều này là không thể khi m là độ dài của các văn bản ngôn ngữ tự nhiên (m có thể tiến tới vô cùng) Để có thể tính được xác suất của văn bản với lượng bộ nhớ chấp nhận được, ta sử dụng xấp xỉ Markov bậc n:

P (wm|w1, w2,…, wm-1) = P(wm|wm-n,wn-m+1, …,wm-1) (2.6)Nếu áp dụng xấp xỉ Markov, xác suất xuất hiện của một từ (wm) được coi như chỉ phụ thuộc vào n từ đứng liền trước nó (wm-nwm-n+1…wm-1) chứ không phải

Trang 27

phụ thuộc vào toàn bộ dãy từ đứng trước (w1w2…wm-1) Như vậy, công thức tính xác suất văn bản được tính lại theo công thức:

P (w1w2…wm) = P (w1) * P (w2|w1) * P (w3|w1w2) *… (2.7)

* P (wm-1|wm-n-1wm-n …wm-2) * P (wm|wm-nwm-n+1…wm-1) Với công thức này, ta có thể xây dựng mô hình ngôn ngữ dựa trên việc thống

kê các cụm có ít hơn n+1 từ Các mô hình N-gram được hình dung thông qua ví dụ như sau:

Ví dụ 2.1: Giả sử cần tính xác suất p=P (nên|không thầy đố mày làm):

- Mô hình 1-Gram (unigram) tính xác suất của một từ mà không phụ thuộc vào các từ trước nó, tức là không có ngữ cảnh:

b Công thức tính “xác suất thô”

Gọi C (wi-n+1 wi-1wi) là tần số xuất hiện của cụm (wi-n+1 wi-1wi) trong tập văn bản huấn luyện

Gọi P (wi|wi-n+1 wi-1) là xác suất wi đi sau cụm wi-n+1 wi-2wi-1

Ta có công thức tính xác suất như sau:

𝑃(𝑤𝑖|𝑤𝑖−𝑛+1… 𝑤𝑖−1) = 𝐶(𝑤𝑖−𝑛+1 … 𝑤𝑖−1𝑤𝑖)

∑ 𝐶(𝑤𝑤 𝑖−𝑛+1… 𝑤𝑖−1𝑤) (2.8)

Dễ thấy, ∑wC(wi−n+1… wi−1w) chính là tần số xuất hiện của cụm

wi-n+1 wi-1 trong văn bản huấn luyện Do đó công thức trên viết lại thành:

𝑃(𝑤𝑖|𝑤𝑖−𝑛+1… 𝑤𝑖−1) = 𝐶(𝑤𝑖−𝑛+1 … 𝑤𝑖−1𝑤𝑖)

𝐶(𝑤𝑖−𝑛+1… 𝑤𝑖−1) (2.9)

Trang 28

Tỉ lệ ở vế phải cịn gọi là tỉ lệ tần số Cách tính xác suất dựa vào tỉ lệ tần số cịn gọi là ước lượng xác suất cực đại

2.3 Các phương pháp học máy xây dựng mơ hình phân lớp dữ liệu

2.3.1 Phương pháp Nạve Bayes

a Định lý Bayes

Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên A khi biết sự kiện liên quan B Xác suất này được kí hiệu là P(A|B), và đọc là “xác suất của A nếu cĩ B” Đại lượng này được gọi là xác suất cĩ điều kiện hay xác suất hậu nghiệm vì nĩ được rút ra từ giá trị được cho của B hoặc phụ thuộc vào giá trị đĩ Theo định lý Bayes, xác suất xảy ra A khi biết B sẽ phụ thuộc vào 3 yếu tố:

- Xác suất xảy ra A của riêng nĩ, khơng quan tâm đến B Kí hiệu P(A)

đọc là xác suất của A, đây được gọi là xác suất tiên nghiệm (tiên nghiệm nghĩa là khơng quan tâm đến bất kì thơng tin về B)

- Xác suất xảy ra B của riêng nĩ, khơng quan tâm đến A Kí hiệu P(B)

và đọc là “xác suất của B” Đại lượng này cịn gọi là hằng số chuẩn hĩa, vì nĩ luơn giống nhau, khơng phụ thuộc vào sự kiện A đang muốn biết

- Xác suất xảy ra B khi biết A xảy ra Kí hiệu P(B|A) và đọc là “xác suất của B nếu cĩ A” Đại lượng này gọi là khả năng (likelihood) xảy ra B khi biết A đã xảy ra

Khi biết 3 đại lượng này, xác suất của A khi biết B được cho bởi cơng thức:

𝑃(𝐴|𝐵) = 𝑃(𝐵|𝐴)𝑃(𝐴)

𝑃(𝐵) =

𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 ∗ 𝑝𝑟𝑖𝑜𝑟 𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑖𝑛𝑔 _ 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡

Từ đĩ dẫn tới:

P (A | B) P(B) =P (A ⋂ B) = P (B | A) P (A) (2.11) Khi cĩ n giả thuyết thì:

𝑃(𝐴𝑖|𝐵) = 𝑃(𝐵|𝐴𝑖)𝑃(𝐴𝑖)

(2.10)

Trang 29

b Mạng Bayes (Bayesian Network)

Mạng Bayes là một đồ thị biểu diễn phân phối xác suất trên một tập biến Nó thường dùng để mã hóa các tri thức của chuyên gia và ý niệm của họ về một lĩnh vực nào đó Do đó mạng Bayes còn được gọi là mạng ý niệm (Belief Network) hoặc mạng nhân quả (Causal Network)

Các nút trong mạng Bayes biểu diễn các biến cần quan tâm và các cung đại diện cho các phụ thuộc có điều kiện giữa các biến Các phụ thuộc được định lượng bởi các xác suất có điều kiện

Trong trường hợp tổng quát, các nút có thể đại diện cho các loại biến khác, một tham số đo được, một biến ẩn (latent variable), hay một giả thuyết…

c Khái niệm mạng Bayes

Mạng Bayes biểu diễn phân phối trên một tập biến U = {V1,…,Vn}gồm hai thành phần:

- Đồ thị G không chu trình, có hướng gọi tắt là DAG (Directed acyclic graph): mỗi đỉnh biểu diễn một biến Cạnh giữa hai nút Vi và Vj biểu diễn ảnh hưởng trực tiếp giữa trạng thái của hai nút; nếu không có cạnh giữa hai nút thì hai nút này độc lập có điều kiện với nhau Các nút cha của nút V kí hiệu là Pa(V), với các thực thể là Pa(V) Kí hiệu

Fv = {V}Pa(V) là họ hàng của V Cấu trúc DAG này mã hóa một tập các nhận định độc lập, điều này hạn chế một số tương tác có thể xảy ra giữa các biến Nút V độc lập với các nút không là hậu duệ của

nó khi cho trước giá trị của các nút cha Pa(V)

- Một phần định lượng của G: về mặt ngữ nghĩa, một biến chỉ ở một trạng thái nhưng vì ta không biết là trạng thái nào nên phần định lượng của đồ thị là một bảng phân phối xác suất biểu diễn ý niệm về trạng thái của các biến Mỗi biến V trong G được định lượng bởi một bảng xác suất có điều kiện P (V | Pa(V)), tức là biểu diễn cường độ của sự phụ thuộc giữa V và Pa(V) Vì P (V | Pa(V)) là một hàm của

Fv, nên ta xem nó theo cách sau đây: với mỗi thực thể Pa(V), một số

Ngày đăng: 27/04/2017, 14:08

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Ngo Xuan Bach, Tu Minh Phuong, “Leveraging User Ratings for Resource- Poor Sentiment Classification”, In Proceedings of the 19th International Conference on Knowledge-Based and Intelligent Information & Engineering Systems (KES), Procedia Computer Science, pp. 322–331, 2015 Sách, tạp chí
Tiêu đề: Leveraging User Ratings for Resource-Poor Sentiment Classification
[3] Zhiyuan Chen, Bing Liu, Meichun Hsu, Malu Castellanos, and Riddhiman Ghosh, “Identifying Intention Posts in Discussion Forums”, 2013 Sách, tạp chí
Tiêu đề: Identifying Intention Posts in Discussion Forums
[4] Honghua (Kathy) Dai, Lingzhi Zhao, Zaiqing Nie, Ji-Rong Wen, Lee Wang, Ying Li, “Detecting online commercial intention (OCI)”, 2006 Sách, tạp chí
Tiêu đề: Detecting online commercial intention (OCI)
[5] Steve R. Gunn, “Support Vector Machines for Classification and Regression”, 1998 Sách, tạp chí
Tiêu đề: Support Vector Machines for Classification and Regression
[6] R. A. S. C. Jayasanka, M. D. T. Madhushani, E. R. Marcus, I. A. A. U. Aberathne, S. C. Premaratne “Sentiment Analysis for Social Media”, 2014 Sách, tạp chí
Tiêu đề: Sentiment Analysis for Social Media
[7] Hiroshi Kanayama, Tetsuya Nasukawa , “Textual demand analysis: detection of users' wants and needs from opinions”, 2008 Sách, tạp chí
Tiêu đề: Textual demand analysis: detection of users' wants and needs from opinions
[8] Fariba Sadri, Weikun Wang, Afroditi Xafi, “Intention Recognition with Clustering”, 2012 Sách, tạp chí
Tiêu đề: Intention Recognition with Clustering
[9] P Hiroshi Shimodaira, “Text Classification using Naive Bayes”, 2015 Sách, tạp chí
Tiêu đề: Text Classification using Naive Bayes

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Bài toán phân lớp văn bản - Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)
Hình 1.1 Bài toán phân lớp văn bản (Trang 14)
Hình 1.2: Bài toán phát hiện ý định người dùng - Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)
Hình 1.2 Bài toán phát hiện ý định người dùng (Trang 17)
Hình 2.1: Phương pháp xây dựng chương trình cho bài toán - Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)
Hình 2.1 Phương pháp xây dựng chương trình cho bài toán (Trang 21)
Hình 2.2: Mô tả mô hình vector của văn bản - Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)
Hình 2.2 Mô tả mô hình vector của văn bản (Trang 24)
Bảng 3.2: Danh sách tập dữ liệu thu được và nhãn dữ liệu - Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)
Bảng 3.2 Danh sách tập dữ liệu thu được và nhãn dữ liệu (Trang 43)
Bảng 3.3: Độ chính xác trung bình khi thực nghiệm dữ liệu cùng miền - Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)
Bảng 3.3 Độ chính xác trung bình khi thực nghiệm dữ liệu cùng miền (Trang 48)
Bảng 3.4: Độ chính xác khi thực nghiệm dữ liệu khác miền kịch bản 1 - Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)
Bảng 3.4 Độ chính xác khi thực nghiệm dữ liệu khác miền kịch bản 1 (Trang 49)
Bảng 3.5: Độ chính xác khi thực nghiệm chủ đề “Điện thoại”, “Điện tử” - Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)
Bảng 3.5 Độ chính xác khi thực nghiệm chủ đề “Điện thoại”, “Điện tử” (Trang 50)
Bảng 3.6: Độ chính xác khi thực nghiệm chủ đề “Camera”, “TV” - Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)
Bảng 3.6 Độ chính xác khi thực nghiệm chủ đề “Camera”, “TV” (Trang 51)
Hình 3.1: So sánh độ chính xác khi thực nghiệm cùng miền 3 thuật toán - Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)
Hình 3.1 So sánh độ chính xác khi thực nghiệm cùng miền 3 thuật toán (Trang 52)
Hình 3.2: So sánh độ chính xác khi thực nghiệm chéo miền 3 thuật toán - Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)
Hình 3.2 So sánh độ chính xác khi thực nghiệm chéo miền 3 thuật toán (Trang 53)
Hình 3.3: So sánh độ chính xác khi thực nghiệm chéo miền 3 thuật toán - Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)
Hình 3.3 So sánh độ chính xác khi thực nghiệm chéo miền 3 thuật toán (Trang 53)
Hình 2: Mô tả ứng dụng - Xác định bài viết chứa ý định người dùng trên diễn đàn (LV thạc sĩ)
Hình 2 Mô tả ứng dụng (Trang 58)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w