1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia

53 512 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 53
Dung lượng 1,4 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

DANH SÁCH CÁC HÌNH Hình 1: Quá trình khai phá dữ tri thức Hình 2: Các kỹ thuật Khai phá dữ liệu Hình 3: Thuật toán KNN phân lớp quan điểm Hình 4: Mô hình thực nghiệm Hình 5: Quy trình xử

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ -

NGÔ THỊ HOA

PHÂN LOẠI QUAN ĐIỂM TRÊN PHƯƠNG TIỆN XÃ HỘI

ĐỐI VỚI DỰ THẢO ĐỀ ÁN QUỐC GIA

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2015

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ -

NGÔ THỊ HOA

PHÂN LOẠI QUAN ĐIỂM TRÊN PHƯƠNG TIỆN XÃ HỘI

ĐỐI VỚI DỰ THẢO ĐỀ ÁN QUỐC GIA

Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm

Mã số: 60480103

LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ĐẶNG THANH HẢI

TS NGUYỄN CẨM TÚ

Hà Nội - 2015

Trang 3

LỜI CẢM ƠN

Lời cảm ơn đầu tiên tôi xin gửi đến TS Đặng Thanh Hải và TS Nguyễn Cẩm Tú Thầy cô là người đưa ra ý tưởng chọn đề tài và cung cấp cho tôi tài liệu, phương pháp nghiên cứu và theo sát tôi trong suốt quá trình tôi làm luận văn Tôi xin chân thành cảm ơn các bạn, các em trong phòng KT-Lab đã chỉ dẫn

và động viên mỗi khi tôi gặp vướng mắc trong lý thuyết và thực nghiệm

Tôi xin chân thành cảm ơn các thầy trong Khoa Công nghệ thông tin - Phòng Đào tạo sau đại học, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội đã tạo mọi điều kiện tốt nhất để tôi hoàn thành khóa học này Đồng thời, tôi cũng xin cảm ơn gia đình, bạn bè, những người luôn khuyến khích và giúp đỡ tôi trong mọi hoàn cảnh khó khăn

Tác giả luận văn

Ngô Thị Hoa

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu độc lập của riêng tôi thực hiện dưới sự hướng dẫn của TS Đặng Thanh Hải và TS Nguyễn Cẩm Tú, không sao chép ở bất kỳ một luận văn, luận án của các tác giả khác Nếu có vấn

đề gì tôi xin hoàn toàn chịu trách nhiệm

Tác giả luận văn

Ngô Thị Hoa

Trang 5

MỤC LỤC

LỜI CẢM ƠN 1

LỜI CAM ĐOAN 2

MỤC LỤC 3

DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT 5

DANH SÁCH CÁC BẢNG 6

DANH SÁCH CÁC HÌNH 7

MỞ ĐẦU 8

CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU, KHAI PHÁ QUAN ĐIỂM 10

1.1 Khai phá dữ liệu 10

1.2 Các phương pháp khai phá dữ liệu 12

1.3 Các kỹ thuật khai phá dữ liệu 13

1.4 Các thách thức trong khai phá dữ liệu 15

1.5 Ứng dụng khai phá dữ liệu 17

1.6 Phân tích và khai phá quan điểm 18

1.6.1 Phân tích quan điểm qua các cấp độ dữ liệu 18

1.6.2 Các thách thức của khai phá quan điểm 19

CHƯƠNG 2: CÁC PHƯƠNG PHÁP PHÂN LỚP QUAN ĐIỂM 21

2.1 Kỹ thuật học có giám sát 21

2.2 Lựa chọn đặc trưng 22

2.3 Các phương pháp phân lớp quan điểm 24

2.3.1 Mô hình học máy SVM 24

2.3.2 Mô hình cây quyết định 26

2.3.3 Mô hình xác suất Bayes 29

2.3.4 Thuật toán KNN 31

2.4 Đánh giá mô hình phân lớp 33

CHƯƠNG 3: PHÂN LỚP QUAN ĐIỂM TRÊN MÔ HÌNH QUI HỒI LOGISTIC 35

Trang 6

3.1 Cơ sở lý thuyết 35

3.1.1 Các khái niệm 35

3.1.2 Mô hình qui hồi Logistic 36

3.1.3 Phương pháp tìm tham số và tối ưu mô hình qui hồi Logistic 36

3.2 Mô hình qui hồi Logistic áp dụng bài toán phân lớp quan điểm 37

CHƯƠNG 4: THỰC NGHIỆM 39

4.1 Môi trường và mô hình thực nghiệm 39

4.2 Thu thập và xử lý dữ liệu 40

4.2.1 Dữ liệu về các dự thảo đề án quốc gia 40

4.2.2 Xử lý dữ liệu 42

4.3 Thực nghiệm phân lớp và đánh giá 43

4.4 Đánh giá kết quả thực nghiệm 48

CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TIẾP THEO 49

TÀI LIỆU THAM KHẢO 50

Trang 7

DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT

Từ viết tắt Từ tiếng Anh

TF Term Frequency

IDF Inverse Document Frequency

TFIDF Term Frequency - Inverse Document Frequency

SVM Support Vector Machine

KNN K Nearest Neighbors

Stopword Những từ phổ biến hoặc hiếm gặp, không có giá trị trong

phân lớp

Trang 8

DANH SÁCH CÁC BẢNG

Bảng 1: Môi trường thực nghiệm

Bảng 2: Các phần mềm sử dụng

Bảng 3: Tổng hợp dữ liệu thực nghiệm

Bảng 4: Tổng hợp kết quả với các kích thước tập huấn luyện

Bảng 5: Độ đo phân lớp mô hình qui hồi Logistic và thuật toán KNN

Trang 9

DANH SÁCH CÁC HÌNH

Hình 1: Quá trình khai phá dữ tri thức

Hình 2: Các kỹ thuật Khai phá dữ liệu

Hình 3: Thuật toán KNN phân lớp quan điểm

Hình 4: Mô hình thực nghiệm

Hình 5: Quy trình xử lý dữ liệu

Hình 6: Mô tả dữ liệu thực nghiệm

Hình 7: Kết quả thực nghiệm với L1, L2

Hình 8: Kết quả phân lớp

Hình 9: Biểu diễn đánh giá mô hình qui hồi Logistic và KNN

Trang 10

MỞ ĐẦU

Khai phá tri thức là lĩnh vực rất phát triển trong những năm gần đây và được ứng dụng trong nhiều lĩnh vực Khi quyền tự do ngôn luận ngày càng được Nhà nước ta chú trọng, công dân có quyền được tham gia bàn bạc, thảo luận và đóng góp ý kiến vào những vấn đề chung của đất nước đã đặt ra Bài toán cho khai phá tri thức, cụ thể là khai phá quan điểm: “Làm thế nào để phân tích các quan điểm được trao đổi trên các phương tiện thông tin đại chúng, để từ đó đưa

ra dự đoán cho vấn đề được thảo luận?”

Nhận thấy các dự thảo đề án quốc gia luôn có tác động lớn đến nền kinh

tế, đời sống xã hội, luôn nhận được nhiều ý kiến đóng góp của các chuyên gia và nhân dân Các ý kiến đóng góp cũng có tác động ngược lại đến đề án trong suốt quá trình khởi tạo và diễn ra dự án

Luận văn “Phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia” đưa ra một giải pháp giải quyết vấn đề Bài toán phân tích quan điểm trên phương tiện thông tin đại chúng, cụ thể là môi trường mạng Để làm được việc này, luận văn tiến hành nghiên cứu các cơ sở lý thuyết, đề xuất giải pháp thực hiện và áp dụng thực nghiệm trên miền dữ liệu về các dự thảo đề

án quốc gia

Cấu trúc luận văn gồm bốn chương đi từ tổng quan đến chi tiết vấn đề, giải pháp và thực nghiệm:

Chương 1: Trình bày tổng quan về khai phá dữ liệu, khai phá quan điểm

Xuất phát điểm từ những kiến thức nền tảng cần nắm được trong lĩnh vực khai phá tri thức, khai phá quan điểm, luận văn trình bày các cơ sở lý thuyết theo logic giải quyết Bài toán Từ đó, ta chọn ra một phương pháp phù hợp với Bài toán được trình bày trong chương 2

Chương 2: Nghiên cứu các phương pháp phân lớp quan điểm

Có nhiều phương pháp để phân lớp quan điểm, mỗi phương pháp có một lịch sử, tư tưởng và đặc trưng riêng phù hợp giải quyết từng vấn đề

Chương 3: Phân lớp quan điểm với qui hồi Logistic

Mô hình qui hồi Logistic là phương pháp mà luận văn lựa chọn để phân

Trang 11

tích mối tương quan biến dự đoán phân loại và biến kết quả dự đoán, mô hình phù hợp dữ liệu bài toán phân tích quan điểm tiêu cực hay tích cực

Chương 4: Thực nghiệm phân lớp quan điểm với dự thảo đề án quốc gia

và đánh giá trên kết quả thực nghiệm

- Thu thập và xử lý dữ liệu là các bình luận và bài báo nêu ra các quan điểm thảo luận về các dự thảo đề án quốc gia

- Thực nghiệm và đánh giá mô hình phân lớp quan điểm tiêu cực và tích cực đối với các dự thảo đề án trên mô hình qui hồi Logistis

Trang 12

CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU, KHAI PHÁ QUAN

ĐIỂM

1.1 Khai phá dữ liệu

Công nghệ thông tin ngày càng phát triển thì các hệ thống thông tin ngày càng mở rộng để lưu trữ một lượng lớn các dữ liệu đã có và đang tích tụ thêm, thêm vào đó là việc lưu trữ dữ liệu trực tuyến với dung lượng lớn nhiều khi đã làm cho ta choáng ngợp và không biết làm thế nào để có những thông tin hữu ích đang cần Quá trình lấy ra được những dữ liệu hữu ích được gọi quá trình khai phá tri thức Những dữ liệu đó là các tri thức học được

Có nhiều khái niệm về khai phá dữ liệu, trong đó có khái niệm sau đây dễ nhớ, dễ hiểu:

“Khai phá tri thức là tìm ra tri thức trong dữ liệu” [E1]

Quá trình khai phá tri thức:

Hình 1: Quá trình khai phá dữ tri thức

Trang 13

Quá trình khai thác tri thức không chỉ là một quá trình tuần tự từ bước đầu tiên đến bước cuối cùng mà là một quá trình lặp và có quay trở lại các bước đã qua, chi tiết 7 bước:

1) Làm sạch dữ liệu (Data Cleaning):

Dữ liệu được thu thập từ các nguồn được xử lý bỏ dữ liệu nhiễu và không phù hợp

2) Tích hợp dữ liệu (Data Integration):

Dữ liệu có thể được kết hợp từ nhiều nguồn khác nhau, sau khi làm sạch

và tiền xử lý được hợp nhất thành những kho dữ liệu (data warehouses)

3) Trích chọn dữ liệu (Data Selection):

Lựa chọn ra những dữ liệu liên quan đến nhiệm vụ phân tích từ kho dữ liệu

4) Chuyển đổi dữ liệu (Data Transformation):

Dữ liệu được chuyển đổi sang dạng phù hợp và thống nhất cho quá trình xử lý

5) Khai phá dữ liệu (Data mining):

Là một bước quan trọng, trong đó các phương pháp thông minh được áp dụng để lấy ra được dữ liệu mới làm cơ sở cho tri thức

6) Đánh giá mẫu (Pattern Evaluation):

Dùng các biện pháp là các thước đo để đánh giá kết quả tìm được

7) Trình diễn dữ liệu (Data Presentation):

Biểu diễn và thể hiện trực quan dữ liệu đã khai phá cho người dùng

Như vậy, khai phá dữ liệu là một phần không thể thiếu trong khai phá tri thức Từ bước 1 đến bước 4 là quá trình tiền xử lý dữ liệu chuẩn bị cho quá trình khai phá, đến bước 5 khai phá dữ liệu có thể tương tác với người dùng hoặc lưu trữ như kiến thức mới trong cơ sở tri thức Do vậy khai phá dữ liệu là một phần trong khai phá tri thức song thuật ngữ này hay được dùng để tham khảo cho toàn

bộ quá trình khai phá tri thức

Khai phá dữ liệu được định nghĩa: là quá trìnhkhám phá các mẫu và tri thức mới từ kho dữ liệu khổng lồ [E1]

Trang 14

1.2 Các phương pháp khai phá dữ liệu

Hiện nay chưa có một tiêu chuẩn nào trong việc quyết định sử dụng phương pháp khai phá dữ liệu nào vào trường hợp nào thì có hiệu quả nhất Có rất nhiều kỹ thuật, mỗi kỹ thuật được sử dụng cho nhiều bài toán khác nhau

Do vậy, nếu căn cứ vào bài toán cần giải quyết thì khai phá dữ liệu được chia ra các phương pháp sau:

* Phân lớp (classification) và dự đoán (prediction):

Với một tập dữ liệu huấn luyện có trước các giải thuật và công cụ sẽ xếp các đối tượng và một trong các lớp đã biết trước

Bài toán dự đoán tương đương với bài toán phân lớp, khi có đối tượng mới bộ dự đoán dựa trên thông tin đang có để đưa ra giá trị số học cho hàm cần

Công việc liên quan đến các phương pháp tìm kiếm mô tả tập con dữ liệu,

đó chính là sinh ra các mô tả đặc trưng cho một lớp

* Qui hồi (regression):

Là bài toán học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự đoán có giá trị thực Bài toán qui hồi có nhiệm vụ tương tự bài toán phân lớp song các thuộc tính dự báo trong bài toán này là liên tục chứ không rời rạc

* Mô hình ràng buộc (dependency modeling):

Mô hình mô tả sự phụ thuộc giữa các biến, thuộc tính theo hai mức:

- Mức cấu trúc của mô hình mô tả sự phụ thuộc bộ phận của các biến phụ vào các biến khác, thường biểu diễn dưới dạng đồ thị

- Mức định lượng mô hình mô tả mức độ phụ thuộc, thường biểu diễn dưới dạng luật “nếu - thì”

* Dò tìm biến đổi và độ lệch (change and deviation dectection):

Trang 15

Xác định giá trị chuẩn, phát hiện độ lệch đáng kể giữa nội dung của tập con dữ liệu thực và nội dung mong đợi Thường dùng 2 mơ hình đo độ lệch:

- Lệch theo thời gian: thay đổi cĩ ý nghĩa của dữ liệu theo thời gian

- Lệch theo nhĩm: sự khác nhau giữa hai tập con dữ liệu, nghĩa là xác định dữ liệu trong một nhĩm con của đối tượng cĩ khác đáng kể so với tồn bộ đối tượng khơng, qua đĩ phát hiện những sai sĩt dữ liệu và sai lệch so với giá trị thơng thường

1.3 Các kỹ thuật khai phá dữ liệu

Học máy nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống

"học" tự động từ dữ liệu để giải quyết những vấn đề cụ thể Trong khai phá dữ liệu, học máy để dự đốn một số thơng tin của dữ liệu dựa trên những đặc tính

đã biết

Các phương pháp trong lĩnh vực học máy gồm cĩ:

* Kỹ thuật học cĩ giám sát (Supervise Machine Learning)

Học cĩ giám sát là một kĩ thuật của ngành học máy để xây dựng một hàm (function) từ dữ liệu huấn luyện Dữ liệu huấn luyện bao gồm các cặp gồm đối tượng đầu vào (thường dạng vector), và đầu ra mong muốn Đầu ra của một hàm

cĩ thể là một giá trị liên tục (gọi là qui hồi), hay cĩ thể là dự đốn một nhãn phân loại cho một đối tượng đầu vào (gọi là phân loại)

Một số thuật tốn thường được lựa chọn khi xây dựng bộ phân lớp gồm cĩ: máy vector hỗ trợ (Support Vector Machine - SVM); K láng giềng gần nhất (K Nearest Neighbours); tiếp cận xác suất thống kê (Nạve Bayes); Cây quyết định (Decision Tree); sử dụng mạng nơron (Neural Network); dựa trên vector

Học máy

Học giám sát Học bán giám sát Học khơng giám sát

Hình 2: Các kỹ thuật Khai phá dữ liệu

Trang 16

trọng tâm (Centroid–base vector); tuyến tính bình phương nhỏ nhất (Linear Least Square Fit)

* Kỹ thuật học bán giám sát (semi-supervised learning)

Kỹ thuật này sử dụng cả dữ liệu đã gán nhãn và chưa gán nhãn để huấn luyện - điển hình là một lượng nhỏ dữ liệu có gán nhãn cùng với lượng lớn dữ liệu chưa gán nhãn Học bán giám sát đứng giữa học không giám sát (không có bất kì dữ liệu có nhãn nào) và có giám sát (toàn bộ dữ liệu đều được gán nhãn) Nhiều nhà nghiên cứu nhận thấy dữ liệu không gán nhãn, khi được sử dụng kết hợp với một ít dữ liệu có gán nhãn, có thể cải thiện đáng kể độ chính xác Để gán nhãn dữ liệu cho một bài toán học máy thường đòi hỏi một chuyên viên có

kĩ năng để phân loại bằng tay các ví dụ huấn luyện Khi đó, học bán giám sát có giá trị thực tiễn lớn lao

Một ví dụ cho kỹ thuật học máy bán giám sát là đồng huấn luyện training), trong đó hay nhiều bộ học được huấn luyện cùng một tập ví dụ nhưng mỗi bộ sử dụng một tập đặc trưng khác nhau, lý tưởng nhất là độc lập với nhau

(co-Một cách tiếp cận khác là mô hình hoá phân phối xác suất đồng thời của các đặc trưng và nhãn Với dữ liệu chưa gán nhãn, có thể coi nhãn là “dữ liệu còn thiếu” Các kỹ thuật xử lý dữ liệu còn thiếu như là lấy mẫu Gibbs và tối ưu

kỳ vọng có thể được sử dụng để ước lượng tham số

* Kỹ thuật học không giám sát (Unsupervise Machine Learning)

Khác với kỹ thuật học có giám sát là không biết trước số đầu ra tương ứng với tập dữ liệu đầu vào Trong học không có giám sát, một tập dữ liệu đầu vào được thu thập Học không có giám sát thường dùng với các đối tượng đầu vào như là một tập các biến ngẫu nhiên Sau đó, một mô hình mật độ kết hợp sẽ được xây dựng cho tập dữ liệu đó

Học không giám sát là phương pháp học sử dụng cho lớp bài toán gom cụm, phân cụm (clustering)

Phương pháp học không giám sát:

- Để thực hiện phân cụm, trước tiên cần một tập dữ liệu huấn luyện (training dataset) - là một tập các ví dụ học (training examples/instances) Trong

đó, mỗi ví dụ học chỉ chứa thông tin biểu diễn (ví dụ: một vector các giá trị

Trang 17

thuộc tính), mà không có bất kỳ thông tin gì về nhãn lớp hoặc giá trị đầu ra mong muốn (expected output)

- Áp dụng một thuật toán học không có giám sát (ví dụ k-means) để học hàm/mô hình mục tiêu (trong trường hợp này là hàm phân cụm ứng với thuật toán được chọn)

- Sử dụng một phương pháp thử nghiệm (có thể kết hợp với một tập dữ liệu có gán nhãn) để đánh giá hiệu năng của hàm mục tiêu học được

Một số thuật toán học không giám sát: có nhiều thuật toán học không giám sát được ra đời và phát triển nhằm giải quyết bài toán phân cụm phục vụ khai thác hiệu quả nguồn dữ liệu chưa gán nhãn nhiều và rất đa dạng Việc lựa chọn sử dụng thuật toán nào tuỳ thuộc vào dữ liệu và mục đích của từng bài toán Trong đó các thuật toán thường được sử dụng như: k-means, HAC (Hierarchical Agglomerative Clustering), SOM (Self-Organizing Map),

1.4 Các thách thức trong khai phá dữ liệu

Trong tài liệu [E2] đã nêu ra một số thách thức trong khai phá dữ liệu như sau:

- Phát triển một lý thuyết thống nhất của khai thác dữ liệu:

Có rất nhiều kỹ thuật được thiết kế để khai thác các vấn đề nhưng không

có lý thuyết thống nhất Phân loại, phân nhóm, luật kết hợp,… hay các cách tiếp cận khác như thống kê, học máy,… tuy vậy đây sẽ cơ sở cho các nghiên cứu trong tương lai

- Dữ liệu nhiều chiều và tốc độ xử lý cơ sở dữ liệu cao:

Ngày nay có nhiều cơ sở dữ liệu có kích thước lớn (terabytes) với hàng trăm trường, bảng gây khó khăn cho việc lấy mẫu, kết quả lấy mẫu không chính xác bằng tập dữ liệu có kích thước nhỏ

- Dữ liệu theo tuần tự và theo thời gian:

Hầu hết nội dung, kích thước cơ sở dữ liệu thay đổi theo thời gian, do vậy ảnh hưởng đến thời điểm quan sát dữ liệu Một số dữ liệu phải sắp thứ tự trong quá trình xử lý như phân tích dự báo thời tiết dữ liệu được sắp theo tuần tự các hiện tượng thiên nhiên,…

Trang 18

- Dữ liệu trong nhiều định dạng phức tạp:

Cần khai phá dữ liệu ở dạng đồ thị, hình ảnh, đa phương tiện cần nghiên cứu phương pháp khai phá dữ liệu xa hơn việc phân loại, phân nhóm Từ đó cần tích hợp khai thác dữ liệu và kiến thức suy luận Đây là một thách thức rất lớn trong khai phá dữ liệu

- Khai thác dữ liệu trong một thiết lập mạng:

Thế giới ngày nay được kết nối với nhau thông qua nhiều loại liên kết: trang web, blog, email, facebook,… do vậy việc khai thác từ các mạng xã hội là chủ đề quan trọng Cần giải quyết các vấn đề đặt ra: cấu trúc mạng, giao thức, phân quyền,… trong một cộng đồng mạng Ví dụ: làm thế nào để khai thác dữ liệu trong hòm thư nội bộ của một tổ chức hay cá nhân trong một thời gian dài

Dữ liệu được phân phối ở nhiều vị trí với tốc độ mạng cao: khai thác mạng đặt ra một thách thức lớn cho khai phá dữ liệu khi tốc độ và dịch vụ mạng ngày càng tăng Giả sử khi có một cuộc tấn công, các nhà cung cấp mạng cần nhanh chóng tìm được gói tin IP và phân tích một lượng lớn dữ liệu (vài trăm GB) với tốc độ nhanh chóng, tìm ra và hủy bỏ gói tin tấn công đó

- Khai thác dữ liệu cho các vấn đề sinh học và môi trường:

Trong sinh học phân tử nhiều nhiệm vụ khai phá dữ liệu phức tạp tồn tại

mà không xử lý bởi các thuật toán dữ liệu chuẩn, ví dụ liên quan đến các khía cạnh khác nhanh như ADN, tính chất hóa học, cấu trúc 3D,…, khai thác dữ liệu trong các ứng dụng sinh thái, môi trường,… ví dụ: thực vật học, khí hậu,…

- Quy trình khai thác dữ liệu:

Làm thế nào để xây dựng một quy trình tự động hóa khai thác dữ liệu với các thành phần của hoạt động khai thác và xây dựng được các hệ thống khai thác

dữ liệu giúp giảm nhân lực lao động, trong đó có vấn đề quan trọng là xử lý làm sạch dữ liệu

- An ninh, bảo mật và toàn vẹn dữ liệu:

Khai phá dữ liệu song cần bảo vệ an ninh và sự riêng tư, đôi khi khai phá

dữ liệu mà không đảm bảo an ninh và riêng tư thì việc khai phá dữ liệu có thể gây ra tác động xấu tới công chúng Và cũng cần phải đảm bảo tính toàn vẹn

Trang 19

kiến thức, quan điểm trong dữ liệu, tức là cần phải so sánh, kiểm tra tính toàn vẹn của dữ liệu trong các biên bản của dữ liệu

- Xử lý dữ liệu động, không cân bằng và chi phí nhạy cảm:

Khi khai phá dữ liệu liên tục thay đổi hoặc phụ thuộc theo thời gian, việc lấy mẫu và xây dựng mô hình thường không tối ưu, kéo theo đó chi phí thực hiện cũng bị phụ thuộc vào quá trình xử lý và khắc phục lỗi sai lệch

1.5 Ứng dụng khai phá dữ liệu

Khai phá dữ liệu ngày càng phát triển sâu rộng nhằm khai thác nguồn dữ liệu phong phú trong các hệ thống thông tin, đến nay khai phá dữ liệu đã chứng kiến nhiều thành công lớn trong các ứng dụng Khó để có thể liệt kê tất cả các ứng dụng mà khai phá dữ liệu đóng vai trò quan trọng, do vậy luận văn trình bày các ứng dụng của khai phá dữ liệu theo 2 nhóm:

1) Ứng dụng phân tích, dự báo

- Y học và chăm sóc y tế: từ những thông tin của bệnh nhân trong cơ sở

dữ liệu của bệnh viện, hệ thống phân tích và dự đoán bệnh và đưa ra phác đồ điều trị,…

- Thương mại: phân tích thông tin sản phẩm, khách hàng,… từ đó dự báo chiến lược kinh doanh

- An ninh: phân tích hình ảnh, manh mối, đối chiếu với dữ liệu an ninh để tìm ra thủ phạm

- Chính trị, xã hội: phân tích ý kiến, thái độ dư luận để dự báo xu hướng phát triển

- Các ngành khoa học: Thiên văn học, Khí tượng (phân tích dự báo các hiện tượng thiên nhiên); Sinh học (dự báo bệnh di truyền),…

2) Ứng dụng tìm kiếm thông tin

- Web tìm kiếm: mở rộng các phương pháp trong khai thác dữ liệu trong khai phá thông tin ứng dụng trên bộ dữ liệu phân tán lớn

Trang 20

1.6 Phân tích và khai phá quan điểm

Phân tích tâm lý (Sentiment Analysic) hay khai phá quan điểm (Opinion Mining) là nghiên cứu về ý kiến, thái độ, cảm xúc của con người đối với một vấn đề, thực thể Khai phá quan điểm có ảnh hưởng lớn đến hành vi của con người trong tương lai vì nó là nhận thức, niềm tin của con người về vấn đề thực

tế và phụ thuộc vào cách nhìn của mỗi người

Bất cứ khi nào cần đưa ra quyết định, chúng ta thường tham khảo ý kiến của người khác, đối với cá nhân, lấy ý kiến từ cha mẹ, bạn bè, đối với tổ chức có thể là các cuộc điều tra, khảo sát hay các cuộc thăm dò dư luận

Khai phá quan điểm là kỹ thuật để phát hiện và trích xuất thông tin về tình cảm của con người được lưu trong cơ sở dữ liệu, để làm được việc này vấn đề quan trọng là phân cực được tình cảm, quan điểm đối với vấn đề, hay nói cách khác đó là gán nhãn cho tài liệu, đánh giá đó là tích cực hay tiêu cực với đối tượng mục tiêu (chủ đề) Các ý kiến quan điểm có thể thể hiện theo hai hướng:

- Quan điểm trực tiếp: cho ý kiến hoặc là tích cực, hoặc là tiêu cực về trực tiếp các đối tượng quan tâm

Ví dụ: “Tôi đồng ý đề án bỏ chấm điểm tiểu học của Bộ Giáo dục và Đào tạo”

- Quan điểm gián tiếp: so sánh các đối tượng quan tâm với với đối tượng khác tương tự để đưa ra ý kiến khách quan cá nhân

Ví dụ: “Cải cách này của Bộ giáo dục cải thiện tình trạng bệnh thành tích

và giảm áp lực cho học sinh tiểu học”

Với mỗi vấn đề trao đổi, mỗi ý kiến đều là quan điểm chủ quan của cá nhân đưa ra, không đủ cơ sở nhận định chung cho vấn đề Do vậy, cần thu thập

dữ liệu chứa ý kiến, quan điểm từ nhiều người, sau đó tổng hợp các ý kiến, quan điểm để rút ra cái nhìn tổng quan cho toàn vấn đề

1.6.1 Phân tích quan điểm qua các cấp độ dữ liệu

* Phân tích quan điểm ở cấp độ tài liệu

Trang 21

Trong tài liệu phân tích có thể có rất nhiều câu không thể hiện quan điểm tình cảm đối với thực thể đang xét do đó chủ đề hay đối tượng rất là quan trọng trong việc phân loại ở cấp độ này, còn những câu không phù hợp phải được loại

bỏ ra khỏi quá trình xử lý để giảm phức tạp của tài liệu

Tần suất từ hay cụm từ nói lên quan điểm là những đặc trưng để phân loại

Lợi thế của phân loại cấp độ câu nằm trong việc phân loại các chủ đề, đối tượng, sử dụng các thuật toán truyền thống để huấn luyện

* Phân tích ở cấp độ cụm từ

Phân loại cụm từ hoàn thành khi tìm ra các từ chứa ý kiến, quan điểm tiêu cực hay tích cực được xác định từ triết xuất các đặc trưng

1.6.2 Các thách thức của khai phá quan điểm

- Mỗi người khác nhau có phong cách viết khác nhau:

Cách thức sử dụng ngôn ngữ của mỗi người là khác nhau, sự phong phú của ngôn ngữ đa dạng hóa cách thể hiện quan điểm của mỗi người Phong cách viết còn tùy thuộc vào trình độ, tính cách, tuổi tác, … của từng người

- Sự phụ thuộc vào bối cảnh và thời gian:

Một từ trong một lời phát biểu được xem là quan điểm tích cực trong tình huống này song vẫn có thể là tiêu cực trong tình huống khác Đặc biệt trong bối

Trang 22

cảnh châm biếm, mỉa mai, cách dùng từ ẩn dụ rất dễ gây ra hiểu lầm quan điểm đúng

Một quan điểm về một vấn đề hoặc chỉ một phần của vấn đề cũng có thể gây hiểu lầm cho hệ thống khai phá quan điểm Ví dụ: dự thảo đề án đưa ra áp dụng cho năm 2015, có ý kiến “đồng ý với việc thực hiện đề án từ năm 2016” Với việc ủng hộ đề án đưa ra thì ý kiến này được coi là tích cực nhưng xét về bối cảnh thời gian thì nó lại là một ý kiến tiêu cực

- Tồn tại nhiều quan điểm mâu thuẫn trong cùng một tài liệu:

Trong một bình luận, bài viết chứa nhiều quan điểm mâu thuẫn nhau, bao gồm cả ý kiến tích cực lẫn ý kiến tiêu cực gây khó khăn để phân tích cú pháp và khai phá quan điểm Trong trường hợp này cần tách từng câu một để phân tích

Như vậy, trong chương 1 luận văn đã trình bày các nội dung về khai phá

dữ liệu, khai phá quan điểm Dựa trên những lý thuyết cơ sở cần có, luận văn tiếp tục tìm hiểu và phân tích các phương pháp để thực hiện giải quyết Bài toán đặt ra trong chương 2

Trang 23

CHƯƠNG 2: CÁC PHƯƠNG PHÁP PHÂN LỚP QUAN ĐIỂM

Phân lớp quan điểm là một trong những bài toán quan trọng của khai phá

dữ liệu, nhằm phân loại các tài liệu theo định hướng quan điểm Có nhiều cách tiếp cận khác nhau để giải quyết bài toán này Sau đây luận văn trình bày cách tiếp cận để phân lớp quan điểm dựa vào kỹ thuật học máy, cụ thể là học có giám sát

2.1 Kỹ thuật học có giám sát

Nhiệm vụ của chương trình học có giám sát là dự đoán giá trị của hàm cho một đối tượng bất kì là đầu vào hợp lệ, sau khi đã xem xét dữ liệu huấn luyện (nghĩa là, các cặp đầu vào và đầu ra tương ứng) Để đạt được điều này, chương trình học phải tổng quát hóa từ các dữ liệu sẵn có để dự đoán được những tình huống chưa gặp phải theo một cách “hợp lí”

- Xác định cấu trúc của hàm chức năng cần tìm và giải thuật học tương ứng Ví dụ, có thể lựa chọn việc sử dụng mô hình học máy SVM, cây quyết định, xác suất Bayes,

Trang 24

- Để hoàn thiện học máy cần tiến hành chạy giải thuật học từ tập huấn luyện thu thập được Các tham số của giải thuật học có thể được điều chỉnh bằng cách tối ưu hóa hiệu năng trên một tập con (gọi là tập kiểm chứng) của tập huấn luyện, hay thông qua kiểm chứng chéo Sau khi học và điều chỉnh tham số, hiệu năng của giải thuật có thể được đo đạc trên một tập kiểm tra độc lập với tập huấn luyện

Để thực hiện phân lớp bằng kỹ thuật học có giám sát như trên, trước hết ta cần chọn được tập đặc trưng trên dữ liệu phân tích

2.2 Lựa chọn đặc trưng

Những tài liệu khác nhau có đặc trưng khác nhau, những đặc trưng này có thể xác định và đo đạc được Do đó dựa vào đặc trưng là một trong những phương pháp dùng để phân lớp

Để trích chọn đặc trưng cần xác định trọng số cho các từ trong văn bản

Có nhiều phương pháp tính trọng số đó, luận văn sử dụng phương pháp TF*IDF, phương pháp này tính tần số của từ khóa - TF (Term Frequency) và nghịch đảo tần số văn bản - IDF (Inverse Document Frequency)

Phương pháp thực hiện như sau:

* Tính trọng số của từ khóa TF tần số xuất hiện của 1 từ trong 1 văn bản Công thức:

f(t, d): số lần xuất hiện từ t trong văn bản d

max{f(w, d) : w ∈ d}: số lần xuất hiện nhiều nhất của một từ bất kỳ trong văn bản

tf(t,d) có giá trị thuộc khoảng [0, 1]

* Tính IDF để giảm giá trị của những từ phổ biến Mỗi từ chỉ có 1 giá trị IDF duy nhất trong tập văn bản

Trang 25

từ trên một lớp

Biểu diễn văn bản dưới dạng vector đặc trưng:

Mỗi bình luận của một người là một văn bản Với mỗi dự thảo, đề án ta có tập tài liệu D = (d1, d2, …, dn)

Mỗi tài liệu D được biểu diễn dưới dạng (vector đặc trưng cho tài liệu

D), = (x1, x2, …, xn) với xi là trọng số của đặc trưng thứ i Văn bản dj sẽ được

biểu diễn bằng vector = (xj1, xj2, …, xjn) Vector hóa dữ liệu thực hiện như

sau:

Input:

- Tài liệu gồm các văn bản

- Tập liệt kê trọng số (mỗi từ liệt kê 1 lần)

Output:

- Tài liệu biểu diễn dưới dạng vector

Ví dụ: Vector hóa tài liệu D:

Văn bản doc1: áp_dụng thông_tư cho cấp_hai

Trang 26

Văn bản doc2: nhất_trí áp_dụng thông_tư

Văn bản doc3: đề_án không thực_tế không áp_dụng

Biểu diễn văn bản theo vector đặc trưng

(<index><space><value>)

doc1: áp_dụng thông_tư cho cấp_hai

doc2: nhất_trí áp_dụng thông_tư

doc3: đề_án không thực_tế không áp_dụng

SapareArff File (<index><space><value>)

Tư tưởng thuật toán là cho trước một số điểm dữ liệu cùng với nhãn của chúng thuộc một trong hai lớp cho trước Thuật toán sẽ là xác định xem một điểm dữ liệu mới sẽ được thuộc về lớp nào Tập huấn luyện được biểu diễn trong không gian vector trong đó mỗi tài liệu là một điểm Biên là khoảng cách

Word Tfdf áp_dụng 1

Ngày đăng: 03/11/2015, 17:13

HÌNH ẢNH LIÊN QUAN

Hình 1: Quá trình khai phá dữ tri thức - Phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia
Hình 1 Quá trình khai phá dữ tri thức (Trang 12)
Bảng 1: Môi trường thực nghiệm - Phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia
Bảng 1 Môi trường thực nghiệm (Trang 41)
Hình 4: Mô hình thực nghiệm - Phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia
Hình 4 Mô hình thực nghiệm (Trang 42)
Bảng 3: Tổng hợp dữ liệu thực nghiệm  4.2.2 Xử lý dữ liệu - Phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia
Bảng 3 Tổng hợp dữ liệu thực nghiệm 4.2.2 Xử lý dữ liệu (Trang 44)
Hình 7: Kết quả thực nghiệm với L1, L2 - Phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia
Hình 7 Kết quả thực nghiệm với L1, L2 (Trang 47)
Hình 8: Kết quả phân lớp - Phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia
Hình 8 Kết quả phân lớp (Trang 48)
Bảng 4: Tổng hợp kết quả với các kích thước tập huấn luyện - Phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia
Bảng 4 Tổng hợp kết quả với các kích thước tập huấn luyện (Trang 48)
Hình 9: Biểu diễn đánh giá mô hình qui hồi Logistic và KNN - Phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia
Hình 9 Biểu diễn đánh giá mô hình qui hồi Logistic và KNN (Trang 49)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w