Luận văn phân loại quan Điểm trên phương tiện xã hội Đối với dự thảo Đề Án quốc gia

Luan văn “Phân loại quan điểm trên nhương tiện xã hội đổi với dự thao đỀ án quốc gia” đưa ra một giải pháp giải quyết vẫn dé Bàn toán phân tích quan điểm trên phương tiện thông lu đại ch

Trang 1

NGÔ THỊ IOA

PHÂN LOẠI QUAN DIỄM TRÊN PHƯƠNG TIỆN XÃ HỘI

ĐÓI VỚI DỰ THẢO ĐÈ ÁN QUỐC GIÁ

LUẬN VĂN THẠC SI CONG NGIIE THONG TIN

Ha Noi - 2015

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGÔ THỊ HOA

PHẪN LOẠI QUAN DIỄM TRÊN PHƯƠNG TIẾN XÃ HỘI

DOI VOI DY THAO DE AN QUOC GIA

Nganh: Cong nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm

Mã số: 60480103

LUẬN VĂN THẠC SĨ NGANH CONG NGHE THONG TIN

NGƯỜI HƯỚNG DAN KHOA HOC: TS DANG THANH HAI

TS NGUYEN CAM TU

Tà Nội - 2014

Trang 3

và động viên mỗi khi tôi gặp vướng mắc trong lý thuyết và thực nghiệm

Tái xin chân thành cảm ơn các thấy trong Khoa Công nghệ thêng tín - Thông Đảo tạo sau đại học, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội đã tạo mọi điền kiện tết nhất đẻ tôi hoàn thành khóa học này Đồng thời, tôi cũng xin cảm ơn gia định, bạn bè, những người luôn khuyến khích và giúp đế tôi trong mọi hoàn cảnh khó khăn

Tác giá luận văn

Ngô Thị Hoa

Trang 4

TỚI CAM ĐOAN

Tôi xi cam đoan dây là công trinh nghiên cửu độc lập của riễng tôi thực

ca TS Đặng Thanh Hai va TS Nguyễn Cẩm Tủ, Không sao chép ở bất kỹ môi luận

hiển đưới sự hướng đãi

, luận án của gác táu giá khác Nếu có

để gì lôi xm hoàn toàn chịu trách niệm

Tác giả huận văn

Ngỏ Thị Hoa

Trang 5

1.1 Khai phá đữ liệu kg Hee share

1.2 Các phương pháp khai phá dữ liệu

1.3 Các kỹ thuật khai phả dữ liệu

1.4 Các thách thức trong khai phá dữ liệu -

1.5 Ứng dụng khai phá đữ liệu mm

1.6 Phân tích và khai phả quan điểm

1.61 Phân tích quan điểm qua các cấp độ dữ liệu

1.6.2 Các thách thức của khai phá quan điểm TH se

CHUONG 2: CAC PHUONG PHAP PHAN LOP QUAN DIEM

2.1 Kỹ thuật học có giảm sắt, coi "¬

2.2 Tara chon dic trung,

2.3 Các phương pháp phân lớp quan điểm mm

2.3.1 M6 hinh hoc may SVM

2.3.2 Mô hình cây quyết định

2.3.3 Mô hình xác suất Bayes co eo "—

Trang 6

3.1.1 Các khải niệm

3.1.2 Mô hình quủ hỏi Logistic

3.1.3 Phương pháp tùn tham số và tối ưu mô hình qui hồi Loeistie

4.3 Thực nghiệm phân lớp và đánh giá

4.4 Danh giá kết quả thực nghiệm

CHƯƠNG 5: KÉT LUẬN VÀ HƯỚNG PHÁT TRIÊN TIẾP THEO TAI LIBU THAM KHAO

Trang 7

TETDF Term Frequency - Inverse Document Frequency

Trang 8

Bang 1: Môi trường thực nghiệm

Tăng 2: Cáo phần mềm sử dụng,

Bảng 3: Tổng hợp dữ liệu thực nghiệm

Bang 4: Tổng hợp kết quả với các kích thước tập huấn luyện

Bảng 5: Độ đo phân lớp mô hình qui hỏi T.ogistie và thuật toán KNN

Trang 9

DANH SACH CAC HINH

Tình 1: Quá hình khed pha di tr thire

Tình 2: Các kỹ thuật Khai phá đữ liệu

TTình 3: Thuật toản KN phân lớp quan điểm

Hình 4: Mô hình thực nghiệm

Hình 5: Quy trình xử lý dỡ liệu

Tình 6: Mô tá dữ liệu thực nghiệm

Tình 7: Kết quá thực nghiệm với L1, L2

Hình 8: Kết quả phân lớp

Hình 9: Biểu diễu đánh giá mô hình qui hồi Logiste và KNN

Trang 10

MỞ ĐÀU

Khai phá trì thức là lĩnh vục rất phát triển trong những nắm gẩn day va

được ứng dụng trong nhiều lĩnh vực Khi quyển tự do ngôn luận ngày cảng được

Nhà nước ta chủ trọng, công dân có quyền được tham gu bản bạc, thâo luận và

đóng góp y kiển vào những vấn để chúng của đất nước đã đặt ra Bài toan cho

khai phá trí thắc, cụ thể là khái phá quan điểm: “Tảm thể nào để phân tích các

quan điểm được trao đổi trên các phương tiện thông tin đại chủng, để từ đó đưa

ra dự đoán cho vấn đề được thảo kuận?”

Nhận thấy các dự tháo đề án quốc gia luôn có tác động lớn đến nên kinh

tế, đời sống xã hội, luôn nhận được nhiều ý kiến đóng góp của các chuyên gia và nhân dân Các ÿ kiến dỏng gớp cũng có tác động ngược lại đến để ản trong suốt

quá trình khởi tạo và diễn ra dự án

Luan văn “Phân loại quan điểm trên nhương tiện xã hội đổi với dự thao đỀ án quốc gia” đưa ra một giải pháp giải quyết vẫn dé Bàn toán phân tích quan điểm trên phương tiện thông lu đại chúng, cụ thể là môi trường mạng, Để làm được việc này, luận văn tiến hành nghiên cứu các cơ sở lý thuyết, để xuất

giải pháp thực hiện và áp dụng thực nghiệm trên miễn dữ liệu về các dự thảo để

logie giải quyết Bài toán Từ đỏ, ta chọn ra một phương pháp phù hợp với Bài toán được trình bày trong chương 2

Chương 2: Nghiên cứu các phương pháp phân lớp guan điểm

Gó nhiều phương pháp để phân lớp quam điểm, mỗi phương pháp có một Tích sử, lư lưởng và đặc trưng riêng phủ hợp giải quyết từng van dé

Chương 3: Phân lớp quan điểm véi qui héi Logistic

Mô hình qui héi Logistic 14 phurong pháp mả luận văn lựa chọn để phân lớp quan điểm va dự báo, qua đó phân tích kết quá thực nghiệm Mô hình phân

Trang 11

tích méi trơng quan biến đự đoán phân loại và biến kết quả đự đoán, mô hình phủ hợp dữ liệu bài toán phần tích quan điểm tiêu cực hay tích cực

Chương 4: Thực nghiệm phân lớp quan điễm với dự tháo để án quốc gia

và đánh giá trên kết quả thực nghiệm

- Thu thập và xử lý đữ liệu là các bình luận và bài bảo niều ra cÁc quan

điểm thảo luận về các dự thảo để án quốc gia

- Thực nghiệm và đảnh giá mồ hình phân lớp quan điểm tiêu cực và tích

cực đối với các dự tháo đề án trên mô hình qui hổi Logistis

Trang 12

CHUGONG 1: TONG QUAN VE KHAT PHA Di LIEU, KHAT PHA QUAN

DIEM 1.1 Khai phá đữ liệu

Công nghệ thông tin ngày cảng phát triển thì các hệ thông thông tin ngày cảng mở rộng để lưu trữ một lượng lớn các dữ liệu đã có và đang tích tụ thêm,

thêm vào đó là việc lưu trữ đỡ liệu trực tuyến với dung lượng lớn nhiều khi đã lâm cho ta choáng ngợp và không biết làm thế nào để cỏ những thông tư hữu

Ích đang cần Quá trình lấy ra được những dữ liêu hữu Ích được gọi quá trình

khai phá trì thức Những dữ liệu đỏ là các lĩì thức học được

Có nhiều khái niệm về khai phá dữ liệu, trong đó có khái niệm sau đây dễ nhớ, để hiểu

“khai phả trí thức là tim ra trị thức trong đử liệu” [E1]

Quá trình khai phá trị thức

THình 1: Quả trình khai phá đữ trì thức

Trang 13

Quá trình khai thác tri thức không chỉ lá mệt quá trình tuần tự từ bước đâu tiên đến bước cuối cùng mả là một quá trình lặp và cỏ quay trổ lại các bước đã

qua, chỉ tiết 7 bước:

1) Lâm sach dif ligu (Data Cleaning):

Dữ liệu được thu thập từ các nguồn được xử lý bỏ dữ liên nhiễu và không phù hợp,

2) Tích hợp đữ liệu (Data Integration):

Dữ liệu có thể được kết hợp tử nhiều nguồn khác nhau, sau khi làm sạch

và tiên xứ lý được hợp nhất thành những kho dữ liệu (data warehouses)

33 Trích chọn đữ liệu (Dats Selection)

Tựa chọn ra những đữ liệu liên quan đến nhiệm vụ phân tích từ kho đữ

liệu

4) Chuyển đổ: dữ liệu (Data Transformation):

Dữ liệu được chuyển đổi sang dang phủ hợp và thông nhất cho quả trình xử lý

3) Khai phá dữ liệu (Data mining):

Tà một bước quan trọng, trong đỏ các phương pháp thêng múnh được áp dung để lấy ra được dữ liệu mới lâm cơ sở cho trị thức

6) Đánh gia mau (Pattem Evaluation):

Ding các biên pháp là các thước đo để đánh giá kết quả tìm được

7) Trình diễn đữ liện (Data Presentation)

Biểu diễn và thể hiện trực quan đữ liệu đã khai phá cho người đứng

Như vậy, khai phá đã hệu là một phân không thể thiểu trong khai pha wi

thức Từ bước 1 đến bước 4 là quá trình tiên xứ lý dữ liệu chuẩn bị chơ quả trình: khai phá, đến bước 5 khøi phá dữ liệu có thể tương tác với người dùng hoặc lưu trữ như kiểu thức mới trong ov sd tri thie Do vay khai phá dữ liệu là một phẩn

trong khai phá trí thức xong thuật ngĩ này bay được dùng để tham khảo cho toán

hộ quá trình khai phá trì thức

Khai phá đữ liệu được định nghĩa: là quá trìnhkhám phá các mẫu và vi

thức mới từ kho dữ liệu khổng lẻ [E1]

Trang 14

1.2 Các phương pháp khai phá dữ liệu

Tiền nay chưa có muội tiêu chuẩn rảo trong việc quyết định sử dụng

phương pháp khai phá đứ liệu nào vào trường hợp nào thì cỏ hiệu quả nhất Co

rất nhiêu kỹ thuật, mỗi kỹ thuật được sử dụng cho nhiễu bái toán khác nhau

Do vậy, nêu căn cứ vào bài toán cần giải quyết thì khai phá dử liệu được chia ra các phương pháp sau:

* Phan lop (classification) va dy dodn (prediction):

Với mội tập dữ liệu huấn luyện gó hước các giải thuật và công cụ sẽ xếp

các đối tượng và một trong các lớp đã biết trước

Tải toán dự đoán tương đương với bài toán phần lớp, khi có đổi tượng mới bộ đự đoán dựa trên thỏng tín dang có để đưa ra giả trị số học cho hàm cần

dự đoán

* Phin cum (chutering):

Phan cdc 4éi tuomg theo timg cum, đổi tượng vá tên cụm chưa được biết trước nên gợi phân cụm là học không giám sát

* Tổng hợp (summdrizaHon):

Công việc liên quan đến các phương pháp tìm kiếm mô tả tập con dữ liệu,

đó chính là sinh ra các mô tả đặc trưng cho suốt lớp

* Omi hãi (regression):

La bải toán học một hàm ảnh xạ từ một mẫu dữ liệu thành một biến dự

đoán có giả trị thục Bải toán qui hồi có nhiệm vụ tương tự bài toàn phân lớp song các tưuộc tính đự báo trong bài toán này Ja liên tục chứ khỏng rời rac

* Mô hình ràng buộc (dependency modeling):

Mô bình mô tả sự phụ thuộc giữa các biến, thuộc Lính theo hai mức

- Mức câu trúc của mê hình mô tä sự phụ thuộc bộ phận của các biến phụ vào các biến khác, thường biểu điển dưới dạng để thị

- Mức định lượng mô hình mô tả mức độ phụ thuộc, thường biểu điên

dưới dạng luật “nếu - thì”

* D tìm biến đỗi va dé léch (change and deviation dectectian):

Trang 15

Xác định giá trị chuẩn, phát hiện độ lệch đáng kể giữa nội dung của tập con dữ liệu thực và nội dung mong đợi Thường dùng 2 mô hình đo độ lệch

- Lệch theơ thời gian: thay dỗi có ý nghĩa của dữ liệu theo thời gian

là xác

- Tiệch theo nhóm: sự khác nhau giữa hai lập cơn đứ liệu, nghữ

định đữ liệu trong một nhóm cơn của đổi tượng có khác đảng kể so với toàn bô đối tượng không, qua đó phát hiện những sai sót đữ liệu và sai lệch sơ với giá trị Thông thường,

1.3 Các kỹ thuậi khai phá dữ ñệu

lọc máy nghiên cửa và xây dựng các kĩ thuật cho phép các hệ thống

"học" tự động từ đứ liệu để giải quyết những ván để cụ thể Trong khai phá dir liệu, học máy để dự đoàn một số thông tin của dữ liệu đựa trên những đặc tính

đã biết

Các phương pháp trong lĩnh vực học máy gồm có:

Học giảm sát | | Học bán giám sát Hoe không giám sả

Tình 2: Các kỹ thuật Thai phá dứt liệu

* Kỹ thuật học có giám sát (Supervie Machine Learning)

THc có giám sát là một kĩ thuật của ngành học máy để xây đựng một hàm

(funchon) từ dữ liệu huần luyện, Dữ liệu huấn luyện bao gồm các cặp gồm đối tượng đâu vào (thường đang vectot), và đầu ra mơng muôn, Đầu ra của mội hàm

có thể lá một giá trị liên tục (gọi là qui hồi), hay có thể là dự đoán một nhãn phân loại cho một đối tượng đầu vào (gọi là phân loại)

Một số thuật toán thường được lựa chọn khi xây dựng bộ phân lớp gồm

có: mày vector hễ trợ (Support Vector Machine - SVM), K ling giéng gần nhất (K Nearest Neighbours), tiép cin xác suất thông kê (Naive Bayes); Cây quyết

định (Deeision Trec): sử dụng mang noron (Neural Network); dựa trên vector

Trang 16

trọng tâm (Cemtroid-base vector), tuyến tỉnh bình phương nhõ nhất (Linear Least Square Fit),

* Kỹ thudt hoc bdn gidm sit (semi-supervised learning)

Eỹ thuật này sử dụng cả dữ liệu đã gán nhấn và chưa gáu nhấn để huận

luyên - điển hình là một lượng nhỏ dữ liệu cỏ gán nhãn cùng với lương lớn đít liệu chưa gán nhãn Học bán giảm sát đứng giữa học không giám sát (không cd tất kì đữ liệu có nhãn nào) và có giám sát (toàn bộ đữ liệu đều được gán nhăn) Nhiéu nhà nghiên cứu nhận thấy dữ liệu không gân nhãn, khi được sử đựng kết hợp với một ít dữ liệu có gán nhãn, có thể cải thiện đáng kế độ chính xác Dễ gắn nhãn dữ liệu cho một bái toán học máy thưởng đời hỏi một chuyên viên cỏ

kĩ năng để phân loại bằng tay các ví dụ huẳn luyện Khi đó, hợc bản giảm sát cỏ

giá tị thực tiễn lớn lao

‘Mot vi du cho ky thuat hoc may bản giám sát là đồng huấn luyện (co-

training), tong dé hay nhiều bộ học được huấu luyện củng ruột tập ví dụ nhưng, mỗi hộ sử dụng một tập đặc trưng khác nhau, lý tưởng nhất là độc lập với nhau

Một cách tiếp cân khác là mô hinh hoá phân phối xác suất đồng thời của các đặc trưng và nhấn Với dữ liệu chưa gán nhãn, cỏ thẻ coi nhần là “đữ liệu còn thiếu Các kỹ thuật xử lý dữ liệu còn thiếu như là lẫy mẫu Gibbs và tối vu

kỳ vọng có thẻ được sử đụng đề ước hượng tham số

* K5 thudt hoc khong gidm sat (Unsupervise Machine Learning)

Tác vei ky thual hoc co gidm sát là không biết trước số đầu ra tương ứng với tập đứt liệu đầu vào Trong học không có giảm sát, một tập dữ liệu đầu vào được thu thập Tiọc không có giảm sắt thường đùng với các đối tượng đầu vào

nhu là một tập các biến ngẫu nhiên Sau đỏ, một mô hình mật độ kết hợp sẽ

được xây dựng cho tập đữ liệu đó

Học không giảm sát là phương pháp học sử dụng chơ lớp bài toán gora

cum, phan eum (clustering,)

Phuong pháp học không giảm sat:

- Dễ thực hiện phân cụm, trước tiên cân một tập đữ liệu huấn luyện (training dataset) - là một tập các vi dy hoc (training examples/instances) Trong

đỏ, mỗi ví dụ học chí chứa thông tm biểu điển (ví dụ: một vector các giá trị

Trang 17

Thuộc tính), mà không có bất kỳ thông tin gì về nhãn lớp hoặc giả trị đầu ra mong muén (expected output)

- Ap ching mét thuat toan hoe khéng có giam sat (vi du k-means) dé hoc

hàn/mô hình mục tiêu (trong trường hợp này là hàm phần cụm ứng với thuật toán được chọi)

- Sử dựng một phương pháp thử nghiệm (có thể kết hợp với một tập đữ

liệu có gán nhãn) đề đánh giá hiệu năng của hàm mục tiêu học được

Một sỏ thuật toán học không giám sát: có nhiều thuật toán học không

giám sát được ra đời và phát triển nhằm giải quyết bài toán phân cựm phục vụ

khai thác hiệu quả nguồn dữ liệu chưa gán nhãn nhiễu và rất đa dang Việc lựa

chọn sử dụng thuật toán nảo tuy thuộc vào dữ liệu và mục đích của từng bài

toán Trong đó các thuật toản thường được sử dụng như: kaneans, HAC

(Hierarchical Agglomerative Clustering), SOM (Sclt-Organizing Map)

1.4 Các thách thức trong khai phá đữ liệu

Trong tải liệu [E2] đã nẻu ra một số thách thức trong khai phả dữ liêu như sau

- Phat triển một lý thuyết thống nhất của khai tháo dữ liệu:

Có rất nhiều kỹ thuật được thiết kế để khai thác các van đề nhưng không,

có lý thuyết thông nhất Phân loại, phân nhóm, luật kết hợp, hay các cách tiếp can khác như thông kê, học máy, tuy vậy đây sẽ cơ sở cho các nghiền cửu

trong tương lai

~ Dữ liệu nhiều ciúểu và tốc độ xử lỷ cơ sở dữ liệu cao:

Mgày nay có nhiễu cơ sở đữ liệu cỏ kích thước lớn (terabytes) với hàng trăm trường, bang gây khỏ khăn cho việc lầy mẫu, kết quả lầy mẫu không chính xác bằng tập đữ liệu có kích thước nhỏ

- Dữ liệu theo tuần tự và theo thời gian:

Tầu hết nội dưng, kích thước cơ sở đữ liệu thay đổi theo thời gian, đo vậy ảnh hưởng đến thời điêm quan sát đữ liêu Một số dữ liệu phải sắp thử tự trong, quá trình xử lý như phân tích dự bảo thời tiết dữ liệu được sắp theo tuần tự các tiện tượng thiên nhiên,

Trang 18

- Dữ liệu trong nhiễu định đạng phúc tạp:

Cần khai phá dữ liệu ở dạng đỗ thị, hình ánh, đa phương tiện cân nghiên

cứu phương pháp khai phá dữ liệu xa hơn việc phân loại, phân nhóm Từ đó cân

tích hợp khai thác đữ liệu và kiến thức suy luận Đây là một thách thúc rất lớn trong khai phá dữ liệu

- Khai thác đữ liệu trong một thiết lập mạng;

Thế giới ngay nay được kết nối với nhau thông qua nhiều loại liên kết: trang web, blog, email, facebook, do vậy việc khai thác từ các mạng xã hội là chủ để quan trọng Cần giải quyết các van đẻ đặt ra: câu trúc mạng, giao thức,

phân quyển, trong một công đồng mang Ví dụ: làm thể nào để khai thác dữ

liệu trong hỏm thư nội bộ của một tổ chức hay cá nhân trong một thời gian dài

Dữ liệu được phân phối ở rửuễu vị trí với tốc độ mạng cáo khái thác

xnựng đặt ra một thách thức lớn cho khái phá đữ liệu klú tốc độ và địch vụ mạng

ngày cảng lầng, Giả sử khi có một cuỘg lần công, các nhà cùng cấp mang cart

nhanh chóng tìm được gói tin IP và phân tích một lượng lớn dữ liệu (vài răm GB) với tốc đô nhanh chóng, tìm ra và hủy bỏ gói tin tấn công đó

- Khai thác đữ liệu cho các vẫn đề sinh học và môi trường;

Trong sinh học phân tử nhiều nhiệm vụ khai phá dữ liệu phức tạp tồn tại mnả không xử lý bởi cáo thuật toán dữ liện chuẩn, ví dụ liên qua đến các khía cạnh: khác rửnh như ADN, tính chất hỏa học,

trong các ứng dụng sinh thải, môi trưởng ví dụ: thực vật học, khí hậu,

âu trúc 3D, , khai thác dữ liệu

- Quy trình khai thác đữ liệu:

Lâm thể nào để xây dựng một quy trình tự động hóa khai thác dữ liệu với các thành phân của hoạt động khai thác và xây dựng được các hệ thông khai thác

dữ liệu giúp giảm nhân lực lao động, trong, đỏ có vẫn dé quan trọng lá xứ lý làm

sạch đữ hện

- Anninh, bao mat và toàn vẹn dữ liệu:

hai phá đữ liệu song cần bão về an ninh và sự riêng tư, đối khi khai phả

dử liệu mà không đâm bảo an ninh vá riêng tư thì việc khai phá đữ liêu có thể pay ra tac động xấu tới công chúng Và cũng cần phải đảm bảo tính toàn ven

Trang 19

kién thie, quan điểm trong đữ liệu, từc là cần phải so sánh, kiểm tra tính toàn

vẹn của đữ liệu trong các biên bản của đữ liệu

- Xử ly dữ liệu động, không cân bằng và chỉ phí nhạy cảm:

Ti khái phá dữ liệu liên tục thay đổi hoặc phụ thuộc theo thời gian, việc lấy mẫu và xây đựng mô hình thường không tôi ưu, kéo theo đó chỉ phí thục hiển cũng bị phụ thuộc vào quá trình xử lý và khắc phục lỗi sai lệch

1.5 Ứng dụng khai phá dữ liệu

Khai pha dir Eệu ngày càng phát triển sâu rộng nhằm khai thác nguồn dĩ liệu phong phú trong các hệ thống thông tin, đến nay khai phá đữ liệu đá chứng kiến nhiéu thành công lớn trong các ứng dụng Khó để có thê liệt kê tắt cả các

tứng đụng mà khai phá đữ liệu đóng vai trỏ quan trọng, do vậy luận văn trình bày

các ứng dụng của khai phá đữ liệu theo 2 nhóm:

1) Ứng dụng phân tích, dự bảo

~ Y học và chăm sóc y lễ: từ những thông tin cửa bệnh nhân trong cơ sở

dữ liệu của bệnh viện, hệ thống phân tích và đự đoán bệnh và đưa ra phác đồ

điều trị,

- Thương mại: phân tích thông tin săn phẩm, khách hàng, từ đỏ dự báo

chiến lược kinh doanh

- An ninh: phân tích hình ánh, manh múi, đối chiều với dữ liệu an minh để

Trang 20

1.6 Phân tích và khai phá quan điểm

Phân tích tầm lý (SentiuenL Analysie) hay khăi phá quan điểm (Opinion Vining) la nghiên cửu về ý kiến, Hải độ, cảm xúc của cơn người đổi với một vấn để, thực thể Khai phá quam điểm có ảnh hưởng lớn đến hành vì của con người trong tương lai vì nó là nhận thức, niềm tin của cơn người vẻ vẫn đề thực

tế và phụ thuộc vào cảch nhìn của mỗi người

Bat ett khi nao cần đưa ra quyết định, chứng ta thường tham khảo ý kiến của người khác, đối với cá nhân, lấy ý kiến từ cha mẹ, bạn bè, đối với tổ chức có thể là các cuộc điều tra, khảo sat hay các cuộc thấm dò dư luận

Khai phá quan điểm là kỹ thuật để phát hiện và trích xuất thông tím vẻ tỉnh cẳm cửa cơn người được lưu trong co sé dit héu, dé lam được việc này vẫn để

quan trọng là phân cực được tình cảm, quan điểm đối với vẫn đề, hay nói cách

khác đó là gắn nhân cho lài liệu, đánh giá đó là tích cực hay tiêu cực với đối

tượng mục tiêu (chủ đẻ) Các ý kiến quan điểm có thẻ thể hiện theo hai hướng:

- Quan điểm trực tiếp: cho ý kiến hoặc lả tích cực, hoặc là tiêu cực về trực tiếp các đối tượng quan tâm

Ví dụ: “Tôi đồng ý để án bỏ chấm điểm tiểu học của Bộ Giáo duc và Đào

tao”

- Quan dicm gián 1 so sảnh các đôi tượng quan tâm với với đổi tượng

khác tương tự để đưa ra ý kiểu khách quan cá nhận

Ví dụ: “Cải cách này của Bộ giáo đục cải thiện tình trạng bệnh thành tích

và giảm áp lực cho học sinh tiểu học”

Với mỗi vận để trao đổi, mỗi ý kiển đều là quan điểm chủ quan của cá nhân đưa ra, không đủ cơ sở nhận định chưng cho vẫn đề Do vay, can thu thap

đữ liệu chứa ý kiến, quan điểm lừ nhiều người, san đó tổng hợp các ý kiến, quan điểm để rút ra cái nhằu tổng quan cho toàn vẫn để

1.6.1 Phân tích quan điểm qua các cấp độ dữ liệu

* Phân lích quan điểm ở cẩn độ lài liệu

Trang 21

Trong tài liệu phân tích có thể có rất nhiêu câu không thê hiện quan điểm tinh cảm đổi với thực thể đang xét do đỏ chủ để hay đối tượng rất là quan trọng trong việc phân loại ở cắp độ này, còn những câu không phủ hợp phái được loại

bố ra khỏi quá trinh xử lý để giảm phức tạp của tài liệu

Tân suất từ hay cụm từ nói lên quản điểm là những đặc trưng để phân loại

Thương pháp phân loại cũng giống như ở cấp độ tài liệu song khai thác

được mức độ quan điểm hơn Cần tim ra các đối tượng và chủ để trong cầu chứa các từ thể hiện ý kiến San đó thì phân cực quan điểm của câu là tích cực, tiêu cực hay trung lập Câu đơn giãn mang một ÿ kiến về thực thể, song với câu phức tap rat khó cực quan điểm tiều cực hay tiêu cực, khó xác định đặc tính của đối

tượng trong cau

Lyi thể của phân loại cấp độ câu nằm trong việc phân loại các chủ đề, đối

tượng, sử dụng các thuật toàn truyền thông để huấn luyện

* Phân tích ở cắp độ cụm từ

Thân loại cựm từ hoàn thành khi tìm ra các từ chứa ý kiến, quan điểm tiêu

cực hay tích cực được xác định từ triết xuất các đặc trưng

1.6.2 Các thách thức của khai phá quan điểm

- Mỗi người khác nhau có phong cách viết khác nhau:

Cách thức sử dụng ngôn ngữ của mỗi người là khác nhau, sự phong phú

của ngôn ngữ đa dạng hóa cách thẻ hiện quan điểm của mỗi người Phong cách

Viết còn tùy thuộc vào trình độ, tỉnh cách, tuổi tác, của từng người

- Sự phụ thuộc vào bối cảnh và thời gian

Môi từ trong một lời phát biểu được xem là quan điểm tích cực trong tình huống này song vẫn có thể là tiêu cực trong tỉnh huéng khác Dặc biệt trong bồi

Trang 22

cảnh cham biém, mia mai, cách đúng từ ấn du rat dé gây ra hiểu lắm quan điểm

đúng

Một quan điểm về một vẫn dễ hoặc chí một phân của vẫn để cũng có thể gây hiểu lắm cho hệ thông khai phá quan điểm Ví dụ: dự thảo dé an đưa ra áp dụng cho nănn 2015, có ý kiến “đồng ý với việc thực hiện để án từ nồm 2016” Với việc ding bộ để án đưa 1a Hú ý kiến này được cọi là tích cực nhưng xót về tối cảnh thời gian tả nó lại là một ý kiến Liêu cực

- Tổn tại nhiều quan điểm mâu thuẫn trong cũng một tải liệu:

Trong một bình luận, bài viết chứa nhiều quan điểm mâu thuẫn nhau, bao

gồm cả ÿ kiến tích cực lẫn ý kiến tiêu cực gây khỏ khăn để phản tích củ pháp và

khai phá quan điểm Trong trường hợp nảy cần tách từng câu một đề phân tích

Nhu vậy, trong chương Ì luận vẫn để trình bày các nội dụng về khai phá

đữ liệu, khai phá quan điểm Dựa trên những lý thuyết cơ sở cần có, luận văn tiếp lục Lim hidu và phân lich cdc phương pháp đề thực hiện giải quyết Bái toán

đặt ra trong chương 2

Trang 23

Phân lớp quan điểm là một rong những bái toán quan Họng gủa khai phá

dữ liệu, nhằm phân loại các lài liệu theo định hướng quan điểm, Có nhiều cách tiếp cận khác nhàn để giải quyết bài toán mẻ

y Sau đầy luận văn trình bảy cách

tiếp cận để phân lớp quan điểm dựa vào kỹ thuật học máy, cụ thẻ là học cỏ giám sat

2.1 Kỹ thuật học có giám sát

Nhiệm vụ của chương trình học có giám sát là dự đoán giá trị gũa hàm

cho mội đối tượng bất kì là đâu vào hợp lê, sau khả đã xem xét dữ liệu huấn luyên (nghĩa là, các cặp đầu vào và đầu ra tương ứng) Đẻ đạt được điều này,

chương trình học phải tổng quát hóa từ các dữ Hiện sẵn có để đự đoán được những tỉnh huồng chưa gặp phải theo một cách “hợp l‡”

- Xác định việc biểu diễn cáo đặc trưng đầu vào cho hàm chức năng cẩn

tìm Sự chỉnh xá cia ham chức năng phụ thuộc lớn vào cách các đổi tượng đầu

vào được biểu diễu Thông thường, đốt Lượng đầu vào được chuyên đổi thánh

mmội vector đặc lrưng, chứa các đặc trimg nhằm suô tả cho đối tượng đó Số

lượng các đặc trưng không niên quá lớn nhưng phải đủ lớn để dự đoán chính xác

đầu ra

- Xác định cầu trúc của ham chức năng cần tìm vả giải thuật học tương, ứng, Ví đụ, có thể lựa chọn việc sử dụng mỏ hình hoe may SVM, cay quyết

định, xác suất Bayes,

Trang 24

- Dễ hoàn thién hoc may cần tiến hành chạy giải thuật học từ tập huấn Tuyện thu thập được Các tham số của giải thuật học có thể được điều chỉnh bằng cách tôi ưu hóa hiệu năng trên một tập con (gọi là tập kiểm chứng) của tập huần luyện, hay thông qua kiểm chứng chéo Sau khi học và điều chính tham số, hiệu

năng của giải thuật có thể được đo đạc trên một tập kiểm tra độc lập với tập huấn lưyện

TĐể thực hiện phần lớp bằng kỹ thuật học có giảm sắt như trên, trước hết ta

cần chọn được tập đặc trưng trên dữ liệu phân tích

2.2 Lựa chọn đặc trưng

Mhững tải liệu khác nhau có đặc trưng khác nhau, những đặc trưng này có thể xác định và đo đạc được Do đỏ đựa vào đặc trưng là một trong những phương pháp đùng để phân lớp

Tổể trích chọn đặc trưng cân xác định trọng số cho các từ trong văn bản

Có nhiều phương pháp tỉnh trọng số đó, luận văn sử dụng phương pháp TF*IDF,

phương, pháp nảy tỉnh tấn số của từ khóa - TE (Term Frequeney) và nghịch đáo

tin sé vin ban - TDF (Inverse Document Frequency)

Phương pháp thực hiệu như sau:

* Tinh trong số của từ khóa TF tấn sẻ xuất hiện của ] từ trong 1 văn bắn

Công thức:

f(a)

flea) = Trax {Ƒ(w, lo đ}: w € đ}

fŒ, đ): số lẫn xuất hiện từ t trong văn bản d

max{f(w, d) : w Ed} số lần xuất hiện nhiều nhất cứa một tử bắt kỳ trong

van ban,

tf(t,d) có giá trị thuộc khoảng [0, 1]

* Tinh IDF 46 gidm giá trị của những từ phổ biển Mỗi từ chỉ có 1 giả trị TDE duy nhất trong tập văn ban

Trang 25

Ifa €D:t Ed}

|DỊ: tổng số văn bản trong tap D

l[đ € D:t € đ]|: số văn bản chứa từ định tính (với Ø{,đ) + 0))

* Tinh Gia ti TE-IDE:

Biểu diễn văn bản dưới dạng vector đặc trưng:

Mỗi bình luận của một người là một văn bản Với mỗi dự thảo, dé an ta co

tập tải liệu D = (dụ, dh, , dy)

Mỗi tải liệu D được biểu điển đưới dạng Ÿ (vector đặc trưng cho tài liệu

D), Ÿ= (xị, X , Xa) với xị là trọng số của đặc trưng thứ ¡ Văn bản đ; sẽ được

biểu diễn bằng vector Ÿ = (xụ, x;, , xụ) Vector hỏa dữ liệu thực hiện như

sau:

Input:

- Tai liệu gồm các văn bản

~ Tập liệt kê trọng số (mỗi từ liệt kê 1 lần)

Output:

~ Tài liệu biểu diễn dưới dạng vector

Ví dụ: Vector hóa tải liệu D,

Van ban doel: áp dụng thông tư cho cấp hai

Trang 26

‘Van bản doc2: nhất trí áp dụng théng_tu

Van ban doc3: để án không thực tế không áp dụng

doe3: để án không thực tế không áp dụng

qui hỏi SVM nhận dang 2 mâu lớp vả phân loại chúng vảo hai lớp khác nhau

Tư tưởng thuật toán là cho trước một số điểm đữ liêu củng với nhãn của

chúng thuộc một trong hai lớp cho trước Thuật toản sẽ là xác định xem một

điểm dữ liêu mới sẽ được thuộc về lớp nao Tap huan luyện được biểu diễn trong không gian vector trong đó mỗi tài liệu là một điểm Biên là khoảng cách

Tiêu đề	Luận văn phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia
Tác giả	Nguyễn Thị Hoa
Người hướng dẫn	TS. Đặng Thanh Hải, TS. Nguyễn Cẩm Tủ
Trường học	Trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội
Chuyên ngành	Công nghệ thông tin
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2015
Thành phố	Hà Nội

Định dạng
Số trang	53
Dung lượng	1,03 MB