Luan văn “Phân loại quan điểm trên nhương tiện xã hội đổi với dự thao đỀ án quốc gia” đưa ra một giải pháp giải quyết vẫn dé Bàn toán phân tích quan điểm trên phương tiện thông lu đại ch
Trang 1
NGÔ THỊ IOA
PHÂN LOẠI QUAN DIỄM TRÊN PHƯƠNG TIỆN XÃ HỘI
ĐÓI VỚI DỰ THẢO ĐÈ ÁN QUỐC GIÁ
LUẬN VĂN THẠC SI CONG NGIIE THONG TIN
Ha Noi - 2015
Trang 2
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGÔ THỊ HOA
PHẪN LOẠI QUAN DIỄM TRÊN PHƯƠNG TIẾN XÃ HỘI
DOI VOI DY THAO DE AN QUOC GIA
Nganh: Cong nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm
Mã số: 60480103
LUẬN VĂN THẠC SĨ NGANH CONG NGHE THONG TIN
NGƯỜI HƯỚNG DAN KHOA HOC: TS DANG THANH HAI
TS NGUYEN CAM TU
Tà Nội - 2014
Trang 3và động viên mỗi khi tôi gặp vướng mắc trong lý thuyết và thực nghiệm
Tái xin chân thành cảm ơn các thấy trong Khoa Công nghệ thêng tín - Thông Đảo tạo sau đại học, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội đã tạo mọi điền kiện tết nhất đẻ tôi hoàn thành khóa học này Đồng thời, tôi cũng xin cảm ơn gia định, bạn bè, những người luôn khuyến khích và giúp đế tôi trong mọi hoàn cảnh khó khăn
Tác giá luận văn
Ngô Thị Hoa
Trang 4TỚI CAM ĐOAN
Tôi xi cam đoan dây là công trinh nghiên cửu độc lập của riễng tôi thực
ca TS Đặng Thanh Hai va TS Nguyễn Cẩm Tủ, Không sao chép ở bất kỹ môi luận
hiển đưới sự hướng đãi
, luận án của gác táu giá khác Nếu có
để gì lôi xm hoàn toàn chịu trách niệm
Tác giả huận văn
Ngỏ Thị Hoa
Trang 51.1 Khai phá đữ liệu kg Hee share
1.2 Các phương pháp khai phá dữ liệu
1.3 Các kỹ thuật khai phả dữ liệu
1.4 Các thách thức trong khai phá dữ liệu -
1.5 Ứng dụng khai phá đữ liệu mm
1.6 Phân tích và khai phả quan điểm
1.61 Phân tích quan điểm qua các cấp độ dữ liệu
1.6.2 Các thách thức của khai phá quan điểm TH se
CHUONG 2: CAC PHUONG PHAP PHAN LOP QUAN DIEM
2.1 Kỹ thuật học có giảm sắt, coi "¬
2.2 Tara chon dic trung,
2.3 Các phương pháp phân lớp quan điểm mm
2.3.1 M6 hinh hoc may SVM
2.3.2 Mô hình cây quyết định
2.3.3 Mô hình xác suất Bayes co eo "—
Trang 63.1.1 Các khải niệm
3.1.2 Mô hình quủ hỏi Logistic
3.1.3 Phương pháp tùn tham số và tối ưu mô hình qui hồi Loeistie
4.3 Thực nghiệm phân lớp và đánh giá
4.4 Danh giá kết quả thực nghiệm
CHƯƠNG 5: KÉT LUẬN VÀ HƯỚNG PHÁT TRIÊN TIẾP THEO TAI LIBU THAM KHAO
Trang 7TETDF Term Frequency - Inverse Document Frequency
Trang 8Bang 1: Môi trường thực nghiệm
Tăng 2: Cáo phần mềm sử dụng,
Bảng 3: Tổng hợp dữ liệu thực nghiệm
Bang 4: Tổng hợp kết quả với các kích thước tập huấn luyện
Bảng 5: Độ đo phân lớp mô hình qui hỏi T.ogistie và thuật toán KNN
Trang 9DANH SACH CAC HINH
Tình 1: Quá hình khed pha di tr thire
Tình 2: Các kỹ thuật Khai phá đữ liệu
TTình 3: Thuật toản KN phân lớp quan điểm
Hình 4: Mô hình thực nghiệm
Hình 5: Quy trình xử lý dỡ liệu
Tình 6: Mô tá dữ liệu thực nghiệm
Tình 7: Kết quá thực nghiệm với L1, L2
Hình 8: Kết quả phân lớp
Hình 9: Biểu diễu đánh giá mô hình qui hồi Logiste và KNN
Trang 10MỞ ĐÀU
Khai phá trì thức là lĩnh vục rất phát triển trong những nắm gẩn day va
được ứng dụng trong nhiều lĩnh vực Khi quyển tự do ngôn luận ngày cảng được
Nhà nước ta chủ trọng, công dân có quyền được tham gu bản bạc, thâo luận và
đóng góp y kiển vào những vấn để chúng của đất nước đã đặt ra Bài toan cho
khai phá trí thắc, cụ thể là khái phá quan điểm: “Tảm thể nào để phân tích các
quan điểm được trao đổi trên các phương tiện thông tin đại chủng, để từ đó đưa
ra dự đoán cho vấn đề được thảo kuận?”
Nhận thấy các dự tháo đề án quốc gia luôn có tác động lớn đến nên kinh
tế, đời sống xã hội, luôn nhận được nhiều ý kiến đóng góp của các chuyên gia và nhân dân Các ÿ kiến dỏng gớp cũng có tác động ngược lại đến để ản trong suốt
quá trình khởi tạo và diễn ra dự án
Luan văn “Phân loại quan điểm trên nhương tiện xã hội đổi với dự thao đỀ án quốc gia” đưa ra một giải pháp giải quyết vẫn dé Bàn toán phân tích quan điểm trên phương tiện thông lu đại chúng, cụ thể là môi trường mạng, Để làm được việc này, luận văn tiến hành nghiên cứu các cơ sở lý thuyết, để xuất
giải pháp thực hiện và áp dụng thực nghiệm trên miễn dữ liệu về các dự thảo để
logie giải quyết Bài toán Từ đỏ, ta chọn ra một phương pháp phù hợp với Bài toán được trình bày trong chương 2
Chương 2: Nghiên cứu các phương pháp phân lớp guan điểm
Gó nhiều phương pháp để phân lớp quam điểm, mỗi phương pháp có một Tích sử, lư lưởng và đặc trưng riêng phủ hợp giải quyết từng van dé
Chương 3: Phân lớp quan điểm véi qui héi Logistic
Mô hình qui héi Logistic 14 phurong pháp mả luận văn lựa chọn để phân lớp quan điểm va dự báo, qua đó phân tích kết quá thực nghiệm Mô hình phân
Trang 11tích méi trơng quan biến đự đoán phân loại và biến kết quả đự đoán, mô hình phủ hợp dữ liệu bài toán phần tích quan điểm tiêu cực hay tích cực
Chương 4: Thực nghiệm phân lớp quan điễm với dự tháo để án quốc gia
và đánh giá trên kết quả thực nghiệm
- Thu thập và xử lý đữ liệu là các bình luận và bài bảo niều ra cÁc quan
điểm thảo luận về các dự thảo để án quốc gia
- Thực nghiệm và đảnh giá mồ hình phân lớp quan điểm tiêu cực và tích
cực đối với các dự tháo đề án trên mô hình qui hổi Logistis
Trang 12CHUGONG 1: TONG QUAN VE KHAT PHA Di LIEU, KHAT PHA QUAN
DIEM 1.1 Khai phá đữ liệu
Công nghệ thông tin ngày cảng phát triển thì các hệ thông thông tin ngày cảng mở rộng để lưu trữ một lượng lớn các dữ liệu đã có và đang tích tụ thêm,
thêm vào đó là việc lưu trữ đỡ liệu trực tuyến với dung lượng lớn nhiều khi đã lâm cho ta choáng ngợp và không biết làm thế nào để cỏ những thông tư hữu
Ích đang cần Quá trình lấy ra được những dữ liêu hữu Ích được gọi quá trình
khai phá trì thức Những dữ liệu đỏ là các lĩì thức học được
Có nhiều khái niệm về khai phá dữ liệu, trong đó có khái niệm sau đây dễ nhớ, để hiểu
“khai phả trí thức là tim ra trị thức trong đử liệu” [E1]
Quá trình khai phá trị thức
THình 1: Quả trình khai phá đữ trì thức
Trang 13Quá trình khai thác tri thức không chỉ lá mệt quá trình tuần tự từ bước đâu tiên đến bước cuối cùng mả là một quá trình lặp và cỏ quay trổ lại các bước đã
qua, chỉ tiết 7 bước:
1) Lâm sach dif ligu (Data Cleaning):
Dữ liệu được thu thập từ các nguồn được xử lý bỏ dữ liên nhiễu và không phù hợp,
2) Tích hợp đữ liệu (Data Integration):
Dữ liệu có thể được kết hợp tử nhiều nguồn khác nhau, sau khi làm sạch
và tiên xứ lý được hợp nhất thành những kho dữ liệu (data warehouses)
33 Trích chọn đữ liệu (Dats Selection)
Tựa chọn ra những đữ liệu liên quan đến nhiệm vụ phân tích từ kho đữ
liệu
4) Chuyển đổ: dữ liệu (Data Transformation):
Dữ liệu được chuyển đổi sang dang phủ hợp và thông nhất cho quả trình xử lý
3) Khai phá dữ liệu (Data mining):
Tà một bước quan trọng, trong đỏ các phương pháp thêng múnh được áp dung để lấy ra được dữ liệu mới lâm cơ sở cho trị thức
6) Đánh gia mau (Pattem Evaluation):
Ding các biên pháp là các thước đo để đánh giá kết quả tìm được
7) Trình diễn đữ liện (Data Presentation)
Biểu diễn và thể hiện trực quan đữ liệu đã khai phá cho người đứng
Như vậy, khai phá đã hệu là một phân không thể thiểu trong khai pha wi
thức Từ bước 1 đến bước 4 là quá trình tiên xứ lý dữ liệu chuẩn bị chơ quả trình: khai phá, đến bước 5 khøi phá dữ liệu có thể tương tác với người dùng hoặc lưu trữ như kiểu thức mới trong ov sd tri thie Do vay khai phá dữ liệu là một phẩn
trong khai phá trí thức xong thuật ngĩ này bay được dùng để tham khảo cho toán
hộ quá trình khai phá trì thức
Khai phá đữ liệu được định nghĩa: là quá trìnhkhám phá các mẫu và vi
thức mới từ kho dữ liệu khổng lẻ [E1]
Trang 141.2 Các phương pháp khai phá dữ liệu
Tiền nay chưa có muội tiêu chuẩn rảo trong việc quyết định sử dụng
phương pháp khai phá đứ liệu nào vào trường hợp nào thì cỏ hiệu quả nhất Co
rất nhiêu kỹ thuật, mỗi kỹ thuật được sử dụng cho nhiễu bái toán khác nhau
Do vậy, nêu căn cứ vào bài toán cần giải quyết thì khai phá dử liệu được chia ra các phương pháp sau:
* Phan lop (classification) va dy dodn (prediction):
Với mội tập dữ liệu huấn luyện gó hước các giải thuật và công cụ sẽ xếp
các đối tượng và một trong các lớp đã biết trước
Tải toán dự đoán tương đương với bài toán phần lớp, khi có đổi tượng mới bộ đự đoán dựa trên thỏng tín dang có để đưa ra giả trị số học cho hàm cần
dự đoán
* Phin cum (chutering):
Phan cdc 4éi tuomg theo timg cum, đổi tượng vá tên cụm chưa được biết trước nên gợi phân cụm là học không giám sát
* Tổng hợp (summdrizaHon):
Công việc liên quan đến các phương pháp tìm kiếm mô tả tập con dữ liệu,
đó chính là sinh ra các mô tả đặc trưng cho suốt lớp
* Omi hãi (regression):
La bải toán học một hàm ảnh xạ từ một mẫu dữ liệu thành một biến dự
đoán có giả trị thục Bải toán qui hồi có nhiệm vụ tương tự bài toàn phân lớp song các tưuộc tính đự báo trong bài toán này Ja liên tục chứ khỏng rời rac
* Mô hình ràng buộc (dependency modeling):
Mô bình mô tả sự phụ thuộc giữa các biến, thuộc Lính theo hai mức
- Mức câu trúc của mê hình mô tä sự phụ thuộc bộ phận của các biến phụ vào các biến khác, thường biểu điển dưới dạng để thị
- Mức định lượng mô hình mô tả mức độ phụ thuộc, thường biểu điên
dưới dạng luật “nếu - thì”
* D tìm biến đỗi va dé léch (change and deviation dectectian):
Trang 15Xác định giá trị chuẩn, phát hiện độ lệch đáng kể giữa nội dung của tập con dữ liệu thực và nội dung mong đợi Thường dùng 2 mô hình đo độ lệch
- Lệch theơ thời gian: thay dỗi có ý nghĩa của dữ liệu theo thời gian
là xác
- Tiệch theo nhóm: sự khác nhau giữa hai lập cơn đứ liệu, nghữ
định đữ liệu trong một nhóm cơn của đổi tượng có khác đảng kể so với toàn bô đối tượng không, qua đó phát hiện những sai sót đữ liệu và sai lệch sơ với giá trị Thông thường,
1.3 Các kỹ thuậi khai phá dữ ñệu
lọc máy nghiên cửa và xây dựng các kĩ thuật cho phép các hệ thống
"học" tự động từ đứ liệu để giải quyết những ván để cụ thể Trong khai phá dir liệu, học máy để dự đoàn một số thông tin của dữ liệu đựa trên những đặc tính
đã biết
Các phương pháp trong lĩnh vực học máy gồm có:
Học giảm sát | | Học bán giám sát Hoe không giám sả
Tình 2: Các kỹ thuật Thai phá dứt liệu
* Kỹ thuật học có giám sát (Supervie Machine Learning)
THc có giám sát là một kĩ thuật của ngành học máy để xây đựng một hàm
(funchon) từ dữ liệu huần luyện, Dữ liệu huấn luyện bao gồm các cặp gồm đối tượng đâu vào (thường đang vectot), và đầu ra mơng muôn, Đầu ra của mội hàm
có thể lá một giá trị liên tục (gọi là qui hồi), hay có thể là dự đoán một nhãn phân loại cho một đối tượng đầu vào (gọi là phân loại)
Một số thuật toán thường được lựa chọn khi xây dựng bộ phân lớp gồm
có: mày vector hễ trợ (Support Vector Machine - SVM), K ling giéng gần nhất (K Nearest Neighbours), tiép cin xác suất thông kê (Naive Bayes); Cây quyết
định (Deeision Trec): sử dụng mang noron (Neural Network); dựa trên vector
Trang 16trọng tâm (Cemtroid-base vector), tuyến tỉnh bình phương nhõ nhất (Linear Least Square Fit),
* Kỹ thudt hoc bdn gidm sit (semi-supervised learning)
Eỹ thuật này sử dụng cả dữ liệu đã gán nhấn và chưa gáu nhấn để huận
luyên - điển hình là một lượng nhỏ dữ liệu cỏ gán nhãn cùng với lương lớn đít liệu chưa gán nhãn Học bán giảm sát đứng giữa học không giám sát (không cd tất kì đữ liệu có nhãn nào) và có giám sát (toàn bộ đữ liệu đều được gán nhăn) Nhiéu nhà nghiên cứu nhận thấy dữ liệu không gân nhãn, khi được sử đựng kết hợp với một ít dữ liệu có gán nhãn, có thể cải thiện đáng kế độ chính xác Dễ gắn nhãn dữ liệu cho một bái toán học máy thưởng đời hỏi một chuyên viên cỏ
kĩ năng để phân loại bằng tay các ví dụ huẳn luyện Khi đó, hợc bản giảm sát cỏ
giá tị thực tiễn lớn lao
‘Mot vi du cho ky thuat hoc may bản giám sát là đồng huấn luyện (co-
training), tong dé hay nhiều bộ học được huấu luyện củng ruột tập ví dụ nhưng, mỗi hộ sử dụng một tập đặc trưng khác nhau, lý tưởng nhất là độc lập với nhau
Một cách tiếp cân khác là mô hinh hoá phân phối xác suất đồng thời của các đặc trưng và nhấn Với dữ liệu chưa gán nhãn, cỏ thẻ coi nhần là “đữ liệu còn thiếu Các kỹ thuật xử lý dữ liệu còn thiếu như là lẫy mẫu Gibbs và tối vu
kỳ vọng có thẻ được sử đụng đề ước hượng tham số
* K5 thudt hoc khong gidm sat (Unsupervise Machine Learning)
Tác vei ky thual hoc co gidm sát là không biết trước số đầu ra tương ứng với tập đứt liệu đầu vào Trong học không có giảm sát, một tập dữ liệu đầu vào được thu thập Tiọc không có giảm sắt thường đùng với các đối tượng đầu vào
nhu là một tập các biến ngẫu nhiên Sau đỏ, một mô hình mật độ kết hợp sẽ
được xây dựng cho tập đữ liệu đó
Học không giảm sát là phương pháp học sử dụng chơ lớp bài toán gora
cum, phan eum (clustering,)
Phuong pháp học không giảm sat:
- Dễ thực hiện phân cụm, trước tiên cân một tập đữ liệu huấn luyện (training dataset) - là một tập các vi dy hoc (training examples/instances) Trong
đỏ, mỗi ví dụ học chí chứa thông tm biểu điển (ví dụ: một vector các giá trị
Trang 17Thuộc tính), mà không có bất kỳ thông tin gì về nhãn lớp hoặc giả trị đầu ra mong muén (expected output)
- Ap ching mét thuat toan hoe khéng có giam sat (vi du k-means) dé hoc
hàn/mô hình mục tiêu (trong trường hợp này là hàm phần cụm ứng với thuật toán được chọi)
- Sử dựng một phương pháp thử nghiệm (có thể kết hợp với một tập đữ
liệu có gán nhãn) đề đánh giá hiệu năng của hàm mục tiêu học được
Một sỏ thuật toán học không giám sát: có nhiều thuật toán học không
giám sát được ra đời và phát triển nhằm giải quyết bài toán phân cựm phục vụ
khai thác hiệu quả nguồn dữ liệu chưa gán nhãn nhiễu và rất đa dang Việc lựa
chọn sử dụng thuật toán nảo tuy thuộc vào dữ liệu và mục đích của từng bài
toán Trong đó các thuật toản thường được sử dụng như: kaneans, HAC
(Hierarchical Agglomerative Clustering), SOM (Sclt-Organizing Map)
1.4 Các thách thức trong khai phá đữ liệu
Trong tải liệu [E2] đã nẻu ra một số thách thức trong khai phả dữ liêu như sau
- Phat triển một lý thuyết thống nhất của khai tháo dữ liệu:
Có rất nhiều kỹ thuật được thiết kế để khai thác các van đề nhưng không,
có lý thuyết thông nhất Phân loại, phân nhóm, luật kết hợp, hay các cách tiếp can khác như thông kê, học máy, tuy vậy đây sẽ cơ sở cho các nghiền cửu
trong tương lai
~ Dữ liệu nhiều ciúểu và tốc độ xử lỷ cơ sở dữ liệu cao:
Mgày nay có nhiễu cơ sở đữ liệu cỏ kích thước lớn (terabytes) với hàng trăm trường, bang gây khỏ khăn cho việc lầy mẫu, kết quả lầy mẫu không chính xác bằng tập đữ liệu có kích thước nhỏ
- Dữ liệu theo tuần tự và theo thời gian:
Tầu hết nội dưng, kích thước cơ sở đữ liệu thay đổi theo thời gian, đo vậy ảnh hưởng đến thời điêm quan sát đữ liêu Một số dữ liệu phải sắp thử tự trong, quá trình xử lý như phân tích dự bảo thời tiết dữ liệu được sắp theo tuần tự các tiện tượng thiên nhiên,
Trang 18- Dữ liệu trong nhiễu định đạng phúc tạp:
Cần khai phá dữ liệu ở dạng đỗ thị, hình ánh, đa phương tiện cân nghiên
cứu phương pháp khai phá dữ liệu xa hơn việc phân loại, phân nhóm Từ đó cân
tích hợp khai thác đữ liệu và kiến thức suy luận Đây là một thách thúc rất lớn trong khai phá dữ liệu
- Khai thác đữ liệu trong một thiết lập mạng;
Thế giới ngay nay được kết nối với nhau thông qua nhiều loại liên kết: trang web, blog, email, facebook, do vậy việc khai thác từ các mạng xã hội là chủ để quan trọng Cần giải quyết các van đẻ đặt ra: câu trúc mạng, giao thức,
phân quyển, trong một công đồng mang Ví dụ: làm thể nào để khai thác dữ
liệu trong hỏm thư nội bộ của một tổ chức hay cá nhân trong một thời gian dài
Dữ liệu được phân phối ở rửuễu vị trí với tốc độ mạng cáo khái thác
xnựng đặt ra một thách thức lớn cho khái phá đữ liệu klú tốc độ và địch vụ mạng
ngày cảng lầng, Giả sử khi có một cuỘg lần công, các nhà cùng cấp mang cart
nhanh chóng tìm được gói tin IP và phân tích một lượng lớn dữ liệu (vài răm GB) với tốc đô nhanh chóng, tìm ra và hủy bỏ gói tin tấn công đó
- Khai thác đữ liệu cho các vẫn đề sinh học và môi trường;
Trong sinh học phân tử nhiều nhiệm vụ khai phá dữ liệu phức tạp tồn tại mnả không xử lý bởi cáo thuật toán dữ liện chuẩn, ví dụ liên qua đến các khía cạnh: khác rửnh như ADN, tính chất hỏa học,
trong các ứng dụng sinh thải, môi trưởng ví dụ: thực vật học, khí hậu,
âu trúc 3D, , khai thác dữ liệu
- Quy trình khai thác đữ liệu:
Lâm thể nào để xây dựng một quy trình tự động hóa khai thác dữ liệu với các thành phân của hoạt động khai thác và xây dựng được các hệ thông khai thác
dữ liệu giúp giảm nhân lực lao động, trong, đỏ có vẫn dé quan trọng lá xứ lý làm
sạch đữ hện
- Anninh, bao mat và toàn vẹn dữ liệu:
hai phá đữ liệu song cần bão về an ninh và sự riêng tư, đối khi khai phả
dử liệu mà không đâm bảo an ninh vá riêng tư thì việc khai phá đữ liêu có thể pay ra tac động xấu tới công chúng Và cũng cần phải đảm bảo tính toàn ven
Trang 19kién thie, quan điểm trong đữ liệu, từc là cần phải so sánh, kiểm tra tính toàn
vẹn của đữ liệu trong các biên bản của đữ liệu
- Xử ly dữ liệu động, không cân bằng và chỉ phí nhạy cảm:
Ti khái phá dữ liệu liên tục thay đổi hoặc phụ thuộc theo thời gian, việc lấy mẫu và xây đựng mô hình thường không tôi ưu, kéo theo đó chỉ phí thục hiển cũng bị phụ thuộc vào quá trình xử lý và khắc phục lỗi sai lệch
1.5 Ứng dụng khai phá dữ liệu
Khai pha dir Eệu ngày càng phát triển sâu rộng nhằm khai thác nguồn dĩ liệu phong phú trong các hệ thống thông tin, đến nay khai phá đữ liệu đá chứng kiến nhiéu thành công lớn trong các ứng dụng Khó để có thê liệt kê tắt cả các
tứng đụng mà khai phá đữ liệu đóng vai trỏ quan trọng, do vậy luận văn trình bày
các ứng dụng của khai phá đữ liệu theo 2 nhóm:
1) Ứng dụng phân tích, dự bảo
~ Y học và chăm sóc y lễ: từ những thông tin cửa bệnh nhân trong cơ sở
dữ liệu của bệnh viện, hệ thống phân tích và đự đoán bệnh và đưa ra phác đồ
điều trị,
- Thương mại: phân tích thông tin săn phẩm, khách hàng, từ đỏ dự báo
chiến lược kinh doanh
- An ninh: phân tích hình ánh, manh múi, đối chiều với dữ liệu an minh để
Trang 201.6 Phân tích và khai phá quan điểm
Phân tích tầm lý (SentiuenL Analysie) hay khăi phá quan điểm (Opinion Vining) la nghiên cửu về ý kiến, Hải độ, cảm xúc của cơn người đổi với một vấn để, thực thể Khai phá quam điểm có ảnh hưởng lớn đến hành vì của con người trong tương lai vì nó là nhận thức, niềm tin của cơn người vẻ vẫn đề thực
tế và phụ thuộc vào cảch nhìn của mỗi người
Bat ett khi nao cần đưa ra quyết định, chứng ta thường tham khảo ý kiến của người khác, đối với cá nhân, lấy ý kiến từ cha mẹ, bạn bè, đối với tổ chức có thể là các cuộc điều tra, khảo sat hay các cuộc thấm dò dư luận
Khai phá quan điểm là kỹ thuật để phát hiện và trích xuất thông tím vẻ tỉnh cẳm cửa cơn người được lưu trong co sé dit héu, dé lam được việc này vẫn để
quan trọng là phân cực được tình cảm, quan điểm đối với vẫn đề, hay nói cách
khác đó là gắn nhân cho lài liệu, đánh giá đó là tích cực hay tiêu cực với đối
tượng mục tiêu (chủ đẻ) Các ý kiến quan điểm có thẻ thể hiện theo hai hướng:
- Quan điểm trực tiếp: cho ý kiến hoặc lả tích cực, hoặc là tiêu cực về trực tiếp các đối tượng quan tâm
Ví dụ: “Tôi đồng ý để án bỏ chấm điểm tiểu học của Bộ Giáo duc và Đào
tao”
- Quan dicm gián 1 so sảnh các đôi tượng quan tâm với với đổi tượng
khác tương tự để đưa ra ý kiểu khách quan cá nhận
Ví dụ: “Cải cách này của Bộ giáo đục cải thiện tình trạng bệnh thành tích
và giảm áp lực cho học sinh tiểu học”
Với mỗi vận để trao đổi, mỗi ý kiển đều là quan điểm chủ quan của cá nhân đưa ra, không đủ cơ sở nhận định chưng cho vẫn đề Do vay, can thu thap
đữ liệu chứa ý kiến, quan điểm lừ nhiều người, san đó tổng hợp các ý kiến, quan điểm để rút ra cái nhằu tổng quan cho toàn vẫn để
1.6.1 Phân tích quan điểm qua các cấp độ dữ liệu
* Phân lích quan điểm ở cẩn độ lài liệu
Trang 21Trong tài liệu phân tích có thể có rất nhiêu câu không thê hiện quan điểm tinh cảm đổi với thực thể đang xét do đỏ chủ để hay đối tượng rất là quan trọng trong việc phân loại ở cắp độ này, còn những câu không phủ hợp phái được loại
bố ra khỏi quá trinh xử lý để giảm phức tạp của tài liệu
Tân suất từ hay cụm từ nói lên quản điểm là những đặc trưng để phân loại
Thương pháp phân loại cũng giống như ở cấp độ tài liệu song khai thác
được mức độ quan điểm hơn Cần tim ra các đối tượng và chủ để trong cầu chứa các từ thể hiện ý kiến San đó thì phân cực quan điểm của câu là tích cực, tiêu cực hay trung lập Câu đơn giãn mang một ÿ kiến về thực thể, song với câu phức tap rat khó cực quan điểm tiều cực hay tiêu cực, khó xác định đặc tính của đối
tượng trong cau
Lyi thể của phân loại cấp độ câu nằm trong việc phân loại các chủ đề, đối
tượng, sử dụng các thuật toàn truyền thông để huấn luyện
* Phân tích ở cắp độ cụm từ
Thân loại cựm từ hoàn thành khi tìm ra các từ chứa ý kiến, quan điểm tiêu
cực hay tích cực được xác định từ triết xuất các đặc trưng
1.6.2 Các thách thức của khai phá quan điểm
- Mỗi người khác nhau có phong cách viết khác nhau:
Cách thức sử dụng ngôn ngữ của mỗi người là khác nhau, sự phong phú
của ngôn ngữ đa dạng hóa cách thẻ hiện quan điểm của mỗi người Phong cách
Viết còn tùy thuộc vào trình độ, tỉnh cách, tuổi tác, của từng người
- Sự phụ thuộc vào bối cảnh và thời gian
Môi từ trong một lời phát biểu được xem là quan điểm tích cực trong tình huống này song vẫn có thể là tiêu cực trong tỉnh huéng khác Dặc biệt trong bồi
Trang 22cảnh cham biém, mia mai, cách đúng từ ấn du rat dé gây ra hiểu lắm quan điểm
đúng
Một quan điểm về một vẫn dễ hoặc chí một phân của vẫn để cũng có thể gây hiểu lắm cho hệ thông khai phá quan điểm Ví dụ: dự thảo dé an đưa ra áp dụng cho nănn 2015, có ý kiến “đồng ý với việc thực hiện để án từ nồm 2016” Với việc ding bộ để án đưa 1a Hú ý kiến này được cọi là tích cực nhưng xót về tối cảnh thời gian tả nó lại là một ý kiến Liêu cực
- Tổn tại nhiều quan điểm mâu thuẫn trong cũng một tải liệu:
Trong một bình luận, bài viết chứa nhiều quan điểm mâu thuẫn nhau, bao
gồm cả ÿ kiến tích cực lẫn ý kiến tiêu cực gây khỏ khăn để phản tích củ pháp và
khai phá quan điểm Trong trường hợp nảy cần tách từng câu một đề phân tích
Nhu vậy, trong chương Ì luận vẫn để trình bày các nội dụng về khai phá
đữ liệu, khai phá quan điểm Dựa trên những lý thuyết cơ sở cần có, luận văn tiếp lục Lim hidu và phân lich cdc phương pháp đề thực hiện giải quyết Bái toán
đặt ra trong chương 2
Trang 23Phân lớp quan điểm là một rong những bái toán quan Họng gủa khai phá
dữ liệu, nhằm phân loại các lài liệu theo định hướng quan điểm, Có nhiều cách tiếp cận khác nhàn để giải quyết bài toán mẻ
y Sau đầy luận văn trình bảy cách
tiếp cận để phân lớp quan điểm dựa vào kỹ thuật học máy, cụ thẻ là học cỏ giám sat
2.1 Kỹ thuật học có giám sát
Nhiệm vụ của chương trình học có giám sát là dự đoán giá trị gũa hàm
cho mội đối tượng bất kì là đâu vào hợp lê, sau khả đã xem xét dữ liệu huấn luyên (nghĩa là, các cặp đầu vào và đầu ra tương ứng) Đẻ đạt được điều này,
chương trình học phải tổng quát hóa từ các dữ Hiện sẵn có để đự đoán được những tỉnh huồng chưa gặp phải theo một cách “hợp l‡”
- Xác định việc biểu diễn cáo đặc trưng đầu vào cho hàm chức năng cẩn
tìm Sự chỉnh xá cia ham chức năng phụ thuộc lớn vào cách các đổi tượng đầu
vào được biểu diễu Thông thường, đốt Lượng đầu vào được chuyên đổi thánh
mmội vector đặc lrưng, chứa các đặc trimg nhằm suô tả cho đối tượng đó Số
lượng các đặc trưng không niên quá lớn nhưng phải đủ lớn để dự đoán chính xác
đầu ra
- Xác định cầu trúc của ham chức năng cần tìm vả giải thuật học tương, ứng, Ví đụ, có thể lựa chọn việc sử dụng mỏ hình hoe may SVM, cay quyết
định, xác suất Bayes,
Trang 24- Dễ hoàn thién hoc may cần tiến hành chạy giải thuật học từ tập huấn Tuyện thu thập được Các tham số của giải thuật học có thể được điều chỉnh bằng cách tôi ưu hóa hiệu năng trên một tập con (gọi là tập kiểm chứng) của tập huần luyện, hay thông qua kiểm chứng chéo Sau khi học và điều chính tham số, hiệu
năng của giải thuật có thể được đo đạc trên một tập kiểm tra độc lập với tập huấn lưyện
TĐể thực hiện phần lớp bằng kỹ thuật học có giảm sắt như trên, trước hết ta
cần chọn được tập đặc trưng trên dữ liệu phân tích
2.2 Lựa chọn đặc trưng
Mhững tải liệu khác nhau có đặc trưng khác nhau, những đặc trưng này có thể xác định và đo đạc được Do đỏ đựa vào đặc trưng là một trong những phương pháp đùng để phân lớp
Tổể trích chọn đặc trưng cân xác định trọng số cho các từ trong văn bản
Có nhiều phương pháp tỉnh trọng số đó, luận văn sử dụng phương pháp TF*IDF,
phương, pháp nảy tỉnh tấn số của từ khóa - TE (Term Frequeney) và nghịch đáo
tin sé vin ban - TDF (Inverse Document Frequency)
Phương pháp thực hiệu như sau:
* Tinh trong số của từ khóa TF tấn sẻ xuất hiện của ] từ trong 1 văn bắn
Công thức:
f(a)
flea) = Trax {Ƒ(w, lo đ}: w € đ}
fŒ, đ): số lẫn xuất hiện từ t trong văn bản d
max{f(w, d) : w Ed} số lần xuất hiện nhiều nhất cứa một tử bắt kỳ trong
van ban,
tf(t,d) có giá trị thuộc khoảng [0, 1]
* Tinh IDF 46 gidm giá trị của những từ phổ biển Mỗi từ chỉ có 1 giả trị TDE duy nhất trong tập văn ban
Trang 25Ifa €D:t Ed}
|DỊ: tổng số văn bản trong tap D
l[đ € D:t € đ]|: số văn bản chứa từ định tính (với Ø{,đ) + 0))
* Tinh Gia ti TE-IDE:
Biểu diễn văn bản dưới dạng vector đặc trưng:
Mỗi bình luận của một người là một văn bản Với mỗi dự thảo, dé an ta co
tập tải liệu D = (dụ, dh, , dy)
Mỗi tải liệu D được biểu điển đưới dạng Ÿ (vector đặc trưng cho tài liệu
D), Ÿ= (xị, X , Xa) với xị là trọng số của đặc trưng thứ ¡ Văn bản đ; sẽ được
biểu diễn bằng vector Ÿ = (xụ, x;, , xụ) Vector hỏa dữ liệu thực hiện như
sau:
Input:
- Tai liệu gồm các văn bản
~ Tập liệt kê trọng số (mỗi từ liệt kê 1 lần)
Output:
~ Tài liệu biểu diễn dưới dạng vector
Ví dụ: Vector hóa tải liệu D,
Van ban doel: áp dụng thông tư cho cấp hai
Trang 26‘Van bản doc2: nhất trí áp dụng théng_tu
Van ban doc3: để án không thực tế không áp dụng
doe3: để án không thực tế không áp dụng
qui hỏi SVM nhận dang 2 mâu lớp vả phân loại chúng vảo hai lớp khác nhau
Tư tưởng thuật toán là cho trước một số điểm đữ liêu củng với nhãn của
chúng thuộc một trong hai lớp cho trước Thuật toản sẽ là xác định xem một
điểm dữ liêu mới sẽ được thuộc về lớp nao Tap huan luyện được biểu diễn trong không gian vector trong đó mỗi tài liệu là một điểm Biên là khoảng cách