Từ những vấn đề trên của bài toán phân loại thông điệp trên mạng xã hội Việt Nam, trên cơ sở các kiến thức đã tìm hiểu được, em đã xây dựng mô hình phân loại thông điệp bằng cách so sánh
Trang 1MỤC LỤC
1.3 Bài toán phân loại thông điệp trên mạng xã hội Tiếng Việt 9
Trang 24.1 Biểu diễn chủ đề và thông điệp 29
Trang 3DANH MỤC HÌNH VẼ
Hình 1.1 - Mô hình phân loại văn bản 4
Hình 1.2 – Mô hình liên kết trên mạng xã hội 7
Hình 1.3 – Một số mạng xã hội ở Việt Nam 8
Hình 2.1 - Mô hình chức năng phân loại thông điệp 14
Hình 2.2 – Logic phân loại thông điệp 15
Hình 2.3 – Thông điệp ZingLive: Có nội dung, không có mô tả liên kết 16
Hình 2.4 - Không có liên kết và mô tả liên kết 16
Hình 2.5 – Thông điệp ZingLive: Có liên kết, mô tả liên kết, không có nội dung 17
Hình 3.1 – Chủ đề chung 19
Hình 3.2- Trích lọc chủ đề chung 20
Hình 3.3 – Lựa chọn từ khóa cho chủ đề chung 21
Hình 3.4 – Tiền xử lý và tách từ 22
Hình 3.5 – Phân loại tập văn bản vào các chủ đề chung 22
Hình 3.6 – Chọn lọc từ khóa sự kiện 23
Hình 3.7 – Xây dựng tập từ khóa cho chủ đề nóng 26
Hình 3.8 – Tạo tập từ đại diện cho thông điệp 27
Hình 4.1 – Chênh lệch trọng số từ khóa đầu tiên giữa các topic chung 32
Hình 4.2 – Trọng số từ khóa trong topic The-thao 33
Hình 4.3 – Trọng số từ khóa trong chủ đề Khoa-học_Công-nghe 33
Hình 4.4 – Trọng số từ khóa đầu tiên của mỗi topic 34
Hình 4.5 – Phân bổ trọng số từ khóa trong mỗi tập chủ đề sau khi chuẩn hóa 35
Hình 5.1 – Số văn bản tương ứng với mỗi chủ đề nóng 39
Hình 5.2 – Tỉ lệ số văn bản thuộc về các chủ đề 38
Hình 5.3 – Tỉ lệ phát hiện chủ đề nóng thành công 39
Hình 5.4 – Số văn bản tương ứng mỗi chủ đề nóng 40
Hình 5.5 - Tỉ lệ các chủ đề trong tập từ khóa xây dựng được 40
Hình 5.6 – Tỉ lệ chủ đề phát hiện được trong tập từ khóa 41
Hình 5.7 – Tỉ lệ so khớp thành công chủ đề nóng 43
Hình 5.8 – Tỉ lệ phân loại chính xác theo các công thức (1), (2), (3), (4), (6) 44
Hình 5.11 – Tỉ lệ phân loại chính xác-không chính xác theo số lượng 45
Hình 5.12 – Tỉ lệ chính xác phân loại theo chủ đề chung theo phần trăm 46
Trang 4DANH MỤC BẢNG
Bảng 2.0.1- 50 chủ đề chung 13
Bảng 3.1 – Minh họa phân loại văn bản vào các chủ đề chung 23
Bảng 3.2 – Minh họa các từ khóa sự kiện theo từng chủ đề chung 24
Bảng 3.3- Minh họa tập từ khóa của chủ đề nóng 26
Bảng 4.1 – Thông điệp thuộc chủ đề giáo dục 36
Bảng 4.2 – Thông điệp thuộc chủ đề giải trí 36
Bảng 4.3 – Thông điệp thuộc chủ đề Thị trường – Tiêu dùng 36
Bảng 4.4 – Thông điệp thuộc chủ đề nóng Mưa-lũ-miền-Trung 36
Bảng 4.5 – Thông điệp thuộc chủ đề nóng Huy-Hoàng-phê-thuốc 37
Bảng 4.6 – Thông điệp thuộc chủ đề nóng Động-đất-thủy-điện-Sông-Tranh 37
Bảng 5.1- Chủ đề nóng và tập từ khóa 42
Bảng 5.2 – Tập từ khóa chủ đề chung 43
Trang 51
MỞ ĐẦU
Bắt đầu vào Việt Nam vào khoảng năm 1997, từ một mô hình thử nghiệm trong phạm vi hẹp, và được kết nối với toàn cầu ba năm sau đó, internet Việt Nam đã đạt được những bước tiến dài, nhanh chóng hòa nhập được với cộng đồng quốc tế Internet Việt Nam trở thành một thị trường tiềm năng với những con số tăng trưởng ấn tượng (từ hơn 800 nghìn người dùng năm 2003 lên tới hơn 32 triệu người dùng năm 2012 [3]) kèm theo sự tăng trưởng về số lượng người dùng, lĩnh vực hoạt động của Internet Việt Nam cũng không ngừng mở rộng, từ chỉ có các dịch vụ căn bản như trang tin điện tử, tán gẫu trên mạng, hay thư điện tử Đến nay, Internet Việt Nam đã lan rộng ra các lĩnh vực thương mại điện
tử, truyền thông, đa phương tiện, các ứng dụng tương tác trực tuyến, và gần đây nhất, mạng xã hội là một xu hướng đang được khai thác mạnh mẽ ở thị trường Internet Việt Như cái tên của nó, mạng xã hội được định nghĩa như là một xã hội ảo thu nhỏ trên Internet, ở đó, mỗi người dùng có một trang cá nhân của mình, họ có thể tùy ý đưa ra ý kiến cá nhân về các vấn đề xã hội, hay chia sẻ với bạn bè về cuộc sống… Chính sự thoải mái và tính cá nhân hóa này đã tạo nên những cộng đồng mạng với khối lượng dữ liệu chia sẻ khổng lồ Với lượng chia sẻ lên tới hàng triệu thông điệp mỗi ngày về tất cả các lĩnh vực xã hội, các sự kiện nóng hổi và cả những thông tin mang tính cá nhân của người dùng, một yêu cầu đặt ra với mạng xã hội là cần phân loại các thông điệp chia sẻ, để tiện cho sự theo dõi của người dùng, và cũng tiện cho việc phân tích xu hướng cộng đồng hay các ứng dụng quảng cáo trực tuyến hướng ngữ cảnh, v.v Chính vì thực tế này, em đã lựa
chọn bài toán “Phân loại thông điệp trên mạng xã hội Tiếng Việt” làm đề tài luận văn
do đó cần một phương pháp có thể xử lý nhanh, đáp ứng nhu cầu sử dụng ngay lập tức
Trang 62
của hàng triệu người dùng trong cùng một thời điểm nhưng vẫn đạt được độ chính xác cao
Từ những vấn đề trên của bài toán phân loại thông điệp trên mạng xã hội Việt Nam, trên
cơ sở các kiến thức đã tìm hiểu được, em đã xây dựng mô hình phân loại thông điệp bằng cách so sánh sự tương đồng về mặt nội dung giữa thông điệp và các chủ đề theo các công thức đề xuất Một cách tổng quan, mô hình này được xây dựng từ các thành phần sau đây: (1) Tập dữ liệu chủ đề/từ khóa được thu thập từ nguồn baomoi.com của các tác giả ở [7,17] (2) Tập chủ đề nóng được thu thập thường xuyên từ internet (trong khoảng 3-7 ngày trở lại) (3) Bộ công cụ so sánh tương quan giữa chủ đề và thông điệp sử dụng các công thức so sánh được trích rút từ thực tế dữ liệu
Kết quả đạt được của luận văn này có thể được sử dụng trong việc phân loại các thông điệp trên mạng xã hội ZingLive hiện nay, ngoài ra còn có thể được dùng như là dữ liệu đầu vào cho các bài toán phân tích xu hướng, khai phá cộng đồng trên mạng xã hội, v.v Cấu trúc luận văn sẽ được trình bày như sau:
Chương 1: Đưa ra một số khái niệm cơ bản về bài toán phân loại văn bản, một số thông
tin về sự phát triển mạng xã hội ở Việt Nam và áp dụng bài toán phân loại văn bản trong trường hợp phân loại thông điệp trên mạng xã hội Việt Nam
Chương 2: Mô tả tổng quan về toàn bộ bài toán phân loại thông điệp trên mạng xã hội
Trong đó đi sâu vào phân tích các đặc trưng của thông điệp trên mạng xã hội về nội dung, chủ đề chung, chủ đề nóng – là những chủ đề mà thông điệp sẽ được hoặc không được phân loại vào
Chương 3: Trình bày kỹ hơn về các chủ đề trong bài toán phân loại thông điệp trên mạng
xã hội Việt Nam Chương này giới thiệu chi tiết các bước xây dựng tập chủ đề dùng cho trên mạng xã hội, bao gồm việc chọn lọc từ khóa cho chủ đề chung, và việc phát hiện, trích rút tập từ khóa cho chủ đề nóng
Chương 4: Đề cập đến một số phương pháp để phân loại thông điệp trên mạng xã hội,
trong đó giải thích chi tiết về các công thức so khớp mà tác giả đề xuất sử dụng cho việc phân loại thông điệp vào chủ đề chung, chủ đề nóng
Chương 5: Là phần trình bày về mô hình thực nghiệm và các kết quả thực nghiệm đạt
được Chương này cũng phân tích các kết quả đạt được trong hai trường hợp: Phân loại
Trang 73
thông điệp vào các chủ đề chung (sử dụng lại tập từ khóa của các tác giả [23]) và Phân loại thông điệp theo chủ đề nóng (theo thời gian) được tác giả phát triển
Phần KẾT LUẬN đưa ra các nhận xét tổng quan về các kết quả đạt được của đề tài Phân
tích các vấn đề còn tồn tại và hướng cải tiến trong tương lai
Trang 84
Chương 1: TỔNG QUAN VỀ PHÂN LOẠI THÔNG ĐIỆP TRÊN MẠNG XÃ HỘI
Chương một giới thiệu cái nhìn tổng quan nhất về những khái niệm, dữ liệu liên quan đến bài toán phân loại thông điệp trên mạng xã hội, cụ thể gồm có: phân loại văn bản, mạng
xã hội, mạng xã hội ở Việt Nam và bài toán phân loại thông điệp trên mạng xã hội
1.1 Tổng quan về phân loại văn bản
1.1.1 Định nghĩa
Phân loại văn bản (hay còn gọi là phân lớp văn bản - text classification) là quá trình gán nhãn lớp/tên lớp các văn bản ngôn ngữ tự nhiên vào một hay nhiều lớp cho trước
Định nghĩa phân loại (lớp) văn bản [1]: Phân loại văn bản là nhiệm vụ đặt một giá trị nhị phân cho mỗi cặp ( , )d c j i , trong đó D là tập các văn bản, D C Cc c1, , ,2 c c là tập các lớp cho trước
Giá trị T (true) được gán cho cặp d c j, i có nghĩa là tài liệu d thuộc lớp j c i
Giá trị F (false) được gán cho cặp d c j, i có nghĩa là tài liệu d không thuộc lớp j c i
Bộ phân loại văn bản
Trang 9(*) http://wikipedia.com 5
Hay nĩi cách khác, phân loại văn bản là bài tốn tìm một hàm :D C T F, trong
đĩ D là tập các văn bản, Cc c1, , ,2 c c là tập các lớp cho trước, hàm :D C T F, được gọi là bộ phân loại
1.1.2 Một số hướng phân loại văn bản
Cách đơn giản nhất để phân loại văn bản là dùng phương pháp thủ cơng, duyệt qua tồn bộ nội dung văn bản và quyết định xem văn bản đĩ thuộc lớp nào Tuy nhiên, phương pháp này gặp phải một số khĩ khăn sau[3]:
- Đối với các lĩnh vực đặc biệt, phân loại các đối tượng mới (như cơ sở dữ liệu về y
tế, pháp luật) vào các lớp cho trước cần cĩ hiểu biết về các lĩnh vực đĩ
- Phân lớp bằng tay đơi khi khơng chính xác vì quyết định phụ thuộc vào sự hiểu biết và động cơ của người thực hiện
- Quyết định của hai chuyên gia khác nhau cĩ thể nảy sinh bất đồng ý kiến
Vì vậy những cơng cụ để tự động phân lớp văn bản vào các lớp sẽ rất hữu ích với cơng việc này nhất là khi thơng tin tràn ngập như ngày nay Cĩ rất nhiều phương pháp được đưa ra để giải quyết bài tốn này, trong đĩ cĩ một số phương pháp căn bản như Nạve Bayes, K láng giềng gần nhất (K-NN), máy vector hỗ trợ (Support Vector Machines), cây quyết định (Decision tree), mạng nơron nhân tạo (ANN) Trong khuân khổ luận văn, tác giả xin trình bày tĩm tắt ba phương pháp đơn giản và phổ biến là Nạve Bayes,
K láng giềng gần nhất, và máy vector hỗ trợ
Phương pháp Nạve Bayes là phương pháp nhận dạng dựa trên cơng thức Bayes P(C |x)
= 𝑃 𝐶 𝑃(𝑥|𝐶)𝑃(𝑥) trong đĩ x là vector đặc trưng của mẫu cần phân lớp và C là một trong các lớp Phương pháp này cĩ ưu điểm là đơn giản, tuy nhiên nhược điểm của phương pháp này đĩ là giả thiết về sự độc lập giữa các đặc trưng của dữ liệu phải được thoả mãn Một cách tốn học thì P(x1, x2) = P(x1) P(x2) với x1 và x2 là hai đặc trưng bất kì của dữ liệu
Phương pháp học máy phổ biến thứ hai cĩ thể giải quyết bài tốn phân loại văn bản là phuơng pháp K láng giềng gần nhất Ý tưởng của phương pháp này là việc phân loại văn bản dựa vào số đơng nhãn của K văn bản “gần” nĩ nhất K thường cĩ giá trị nguyên dương và thường cĩ giá trị nhỏ Với K = 1 thì văn bản đang xét sẽ đuợc gán
Trang 10(*) http://wikipedia.com 6
vào lớp chứa văn bản gần nhất so với văn bản đang xét Nhược điểm chính của thuật toán này đó là các lớp mà có chứa nhiều phần tử dữ liệu thì có xu huớng chi phối kết quả phân lớp của một văn bản mới Một nhược điểm khác của kNN đó là nó yêu cầu khối lượng tính toán lớn, đặc biệt là khi kích thước dữ liệu tăng nhanh
Phương pháp thứ ba là phương pháp máy vector hỗ trợ (SVM), đây là một phương pháp phân loại văn bản phổ biến và cho kết quả phân lớp tốt SVM dạng chuẩn là phương pháp học có giám sát (supervised learning) dùng cho việc phân lớp nhị phân,
có nghĩa là nó có thể phân loại dữ liệu vào một trong hai lớp khác nhau Trong mô hình SVM thì trước tiên dữ liệu luyện tập sẽ được biểu diễn bởi các điểm trong không gian, tiếp đến mô hình SVM sẽ xây dựng một siêu phẳng trong không gian sao cho khoảng cách từ các ví dụ luyện tập tới siêu phẳng là xa nhất có thể Dữ liệu kiểm tra (testing data) cũng sẽ được biểu diễn trong cùng một không gian và được SVM dự đoán thuộc một trong hai lớp tùy vào mẫu dữ liệu đó nằm ở phía nào của siêu phẳng Phương pháp này có ưu điểm là kết quả phân lớp có độ chính xác cao, tuy nhiên nhược điểm của SVM đó là tốc độ phân lớp chậm và pha huấn luyện đòi hỏi không gian bộ nhớ lớn
1.2 Mạng xã hội (*)
Mạng xã hội, hay gọi là mạng xã hội ảo, (tiếng Anh: social network) là dịch vụ nối kết
các thành viên cùng sở thích trên Internet lại với nhau với nhiều mục đích khác nhau không phân biệt không gian và thời gian
Mạng xã hội có những tính năng như chat, e-mail, phim ảnh, voice chat, chia sẻ file, blog và xã luận Mạng đổi mới hoàn toàn cách cư dân mạng liên kết với nhau và trở thành một phần tất yếu của mỗi ngày cho hàng trăm triệu thành viên khắp thế giới Các dịch vụ này có nhiều phương cách để các thành viên tìm kiếm bạn bè, đối tác: dựa theo group (ví dụ như tên trường hoặc tên thành phố), dựa trên thông tin cá nhân (như địa chỉ e-mail hoặc screen name), hoặc dựa trên sở thích cá nhân (như thể thao, phim ảnh, sách báo, hoặc ca nhạc), lĩnh vực quan tâm: kinh doanh, mua bán
Trang 11(*) http://www.smartinsights.com 7
Nút (node): Là một thực thể trong mạng Thực thể này có thể là một cá nhân, một
doanh nghiệp hoặc một tổ chức bất kỳ nào đó
Liên kết (tie): là mối quan hệ giữa các thực thể đó Trong mạng có thể có nhiều
kiểu liên kết Ở dạng đơn giản nhất, mạng xã hội là một đơn đồ thị vô hướng các
mối liên kết phù hợp giữa các nút Ta có thể biểu diễn mạng liên kết này bằng một
biểu đồ mà các nút được biểu diễn bởi các điểm còn các liên kết được biểu diễn
bởi các đoạn thẳng
Hình 1.2 – Mô hình liên kết trên mạng xã hội (*)
Trang 12(*) https://www.google.com/adplanner/ 8
1.3 Mạng xã hội ở Việt Nam
Trong những năm gần đây, xu hướng mạng xã hội thực sự bùng nổ trong thị trường Internet nói chung, và thị trường internet ở Việt Nam nói riêng Sự tham gia đông đảo của các doanh nghiệp internet trong và ngoài nước vào lĩnh vực mạng xã hội đã khiến lĩnh vực này trở thành một trong những lĩnh vực sôi động nhất trên internet Theo một số thống kê vào tháng 2/2012 của DoubleClick Ad Planner (*), ZingMe đang đứng đầu thị trường mạng xã hội ở Việt Nam với số lượng người dùng là 7.4 triệu, tiếp đến là Facebook với 4.2 triệu và thứ ba là Yume với 2.4 triệu… Một công ty phân tích thị trường internet khác là Vinalink Media lại cho rằng đứng đầu mạng xã hội ở Việt Nam là Facebook, tiếp đến là ZingMe, tiếp đến là ZingMe, Googleplus … Tuy các phân tích có phần khác nhau đôi, nhưng vẫn cho thấy được sự phát triển đáng kinh ngạc của mạng xã hội ở Việt Nam ngày nay Ngoài các trang mạng xã hội đầy đủ như Facebook, ZingMe, hay Go.vn… thì thị trường mạng xã hội Việt Nam còn chia nhỏ theo từng lĩnh vực, như mạng chia sẻ tin tức (Linkhay, ZingLive…), mạng chia sẻ video (Youtube, Clip.vn…), mạng xã hội doanh nhân (hoclamgiau…)… những trang mạng xã hội theo từng lĩnh vực nhỏ này cũng đã thu hút được lượng người dùng đáng kể
Sự phát triển mạnh mẽ này của mạng xã hội ở Việt Nam, với lượng thông tin chia sẻ không lồ, đã đưa ra rất nhiều bài toán cần giải quyết đối với mạng xã hội ở Việt Nam, một trong số đó, là bài toán phân loại thông điệp trên mạng xã hội Tiếng Việt
Hình 1.3 – Một số mạng xã hội ở Việt Nam
Trang 139
1.4 Bài toán phân loại thông điệp trên mạng xã hội Tiếng Việt
1.4.1 Thông điệp trên mạng xã hội Tiếng Việt
Mạng xã hội nói chung, đều có một số đặc điểm sau đây về thông điệp chia sẻ
- Do cộng đồng (những người sở hữu tài khoản trên mạng xã hội) đưa lên
- Số lượng lớn và thường được cập nhật liên tục
- Đa dạng, phong phú về nội dung (video, hình ảnh, âm nhạc, bài viết giải trí, bài viết học thuật, chia sẻ tâm sự, tình cảm…)
- Thông điệp được viết bằng Tiếng Việt, đôi khi là Tiếng Việt không dấu, hoặc viết tắt, không được chuẩn và đúng ngữ pháp
1.4.2 Một số đặc trưng tiếng Việt
Tiếng Việt cũng như các ngôn ngữ khác luôn có các đặc trưng riêng mà chúng ta cần phải nắm được trước khi thực hiện xử lý nó Tiếng Việt có những đặc trưng rất riêng về mặt từ vựng, cũng như mặt ngữ pháp cụ thể như sau[4]:
ngữ âm, mỗi tiếng là một âm tiết Hệ thống âm vị tiếng Việt phong phú và có tính cân đối, tạo ra tiềm năng của ngữ âm tiếng Việt trong việc thể hiện các đơn vị có nghĩa
o Mỗi tiếng , nói chung , là một yếu tố có nghĩa Tiếng là đơn vị cơ sở của hệ thống các đơn vị có nghĩa của tiếng Việt Từ tiếng, người ta tạo ra các đơn vị từ vựng khác để định danh sự vật, hiện tượng , chủ yếu nhờ phương thức ghép và phương thức láy
o Quy luật kết hợp ngữ nghĩa là qui luật chi phối chủ yếu việc tạo ra các đơn vị từ vựng ở phương thức ghép Hiện nay , phương thức ghép là phương pháp chủ yếu để sản sinh ra các đơn vị từ vựng
o Quy luật phối hợp ngữ âm là qui lu ật chi phối chủ yếu việc tạo ra các đơn vị từ vựng ở phương thức láy
o Vốn từ vựng tối thiểu của tiếng Việt phần l ớn là các t ừ đơn tiết (một âm tiết , một tiếng) Sự linh hoạt trong sử dụng, việc tạo ra các t ừ ngữ mới một cách dễ dàng đã tạo điều kiện thuận l ợi cho sự phát triển vốn t ừ, vừa phong phú về số
Trang 141.4.3 Bài toán phân loại thông điệp
Thực tế, bài toán phân loại thông điệp là một bài toán con của phân loại văn bản Tuy nhiên, với trường hợp là thông điệp chia sẻ trên mạng xã hội Tiếng Việt, bài toán phân loại thông điệp có những đặc tính riêng như sau:
- Xử lý được đối với cả trường hợp thông điệp là ngắn, những thông điệp này thường không có ngữ cảnh, không có nhiều từ đặc trưng để dễ dàng nhận ra nó đề cập tới chủ đề nào
- Số lượng thông điệp xử lý lớn (có thể lên tới hàng triệu – ví dụ mạng xã hội ZingMe, mỗi ngày có khoảng 14.000 bài blog và 383.000 trạng thái (status) được chia sẻ)
- Xử lý được với Tiếng Việt theo những đặc trưng về ngữ âm, cấu tạo từ, ngữ pháp như được nêu ở phần 1.4.2
Trang 1511
Chương 2: PHÂN LOẠI THÔNG ĐIỆP TRÊN MẠNG XÃ HỘI TIẾNG VIỆT
Chương hai giới thiệu chi tiết hơn về bài toán phân loại thông điệp trên mạng xã hội Tiếng Việt, đồng thời, chú trọng giới thiệu về các tập chủ đề và đặc trưng tương ứng của chúng trên mạng xã hội Chương này cũng đưa ra mô hình xử lý tổng quan và mô hình lôgic của bài toán phân loại thông điệp trên mạng xã hội Việt Nam mà tác giả xây dựng
2.1 Phân loại thông điệp trên mạng xã hội Tiếng Việt
Dữ liệu: Thông điệp m với các đặc trưng:
o Ngắn - Thông điệp đưa trên mạng xã hôi phần lớn là những thông điệp ngắn vài từ đến vài câu – vẫn có trường hợp là những thông điệp dài hàng nghìn chữ nhưng đó là số ít Do đặc trưng ngắn này, nên thông điệp trên mạng xã hội thường thiếu thông tin ngữ cảnh để nhờ đó có thể phát hiện ra chủ đề chủa thông điệp
o Được viết bằng Tiếng Việt – với những đặc trưng rất riêng về ngữ âm, về tổ chức từ, câu, đoạn, v.v… Một số trường hợp có thể là tiếng Việt không chuẩn (viết tắt, viết theo ngôn ngữ tuổi teen, hoặc tiếng Việt không dấu…)
o Có thể chứa các liên kết web – Trong một số trường hợp, thông điệp được đăng lên đi kèm với một liên kết web trỏ đến một bài viết, trang web khác
Yêu cầu: Thiết kế một hệ thống phân loại thông điệp, đáp ứng được các yêu cầu
sau đây:
o Số lượng thông điệp lớn, có thể lên tới hàng triệu thông điệp được đăng trong 1 ngày
o Tốc độ xử lý nhanh – gần với thời gian thực
o Tính thay đổi chủ đề cao, chủ đề trên mạng xã hội thường không ổn định theo các lớp sẵn có, mà có thể thay đổi theo thời gian, các sự kiện nổi bật được báo chí, truyền hình đưa tin…
Trang 16tập gồm 49 chủ đề chung như: Ẩm thực-Dinh dưỡng, Kinh-tế_Tài-chính_Ngân-hàng,
Xã-hội_Giáo dục, Giải-trí, Công-nghệ-thông-tin_Truyền-thông, Tâm-sự_Tình-yêu, Pháp-luật… Chi tiết về tất cả các chủ đề có thể xem tại (*) Mỗi chủ đề sẽ được biểu
diễn bởi một tập các từ khóa và trọng số thể hiện xác suất xuất hiện của từ khóa đó trong chủ đề Ví dụ:
Ẩm-thực_Dinh-dưỡng = {(món, 0.045062), (dinh_dưỡng, 0.021539), (chất_béo,
0.007114), (giết_mổ, 0.006983), (gia_vị, 0.006689), (canxi, 0.005317)…}
0.015507), (chỉ_số, 0.008572), (bán_đấu_giá, 0.005913)….}
0.014198), (giảng_viên, 0.013315), (học_tập, 0.013167), (học_bổng, 0.012955) …}
0.020861), (fan, 0.008321), (giải_trí, 0.007213), (ca_sĩ, 0.006985)…}
0.020377), (android, 0.018498), (công_nghệ_thông_tin, 0.01658)….}
v v
Khi phân loại thông điệp, những thông điệp quá ngắn, hoặc nội dung hỗn tạp, không rõ
thuộc chủ đề nào sẽ được đặt vào nhóm Khác Nhóm này không có tập từ khóa và trọng
số như những nhóm được đề cập ở trên
Các chủ đề này không hoàn toàn tách biệt mà đôi khi có thể trùng khớp một phần của nhau, mỗi thông điệp có thể có nhiều hơn một lớp chủ đề
Trang 17Kinh-tế_Tài-chính_Ngân-hàng Kinh-doanh_Tiêu-dùng Năng-lượng
Nhiếp-ảnh Nông-ngư-nghiệp Pháp-luật Phương-tiện_Giao-thông Quân-sự_An-ninh_Vũ-khí Quốc-tế
Smartphone Văn-hóa_Nghệ-thuật Xã-hội_Dân-sinh Xã-hội_Giáo-dục
Xã-hội_Tệ-nạn Xã-hội_Tham-nhũng Xã-hội_Tự-nhiên Xã-hội_Vệ-sinh-an-toàn Xây-dựng_Quy-hoạch Xuất-nhập-khẩu Y-tế_Sức-khỏe Việc-làm_Tuyển-dụng_Nhân-sự Tài-nguyên_Môi Trường Tài-nguyên_Khoáng-sảnTâm-sự_Tình- yêu
Thảm-họa Thời-tiết_Khí-hậu Thời-trang_Làm-đẹp Thể-thao
tại một thời điểm gần đây như “Cầu-thủ-Huy-Hoàng-phê-thuốc”,
“Động-đất-thủy-điện-Sông-Tranh”… Các chủ đề này được phát hiện dựa trên tập dữ liệu thu thập từ các trang
tin tức trong thời điểm ba ngày đến một tuần gần với thời điểm hiện tại nhất Mỗi chủ đề này cũng được biểu diễn bởi tập các từ khóa và trọng số tương ứng, tuy nhiên, trọng số là
số lần xuất hiện của từ đó trong tập văn bản, trong đó các từ Viết Hoa là các chủ thể của
sự kiện, được đánh trọng số cao hơn các từ khác Ví dụ:
100), ( xe, 16.0), (giao_thông, 12.0), (công_an, 10.0)….}
100), (Quảng_Nam, 100), (động_đất, 57.0), (thủy_điện, 44.0), (nước, 30.0)….}
v v
Đặc trưng của các chủ đề tiềm năng hướng sự kiện là sự thay đổi theo thời gian Một thông điệp thuộc về lớp tiềm năng hướng sự kiện vẫn có thể thuộc về các chủ đề chung
được đề cập ở phần 2.1.1 Ví dụ, một thông điệp được phân loại vào chủ đề
“Cầu-thủ-Huy-Hoàng-phê-thuốc”có thể cũng thuộc về chủ đề “Xã-hội_Tệ-nạn”, hoặc “Thể-thao”
Trang 1814
được đề cập phía trên, hoặc một thông điệp thuộc về chủ đề
“Động-đất-thủy-điện-Sông-Tranh” cũng có thể thuộc chủ đề “Thảm họa”, v.v…
2.3 Mô hình phân loại
2.3.1 Mô hình chức năng
Ở mức tổng quan, mô hình phân loại thông điệp trên mạng xã hội Tiếng Việt được biểu diễn như hình 2.1:
Bộ xử lý phân loại thông điệp
Chủ đề 1
Chủ đề n Tập các chủ đề
Trang 1915
2.3.2 Mô hình logic
Về mặt logic, mô hình phân loại thông điệp trên mạng xã hội có thể được mô tả chi tiết như hình 2.2 dưới đây:
Hình 2.2 – Logic phân loại thông điệp
Trang 2016
2.4 Phân tích thông điệp trên mạng xã hội ZingLive
2.4.1 Cấu trúc thông điệp ZingLive
2 Về cấu tạo, một thông điệp chia sẻ trên ZingLive có nhiều nhất bốn phần sau đây:
o Nội dung thông điệp: Do chính người dùng tạo ra, có thể là một thông điệp chia
sẻ ảnh, liên kết đến trang web khác, hoặc chỉ là một thông điệp đơn chứa ý kiến, tâm sự, lời chúc tụng… của tác giả Nội dung này không được dài quá 500 ký
tự
o Liên kết chia sẻ: Chứa liên kết đến trang gốc của bài viết chia sẻ
o Tiêu đề của liên kết chia sẻ (nếu có): Là tiêu đề của liên kết chia sẻ được lấy từ liên kết gốc
o Mô tả ngắn của liên kết chia sẻ(nếu có): Là mô tả ngắn gọn về nội dung bên trong văn bản thường được trích xuất từ phần mô tả ở đầu trang trong bài viết được trỏ liên kết tới Phần mô tả này không được phép quá 500 ký tự
Các hình 2.3, 2.4, 2.5 dưới đây là một số ví dụ về thông điệp chia sẻ trên mạng
xã hội ZingLive:
Hình 2.3 – Thông điệp ZingLive: Có nội dung, không có mô tả liên kết
Hình 2.4 - Không có liên kết và mô tả liên kết
Trang 2117
Hình 2.5 – Thông điệp ZingLive: Có liên kết, mô tả liên kết, không có nội dung
2.4.2 Đặc điểm của thông điệp ZingLive
- Về độ dài, như trình bày ở trên, mỗi thông điệp sẽ không dài quá 1000 ký tự, bao
gồm tất cả phần: nội dung, liên kết chia sẻ, tiêu đề và mô tả ngắn, tuy nhiên thông thường, một thông điệp đăng trên ZingLive có độ dài không quá 500 ký tự
- Về tổng số lượng thông điệp, mỗi ngày gần 500.000 thông điệp được đăng(*)
- Về nguồn tin, thông tin đăng trên mạng xã hội được lấy từ nhiều nguồn tin khác
o Đăng bởi các người sử dụng thông thường: Chiếm phần đa, thường chia sẻ
về tâm trạng, thơ văn, truyện cười, hoặc cũng có thể là chia sẻ các liên kết đến một mục tin nào đó mà họ quan tâm
- Có tính đa dạng cao, các thông tin liên quan đến những chuyện xảy ra trong đời
sống hàng ngày – bóng đá, chứng khoán, pháp luật, thời trang, ẩm thực, du lịch,
âm nhạc, giải trí… các thông tin nóng hổi mang tính sự kiện tại thời điểm đăng tin
“Việt Nam Nexttop Model”, “The Voice”…., các thông tin xoay quanh cuộc sống, tâm tư tình cảm của người đăng đối với cuộc sống, con người xung quanh họ Các
Trang 2218
chia sẻ kinh nghiệm liên quan đến du lịch, ẩm thực, thời trang, v.v… Hoặc các trích đoạn thơ, các câu truyện ngắn v.v
- Có tính chủ quan, được đăng bởi người dùng, nên những thông điệp trên mạng xã
hội được chia sẻ phụ thuộc vào sở thích, thói quen chủ quan của người đăng Nội
dung thông điệp cũng thường mang tâm tư, tình cảm hoặc ý kiến chủ quan của
người đăng về một vấn đề nào đó (nếu có)
- Cập nhật liên tục, với số lượng khoảng hai triệu lượt người dùng hoạt động trong
một ngày, lượng thông tin đưa lên hàng ngày không chỉ lớn về số lượng mà còn liên tục về mặt thời gian
- Có xu hướng thay đổi chủ đề theo thời gian, sự kiện, do được đăng từ những
thông tin user quan tâm nhất, nên những thông điệp trên mạng xã hội thường có
xu hướng gắn liền với các sự kiện xảy ra trong khoảng thời gian gần với thời điểm thông điệp được đăng
- Về tính chuẩn hóa của tiếng Việt trong thông điệp, thông điệp được đưa lên bởi
người dùng, và cho tới thời điểm hiện nay, chưa có qui định nào về việc phải sử dụng ngôn ngữ như thế nào Hơn nữa, do đặc điểm người dùng của ZingLive hầu hết là giới trẻ, nên có một số thông điệp được viết bằng tiếng Việt không dấu, Tiếng Việt xen lẫn Tiếng Anh, tiếng Anh, hoặc tiếng Việt được viết theo ngôn ngữ tuổi teen, chữ viết tắt, v.v…
Trang 2319
Chương 3: PHÂN TÍCH CHỦ ĐỀ PHỤC VỤ CHO PHÂN LOẠI
Chương này giới thiệu các bước cần thiết đề chuẩn bị dữ liệu cho việc phân loại thông điệp –
sẽ được nêu chi tiết ở chương 4 Chương 3 đặc biệt nhấn mạnh vào phần phát hiện và xây dựng tập từ khóa cho các chủ đề nóng dựa trên tập các bài báo được đăng trong vòng ba ngày đến một tuần quanh thời điểm thu thập dữ liệu Ngoài ra, chương cũng mô tả chi tiết các bước thực hiện cần thiết để xây dựng tập chủ đề chung, tập đại diện thông điệp từ dữ liệu thô
3.1 Chủ đề chung
Như đã đề cập ở Chương 2, tập các chủ đề chung trên mạng xã hội Tiếng Việt được
chọn lọc dựa trên phân tích dữ liệu thực tế từ tập từ khóa thu được từ Baomoi.com Mỗi chủ đề được tạo thành bởi
Tên chủ đề
Tập các từ khóa đặc trưng của chủ đề
o Từ khóa đặc trưng cố định: Được trích xuất từ tập từ khóa của các chủ
đề được trích rút từ tập dữ liệu baomoi.com[7,17])
o Từ khóa đặc trưng mở rộng: Được thêm vào bằng tay dựa trên phân tích
dữ liệu
Tập từ khóa được trích rút từ một tập dữ liệu lớn (trong trường hợp này là tập văn bản được lấy từ baomoi.com) được thực hiện như hình dưới đây (tóm tắt mô hình được đề xuất trong [7]):
Tập từ khóa đặc trưng cố định của c
Tập từ khóa đặc trưng mở rộng của c
Chủ đề c
Hình 3.1 – Chủ đề chung
Trang 2420
Trong [7, 17] các tác giả đã đưa ra một tập dữ liệu gồm 300 chủ đề, được đánh số từ 0 đến 299 Mỗi chủ đề bao gồm một tập các từ khóa, được sắp xếp theo độ quan trọng giảm dần từ trên xuống dưới Từ tập chủ đề này, tập chủ đề chung sẽ được lựa chọn tập từ khóa, bằng cách lựa chọn những chủ đề chung cùng đề cập đến chủ đề lớn hơn, sau đó trộn các từ khóa trong từng chủ đề con phù hợp với một trong các chủ đề chung được đề cập ở chương 2, sắp xếp chúng lại theo thứ tự giảm dần của độ quan trọng Việc lựa chọn tập từ khóa cho từng chủ đề chung gồm những bước sau:
Bước 1: Lựa chọn các tập chủ đề trong tập dữ liệu 300 chủ đề, chọn lấy những chủ đề
con các từ khóa có tiềm năng là liên quan nhất về một trong các chủ đề chung Ví dụ,
chủ đề chung là Thể thao thì sẽ lựa chọn những tập chủ đề có các từ khóa như:
vòng_đấu, bóng_bàn, cầu_ lông, bóng_đá, hạng, chủ_nhà, cầu_thủ, tuyển_thủ, v.v… Bước 2: Loại bỏ bớt các từ khóa không có ý nghĩa nhiều trong việc phân loại trong các
chủ đề Ví dụ: chiều_qua, tối_qua, lúc_nào, sáng_mai, chẳng_hạn, mặt_khác, v.v…
Bước 3: Từ các tập chủ đề đã chọn, tiến hành chọn lấy những tập từ khóa quan trọng
nhất ở mỗi chủ đề con để làm từ khóa cho chủ đề chung Nguyên tắc chọn dựa vào trọng số của các từ khóa, từ nào có trọng số cao thì được chọn trước Lựa chọn khoảng
500 từ khóa cho mỗi chủ đề chung từ các chủ đề được lấy từ tập dữ liệu Baomoi.com Sau khi lựa chọn tập từ khóa cho chủ đề, lưu trữ tập từ khóa theo thứ tự giảm dần trọng số từ trên xuống
Trang 2521
3.2 Chủ đề nóng
Tập chủ đề nóng là tập hợp những chủ đề biến đổi theo thời gian, chủ đề này được trích rút từ các bài báo được đăng trong vòng 3-7 ngày trở lại tới thời điểm thông điệp
mới được đăng lên Có thể ví dụ một số chủ đề nóng gần đây như : bầu Kiên bị bắt,
Giá xăng tăng, v.v… Để xây dựng tập chủ đề này, cần thực hiện năm bước sau:
Bước 0 - Thu thập dữ liệu: Lấy tự động hoặc bằng tay k (k=100, 200, 300, …) văn bản,
bài báo từ nguồn Vnexpress (vnexpress.net) hoặc Báo Mới (baomoi.com) Các văn bản này được lấy ngẫu nhiên trong các chủ đề (do trang tin tức đặt) khác nhau Chỉ lấy những bài viết được đăng trong khoảng 3-5 ngày gần đây
Bước 1 - Tiền xử lý và tách từ: Từ tập văn bản thu thập được ta thực hiện các bước sau
Loại bỏ thẻ html, các nội dung không cần thiết, chỉ lấy phần tiêu đề, mô tả, nội
dung, của văn bản
Xử lý tách câu, tách biệt dấu câu, tách từ
Thu được kết quả là tập văn bản thô
Trang 2622
Bước 2 – Phân loại các văn bản
Để làm giảm sự nhiễu của các sự kiện, trước khi xử lý bước tiếp theo, tập văn
bản thu được ở bước một được phân hoạch ra thành các tập nhỏ hơn theo chủ đề
chung
Sử dụng bộ công cụ so khớp chủ đề chung để thực hiện việc này
Kết quả thu được ở bước 2 là tập các văn bản được phân chia vào từng chủ đề
chung Các chủ đề chung khác nhau có thể chứa một số văn bản giống nhau
Tập dữ liệu gồm nội dung,
mô tả và tiêu đề văn bản,
các từ đã được tách
Bộ phân loại văn bản theo chủ đề chung
Tập các văn bản của chủ đề 1
Tập các văn bản của chủ đề 2
Tập các văn bản của chủ đề n
Hình 3.5 – Phân loại tập văn bản vào các chủ đề chung
Tập dữ liệu thu thập
từ Vnexpress
Bộ lọc nội dung văn bản
Tập dữ liệu gồm nội dung, mô tả và tiêu đề văn bản, các từ đã được tách
Hình 3.4 – Tiền xử lý và tách từ
Trang 2723
Kinh-tế_Tài-chính_Ngân-hàng
- …
Giao-thông_Tai-nạn
- …
Thảm-họa
Tranh'
- …
Bảng 3.1 – Minh họa phân loại văn bản vào các chủ đề chung
Bước 3 - Thu thập sự kiện:
Áp dụng đối với từng tập văn bản đã được phân loại ở bước 2
Chọn lấy những từ Viết Hoa trong văn bản Loại bỏ các từ dừng (như và, cũng,
thì, là…) , các từ chung (như công ty, tổ chức, ủy ban…), các từ không phải
danh từ (như kiện, từ chối, đề nghị…), các danh từ chung không mang ý nghĩa
phân loại như (Việt Nam, Hà Nội, Sài Gòn…)
Lựa chọn sắp xếp các từ liên quan đến sự kiện còn lại theo thứ tự giảm dần số lượt xuất hiện Lựa chọn top p từ khóa trong số này làm tiền đề cho bước sau
Hình 3.6 – Chọn lọc từ khóa sự kiện
Tập dữ liệu gồm nội dung,
mô tả và tiêu đề văn bản,
các từ đã được tách theo
từng chủ đề chung
Bộ lọc từ khóa sự kiện W {w ,w , ,w } 1 2 p
Trang 28Giao-thông_Tai-nạn
Huy_Hoàng (12.0), Thanh_Hoá (7.0), Huy (6.0), Lam_Nghệ_An (6.0), Đông_Tây (5.0), Điệp (4.0), Sang (3.0), Thanh (3.0), Bà_Triệu ( 2.0), Camry (2.0), Hà_Tĩnh (2.0), Mai_Chí_Thọ ( 2.0), Mỵ_Duy_Xuân (2.0), Nghệ_An (2.0), …
Thảm họa
Sông_Tranh (30.0), Bắc_Trà_My (14.0), Quảng_Nam (12.0), Hà_Tĩnh (10.0), Thanh_Hóa (9.0), Nghệ_An (8.0), Trung_Quốc (8.0), Anh (6.0), Quang (6.0), Trung (6.0), Hương_Khê (5.0), La_Pán_Tẩn (5.0), Nhật_Bản (5.0), …
Bảng 3.2 – Minh họa các từ khóa sự kiện theo từng chủ đề chung
Bước 4 – Tổ chức tập văn bản theo sự kiện:
Giả sử tập các từ sự kiện W có p từ
W = 𝑤1, , 𝑤2, … , 𝑤𝑝 Với mỗi từ khóa 𝑤𝑖 ( 1≤ 𝑖 ≤ 𝑝 ), tìm các văn bản có chứa từ khóa 𝑤𝑖
o Kết hợp các văn bản tương ứng với các từ khóa cùng nói về một chủ đề,
ta được tập văn bản tương ứng cho chủ đề đó
𝐷 = 𝐷𝑡1, 𝐷𝑡2,… , 𝐷𝑡𝑘