Phân loại thông điệp trên mạng xã hội tiếng Việt

Từ những vấn đề trên của bài toán phân loại thông điệp trên mạng xã hội Việt Nam, trên cơ sở các kiến thức đã tìm hiểu được, em đã xây dựng mô hình phân loại thông điệp bằng cách so sánh

Trang 1

MỤC LỤC

1.3 Bài toán phân loại thông điệp trên mạng xã hội Tiếng Việt 9

Trang 2

4.1 Biểu diễn chủ đề và thông điệp 29

Trang 3

DANH MỤC HÌNH VẼ

Hình 1.1 - Mô hình phân loại văn bản 4

Hình 1.2 – Mô hình liên kết trên mạng xã hội 7

Hình 1.3 – Một số mạng xã hội ở Việt Nam 8

Hình 2.1 - Mô hình chức năng phân loại thông điệp 14

Hình 2.2 – Logic phân loại thông điệp 15

Hình 2.3 – Thông điệp ZingLive: Có nội dung, không có mô tả liên kết 16

Hình 2.4 - Không có liên kết và mô tả liên kết 16

Hình 2.5 – Thông điệp ZingLive: Có liên kết, mô tả liên kết, không có nội dung 17

Hình 3.1 – Chủ đề chung 19

Hình 3.2- Trích lọc chủ đề chung 20

Hình 3.3 – Lựa chọn từ khóa cho chủ đề chung 21

Hình 3.4 – Tiền xử lý và tách từ 22

Hình 3.5 – Phân loại tập văn bản vào các chủ đề chung 22

Hình 3.6 – Chọn lọc từ khóa sự kiện 23

Hình 3.7 – Xây dựng tập từ khóa cho chủ đề nóng 26

Hình 3.8 – Tạo tập từ đại diện cho thông điệp 27

Hình 4.1 – Chênh lệch trọng số từ khóa đầu tiên giữa các topic chung 32

Hình 4.2 – Trọng số từ khóa trong topic The-thao 33

Hình 4.3 – Trọng số từ khóa trong chủ đề Khoa-học_Công-nghe 33

Hình 4.4 – Trọng số từ khóa đầu tiên của mỗi topic 34

Hình 4.5 – Phân bổ trọng số từ khóa trong mỗi tập chủ đề sau khi chuẩn hóa 35

Hình 5.1 – Số văn bản tương ứng với mỗi chủ đề nóng 39

Hình 5.2 – Tỉ lệ số văn bản thuộc về các chủ đề 38

Hình 5.3 – Tỉ lệ phát hiện chủ đề nóng thành công 39

Hình 5.4 – Số văn bản tương ứng mỗi chủ đề nóng 40

Hình 5.5 - Tỉ lệ các chủ đề trong tập từ khóa xây dựng được 40

Hình 5.6 – Tỉ lệ chủ đề phát hiện được trong tập từ khóa 41

Hình 5.7 – Tỉ lệ so khớp thành công chủ đề nóng 43

Hình 5.8 – Tỉ lệ phân loại chính xác theo các công thức (1), (2), (3), (4), (6) 44

Hình 5.11 – Tỉ lệ phân loại chính xác-không chính xác theo số lượng 45

Hình 5.12 – Tỉ lệ chính xác phân loại theo chủ đề chung theo phần trăm 46

Trang 4

DANH MỤC BẢNG

Bảng 2.0.1- 50 chủ đề chung 13

Bảng 3.1 – Minh họa phân loại văn bản vào các chủ đề chung 23

Bảng 3.2 – Minh họa các từ khóa sự kiện theo từng chủ đề chung 24

Bảng 3.3- Minh họa tập từ khóa của chủ đề nóng 26

Bảng 4.1 – Thông điệp thuộc chủ đề giáo dục 36

Bảng 4.2 – Thông điệp thuộc chủ đề giải trí 36

Bảng 4.3 – Thông điệp thuộc chủ đề Thị trường – Tiêu dùng 36

Bảng 4.4 – Thông điệp thuộc chủ đề nóng Mưa-lũ-miền-Trung 36

Bảng 4.5 – Thông điệp thuộc chủ đề nóng Huy-Hoàng-phê-thuốc 37

Bảng 4.6 – Thông điệp thuộc chủ đề nóng Động-đất-thủy-điện-Sông-Tranh 37

Bảng 5.1- Chủ đề nóng và tập từ khóa 42

Bảng 5.2 – Tập từ khóa chủ đề chung 43

Trang 5

1

MỞ ĐẦU

Bắt đầu vào Việt Nam vào khoảng năm 1997, từ một mô hình thử nghiệm trong phạm vi hẹp, và được kết nối với toàn cầu ba năm sau đó, internet Việt Nam đã đạt được những bước tiến dài, nhanh chóng hòa nhập được với cộng đồng quốc tế Internet Việt Nam trở thành một thị trường tiềm năng với những con số tăng trưởng ấn tượng (từ hơn 800 nghìn người dùng năm 2003 lên tới hơn 32 triệu người dùng năm 2012 [3]) kèm theo sự tăng trưởng về số lượng người dùng, lĩnh vực hoạt động của Internet Việt Nam cũng không ngừng mở rộng, từ chỉ có các dịch vụ căn bản như trang tin điện tử, tán gẫu trên mạng, hay thư điện tử Đến nay, Internet Việt Nam đã lan rộng ra các lĩnh vực thương mại điện

tử, truyền thông, đa phương tiện, các ứng dụng tương tác trực tuyến, và gần đây nhất, mạng xã hội là một xu hướng đang được khai thác mạnh mẽ ở thị trường Internet Việt Như cái tên của nó, mạng xã hội được định nghĩa như là một xã hội ảo thu nhỏ trên Internet, ở đó, mỗi người dùng có một trang cá nhân của mình, họ có thể tùy ý đưa ra ý kiến cá nhân về các vấn đề xã hội, hay chia sẻ với bạn bè về cuộc sống… Chính sự thoải mái và tính cá nhân hóa này đã tạo nên những cộng đồng mạng với khối lượng dữ liệu chia sẻ khổng lồ Với lượng chia sẻ lên tới hàng triệu thông điệp mỗi ngày về tất cả các lĩnh vực xã hội, các sự kiện nóng hổi và cả những thông tin mang tính cá nhân của người dùng, một yêu cầu đặt ra với mạng xã hội là cần phân loại các thông điệp chia sẻ, để tiện cho sự theo dõi của người dùng, và cũng tiện cho việc phân tích xu hướng cộng đồng hay các ứng dụng quảng cáo trực tuyến hướng ngữ cảnh, v.v Chính vì thực tế này, em đã lựa

chọn bài toán “Phân loại thông điệp trên mạng xã hội Tiếng Việt” làm đề tài luận văn

do đó cần một phương pháp có thể xử lý nhanh, đáp ứng nhu cầu sử dụng ngay lập tức

Trang 6

2

của hàng triệu người dùng trong cùng một thời điểm nhưng vẫn đạt được độ chính xác cao

Từ những vấn đề trên của bài toán phân loại thông điệp trên mạng xã hội Việt Nam, trên

cơ sở các kiến thức đã tìm hiểu được, em đã xây dựng mô hình phân loại thông điệp bằng cách so sánh sự tương đồng về mặt nội dung giữa thông điệp và các chủ đề theo các công thức đề xuất Một cách tổng quan, mô hình này được xây dựng từ các thành phần sau đây: (1) Tập dữ liệu chủ đề/từ khóa được thu thập từ nguồn baomoi.com của các tác giả ở [7,17] (2) Tập chủ đề nóng được thu thập thường xuyên từ internet (trong khoảng 3-7 ngày trở lại) (3) Bộ công cụ so sánh tương quan giữa chủ đề và thông điệp sử dụng các công thức so sánh được trích rút từ thực tế dữ liệu

Kết quả đạt được của luận văn này có thể được sử dụng trong việc phân loại các thông điệp trên mạng xã hội ZingLive hiện nay, ngoài ra còn có thể được dùng như là dữ liệu đầu vào cho các bài toán phân tích xu hướng, khai phá cộng đồng trên mạng xã hội, v.v Cấu trúc luận văn sẽ được trình bày như sau:

Chương 1: Đưa ra một số khái niệm cơ bản về bài toán phân loại văn bản, một số thông

tin về sự phát triển mạng xã hội ở Việt Nam và áp dụng bài toán phân loại văn bản trong trường hợp phân loại thông điệp trên mạng xã hội Việt Nam

Chương 2: Mô tả tổng quan về toàn bộ bài toán phân loại thông điệp trên mạng xã hội

Trong đó đi sâu vào phân tích các đặc trưng của thông điệp trên mạng xã hội về nội dung, chủ đề chung, chủ đề nóng – là những chủ đề mà thông điệp sẽ được hoặc không được phân loại vào

Chương 3: Trình bày kỹ hơn về các chủ đề trong bài toán phân loại thông điệp trên mạng

xã hội Việt Nam Chương này giới thiệu chi tiết các bước xây dựng tập chủ đề dùng cho trên mạng xã hội, bao gồm việc chọn lọc từ khóa cho chủ đề chung, và việc phát hiện, trích rút tập từ khóa cho chủ đề nóng

Chương 4: Đề cập đến một số phương pháp để phân loại thông điệp trên mạng xã hội,

trong đó giải thích chi tiết về các công thức so khớp mà tác giả đề xuất sử dụng cho việc phân loại thông điệp vào chủ đề chung, chủ đề nóng

Chương 5: Là phần trình bày về mô hình thực nghiệm và các kết quả thực nghiệm đạt

được Chương này cũng phân tích các kết quả đạt được trong hai trường hợp: Phân loại

Trang 7

3

thông điệp vào các chủ đề chung (sử dụng lại tập từ khóa của các tác giả [23]) và Phân loại thông điệp theo chủ đề nóng (theo thời gian) được tác giả phát triển

Phần KẾT LUẬN đưa ra các nhận xét tổng quan về các kết quả đạt được của đề tài Phân

tích các vấn đề còn tồn tại và hướng cải tiến trong tương lai

Trang 8

4

Chương 1: TỔNG QUAN VỀ PHÂN LOẠI THÔNG ĐIỆP TRÊN MẠNG XÃ HỘI

Chương một giới thiệu cái nhìn tổng quan nhất về những khái niệm, dữ liệu liên quan đến bài toán phân loại thông điệp trên mạng xã hội, cụ thể gồm có: phân loại văn bản, mạng

xã hội, mạng xã hội ở Việt Nam và bài toán phân loại thông điệp trên mạng xã hội

1.1 Tổng quan về phân loại văn bản

1.1.1 Định nghĩa

Phân loại văn bản (hay còn gọi là phân lớp văn bản - text classification) là quá trình gán nhãn lớp/tên lớp các văn bản ngôn ngữ tự nhiên vào một hay nhiều lớp cho trước

Định nghĩa phân loại (lớp) văn bản [1]: Phân loại văn bản là nhiệm vụ đặt một giá trị nhị phân cho mỗi cặp ( , )d c j i   , trong đó D là tập các văn bản, D C Cc c1, , ,2 c c là tập các lớp cho trước

Giá trị T (true) được gán cho cặp d c j, i có nghĩa là tài liệu d thuộc lớp j c i

Giá trị F (false) được gán cho cặp d c j, i có nghĩa là tài liệu d không thuộc lớp j c i

Bộ phân loại văn bản

Trang 9

(*) http://wikipedia.com 5

Hay nĩi cách khác, phân loại văn bản là bài tốn tìm một hàm :D C T F,  trong

đĩ D là tập các văn bản, Cc c1, , ,2 c c là tập các lớp cho trước, hàm :D C T F, được gọi là bộ phân loại

1.1.2 Một số hướng phân loại văn bản

Cách đơn giản nhất để phân loại văn bản là dùng phương pháp thủ cơng, duyệt qua tồn bộ nội dung văn bản và quyết định xem văn bản đĩ thuộc lớp nào Tuy nhiên, phương pháp này gặp phải một số khĩ khăn sau[3]:

- Đối với các lĩnh vực đặc biệt, phân loại các đối tượng mới (như cơ sở dữ liệu về y

tế, pháp luật) vào các lớp cho trước cần cĩ hiểu biết về các lĩnh vực đĩ

- Phân lớp bằng tay đơi khi khơng chính xác vì quyết định phụ thuộc vào sự hiểu biết và động cơ của người thực hiện

- Quyết định của hai chuyên gia khác nhau cĩ thể nảy sinh bất đồng ý kiến

Vì vậy những cơng cụ để tự động phân lớp văn bản vào các lớp sẽ rất hữu ích với cơng việc này nhất là khi thơng tin tràn ngập như ngày nay Cĩ rất nhiều phương pháp được đưa ra để giải quyết bài tốn này, trong đĩ cĩ một số phương pháp căn bản như Nạve Bayes, K láng giềng gần nhất (K-NN), máy vector hỗ trợ (Support Vector Machines), cây quyết định (Decision tree), mạng nơron nhân tạo (ANN) Trong khuân khổ luận văn, tác giả xin trình bày tĩm tắt ba phương pháp đơn giản và phổ biến là Nạve Bayes,

K láng giềng gần nhất, và máy vector hỗ trợ

Phương pháp Nạve Bayes là phương pháp nhận dạng dựa trên cơng thức Bayes P(C |x)

= 𝑃 𝐶 𝑃(𝑥|𝐶)𝑃(𝑥) trong đĩ x là vector đặc trưng của mẫu cần phân lớp và C là một trong các lớp Phương pháp này cĩ ưu điểm là đơn giản, tuy nhiên nhược điểm của phương pháp này đĩ là giả thiết về sự độc lập giữa các đặc trưng của dữ liệu phải được thoả mãn Một cách tốn học thì P(x1, x2) = P(x1) P(x2) với x1 và x2 là hai đặc trưng bất kì của dữ liệu

Phương pháp học máy phổ biến thứ hai cĩ thể giải quyết bài tốn phân loại văn bản là phuơng pháp K láng giềng gần nhất Ý tưởng của phương pháp này là việc phân loại văn bản dựa vào số đơng nhãn của K văn bản “gần” nĩ nhất K thường cĩ giá trị nguyên dương và thường cĩ giá trị nhỏ Với K = 1 thì văn bản đang xét sẽ đuợc gán

Trang 10

(*) http://wikipedia.com 6

vào lớp chứa văn bản gần nhất so với văn bản đang xét Nhược điểm chính của thuật toán này đó là các lớp mà có chứa nhiều phần tử dữ liệu thì có xu huớng chi phối kết quả phân lớp của một văn bản mới Một nhược điểm khác của kNN đó là nó yêu cầu khối lượng tính toán lớn, đặc biệt là khi kích thước dữ liệu tăng nhanh

Phương pháp thứ ba là phương pháp máy vector hỗ trợ (SVM), đây là một phương pháp phân loại văn bản phổ biến và cho kết quả phân lớp tốt SVM dạng chuẩn là phương pháp học có giám sát (supervised learning) dùng cho việc phân lớp nhị phân,

có nghĩa là nó có thể phân loại dữ liệu vào một trong hai lớp khác nhau Trong mô hình SVM thì trước tiên dữ liệu luyện tập sẽ được biểu diễn bởi các điểm trong không gian, tiếp đến mô hình SVM sẽ xây dựng một siêu phẳng trong không gian sao cho khoảng cách từ các ví dụ luyện tập tới siêu phẳng là xa nhất có thể Dữ liệu kiểm tra (testing data) cũng sẽ được biểu diễn trong cùng một không gian và được SVM dự đoán thuộc một trong hai lớp tùy vào mẫu dữ liệu đó nằm ở phía nào của siêu phẳng Phương pháp này có ưu điểm là kết quả phân lớp có độ chính xác cao, tuy nhiên nhược điểm của SVM đó là tốc độ phân lớp chậm và pha huấn luyện đòi hỏi không gian bộ nhớ lớn

1.2 Mạng xã hội (*)

Mạng xã hội, hay gọi là mạng xã hội ảo, (tiếng Anh: social network) là dịch vụ nối kết

các thành viên cùng sở thích trên Internet lại với nhau với nhiều mục đích khác nhau không phân biệt không gian và thời gian

Mạng xã hội có những tính năng như chat, e-mail, phim ảnh, voice chat, chia sẻ file, blog và xã luận Mạng đổi mới hoàn toàn cách cư dân mạng liên kết với nhau và trở thành một phần tất yếu của mỗi ngày cho hàng trăm triệu thành viên khắp thế giới Các dịch vụ này có nhiều phương cách để các thành viên tìm kiếm bạn bè, đối tác: dựa theo group (ví dụ như tên trường hoặc tên thành phố), dựa trên thông tin cá nhân (như địa chỉ e-mail hoặc screen name), hoặc dựa trên sở thích cá nhân (như thể thao, phim ảnh, sách báo, hoặc ca nhạc), lĩnh vực quan tâm: kinh doanh, mua bán

Trang 11

(*) http://www.smartinsights.com 7

 Nút (node): Là một thực thể trong mạng Thực thể này có thể là một cá nhân, một

doanh nghiệp hoặc một tổ chức bất kỳ nào đó

 Liên kết (tie): là mối quan hệ giữa các thực thể đó Trong mạng có thể có nhiều

kiểu liên kết Ở dạng đơn giản nhất, mạng xã hội là một đơn đồ thị vô hướng các

mối liên kết phù hợp giữa các nút Ta có thể biểu diễn mạng liên kết này bằng một

biểu đồ mà các nút được biểu diễn bởi các điểm còn các liên kết được biểu diễn

bởi các đoạn thẳng

Hình 1.2 – Mô hình liên kết trên mạng xã hội (*)

Trang 12

(*) https://www.google.com/adplanner/ 8

1.3 Mạng xã hội ở Việt Nam

Trong những năm gần đây, xu hướng mạng xã hội thực sự bùng nổ trong thị trường Internet nói chung, và thị trường internet ở Việt Nam nói riêng Sự tham gia đông đảo của các doanh nghiệp internet trong và ngoài nước vào lĩnh vực mạng xã hội đã khiến lĩnh vực này trở thành một trong những lĩnh vực sôi động nhất trên internet Theo một số thống kê vào tháng 2/2012 của DoubleClick Ad Planner (*), ZingMe đang đứng đầu thị trường mạng xã hội ở Việt Nam với số lượng người dùng là 7.4 triệu, tiếp đến là Facebook với 4.2 triệu và thứ ba là Yume với 2.4 triệu… Một công ty phân tích thị trường internet khác là Vinalink Media lại cho rằng đứng đầu mạng xã hội ở Việt Nam là Facebook, tiếp đến là ZingMe, tiếp đến là ZingMe, Googleplus … Tuy các phân tích có phần khác nhau đôi, nhưng vẫn cho thấy được sự phát triển đáng kinh ngạc của mạng xã hội ở Việt Nam ngày nay Ngoài các trang mạng xã hội đầy đủ như Facebook, ZingMe, hay Go.vn… thì thị trường mạng xã hội Việt Nam còn chia nhỏ theo từng lĩnh vực, như mạng chia sẻ tin tức (Linkhay, ZingLive…), mạng chia sẻ video (Youtube, Clip.vn…), mạng xã hội doanh nhân (hoclamgiau…)… những trang mạng xã hội theo từng lĩnh vực nhỏ này cũng đã thu hút được lượng người dùng đáng kể

Sự phát triển mạnh mẽ này của mạng xã hội ở Việt Nam, với lượng thông tin chia sẻ không lồ, đã đưa ra rất nhiều bài toán cần giải quyết đối với mạng xã hội ở Việt Nam, một trong số đó, là bài toán phân loại thông điệp trên mạng xã hội Tiếng Việt

Hình 1.3 – Một số mạng xã hội ở Việt Nam

Trang 13

9

1.4 Bài toán phân loại thông điệp trên mạng xã hội Tiếng Việt

1.4.1 Thông điệp trên mạng xã hội Tiếng Việt

Mạng xã hội nói chung, đều có một số đặc điểm sau đây về thông điệp chia sẻ

- Do cộng đồng (những người sở hữu tài khoản trên mạng xã hội) đưa lên

- Số lượng lớn và thường được cập nhật liên tục

- Đa dạng, phong phú về nội dung (video, hình ảnh, âm nhạc, bài viết giải trí, bài viết học thuật, chia sẻ tâm sự, tình cảm…)

- Thông điệp được viết bằng Tiếng Việt, đôi khi là Tiếng Việt không dấu, hoặc viết tắt, không được chuẩn và đúng ngữ pháp

1.4.2 Một số đặc trưng tiếng Việt

Tiếng Việt cũng như các ngôn ngữ khác luôn có các đặc trưng riêng mà chúng ta cần phải nắm được trước khi thực hiện xử lý nó Tiếng Việt có những đặc trưng rất riêng về mặt từ vựng, cũng như mặt ngữ pháp cụ thể như sau[4]:

ngữ âm, mỗi tiếng là một âm tiết Hệ thống âm vị tiếng Việt phong phú và có tính cân đối, tạo ra tiềm năng của ngữ âm tiếng Việt trong việc thể hiện các đơn vị có nghĩa

o Mỗi tiếng , nói chung , là một yếu tố có nghĩa Tiếng là đơn vị cơ sở của hệ thống các đơn vị có nghĩa của tiếng Việt Từ tiếng, người ta tạo ra các đơn vị từ vựng khác để định danh sự vật, hiện tượng , chủ yếu nhờ phương thức ghép và phương thức láy

o Quy luật kết hợp ngữ nghĩa là qui luật chi phối chủ yếu việc tạo ra các đơn vị từ vựng ở phương thức ghép Hiện nay , phương thức ghép là phương pháp chủ yếu để sản sinh ra các đơn vị từ vựng

o Quy luật phối hợp ngữ âm là qui lu ật chi phối chủ yếu việc tạo ra các đơn vị từ vựng ở phương thức láy

o Vốn từ vựng tối thiểu của tiếng Việt phần l ớn là các t ừ đơn tiết (một âm tiết , một tiếng) Sự linh hoạt trong sử dụng, việc tạo ra các t ừ ngữ mới một cách dễ dàng đã tạo điều kiện thuận l ợi cho sự phát triển vốn t ừ, vừa phong phú về số

Trang 14

1.4.3 Bài toán phân loại thông điệp

Thực tế, bài toán phân loại thông điệp là một bài toán con của phân loại văn bản Tuy nhiên, với trường hợp là thông điệp chia sẻ trên mạng xã hội Tiếng Việt, bài toán phân loại thông điệp có những đặc tính riêng như sau:

- Xử lý được đối với cả trường hợp thông điệp là ngắn, những thông điệp này thường không có ngữ cảnh, không có nhiều từ đặc trưng để dễ dàng nhận ra nó đề cập tới chủ đề nào

- Số lượng thông điệp xử lý lớn (có thể lên tới hàng triệu – ví dụ mạng xã hội ZingMe, mỗi ngày có khoảng 14.000 bài blog và 383.000 trạng thái (status) được chia sẻ)

- Xử lý được với Tiếng Việt theo những đặc trưng về ngữ âm, cấu tạo từ, ngữ pháp như được nêu ở phần 1.4.2

Trang 15

11

Chương 2: PHÂN LOẠI THÔNG ĐIỆP TRÊN MẠNG XÃ HỘI TIẾNG VIỆT

Chương hai giới thiệu chi tiết hơn về bài toán phân loại thông điệp trên mạng xã hội Tiếng Việt, đồng thời, chú trọng giới thiệu về các tập chủ đề và đặc trưng tương ứng của chúng trên mạng xã hội Chương này cũng đưa ra mô hình xử lý tổng quan và mô hình lôgic của bài toán phân loại thông điệp trên mạng xã hội Việt Nam mà tác giả xây dựng

2.1 Phân loại thông điệp trên mạng xã hội Tiếng Việt

 Dữ liệu: Thông điệp m với các đặc trưng:

o Ngắn - Thông điệp đưa trên mạng xã hôi phần lớn là những thông điệp ngắn vài từ đến vài câu – vẫn có trường hợp là những thông điệp dài hàng nghìn chữ nhưng đó là số ít Do đặc trưng ngắn này, nên thông điệp trên mạng xã hội thường thiếu thông tin ngữ cảnh để nhờ đó có thể phát hiện ra chủ đề chủa thông điệp

o Được viết bằng Tiếng Việt – với những đặc trưng rất riêng về ngữ âm, về tổ chức từ, câu, đoạn, v.v… Một số trường hợp có thể là tiếng Việt không chuẩn (viết tắt, viết theo ngôn ngữ tuổi teen, hoặc tiếng Việt không dấu…)

o Có thể chứa các liên kết web – Trong một số trường hợp, thông điệp được đăng lên đi kèm với một liên kết web trỏ đến một bài viết, trang web khác

 Yêu cầu: Thiết kế một hệ thống phân loại thông điệp, đáp ứng được các yêu cầu

sau đây:

o Số lượng thông điệp lớn, có thể lên tới hàng triệu thông điệp được đăng trong 1 ngày

o Tốc độ xử lý nhanh – gần với thời gian thực

o Tính thay đổi chủ đề cao, chủ đề trên mạng xã hội thường không ổn định theo các lớp sẵn có, mà có thể thay đổi theo thời gian, các sự kiện nổi bật được báo chí, truyền hình đưa tin…

Trang 16

tập gồm 49 chủ đề chung như: Ẩm thực-Dinh dưỡng, Kinh-tế_Tài-chính_Ngân-hàng,

Xã-hội_Giáo dục, Giải-trí, Công-nghệ-thông-tin_Truyền-thông, Tâm-sự_Tình-yêu, Pháp-luật… Chi tiết về tất cả các chủ đề có thể xem tại (*) Mỗi chủ đề sẽ được biểu

diễn bởi một tập các từ khóa và trọng số thể hiện xác suất xuất hiện của từ khóa đó trong chủ đề Ví dụ:

Ẩm-thực_Dinh-dưỡng = {(món, 0.045062), (dinh_dưỡng, 0.021539), (chất_béo,

0.007114), (giết_mổ, 0.006983), (gia_vị, 0.006689), (canxi, 0.005317)…}

0.015507), (chỉ_số, 0.008572), (bán_đấu_giá, 0.005913)….}

0.014198), (giảng_viên, 0.013315), (học_tập, 0.013167), (học_bổng, 0.012955) …}

0.020861), (fan, 0.008321), (giải_trí, 0.007213), (ca_sĩ, 0.006985)…}

0.020377), (android, 0.018498), (công_nghệ_thông_tin, 0.01658)….}

v v

Khi phân loại thông điệp, những thông điệp quá ngắn, hoặc nội dung hỗn tạp, không rõ

thuộc chủ đề nào sẽ được đặt vào nhóm Khác Nhóm này không có tập từ khóa và trọng

số như những nhóm được đề cập ở trên

Các chủ đề này không hoàn toàn tách biệt mà đôi khi có thể trùng khớp một phần của nhau, mỗi thông điệp có thể có nhiều hơn một lớp chủ đề

Trang 17

Kinh-tế_Tài-chính_Ngân-hàng Kinh-doanh_Tiêu-dùng Năng-lượng

Nhiếp-ảnh Nông-ngư-nghiệp Pháp-luật Phương-tiện_Giao-thông Quân-sự_An-ninh_Vũ-khí Quốc-tế

Smartphone Văn-hóa_Nghệ-thuật Xã-hội_Dân-sinh Xã-hội_Giáo-dục

Xã-hội_Tệ-nạn Xã-hội_Tham-nhũng Xã-hội_Tự-nhiên Xã-hội_Vệ-sinh-an-toàn Xây-dựng_Quy-hoạch Xuất-nhập-khẩu Y-tế_Sức-khỏe Việc-làm_Tuyển-dụng_Nhân-sự Tài-nguyên_Môi Trường Tài-nguyên_Khoáng-sảnTâm-sự_Tình- yêu

Thảm-họa Thời-tiết_Khí-hậu Thời-trang_Làm-đẹp Thể-thao

tại một thời điểm gần đây như “Cầu-thủ-Huy-Hoàng-phê-thuốc”,

“Động-đất-thủy-điện-Sông-Tranh”… Các chủ đề này được phát hiện dựa trên tập dữ liệu thu thập từ các trang

tin tức trong thời điểm ba ngày đến một tuần gần với thời điểm hiện tại nhất Mỗi chủ đề này cũng được biểu diễn bởi tập các từ khóa và trọng số tương ứng, tuy nhiên, trọng số là

số lần xuất hiện của từ đó trong tập văn bản, trong đó các từ Viết Hoa là các chủ thể của

sự kiện, được đánh trọng số cao hơn các từ khác Ví dụ:

100), ( xe, 16.0), (giao_thông, 12.0), (công_an, 10.0)….}

100), (Quảng_Nam, 100), (động_đất, 57.0), (thủy_điện, 44.0), (nước, 30.0)….}

v v

Đặc trưng của các chủ đề tiềm năng hướng sự kiện là sự thay đổi theo thời gian Một thông điệp thuộc về lớp tiềm năng hướng sự kiện vẫn có thể thuộc về các chủ đề chung

được đề cập ở phần 2.1.1 Ví dụ, một thông điệp được phân loại vào chủ đề

“Cầu-thủ-Huy-Hoàng-phê-thuốc”có thể cũng thuộc về chủ đề “Xã-hội_Tệ-nạn”, hoặc “Thể-thao”

Trang 18

14

được đề cập phía trên, hoặc một thông điệp thuộc về chủ đề

“Động-đất-thủy-điện-Sông-Tranh” cũng có thể thuộc chủ đề “Thảm họa”, v.v…

2.3 Mô hình phân loại

2.3.1 Mô hình chức năng

Ở mức tổng quan, mô hình phân loại thông điệp trên mạng xã hội Tiếng Việt được biểu diễn như hình 2.1:

Bộ xử lý phân loại thông điệp

Chủ đề 1

Chủ đề n Tập các chủ đề

Trang 19

15

2.3.2 Mô hình logic

Về mặt logic, mô hình phân loại thông điệp trên mạng xã hội có thể được mô tả chi tiết như hình 2.2 dưới đây:

Hình 2.2 – Logic phân loại thông điệp

Trang 20

16

2.4 Phân tích thông điệp trên mạng xã hội ZingLive

2.4.1 Cấu trúc thông điệp ZingLive

2 Về cấu tạo, một thông điệp chia sẻ trên ZingLive có nhiều nhất bốn phần sau đây:

o Nội dung thông điệp: Do chính người dùng tạo ra, có thể là một thông điệp chia

sẻ ảnh, liên kết đến trang web khác, hoặc chỉ là một thông điệp đơn chứa ý kiến, tâm sự, lời chúc tụng… của tác giả Nội dung này không được dài quá 500 ký

tự

o Liên kết chia sẻ: Chứa liên kết đến trang gốc của bài viết chia sẻ

o Tiêu đề của liên kết chia sẻ (nếu có): Là tiêu đề của liên kết chia sẻ được lấy từ liên kết gốc

o Mô tả ngắn của liên kết chia sẻ(nếu có): Là mô tả ngắn gọn về nội dung bên trong văn bản thường được trích xuất từ phần mô tả ở đầu trang trong bài viết được trỏ liên kết tới Phần mô tả này không được phép quá 500 ký tự

Các hình 2.3, 2.4, 2.5 dưới đây là một số ví dụ về thông điệp chia sẻ trên mạng

xã hội ZingLive:

Hình 2.3 – Thông điệp ZingLive: Có nội dung, không có mô tả liên kết

Hình 2.4 - Không có liên kết và mô tả liên kết

Trang 21

17

Hình 2.5 – Thông điệp ZingLive: Có liên kết, mô tả liên kết, không có nội dung

2.4.2 Đặc điểm của thông điệp ZingLive

- Về độ dài, như trình bày ở trên, mỗi thông điệp sẽ không dài quá 1000 ký tự, bao

gồm tất cả phần: nội dung, liên kết chia sẻ, tiêu đề và mô tả ngắn, tuy nhiên thông thường, một thông điệp đăng trên ZingLive có độ dài không quá 500 ký tự

- Về tổng số lượng thông điệp, mỗi ngày gần 500.000 thông điệp được đăng(*)

- Về nguồn tin, thông tin đăng trên mạng xã hội được lấy từ nhiều nguồn tin khác

o Đăng bởi các người sử dụng thông thường: Chiếm phần đa, thường chia sẻ

về tâm trạng, thơ văn, truyện cười, hoặc cũng có thể là chia sẻ các liên kết đến một mục tin nào đó mà họ quan tâm

- Có tính đa dạng cao, các thông tin liên quan đến những chuyện xảy ra trong đời

sống hàng ngày – bóng đá, chứng khoán, pháp luật, thời trang, ẩm thực, du lịch,

âm nhạc, giải trí… các thông tin nóng hổi mang tính sự kiện tại thời điểm đăng tin

“Việt Nam Nexttop Model”, “The Voice”…., các thông tin xoay quanh cuộc sống, tâm tư tình cảm của người đăng đối với cuộc sống, con người xung quanh họ Các

Trang 22

18

chia sẻ kinh nghiệm liên quan đến du lịch, ẩm thực, thời trang, v.v… Hoặc các trích đoạn thơ, các câu truyện ngắn v.v

- Có tính chủ quan, được đăng bởi người dùng, nên những thông điệp trên mạng xã

hội được chia sẻ phụ thuộc vào sở thích, thói quen chủ quan của người đăng Nội

dung thông điệp cũng thường mang tâm tư, tình cảm hoặc ý kiến chủ quan của

người đăng về một vấn đề nào đó (nếu có)

- Cập nhật liên tục, với số lượng khoảng hai triệu lượt người dùng hoạt động trong

một ngày, lượng thông tin đưa lên hàng ngày không chỉ lớn về số lượng mà còn liên tục về mặt thời gian

- Có xu hướng thay đổi chủ đề theo thời gian, sự kiện, do được đăng từ những

thông tin user quan tâm nhất, nên những thông điệp trên mạng xã hội thường có

xu hướng gắn liền với các sự kiện xảy ra trong khoảng thời gian gần với thời điểm thông điệp được đăng

- Về tính chuẩn hóa của tiếng Việt trong thông điệp, thông điệp được đưa lên bởi

người dùng, và cho tới thời điểm hiện nay, chưa có qui định nào về việc phải sử dụng ngôn ngữ như thế nào Hơn nữa, do đặc điểm người dùng của ZingLive hầu hết là giới trẻ, nên có một số thông điệp được viết bằng tiếng Việt không dấu, Tiếng Việt xen lẫn Tiếng Anh, tiếng Anh, hoặc tiếng Việt được viết theo ngôn ngữ tuổi teen, chữ viết tắt, v.v…

Trang 23

19

Chương 3: PHÂN TÍCH CHỦ ĐỀ PHỤC VỤ CHO PHÂN LOẠI

Chương này giới thiệu các bước cần thiết đề chuẩn bị dữ liệu cho việc phân loại thông điệp –

sẽ được nêu chi tiết ở chương 4 Chương 3 đặc biệt nhấn mạnh vào phần phát hiện và xây dựng tập từ khóa cho các chủ đề nóng dựa trên tập các bài báo được đăng trong vòng ba ngày đến một tuần quanh thời điểm thu thập dữ liệu Ngoài ra, chương cũng mô tả chi tiết các bước thực hiện cần thiết để xây dựng tập chủ đề chung, tập đại diện thông điệp từ dữ liệu thô

3.1 Chủ đề chung

Như đã đề cập ở Chương 2, tập các chủ đề chung trên mạng xã hội Tiếng Việt được

chọn lọc dựa trên phân tích dữ liệu thực tế từ tập từ khóa thu được từ Baomoi.com Mỗi chủ đề được tạo thành bởi

 Tên chủ đề

 Tập các từ khóa đặc trưng của chủ đề

o Từ khóa đặc trưng cố định: Được trích xuất từ tập từ khóa của các chủ

đề được trích rút từ tập dữ liệu baomoi.com[7,17])

o Từ khóa đặc trưng mở rộng: Được thêm vào bằng tay dựa trên phân tích

dữ liệu

Tập từ khóa được trích rút từ một tập dữ liệu lớn (trong trường hợp này là tập văn bản được lấy từ baomoi.com) được thực hiện như hình dưới đây (tóm tắt mô hình được đề xuất trong [7]):

Tập từ khóa đặc trưng cố định của c

Tập từ khóa đặc trưng mở rộng của c

Chủ đề c

Hình 3.1 – Chủ đề chung

Trang 24

20

Trong [7, 17] các tác giả đã đưa ra một tập dữ liệu gồm 300 chủ đề, được đánh số từ 0 đến 299 Mỗi chủ đề bao gồm một tập các từ khóa, được sắp xếp theo độ quan trọng giảm dần từ trên xuống dưới Từ tập chủ đề này, tập chủ đề chung sẽ được lựa chọn tập từ khóa, bằng cách lựa chọn những chủ đề chung cùng đề cập đến chủ đề lớn hơn, sau đó trộn các từ khóa trong từng chủ đề con phù hợp với một trong các chủ đề chung được đề cập ở chương 2, sắp xếp chúng lại theo thứ tự giảm dần của độ quan trọng Việc lựa chọn tập từ khóa cho từng chủ đề chung gồm những bước sau:

Bước 1: Lựa chọn các tập chủ đề trong tập dữ liệu 300 chủ đề, chọn lấy những chủ đề

con các từ khóa có tiềm năng là liên quan nhất về một trong các chủ đề chung Ví dụ,

chủ đề chung là Thể thao thì sẽ lựa chọn những tập chủ đề có các từ khóa như:

vòng_đấu, bóng_bàn, cầu_ lông, bóng_đá, hạng, chủ_nhà, cầu_thủ, tuyển_thủ, v.v… Bước 2: Loại bỏ bớt các từ khóa không có ý nghĩa nhiều trong việc phân loại trong các

chủ đề Ví dụ: chiều_qua, tối_qua, lúc_nào, sáng_mai, chẳng_hạn, mặt_khác, v.v…

Bước 3: Từ các tập chủ đề đã chọn, tiến hành chọn lấy những tập từ khóa quan trọng

nhất ở mỗi chủ đề con để làm từ khóa cho chủ đề chung Nguyên tắc chọn dựa vào trọng số của các từ khóa, từ nào có trọng số cao thì được chọn trước Lựa chọn khoảng

500 từ khóa cho mỗi chủ đề chung từ các chủ đề được lấy từ tập dữ liệu Baomoi.com Sau khi lựa chọn tập từ khóa cho chủ đề, lưu trữ tập từ khóa theo thứ tự giảm dần trọng số từ trên xuống

Trang 25

21

3.2 Chủ đề nóng

Tập chủ đề nóng là tập hợp những chủ đề biến đổi theo thời gian, chủ đề này được trích rút từ các bài báo được đăng trong vòng 3-7 ngày trở lại tới thời điểm thông điệp

mới được đăng lên Có thể ví dụ một số chủ đề nóng gần đây như : bầu Kiên bị bắt,

Giá xăng tăng, v.v… Để xây dựng tập chủ đề này, cần thực hiện năm bước sau:

Bước 0 - Thu thập dữ liệu: Lấy tự động hoặc bằng tay k (k=100, 200, 300, …) văn bản,

bài báo từ nguồn Vnexpress (vnexpress.net) hoặc Báo Mới (baomoi.com) Các văn bản này được lấy ngẫu nhiên trong các chủ đề (do trang tin tức đặt) khác nhau Chỉ lấy những bài viết được đăng trong khoảng 3-5 ngày gần đây

Bước 1 - Tiền xử lý và tách từ: Từ tập văn bản thu thập được ta thực hiện các bước sau

 Loại bỏ thẻ html, các nội dung không cần thiết, chỉ lấy phần tiêu đề, mô tả, nội

dung, của văn bản

 Xử lý tách câu, tách biệt dấu câu, tách từ

 Thu được kết quả là tập văn bản thô

Trang 26

22

Bước 2 – Phân loại các văn bản

 Để làm giảm sự nhiễu của các sự kiện, trước khi xử lý bước tiếp theo, tập văn

bản thu được ở bước một được phân hoạch ra thành các tập nhỏ hơn theo chủ đề

chung

 Sử dụng bộ công cụ so khớp chủ đề chung để thực hiện việc này

 Kết quả thu được ở bước 2 là tập các văn bản được phân chia vào từng chủ đề

chung Các chủ đề chung khác nhau có thể chứa một số văn bản giống nhau

Tập dữ liệu gồm nội dung,

mô tả và tiêu đề văn bản,

các từ đã được tách

Bộ phân loại văn bản theo chủ đề chung

Tập các văn bản của chủ đề 1

Tập các văn bản của chủ đề 2

Tập các văn bản của chủ đề n

Hình 3.5 – Phân loại tập văn bản vào các chủ đề chung

Tập dữ liệu thu thập

từ Vnexpress

Bộ lọc nội dung văn bản

Tập dữ liệu gồm nội dung, mô tả và tiêu đề văn bản, các từ đã được tách

Hình 3.4 – Tiền xử lý và tách từ

Trang 27

23

Kinh-tế_Tài-chính_Ngân-hàng

- …

Giao-thông_Tai-nạn

- …

Thảm-họa

Tranh'

- …

Bảng 3.1 – Minh họa phân loại văn bản vào các chủ đề chung

Bước 3 - Thu thập sự kiện:

 Áp dụng đối với từng tập văn bản đã được phân loại ở bước 2

 Chọn lấy những từ Viết Hoa trong văn bản Loại bỏ các từ dừng (như và, cũng,

thì, là…) , các từ chung (như công ty, tổ chức, ủy ban…), các từ không phải

danh từ (như kiện, từ chối, đề nghị…), các danh từ chung không mang ý nghĩa

phân loại như (Việt Nam, Hà Nội, Sài Gòn…)

 Lựa chọn sắp xếp các từ liên quan đến sự kiện còn lại theo thứ tự giảm dần số lượt xuất hiện Lựa chọn top p từ khóa trong số này làm tiền đề cho bước sau

Hình 3.6 – Chọn lọc từ khóa sự kiện

Tập dữ liệu gồm nội dung,

mô tả và tiêu đề văn bản,

các từ đã được tách theo

từng chủ đề chung

Bộ lọc từ khóa sự kiện W {w ,w , ,w }  1 2 p

Trang 28

Giao-thông_Tai-nạn

Huy_Hoàng (12.0), Thanh_Hoá (7.0), Huy (6.0), Lam_Nghệ_An (6.0), Đông_Tây (5.0), Điệp (4.0), Sang (3.0), Thanh (3.0), Bà_Triệu ( 2.0), Camry (2.0), Hà_Tĩnh (2.0), Mai_Chí_Thọ ( 2.0), Mỵ_Duy_Xuân (2.0), Nghệ_An (2.0), …

Thảm họa

Sông_Tranh (30.0), Bắc_Trà_My (14.0), Quảng_Nam (12.0), Hà_Tĩnh (10.0), Thanh_Hóa (9.0), Nghệ_An (8.0), Trung_Quốc (8.0), Anh (6.0), Quang (6.0), Trung (6.0), Hương_Khê (5.0), La_Pán_Tẩn (5.0), Nhật_Bản (5.0), …

Bảng 3.2 – Minh họa các từ khóa sự kiện theo từng chủ đề chung

Bước 4 – Tổ chức tập văn bản theo sự kiện:

 Giả sử tập các từ sự kiện W có p từ

W = 𝑤1, , 𝑤2, … , 𝑤𝑝 Với mỗi từ khóa 𝑤𝑖 ( 1≤ 𝑖 ≤ 𝑝 ), tìm các văn bản có chứa từ khóa 𝑤𝑖

o Kết hợp các văn bản tương ứng với các từ khóa cùng nói về một chủ đề,

ta được tập văn bản tương ứng cho chủ đề đó

𝐷 = 𝐷𝑡1, 𝐷𝑡2,… , 𝐷𝑡𝑘

Định dạng
Số trang	56
Dung lượng	1,61 MB