1. Trang chủ
  2. » Luận Văn - Báo Cáo

NGHIÊN cứu và xây DỰNG PHƯƠNG PHÁP PHÁT HIỆN các bài VIẾT có nội DUNG PHẢN ĐỘNG

74 57 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 74
Dung lượng 7,86 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trong phạm vi đề tài này, tác giả sẽ thực hiện nghiên cứu và đề xuất giải pháp nhằm phân tích nội dung bài viết, xác định được nội dung các bài viết đó có chứa yếu tố phản động trên mạng

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Hoàng Tuấn Long

NGHIÊN CỨU VÀ XÂY DỰNG PHƯƠNG PHÁP PHÁT HIỆN CÁC BÀI VIẾT

Trang 2

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN



Hoàng Tuấn Long

NGHIÊN CỨU VÀ XÂY DỰNG PHƯƠNG PHÁP PHÁT HIỆN CÁC BÀI VIẾT

Trang 3

LỜI CẢM ƠN

Trong quá trình học tập và làm luận văn tốt nghiệp cao học, được sự giúp

đỡ của quý thầy, cô giáo trường Đại học Công nghệ thông tin, đặc biệt là thầy

TS Ngô Thanh Hùng, sự góp ý của các nhà khoa học, các nhà quản lý, bạn bè,

đồng nghiệp và cùng sự nỗ lực của bản thân Đến nay, tác giả đã hoàn thành luận

văn thạc sĩ với đề tài luận văn: “Nghiên cứu và xây dựng phương pháp phát hiện các bài viết có nội dung phản động” chuyên ngành Khoa học máy tính

Các kết quả đạt được là những đóng góp nhỏ về mặt khoa học cũng như thực tiễn trong việc phát hiện được các bài viết phản động Tuy nhiên, trong khuôn khổ luận văn, do điều kiện thời gian và trình độ có hạn nên không thể tránh khỏi những thiếu sót Tác giả rất mong nhận được những lời chỉ bảo và góp ý của quý thầy, cô giáo

Tác giả bày tỏ lòng biết ơn sâu sắc tới thầy TS Ngô Thanh Hùng đã hướng

dẫn, chỉ bảo tận tình và cung cấp các kiến thức khoa học cần thiết trong quá trình thực hiện luận văn Xin chân thành cảm ơn quý thầy, cô giáo thuộc Khoa Khoa học máy tính, phòng Đào tạo Sau Đại học trường Đại học Công nghệ thông tin đã tạo mọi điều kiện thuận lợi cho tác giả hoàn thành tốt luận văn thạc sĩ của mình

Tác giả chân thành cảm ơn các cán bộ công tác tại tại trường Đại học CSND, đã tạo điều kiện cung cấp các tài liệu liên quan và giúp đỡ tác giả hoàn thành luận văn

TP Hồ Chí Minh, ngày 01 tháng 08 năm 2017

Học viên

Hoàng Tuấn Long

Trang 4

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi

Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công

bố trong bất kỳ công trình nào khác

Học viên

Hoàng Tuấn Long

Trang 5

MỤC LỤC

Số trang Trang phụ bìa

Lời cảm ơn

Lời cam đoan

Mục lục……… 1

Danh mục các ký hiệu và chữ viết tắt……… 3

Danh mục các bảng……… 4

Danh mục các hình vẽ, đồ thị……… 5

Chương 1 MỞ ĐẦU……… 6

Chương 2 CƠ SỞ THỰC TIỄN VÀ LÝ THUYẾT.……… 10

2.1 Tìm hiểu về hoạt động tuyên truyền các bài viết chứa nội dung có yếu tố phản động ……… 10

2.1.1 Hoạt động tuyên truyền các bài viết chứa nội dung có yếu tố phản động……… 10

2.1.2 Một số quan điểm, chính sách của Đảng, Nhà nước trong công tác đấu tranh với hoạt động này……… 11

2.1.3 Một số khó khăn, thách thức trong công tác này……… 12

2.2 Phương pháp để xác định nội dung bài viết có yếu tố phản động 13

2.2.1 Phương pháp chuyên gia……… 13

2.2.2 Phương pháp phát hiện thông qua các cụm từ đặc trưng…… 15

2.2.3 Kỹ thuật phân lớp văn bản sử dụng các phương pháp phân tích ngữ pháp.……… 16

2.2.4 Kỹ thuật phân lớp văn bản sử dụng các phương pháp máy học thống kê……… 19

2.2.5 Giới thiệu về Apache Spark, GraphX và Scrapy……… 20

2.3 Kết luận……… 24

Chương 3 PHÂN TÍCH THIẾT KẾ THUẬT TOÁN VÀ HỆ THỐNG 25 3.1 Ý tưởng cấu trúc dữ liệu và thuật toán……… 25

3.2 Mô tả thuật toán……… 28

Trang 6

3.3 Thuật giải xác định bài viết chứa nội dung có yếu tố phản động… 30

3.4 Hệ thống mở rộng tập các bộ ba dựa trên VietWordNet………… 32

3.5 Hệ thống tích hợp rút trích và phân tích bài viết……… 33

Chương 4 THỬ NGHIỆM VÀ ĐÁNH GIÁ……… 36

4.1 Môi trường hiện thực hóa thuật toán và hệ thống……… 36

4.2 Môi trường thử nghiệm……… 36

4.3 Dữ liệu thử nghiệm……… 36

4.4 Kết quả thử nghiệm……… 37

4.5 Đánh giá kết quả……… 38

4.6 Kết luận……… 40

Chương 5 KẾT LUẬN VÀ KIẾN NGHỊ……… 41

5.1 Kết luận……… 41

5.2 Kiến nghị……… 43

DANH MỤC CÔNG BỐ KHOA HỌC CỦA TÁC GIẢ……… 44

TÀI LIỆU THAM KHẢO……… 45

PHỤ LỤC……… 48

Trang 7

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

CSVN : Cộng sản Việt Nam

LAS : Labeled Attachment Score

LDA : Latent Dirichlet Allocation

RDD : Resilient Distributed Dataset

TBCN : Tư bản chủ nghĩa

UAS : Unlabeled Attachment Score

VietWordNet : Mạng từ tiếng Việt

XHCN : Xã hội chủ nghĩa

Trang 8

DANH MỤC CÁC BẢNG

4.1 Kết quả và thời gian chạy phân tán với tập bộ ba thủ công 38 4.2 Kết quả và thời gian chạy phân tán với tập bộ ba mở rộng 38 4.3 Kết quả thực nghiệm với tập bộ ba thủ công 39 4.4 Kết quả thực nghiệm với tập bộ ba mở rộng 39

Trang 9

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

2.1 Cấu trúc bộ ba chứa các phần tử bộ ba với thuộc tính của chúng 18 2.2 Mô hình hoạt động phân tán của Apache Spark 21

3.2 Minh hoạ hệ thống trong thời gian chờ thực hiện 34

3.3 Minh hoạ hệ thống trong thời gian thực hiện rút trích 35

3.4 Minh hoạ hệ thống trong thời gian thực hiện phân tích bài viết 35

Trang 10

tự do ngôn luận trên toàn thế giới Với sự hiện diện của công nghệ thông tin và truyền thông, thông tin do cá nhân thực hiện quyền tự do ngôn luận gửi đến xã hội trở nên thần tốc với tốc độ mà tin tức từ bên kia trái đất có thể tới bên này trái đất chỉ sau ít phút Mọi người đều có quyền bình đẳng như nhau, có thể bày tỏ ý kiến của mình trên các diễn đàn, bình luận về vấn đề liên quan đến pháp luật và việc quản lý nhà nước Mọi người có cơ hội được trao đổi, thảo luận, chia sẻ buồn vui, bày tỏ ý kiến và học hỏi kinh nghiệm khi tham gia các diễn đàn Chính vì vậy, Internet giúp cho mọi người trên toàn thế giới gần gũi nhau hơn, là đòn bẩy giúp phát huy sức mạnh cộng đồng, trong đó có sức mạnh của những người trẻ, góp phần xây dựng và phát triển kinh tế tri thức

Chính những lợi ích mà Internet mang lại kể trên sẽ là nguồn động lực quan trọng để thúc đẩy nền kinh tế nước nhà phát triển Tuy nhiên, điều này cũng tiềm ẩn những yếu tố đe dọa an ninh quốc gia, trật tự, an toàn xã hội, điển hình là tình trạng các thế lực thù địch phản động sử dụng mạng Internet để tuyên truyền, đưa thông tin

“thật giả, lẫn lộn” nhằm phá hoại tư tưởng, gây chia rẽ nội bộ, kích động biểu tình, gây rối, bạo loạn với mục đích là xóa bỏ chế độ, lật đổ sự lãnh đạo của Đảng cũng như chủ nghĩa Mác – Lênin và tư tưởng Hồ Chí Minh

Về phương thức tuyên truyền, các đối tượng tiếp tục sử dụng hệ thống website, blog có máy chủ ở nước ngoài, đồng thời đẩy mạnh thiết lập tài khoản mạng xã hội để tuyên truyền thông tin có nội dung xấu Từ ngày 21/11/2015 đến

01/11/2016 phát hiện trên 400 trang mạng, blog (tăng 125 so với cùng kỳ năm

2015), 554 trang facebook thường xuyên đăng tải thông tin có nội dung xấu (thống

kê riêng các trang mạng, blog có nội dung xấu đã đăng tải trên 75000 lượt bài, tập trung vào thời điểm Đại hội Đảng 12, bầu cử Quốc hội khoá 14, sự cố môi trường biển tại một số tỉnh ven biển miền Trung)

Trang 11

Đây là những đối tượng phạm tội có trình độ về công nghệ thông tin, với nhiều thủ đoạn đối phó gây khó khăn cho quá trình điều tra của lực lượng công an Đặc biệt, đáng chú ý hơn nữa là, hiện nay hầu hết các trang mạng đều đặt máy chủ đặt ở nước ngoài, có sự hỗ trợ lưu trữ của các công ty lớn, bảo mật tốt, dùng điện toán đám mây Việc thu thập dữ liệu trên các trang mạng cũng rất khó do các cơ chế bảo mật mới với yêu cầu xác thực tương tác của người dùng cao, ngăn chặn thu thập tự động gây rất nhiều khó khăn và tốn nhiều chi phí cho lực lượng chức năng trong công tác phòng ngừa, phát hiện và đấu tranh Vì vậy, việc đưa ra những giải pháp ngăn chặn các hoạt động chống phá nhà nước, đồng thời tìm kiếm, phát hiện các đối tượng phản động mới, cũng như nắm bắt nhanh thông tin sai lệch trên Internet, nơi tập trung một số lượng lớn người dùng Việt Nam, đã và đang được các tổ chức, cơ quan ban ngành chính phủ và nhà nước quan tâm

Vừa là học viên cao học chuyên ngành Khoa học máy tính của trường Đại học Công nghệ thông tin - Đại học Quốc gia TP Hồ Chí Minh, vừa là một chiến sĩ công

an, tác giả mong muốn được ứng dụng các sản phẩm công nghệ phục vụ công tác thực tiễn trong việc phòng, chống các loại tội phạm sử dụng Internet ngày càng gia

tăng hiện nay Đó là lý do vì sao tác giả chọn đề tài "Nghiên cứu và xây dựng phương pháp phát hiện các bài viết có nội dung phản động" làm đề tài luận văn

thạc sĩ Trong phạm vi đề tài này, tác giả sẽ thực hiện nghiên cứu và đề xuất giải pháp nhằm phân tích nội dung bài viết, xác định được nội dung các bài viết đó có chứa yếu tố phản động trên mạng Internet

* Mục tiêu của đề tài:

Mục tiêu của luận văn là nghiên cứu và xây dựng phương pháp phát hiện các bài viết chứa nội dung có yếu tố phản động

Để đạt được mục tiêu đó, trong đề tài thực hiện 2 nội dung cơ bản là: xây dựng

hệ thống thu thập thông tin; xây dựng hệ thống phân tích văn bản nhằm xác định các bài viết chứa nội dung có yếu tố phản động hay không; tích hợp cả 2 hệ thống trên

tạo thành một hệ thống rút trích và phân tích tự động hoàn toàn

* Phạm vi của đề tài:

Đề tài chỉ tập trung xây dựng thuật toán và hệ thống phát hiện các bài viết có

Trang 12

nội dung phản động được thể hiện rõ trong văn bản thông qua các cụm từ ngữ trong từng câu văn Các văn bản chứa đựng nội dung phản động thông qua ẩn ý, ẩn dụ hoặc thông qua sự kết hợp ngữ nghĩa của từ trên 2 câu văn trở lên không được xem xét giải quyết trong khuôn khổ đề tài này.

* Nội dung, phương pháp của đề tài:

Nội dung 1: Nghiên cứu hệ thống thu thập dữ liệu trên mạng Internet

Phương pháp: Trong nội dung này, tác giả sẽ nghiên cứu thông qua các bài báo, các luận văn, luận án, các sách chuyên khảo, giáo trình Dự kiến sử dụng hỗ trợ từ các API của mạng Internet và kỹ thuật bóc tách nội dung thu thập được bằng phương pháp định nghĩa cấu trúc trang web Sau đó sẽ xây dựng hệ thống thu thập tự động trên trang mạng, blog và lưu trữ dữ liệu bài viết

Nội dung 2: Tìm hiểu về các bài viết chứa nội dung có yếu tố phản động trên các trang mạng, blog

Phương pháp: Tác giả sẽ khảo sát thông qua các tài liệu nghiệp vụ, các văn bản pháp luật, các báo cáo, các bài báo Để nhằm hiểu được các loại thông tin phản động trên mạng Internet, các đặc điểm của mỗi loại thông tin phản động cũng như các biện pháp nghiệp vụ nhằm phát hiện ra các dấu hiệu phản động, các quy định của Bộ Công

an Việt Nam có liên quan Từ đó sẽ có những định hướng cho lựa chọn, xây dựng phương pháp phát hiện

Nội dung 3: Nghiên cứu một số kỹ thuật phân tích nội dung bài viết dựa trên các kỹ thuật phân tích văn bản và kỹ thuật xử lý dữ liệu lớn để phát hiện các bài viết chứa nội dung có yếu tố phản động

Phương pháp: Dựa trên các phương pháp cũng như các đặc điểm của văn bản

có tính chất phản động nghiên cứu được, tác giả sẽ thực hiện chọn lựa phương pháp, cài đặt hệ thống nhằm xác định một bài viết có mang tính chất phản động hay không Các phương pháp dự kiến áp dụng: phương pháp phân tích ngữ pháp, phương pháp máy học

Nội dung 4: Thử nghiệm phương pháp đề xuất và xây dựng hệ thống thực hiện yêu cầu đó

Phương pháp: Bằng phương pháp gán nhãn bộ dữ liệu huấn luyện và bộ dữ liệu

Trang 13

kiểm tra; thực hiện huấn luyện, kiểm thử; thống kê, đánh giá, giải thích kết quả thực nghiệm để kiểm chứng hiệu quả của phương pháp

* Bố cục báo cáo luận văn:

Đề tài nghiên cứu sẽ được chia làm 05 chương:

Chương 1 Mở đầu

Chương 2 Cơ sở thực tiễn và lý thuyết

Chương 3 Phân tích thiết kế thuật toán và hệ thống

Chương 4 Thử nghiệm và đánh giá

Chương 5 Kết luận và kiến nghị

Trang 14

Chương 2

CƠ SỞ THỰC TIỄN VÀ LÝ THUYẾT

2.1 Tìm hiểu về hoạt động tuyên truyền các bài viết chứa nội dung có yếu

tố phản động

2.1.1 Hoạt động tuyên truyền các bài viết chứa nội dung có yếu tố phản động

Hoạt động tuyên truyền các bài viết chứa nội dung có yếu tố phản động là hành

vi tấn công phá hoại nền tảng tư tưởng của chế độ XHCN và nhà nước CHXHCN Việt Nam, thâm nhập và truyền bá những tư tưởng phi XHCN từ đó tiến tới lật đổ chế độ XHCN ở Việt Nam, hướng Việt Nam đi theo con đường phi XHCN

Hoạt động này là hoạt động phổ biến của đối tượng phản động, hoạt động này diễn ra dưới 3 hình thức chủ yếu:

- Tuyên truyền miệng: phao tin đồn thất thiệt, tuyên truyền qua hội thảo, giảng dạy, truyền đạo…

- Tuyên truyền qua các phương tiện thông tin đại chúng; qua sách, báo, Internet, truyền hình, báo chí…

- Phát tán công khai bất hợp pháp hoặc lén lút bí mật có nội dung phản động Nội dung, luận điệu tuyên truyền nhằm phá hoại tư tưởng, chính trị của các phần

tử phản động có thể khái quát ở một số nội dung sau:

- Tuyên truyền, xuyên tạc chế độ XHCN, chủ nghĩa Mác-Lênin và tư tưởng Hồ Chí Minh và vai trò lãnh đạo của Đảng cộng sản

- Tuyên truyền, đề cao học thuyết, lối sống, giá trị phi XHCN tập trung truyền

bá chế độ TBCN

- Kích động tư tưởng, thù hận giai cấp, tư tưởng bất mãn với chế độ, tư tưởng hẹp hòi, tư tưởng kỳ thị chủng tộc…nhằm chia rẽ khối đại đoàn kết toàn dân tộc, kích động tầng lớp nhân dân chống Đảng và nhà nước CHXHCN Việt Nam

Hoạt động tuyên truyền các bài viết chứa nội dung có yếu tố phản động, quan điểm sai trái là một trong nhiều âm mưu, thủ đoạn của các thế lực thù địch đối với Việt Nam, mà bản chất là nhằm xóa bỏ nền tảng tư tưởng của Đảng là chủ nghĩa Mác

- Lênin, tư tưởng Hồ Chí Minh; phủ nhận vai trò lãnh đạo của Đảng với Nhà nước,

xã hội; đòi xóa bỏ chế độ XHCN Để thực hiện toan tính, các thế lực thù địch ráo riết

Trang 15

đẩy mạnh đầu tư, hiện đại hóa trang thiết bị, các phương tiện thông tin, truyền thông, triệt để sử dụng Internet và địa chỉ truyền thông nước ngoài để phát tán tài liệu, tuyên truyền quan điểm xuyên tạc, vu cáo, gieo rắc thông tin xấu, độc hại hòng làm nhiễu loạn đời sống văn hóa, tinh thần của xã hội, làm nhân dân mất niềm tin vào Đảng, Nhà nước và chế độ XHCN [2]

2.1.2 Một số quan điểm, chính sách của Đảng, Nhà nước trong công tác đấu tranh với hoạt động này

Nhận thức rõ âm mưu, thủ đoạn thâm độc, nham hiểm của các thế lực thù địch, những năm qua, Đảng và Nhà nước chú trọng lãnh đạo, chỉ đạo, tổ chức tốt việc phòng, chống các quan điểm sai trái và đã đạt được những thành tựu đáng khích lệ, qua đó góp phần bảo vệ nền tảng tư tưởng của Đảng, chính sách và pháp luật của Nhà nước; kiên định mục tiêu độc lập dân tộc và CNXH, giữ vững định hướng tư tưởng, nâng cao cảnh giác cách mạng, củng cố lòng tin trong cán bộ, đảng viên và quần chúng vào công cuộc đổi mới, từ đó đoàn kết, cố gắng thực hiện tốt hai nhiệm vụ xây dựng và bảo vệ Tổ quốc

Tuy nhiên, bên cạnh những thành tựu đó, cuộc đấu tranh chống các quan điểm xuyên tạc, sai trái, thù địch còn có hạn chế nhất định Văn kiện Đại hội XII của Đảng chỉ rõ: “Đấu tranh chống âm mưu, hoạt động “diễn biến hòa bình” của các thế lực thù địch, phòng chống “tự diễn biến”, “tự chuyển hóa” còn bị động, hiệu quả chưa cao” Biểu hiện cụ thể của hiện tượng này là một số hạn chế, bất cập trong nhận thức của một bộ phận cán bộ, đảng viên và nhân dân về âm mưu, thủ đoạn chống phá của các thế lực thù địch Hơn thế, tác động từ mặt trái của cơ chế thị trường, quá trình mở cửa, hội nhập quốc tế,… đã làm cho một bộ phận không nhỏ cán bộ, đảng viên và quần chúng suy thoái về tư tưởng chính trị, đạo đức, lối sống Cộng hưởng các nguyên nhân này đã làm cho một bộ phận cán bộ, đảng viên bị “lây nhiễm”, mắc bệnh “tự diễn biến” và tự đẩy mình vào quá trình

“tự chuyển hóa”, như Văn kiện Đại hội XII của Đảng đã nhận định: “…những biểu hiện “tự diễn biến”, “tự chuyển hóa” có xu hướng diễn biến phức tạp trong Đảng, trong hệ thống chính trị và trong xã hội Không ít cán bộ, đảng viên có những biểu hiện dao động, mất phương hướng, hoài nghi về vai trò lãnh đạo của Đảng, về mục tiêu, lý tưởng và con đường đi lên chủ nghĩa xã hội ở Việt Nam Đã xuất hiện

Trang 16

những việc làm và phát ngôn vô nguyên tắc, trái với Cương lĩnh, đường lối, Điều

Như vậy, đấu tranh chống các quan điểm xuyên tạc, sai trái, thù địch luôn được Đảng, Nhà nước, nhân dân và xã hội ta đặc biệt quan tâm Đại hội XII của Đảng xác định đó là một trong những nhiệm vụ trọng tâm của công tác tư tưởng, lý luận trong nhiệm kỳ tới Chúng ta tin tưởng rằng, dưới sự lãnh đạo của Đảng, sự điều hành, quản

lý tập trung thống nhất của Nhà nước, toàn Đảng, toàn dân và toàn quân sẽ thực hiện thắng lợi chủ trương chủ động ngăn chặn, phản bác các thông tin, quan điểm xuyên tạc, sai trái, thù địch, góp phần làm thất bại mọi âm mưu, hoạt động “diễn biến hòa bình” chống phá Việt Nam của các thế lực thù địch

2.1.3 Một số khó khăn, thách thức trong công tác này

Như chúng ta đã thấy là do hiện nay, để có thể xác định một bài viết có mang nội dung phản động hay không vẫn chỉ có một phương pháp đó là sử dụng ý kiến chuyên gia, nên đã gây ra rất nhiều khó khăn, thách thức cho Đảng, Nhà nước, các cơ quan chức năng trong công tác đấu tranh với hoạt động tuyên truyền các nội dung phản động của loại đối tượng này

Về phương thức tuyên truyền, các đối tượng tiếp tục sử dụng hệ thống website, blog có máy chủ ở nước ngoài, đồng thời đẩy mạnh thiết lập tài khoản mạng xã hội

để tuyên truyền thông tin có nội dung xấu Chính việc sử dụng mạng Internet để tuyên truyền nội dung phản động đã gây ra cho các cơ quan chức năng rất nhiều khó khăn

Trang 17

trong việc xác định các bài viết có nội dung phản động để kịp thời đấu tranh, xử lý

và ngăn chặn hoạt động này [6]

- Thứ nhất, đó là do số lượng các website, blog… do các đối tượng phản động

dùng để tuyên truyền trên mạng Internet là rất lớn Chính vì vậy nên việc đọc từng bài viết để tìm và xác định các bài viết có nội dung phản động là rất khó khăn và mất rất nhiều thời gian, mà hiện nay chưa có công cụ nào giúp tự động hóa để thực hiện được

- Thứ hai, đó là do nội dung của các website, blog… đó rất nhiều Trong nhiều

website, blog… không phải bài viết nào cũng có nội dung phản động, do vậy cần phải đọc hết tất cả nội dung của website, blog… đó với số lượng bài viết là rất lớn để có thể xác định được chính xác

- Thứ ba, đó là việc phát hiện sớm trong công tác đấu tranh với hoạt động

này là rất quan trọng, tuy nhiên điều này cũng gặp rất nhiều khó khăn Do tốc độ truyền tải thông tin trên mạng Internet rất nhanh, nhất là trên mạng xã hội như Facebook… nên nhiều website, blog… phản động rất nhanh chóng được đưa được các nội dung phản động đó đến với người đọc Hiện nay, nhiều website, blog phản động không chỉ có những nội dung trong trang đó, mà còn có trang mạng xã hội như Facebook tương ứng để kích động, tuyên truyền… những nội dung phản động một cách nhanh chóng Việc xác định những trang Facebook phản động này cũng cần các cơ quan chức năng tự đọc để xác định và cũng chưa có công cụ hỗ trợ nào cả Vì vậy, rất khó khăn trong việc phát hiện sớm để có thể ngăn chặn kịp thời hậu quả của hoạt động này

2.2 Phương pháp để xác định nội dung bài viết có yếu tố phản động

2.2.1 Phương pháp chuyên gia

Phương pháp sử dụng ý kiến chuyên gia (hay phương pháp chuyên gia) đó là phương pháp dựa trên các kiến thức đã được học về loại đối tượng phản động, về các loại hoạt động của chúng và phương pháp đấu tranh với loại đối tượng này, cộng với kinh nghiệm thực tiễn rút ra được trong quá trình đấu tranh với các đối tượng này

Qua quá trình khảo sát tại một số đơn vị nghiệp vụ thuộc Bộ Công an trực tiếp làm công tác xác định các bài viết đó có nội dung phản động hay không, tác giả thấy

Trang 18

các bài viết được phát hiện là chứa nội dung có yếu tố phản động dựa trên một trong hai yếu tố sau:

- Thứ nhất, đó là các bài viết có các cụm từ thể hiện sự đả kích, nói xấu, xuyên

tạc chính quyền, Đảng CSVN, lãnh đạo cấp cao nhằm gieo rắc vào dân chúng sự nghi ngờ, bất mãn, mất niềm tin vào chính quyền, vào Đảng CSVN; gây chia rẽ nội

bộ lãnh đạo cấp cao; vu cáo chính quyền đàn áp tôn giáo, tự do dân chủ, nhân quyền;

hạ uy tín lực lượng Công an hoặc có các cụm từ kích động người dân biểu tình trái phép, gây bạo loạn cục bộ hoặc gây bạo loạn lật đổ chế độ, chính quyền trên quy

mô lớn có sự phối hợp với các tổ chức phản động từ bên ngoài

Ví dụ: “Nhưng ở đây, lại có một vấn đề mà tôi muốn làm rõ, chẳng những với

cá nhân ông "trí ngủ" Đỗ Văn Xê mà còn với hằng ngàn dư luận viên đang ngày đêm giúp đảng CSVN che giấu sự thật tồi bại của đảng.”

Các bài viết dạng này thường thì chỉ cần có một câu chứa một trong các cụm từ kiểu này thì được xác định ngay là có yếu tố phản động Như ở ví dụ trên thì cụm từ

là “sự thật tồi bại của đảng” Sau đó bài viết được phân tích cẩn thận, đặc biệt là các câu, đoạn có chứa các cụm từ trên, để tìm ra từng luận điểm có yếu tố phản động để

có cách tuyên truyền, giải thích lại với nhân dân, giúp quần chúng nhân dân không bị ảnh hưởng, tác động sai trái bởi những luận điểm phản động, sai trái đó;

- Thứ hai, đó là các bài viết không có các cụm từ đặc biệt kể trên nhưng lại vẫn

có ý nghĩa phản động, sai trái như trên, xuyên tạc sự thật, gây chia rẽ nội bộ hoặc kêu gọi, kích động bạo loạn lật đổ một cách bóng gió, hài hước, …

Ví dụ: ”Cuộc CCRĐ Hồi Thứ Nhất với mục tiêu lừa đảo là Người Cày Có Ruộng kéo dài từ năm 1953 đến năm 1956 đã diệt chủng long trời lở đất đến phải sửa sai và chấm dứt Trong khi “bác Hồ” đóng phim nhỏ vài giọt lệ khóc những người chết oan thì Võ Đại tướng phải thay mặt cụ và Tổng bí thư Trường Chinh đứng ra nhận sửa sai.”

Các bài viết dạng thứ hai thường không chứa một trong các cụm từ kiểu này nhưng vẫn mang yếu tố phản động Như ở ví dụ trên không chứa cụm đặc biệt nào, tuy nhiên vẫn có ý là nói xấu các đồng chí lãnh đạo, gây mất lòng tin ở nhân dân

Trang 19

Các bài viết dạng này thường thì sẽ được phân tích kỹ ý tứ, ý nghĩa để xác định

rõ các luận điểm phản động, sai trái nhằm có cách đấu tranh với các luận điểm đó, và giải thích, tuyên truyền phù hợp đến người dân

Qua thực tiễn đấu tranh với các đối tượng phản động này thì thấy rằng phần lớn các bài viết chứa nội dung có yếu tố phản động trên thực tế thuộc dạng thứ nhất – nghĩa là có chứa các cụm từ thể hiện yếu tố phản động, sai trái Tỷ lệ các bài viết dạng này lên đến hơn 95% trên tổng số các bài viết phản động

Phương pháp chuyên gia cho kết quả có độ chính xác cao Tuy nhiên phương pháp chuyên gia hiện được thực hiện thủ công nên mất rất nhiều thời gian, nhân lực Ngoài ra thì kết quả cũng phụ thuộc vào ý kiến của từng chuyên gia khác nhau, đặc biệt là đối với những bài viết thuộc dạng thứ hai

2.2.2 Phương pháp phát hiện thông qua các cụm từ đặc trưng

Qua việc phân tích nghiệp vụ ở trên, chúng ta thấy một trong các phương pháp đơn giản nhất đó chính là phân tích từng câu đơn để có thể phát hiện ra sự

có mặt của các cụm từ đặc trưng ở trong câu hay không – ta sẽ gọi là phương pháp thứ nhất Nếu có xuất hiện cụm từ đặc trưng thì câu đó sẽ chứa nội dung có yếu tố phản động, sai trái và suy ra cả bài viết đó cũng sẽ chứa nội dung có yếu tố phản động, sai trái Và ngược lại, nếu không có câu nào trong bài viết chứa các cụm từ đặc trưng đó thì bài viết đó sẽ được xét là không chứa nội dung có yếu tố phản động, sai trái

Phương pháp này có ưu điểm là đơn giản, dễ thực hiện Tuy nhiên thì nó gặp phải một số hạn chế đó là việc xây dựng tập các cụm từ đặc trưng như vậy cũng rất nhiều Đồng thời khi có một số từ ngữ khác xen giữa vào trong cụm từ đặc trưng thì

sẽ không phát hiện được dẫn tới độ chính xác giảm xuống, nhất là với một số cụm

từ có thể tách ra thành các thành phần ngữ pháp khác nhau như S-V-O (Subject, Verb, Object), ví dụ như cụm từ: “chính quyền đán áp nhân dân” có thể tách ra thành “chính quyền” as S, “đàn áp” as V, “nhân dân” as O, thì việc tìm cả cụm từ như vậy trong câu có thể không thành công khi các đối tượng phản động viết thêm các chủ ngữ/hoặc trạng từ /hoặc vị ngữ/ hoặc túc từ khác xen vào giữa Câu được viết xen thêm các từ khác vẫn có cấu trúc S-V-O giữa các thành phần của cụm từ đặc trưng nhưng không được phát hiện bởi thuật toán tìm kiếm đơn giản nữa

Trang 20

Ví dụ: Phân tích câu: “Hiện nay, chính quyền ra sức đàn áp đối với nhân dân tham gia các cuộc biểu tình chống đối lại quyết định của họ.”

Ở ví dụ này chúng ta có thể thấy được là vẫn có cấu trúc S-V-O: “chính quyền, đàn áp, nhân dân”, tuy nhiên có các từ khác xen giữa nên việc phát hiện cả cụm từ như vậy là không thực hiện được

2.2.3 Kỹ thuật phân lớp văn bản sử dụng các phương pháp phân tích ngữ pháp

Một trong các phương pháp có thể được xem xét tiếp theo để giải quyết bài toán đặt ra đó là sử dụng các thuật toán phân tích ngữ pháp văn bản để tìm ra các cụm từ

có yếu tố phản động Các nghiên cứu liên quan đến phân tích ngữ pháp văn bản tiếng Việt hiện nay cũng chưa nhiều Phần lớn hiện tập trung vào việc tách từ, ngữ [19]; một vài nghiên cứu xác định chức năng ngữ pháp của các từ, ngữ trong câu

Nghiên cứu Xây dựng Treebank cho phân tích cú pháp phụ thuộc tiếng Việt [17] dựa trên Việt Treebank để xây dựng Treebank phụ thuộc Ở đây nghiên cứu đã định nghĩa tập nhãn phụ thuộc theo lược đồ phụ thuộc và dựa trên những đặc điểm của văn phạm tiếng Việt Nghiên cứu cũng đề xuất thuật toán chuyển đổi tự động treebank thành tố sang treebank phụ thuộc Sau đó thì tiến hành thử nghiệm phân tích

cú pháp phụ thuộc cho tiếng Việt sử dụng bộ phân tích MaltParser và treebank phụ thuộc Kết quả thử nghiệm: UAS đạt 73.03% và LAS đạt 66.35%

Nghiên cứu Từ chuyển đổi Treebank đến phân tích cú pháp phụ thuộc cho tiếng Việt [11] thì trình bày phương pháp chuyển đổi tự động Việt Treebank sang những cây phụ thuộc Kiểm tra trên hai bộ phân tích tiên tiến nhất hiện nay đó là MSTParser

và MaltParser Ở đây nghiên cứu đã đưa ra bộ treebank phụ thuộc tiếng Việt Sau đó thì tiến hành thử nghiệm và thu được kết quả thử nghiệm trên MSTParser đạt được kết quả cao hơn so với MaltParser Trên MSTParser thì UAS đạt 76.21% và LAS đạt 66.95%; trên MaltParser thì UAS đạt 74.52% và LAS đạt 65.77%

Nghiên cứu Cải tiến phân tích cú pháp phụ thuộc tiếng Việt dựa trên đặc trưng biểu diễn phân bố từ [10] thì trình bày về việc cải tiến phân tích cú pháp phụ thuộc tiếng Việt bằng cách sử dụng các biểu diễn từ phân tán Và đã cho thấy đây là phân tích cú pháp phụ thuộc có độ chính xác nhất đối với tiếng Việt khi so với các ngôn ngữ khác cùng được huấn luyện và kiểm thử trên cùng một treebank phụ thuộc

Trang 21

Nghiên cứu này đã sử dụng hai mô hình học không giám sát là mô hình Skip-gram

và mô hình GloVe Nghiên cứu này đã cho kết quả với độ chính xác khá cao: UAS đạt 76.29% và LAS đạt 69.25%

Nghiên cứu thử nghiệm phân tích cú pháp phụ thuộc tiếng Việt [12] đã tiến hành thử nghiệm phân tích cú pháp phụ thuộc tiếng Việt dựa trên phương pháp mạng neural Ở đây thì nghiên cứu trình bày so sánh việc thực nghiệm các bộ phân tích cú pháp phụ thuộc khác nhau cho tiếng Việt, và đã cho thấy được là có một

số đặc điểm không giống nhau Kết quả thực nghiệm ở đây cho thấy các nghiên cứu phân tích cú pháp phụ thuộc dựa trên mạng neural cho kết quả tốt hơn đáng

kể so với các nghiên cứu phân tích cú pháp phụ thuộc truyền thống trước đó Kết quả phân tích cú pháp phụ thuộc tiếng Việt với độ chính xác khá cao: UAS đạt 73.53% và LAS đạt 80.66%

Nghiên cứu Phân tích cú pháp phụ thuộc tiếng Việt với đặc trưng siêu nhãn [15]

đã sử dụng đặc trưng siêu nhãn để phân tích cú pháp phụ thuộc tiếng Việt Siêu nhãn

là nhãn cho từ vựng, nó mã hóa tương đối nhiều thông tin về cú pháp bằng cách đưa

ra các ràng buộc trong một ngữ cảnh cục bộ nào đó Các văn phạm từ vựng hóa được

sử dụng thành công ở trong việc sử dụng các siêu nhãn như LTAG (Lexicalized Adjoining Grammar), HPSG (Head-driven Phrase Structure Grammar) và CCG (Combinatory Categorial Grammar) Nghiên cứu này đã đề xuất việc tận dụng các đặc trưng ngôn ngữ học để từ đó cải thiện việc phân tích cú pháp phụ thuộc cho tiếng Việt Mỗi từ ở đây sẽ được gán một siêu nhãn, cũng giống như từ loại nhưng chúng

Tree-đã được mã hóa về thông tin cú pháp Để phù hợp với phân tích cú pháp phụ thuộc thì thiết kế các siêu nhãn ở đây tập trung vào các quan hệ phụ thuộc như NMOD, VMOD, SUB, DOB, ROO, AMOD, COORD, CONJ, và IOB, vì những quan hệ này thường có độ chính xác thấp và cần được cải thiện Nghiên cứu này đã thiết kế được

ba mô hình đặc trưng siêu nhãn Nghiên cứu tiến hành gán tự động cho siêu nhãn bằng phương pháp tiếp cận giống như đối với nhãn từ loại, ở đây sử dụng phương pháp gán nhãn tự động C&C supertagger Kết quả nghiên cứu này thu được thiết kế đặc trưng siêu nhãn đã làm tăng độ chính xác cho bộ phân tích cú pháp phụ thuộc tiếng Việt Kết quả phân tích đạt cao nhất trên ngữ liệu phụ thuộc với độ chính xác là 74.6% trong trường hợp LAS

Trang 22

* Ý nghĩa sử dụng bộ ba thành phần:

Một trong các phương pháp phân tích ngữ pháp khác cũng thường được sử dụng

đó là phương pháp phân tích ngữ pháp theo các bộ ba (triplet extraction) [13, 16] Phương pháp này làm nổi bật các thành phần chủ ngữ, động từ và vị ngữ (các thành phần của bộ ba) trong mỗi câu khỏi những thành phần bổ nghĩa cho chúng

Hình 2.1 Cấu trúc bộ ba chứa các phần tử bộ ba với thuộc tính của chúng

Như chúng ta đã phân tích ở trên thì phương pháp thứ nhất mặc dù rất đơn giản chỉ là phát hiện ra những cụm từ đặc trưng có trong nội dung bài viết, tuy nhiên, chúng ta có thể thấy được là nó lại tỏ ra khá hiệu quả trong bài toán thực tế này

Vì vậy, tác giả giới thiệu một mô hình biểu diễn quan hệ ngữ pháp dựa trên việc

sử dụng phương pháp phát hiện thông qua các cụm từ đặc trưng, đó là phân tích mỗi cụm từ đặc trưng thành một bộ của các thành phần có liên hệ với nhau về mặt ngữ nghĩa Mỗi bộ sẽ có ba thành phần và được gọi là bộ ba Ví dụ bộ ba có dạng S-V-O (Subject, Verb, Object) để từ đó có thể phát hiện được các bài viết này theo nguyên tắc đó là nếu trong nội dung bài viết có ít nhất một câu chứa các thành phần của một

bộ ba trên theo đúng trật tự của chúng trong bộ đó thì bài viết đó sẽ được xác đinh là chứa nội dung có yếu tố phản động và ngược lại

Phương pháp phân tích cấu trúc ngữ pháp - gọi là phương pháp thứ hai, khi áp dụng để xác định quan hệ ngữ pháp giữa các thành phần trong cụm từ sẽ giải quyết được hạn chế của phương thứ nhất, bởi vì nó phát hiện chính xác trường hợp các thành phần của một cụm từ đặc trưng xuất hiện trong một câu nhưng có liên kết về nghĩa với nhau hay không

Trang 23

Ví dụ: phân tích câu: “Dưới sự lãnh đạo của Đảng Cộng sản thì chúng ta thấy được sự dã man, tàn độc của các thế lực thù địch” thì cụm từ “dã man, tàn độc” không

bổ nghĩa cho cụm từ “Đảng Cộng sản” mặc dù trong câu trên có đầy đủ thành phần của một cụm từ đặc trưng

Tuy nhiên qua nghiên cứu kết quả trong thực tế thì tỷ lệ các câu chứa đầy đủ các thành phần của cụm từ phản động nhưng lại không có liên quan ngữ pháp với nhau thường xuất hiện rất hiếm

Ngoài ra, chúng ta có thể thấy một số vấn đề khi sử dụng phương pháp thứ hai

để áp dụng vào giải quyết bài toán thực tế đó là khi trong câu cần phân tích xuất hiện các từ bị viết sai chính tả, hoặc gặp các từ, thuật ngữ mới/ít phổ biến/từ vay mượn nước ngoài, hoặc khi câu viết sai ngữ pháp do dùng thiếu hoặc sai dấu câu, thiếu hoặc sai liên từ,… thì thuật toán không thể phân tích hoặc phân tích sai so với khi câu đó được viết đúng Mà trong thực tế thì hai tình huống trên xuất hiện rất thường xuyên

do các đối tượng phản động thường không quan tâm đến vấn đề đó, chúng chỉ quan tâm là bài viết đó có được đăng tải, chia sẻ, lan truyền nhanh chóng đến các tầng lớp nhân dân hay không Ngoài ra thì kết quả phân tích câu tiếng Việt hiện nay cũng chưa được cao Sau khi phân tích thì việc gom các từ lại để thành các cụm từ đặc trưng giúp phân lớp văn bản cũng rất khó khăn

Ví dụ: Phân tích câu: “Nhưng đó chỉ là kế hoãn binh của những kẻ câm quyền, cộng sản, hệ thống đảng, chuyên lừa, lọc dối trá.” thì ta có thể thấy được do dùng sai dấu câu “lừa, lọc” và sai chính tả từ “câm quyền” nên thuật toán phân tích sẽ bị sai

so với khi chúng ta viết đúng chính tả và dùng đúng dấu câu, dẫn tới độ chính xác của thuật toán bị giảm xuống

2.2.4 Kỹ thuật phân lớp văn bản sử dụng các phương pháp máy học thống kê

Một số phương pháp máy học như Bayes, LDA,… [4, 8, 9] - sẽ gọi chung là phương pháp thứ ba Các phương pháp này hỗ trợ phân lớp văn bản trước hết xác định tập các từ đại diện cho từng phân lớp và sau khi sử dụng các hàm thuộc để xét xem văn bản, với các cụm từ đặc trưng mà nó chứa, sẽ thuộc lớp nào trong các lớp đang xét

Trang 24

Nghiên cứu Xây dựng hệ thống phân loại tài liệu tiếng Việt dựa trên phương pháp Nạve Bayes [7] sử dụng phương pháp Nạve Bayes vào chương trình phân loại với cách tiếp cận Nạve Bayes là sử dụng xác suất cĩ điều kiện giữa từ và chủ

đề để dự đốn xác suất chủ đề của một văn bản cần phân loại Điểm quan trọng của phương pháp này chính là ở chỗ giả định rằng sự xuất hiện của tất cả các từ trong văn bản đều độc lập với nhau Giả định đĩ làm cho việc tính tốn Nạve Bayes hiệu quả và nhanh chĩng hơn các phương pháp khác vì khơng sử dụng việc kết hợp các

từ để đưa ra phán đốn chủ đề

Nghiên cứu Phân loại nội dung tài liệu web tiếng Việtứng dụng thuật tốn LDA [5] phân tích chủ đề ẩn để tìm tập đặc trưng cho các chủ đề áp dụng cho bài tốn phân loại nội dung tài liệu web Trong nghiên cứu này, các cụm danh từ được sử dụng để làm đặc trưng văn bản trong mơ hình vector Thuật tốn LDA được sử dụng để tìm tập đặc trưng cho các chủ đề mà khơng cần quan tâm đến tần số xuất hiện, độ quan trọng của từ mà vẫn đưa ra bộ dữ liệu đầy đủ và chính xác Kết quả đã cài đặt thử nghiệm vào bài tốn phân lớp các tin tức phổ biến trên các trang báo tiếng Việt với

độ chính xác khoảng 90% đáp ứng được mục tiêu phân loại đề ra

Như vậy phương pháp thứ ba này khi áp dụng vào việc phân loại bài viết cĩ nội dung phản động sẽ cĩ ưu điểm so với phương pháp thứ nhất và thứ hai đĩ là việc tự động hĩa xây dựng tập các từ, cụm từ đặc trưng, tuy nhiên thì vẫn sẽ khơng tránh được một số hạn chế đĩ là các cụm từ xây dựng được cũng chưa được kiểm tra việc

cĩ liên hệ về ngữ pháp hay khơng, cũng như khơng kiểm tra được các từ đĩ cĩ xuất hiện đồng thời trong một câu văn hay khơng Ngồi ra thì cĩ rất nhiều bài cĩ cùng chủ đề, cùng tập từ đặc trưng nhưng cĩ bài thì chứa yếu tố phản động, cĩ bài thì khơng Ví dụ như những bài viết phản động cũng như chính thống đều cĩ nĩi về chủ

đề “tham nhũng” nhưng các bài viết chính thống viết về tham nhũng lại khơng chứa yếu tố phản động Những trường hợp này sẽ gây nhiễu rất lớn đối với phương pháp thứ ba và làm giảm độ chính xác của nĩ

2.2.5 Giới thiệu về Apache Spark, GraphX và Scrapy

* Giới thiệu Apache Spark:

Một trong những mơ hình xử lý dữ liệu lớn rất phổ biến được sử dụng nhiều trong các tính tốn phân tán hiện nay đĩ là MapReduce Đây là một mơ hình luồng

Trang 25

dữ liệu, nó thích hợp và được ứng dụng với đa số các công cụ xử lý dữ liệu lớn hiện nay Tuy nhiên cũng có những ứng dụng không thích hợp khi áp dụng mô hình này,

đó là những ứng dụng có dạng mô hình lặp Trong mô hình này, quá trình xử lý cứ được lặp đi lặp lại Lúc đó mô hình MapReduce sẽ bộc lộ nhiều hạn chế thể hiện qua việc mỗi lần thực thi sẽ là một lần truy vấn lại dữ liệu từ đĩa cứng, điều này làm cho

cả quá trình bị chậm đi rất nhiều Bên cạnh đó, những dữ liệu được sử dụng nhiều lần trong quá trình thực thi không được tải sẵn lên bộ nhớ đệm để truy vấn mà nó được tải lại đối với mỗi thành phần công việc riêng biệt gây nên độ trễ lớn

Chính vì thế tác giả chọn tìm hiểu và cài đặt xử lý dữ liệu lớn trên framework Apache Spark [18] Được cải tiến và khắc phục những khuyết điểm từ mô hình Hadoop MapReduce, Apache Spark sử dụng một đối tượng bộ nhớ đặc biệt gọi là RDD (Resilient Distributed Dataset), nó là một tập hợp chỉ đọc chứa các loại đối tượng dữ liệu trong các ngôn ngữ lập trình hay các lớp mà người dùng tự định nghĩa, được phân tán lưu trữ ở các nút tính toán (các máy con trong mạng tính toán) Tập hợp này cũng có khả năng mở rộng một cách mềm dẻo, tự cân bằng và khả năng chịu lỗi, phục hồi khi có sự cố xảy ra giống như Hadoop Khi thao tác RDD sẽ được Spark tải lên bộ nhớ đệm của những nút tính toán để sử dụng nhiều lần qua các quá trình tính toán song song, chính vì thế tốc độ của Spark có thể nhanh hơn Hadoop đến gấp 10 lần

Hình 2.2 Mô hình hoạt động phân tán của Apache Spark

Trang 26

Các đối tượng RDD trong Apache Spark hỗ trợ hai loại phép tính đặc biệt là: phép biến đổi (transformations) và phép tác động (actions) Các phép biến đổi trên RDD thường trả về một RDD mới, nó sẽ bao gồm các phép tính cơ bản sau: map - hàm tính toán trên từng phần tử trong RDD, tương ứng với mỗi phần tử sẽ trả về một kết quả, flatMap - hàm tính toán trên từng phần tử trong RDD, tuy nhiên đối với mỗi phần tử, kết quả trả về có thể là rỗng hoặc có nhiều hơn một kết quả, filter - hàm lọc các phần tử của RDD theo điều kiện… Bên cạnh đó, trên RDD còn có những phép tính tác động, các phép tính này thường trả về một giá trị hoặc ghi dữ liệu ra hệ thống lưu trữ bên ngoài Các phép tính tác động thường dùng bao gồm: collect – hàm trả về danh sách tất cả các phần tử trong RDD, count – hàm đếm số lượng các phần tử trong RDD, top – hàm trả về một số lượng cho trước các phần tử nằm ở đầu của RDD, reduce – hàm tính toán song song trên các phần tử của RDD… Do cơ chế “lazy evaluation”, một phép tính biến đổi trên RDD sẽ không được thực thi ngay lập tức

mà chỉ được Spark ghi nhận vào trong metadata Sau này, khi chương trình cần thực thi một phép tác động trên RDD, lúc đó Spark sẽ tìm lại trong metadata các phép biến đổi đã được yêu cầu trước đó trên RDD này và lần lượt thực thi chúng, sau đó sẽ thực thi phép tác động Nguyên nhân khiến Apache Spark sử dụng cơ chế “lazy evaluation”

là để giảm thiểu được số quy trình tính toán song song phải thực thi, giúp thời gian

xử lý được rút ngắn hơn

* Giới thiệu GraphX:

Và đi kèm với Apache Spark, chúng tôi giới thiệu GraphX [14], một khung

xử lý đồ thị nhúng được xây dựng trên nền Apache Spark, một trong những mô hình xử lý dữ liệu lớn rất phổ biến được sử dụng nhiều trong các tính toán phân tán hiện nay Bằng cách tận dụng các tiến bộ trong các tính toán dữ liệu phân tán, GraphX mang lại khả năng chịu lỗi thấp cho xử lý đồ thị Chúng tôi đánh giá GraphX trên khối lượng công việc thực và chứng minh rằng GraphX đạt được mức

độ hiệu suất cao

Trang 27

* Giới thiệu Scrapy:

Scrapy là một Application Framework, được viết bằng ngôn ngữ Python, để thực hiện thu thập dữ liệu các trang web và trích xuất dữ liệu có cấu trúc có thể được sử dụng cho một loạt các ứng dụng hữu ích, như khai thác dữ liệu, xử lý thông

tin hoặc lưu trữ lịch sử

Scrapy gồm các thành phần: Scheduler (bộ lập lịch thứ tự các URL download),

Downloader (thực hiện download dữ liệu Quản lý các lỗi khi download, chống trùng), Spiders (thực hiện bóc tách dữ liệu thành các items và requests), Item Pipeline (xử lý dữ liệu bóc tách được và lưu và cơ sở dữ liệu), Scrapy Engine (quản lý các thành phần trên)

Luồng dữ liệu trong Scrapy được thể hiện qua hình sau:

Hình 2.3 Mô tả luồng dữ liệu thực hiện trong Scrapy

Bước 1: Cung cấp URL xuất phát (start_url), được tạo thành một Request lưu trong Scheduler

Bước 2 - 3: Scheduler lần lượt lấy các Requests gửi đến Downloader

Bước 4 - 5: Downloader download dữ liệu từ internet, được Responses gửi đến Spiders

Trang 28

Bước 6 - 7: Spiders thực hiện:

Bóc tách dữ liệu, thu được Item, gửi đến Item Pipeline

Tách được URLs, tạo các Requests gửi đến Scheduler

Bước 8: Item Pipeline thực hiện xử lý dữ liệu bóc tách được Đơn giản nhất là thực hiện lưu dữ liệu vào database

Bước 9: kiểm tra Scheduler còn Request?

Đúng: quay lại Bước 2

Sai: kết thúc

2.3 Kết luận

Như vậy bộ phận nghiệp vụ của cơ quan chức năng thực hiện công tác này hiện nay vẫn đang sử dụng phương pháp thủ công, chưa được sự hỗ trợ bởi các chương trình máy tính nên tốn rất nhiều nhân lực, thời gian và chi phí Trong khi việc phát hiện các bài viết dựa trên các cụm từ bằng chương trình máy tính là khả thi và việc xây dựng chúng không đến nỗi phức tạp Việc xây dựng chương trình phát hiện các bài viết chứa nội dung có ẩn ý, bóng gió liên quan đến phản động, sai trái, xuyên tạc, chống phá hay kêu gọi bạo loạn lật đổ thì khó hơn rất nhiều, và với hiện trạng nghiên cứu hiện nay có thể nói là chưa khả thi Trong chương này, đề tài đã trình bày phân tích về các nghiên cứu nhằm giúp phát hiện các bài viết có chứa các cụm từ có yếu tố phản động, sai trái chứ không nhằm phát hiện các bài viết nội dung có yếu tố phản động, sai trái ở dạng ẩn ý, bóng gió

Như vậy qua quá trình nghiên cứu, tìm hiểu một số phương pháp khác nhằm giúp có thể phát hiện được các bài viết có chứa các cụm từ có yếu tố phản động, sai trái hay không thì chúng ta thấy được các phương pháp nêu trên đều có những ưu điểm, hạn chế riêng, và để có thể áp dụng được các phương pháp này vào để giải quyết bài toán thực tế là chưa khả thi Và như đã phân tích ở trên thì phương pháp thứ nhất mặc dù đơn giản nhưng lại tỏ ra khá hiệu quả trong bài toán thực tế này

Vì vậy, tác giả đề xuất cải tiến phương pháp thứ nhất để xây dựng thuật toán phát hiện bài viết có chứa nội dung phản động và hiện thực hóa nó trên nền tảng Apache Spark và GraphX với một sự thay đổi nhỏ, đó là phân tích mỗi cụm từ đặc trưng

thành một bộ của các thành phần có liên hệ với nhau về mặt ngữ nghĩa

Trang 29

Chương 3 PHÂN TÍCH THIẾT KẾ THUẬT TOÁN VÀ HỆ THỐNG

Như chúng ta đã thấy ở trong chương trước tác giả đã giới thiệu một số phương pháp nhằm giúp có thể phát hiện được các bài viết có chứa các cụm từ có yếu tố phản động, sai trái hay không Và để có thể áp dụng cho lĩnh vực mới này là xác định các bài viết chứa nội dung có yếu tố phản động, sai trái thì tác giả đã đề xuất một phương pháp mới để xây dựng hệ thống phát hiện bài viết chứa nội dung có yếu tố phản động, sai trái đạt được hiệu quả cao hơn đáp ứng nhu cầu công tác thực tế đó là đề xuất sử phương pháp sử dụng bộ ba

3.1 Ý tưởng cấu trúc dữ liệu và thuật toán

Như đã phân tích ở trên, phương pháp thứ nhất mặc dù đơn giản nhưng lại tỏ

ra khá hiệu quả trong bài toán thực tế này Tuy nhiên để giải quyết hạn chế của phương pháp khi có các cụm từ bổ sung/bổ nghĩa chen vào giữa tại một hoặc một

số vị trí của cụm từ đặc trưng thì tác giả đề xuất biểu diễn mỗi cụm từ đặc trưng thành một bộ của các thành phần có liên hệ với nhau về mặt ngữ nghĩa Mỗi bộ có tối đa là ba thành phần và được gọi là bộ ba Ý tưởng này xuất phát từ việc phân tích câu thành các bộ ba như đã phân tích ở mục 2.2.3, và các thành phần bổ nghĩa cho chúng

Xét ví dụ: Phân tích câu: “Hiện nay, chính quyền ra sức đàn áp đối với nhân dân tham gia các cuộc biểu tình chống đối lại quyết định của họ.”

Ba thành phần chính S-V-O của câu này chính là (“chính quyền”, “đàn áp”,

“nhân dân”), còn các cụm từ chen giữa khác chỉ bổ nghĩa cho các thành phần trên mà thôi, như “ra sức”, “đối với” bổ nghĩa cho “đàn áp”, " tham gia các cuộc biểu tình chống đối lại quyết định của họ” bổ nghĩa cho “nhân dân”

Như vậy trong đa số các trường hợp sự tồn tại của các thành phần chính của bộ

ba trong câu sẽ tương đương với sự xuất hiện của cả cụm từ đặc trưng ban đầu trong câu Như vậy việc xét sự có mặt của cả cụm từ đặc trưng một cách liên tục sẽ được thay bằng cách xét sự xuất hiện đồng thời của các thành phần của một bộ ba (tương ứng với cụm từ đặc trưng đó)

Một số trường hợp phải xử lý khi áp dụng cải tiến này đó là các trường hợp cụm

từ bổ nghĩa tạo ra nghĩa phủ định và trường hợp các thành phần này xuất hiện trong

Trang 30

câu nhưng lại không có quan hệ ngữ pháp Trong khuôn khổ luận văn này tác giả sẽ giải quyết thêm vấn đề các cụm từ bổ nghĩa mang nghĩa phủ định, còn trường hợp còn lại sẽ không xem xét

* Một số trường hợp câu phân tích mang ý nghĩa phủ định đã xét:

Một số dạng câu sau sẽ được loại bỏ không phát hiện qua chương trình:

- “chính quyền không đàn áp tôn giáo…”

- “chính quyền không có đàn áp tôn giáo…”

- “chính quyền không thể đàn áp tôn giáo…”

- “chính quyền không phải là đàn áp tôn giáo…”

- “chính quyền đâu đàn áp tôn giáo…”

- “chính quyền đâu có đàn áp tôn giáo…”

- “chính quyền đâu thể đàn áp tôn giáo…”

- “chính quyền đâu phải là đàn áp tôn giáo…”

- “không phải chính quyền đàn áp tôn giáo…”

- “đâu phải chính quyền đàn áp tôn giáo…”

- “nói chính quyền đàn áp tôn giáo là sai…”

- “nói chính quyền đàn áp tôn giáo là không đúng…”

- “nói chính quyền đàn áp tôn giáo là vu khống…”

- “nói chính quyền đàn áp tôn giáo là bịa đặt…”

- “nói chính quyền đàn áp tôn giáo là không chỉ sai…”

- “nói chính quyền đàn áp tôn giáo là không những sai…”

Một số dạng câu vẫn được phát hiện qua chương trình:

- “chính quyền không chỉ đàn áp tôn giáo…”

- “chính quyền không những đàn áp tôn giáo…”

- “chính quyền không những chỉ đàn áp tôn giáo…”

- “chính quyền đâu chỉ đàn áp tôn giáo…”

- “không chỉ có chính quyền đàn áp tôn giáo…”

- “không những chính quyền đàn áp tôn giáo…”

- “không những chỉ có chính quyền đàn áp tôn giáo…”

- “đâu chỉ có chính quyền đàn áp tôn giáo…”

- “nói chính quyền đàn áp tôn giáo là không sai…”

Trang 31

- “nói chính quyền đàn áp tôn giáo là không phải sai…”

- “nói chính quyền đàn áp tôn giáo là không thể sai…”

- “nói chính quyền đàn áp tôn giáo là đâu sai…”

- “nói chính quyền đàn áp tôn giáo là đâu phải sai…”

- “nói chính quyền đàn áp tôn giáo là đâu thể sai…”

Một số dạng câu phủ định khác còn khá nhiều, tuy nhiên trong khả năng của tác giả không thể trình bày hết ở đây Chính vì vậy trong đề tài này tác giả sẽ chỉ xét đến một số dạng câu phủ định đã trình bày ở trên

Các quy tắc chuyển cụm từ đặc trưng thành bộ ba đó là dựa trên các dạng mối quan hệ ngữ nghĩa khác nhau, có thể có giữa các thành phần trong một cụm từ đặc trưng đó là Chủ - Vị - Túc từ, Danh từ - tính từ bổ nghĩa, Động từ - danh từ bổ nghĩa, Tính từ - danh từ bổ nghĩa, Danh từ,…; đồng thời loại bỏ các cụm từ bổ nghĩa của các thành phần này mà chúng ta không quan tâm

Ví dụ:

Cụm từ đặc trưng “Hồ động chủ” ta chuyển thành bộ ba 1 thành phần (“Hồ động chủ”, “”, “”)

Cụm từ đặc trưng “Đảng Cộng sản ma giáo” ta chuyển thành bộ ba 2 thành phần (“Đảng Cộng sản”, “ma giáo”, “”), ở đây ta có thể thấy khi 2 thành phần này đi liền với nhau sẽ thể hiện sự xấu xa, ma giáo của Đảng Cộng sản mà các đối tượng phản động muốn tuyên truyền Tuy nhiên, chúng ta cũng có thể bắt gặp cụm từ đặc trưng

có ý nghĩa tương tự như vậy là “tính ma giáo của Đảng Cộng sản”, thì khi đó ta sẽ chuyển thành bộ ba 2 thành phần (“ma giáo”, “của Đảng Cộng sản”, “”)

Cụm từ đặc trưng “chính quyền đàn áp nhân dân” ta chuyển thành bộ ba 3 thành phần (“chính quyền”, “đàn áp”, “nhân dân”), ở đây ta thấy khi 3 thành phần này đi liền với nhau sẽ thể hiện chính sách tàn bạo của “chính quyền” đối với “nhân dân”, khiến nhân dân bị kích động, lôi kéo vào các hoạt động sai trái Tuy nhiên chũng ta cũng có thể sẽ gặp cụm từ đặc trưng khác nhưng cũng mang ý nghĩa như vậy đó là

“sự đàn áp nhân dân của chính quyền”, thì khi đó ta cũng có thể chuyển thành bộ ba

3 thành phần là (“đàn áp”, “nhân dân”, “của chính quyền”)

Thuật toán sẽ tìm sự xuất hiện của các thành phần của các bộ ba trong tất cả các câu của văn bản Nếu trong một câu của một văn bản có sự xuât hiện của đầy đủ các

Trang 32

thành phần của ít nhất một bộ ba nào đó theo đúng trật tự của chúng trong bộ ba đó thì văn bản đó được đánh dấu là có chứa nội dung có yếu tố phản động, sai trái và ngược lại thì không chứa quan điểm phản động, sai trái đó

Như vậy thuật toán đề xuất giảm được hạn chế của phương pháp thứ nhất ở chỗ vẫn phát hiện được các câu chứa các thành phần của cụm từ đặc trưng ban đầu (lúc chưa tách thành các thành phần của một bộ) nhưng đã bị xen kẽ bởi một số từ/ngữ khác Tuy nhiên thuật toán này cũng bị mắc phải một nhược điểm so với phương pháp thứ nhất là trường hợp các thành phần của một bộ xuất hiện đúng trình tự trong câu nhưng lại không có liên quan về mặt ngữ pháp Tuy nhiên thì xét trên thực tế trong

số các câu có chứa các cụm từ đặc trưng bị xem kẽ thì tỷ lệ các câu mà có giữ mối quan hệ ngữ pháp giữa các thành phần nhiều hơn đáng kể so với tỷ lệ các câu không

có mối quan hệ giữa các thành phần

Tập các bộ ba ban đầu được xây dựng theo ý kiến chuyên gia, sau đó được bổ sung thông qua việc phân tích tập dữ liệu dùng để huấn luyện

Do ngôn ngữ có tính đa dạng, phong phú nên một từ/cụm từ thường có một hoặc nhiều từ/cụm từ đồng nghĩa Vì vậy để bao quát được các cách diễn giải khác nhau của cùng một tư tưởng phản động – một bộ ba, chúng tôi cũng đề xuất phương

án mở rộng tập bộ ba này bằng cách sử dụng các từ đồng nghĩa đã được mô tả trong VietWordNet [1]

Ví dụ: với tập bộ ba được bổ sung thủ công (“chính quyền”, “đàn áp”, “nhân dân”), sử dụng các từ đồng nghĩa của từ “chính phủ” từ VietWordNet ta sẽ bổ sung thêm được một số bộ ba sau: (“chính phủ”, “đàn áp”, “nhân dân”), (“nhà nước”, “đàn áp”, “nhân dân”),…

3.2 Mô tả thuật toán

Thuật toán trên đã được hiện thực hóa sử dụng cấu trúc dữ liệu đồ thị của thư viện Spark GraphX Trong đó 2 thành phần đầu và cuối của bộ ba (có thể là rỗng/null) được biểu diễn thành đỉnh các đỉnh (vertexes) của đồ thị với thuộc tính chính là dãy ký tự ứng với thành phần đó; thành phần giữa của bộ ba (có thể là rỗng/null) được biểu diễn thành cạnh (edge) của đồ thị với thuộc tính chính là dãy

ký tự ứng với thành phần đó

Trang 33

[“Tổ chức khủng bố hồi giáo tại các nước Ả Rập đã và đang là mối kinh hoàng của cả thế giới.”,

“Những kẻ khủng bố gieo rắc nỗi sợ bằng những đợt đánh bom cảm tử hoặc những cuộc tấn công man rợ nhắm vào nơi đông người.”]

- Tại mỗi máy con, từng câu của bài viết sẽ được so sánh với các thành phần của các bộ ba mà máy con đó nhận được Nếu câu chứa đầy đủ các thành phần của một bộ ba theo đúng trật tự của chúng trong bộ ba thì coi như có một sự so khớp và được ghi nhận vào kết quả ứng với văn bản đang xét

- Khi kết thúc quá trình xử lý ở tất cả các máy, kết quả ghi nhận so khớp của văn bản được xem xét Nếu có ít nhất một sự so khớp đã được ghi nhận thì văn bản được đánh dấu là có yếu tố phản động, ngược lại – văn bản được đánh dấu là không

có yếu tố phản động

Trang 34

Hình 3.1 Mô tả thực hiện phân tán

3.3 Thuật giải xác định bài viết chứa nội dung có yếu tố phản động

Trang 35

- Ý tưởng:

Dữ liệu các dấu hiệu nhận biết một bài viết chứa nội dung có yếu tố phản động được đọc vào hệ thống từ các tập tin lưu trữ Do đặc tính dữ liệu dễ gây bùng nổ số lượng khi tìm kiếm, so sánh trong xử lý chuỗi giữa các triplets, mỗi khi tính toán một câu phải vét hết toàn bộ dữ liệu mẫu Những điều đó làm cho việc tính toán tốn rất nhiều chi phí cũng như thời gian thực thi Vì vậy, để tiết kiệm thời gian, chi phí tác

giả đã cài đặt giải thuật theo phương pháp phân tán mà Apache Spark tích hợp

If các thành phần trong câu I xếp theo thứ tự then

If Triplet khuyết 2 thành phần then return true;

If Triplet khuyết 1 thành phần and Không có từ xen giữa then return YES;

Else return Warning;

If Triplet đủ 3 thành phần and Không có từ xen giữa then return YES;

Else return Warning;

Else return No;

End;

End;

RS.collect ghi file kết quả

Trang 36

Ví dụ:

3.4 Hệ thống mở rộng tập các bộ ba dựa trên VietWordNet

Vì các bộ ba được xây dựng bằng tay nên chỉ hạn chế trên số lượng bài viết đã phân tích Tuy nhiên, ngôn ngữ tiếng Việt rất đa dạng, phong phú, có nhiều cụm từ đồng nghĩa nên chúng ta có thể mở rộng bằng cách sử dụng Wordnet tiếng Việt

WordNet [1] là một cơ sở dữ liệu về từ trong đó các từ được nhóm lại thành các loạt đồng nghĩa; các loạt đồng nghĩa được gắn kết với nhau nhờ các quan hệ ngữ nghĩa Đây là một loại từ điển có tính trực quan cao Quan trọng hơn, nó có thể được

sử dụng để phân tích tự động văn bản, xử lí ngôn ngữ tự nhiên, và các ứng dụng trí tuệ nhân tạo khác WordNet đầu tiên trên thế giới được phát triển cho tiếng Anh tại Đại học Princeton, Mỹ Cho đến nay đã có nhiều WordNet khác như: WordNet các ngôn ngữ Châu Âu, WordNet tiếng Nhật, WordNet tiếng Thái,…

Cộng đồng xử lý tiếng Việt có trang chủ là Viet.Wordnet.Vn, cộng đồng này được xây dựng với mục tiêu chia sẻ tài nguyên và công cụ xử lý ngôn ngữ và tiếng nói tiếng Việt Bên cạnh đó, trang web cũng là một kênh kết nối những người làm nghiên cứu và phát triển về xử lý tiếng Việt, cung cấp thông tin về các sự kiên trong cộng đồng như hội nghị, hội thảo, sản phẩm mới,…

Wordnet tiếng Việt được phát triển dựa trên sự kế thừa Wordnet Princeton phiên bản 3.0 Để biên soạn dữ liệu, chúng tôi kế thừa và phát triển công cụ WNMS, một

hệ thống hoạt động trên Web được phát triển trong dự án AsianWordNet, do Phòng thí nghiệm Ngôn ngữ học Máy tính Thái Lan (TCL) và Viện Công nghệ Thông tin và Truyền Thông Nhật Bản (NICT) cộng tác thực hiện Việt WNMS đã được tùy biến

và cải tiến để phù hợp với tiếng Việt Mạng từ tiếng Việt VietWordNet gồm 40.788 loạt từ đồng nghĩa, với 67.344 đơn vị từ vựng, trong đó có 40.788 từ vựng là tiếng

Trang 37

Việt thông dụng Với số lượng dữ liệu này và dịch vụ mà VietWordNet cung cấp giúp chúng ta mở rộng tập các bộ ba

3.5.2 Nguyên tắc rút trích

Truy cập trang cần rút trích để xác định các Selector chứa nội dụng cần lấy về

Ví dụ: Truy cập bài viết trong danlambaovn.blogspot.com, ta xác định nội dung bài viết chứa trong các thẻ <div style=“text-align: jistify;”></div>

Sau đó tạo spiders cho trang, trong spiders viết đoạn:

contents = response.xpath('//div[@style="text-align: justify;"]').extract()

Đoạn này để lấy tất cả các selector có tag là <div style=“text-align: jistify;”></div>, sau đó lọc các tag dư thừa và lưu link này vào cơ sở dữ liệu MongoDB để lần sau gặp link này sẽ hiểu là bài này đã rút trích về rồi và bỏ qua Tương tự cho các trang khác, chúng ta xác định các selector và viết spiders tương ứng

Trong quá trình rút trích, một số đường dẫn sẽ bị nhiễu như:

danlambaovn\.blogspot\.*\/search.*, danlambaovn\.blogspot\.*\.jpg… làm quá trình

rút trích bị treo, lâu nên chúng ta cần loại bỏ những đường dẫn này bằng cách thêm

Ngày đăng: 23/12/2018, 06:12

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w