Phân loại câu trả lời giả mạo trên các trang web hỏi đáp cộng đồng dựa vào quan hệ người dùng

Bài viết trình bày cách phân loại các câu trả lời giả mạo trên các trang web hỏi đáp cộng đồng thông qua mối quan hệ người dùng. Các thử nghiệm được làm với hai bộ dữ liệu được thu thập từ trang Yahoo hỏi đáp và Facebook. Kết quả cho thấy việc sử dụng quan hệ người dùng cho phép phân loại tốt hơn các phương pháp phân loại dựa vào văn bản. Mời các bạn cùng tham khảo!

Trang 1

Phân Loại Câu Trả Lời Giả Mạo Trên Các Trang Web Hỏi Đáp Cộng Đồng Dựa Vào Quan Hệ Người Dùng

Nông Thị Hoa, Quách Xuân Trưởng, Nguyễn Thùy Linh, Vũ Thị Thúy Thảo, Nguyễn Xuân Hưng

Trường Đại học Công nghệ thông tin & Truyền thông, Đại học Thái Nguyên Email: nongthihoa@gmail.com, qxtruong@ictu.edu.vn, gianglinhtn@gmail.com,vttthao@ictu.edu.vn, nxhung@ictu.edu.vn

Abstract – Việc xuất hiện các câu trả lời giả mạo (câu trả lời có

chứa thông tin quảng cáo) trên các trang web hỏi đáp cộng đồng

sẽ làm giảm sự tin tưởng của người dùng đối với các tri thức của

trang Vì vậy, nhu cầu loại bỏ các câu trả lời giả mạo này là hết

sức cần thiết Hiện nay, các tiếp cận thường tập trung vào phân

loại dựa trên đặc điểm văn bản và ngữ cảnh Dựa vào hoạt động

của các trang web hỏi đáp, các người dùng tốt thường thích hoặc

bầu chọn các câu trả lời xác thực Ngược lại, người dùng chuyên

đăng quảng cáo thường thích hoặc bầu chọn các câu trả lời có

chứa quảng cáo Vì vậy, việc dùng mối quan hệ này để phân loại

các câu trả lời sẽ tăng thêm khả năng tìm được các câu trả lời giả

mạo Trong bài báo này, chúng tôi trình bày cách phân loại các

câu trả lời giả mạo trên các trang web hỏi đáp cộng đồng thông

qua mối quan hệ người dùng Các thử nghiệm được làm với hai

bộ dữ liệu được thu thập từ trang Yahoo hỏi đáp và Facebook

Kết quả cho thấy việc sử dụng quan hệ người dùng cho phép

phân loại tốt hơn các phương pháp phân loại dựa vào văn bản

Keywords – Câu trả lời giả mạo, quan hệ người dùng, phân

loại câu trả lời, trang web hỏi đáp cộng đồng, phân loại

I. GIỚI THIỆU Hiện nay, các trang web hỏi-đáp cộng đồng, chẳng hạn

như Yahoo! Hỏi & Đáp và WikiAnswers, đã trở thành một

trong những phương pháp thu thập thông tin quan trọng nhất

Ngoài các công cụ tìm kiếm web có mục đích chung, các trang

web hỏi-đáp cộng đồng đã trở lên phổ biến, có hiệu quả và trở

thành phương tiện tìm kiếm thông tin trên web Hiện nay có

hàng trăm triệu câu trả lời và hàng triệu câu hỏi tích lũy trên

các trang web hỏi-đáp cộng đồng Các nguồn tài nguyên của

câu hỏi và câu trả lời trước đây được chứng minh là một cơ sở

tri thức có giá trị Từ các trang web hỏi-đáp cộng đồng, người

dùng có thể trực tiếp nhận được các câu trả lời để đáp ứng một

số nhu cầu thông tin cụ thể Do đó, trong những năm gần đây,

khai thác kiến thức trong các trang web hỏi-đáp cộng đồng đã

trở thành một chủ đề phổ biến trong lĩnh vực trí tuệ nhân tạo

Tuy nhiên, một số câu trả lời có thể là giả mạo Các trang

web hỏi-đáp cộng đồng có hàng triệu người dùng mỗi ngày

Do các câu trả lời có thể chỉ dẫn hành vi của người dùng nên

một số người dùng độc hại đã cố ý cung cấp câu trả lời giả

mạo để quảng cáo sản phẩm hoặc dịch vụ

Câu trả lời giả mạo gây ra nhiều vấn đề đặc biệt là gây

hiểu lầm cho người dùng và làm người dùng đưa ra quyết định

sai Về phía cộng đồng hỏi-đáp, các câu trả lời giả mạo sẽ làm

tổn hại sức mạnh của các trang web hỏi-đáp cộng đồng Một

trang web hỏi-đáp cộng đồng mà không có kiểm soát các câu

trả lời giả mạo thì chỉ có lợi nhưng kẻ gửi thư rác mà không

giúp được gì cho người hỏi Nếu người hỏi bị lừa bởi các câu trả lời giả mạo thì người hỏi sẽ không tin tưởng và ko ghé thăm trang web nữa Vì vậy, một nhiệm vụ cơ bản là phân loại để lọc ra những câu trả lời giả mạo

Trong bài báo này, chúng tôi trình bày cách phân loại các câu trả lời giả mạo trên các trang web hỏi đáp cộng đồng thông qua mối quan hệ người dùng Dựa vào đặc điểm: các người dùng tốt thường thích hoặc bầu chọn các câu trả lời xác thực còn người dùng chuyên đăng quảng cáo thường thích hoặc bầu chọn các câu trả lời có chứa quảng cáo Việc phân loại các câu trả lời được thực hiện qua hai bước: (i) Phân loại dựa trên các thuộc tính về văn bản thu được tập các câu trả lời giả mạo và tập các câu trả lời xác thực; (ii) Phân loại dựa trên quan hệ người dùng đối với các câu được xếp loại là xác thực

ở bước trước

Bài báo được tổ chức thành các phần sau: trong phần II, chúng tôi tổng kết các nghiên cứu liên quan Phần III trình bày các đặc điểm của câu trả lời Tiếp theo, quan hệ người trong phân loại câu trả lời được mô tả chi tiết trong phần IV Phần V thể hiện các kết quả thực nghiệm Cuối cùng, kết luận được đưa ra trong Phần VI

II. CÁC NGHIÊN CỨU LIÊN QUAN Trong vài năm qua, tìm câu trả lời trên các trang web

đã trở thành một nhiệm vụ phổ biến để khai thác kiến thức từ các trang web hỏi đáp cộng đồng Các nghiên cứu gồm lấy các cặp câu hỏi - câu trả lời đã tích lũy để tìm câu trả lời liên quan cho một câu hỏi mới, tổng hợp các câu trả lời để cung cấp một kết quả chính xác [1][2][3][4][5][6] Tuy nhiên, việc phát hiện các câu trả lời giả mạo chưa được quan tâm thực sự Nếu thu thập một tập hợp câu hỏi – câu trả lời có nhiều câu trả lời giả mạo thì kiến thức thu được sẽ vô nghĩa Do đó, bước đầu tiên

là dự đoán để lọc ra những câu trả lời giả mạo Một số nghiên cứu khác tập trung vào dự đoán chất lượng câu trả lời [7] [8] [9][10]

Tuy nhiên, có sự khác biệt đáng kể giữa dự đoán chất lượng câu trả lời và dự đoán câu trả lời giả mạo Dự đoán chất lượng câu trả lời sẽ đo chất lượng tổng thể của câu trả lời, thông qua tính chính xác, tính dễ đọc và đầy đủ của các câu trả lời Trong khi dự đoán câu trả lời giả mạo dự đoán mục đích của các câu trả lời có chứa quảng cáo hay không Một số nghiên cứu [7][10][11] xem việc chọn “câu trả lời tốt nhất” như câu trả lời chất lượng cao mà được chọn bởi người hỏi trong các trang web hỏi đáp cộng đồng Tuy nhiên, câu trả lời giả mạo có thể được lựa chọn là câu trả lời chất lượng cao bởi

ISBN: 978-604-67-0635-9

Trang 2

các người dùng độc hại, hoặc vì người dùng hiểu lầm Trong

khi đó, một số câu trả lời từ những người không phải người

bản xứ có thể có lỗi ngôn ngữ mà làm cho câu trả lời có chất

lượng thấp nhưng vẫn là câu trả lời xác thực

Một số nghiên cứu cũng dùng đồ thị người dùng để nghiên

cứu các mối quan hệ người dùng [12][13] Các nghiên cứu chủ

yếu xây dựng các đồ thị người dùng với mối quan hệ người

hỏi-người trả lời để ước tính số điểm chuyên môn với quan

điểm người trả lời có hiểu biết hơn người hỏi Tuy nhiên, bài

toán này không quan tâm người dùng nào có kiến thức hơn,

mà cho biết cả hai người dùng là hai kẻ gửi thư rác hoặc hai

người dùng xác thực Vì vậy, mối quan hệ giữa các người

dùng mới được đưa vào để nâng cao chất lượng phân loại câu

trả lời giả mạo Lý do là người gửi thư rác đưa ra câu trả giả

mạo và thăng cấp các câu trả giả mạo còn người dùng xác thực

thường gửi các câu trả lời xác thực và giáng cấp các câu trả lời

giả mạo Quan hệ giữa người dùng được xây dựng dựa trên

đánh giá câu trả lời của người dùng khác là “hữu ích” hoặc lựa

chọn là “câu trả lời tốt nhất”

III. CÁC ĐẶC TRƯNG CỦA CÂU TRẢ LỜI

Đầu tiên, xem việc dự đoán câu trả lời giả mạo là một vấn

đề phân loại nhị phân Hai loại thuộc tính của câu trả lời được

dùng trong phân loại gồm các thuộc tính theo văn bản và các

thuộc tính theo ngữ cảnh

A Các thuộc tính theo văn bản

Đầu tiên, dự đoán câu trả lời giả mạo bằng cách phân tích

nội dung câu trả lời Một số thuộc tính theo văn bản được lấy

ra từ nội dung câu trả lời

1) Unigrams và Bigrams

Loại phổ biến nhất của thuộc tính để phân loại văn bản là

túi từ (bag of words) Sử dụng các phương pháp lựa chọn

thuộc tính để chọn 200 từ đơn và từ ghép như thuộc tính về từ

Danh sách các từ này có liên quan đến mục đích quảng cáo

gồm: chuyên nghiệp, dịch vụ, khuyên dùng, địa chỉ, số điện

thoại, email, điều trị, giới thiệu, hoàn hảo, tốt nhất, tel, mobile,

address, phone, liên hệ, dt, điện thoại

2) Các thuộc tính URL

Một số người dùng độc hại có thể quảng bá sản phẩm bằng

cách liên kết với một URL Do đó, URL là thể hiện tốt cho câu

trả lời giả mạo Tuy nhiên, một số URL có thể cung cấp các tài

liệu tham khảo cho câu trả lời xác thực Ví dụ, nếu hỏi thời tiết

ở vùng núi, một người nào đó chỉ có thể gửi liên kết đến

“http://www.weather.com/" Vì vậy, bên cạnh sự tồn tại của

URL, cần sử dụng thêm thuộc tính URL sau đây:

- Chiều dài của các URL: các URL dài có nhiều khả năng

là rác

- Điểm xếp hạng trang: sử dụng số điểm xếp hạng trang

của mỗi URL như điểm phổ biến [14] Trang có độ phổ

biến ít là trang có trong câu trả lời giả mạo

3) Số điện thoại và email

Câu trả lời giả mạo thường có nhiều thông tin liên lạc như

số điện thoại, địa chỉ và email Câu trả lời xác thực ít tham

khảo đến số điện thoại hoặc địa chỉ email hơn Số lần xuất

hiện của email và số điện thoại được coi như một thuộc tính

4) Chiều dài

Theo quan sát, các câu trả lời giả mạo thường dài hơn các câu trả lời xác thực bởi vì câu trả lời giả mạo được chuẩn bị tốt để quảng cáo các mục tiêu Vì vậy, số từ và số câu trong các câu trả lời được xét như một thuộc tính

B Các thuộc tính theo ngữ cảnh

Bên cạnh các thuộc tính theo văn bản, có thể xem xét đến các thuộc tính khác từ ngữ cảnh của câu trả lời

1) Sự liên quan giữa câu hỏi và câu trả lời

Đặc điểm chính của câu trả lời trong trang web hỏi-đáp cộng đồng là câu trả lời được cung cấp để trả lời câu hỏi tương ứng Vì vậy, câu hỏi tương ứng được dùng như một thuộc tính ngữ cảnh bằng cách đo sự liên quan giữa các câu trả lời và câu hỏi Ba mô hình phổ biến được dùng để xác định sự liên quan giữa câu hỏi và câu trả lời:

Mô hình không gian vector

Mỗi câu trả lời hoặc câu hỏi được xem như là một vector

từ Cho một câu hỏi q và câu trả lời a, mô hình vector sử dụng

bộ đếm từ có trọng số và sự tương tự cosine của các vector từ như là một hàm liên quan [15]

Tuy nhiên, mô hình vector chỉ xem xét sự đối chiếu từ chính xác trong khi các câu hỏi và câu trả lời thường là ngắn hơn so với tài liệu Ví dụ, Hà nội và thủ đô của Việt Nam là cùng một thành phố Nhưng mô hình vector sẽ cho thấy chúng phải khác nhau

Mô hình dịch

Một mô hình dịch là một mô hình toán học mà việc dịch ngôn ngữ được mô hình hóa dựa trên các thống kê dữ liệu Khả năng dịch một câu nguồn (câu trả lời) sang câu mục tiêu (câu hỏi) thu được bằng cách gióng các từ để cực đại tích xác suất các từ Với mô hình dịch, có thể tính điểm dịch cho câu hỏi và câu trả lời mới

Mô hình chủ đề

Để giảm lỗi đối chiếu từ trong mô hình vector, dùng mô hình chủ đề để mở rộng việc đối chiếu ngữ nghĩa của chủ đề

Mô hình chủ đề xem xét một tập hợp các tài liệu với các chủ

đề [17] Về bản chất, mô hình ánh xạ thông tin từ số chiều của

từ sang số chiều chủ đề ngữ nghĩa

2) Các thuộc tính về hồ sơ của người dùng

Từ số liệu thống kê hoạt động của người dùng, các thuộc tính về hồ sơ cá nhân được xây dựng bao gồm mức độ sử dụng các trang web hỏi-đáp cộng đồng, số lượng câu hỏi, số lượng câu trả lời, và tỷ lệ câu trả lời tốt nhất

3) Điểm thẩm quyền của người dùng

Các chuyên gia tìm kiếm nhiệm vụ thực hiện chấm điểm thẩm quyền cho mỗi người dùng [5][12][13] Điểm này biểu thị số điểm chuyên môn của người dùng Để tính điểm thẩm quyền, đầu tiên cần xây dựng một đồ thị có hướng thể hiện sự tương tác của người dùng trong cộng đồng Mỗi nút của đồ thị biểu diễn cho một người dùng Một cạnh giữa hai người dùng chỉ hình thành khi người dùng này trả lời câu hỏi của người dùng kia Trọng lượng của một cạnh cho biết số tương tác

4) Các thuộc tính tự động

Loại thứ ba của thuộc tính liên quan đến tác giả được sử dụng để phát hiện xem tác giả có là một robot được lập trình

để gửi câu trả lời tự động Theo quan sát, sự phân phối thời gian gửi bài trả lời rất khác nhau giữa người dùng và robot

Trang 3

Robot có thể gửi câu trả lời liên tục nên khoảng thời gian giữa

hai câu trả lời là nhỏ hơn người dùng thực bởi vì con người

cần thời gian để suy nghĩ và xử lý giữa hai bài viết

5) Đánh giá từ người dùng khác

Trên các trang web hỏi-đáp cộng đồng, người dùng có thể

bày tỏ ý kiến hoặc đánh giá các câu trả lời Ví dụ, người hỏi có

thể chọn câu trả lời tốt nhất Ngoài ra, người dùng có thể dán

nhãn cho mỗi câu trả lời là “hữu ích” hoặc “không hữu ích”

Đánh giá của người dùng khác được tính theo tỷ lệ giữa số

phiếu bầu “hữu ích” trên số tổng số phiếu bầu

6) Sao chép các câu trả lời

Người dùng xấu có thể gửi các tài liệu quảng bá sản phẩm

được viết trước cho nhiều câu trả lời, hoặc chỉ thay đổi tên sản

phẩm Xét sự tương đồng giữa các câu trả lời cho thấy nếu hai

câu trả lời là giống nhau nhưng câu hỏi là khác nhau thì các

câu trả lời đó là giả mạo

IV. DỰ ĐOÁN CÂU TRẢ LỜI GIẢ MẠO DỰA VÀO

MỐI QUAN HỆ NGƯỜI DÙNG

Bên cạnh các thuộc tính theo văn bản và các thuộc tính

theo ngữ cảnh, mối quan hệ của người dùng cũng được dùng

để dự đoán câu trả lời giả mạo Giả sử, người dùng tương tự

có xu hướng thực hiện hành vi tương tự (cùng gửi câu trả lời

giả mạo hoặc cùng đăng câu trả lời xác thực) Đầu tiên, cần

xác định mối quan hệ của người dùng thông qua phiếu bầu của

các người dùng về câu trả lời Sau đó, dùng mối quan hệ người

dùng để dự đoán câu trả lời giả mạo

A Xác định mối quan hệ người dùng

Cho một câu hỏi Q1, sẽ có một số câu trả lời cho Q1 từ

những người dùng khác nhau Hai người dùng U1 và U2 có

mối quan hệ nếu ở một trong các trường hợp sau:

(i) Người dùng U1trả lời một câu hỏi Q1 Người dùng U2

bình chọn câu trả lời của người dùng U1 là “hữu ích” hoặc

“không hữu ích”;

(ii) Người dùng U2trả lời một câu hỏi Q1 Người dùng U1

bình chọn câu trả lời của người dùng U2 là “hữu ích” hoặc

“không hữu ích”; và

(iii) Cả người dùng U1và người dùng U2 cùng bình chọn

một câu trả lời A1 của một người dùng khác là “câu trả lời tốt

nhất”

Hình 1: Ví dụ về quan hệ người dùng

Ví dụ: người hỏi, u1, hỏi một câu Sau đó, người dùng u2

và u3trả lời cho câu hỏi này Sau khi câu trả lời được cung

cấp, người dùng u4 và u5 bầu chọn câu trả lời đầu tiên là

“không hữu ích”, và người dùng u6bỏ phiếu câu trả lời thứ hai

là “hữu ích” Cuối cùng, người hỏi u1đã chọn câu trả lời đầu tiên là “câu trả lời tốt nhất” Do người dùng u4và u5cùng đưa

ra đánh giá “không hữu ích” đối với câu trả lời đầu tiên nên hai người dùng này có quan hệ với nhau

Về phía đánh giá “hữu ích” thực sự, giả sử tác giả của câu trả lời cho đánh giá “hữu ích” đối với câu trả lời của mình Sau đó, nếu người dùng u6đưa ra đánh giá “hữu ích” với câu trả lời thứ hai của người dùng u3thì người dùng u6có quan hệ với người dùng u3

Tiếp tục xác định quan hệ người dùng với lựa chọn “câu trả lời tốt nhất” Nếu người hỏi đã chọn “câu trả lời tốt nhất” trong tất cả các câu trả lời thì người hỏi có quan hệ với tác giả của “câu trả lời tốt nhất” Theo ví dụ, người dùng u1có quan

hệ với người dùng u2 Trong các trang web hỏi đáp cộng đồng, kẻ gửi thư rác chủ yếu quảng cáo các sản phẩm mục tiêu bằng cách đưa ra các câu trả lời giả mạo Kẻ gửi thư rác có thể làm cho câu trả lời giả mạo trông có vẻ thật, bằng cách bầu chọn cho chúng là câu trả lời chất lượng cao, hoặc lựa chọn chúng như là “câu trả lời tốt nhất" Tuy nhiên, người dùng xác thực thường có đánh giá riêng cho các câu trả lời xác thực và các câu trả lời giả mạo

Vì vậy, việc đánh giá đối với các câu trả lời phản ánh mối quan hệ người dùng Tuy nhiên, vẫn có các quan hệ nhiễu khi người dùng xác thực bị lừa và chọn câu trả lời giả mạo là “câu trả lời tốt nhất"

B Kết hợp mối quan hệ người dùng và các thuộc tính về văn bản để phân loại các câu trả lời giả mạo

Ý tưởng dùng quan hệ người dùng để phân loại câu trả lời giả mạo đã được trình bày chi tiết trong [18] Trong nghiên cứu này, đồ thị quan hệ người dùng được xây dựng với trọng

số cạnh thể hiện mức quan hệ giữa hai người dùng và dùng hàm mục tiêu để cực tiểu sự khác biệt khi xác thực câu trả lời của các người dùng có quan hệ Do đó, kết quả phân loại sẽ có

độ chính xác cao nhưng đòi hỏi tính toán phức tạp hơn Chúng đề xuất thủ tục phân loại đơn giản hơn dựa trên ý tưởng của nghiên cứu trên Do việc xây dựng quan hệ người dùng đơn giản hơn nên độ chính xác của kết quả phân loại sẽ giảm so với phương pháp nêu trên

1) Thủ tục phân loại câu trả lời

Trong thủ tục này, người dùng có quan hệ với người dùng độc hại cũng xem như người dùng độc hại Việc phân loại câu trả lời giả mạo được thực hiện qua các bước sau:

Bước 1: Phân loại các câu hỏi dựa trên các thuộc tính về

văn bản để lọc ra các câu trả lời giả mạo Với mỗi câu trả lời giả mạo thu được, lấy tác giả của câu trả lời đưa vào danh sách các người dùng độc hại

Bước 2: Với các câu trả lời còn lại, làm hai bước sau:

Bước 2.1: Tìm ra các người dùng có quan hệ với người

dùng độc hại trong danh sách thu được ở Bước 1 theo cách xác định trong phần 4 mục A nếu số lần có cùng quan

điểm vượt qua ngưỡng q với q nguyên dương Điều này để

tránh khi người dùng xác thực bị lừa bởi người dùng độc hại do chưa xem xét kỹ thông tin câu trả lời đã bình chọn

Bước 2.2: Phân loại câu trả lời là giả mạo nếu người trả

lời là người dùng độc hại Các câu trả còn lại là câu trả lời xác thực

Trang 4

2) Ưu điểm và nhược điểm

Thủ tục đề xuất có tốc độ xử lý nhanh do các phương thức

phát hiện câu trả lời giả mạo từ các thuộc tính về văn bản là

khá đơn giản Hơn nữa, việc xác định mối quan hệ người dùng

cũng dễ thực hiện chỉ bởi các phép so sánh

Do thủ tục đạt được tốc độ xử lý nhanh nên chất lượng

phân loại sẽ bị giảm vì một số câu trả lời giả mạo vẫn được coi

là các câu trả lời thật do chưa xét hết các thuộc tính liên quan

đến ngữ cảnh và mối quan hệ giữa người dùng chỉ ở mức đơn

giản Nếu mối quan hệ người dùng được xây dựng tốt hơn

gồm các thông tin về trọng số của các mối quan hệ thì giải

quyết tốt hơn các mối quan hệ còn nhập nhằng Ví dụ một

người dùng có nhiều quan hệ với nhiều người dùng xác thực

hơn quan hệ với người dùng độc hại thì được coi là người

dùng xác thực Với thủ tục trên, khi số lần người dùng xác

thực đồng ý với ý kiến của người dùng độc hại vượt qua một

ngưỡng nhất định thì vẫn bị coi là người dùng độc hại

V. KẾT QUẢ THỰC NGHIỆM

Trong bài báo này, các thực nghiệm được làm trên hai tập

dữ liệu được thu thập trừ trang Yahoo hỏi-đáp Việt Nam và

nhóm IELTS SHARE của Facebook Với mỗi câu trả lời,

chúng tôi tiến hành gán nhãn là giả mạo hay xác thực dựa vào

nội dung câu hỏi và nội dung câu trả lời

Với mỗi tập dữ liệu, thực hiện phân loại theo 5 cách sau:

độ dài câu trả lời, danh sách các từ thường dùng trong quảng

cáo, địa chỉ URL, tổng hợp cả ba thuộc tính văn bản và thủ tục

đề xuất Để đánh giá hiệu quả phân loại, tỷ lệ phần trăm phân

loại đúng được dùng cho các câu trả lời giả mạo, các câu trả

lời xác thực, và trên toàn tập dữ liệu

A Thực nghiệm với tập dữ liệu từ Yahoo hỏi-đáp

Tập dữ liệu gồm 832 mẫu được thu thập từ nhiều chủ đề

khác nhau trên trang Yahoo hỏi-đáp Việt Nam Trong đó, có

88 mẫu là câu trả lời giả mạo và 744 mẫu là câu trả lời xác

thực Bảng 1 thể hiện quan hệ người dùng thu được từ tập số

liệu

Bảng 1: Các quan hệ người dùng trong tập dữ liệu từ Yahoo

Người trả lời Người thích/chọn là câu trả lời hay nhất

Viet Bup Be Mat troi Xanh, KYNGVI

ngocn nam viet, thi, hung, uyên

Hưng Lê đức huệ, Xuan Thien,

Các tham số chọn cho các thuộc tính về văn bản dùng

trong thực nghiệm gồm:

x Số từ trong câu trả lời quá 80 từ

x Câu trả lời chứa các từ liên quan đến quảng cáo gồm chuyên nghiệp, dịch vụ, khuyên dùng, địa chỉ, số điện thoại, email, điều trị, giới thiệu, hoàn hảo, tốt nhất, tel, mobile, address, phone, liên hệ, dt, điện thoại x Với địa chỉ URL, chỉ xét phần địa chỉ đầu tiên gắn với tên miền Các địa chỉ chia thành 3 nhóm: bắt đầu bằng www thì độ dài lớn hơn 10 ký tự, bắt đầu bằng http:// thì độ dài lớn hơn 17 ký tự, bắt đầu bằng https:// thì độ dài lớn hơn 18 ký tự

Kết quả thực nghiệm được trình bày trong Bảng 2 Số liệu trong Bảng 2 cho thấy thủ tục đề xuất cải thiện đáng kể khả năng phát hiện các câu trả giả mạo so với kết quả phân loại theo các thuộc tính văn bản

Bảng 2: Tỷ lệ % phân loại đúng với tập dữ liệu từ Yahoo

Giả mạo Xác thực Tổng thể

B Thực nghiệm với tập dữ liệu từ Facebook

Tập dữ liệu gồm 250 mẫu được thu thập từ nhóm IELTS SHARE của Facebook – Nơi hỏi đáp về các tài liệu học tiếng anh trình độ IELTS Trong đó, có 31 mẫu là câu trả lời giả mạo

và 219 mẫu là câu trả lời xác thực Bảng 3 thể hiện một số quan

hệ người dùng thu được từ tập số liệu

Bảng 3: Các quan hệ người dùng trong tập dữ liệu từ Facebook Người trả lời Người thích câu trả lời

Đỗ Trọng Thiêm

Thanh Hồ, Phương Mai, Dung Trinh,Yoo

Su, Linh Chan, Len Pham, Nguyễn Đức Nghĩa, Hằng Nga, Nguyễn Thảo, Dương Trịnh

Hồ Trọng Đại Tuyết Anh, Linh Sogogi, Phương Thảoo Ngo Bla

Phuong Anh Bùi, Link Chee Twig, Trần Thanh Phương, Trần Thảo Ngọc, Tuyết Anh, Trâm Nguyễn, Nguyễn

Thảo,Phương Thảoo, Nguy Hiểm

Nguyễn Ngọc Trung

Phạm Ngọc Diệp, Chi Phan, Phan Thị Ngọc Phú, Hạ Nhật, Thân Hương, Mun Mun, AnhThu Tran,Kỵ Sỹ Văn Trần, Mai Anh BaeKarry

Hoàng Phúc Mun Mun, Ha Cuong, Dương Trịnh, Phạm Ngọc Diệp, Thân Hương

Trang 5

Kết quả thực nghiệm trong Bảng 4 cũng cho thấy thủ tục

cải tiến tăng mạnh khả năng phát hiện các câu trả giả mạo so

với kết quả phân loại theo các thuộc tính văn bản

Bảng 4: Tỷ lệ % phân loại đúng với tập dữ liệu từ Facebook

Giả mạo Xác thực Tổng thể

VI. KẾT LUẬN Trong bài báo này, một thủ tục dự đoán các câu trả lời giả

mạo trong các trang web hỏi đáp cộng đồng đưoạc đưa ra Với

hai tập dữ liệu đánh nhãn bằng tay, đầu tiên thực hiện dự đoán

các câu trả lời giả mạo dựa vào các thuộc tính về văn bản và

thành lập danh sách các người dùng độc hại dựa trên các đánh

giá của người dùng đối với các câu trả lời Tiếp theo, xác định

các người dùng có với các người dùng độc hại trong danh

sách Cuối cùng, áp dụng quan hệ người dùng để phân loại các

câu trả lời Các thực nghiệm trên hai tập dữ liệu lấy từ Yahoo

và Facebook cho thấy việc sử dụng quan hệ người dùng cải

thiện đáng kể độ chính xác trong việc dự đoán câu trả lời giả

mạo

Độ chính xác của dự đoán câu trả lời giả mạo còn có thể

cải thiện khi kết hợp thêm nhiều thuộc tính trong khi phân

loại Hơn nữa, việc dự đoán các chủ đề của hàng loạt câu hỏi

giả mạo và phát hiện nhóm người dùng độc hại cũng là các

nhiệm vụ quan trọng trong tương lai

TÀI LIỆU THAM KHẢO

[1] Jiwoon Jeon, W Bruce Croft, and Joon Ho Lee (2005), “Finding similar

questions in large question and answer archives” in Proceedings of the

14th ACM CIKM conference, 05, pages 84–90, NY, USA ACM

[2] Lada A Adamic, Jun Zhang, Eytan Bakshy, and Mark S Ackerman

(2008), “Knowledge sharing and yahoo answers: everyone knows

something”, Proceedings of the 17th international conference on World

Wide Web, WWW ’08, pages 665–674, New York, NY, USA ACM

[3] Yuanjie Liu, Shasha Li, Yunbo Cao, Chin-Yew Lin, Dingyi Han, and

Yong Yu (2008), “Understanding and summarizing answers in

community-based question answering services”, Proceedings of the

22nd International Conference on Computational Linguistics - Volume

1, COLING ’08, pages 497– 504, Stroudsburg, PA, USA Association for Computational Linguistics

[4] Young-In Song, Chin-Yew Lin, Yunbo Cao, and HaeChang Rim (2008),

“Question utility: a novel static ranking of question search” Proceedings

of the 23rd national conference on Artificial intelligence - Volume 2, AAAI’08, pages 1231–1236 AAAI Press

[5] X Si, Z Gyongyi, and E Y Chang (2010), “Scalable mining of topic-dependent user reputation for improving user generated content search quality”, In Google Technical Report

[6] A Figueroa and J Atkinson (2011), “Maximum entropy context models for ranking biographical answers to open-domain definition questions”, Twenty-Fifth AAAI Conference on Artificial Intelligence

[7] Y.I Song, J Liu, T Sakai, X.J Wang, G Feng, Y Cao, H Suzuki, and C.Y Lin (2010), “Microsoft research asia with redmond at the ntcir-8 community QA pilot task”, Proceedings of NTCIR

[8] F Maxwell Harper, Daphne Raban, Sheizaf Rafaeli, and Joseph A Konstan (2008), “Predictors of answer quality in online q&a sites”, Proceedings of the twenty-sixth annual SIGCHI conference on Human factors in computing systems, CHI ’08, pages 865– 874, New York, NY, USA ACM

[9] Chirag Shah and Jefferey Pomerantz (2010), “Evaluating and predicting answer quality in community QA”, Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval, SIGIR ’10, pages 411–418, New York, NY, USA ACM [10] Daisuke Ishikawa, Tetsuya Sakai, and Noriko Kando (2010), “Overview

of the NTCIR-8 Community QA”, Pilot Task (Part I): The Test Collection and the Task, pages 421–432 Number Part I

[11] Jiang Bian, Yandong Liu, Ding Zhou, Eugene Agichtein, and Hongyuan Zha (2009), “Learning to recognize reliable users and content in social media with coupled mutual reinforcement”, Proceedings of the 18th international conference on World wide web, WWW ’09, pages 51–60,

NY, USA ACM [12] P Jurczyk and E Agichtein (2007), “Discovering authorities in question answer communities by using link analysis”, Proceedings of the sixteenth ACM CIKM conference, pages 919–922 ACM

[13] Jing Liu, Young-In Song, and Chin-Yew Lin (2011), “Competition-based user expertise score estimation”, Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval, pages 425–434, ACM

[14] Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd (1999), “The pagerank citation ranking: Bringing order to the web”, Technical Report 1999-66, Stanford InfoLab, SIDL-WP-1999-0120 [15] Gerard Salton and Michael J McGill (1986), “Introduction to Modern Information Retrieval”, McGraw-Hill, Inc., New York, NY, USA [16] Franz Josef Och and Hermann Ney (2003), “A systematic comparison

of various statistical alignment models”, Comput Linguist., 29:19–51, March

[17] David M Blei, Andrew Y Ng, and Michael I Jordan (2003), “Latent dirichlet allocation”, J Mach Learn Res., 3:993–1022, March [18] Fangtao Li, Yang Gao, Shuchang Zhou, Xiance Si, and Decheng Dai (2013), “Deceptive Answer Prediction with User Preference Graph”, Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, pages 1723–1732, ACL

Định dạng
Số trang	5
Dung lượng	529,05 KB