Bài viết trình bày cách phân loại các câu trả lời giả mạo trên các trang web hỏi đáp cộng đồng thông qua mối quan hệ người dùng. Các thử nghiệm được làm với hai bộ dữ liệu được thu thập từ trang Yahoo hỏi đáp và Facebook. Kết quả cho thấy việc sử dụng quan hệ người dùng cho phép phân loại tốt hơn các phương pháp phân loại dựa vào văn bản. Mời các bạn cùng tham khảo!
Trang 1Phân Loại Câu Trả Lời Giả Mạo Trên Các Trang Web Hỏi Đáp Cộng Đồng Dựa Vào Quan Hệ Người Dùng
Nông Thị Hoa, Quách Xuân Trưởng, Nguyễn Thùy Linh, Vũ Thị Thúy Thảo, Nguyễn Xuân Hưng
Trường Đại học Công nghệ thông tin & Truyền thông, Đại học Thái Nguyên Email: nongthihoa@gmail.com, qxtruong@ictu.edu.vn, gianglinhtn@gmail.com,vttthao@ictu.edu.vn, nxhung@ictu.edu.vn
Abstract – Việc xuất hiện các câu trả lời giả mạo (câu trả lời có
chứa thông tin quảng cáo) trên các trang web hỏi đáp cộng đồng
sẽ làm giảm sự tin tưởng của người dùng đối với các tri thức của
trang Vì vậy, nhu cầu loại bỏ các câu trả lời giả mạo này là hết
sức cần thiết Hiện nay, các tiếp cận thường tập trung vào phân
loại dựa trên đặc điểm văn bản và ngữ cảnh Dựa vào hoạt động
của các trang web hỏi đáp, các người dùng tốt thường thích hoặc
bầu chọn các câu trả lời xác thực Ngược lại, người dùng chuyên
đăng quảng cáo thường thích hoặc bầu chọn các câu trả lời có
chứa quảng cáo Vì vậy, việc dùng mối quan hệ này để phân loại
các câu trả lời sẽ tăng thêm khả năng tìm được các câu trả lời giả
mạo Trong bài báo này, chúng tôi trình bày cách phân loại các
câu trả lời giả mạo trên các trang web hỏi đáp cộng đồng thông
qua mối quan hệ người dùng Các thử nghiệm được làm với hai
bộ dữ liệu được thu thập từ trang Yahoo hỏi đáp và Facebook
Kết quả cho thấy việc sử dụng quan hệ người dùng cho phép
phân loại tốt hơn các phương pháp phân loại dựa vào văn bản
Keywords – Câu trả lời giả mạo, quan hệ người dùng, phân
loại câu trả lời, trang web hỏi đáp cộng đồng, phân loại
I. GIỚI THIỆU Hiện nay, các trang web hỏi-đáp cộng đồng, chẳng hạn
như Yahoo! Hỏi & Đáp và WikiAnswers, đã trở thành một
trong những phương pháp thu thập thông tin quan trọng nhất
Ngoài các công cụ tìm kiếm web có mục đích chung, các trang
web hỏi-đáp cộng đồng đã trở lên phổ biến, có hiệu quả và trở
thành phương tiện tìm kiếm thông tin trên web Hiện nay có
hàng trăm triệu câu trả lời và hàng triệu câu hỏi tích lũy trên
các trang web hỏi-đáp cộng đồng Các nguồn tài nguyên của
câu hỏi và câu trả lời trước đây được chứng minh là một cơ sở
tri thức có giá trị Từ các trang web hỏi-đáp cộng đồng, người
dùng có thể trực tiếp nhận được các câu trả lời để đáp ứng một
số nhu cầu thông tin cụ thể Do đó, trong những năm gần đây,
khai thác kiến thức trong các trang web hỏi-đáp cộng đồng đã
trở thành một chủ đề phổ biến trong lĩnh vực trí tuệ nhân tạo
Tuy nhiên, một số câu trả lời có thể là giả mạo Các trang
web hỏi-đáp cộng đồng có hàng triệu người dùng mỗi ngày
Do các câu trả lời có thể chỉ dẫn hành vi của người dùng nên
một số người dùng độc hại đã cố ý cung cấp câu trả lời giả
mạo để quảng cáo sản phẩm hoặc dịch vụ
Câu trả lời giả mạo gây ra nhiều vấn đề đặc biệt là gây
hiểu lầm cho người dùng và làm người dùng đưa ra quyết định
sai Về phía cộng đồng hỏi-đáp, các câu trả lời giả mạo sẽ làm
tổn hại sức mạnh của các trang web hỏi-đáp cộng đồng Một
trang web hỏi-đáp cộng đồng mà không có kiểm soát các câu
trả lời giả mạo thì chỉ có lợi nhưng kẻ gửi thư rác mà không
giúp được gì cho người hỏi Nếu người hỏi bị lừa bởi các câu trả lời giả mạo thì người hỏi sẽ không tin tưởng và ko ghé thăm trang web nữa Vì vậy, một nhiệm vụ cơ bản là phân loại để lọc ra những câu trả lời giả mạo
Trong bài báo này, chúng tôi trình bày cách phân loại các câu trả lời giả mạo trên các trang web hỏi đáp cộng đồng thông qua mối quan hệ người dùng Dựa vào đặc điểm: các người dùng tốt thường thích hoặc bầu chọn các câu trả lời xác thực còn người dùng chuyên đăng quảng cáo thường thích hoặc bầu chọn các câu trả lời có chứa quảng cáo Việc phân loại các câu trả lời được thực hiện qua hai bước: (i) Phân loại dựa trên các thuộc tính về văn bản thu được tập các câu trả lời giả mạo và tập các câu trả lời xác thực; (ii) Phân loại dựa trên quan hệ người dùng đối với các câu được xếp loại là xác thực
ở bước trước
Bài báo được tổ chức thành các phần sau: trong phần II, chúng tôi tổng kết các nghiên cứu liên quan Phần III trình bày các đặc điểm của câu trả lời Tiếp theo, quan hệ người trong phân loại câu trả lời được mô tả chi tiết trong phần IV Phần V thể hiện các kết quả thực nghiệm Cuối cùng, kết luận được đưa ra trong Phần VI
II. CÁC NGHIÊN CỨU LIÊN QUAN Trong vài năm qua, tìm câu trả lời trên các trang web
đã trở thành một nhiệm vụ phổ biến để khai thác kiến thức từ các trang web hỏi đáp cộng đồng Các nghiên cứu gồm lấy các cặp câu hỏi - câu trả lời đã tích lũy để tìm câu trả lời liên quan cho một câu hỏi mới, tổng hợp các câu trả lời để cung cấp một kết quả chính xác [1][2][3][4][5][6] Tuy nhiên, việc phát hiện các câu trả lời giả mạo chưa được quan tâm thực sự Nếu thu thập một tập hợp câu hỏi – câu trả lời có nhiều câu trả lời giả mạo thì kiến thức thu được sẽ vô nghĩa Do đó, bước đầu tiên
là dự đoán để lọc ra những câu trả lời giả mạo Một số nghiên cứu khác tập trung vào dự đoán chất lượng câu trả lời [7] [8] [9][10]
Tuy nhiên, có sự khác biệt đáng kể giữa dự đoán chất lượng câu trả lời và dự đoán câu trả lời giả mạo Dự đoán chất lượng câu trả lời sẽ đo chất lượng tổng thể của câu trả lời, thông qua tính chính xác, tính dễ đọc và đầy đủ của các câu trả lời Trong khi dự đoán câu trả lời giả mạo dự đoán mục đích của các câu trả lời có chứa quảng cáo hay không Một số nghiên cứu [7][10][11] xem việc chọn “câu trả lời tốt nhất” như câu trả lời chất lượng cao mà được chọn bởi người hỏi trong các trang web hỏi đáp cộng đồng Tuy nhiên, câu trả lời giả mạo có thể được lựa chọn là câu trả lời chất lượng cao bởi
ISBN: 978-604-67-0635-9
Trang 2các người dùng độc hại, hoặc vì người dùng hiểu lầm Trong
khi đó, một số câu trả lời từ những người không phải người
bản xứ có thể có lỗi ngôn ngữ mà làm cho câu trả lời có chất
lượng thấp nhưng vẫn là câu trả lời xác thực
Một số nghiên cứu cũng dùng đồ thị người dùng để nghiên
cứu các mối quan hệ người dùng [12][13] Các nghiên cứu chủ
yếu xây dựng các đồ thị người dùng với mối quan hệ người
hỏi-người trả lời để ước tính số điểm chuyên môn với quan
điểm người trả lời có hiểu biết hơn người hỏi Tuy nhiên, bài
toán này không quan tâm người dùng nào có kiến thức hơn,
mà cho biết cả hai người dùng là hai kẻ gửi thư rác hoặc hai
người dùng xác thực Vì vậy, mối quan hệ giữa các người
dùng mới được đưa vào để nâng cao chất lượng phân loại câu
trả lời giả mạo Lý do là người gửi thư rác đưa ra câu trả giả
mạo và thăng cấp các câu trả giả mạo còn người dùng xác thực
thường gửi các câu trả lời xác thực và giáng cấp các câu trả lời
giả mạo Quan hệ giữa người dùng được xây dựng dựa trên
đánh giá câu trả lời của người dùng khác là “hữu ích” hoặc lựa
chọn là “câu trả lời tốt nhất”
III. CÁC ĐẶC TRƯNG CỦA CÂU TRẢ LỜI
Đầu tiên, xem việc dự đoán câu trả lời giả mạo là một vấn
đề phân loại nhị phân Hai loại thuộc tính của câu trả lời được
dùng trong phân loại gồm các thuộc tính theo văn bản và các
thuộc tính theo ngữ cảnh
A Các thuộc tính theo văn bản
Đầu tiên, dự đoán câu trả lời giả mạo bằng cách phân tích
nội dung câu trả lời Một số thuộc tính theo văn bản được lấy
ra từ nội dung câu trả lời
1) Unigrams và Bigrams
Loại phổ biến nhất của thuộc tính để phân loại văn bản là
túi từ (bag of words) Sử dụng các phương pháp lựa chọn
thuộc tính để chọn 200 từ đơn và từ ghép như thuộc tính về từ
Danh sách các từ này có liên quan đến mục đích quảng cáo
gồm: chuyên nghiệp, dịch vụ, khuyên dùng, địa chỉ, số điện
thoại, email, điều trị, giới thiệu, hoàn hảo, tốt nhất, tel, mobile,
address, phone, liên hệ, dt, điện thoại
2) Các thuộc tính URL
Một số người dùng độc hại có thể quảng bá sản phẩm bằng
cách liên kết với một URL Do đó, URL là thể hiện tốt cho câu
trả lời giả mạo Tuy nhiên, một số URL có thể cung cấp các tài
liệu tham khảo cho câu trả lời xác thực Ví dụ, nếu hỏi thời tiết
ở vùng núi, một người nào đó chỉ có thể gửi liên kết đến
“http://www.weather.com/" Vì vậy, bên cạnh sự tồn tại của
URL, cần sử dụng thêm thuộc tính URL sau đây:
- Chiều dài của các URL: các URL dài có nhiều khả năng
là rác
- Điểm xếp hạng trang: sử dụng số điểm xếp hạng trang
của mỗi URL như điểm phổ biến [14] Trang có độ phổ
biến ít là trang có trong câu trả lời giả mạo
3) Số điện thoại và email
Câu trả lời giả mạo thường có nhiều thông tin liên lạc như
số điện thoại, địa chỉ và email Câu trả lời xác thực ít tham
khảo đến số điện thoại hoặc địa chỉ email hơn Số lần xuất
hiện của email và số điện thoại được coi như một thuộc tính
4) Chiều dài
Theo quan sát, các câu trả lời giả mạo thường dài hơn các câu trả lời xác thực bởi vì câu trả lời giả mạo được chuẩn bị tốt để quảng cáo các mục tiêu Vì vậy, số từ và số câu trong các câu trả lời được xét như một thuộc tính
B Các thuộc tính theo ngữ cảnh
Bên cạnh các thuộc tính theo văn bản, có thể xem xét đến các thuộc tính khác từ ngữ cảnh của câu trả lời
1) Sự liên quan giữa câu hỏi và câu trả lời
Đặc điểm chính của câu trả lời trong trang web hỏi-đáp cộng đồng là câu trả lời được cung cấp để trả lời câu hỏi tương ứng Vì vậy, câu hỏi tương ứng được dùng như một thuộc tính ngữ cảnh bằng cách đo sự liên quan giữa các câu trả lời và câu hỏi Ba mô hình phổ biến được dùng để xác định sự liên quan giữa câu hỏi và câu trả lời:
Mô hình không gian vector
Mỗi câu trả lời hoặc câu hỏi được xem như là một vector
từ Cho một câu hỏi q và câu trả lời a, mô hình vector sử dụng
bộ đếm từ có trọng số và sự tương tự cosine của các vector từ như là một hàm liên quan [15]
Tuy nhiên, mô hình vector chỉ xem xét sự đối chiếu từ chính xác trong khi các câu hỏi và câu trả lời thường là ngắn hơn so với tài liệu Ví dụ, Hà nội và thủ đô của Việt Nam là cùng một thành phố Nhưng mô hình vector sẽ cho thấy chúng phải khác nhau
Mô hình dịch
Một mô hình dịch là một mô hình toán học mà việc dịch ngôn ngữ được mô hình hóa dựa trên các thống kê dữ liệu Khả năng dịch một câu nguồn (câu trả lời) sang câu mục tiêu (câu hỏi) thu được bằng cách gióng các từ để cực đại tích xác suất các từ Với mô hình dịch, có thể tính điểm dịch cho câu hỏi và câu trả lời mới
Mô hình chủ đề
Để giảm lỗi đối chiếu từ trong mô hình vector, dùng mô hình chủ đề để mở rộng việc đối chiếu ngữ nghĩa của chủ đề
Mô hình chủ đề xem xét một tập hợp các tài liệu với các chủ
đề [17] Về bản chất, mô hình ánh xạ thông tin từ số chiều của
từ sang số chiều chủ đề ngữ nghĩa
2) Các thuộc tính về hồ sơ của người dùng
Từ số liệu thống kê hoạt động của người dùng, các thuộc tính về hồ sơ cá nhân được xây dựng bao gồm mức độ sử dụng các trang web hỏi-đáp cộng đồng, số lượng câu hỏi, số lượng câu trả lời, và tỷ lệ câu trả lời tốt nhất
3) Điểm thẩm quyền của người dùng
Các chuyên gia tìm kiếm nhiệm vụ thực hiện chấm điểm thẩm quyền cho mỗi người dùng [5][12][13] Điểm này biểu thị số điểm chuyên môn của người dùng Để tính điểm thẩm quyền, đầu tiên cần xây dựng một đồ thị có hướng thể hiện sự tương tác của người dùng trong cộng đồng Mỗi nút của đồ thị biểu diễn cho một người dùng Một cạnh giữa hai người dùng chỉ hình thành khi người dùng này trả lời câu hỏi của người dùng kia Trọng lượng của một cạnh cho biết số tương tác
4) Các thuộc tính tự động
Loại thứ ba của thuộc tính liên quan đến tác giả được sử dụng để phát hiện xem tác giả có là một robot được lập trình
để gửi câu trả lời tự động Theo quan sát, sự phân phối thời gian gửi bài trả lời rất khác nhau giữa người dùng và robot
Trang 3
Robot có thể gửi câu trả lời liên tục nên khoảng thời gian giữa
hai câu trả lời là nhỏ hơn người dùng thực bởi vì con người
cần thời gian để suy nghĩ và xử lý giữa hai bài viết
5) Đánh giá từ người dùng khác
Trên các trang web hỏi-đáp cộng đồng, người dùng có thể
bày tỏ ý kiến hoặc đánh giá các câu trả lời Ví dụ, người hỏi có
thể chọn câu trả lời tốt nhất Ngoài ra, người dùng có thể dán
nhãn cho mỗi câu trả lời là “hữu ích” hoặc “không hữu ích”
Đánh giá của người dùng khác được tính theo tỷ lệ giữa số
phiếu bầu “hữu ích” trên số tổng số phiếu bầu
6) Sao chép các câu trả lời
Người dùng xấu có thể gửi các tài liệu quảng bá sản phẩm
được viết trước cho nhiều câu trả lời, hoặc chỉ thay đổi tên sản
phẩm Xét sự tương đồng giữa các câu trả lời cho thấy nếu hai
câu trả lời là giống nhau nhưng câu hỏi là khác nhau thì các
câu trả lời đó là giả mạo
IV. DỰ ĐOÁN CÂU TRẢ LỜI GIẢ MẠO DỰA VÀO
MỐI QUAN HỆ NGƯỜI DÙNG
Bên cạnh các thuộc tính theo văn bản và các thuộc tính
theo ngữ cảnh, mối quan hệ của người dùng cũng được dùng
để dự đoán câu trả lời giả mạo Giả sử, người dùng tương tự
có xu hướng thực hiện hành vi tương tự (cùng gửi câu trả lời
giả mạo hoặc cùng đăng câu trả lời xác thực) Đầu tiên, cần
xác định mối quan hệ của người dùng thông qua phiếu bầu của
các người dùng về câu trả lời Sau đó, dùng mối quan hệ người
dùng để dự đoán câu trả lời giả mạo
A Xác định mối quan hệ người dùng
Cho một câu hỏi Q1, sẽ có một số câu trả lời cho Q1 từ
những người dùng khác nhau Hai người dùng U1 và U2 có
mối quan hệ nếu ở một trong các trường hợp sau:
(i) Người dùng U1trả lời một câu hỏi Q1 Người dùng U2
bình chọn câu trả lời của người dùng U1 là “hữu ích” hoặc
“không hữu ích”;
(ii) Người dùng U2trả lời một câu hỏi Q1 Người dùng U1
bình chọn câu trả lời của người dùng U2 là “hữu ích” hoặc
“không hữu ích”; và
(iii) Cả người dùng U1và người dùng U2 cùng bình chọn
một câu trả lời A1 của một người dùng khác là “câu trả lời tốt
nhất”
Hình 1: Ví dụ về quan hệ người dùng
Ví dụ: người hỏi, u1, hỏi một câu Sau đó, người dùng u2
và u3trả lời cho câu hỏi này Sau khi câu trả lời được cung
cấp, người dùng u4 và u5 bầu chọn câu trả lời đầu tiên là
“không hữu ích”, và người dùng u6bỏ phiếu câu trả lời thứ hai
là “hữu ích” Cuối cùng, người hỏi u1đã chọn câu trả lời đầu tiên là “câu trả lời tốt nhất” Do người dùng u4và u5cùng đưa
ra đánh giá “không hữu ích” đối với câu trả lời đầu tiên nên hai người dùng này có quan hệ với nhau
Về phía đánh giá “hữu ích” thực sự, giả sử tác giả của câu trả lời cho đánh giá “hữu ích” đối với câu trả lời của mình Sau đó, nếu người dùng u6đưa ra đánh giá “hữu ích” với câu trả lời thứ hai của người dùng u3thì người dùng u6có quan hệ với người dùng u3
Tiếp tục xác định quan hệ người dùng với lựa chọn “câu trả lời tốt nhất” Nếu người hỏi đã chọn “câu trả lời tốt nhất” trong tất cả các câu trả lời thì người hỏi có quan hệ với tác giả của “câu trả lời tốt nhất” Theo ví dụ, người dùng u1có quan
hệ với người dùng u2 Trong các trang web hỏi đáp cộng đồng, kẻ gửi thư rác chủ yếu quảng cáo các sản phẩm mục tiêu bằng cách đưa ra các câu trả lời giả mạo Kẻ gửi thư rác có thể làm cho câu trả lời giả mạo trông có vẻ thật, bằng cách bầu chọn cho chúng là câu trả lời chất lượng cao, hoặc lựa chọn chúng như là “câu trả lời tốt nhất" Tuy nhiên, người dùng xác thực thường có đánh giá riêng cho các câu trả lời xác thực và các câu trả lời giả mạo
Vì vậy, việc đánh giá đối với các câu trả lời phản ánh mối quan hệ người dùng Tuy nhiên, vẫn có các quan hệ nhiễu khi người dùng xác thực bị lừa và chọn câu trả lời giả mạo là “câu trả lời tốt nhất"
B Kết hợp mối quan hệ người dùng và các thuộc tính về văn bản để phân loại các câu trả lời giả mạo
Ý tưởng dùng quan hệ người dùng để phân loại câu trả lời giả mạo đã được trình bày chi tiết trong [18] Trong nghiên cứu này, đồ thị quan hệ người dùng được xây dựng với trọng
số cạnh thể hiện mức quan hệ giữa hai người dùng và dùng hàm mục tiêu để cực tiểu sự khác biệt khi xác thực câu trả lời của các người dùng có quan hệ Do đó, kết quả phân loại sẽ có
độ chính xác cao nhưng đòi hỏi tính toán phức tạp hơn Chúng đề xuất thủ tục phân loại đơn giản hơn dựa trên ý tưởng của nghiên cứu trên Do việc xây dựng quan hệ người dùng đơn giản hơn nên độ chính xác của kết quả phân loại sẽ giảm so với phương pháp nêu trên
1) Thủ tục phân loại câu trả lời
Trong thủ tục này, người dùng có quan hệ với người dùng độc hại cũng xem như người dùng độc hại Việc phân loại câu trả lời giả mạo được thực hiện qua các bước sau:
Bước 1: Phân loại các câu hỏi dựa trên các thuộc tính về
văn bản để lọc ra các câu trả lời giả mạo Với mỗi câu trả lời giả mạo thu được, lấy tác giả của câu trả lời đưa vào danh sách các người dùng độc hại
Bước 2: Với các câu trả lời còn lại, làm hai bước sau:
Bước 2.1: Tìm ra các người dùng có quan hệ với người
dùng độc hại trong danh sách thu được ở Bước 1 theo cách xác định trong phần 4 mục A nếu số lần có cùng quan
điểm vượt qua ngưỡng q với q nguyên dương Điều này để
tránh khi người dùng xác thực bị lừa bởi người dùng độc hại do chưa xem xét kỹ thông tin câu trả lời đã bình chọn
Bước 2.2: Phân loại câu trả lời là giả mạo nếu người trả
lời là người dùng độc hại Các câu trả còn lại là câu trả lời xác thực
Trang 4
2) Ưu điểm và nhược điểm
Thủ tục đề xuất có tốc độ xử lý nhanh do các phương thức
phát hiện câu trả lời giả mạo từ các thuộc tính về văn bản là
khá đơn giản Hơn nữa, việc xác định mối quan hệ người dùng
cũng dễ thực hiện chỉ bởi các phép so sánh
Do thủ tục đạt được tốc độ xử lý nhanh nên chất lượng
phân loại sẽ bị giảm vì một số câu trả lời giả mạo vẫn được coi
là các câu trả lời thật do chưa xét hết các thuộc tính liên quan
đến ngữ cảnh và mối quan hệ giữa người dùng chỉ ở mức đơn
giản Nếu mối quan hệ người dùng được xây dựng tốt hơn
gồm các thông tin về trọng số của các mối quan hệ thì giải
quyết tốt hơn các mối quan hệ còn nhập nhằng Ví dụ một
người dùng có nhiều quan hệ với nhiều người dùng xác thực
hơn quan hệ với người dùng độc hại thì được coi là người
dùng xác thực Với thủ tục trên, khi số lần người dùng xác
thực đồng ý với ý kiến của người dùng độc hại vượt qua một
ngưỡng nhất định thì vẫn bị coi là người dùng độc hại
V. KẾT QUẢ THỰC NGHIỆM
Trong bài báo này, các thực nghiệm được làm trên hai tập
dữ liệu được thu thập trừ trang Yahoo hỏi-đáp Việt Nam và
nhóm IELTS SHARE của Facebook Với mỗi câu trả lời,
chúng tôi tiến hành gán nhãn là giả mạo hay xác thực dựa vào
nội dung câu hỏi và nội dung câu trả lời
Với mỗi tập dữ liệu, thực hiện phân loại theo 5 cách sau:
độ dài câu trả lời, danh sách các từ thường dùng trong quảng
cáo, địa chỉ URL, tổng hợp cả ba thuộc tính văn bản và thủ tục
đề xuất Để đánh giá hiệu quả phân loại, tỷ lệ phần trăm phân
loại đúng được dùng cho các câu trả lời giả mạo, các câu trả
lời xác thực, và trên toàn tập dữ liệu
A Thực nghiệm với tập dữ liệu từ Yahoo hỏi-đáp
Tập dữ liệu gồm 832 mẫu được thu thập từ nhiều chủ đề
khác nhau trên trang Yahoo hỏi-đáp Việt Nam Trong đó, có
88 mẫu là câu trả lời giả mạo và 744 mẫu là câu trả lời xác
thực Bảng 1 thể hiện quan hệ người dùng thu được từ tập số
liệu
Bảng 1: Các quan hệ người dùng trong tập dữ liệu từ Yahoo
Người trả lời Người thích/chọn là câu trả lời hay nhất
Viet Bup Be Mat troi Xanh, KYNGVI
ngocn nam viet, thi, hung, uyên
Hưng Lê đức huệ, Xuan Thien,
Các tham số chọn cho các thuộc tính về văn bản dùng
trong thực nghiệm gồm:
x Số từ trong câu trả lời quá 80 từ
x Câu trả lời chứa các từ liên quan đến quảng cáo gồm chuyên nghiệp, dịch vụ, khuyên dùng, địa chỉ, số điện thoại, email, điều trị, giới thiệu, hoàn hảo, tốt nhất, tel, mobile, address, phone, liên hệ, dt, điện thoại x Với địa chỉ URL, chỉ xét phần địa chỉ đầu tiên gắn với tên miền Các địa chỉ chia thành 3 nhóm: bắt đầu bằng www thì độ dài lớn hơn 10 ký tự, bắt đầu bằng http:// thì độ dài lớn hơn 17 ký tự, bắt đầu bằng https:// thì độ dài lớn hơn 18 ký tự
Kết quả thực nghiệm được trình bày trong Bảng 2 Số liệu trong Bảng 2 cho thấy thủ tục đề xuất cải thiện đáng kể khả năng phát hiện các câu trả giả mạo so với kết quả phân loại theo các thuộc tính văn bản
Bảng 2: Tỷ lệ % phân loại đúng với tập dữ liệu từ Yahoo
Giả mạo Xác thực Tổng thể
B Thực nghiệm với tập dữ liệu từ Facebook
Tập dữ liệu gồm 250 mẫu được thu thập từ nhóm IELTS SHARE của Facebook – Nơi hỏi đáp về các tài liệu học tiếng anh trình độ IELTS Trong đó, có 31 mẫu là câu trả lời giả mạo
và 219 mẫu là câu trả lời xác thực Bảng 3 thể hiện một số quan
hệ người dùng thu được từ tập số liệu
Bảng 3: Các quan hệ người dùng trong tập dữ liệu từ Facebook Người trả lời Người thích câu trả lời
Đỗ Trọng Thiêm
Thanh Hồ, Phương Mai, Dung Trinh,Yoo
Su, Linh Chan, Len Pham, Nguyễn Đức Nghĩa, Hằng Nga, Nguyễn Thảo, Dương Trịnh
Hồ Trọng Đại Tuyết Anh, Linh Sogogi, Phương Thảoo Ngo Bla
Phuong Anh Bùi, Link Chee Twig, Trần Thanh Phương, Trần Thảo Ngọc, Tuyết Anh, Trâm Nguyễn, Nguyễn
Thảo,Phương Thảoo, Nguy Hiểm
Nguyễn Ngọc Trung
Phạm Ngọc Diệp, Chi Phan, Phan Thị Ngọc Phú, Hạ Nhật, Thân Hương, Mun Mun, AnhThu Tran,Kỵ Sỹ Văn Trần, Mai Anh BaeKarry
Hoàng Phúc Mun Mun, Ha Cuong, Dương Trịnh, Phạm Ngọc Diệp, Thân Hương
Trang 5
Kết quả thực nghiệm trong Bảng 4 cũng cho thấy thủ tục
cải tiến tăng mạnh khả năng phát hiện các câu trả giả mạo so
với kết quả phân loại theo các thuộc tính văn bản
Bảng 4: Tỷ lệ % phân loại đúng với tập dữ liệu từ Facebook
Giả mạo Xác thực Tổng thể
VI. KẾT LUẬN Trong bài báo này, một thủ tục dự đoán các câu trả lời giả
mạo trong các trang web hỏi đáp cộng đồng đưoạc đưa ra Với
hai tập dữ liệu đánh nhãn bằng tay, đầu tiên thực hiện dự đoán
các câu trả lời giả mạo dựa vào các thuộc tính về văn bản và
thành lập danh sách các người dùng độc hại dựa trên các đánh
giá của người dùng đối với các câu trả lời Tiếp theo, xác định
các người dùng có với các người dùng độc hại trong danh
sách Cuối cùng, áp dụng quan hệ người dùng để phân loại các
câu trả lời Các thực nghiệm trên hai tập dữ liệu lấy từ Yahoo
và Facebook cho thấy việc sử dụng quan hệ người dùng cải
thiện đáng kể độ chính xác trong việc dự đoán câu trả lời giả
mạo
Độ chính xác của dự đoán câu trả lời giả mạo còn có thể
cải thiện khi kết hợp thêm nhiều thuộc tính trong khi phân
loại Hơn nữa, việc dự đoán các chủ đề của hàng loạt câu hỏi
giả mạo và phát hiện nhóm người dùng độc hại cũng là các
nhiệm vụ quan trọng trong tương lai
TÀI LIỆU THAM KHẢO
[1] Jiwoon Jeon, W Bruce Croft, and Joon Ho Lee (2005), “Finding similar
questions in large question and answer archives” in Proceedings of the
14th ACM CIKM conference, 05, pages 84–90, NY, USA ACM
[2] Lada A Adamic, Jun Zhang, Eytan Bakshy, and Mark S Ackerman
(2008), “Knowledge sharing and yahoo answers: everyone knows
something”, Proceedings of the 17th international conference on World
Wide Web, WWW ’08, pages 665–674, New York, NY, USA ACM
[3] Yuanjie Liu, Shasha Li, Yunbo Cao, Chin-Yew Lin, Dingyi Han, and
Yong Yu (2008), “Understanding and summarizing answers in
community-based question answering services”, Proceedings of the
22nd International Conference on Computational Linguistics - Volume
1, COLING ’08, pages 497– 504, Stroudsburg, PA, USA Association for Computational Linguistics
[4] Young-In Song, Chin-Yew Lin, Yunbo Cao, and HaeChang Rim (2008),
“Question utility: a novel static ranking of question search” Proceedings
of the 23rd national conference on Artificial intelligence - Volume 2, AAAI’08, pages 1231–1236 AAAI Press
[5] X Si, Z Gyongyi, and E Y Chang (2010), “Scalable mining of topic-dependent user reputation for improving user generated content search quality”, In Google Technical Report
[6] A Figueroa and J Atkinson (2011), “Maximum entropy context models for ranking biographical answers to open-domain definition questions”, Twenty-Fifth AAAI Conference on Artificial Intelligence
[7] Y.I Song, J Liu, T Sakai, X.J Wang, G Feng, Y Cao, H Suzuki, and C.Y Lin (2010), “Microsoft research asia with redmond at the ntcir-8 community QA pilot task”, Proceedings of NTCIR
[8] F Maxwell Harper, Daphne Raban, Sheizaf Rafaeli, and Joseph A Konstan (2008), “Predictors of answer quality in online q&a sites”, Proceedings of the twenty-sixth annual SIGCHI conference on Human factors in computing systems, CHI ’08, pages 865– 874, New York, NY, USA ACM
[9] Chirag Shah and Jefferey Pomerantz (2010), “Evaluating and predicting answer quality in community QA”, Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval, SIGIR ’10, pages 411–418, New York, NY, USA ACM [10] Daisuke Ishikawa, Tetsuya Sakai, and Noriko Kando (2010), “Overview
of the NTCIR-8 Community QA”, Pilot Task (Part I): The Test Collection and the Task, pages 421–432 Number Part I
[11] Jiang Bian, Yandong Liu, Ding Zhou, Eugene Agichtein, and Hongyuan Zha (2009), “Learning to recognize reliable users and content in social media with coupled mutual reinforcement”, Proceedings of the 18th international conference on World wide web, WWW ’09, pages 51–60,
NY, USA ACM [12] P Jurczyk and E Agichtein (2007), “Discovering authorities in question answer communities by using link analysis”, Proceedings of the sixteenth ACM CIKM conference, pages 919–922 ACM
[13] Jing Liu, Young-In Song, and Chin-Yew Lin (2011), “Competition-based user expertise score estimation”, Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval, pages 425–434, ACM
[14] Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd (1999), “The pagerank citation ranking: Bringing order to the web”, Technical Report 1999-66, Stanford InfoLab, SIDL-WP-1999-0120 [15] Gerard Salton and Michael J McGill (1986), “Introduction to Modern Information Retrieval”, McGraw-Hill, Inc., New York, NY, USA [16] Franz Josef Och and Hermann Ney (2003), “A systematic comparison
of various statistical alignment models”, Comput Linguist., 29:19–51, March
[17] David M Blei, Andrew Y Ng, and Michael I Jordan (2003), “Latent dirichlet allocation”, J Mach Learn Res., 3:993–1022, March [18] Fangtao Li, Yang Gao, Shuchang Zhou, Xiance Si, and Decheng Dai (2013), “Deceptive Answer Prediction with User Preference Graph”, Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, pages 1723–1732, ACL