1. Trang chủ
  2. » Giáo Dục - Đào Tạo

MỘT số PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH đặc điểm NGƯỜI DÙNG TRÊN MẠNG INTERNET tt

28 200 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 28
Dung lượng 608,77 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Luận án này thực hiện các nghiên cứu trên cả hai lĩnh vực: xác định đặc điểm tác giả văn bản và xác định đặc điểm người dùng dựa trên hành vi.. Các nghiên cứu về xác định đặc điểm người

Trang 1

BỘ THÔNG TIN VÀ TRUYỀN THÔNG

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Dương Trần Đức

MỘT SỐ PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG TRÊN MẠNG INTERNET

Chuyên ngành: Kỹ thuật máy tính

Mã số: 9.48.01.06

TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT

Hà Nội – Năm 2018

Trang 2

Công trình được hoàn thành tại: Học viện Công nghệ Bưu chính Viễn thông

Trang 3

MỞ ĐẦU

Ngày nay, chỉ với một thiết bị được kết nối đến mạng Internet, người dùng có thể dễ dàng sử dụng các kênh trao đổi thông tin như website, email, diễn đàn, mạng xã hội, hoặc các dịch vụ khác như tìm kiếm thông tin, thương mại điện tử (TMĐT) v.v Một đặc điểm chung của các hệ thống này là không bắt buộc người dùng cung cấp chính xác thông tin cá nhân khi sử dụng Việc này nhằm khuyến khích người dùng trong quá trình sử dụng, tuy nhiên cũng tạo ra một

số vấn đề như người dùng nặc danh hoặc giả mạo, hay việc cá nhân hóa hệ thống nhằm tăng trải nghiệm cho người dùng, thúc đẩy bán hàng, quảng cáo trực tuyến khó được thực hiện một cách hiệu quả

Do đó, xác định đặc điểm người dùng là một trong những mối quan tâm hàng đầu của các nhà cung cấp dịch vụ trên mạng Internet Tuy nhiên, có nhiều người dùng không tự tiết lộ các thông tin cá nhân do các vấn đề về an toàn và riêng tư Vì vậy, để có được thông tin cá cá nhân người dùng, cần phải dự đoán từ các “dấu vết” người dùng để lại trên hệ thống, có thể là các văn bản hoặc các hành vi ngườ dùng

đã thực hiện

Luận án này thực hiện các nghiên cứu trên cả hai lĩnh vực: xác định đặc điểm tác giả văn bản và xác định đặc điểm người dùng dựa trên hành vi Các nghiên cứu về xác định đặc điểm tác giả văn bản được thực hiện trên các văn bản tiếng Việt là loại ngôn ngữ chưa được nghiên cứu nhiều Các nghiên cứu về xác định đặc điểm người dùng dựa trên hành vi được thực hiện trên dữ liệu của hệ thống thương mại điện tử, là loại hệ thống có nhu cầu cao trong việc cá nhân hóa nhằm giới thiệu sản phẩm và quảng cáo đúng mục tiêu

Trang 4

1 MỤC TIÊU CỦA LUẬN ÁN

Dựa trên nhu cầu thực tiễn và các kết quả nghiên cứu trước đây ở trong nước và quốc tế, luận án đặt ra các mục tiêu chính như sau:

- Nghiên cứu vấn đề xác định đặc điểm tác giả văn bản trên loại văn bản mới, chưa được nghiên cứu trước đây Nghiên cứu các phương pháp trích chọn đặc trưng mới cho vấn đề xác định đặc điểm tác giả văn bản, nhằm tăng độ chính xác hoặc tính độc lập trong quá trình nhận diện, có thể tận dụng các đặc điểm đặc thù của ngôn ngữ tiếng Việt

- Nghiên cứu vấn đề xác định đặc điểm người dùng dựa trên hành

vi trong các hệ thống có nhu cầu cá nhân hóa cao như hệ thống TMĐT Nghiên cứu, đề xuất các phương pháp trích chọn đặc trưng hiệu quả và các phương pháp phân loại phù hợp

2 PHẠM VI NGHIÊN CỨU

Xác định đặc điểm người dùng là một lĩnh vực rộng, trên cả khía cạnh loại người dùng và đặc điểm người dùng Luận án xác định các đối tượng người dùng trong các nghiên cứu là người dùng trên mạng Internet

Đối với nghiên cứu xác định đặc điểm người dùng dựa trên phân tích văn bản, luận án này thực hiện các nghiên cứu về xác định đặc điểm tác giả bài viết diễn đàn tiếng Việt với các đặc điểm nhận diện bao gồm giới tính, độ tuổi, nghề nghiệp, và vùng miền Xác định đặc điểm người dùng dựa trên phân tích hành vi có sự hạn chế trong vấn đề thu thập dữ liệu mẫu, luận án này chỉ thực hiện nghiên

Trang 5

cứu về dự đoán đặc điểm giới tính của khách hàng dựa trên dữ liệu truy cập hệ thống TMĐT

với các đặc trưng nội dung

Đóng góp trong lĩnh vực xác định đặc điểm người dùng dựa trên hành vi:

- Nghiên cứu vấn đề dự đoán giới tính khách hàng dựa trên

dữ liệu lịch sử truy cập hệ TMĐT Luận án nghiên cứu các phương pháp trích chọn đặc trưng và phân loại hiệu quả, trong đó đề xuất phương pháp trích chọn đặc trưng sử dụng biểu diễn dạng cây của danh sách sản phẩm và phân loại

4 BỐ CỤC CỦA LUẬN ÁN

Nội dung của luận án bao gồm 3 chương và một phụ lục Chương 1 khảo sát và đánh giá các công trình đã thực hiện trong lĩnh vực nghiên cứu của luận án Chương 2 trình bày về vấn đề xác định đặc điểm tác giả bài viết diễn đàn tiếng Việt, bao gồm phương pháp tiếp cận và các kết quả thực nghiệm Chương 3 mô tả các kết quả

Trang 6

nghiên cứu về dự đoán giới tính khách hàng dựa trên dữ liệu lịch sử truy cập hệ TMĐT Phần cuối của luận án trình bày các kết luận và hướng nghiên cứu tiếp theo Phần phụ lục trình bày về ứng dụng thử nghiệm dịch vụ xác định đặc điểm tác giả văn bản tiếng Việt

CHƯƠNG 1 TỔNG QUAN VỀ XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG

1.1 XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG THÔNG QUA

PHÂN TÍCH VĂN BẢN

Phân tích tác giả văn bản là quá trình phân tích một tài liệu để

có thể đưa ra các kết luận về tác giả của nó Lĩnh vực nghiên cứu về phân tích tác giả văn bản có thể chia làm các dạng thức như nhận diện tác giả (xác định xem một người có phải là tác giả của một văn bản không), xác định đặc điểm tác giả (chỉ ra các đặc điểm của người

đã tạo ra một văn bản cho trước), phát hiện văn bản cùng tác giả (so sánh các văn bản xem có phải được tạo ra bởi một tác giả không) Quá trình phân tích tác giả văn bản liên quan đến hai vấn đề chính,

đó là kỹ thuật phân tích và tập đặc trưng phân biệt Trong thời kỳ đầu, các kỹ thuật phân tích chủ yếu sử dụng các phương pháp đơn giản như bất biến đơn nhất (unitary invariant) và phân tích đa biến (multivariate analysis) Các phương pháp này có những hạn chế như khả năng xử lý số lượng lớn các đặc điểm hay sự ổn định trên nhiều lĩnh vực Để giải quyết các vấn đề này, các kỹ thuật học máy đã được nghiên cứu áp dụng Nhiều nghiên cứu về phân tích tác giả văn bản dựa trên các kỹ thuật học máy đã cho ra kết quả tốt, điển hình là các

Trang 7

thuật toán như máy véc tơ hỗ trợ (SVM - Support Vector Machine), mạng Bayes (Bayesian Networks), hay cây quyết định (Decision Trees)

Tập đặc trưng có thể được xem như một phương pháp biểu diễn văn bản trên khía cạnh phong cách viết hoặc cách sử dụng từ

Đã có nhiều tập đặc trưng được thử nghiệm và được chia làm hai loại chính: đặc đặc trưng về phong cách và đặc trưng dựa trên nội dung Đặc trưng về phong cách bao gồm các đặc điểm liên quan đến cách dùng ký tự, các tính chất từ (lexical), cách sử dụng các cấu trúc ngữ pháp (syntactic), hay về cấu trúc văn bản Đặc trưng dựa trên nội dung bao gồm các từ nhất định hoặc các nội dung đặc biệt được sử dụng thường xuyên trong lĩnh vực đó hơn là các lĩnh vực khác Các đặc trưng cũng có thể được phân loại thành các đặc trưng độc lập dữ liệu và phụ thuộc dữ liệu (liên quan đến quá trình xây dựng tập đặc trưng có cần tham chiếu đến tập dữ liệu hay không)

Mặc dù việc lựa chọn thuật toán học máy phù hợp là một vấn

đề quan trọng, các nghiên cứu trước đây cho thấy trong lĩnh vực phân tích tác giả văn bản, việc lựa chọn tập đặc trưng lại có tầm quan trọng cao hơn Do vậy, các nghiên cứu gần đây tập trung khai thác, tìm kiếm các loại đặc trưng mới cho vấn đề phân tích tác giả văn bản

1.2 NHẬN DIỆN ĐẶC ĐIỂM NGƯỜI DÙNG THÔNG QUA

PHÂN TÍCH HÀNH VI

Bên cạnh việc nhận diện người dùng thông qua phân tích văn bản, gần đây vấn đề nhận diện đặc điểm người dùng dựa trên phân tích hành vi cũng được quan tâm nhiều Việc nhận diện đặc điểm

Trang 8

người dùng qua hành vi đặc biệt hữu ích khi hệ thống không có các mẫu văn bản của người dùng để có thể áp dụng các kỹ thuật phân tích văn bản, chẳng hạn trên các hệ thống thiên về quản lý hành vi như hệ thống thương mại điện tử, hệ thống mạng di động v.v

Khác với vấn đề xác định đặc điểm tác giả văn bản, các đặc trưng hành vi của người dùng trên các hệ thống là đa dạng hơn nhiều

Do vậy, các nghiên cứu trong lĩnh vực này đã sử dụng các tập đặc trưng khác nhau và phụ thuộc vào các hệ thống cụ thể Phương pháp nhận diện chủ yếu sử dụng kỹ thuật học máy Các nghiên cứu cũng tập trung vào việc tìm kiếm các phương pháp xây dựng tập đặc trưng hiệu quả và thử nghiệm các kỹ thuật phân tích phù hợp

1.3 KẾT LUẬN CHƯƠNG

Chương này đã trình bày các nghiên cứu, khảo sát, đánh giá về các công trình trong lĩnh vực xác định đặc điểm người dùng dựa trên phân tích văn bản và phân tích hành vi Luận án thực hiện các nghiên cứu trên cả hai lĩnh vực này, bao gồm xác định đặc điểm tác giả bài viết diễn đàn tiếng Việt và xác định giới tính người dùng dựa trên dữ liệu lịch sử truy cập hệ thống TMĐT

CHƯƠNG 2 XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN

TIẾNG VIỆT

2.1 XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN TIẾNG VIỆT SỬ DỤNG CÁC ĐẶC TRƯNG CƠ BẢN

Trang 9

Nghiên cứu này thực hiện xác định đặc điểm tác giả bài viết diễn đàn tiếng Việt trên các đặc trưng cơ bản theo phong cách và một

số thuật toán học máy phổ biến Các đặc điểm cá nhân của tác giả bài viết được nhận diện bao gồm giới tính, độ tuổi, nghề nghiệp, và vùng miền Các loại đặc trưng cơ bản được khảo sát trong nghiên cứu này gồm các đặc trưng dựa trên ký tự và tính chất từ, đặc trưng ngữ pháp, đặc trưng cấu trúc Các thực nghiệm được thực hiện trên các tập con đặc trưng khác nhau để nghiên cứu sự phù hợp của từng loại đặc trưng với loại văn bản được nghiên cứu là bài viết diễn đàn tiếng Việt Sau khi các đặc trưng được trích chọn từ tập dữ liệu đã xử lý, các thuật toán học máy được áp dụng để xây dựng mô hình phân loại Các bước thực hiện xây dựng mô hình xác định đặc điểm tác giả bài viết diễn đàn tiếng Việt sử dụng học máy được mô tả như trong hình 2.1 Theo đó, các bài viết diễn đàn tiếng Việt đã có thông tin về đặc điểm người viết được thu thập từ Internet thông qua mô đun Thu thập dữ liệu Mô đun Xử lý dữ liệu tiến hành các thao tác tiền xử lý trước khi thực hiện trích chọn đặc trưng và tạo các tập dữ liệu huấn luyện tại mô đun Trích chọn đặc trưng Cuối cùng, các bộ phân loại

sẽ được xây dựng bằng các thuật toán học máy trên các tập dữ liệu tạo được

Các đặc trưng được sử dụng trong nghiên cứu này bao gồm

333 đặc trưng theo phong cách, được chia làm ba nhóm gồm các đặc trưng dựa trên từ vựng, dựa trên ngữ pháp, và dựa trên cấu trúc như

đã nói ở phần trước Các loại đặc trưng này lại được chia nhỏ hơn thành các nhóm con như đặc trưng theo ký tự, theo tính chất từ (thuộc nhóm từ vựng), đặc trưng theo loại từ, các từ chức năng (thuộc nhóm ngữ pháp)

Trang 10

Hình 2.1 Mô hình tổng quát của phương pháp

Các nghiên cứu trong chương này được thực hiện trên cơ sở tập dữ liệu các bài viết chủ yếu từ diễn đàn Otofun.net.vn và bổ sung thêm các bài viết từ một số diễn đàn phổ biến khác như diễn đàn Webtretho.com, diễn đàn Tinhte.vn để đa dạng hóa nguồn dữ liệu Sau các bước xử lý và làm sạch, tập dữ liệu thu thập được bao gồm

có 6.831 bài viết từ 104 người dùng với tổng cộng có 736.252 từ và trung bình 107 từ/bài Các bài viết được lựa chọn là các bài có ít nhất một thông tin về đặc điểm người viết, có thể dùng làm dữ liệu huấn luyện cho hệ thống Bảng 2.2 cho thấy các thông số thông kê về tập

dữ liệu huấn luyện theo diễn đàn và theo các lớp đặc điểm

Thuật toán học máy

Bộ phân loại

Trang 11

Bảng 2.2 Thống kê về tập dữ liệu huấn luyện

Đặc điểm Số bài viết Lớp đặc điểm Tỷ lệ

Trang 12

bình tốt nhất trong hầu hết các trường hợp, trong đó SMO cho kết quả tốt hơn Logistic Ngoài ra, bên cạnh tập đặc trưng đầy đủ cho kết quả tốt nhất (do khai thác được nhiều nhất các đặc trưng phân biệt các tác giả), thì các đặc trưng dựa trên từ vựng cho thấy kết quả tốt hơn các đặc trưng dựa trên ngữ pháp (kể cả các từ chức năng) trong hầu hết các trường hợp, nhất là khi sử dụng các giải thuật có kết quả tốt như SMO Điều này có thể cho thấy đối với các loại văn bản ngắn

và tự do như bài viết diễn đàn, các cấu trúc ngữ pháp có khả năng phân biệt tác giả hạn chế hơn là thói quen sử dụng từ vựng và các thành phần liên quan đến từ vựng

2.2 SỬ DỤNG CÁC ĐẶC TRƯNG NỘI DUNG

Trong phần này, các nghiên cứu về sử dụng các đặc trưng nâng cao hơn được thực hiện, trong đó các đặc trưng liên quan đến từ vựng như các từ nội dung được khai thác sâu hơn sau khi có kết quả khả quan của các đặc trưng loại này trong nghiên cứu ở phần 2.1 Bên cạnh đó, các đặc trưng sâu về ngữ pháp như các cặp ghép 2 và 3 của các từ loại cũng được khảo sát thêm nhằm đánh giá tính hiệu quả của loại đặc trưng ngữ pháp trên các văn bản ngắn và phong cách tự

do như bài viết diễn đàn

Các thuật toán học máy được sử dụng trong nghiên cứu này được lựa chọn từ các thuật toán cho kết quả tốt trong bước trước và thuộc các nhóm khác nhau (các thuật toán nổi bật nhất của các nhóm) Cụ thể, có ba thuật toán tiếp tục được thực nghiệm gồm thuật toán SVM/SMO thuộc nhóm functions, thuật toán Bayesian Networks thuộc nhóm bayes, và thuật toán Random Forest thuộc nhóm trees

Trang 13

Trong nghiên cứu này, các thực nghiệm được tiến hành trên tập dữ liệu bài viết diễn đàn được sử dung trong nghiên cứu trước để tiện so sánh và đánh giá kết quả Do vậy, các bước thu thập, xử lý dữ liệu được thực hiện tương tự như ở phần 2.1 Ngoài ra, phương pháp xây dựng mô hình phân loại cũng sử dụng học máy cùng với các kỹ thuật hỗ trợ như lựa chọn đặc trưng Do đó, phần này sẽ trình bày chủ yếu về các đặc trưng được sử dụng trong nghiên cứu

Các đặc trưng dựa trên nội dung (content-based features) trong nghiên cứu này là các từ được lựa chọn từ chính tập dữ liệu huấn luyện Đó là các từ có thể phân biệt tốt nhất các lớp của mỗi đặc điểm Để chọn được các đặc trưng này, đầu tiên các từ có tần xuất sử dụng cao nhất trong tập dữ liệu được lựa chọn (chọn riêng rẽ theo từng lớp của mỗi đặc điểm tác giả) Sau đó, các thuật toán lựa chọn đặc trưng được sử dụng để chọn lọc ra các đặc trưng có độ phân biệt tốt nhất Bên cạnh đó, khoảng 170 từ không có trong từ điển được sử dụng trong các bài viết trong tập dữ liệu huấn luyện cũng được trích chọn Các đặc trưng là các cặp ghép n từ loại (POS n-grams) cũng được trích chọn từ tập dữ liệu Theo đó, các cặp ghép 2 và 3 của các

từ loại có tần suất xuất hiện cao nhất được chọn lựa

Các thực nghiệm cũng được thực hiện trên các tập con đặc trưng khác nhau như tập các từ nội dung, các từ ngoài từ điển, các cặp ghép n từ loại, và kết hợp của các loại trên với các đặc trưng cơ bản, nhằm mục đích đánh giá hiệu suất của từng loại Các thuật toán học máy được sử dụng trong nghiên cứu này là các thuật toán đã cho kết quả tốt nhất trong các nhóm ở nghiên cứu trước, bao gồm SVM, Random Forest, và Bayesian Networks

Trang 14

Các kết quả thực nghiệm cho thấy các đặc trưng dựa trên nội dung có kết quả vượt trội hơn so với các đặc trưng cơ bản và các loại đặc trưng khác khi sử dụng riêng rẽ Mặc dù các đặc trưng dựa trên nội dung thường được xem có tính phụ thuộc vào lĩnh vực ở một mức độ nhất định và có thể làm giảm độ chính xác khi chuyển qua ứng dụng trên lĩnh vực khác, với độ chính xác tăng trung bình từ 5-9% so với các đặc trưng cơ bản, các kết quả trên vẫn có nhiều triển vọng khi được ứng dụng trong cùng lĩnh vực hoặc lĩnh vực tương tự Hơn nữa, với thời gian huấn luyện khoảng 3-5 giây (với thuật toán SMO và 600 đặc trưng), mô hình phân loại hoàn toàn có thể nhanh chóng được xây dựng lại trên tập dữ liệu mới và đáp ứng được các ứng dụng với thời gian thực Các từ ngoài từ điển có kết quả chưa tốt khi sử dụng riêng rẽ, tuy nhiên khi kết hợp với các đặc trưng cơ bản cho kết quả tốt hơn so với việc sử dụng các đặc trưng cơ bản riêng

rẽ Các đặc trưng cặp ghép 2 và 3 từ loại cho kết quả hạn chế, kể cả khi sử dụng riêng rẽ hoặc kết hợp với các đặc trưng cơ bản Kết quả này củng cố thêm cho nhận định về việc các cấu trúc ngữ pháp khó phát huy hiệu quả nhận diện trên các bải viết ngắn và có phong cách

tự do như bài viết diễn đàn Cuối cùng, việc kết hợp tất cả các đặc trưng cho kết quả cao hơn các tập con khác Về các phương pháp phân loại, thuật toán SMO có kết quả tốt hơn hai thuật toán còn lại trong đa số các trường hợp, trong đó thuật toán Random Forest cho kết quả tốt hơn Bayesian Networks nhưng có thời gian chạy lâu hơn nhiều Phân tích sâu hơn về các đặc trưng nội dung có thể phát hiện

ra một số xu hướng, chẳng hạn nam giới thường có xu hướng trao đổi về các vấn đề công việc, thể thao, quy định, trong khi nữ giới thường nói về cuộc sống, sức khỏe, áp lực Những người có độ tuổi dưới 22 (học sinh/sinh viên) thường thảo luận về học tập, hành động

Ngày đăng: 13/06/2018, 10:39

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w