Luận văn đề xuất một phương pháp dựa trên mô hình chủ đề xác suất có thể giúp các trang báo điện tử xã hội nhận diện thói quen, mối quan tâm của người dùng một cách tự động trên lịch sử
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Uông Huy Long
PHÁT HIỆN THÓI QUEN CỦA CON NGƯỜI/ NHÓM NGƯỜI TỪ PHƯƠNG TIỆN XÃ HỘI DỰA THEO MÔ HÌNH CHỦ ĐỀ XÁC SUẤT
LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN
HÀ NỘI - 2015
Trang 2Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ
Hà Quang Thụy và Thạc sĩ Trần Mai Vũ, người đã tận tình chỉ bảo và hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp
Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi học tập và nghiên cứu tại trường Đại Học Công Nghệ
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm “Khai phá
dữ liệu” đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khoá luận
Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp Tôi xin chân thành cảm ơn!
Uông Huy Long
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Uông Huy Long
PHÁT HIỆN THÓI QUEN CỦA CON NGƯỜI/
NHÓM NGƯỜI TỪ PHƯƠNG TIỆN XÃ HỘI
DỰA THEO MÔ HÌNH CHỦ ĐỀ XÁC SUẤT
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Trang 3Lời cam đoan
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi, được thực hiện dưới sự hướng dẫn khoa học của Tiến sĩ Nguyễn Việt Cường
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được công bố trong bất kỳ công trình nào khác
Tôi xin chịu trách nhiệm về nghiên cứu của mình
Học viên Uông Huy Long
Trang 4Mục lục
Lời cam đoan i
Mục lục ii
Danh sách hình iv
Danh sách các bảng v
Mở đầu 1
Chương 1 Giới thiệu 2
1.1 Những thách thức của các trang báo điện tử 2
1.2 Bài toán tư vấn trên các trang báo điện tử xã hội 3
1.3 Cấu trúc của luận văn 5
Chương 2 Một số nghiên cứu liên quan về mô hình hóa người dùng 6
2.1 Mô hình hóa người dùng 6
2.2 Phương pháp mô hình hóa người dùng 6
2.2.1 Phương pháp dựa trên từ khóa có trọng số 6
2.2.2 Phương pháp dựa trên mạng ngữ nghĩa 7
2.2.3 Phương pháp dựa trên cây phân cấp khái niệm 8
2.3 Thu thập thông tin về người dùng 9
2.3.1 Phương pháp định danh người dùng 9
2.3.2 Các phương pháp thu thập thông tin truyền thống 11
2.4 Thu thập thông tin từ Web truyền thông xã hội 13
2.4.1 Sử dụng các thông tin thẻ (Tag) 13
2.4.2 Nguồn dữ liệu từ blog và microblog 14
Chương 3 Mô hình đề xuất 17
3.1 Phân tích thông tin chủ đề dựa trên mô hình chủ đề LDA 17
3.2 Phân tích thói quen đọc, bình luận tin tức của người dùng 20
3.2.1 Thông tin trong lịch sử bình luận của người dùng 20
3.2.2 Mô hình người dùng 22
3.3 Áp dụng mô hình người dùng vào tư vấn tin tức 23
3.3.1 Pha phân tích dữ liệu 23
3.3.2 Pha xây dựng mô hình người dùng 24
Trang 5Chương 4 Thực nghiệm và đánh giá 26
4.1 Môi trường thực nghiệm 26
4.2 Dữ liệu và công cụ 26
4.2.1 Dữ liệu 26
4.2.2 Công cụ 26
4.3 Luồng phân tích dữ liệu trong thực nghiệm 29
4.3.1 Huấn luyện mô hình phân tích chủ đề 29
4.3.2 Phân tích dữ liệu tin tức 30
4.3.3 Mô hình người dùng và đánh giá kết quả 32
Tài liệu tham khảo 36
Tiếng Việt 36
Tiếng Anh 36
Trang 6Danh sách hình
Hình 1 Chức năng tìm kiếm trên trang vnexpress.net 2
Hình 2 Ví dụ về các tin tức nảy sinh xung quanh một sự kiện 4
Hình 3 Tiến trình mô hình hóa người dùng 6
Hình 4 Mô hình mối quan tâm người dùng dựa trên từ khóa 7
Hình 5 Mô hình mối quan tâm người dùng dựa trên mạng ngữ nghĩa[9] 8
Hình 6 Mô hình mối quan tâm người dùng dựa trên mạng khái niệm [24] 9
Hình 7 Các hệ thống tư vấn dựa trên thông tin người dùng hiện 11
Hình 8 Tài liệu với K chủ đề ẩn 18
Hình 9 Biểu diễn đồ họa LDA[6] 19
Hình 10 Ước lượng tham số tập dữ liệu văn bản 19
Hình 11 Suy diễn chủ đề sử dụng tập dữ liệu VNExpress[29] 20
Hình 12 Mục ý kiến bạn đọc trên VNExpress 21
Hình 13 Trang hoạt động bình luận của người dùng 21
Hình 14 Luồng phân tích dữ liệu 23
Hình 15 Luồng xây dựng mô hình người dùng 25
Hình 16 Luồng tư vấn 25
Hình 17 Luồng phân tích dữ liệu trong thực nghiệm 28
Hình 18 Nội dung chính của trang tin 29
Hình 19 Tin tức sau khi tiền xử lý 30
Hình 20 Truy vấn tìm kiếm người dùng và các trang bình luận 31
Hình 21 Tập hợp các đường dẫn và bình luận của người dùng 31
Hình 22 Biểu đồ độ chính xác của mô hình 34
Trang 7Danh sách các bảng
Bảng 1 Các kỹ thuật thu thập thông tin ẩn [8] 12
Bảng 2 Thông tin lịch sử hoạt động bình luận của người dùng 22
Bảng 3 Môi trường thực nghiệm 26
Bảng 4 Công cụ 26
Bảng 5 Một số chủ đề ẩn 30
Bảng 6 Mô hình người dùng 32
Bảng 7 Top các chủ đề của tin tức được bình luận gần nhất 33
Bảng 8 Độ chính xác của mô hình 33
Trang 8Mở đầu
Thuật ngữ Web 2.0 lần đầu xuất hiện vào tháng 10/2004 khi Tim OReily – Chủ tịch
và Dale Dougherty – Phó Chủ tịch của OReily Media đưa ra tại một cuộc hội thảo về sự phát triển tiếp theo của Web Có rất nhiều quan điểm khác nhau về Web 2.0, tuy nhiên đa
số vẫn mô tả Web 2.0 ở một số tính năng như khả năng giao tiếp, tính tương tác giữa các người dùng với nhau hay là những yếu tố cho phép người dùng có thể tạo ra thông tin Các trang Web truyền thông xã hội (social media websites) dựa trên Web 2.0 như các trang báo điện tử xã hội, mạng xã hội, blog, các từ điển mở wiki,… đang có một sự phát triển như vũ bão và thực sự đang làm biến đổi thế giới Internet từng ngày, từng giờ Cùng nhìn vào một đại diện tiêu biểu của Web truyền thông xã hội, các trang báo điện tử xã hội (social news sites), khái niệm “báo điện tử” cũng như việc đọc tin tức điện tử đã không còn xa lạ với đa số người dân Việt Nam Những thống kê gần đây trên alexa1
về số lượng các trang báo điện tử nằm trong top các trang Web phổ biến nhất tại Việt Nam hiện nay đang cho thấy nhu cầu cao của xã hội trong lĩnh vực truyền thông này Tuy nhiên, một vấn đề còn tồn tại hiện nay đó là trong khi có quá nhiều tin tức mỗi ngày được cập nhật, người dùng dường như bị chìm ngập trong biển thông tin mà vẫn không tìm ra được các thông tin phù hợp Web 2.0 có thể là lời giải cho vấn đề này, những trang báo điện tử xã hội cho phép người dùng tạo ra nội dung như những bình luận, chia sẻ,…Đây có thể là một nguồn dữ liệu quan trọng cho lĩnh vực nghiên cứu liên quan tới mô hình hóa người dùng Từ nắm bắt thói quen đọc, bình luận tin tức của người dùng theo lĩnh vực gì (như thể thao, giải trí, công nghệ,…), nhiều dịch vụ tiềm năng (như tin tức mới, quảng cáo, game,…) có thể được suy diễn và tư vấn chính xác, kịp thời Luận văn đề xuất một phương pháp dựa trên mô hình chủ đề xác suất có thể giúp các trang báo điện tử xã hội nhận diện thói quen, mối quan tâm của người dùng một cách tự động trên lịch sử các hoạt động bình luận của họ (Người dùng xây dựng thói quen đọc, bình luận tin tức trên cơ sở các mối quan tâm, vì vậy, trong luận văn, các khái niệm mô hình hóa người dùng, phân tích mối quan tâm người dùng hay phân tích thói quen đọc, bình luận của người dùng có thể được sử dụng thay thế cho nhau) Tính chính xác và khả năng ứng dụng thực tế của
mô hình này đã được chứng minh bằng một số kết quả thực nghiệm ban đầu
Trang 9Chương 1 Giới thiệu
1.1 Những thách thức của các trang báo điện tử
Ngày nay, thông tin trên những trang báo điện tử (như VNExpress1) hầu như bao phủ mọi khía cạnh của đời sống xã hội, từ những tin tức về kinh tế, chính trị tới những sự kiện thể thao, giải trí của cả trong nước và quốc tế Cùng với thực tế đó là hiện tượng có một lượng lớn các tin tức phát sinh thêm mỗi ngày (như trên trang VNExpress, tại thời điểm khảo sát có hơn 135 tin tức mới trong ngày), người đọc cũng có thể quan tâm tới các tin tức về một sự kiện/ chuỗi các sự kiện diễn ra trong nhiều ngày hoặc muốn xem lại các thông tin từ những ngày trước, vì vậy mà lượng tin tức cần đọc có thể lên tới hàng nghìn bài Vấn đề đặt ra là làm cách nào những người đọc có thể vừa tiết kiệm được thời gian truy cập vừa không bỏ sót những nội dung mà họ quan tâm Những nghiên cứu trước đây gọi đó là vấn đề của sự tràn ngập thông tin Một giải pháp phổ biến đó là cung cấp cho người dùng công cụ tìm kiếm Tuy nhiên, những công cụ tìm kiếm đôi khi vẫn không đem lại hiệu quả, điều này thường do nghĩa của từ khoá không rõ ràng hoặc ý nghĩa chính xác của chúng phụ thuộc vào ngữ cảnh của người dùng Ví dụ như khi một lập trình viên tìm kiếm với từ khóa “apache”, có thể người đó không muốn nhìn thấy hình ảnh của một loại máy bay trực thăng Hay nếu người dùng muốn tìm kiếm về lịch sử của tộc người da đỏ (cũng có tên là apache), nội dung người đó quan tâm không phải là máy bay trực thăng hay máy chủ web Một hướng tiếp cận khác được nghiên cứu là tìm cách xây dựng các hệ thống cá nhân hóa, những hệ thống này cung cấp các kết quả tư vấn hoặc tìm kiếm khác nhau và được cho là phù hợp với những người dùng khác nhau
Hình 1 Chức năng tìm kiếm trên trang vnexpress.net
1 http://vnexpress.net/
Trang 10Một hệ thống được cá nhân hóa giải quyết vấn đề có quá nhiều lựa chọn bằng cách xây dựng và quản lý các thông tin về người dùng, đặt trong hồ sơ người dùng Toàn bộ quá trình này gọi là mô hình hóa người dùng sẽ được trình bày chi tiết hơn trong chương
2 Hệ thống này thực thi các hình thức như là lọc ra những thông tin không liên quan hoặc xác định thêm thông tin có thể hấp dẫn người dùng Hồ sơ người dùng có thể bao gồm thông tin cá nhân, ví dụ như tên, tuổi, quốc gia, mức độ giáo dục,…và cũng có thể đại diện cho các sở thích, mối quan tâm của một cá nhân hoặc một nhóm người dùng như là
sự ưa thích với các chủ đề thể thao hay du lịch Các thông tin này có thể được phân tích dựa vào dữ liệu do người dùng cung cấp, suy diễn từ dữ liệu log trên hệ thống hoặc một nguồn dữ liệu mới là từ các phương tiện xã hội, nội dung này sẽ được luận văn trình bày chi tiết hơn trong chương 2
1.2 Bài toán tƣ vấn trên các trang báo điện tử xã hội
Tư vấn tin tức là một lĩnh vực giàu tiềm năng bởi số lượng các sản phẩm tư vấn, số lượng người dùng và số lượt sử dụng cao hơn nhiều so với các đối tượng tư vấn khác, vì vậy luận văn đề xuất một mô hình người dùng và ứng dụng vào hệ thống tư vấn tin tức trong chương 3 Một vài đặc trưng riêng có của miền đối tượng tin tức cũng như các đặc trưng chung của người sử dụng tư vấn, có thể được mô tả như sau:
Đầu tiên, tin tức là một đối tượng tư vấn đặc biệt, các đặc trưng sau của tin tức giúp đưa ra các giải pháp hữu hiệu hơn trong xây dựng giải pháp tư vấn:
Tính không đồng nhất giá trị: Giá trị của tin tức chỉ có thể được xác định bằng cách kết hợp các yếu tố: nội dung thông tin, nguồn tin, thời điểm xuất bản, nhà xuất bản, tác giả,…
Tính dễ sinh ra: một số lượng lớn tin tức có thể nảy sinh xung quanh một sự kiện, hiện tượng
Tính dễ tàn lụi: hiện tượng tin tức đánh mất giá trị khi vấn đề nó đề cập không còn tính thời sự
Trang 11Hình 2 Ví dụ về các tin tức nảy sinh xung quanh một sự kiện
Khi xem xét đến yếu tố phù hợp giữa đối tượng tư vấn và mối quan tâm người dùng, một đặc trưng về mối quan tâm của người dùng cần được xem xét, đó là tính đa quan tâm: Tại một thời điểm, người dùng có thể có nhiều mối quan tâm khác nhau, ví dụ: người dùng có thể quan tâm đến các thông tin về cả thể thao và chính trị
Qua phân tích, luận văn lựa chọn cách tiếp cận lọc dựa trên nội dung, trong đó thói quen/ mối quan tâm người dùng được nhận diện qua các chủ đề ẩn của các tin tức mà người dùng đã từng bình luận Các lý do có thể được nêu ra là:
Thứ nhất: Biểu diễn mức chủ đề cho phép mô tả những mối quan tâm của người dùng ở mức trừu tượng cao hơn mà không bị ảnh hưởng bởi thói quen dùng từ của các tác giả hoặc của những từ khóa nổi lên chỉ trong một giai đoạn nhất định Sử dụng phương pháp này cũng khắc phục được vấn đề tư vấn trùng lặp
do mô hình dựa trên các từ khóa thường tìm ra các tin tức có cùng nội dung với các tin tức người dùng đã đọc
Thứ hai: Tính đa quan tâm của người dùng có thể được thể hiện thông qua tập hợp các cặp chủ đề và xác suất liên quan
Thứ ba: Những tin tức người dùng đã từng bình luận đem tới thông tin tốt hơn
do có thể nhận xét rằng người dùng quan tâm thực sự tới nội dung các tin tức đã bình luận chứ không phải là do chọn nhầm
Theo đó, luận văn đề xuất giải quyết hai vấn đề cơ bản của tiến trình tư vấn:
Trang 12 Đầu tiên là dựa trên khảo sát về các phương pháp xây dựng mô hình hóa người dùng, đề xuất giải pháp mô hình người dùng dựa trên phân tích chủ đề các tin tức người dùng đã từng bình luận
Sau đó, những tin tức liên quan được phát hiện thông qua đối chiếu chủ đề của chúng với những chủ đề trong mô hình người dùng vừa được xây dựng
1.3 Cấu trúc của luận văn
Nội dung chính của luận văn được chia làm 4 chương:
Chương 1 Giới thiệu
Chương 2 Một số nghiên cứu liên quan về mô hình hóa người dùng
Chương 3 Mô hình đề xuất
Chương 4: Thực nghiệm và đánh giá
Trang 13Chương 2 Một số nghiên cứu liên quan về mô hình hóa người dùng
2.1 Mô hình hóa người dùng
Theo Gauch và các cộng sự [8], một tiến trình mô hình hóa người dùng cho các ứng dụng hướng cá nhân bao gồm 2 pha cơ bản như minh họa sau:
Hình 3 Tiến trình mô hình hóa người dùng
Trong đó, những phương pháp xây dựng mô hình người dùng được mô tả kỹ hơn trong mục 2.2, các khái niệm và kỹ thuật liên quan đến quá trình chuẩn bị dữ liệu cho mô hình hóa người dùng được mô tả trong mục 2.3
2.2 Phương pháp mô hình hóa người dùng
Thông thường dựa trên các đặc trưng của dữ liệu thu thập được, có những cách tiếp cận khác nhau để xây dựng mô hình người dùng Dữ liệu thu thập từ người dùng có thể được chia làm hai loại chính là dữ liệu có cấu trúc và không cấu trúc Các dữ liệu có cấu trúc như các đánh giá theo điểm, nghề nghiệp, tuổi tác, … Các dữ liệu không cấu trúc là các dữ liệu dạng văn bản như nội dung của các tin tức đã xem, mô tả của các bộ phim đã xem, hay các lời nhận xét dưới dạng ngôn ngữ tự nhiên …
Gauch và cộng sự trong [8] mô tả khá chi tiết ba phương pháp xây dựng mô hình người dùng dựa trên các dữ liệu dạng văn bản là phương pháp dựa trên từ khóa có trọng
số, phương pháp dựa trên các mạng ngữ nghĩa và phương pháp dựa trên cây phân cấp khái niệm Đây là các giải pháp mô hình sở thích người dùng thường được sử dụng cho các hệ thống tư vấn dựa trên nội dung
2.2.1 Phương pháp dựa trên từ khóa có trọng số
Mối quan tâm được mô tả bằng tập các từ khóa có trọng số Trong đó, từ khóa được trích xuất từ tập các dữ liệu người dùng với trọng số thường được đánh giá thông qua mô hình trọng số tf*idf Đây là giải pháp được đưa ra sớm nhất và dễ dàng cài đặt nhất, tuy nhiên vấp phải các trở ngại về vấn đề nhập nhằng ngữ nghĩa và kích thước không gian từ khóa Ví dụ điển hình của phương pháp tiếp cận này là WebMate [5], hồ sơ người dùng chứa một vector từ khóa cho mỗi lĩnh vực quan tâm của người dùng, và một ý tưởng mở
Trang 14rộng của WebMate[5], Alipes [32] sử dụng ba vector từ khóa cho mỗi mối quan tâm người sử dụng bao gồm: một vector mô tả tính dài hạn, hai vector mô tả tính ngắn hạn: một tích cực và một tiêu cực
Hình 4 Mô hình mối quan tâm người dùng dựa trên từ khóa
2.2.2 Phương pháp dựa trên mạng ngữ nghĩa
Mối quan tâm được mô tả bằng tập các node (từ khóa hoặc khái niệm) và các cạnh liên kết Đầu tiên, các từ khóa cũng được trích xuất từ dữ liệu người dùng Khái niệm có thể bao gồm một hoặc nhiều từ khóa liên kết với nhau (ví dụ như: quan hệ đồng nghĩa suy diễn từ WordNet) Trọng số giữa cạnh được xác định dựa trên sự xuất hiện đồng thời của hai node hoặc các từ khóa thuộc vào hai node trong cùng một văn bản Điển hình cho mô hình này là hệ thống InfoWeb [9], mỗi hồ sơ người dùng được biểu diễn bởi một mạng ngữ nghĩa các khái niệm Ban đầu, mạng ngữ nghĩa chứa một tập các node khái niệm không liên kết gọi là các node hành tinh với một trọng số Càng nhiều thông tin thu thập được, hồ sơ về người dùng càng được làm giàu thông qua các từ khóa có trọng số liên kết với các khái niệm Các từ khóa được biểu diễn như các node vệ tinh xung quanh các khái niệm chính, trọng số liên kết giữa các khái niệm tương ứng cũng được thêm vào
Trang 15Hình 5 Mô hình mối quan tâm người dùng dựa trên mạng ngữ nghĩa[9] 2.2.3 Phương pháp dựa trên cây phân cấp khái niệm
Mối quan tâm người dùng được mô tả thông qua tập các khái niệm có trọng số Ban đầu, các khái niệm không trích ra từ văn bản mà được định nghĩa trước từ cây phân cấp các mục mở ODP (The Open Directory Project1) Dữ liệu người dùng được phân lớp vào một trong các nhánh của cấu trúc phân cấp này Vấn đề của phương pháp này là mức độ chi tiết của mục có thể làm mất thông tin về các mối quan tâm chung và sự phụ thuộc vào
độ chính xác của các cây phân cấp khái niệm Một trong các dự án đầu tiên sử dụng phương pháp này là OBIWAN [24] Ban đầu, họ dùng cấu trúc phân cấp khái niệm từ 3 mức đầu tiên của ODP Dữ liệu người dùng được tự động phân lớp để tìm ra các các khái niệm phù hợp nhất, các trọng số khái niệm tương ứng được tăng lên
1 http://dmoz.org
Trang 16Hình 6 Mô hình mối quan tâm người dùng dựa trên mạng khái niệm [24] 2.3 Thu thập thông tin về người dùng
Bước đầu tiên trong kỹ thuật mô hình hóa người dùng là thu thập các thông tin về người dùng cá nhân Trong đó, một yêu cầu cơ bản là hệ thống cần phải xác định duy nhất người dùng Nhiệm vụ này sẽ được trình bày trong phần 2.3.1 Các thông tin người dùng được có thể được thu thập hiện qua việc nhập trực tiếp bởi người dùng, thu thập ẩn thông qua một các tử phần mềm hoặc thu thập tự động từ các phương tiện truyền thông xã hội Phụ thuộc vào cách thức thu thập dữ liệu này mà những dạng dữ liệu khác nhau về người dùng có thể được thu thập Một số lựa chọn và ảnh hưởng của các lựa chọn trên được trình bày ở mục 2.3.2 và 2.4 Nhìn chung, phương pháp thu thập tự động từ các phuwong tiện truyền thông xã hội đang trở thành một hướng tiếp cận mới, tiềm năng bởi khả năng tiếp cận dễ dàng, giàu thông tin và không đặt gánh nặng cung cấp thông tin lên người dùng
2.3.1 Phương pháp định danh người dùng
Định danh người dùng là tiêu chí quan trọng giúp hệ thống phân biệt, và xây dựng
hồ sơ khác nhau cho những người dùng khác nhau Gauch và cộng sự [8] liệt kê ra 5 cách tiếp cận cơ bản trong định danh người dùng: các tử phần mềm (software agent), đăng nhập (login), proxy server, cookie và phiên duyệt Web(session) Mỗi phương pháp đều có những ưu, nhược điểm riêng
Trang 17Ba phương pháp đầu tiên chính xác hơn, nhưng chúng yêu cầu sự tham gia của người dùng Các tử phần mềm là một phần mềm nhỏ được đặt trên máy người dùng, thu thập thông tin về họ và chia sẻ chúng với máy chủ thông qua một vài giao thức Giải pháp này có độ tin cậy cao nhất vì có nhiều hơn sự điều khiển khi triển khai ứng dụng và các giao thức Nó cũng có khả năng thu thập được nhiều thông tin nhất vì có quyền truy cập tới nhiều hơn các nguồn thông tin người dùng Tuy nhiên, nó yêu cầu sự tham gia của người dùng để cài đặt phần mềm, đó là một cản trở không dễ chịu Giải pháp có độ tin cậy thứ hai là dựa trên việc đăng nhập Bởi vì người dùng định danh chính họ thông qua đăng nhập, cách định danh này thường chính xác và có thể sử dụng để xác định người dùng dùng nhiều máy khách khác nhau Mặt trở ngại của phương pháp này là người dùng cần thực hiện một tiến trình đăng kí và thực hiện đăng nhập và đăng xuất cho mỗi lần sử dụng
Ở giải pháp thứ ba, một proxy server sẽ làm nhiệm vụ thu thập thông tin người dùng, phương pháp này hữu ích khi cần thu thập thông tin về một nhóm người dùng hoặc một người dùng sử dụng nhiều máy tính, tương tự như hai giải pháp trên, nó yêu cầu người dùng tham gia bằng cách đăng kí cùng một điạ chỉ proxy cho tất cả các máy họ sử dụng Hai phương pháp sau, cookie và phiên duyệt Web không yêu cầu bất cứ sự tham gia nào từ phía người dùng Trong lần đầu tiên trình duyệt máy khách truy cập vào hệ thống, một userid được tạo ra, id này sẽ được lưu trong cookie máy người dùng Một người dùng truy cập vào cùng một trang Web được xác định là duy nhất nếu cùng một userid được sử dụng Tuy nhiên, nếu người dùng sử dụng nhiều hơn một máy tính, hay một loại trình duyệt, sẽ có những cookie khác nhau, và tương ứng là những hồ sơ người dùng khác nhau Hơn nữa, giải pháp này cũng gặp vấn đề khi có nhiều hơn một người dùng cho một máy, hoặc trường hợp người dùng xóa, hay tắt cookie Đối với phiên duyệt Web, trở ngại cũng tương tự khi có nhiều hơn một người dùng cho một máy hay có sử dụng nhiều hơn một máy, một trình duyệt, nhưng nó không lưu trữ userid giữa những lần duyệt Một người dùng bắt đầu với một phiên duyệt Web mới, thông tin trong phiên duyệt Web lưu lại vết các hành vi người dùng tương tác với hệ thống trong một lần duyệt Web của họ ví
dụ danh sách các pageview, thời gian dành cho mỗi pageview, địa chỉ IP,…
Ưu điểm quan trọng của giải pháp định danh dựa trên phiên duyệt Web là nó không đặt bất cứ gánh nặng nào về phía người dùng, không gặp những nghi ngại về tính riêng tư (tức là không lưu lại bất cứ thông tin nào về người dùng) và cũng không yêu cầu bật cookie ở trình duyệt
Trang 182.3.2 Các phương pháp thu thập thông tin truyền thống
Thông thường, các kỹ thuật thu thập thông tin được phân theo tính chất của dữ liệu thu thập được Theo đó, tương ứng với hai kiểu thông tin người dùng ẩn và hiện, có hai phương pháp thu thập thông tin người dùng
2.3.2.1 Phương pháp thu thập thông tin người dùng hiện
Phương pháp thu thập thông tin người dùng hiện (hay thông tin phản hồi hiện) thu thập những thông tin được nhập trực tiếp bởi người dùng, thông thường qua các form nhập liệu Dữ liệu thu thập có thể là các thông tin như ngày sinh, tình trạng hôn nhân, nghề nghiệp, sở thích,…
Một trong các hệ tư vấn sớm nhất Syskill & Webert [22] tư vấn các trang Web dựa vào các phản hồi hiện Nếu người dùng đánh giá cao một vài liên kết từ một trang, Syskill
& Webert sẽ tư vấn các trang liên kết khác Thêm vào đó, hệ thống còn có thể tạo một truy vấn tới máy tìm kiếm Lycos1
để trích xuất các trang Web có thể người dùng sẽ ưa thích
Một vấn đề với các thông tin phản hồi hiện đó là nó đặt gánh nặng cung cấp thông tin về phía người dùng Vì vậy, nếu người dùng không muốn phải cung cấp các thông tin riêng tư, họ sẽ không tham gia hoặc không cung cấp thông tin chính xác Hơn nữa, vì các
hồ sơ được duy trì tĩnh trong khi tồn tại các đặc điểm có thể thay đổi như sở thích, thói quen,… khiến cho những hồ sơ này có thể trở nên không chính xác nữa theo thời gian
Hình 7 Các hệ thống tư vấn dựa trên thông tin người dùng hiện
Trang 192.3.2.2 Phương pháp thu thập thông tin người dùng ẩn
Hồ sơ người dùng trong phương pháp này được xây dựng dựa trên các thông tin phản hồi ẩn Ưu điểm của phương pháp này là không yêu cầu bất cứ sự xen vào nào của người dùng trong suốt tiến trình xây dựng và duy trì các hồ sơ người dùng Công trình của Gauch và các cộng sự [8] thống kê tóm tắt các cách tiếp cận của kỹ thuật thu thập thông tin phản hồi ẩn
Bảng 1 Các kỹ thuật thu thập thông tin ẩn [8]
Kỹ thuật Thông tin thu thập thông tin Bề rộng Ưu và Nhược Ví dụ
Ưu: Người dùng không cần cài đặt bất cứ
thứ gì
Nhược: Người dùng phải upload cache
định kì
OBIWAN [24]
Ưu: Người dùng sử dụng các trình duyệt
chính qui
Nhược: Người dùng phải sử dụng proxy
server
OBIWAN [24]
cá nhân nào
cá nhân nào
Ưu: Tất cả các tập tin và hành vi của
người dùng
Nhược: Yêu cầu cài đặt phần mềm
Google Desktop
Ưu: Thông tin về nhiều người dùng
Nhược: Có thể có ít thông tin vì chỉ từ một
trang Web
Mobasher [3]
Search
Logs
Truy vấn
và Url được click
Các trang tìm kiếm
Ưu: Thu thập và sử dụng thông tin từ
nhiều trang
Nhược: Cookies phải được bật và/hoặc
yêu cầu đăng nhập
Nhược: Có thể có rất ít thông tin
Misearch
Dựa trên nguồn gốc các thông tin ẩn này, có thể chia các thông tin phản hồi ẩn thành hai loại: thông tin ẩn phía máy khách (client log) thu được từ bốn cách tiếp cận đầu và thông tin ẩn phía máy chủ (server log) thu được từ hai cách tiếp cận còn lại
Trang 20Trong khi các kỹ thuật thu thập thông tin phía máy khách đặt gánh nặng về phía người dùng để thu thập và chia sẻ log các hành vi của họ Các kỹ thuật thu thập thông tin phía máy chủ (như search log và Web log) thu thập chỉ những thông tin trong quá trình tương tác của người dùng và hệ thống Điều này làm cho các thông tin có thể thu thập từ máy chủ ít hơn nhưng có ưu thế hơn về độ phức tạp của dữ liệu thu thập được cũng như tránh được các nghi ngại về tính riêng tư của người dùng
2.4 Thu thập thông tin từ Web truyền thông xã hội
Các Web truyền thông xã hội ngày nay giúp con người dễ dàng chia sẻ nội dung, cộng tác với những người khác, kết nối với nhau để tạo ra một cộng đồng nhanh hơn và
dễ tiếp cận hơn Ở đó, cộng đồng người dùng định hướng và tạo ra nội dung Người dùng tham gia vào Web truyền thông xã hội bằng những hoạt động như chia sẻ bookmark, viết blog, chú thích và bình luận về các thông tin được cung cấp bởi những người khác Họ tạo
ra thông tin, xây dựng nội dung và thiết lập các cộng đồng trực tuyến (những nội dung do người dùng tạo ra được viết tắt là UGC - User generated content)
Thu thập thông tin người dùng trên Web truyền thông xã hội là một hướng mới so với những phương pháp thu thập thông tin truyền thống như đã đề cập ở mục trước, thông tin thu được do người dùng tạo ra, công khai vì vậy các hệ thống máy tính có thể dễ dàng
tự động thu thập và phân tích Các UGC có thể bao gồm nhiều loại hình dữ liệu đa phương tiện như văn bản, âm thanh, hình ảnh,… UGC chứa các thông tin giàu ý nghĩa, vì vậy có tiềm năng trong phân tích, nắm bắt những kiến thức về người sử dụng, về các mục
và về các mối quan hệ giữa người sử dụng và các mục Từ những thông tin UGC, chúng
ta có thể nắm bắt ý kiến của người sử dụng, những quan điểm hoặc thị hiếu về các loại mặt hàng hoặc về người dùng khác Các nội dung do người dùng tạo ngày càng tăng và có sẵn giúp cho việc xây dựng mô hình người dùng chính xác hơn so với các kỹ thuật hiện
có Trong phần này, luận văn xem xét một số hướng tiếp cận cho việc thu thập thông tin
từ các Web truyền thông xã hội cho mô hình người dùng
2.4.1 Sử dụng các thông tin thẻ (Tag)
Giống như các thông tin do người dùng tạo ra khác, tag đang trở thành một nguồn thông tin quan trọng để mô hình người dùng cũng như để mô tả nội dung hoặc phân loại mặt hàng Tag là một từ khóa được thêm vào một đối tượng số (ví dụ như một trang Web, hình ảnh hoặc video clip) để mô tả nó, nhưng không phải là một phần của một hệ thống phân loại chính thức Các tag là các từ khóa được tự do lựa chọn và chúng là một công cụ
Trang 21thông tin người dùng ẩn truyền thống khác như dòng nhấp chuột và đăng nhập Web, thông tin tag có một số lợi thế khác biệt Một lợi thế quan trọng đó là tag là những từ khóa ngắn gọn nhưng chứa các thông tin giàu ý nghĩa và được đưa ra bởi người sử dụng một cách rõ ràng Lợi thế quan trọng khác đó là các tag độc lập với các nội dung của các mục,
và vì vậy mà chúng có thể được dùng để lọc nội dung cho bất kỳ đối tượng tư vấn nào như các bộ phim, bài hát, Thêm vào đó, hành vi gắn tag hình thành một mối quan hệ ba chiều giữa người sử dụng, các mục và các tag, tạo ra các quan hệ mới giữa người dùng và tag, tag và mục bên cạnh những mối quan hệ với người sử dụng và mục truyền thống Tuy nhiên, vì không có những hạn chế hay ranh giới về lựa chọn những từ khóa cho các mục được gắn thẻ, các thẻ được gắn tự do bởi người dùng và vì vậy có thể tồn tại những nhập nhằng về ngữ nghĩa như cùng một thẻ lại có những ý nghĩa khác nhau với những người dùng khác nhau hay các thẻ khác nhau là những từ đồng nghĩa cần được phải được hiểu là có ý nghĩa tương tự Một vấn đề nghêm trọng khác là có tới gần 60% thẻ là thẻ cá nhân mà chỉ được sử dụng bởi một người dùng [25] Tất cả những nhược điểm này tạo ra thách thức về việc làm cách nào để sử dụng thẻ trong mô hình mối quan tâm của người sử dụng một cách chính xác hoặc mô tả các chủ đề của các mục một cách chính xác
Công trình của Tso-Sutter và cộng sự [30] mở rộng ma trận người dùng - mục bằng
ma trận người dùng – mục – thẻ nhằm tạo ra các tư vấn dựa trên phương pháp lọc cộng tác Tuy nhiên, công trình này đã không xem xét tới nhiễu của các thẻ Trong các nghiên cứu của Sen và cộng sự [25], một hàm đánh giá thẻ được sử dụng để xác định sở thích của người sử dụng dựa trên các thẻ Các dòng nhấp chuột, lịch sử các từ khóa tìm kiếm của mỗi người dùng được sử dụng để xác định sở thích của người dùng đối với các mặt hàng thông qua hình thức suy diễn các thẻ sở thích Tuy nhiên, nghiên cứu của Sen cần rất nhiều loại thông tin bổ sung và các hàm đặc biệt, điều này làm cho kết quả khó so sánh được với các nghiên cứu khác và tạo ra các hạn chế về khả năng ứng dụng của công trình nghiên cứu
2.4.2 Nguồn dữ liệu từ blog và microblog
Blog là một trang Web đơn giản bao gồm các đoạn văn ngắn gọn về các ý kiến, các thông tin, các nhật ký cá nhân, hoặc các liên kết Mọi người tự do bày tỏ ý kiến, ý tưởng, kinh nghiệm, mong muốn, suy nghĩ của mình Một bài blog điển hình có thể kết hợp văn bản, hình ảnh, và các liên kết đến các blog khác, các trang Web và phương tiện truyền thông khác liên quan đến chủ đề của nó Người dùng thể hiện suy nghĩ của họ trong các ý kiến tích cực hay tiêu cực trên mạng về các sản phẩm hay dịch vụ, cũng như chia sẻ kinh
Trang 22nghiệm tiêu dùng, thương hiệu Những doanh nghiệp đang ngày càng nhận ra rằng những
ý kiến này có thể gây ảnh hưởng rất lớn trong việc hình thành ý kiến của người tiêu dùng khác và đầu tư cho lĩnh vực nghiên cứu liên quan [13]
Đã có nhiều công trình phân tích tâm lý tập trung vào đánh giá sản phẩm [33], [34], [23] trên các blog, các trang Web đánh giá của người dùng (customer review sites), và các trang Web khác trên internet Việc khai thác ý kiến và phân tích tâm lý chẳng hạn như tóm tắt ý kiến của khách hàng [35] và phân tích tâm lý người sử dụng trong các đánh giá [7] có thể dùng như những mở rộng cho các hệ thống tư vấn [26], như để đưa ra một tư vấn rằng không nên mua các mặt hàng nhận được nhiều phản hồi tiêu cực Các nhà nghiên cứu Joshi và Belsare [16] đã phát triển một chương trình khai thác blog gọi là BlogHarvest, giúp tìm kiếm và trích xuất những mối quan tâm của một blogger để giới thiệu blog với chủ đề tương tự Chương trình sử dụng các kỹ thuật khai phá quan điểm như phân lớp, phân cụm chủ đề tương tự, gắn thẻ Ý tưởng cơ bản của nghiên cứu dựa trên giả thuyết rằng các cộng đồng blog không định hình ngẫu nhiên mà là kết quả của những chia sẻ về mối quan tâm
Twitter là một dịch vụ microblog cho phép người dùng gửi tin nhắn (gọi là các tweet) đến một mạng xã hội từ mọi loại thiết bị Một tweet là một đoạn thông điệp ngắn
140 ký tự, xấp xỉ chiều dài của một tiêu đề báo điển hình [20] Các thông điệp ngắn được cho là rất dễ dàng và thuận tiện cho cả người gửi và người đọc chia sẻ những điều quan tâm và giao tiếp suy nghĩ của họ bất cứ lúc nào và bất cứ nơi nào trên thế giới Hiện tại, Twitter đã trở nên phổ biến bao gồm người sử dụng từ nhiều lĩnh vực khác nhau như những người nổi tiếng (Lady Gaga, Justin Bieber), các nhà lãnh đạo quốc gia (Barack Obama, Kevin Rudd), các nhà xuất bản tin tức (CNN, AP) cho công chúng nói chung Số lượng người dùng của Twitter đã phát triển nhanh chóng và số lượng tin nhắn được sinh
ra trên Twitter hàng ngày là rất lớn Theo statisticbrain1
, tới tháng Chín năm 2015, Twitter
đã có 645 triệu người dùng đăng ký, 289 triệu người dùng thường xuyên, 58 triệu tweet mỗi ngày
Trong khi các microblog không được coi như một nguồn thông tin đáng tin cậy so với phương tiện truyền thông truyền thống, một số nghiên cứu về microblog hướng tới phát hiện các chủ đề đang nổi lên Điều này có thể đạt được bằng cách thực hiện phân tích
xu hướng và phát hiện chủ đề Naaman và cộng sự [21] phân tích các đặc điểm của các xu hướng đang nổi lên trên Twitter và xác định hai loại xu hướng gồm: ngoại sinh (các sự kiện, tin tức, ngày quan trọng) và nội sinh (các ý tưởng được lan truyền trên mạng, các
Trang 23retweet, các hoạt động) Nghiên cứu này cũng trình bày năm tính năng chính: nội dung, tương tác, tham gia, thời gian và xã hội để thu thập số liệu thống kê tổng hợp nội dung để phân tích xu hướng
Ngoài xác định xu hướng, mô hình chủ đề cũng có thể được sử dụng để hiểu nội dung tweet Phân bổ Dirichlet tiềm ẩn (LDA) là một trong những kỹ thuật phổ biến do hiệu năng và tính linh hoạt của nó [6] Mỗi tài liệu được coi là một phân bố xác suất của các chủ đề và sau đó xác suất của chúng có thể ước tính thông qua các phương pháp lấy mẫu
Tuy nhiên, các nghiên cứu khác nhau cho thấy LDA có thể không hoạt động tốt trên Twitter do chiều dài ngắn của tweet [14][31]