GIẢI PHÁP BIỂU DIỄN VÀ SO SÁNH MỨC ĐỘ TƯƠNG ĐỒNG GIỮA CÁC HỒ SƠ CÁ NHÂN TRÊN MẠNG XÃ HỘI GVHD: TS.. So trùng các hồ sơ dựa trên các phân tích về mặt ngữ nghĩa LSA, có khả năng thực hiệ
Trang 1GIẢI PHÁP BIỂU DIỄN VÀ SO SÁNH MỨC
ĐỘ TƯƠNG ĐỒNG GIỮA CÁC HỒ SƠ CÁ
NHÂN TRÊN MẠNG XÃ HỘI
GVHD: TS Phạm Trần Vũ
HVTH: Đỗ Quốc Bảo
Trang 2Kết quả thực nghiệm, đánh giá
Trang 3 Từ sự thành công và phát triển của các mạng xã
hội như: Facebook, Linkedin, Youtube
Cộng đồng online này đã tạo ra số lượng lớn các
tài liệu số trên web
Cộng đồng này thuộc đa ngành nghề và cách trở
về mặt địa lý
Đặt vấn đề
3
Slide 2
Trang 4 Việc tìm những người có cùng sở thích, cùng mối
quan tâm là không dễ dàng
Nhu cầu giao lưu, giải trí, kết bạn là khá lớn và
thiết thực trong đời sống xã hội hiện tại
Các hệ thống thông minh cung cấp các thông tin,
dịch vụ phù hợp nhất cho con người là xu hướng của xã hội hiện đại
Đặt vấn đề - lý do
Trang 5 Thế giới
• “Using Profile Matching and Text Categorization for
Answer Extraction in TREC Genomics”, Haiqing
Zheng và cộng sự, Department of Computer Science and Engineering, Fudan Univerisity, China
Linear Least Squares Fit, Logistic Regression, SVM
Đặt vấn đề - tổng quan
5
Slide 4
Trang 6 Thế giới
• “Profile-Matching Techniques for On-Demand
Software Management in Sensor Networks”, Falko
Dressler và cộng sự, Department of Computer Science, University of Erlangen, Germany
Học máy tạo bộ dữ liệu đặc trưng mẫu
Đặt vấn đề - tổng quan
Trang 7 Trong nước
• “Một mô hình tạo lớp học thích nghi trong đào tạo
điện tử”, Nguyễn Việt Anh, khoa Công nghệ thông
tin, trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội
Sử dụng mạng xác suất Bayes, đánh giá kiến thức người học, sử dụng cơ chế thích nghi để phân tích, so
sánh sự khác nhau về tiến trình học
Đặt vấn đề - tổng quan
7
Slide 6
Trang 8 Trong nước
• “Dynamic Profile Representation and Matching in
Distributed Science Networks”, Phạm Trần Vũ,
Trường Đại học Bách Khoa, Đại học Quốc gia TP.HCM
So trùng các hồ sơ dựa trên các phân tích về mặt ngữ nghĩa (LSA), có khả năng thực hiện các so sánh liên quan đến ngữ nghĩa, dựa vào các phương pháp thống kê
Đặt vấn đề - tổng quan
8
Slide 7
Trang 9 Với mục tiêu:
• Xây dựng giải pháp biểu diễn hồ sơ cá nhân người sử
dụng từ các thông tin trên mạng xã hội
• Xây dựng giải pháp đánh giá mức độ tương đồng giữa
các hồ sơ cá nhân
Đặt vấn đề - mục tiêu
9
Slide 8
Trang 10 Hồ sơ cá nhân là một tập hợp gồm những thông tin
của một cá nhân Tùy theo lĩnh vực ứng dụng cụ thể,
hồ sơ cá nhân sẽ có những thông tin khác nhau phù hợp cho miền ứng dụng đó, chẳng hạn:
• Hồ sơ cá nhân trong hệ thống bán hàng qua mạng
• Hồ sơ cá nhân trong hệ thống e - Learning
Giới thiệu hồ sơ cá nhân
Trang 11 Để xây dựng được hồ sơ cá nhân tốt cho hệ thống thì
cần phải xác định được những đặc trưng nào của người dùng sẽ cần thiết, hữu ích cho hệ thống Chẳng hạn:
• Trong e- Commerce, các đặc trưng của hồ sơ cá nhân
về sở thích là quan trọng nhất
• Trong e-Learning thì các đặc trưng liên quan đến trình
độ học tập, kiến thức nền mới là quan trọng nhất
Giới thiệu hồ sơ cá nhân
11
Slide 10
Trang 12 Cấu trúc hồ sơ cá nhân cho hệ thống tư vấn của
Montainer, chia làm hai phần:
• Một tập các đặc trưng mô tả về đối tượng mà người
dùng quan tâm
• Một tập các đặc trưng về sở thích, mô tả sự quan tâm,
sự đánh giá của người dùng đối với các đối tượng mà
họ quan tâm
Cấu trúc hồ sơ cá nhân Montainer
Trang 13Slide 12
Cấu trúc hồ sơ cá nhân cho hệ thống đào tạo trực
tuyến của Brusilouvsky, bao gồm:
• Kiến thức (Knowledge):
• Sở thích/ mối quan tâm (Interests):
• Mục tiêu (Goals/ Tasks):
Trang 14 Cấu trúc hồ sơ cá nhân cho hệ thống đào tạo trực
tuyến của Lê Đức Long và cộng sự
Cấu trúc hồ sơ cá nhân Lê Đức Long
Trang 15 Qua nghiên cứu tìm hiểu, tác giả đề xuất một mô hình
cấu trúc hồ sơ cá nhân
Cấu trúc hồ sơ cá nhân tác giả đề xuất
15
Slide 14
Trang 16• Trong toán học, một độ đo là một hàm số tương ứng với
một "chiều dài", một "thể tích" hoặc một "xác suất" với một phần nào đó của một tập hợp cho sẵn
• Rất khó để đo sự tương đồng, sự tương đồng là một đại
lượng (con số) phản ánh cường độ của mối quan hệ giữa hai đối tượng hoặc hai đặc trưng Đại lượng này thường
ở trong phạm vi từ -1 đến 1 hoặc 0 đến 1
• Ví dụ: Hàm S(di,dj) được gọi là độ đo sự tương đồng
Giới thiệu độ tương đồng
Trang 17 Các phương pháp tính độ tương đồng
• Phương pháp sử dụng các tập dữ liệu chuẩn về ngôn
ngữ để tìm ra mối quan hệ giữa các từ: Wordnet, Brown Corpus, Penn TreeBank…
• Tính độ tương đồng sử dụng độ đo Cosine
• Tính độ tương đồng dựa vào độ đo khoảng cách
Trang 18
Sử dụng độ đo Cosine, tuy nhiên Cosine tính toán hạn
chế khi cần xét đến yếu tố ngữ nghĩa, hay ngữ nghĩa tương tự được bỏ qua trong tính toán Cosine
Do đó, sử dụng kết hợp với phân tích chủ đề ẩn Latent
Dirichlet Allocation (LDA), phương án được đánh giá khả thi và hiệu quả, tập trung vào việc bổ sung các thành phần ngữ nghĩa hỗ trợ cho độ đo tương đồng Cosine
Phương pháp tính độ tương đồng được chọn
18
Slide 17
Trang 19 Qua tìm hiểu nghiên cứu, tác giả rút ra quy trình so
sánh mức độ tương đồng cho các hồ sơ cá nhân:
Quy trình so sánh hồ sơ cá nhân
19
Slide 18
Trang 20Quy trình so sánh hồ sơ cá nhân
Trang 21Quy trình so sánh hồ sơ cá nhân
21
Slide 20
Trang 22 Thu thập dữ liệu hồ sơ cá nhân
Quy trình chi tiết – thu thập profile
Trang 23Từ điển TV
Từ điển stopword
23
Slide 22
Trang 24 Tách từ: Tiếng Việt khác các ngôn ngữ khác, tách từ
không dựa vào khoảng trắng như tiếng Anh Một số phương pháp tách từ tiếng Việt:
• Maximum Matching (MM)
• Transformation – based Learning (TBL)
• Weight Finit State Transducer và mạng Neural (WFST)
• Thống kê từ Internet và thuật giải di truyền
Quy trình chi tiết – các bước tiền xử lý
24
Slide 23
Trang 25 Phương pháp tách từ được chọn: Công cụ Jvntokenizer
(phương pháp MM với tập dữ liệu sử dụng là bảng âm tiết tiếng Việt và từ điển từ vựng tiếng Việt)
• Mã nguồn mở, dễ cài đặt, sửa đổi nâng cấp cho phù
hợp với hệ thống
• Độ chính xác cao (>97% theo đánh giá của tác giả,
thuộc nhánh đề tài “Xử lý văn bản tiếng Việt”, GS Hồ
Tú Bảo chủ trì)
Quy trình chi tiết – các bước tiền xử lý
25
Slide 24
Trang 26 Loại bỏ dấu câu, từ dừng
• Loại bỏ các dấu câu: ( , “ ” ~ ! @# $ % ^ & * ( ) - +
= | \ { } [ ] „ ? / > < * ) : ; …
• Loại bỏ các từ thường xuất hiện mà không có ý nghĩa
(và, hoặc, cũng, bởi, thế nên, tuy nhiên, …)
Biểu diễn các đặc trưng hồ sơ cá nhân thành các
vector
Quy trình chi tiết – các bước tiền xử lý
26
Slide 25
Trang 27 Phân tích chủ đề ẩn LDA: (2003, Blei at el) ý tưởng: Mỗi tài liệu là sự trộn lẫn của nhiều chủ đề Mỗi chủ đề là sự phân phối kết hợp giữa các từ
LDA là một mô hình Bayesian 3 cấp:
Trang 28 Module, công cụ:
• Module thu thập profile
• Jvntokenizer: tách từ
• JGibbsLDA (Nguyễn Cẩm Tú, 2008) cho học máy
• Java nền JDK 1.8, công cụ lập trình Netbean 7.3
Dữ liệu
• Hơn 1000 profile cho việc học máy từ facebook
• Hơn 30 profile cho kiểm thử từ khảo sát thực tế, từ
Kết quả thực nghiệm
28
Slide 27
Trang 29Mẫu phiếu thu thập hồ sơ cá nhân
29
Slide 28
Trang 30 Hình ảnh đặc trưng một số thuộc tính (sự phân phối kết
hợp giữa các từ)
Kết quả thực nghiệm
30
Slide 29
Trang 32 Hình ảnh so sánh mức độ tương đồng giữa các hồ sơ
Kết quả thực nghiệm
32
Slide 31
Trang 33 Nhận xét:
• Xét thấy trên toàn bộ quá trình thử nghiệm, sai số trung
bình khi so sánh giữa quan sát thực tế và hệ thống xử
lý là khoảng 8%
• Tỉ lệ phần trăm của tập dữ liệu toàn thể thu thập được
có thể chấp nhận khoảng 90% so với thực tế Trừ sai số
tỉ lệ tương đồng khi quan sát, ta thấy độ chính xác của
hệ thống đạt khoảng 85% đến 90%
Nhận xét
33
Slide 32
Trang 34 Luận văn đã đề xuất mô hình xây dựng và biểu diễn profile
người sử dụng theo một cấu trúc Xây dựng giải pháp đánh giá mức độ tương đồng giữa các profile
Việc thu thập hồ sơ cá nhân là tĩnh, biểu diễn thông tin hồ
sơ dưới dạng vector bao gồm các vector con
Xây dựng các đặc trưng thuộc tính hồ sơ dựa trên các
nghiên cứu về phân tích chủ đề ẩn (LDA)
Kết hợp độ đo tương đồng Cosine với phân tích chủ đề ẩn
giúp hạn chế trường hợp liên quan đến ngữ nghĩa
Kết luận
34
Slide 33
Trang 35 Hạn chế:
• Thông tin profile thu được từ mạng xã hội Facebook có
nhiều thông tin ảo, do đó quá trình học máy cho tập dữ liệu bao phủ miền ứng dụng chưa thật sự đạt mức tốt nhất
• Nhiều profile còn hạn chế thông tin cả về lượng lẫn về
chất dẫn đến khi so sánh không thể có kết luận như mong muốn
Hạn chế
35
Slide 34
Trang 36 Mở rộng so sánh mức độ tương đồng giữa các profile
không những với thông tin dạng text mà cho cả thông tin dạng hình ảnh
Cập nhật động thông tin hồ sơ cá nhân để đáp ứng lại
những thông tin thay đổi theo thời gian của hồ sơ
Cải tiến quy trình xử lý để hệ thống được tối ưu nhất
Hướng phát triển
36
Slide 35