1. Trang chủ
  2. » Luận Văn - Báo Cáo

giải pháp biểu diễn và so sánh mức độ tương đồng giữa các hồ sơ cá nhân trên mạng xã hội

37 391 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 37
Dung lượng 879,29 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

GIẢI PHÁP BIỂU DIỄN VÀ SO SÁNH MỨC ĐỘ TƯƠNG ĐỒNG GIỮA CÁC HỒ SƠ CÁ NHÂN TRÊN MẠNG XÃ HỘI GVHD: TS.. So trùng các hồ sơ dựa trên các phân tích về mặt ngữ nghĩa LSA, có khả năng thực hiệ

Trang 1

GIẢI PHÁP BIỂU DIỄN VÀ SO SÁNH MỨC

ĐỘ TƯƠNG ĐỒNG GIỮA CÁC HỒ SƠ CÁ

NHÂN TRÊN MẠNG XÃ HỘI

GVHD: TS Phạm Trần Vũ

HVTH: Đỗ Quốc Bảo

Trang 2

Kết quả thực nghiệm, đánh giá

Trang 3

 Từ sự thành công và phát triển của các mạng xã

hội như: Facebook, Linkedin, Youtube

 Cộng đồng online này đã tạo ra số lượng lớn các

tài liệu số trên web

 Cộng đồng này thuộc đa ngành nghề và cách trở

về mặt địa lý

Đặt vấn đề

3

Slide 2

Trang 4

 Việc tìm những người có cùng sở thích, cùng mối

quan tâm là không dễ dàng

 Nhu cầu giao lưu, giải trí, kết bạn là khá lớn và

thiết thực trong đời sống xã hội hiện tại

 Các hệ thống thông minh cung cấp các thông tin,

dịch vụ phù hợp nhất cho con người là xu hướng của xã hội hiện đại

Đặt vấn đề - lý do

Trang 5

 Thế giới

• “Using Profile Matching and Text Categorization for

Answer Extraction in TREC Genomics”, Haiqing

Zheng và cộng sự, Department of Computer Science and Engineering, Fudan Univerisity, China

Linear Least Squares Fit, Logistic Regression, SVM

Đặt vấn đề - tổng quan

5

Slide 4

Trang 6

 Thế giới

• “Profile-Matching Techniques for On-Demand

Software Management in Sensor Networks”, Falko

Dressler và cộng sự, Department of Computer Science, University of Erlangen, Germany

Học máy tạo bộ dữ liệu đặc trưng mẫu

Đặt vấn đề - tổng quan

Trang 7

 Trong nước

• “Một mô hình tạo lớp học thích nghi trong đào tạo

điện tử”, Nguyễn Việt Anh, khoa Công nghệ thông

tin, trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội

Sử dụng mạng xác suất Bayes, đánh giá kiến thức người học, sử dụng cơ chế thích nghi để phân tích, so

sánh sự khác nhau về tiến trình học

Đặt vấn đề - tổng quan

7

Slide 6

Trang 8

 Trong nước

• “Dynamic Profile Representation and Matching in

Distributed Science Networks”, Phạm Trần Vũ,

Trường Đại học Bách Khoa, Đại học Quốc gia TP.HCM

So trùng các hồ sơ dựa trên các phân tích về mặt ngữ nghĩa (LSA), có khả năng thực hiện các so sánh liên quan đến ngữ nghĩa, dựa vào các phương pháp thống kê

Đặt vấn đề - tổng quan

8

Slide 7

Trang 9

 Với mục tiêu:

• Xây dựng giải pháp biểu diễn hồ sơ cá nhân người sử

dụng từ các thông tin trên mạng xã hội

• Xây dựng giải pháp đánh giá mức độ tương đồng giữa

các hồ sơ cá nhân

Đặt vấn đề - mục tiêu

9

Slide 8

Trang 10

 Hồ sơ cá nhân là một tập hợp gồm những thông tin

của một cá nhân Tùy theo lĩnh vực ứng dụng cụ thể,

hồ sơ cá nhân sẽ có những thông tin khác nhau phù hợp cho miền ứng dụng đó, chẳng hạn:

• Hồ sơ cá nhân trong hệ thống bán hàng qua mạng

• Hồ sơ cá nhân trong hệ thống e - Learning

Giới thiệu hồ sơ cá nhân

Trang 11

 Để xây dựng được hồ sơ cá nhân tốt cho hệ thống thì

cần phải xác định được những đặc trưng nào của người dùng sẽ cần thiết, hữu ích cho hệ thống Chẳng hạn:

• Trong e- Commerce, các đặc trưng của hồ sơ cá nhân

về sở thích là quan trọng nhất

• Trong e-Learning thì các đặc trưng liên quan đến trình

độ học tập, kiến thức nền mới là quan trọng nhất

Giới thiệu hồ sơ cá nhân

11

Slide 10

Trang 12

 Cấu trúc hồ sơ cá nhân cho hệ thống tư vấn của

Montainer, chia làm hai phần:

• Một tập các đặc trưng mô tả về đối tượng mà người

dùng quan tâm

• Một tập các đặc trưng về sở thích, mô tả sự quan tâm,

sự đánh giá của người dùng đối với các đối tượng mà

họ quan tâm

Cấu trúc hồ sơ cá nhân Montainer

Trang 13

Slide 12

 Cấu trúc hồ sơ cá nhân cho hệ thống đào tạo trực

tuyến của Brusilouvsky, bao gồm:

• Kiến thức (Knowledge):

• Sở thích/ mối quan tâm (Interests):

• Mục tiêu (Goals/ Tasks):

Trang 14

 Cấu trúc hồ sơ cá nhân cho hệ thống đào tạo trực

tuyến của Lê Đức Long và cộng sự

Cấu trúc hồ sơ cá nhân Lê Đức Long

Trang 15

 Qua nghiên cứu tìm hiểu, tác giả đề xuất một mô hình

cấu trúc hồ sơ cá nhân

Cấu trúc hồ sơ cá nhân tác giả đề xuất

15

Slide 14

Trang 16

• Trong toán học, một độ đo là một hàm số tương ứng với

một "chiều dài", một "thể tích" hoặc một "xác suất" với một phần nào đó của một tập hợp cho sẵn

• Rất khó để đo sự tương đồng, sự tương đồng là một đại

lượng (con số) phản ánh cường độ của mối quan hệ giữa hai đối tượng hoặc hai đặc trưng Đại lượng này thường

ở trong phạm vi từ -1 đến 1 hoặc 0 đến 1

• Ví dụ: Hàm S(di,dj) được gọi là độ đo sự tương đồng

Giới thiệu độ tương đồng

Trang 17

 Các phương pháp tính độ tương đồng

• Phương pháp sử dụng các tập dữ liệu chuẩn về ngôn

ngữ để tìm ra mối quan hệ giữa các từ: Wordnet, Brown Corpus, Penn TreeBank…

• Tính độ tương đồng sử dụng độ đo Cosine

• Tính độ tương đồng dựa vào độ đo khoảng cách

Trang 18

 Sử dụng độ đo Cosine, tuy nhiên Cosine tính toán hạn

chế khi cần xét đến yếu tố ngữ nghĩa, hay ngữ nghĩa tương tự được bỏ qua trong tính toán Cosine

 Do đó, sử dụng kết hợp với phân tích chủ đề ẩn Latent

Dirichlet Allocation (LDA), phương án được đánh giá khả thi và hiệu quả, tập trung vào việc bổ sung các thành phần ngữ nghĩa hỗ trợ cho độ đo tương đồng Cosine

Phương pháp tính độ tương đồng được chọn

18

Slide 17

Trang 19

 Qua tìm hiểu nghiên cứu, tác giả rút ra quy trình so

sánh mức độ tương đồng cho các hồ sơ cá nhân:

Quy trình so sánh hồ sơ cá nhân

19

Slide 18

Trang 20

Quy trình so sánh hồ sơ cá nhân

Trang 21

Quy trình so sánh hồ sơ cá nhân

21

Slide 20

Trang 22

 Thu thập dữ liệu hồ sơ cá nhân

Quy trình chi tiết – thu thập profile

Trang 23

Từ điển TV

Từ điển stopword

23

Slide 22

Trang 24

 Tách từ: Tiếng Việt khác các ngôn ngữ khác, tách từ

không dựa vào khoảng trắng như tiếng Anh Một số phương pháp tách từ tiếng Việt:

• Maximum Matching (MM)

• Transformation – based Learning (TBL)

• Weight Finit State Transducer và mạng Neural (WFST)

• Thống kê từ Internet và thuật giải di truyền

Quy trình chi tiết – các bước tiền xử lý

24

Slide 23

Trang 25

 Phương pháp tách từ được chọn: Công cụ Jvntokenizer

(phương pháp MM với tập dữ liệu sử dụng là bảng âm tiết tiếng Việt và từ điển từ vựng tiếng Việt)

• Mã nguồn mở, dễ cài đặt, sửa đổi nâng cấp cho phù

hợp với hệ thống

• Độ chính xác cao (>97% theo đánh giá của tác giả,

thuộc nhánh đề tài “Xử lý văn bản tiếng Việt”, GS Hồ

Tú Bảo chủ trì)

Quy trình chi tiết – các bước tiền xử lý

25

Slide 24

Trang 26

 Loại bỏ dấu câu, từ dừng

• Loại bỏ các dấu câu: ( , “ ” ~ ! @# $ % ^ & * ( ) - +

= | \ { } [ ] „ ? / > < * ) : ; …

• Loại bỏ các từ thường xuất hiện mà không có ý nghĩa

(và, hoặc, cũng, bởi, thế nên, tuy nhiên, …)

 Biểu diễn các đặc trưng hồ sơ cá nhân thành các

vector

Quy trình chi tiết – các bước tiền xử lý

26

Slide 25

Trang 27

 Phân tích chủ đề ẩn LDA: (2003, Blei at el) ý tưởng: Mỗi tài liệu là sự trộn lẫn của nhiều chủ đề Mỗi chủ đề là sự phân phối kết hợp giữa các từ

 LDA là một mô hình Bayesian 3 cấp:

Trang 28

 Module, công cụ:

• Module thu thập profile

• Jvntokenizer: tách từ

• JGibbsLDA (Nguyễn Cẩm Tú, 2008) cho học máy

• Java nền JDK 1.8, công cụ lập trình Netbean 7.3

 Dữ liệu

• Hơn 1000 profile cho việc học máy từ facebook

• Hơn 30 profile cho kiểm thử từ khảo sát thực tế, từ

facebook

Kết quả thực nghiệm

28

Slide 27

Trang 29

Mẫu phiếu thu thập hồ sơ cá nhân

29

Slide 28

Trang 30

 Hình ảnh đặc trưng một số thuộc tính (sự phân phối kết

hợp giữa các từ)

Kết quả thực nghiệm

30

Slide 29

Trang 32

 Hình ảnh so sánh mức độ tương đồng giữa các hồ sơ

Kết quả thực nghiệm

32

Slide 31

Trang 33

 Nhận xét:

• Xét thấy trên toàn bộ quá trình thử nghiệm, sai số trung

bình khi so sánh giữa quan sát thực tế và hệ thống xử

lý là khoảng 8%

• Tỉ lệ phần trăm của tập dữ liệu toàn thể thu thập được

có thể chấp nhận khoảng 90% so với thực tế Trừ sai số

tỉ lệ tương đồng khi quan sát, ta thấy độ chính xác của

hệ thống đạt khoảng 85% đến 90%

Nhận xét

33

Slide 32

Trang 34

 Luận văn đã đề xuất mô hình xây dựng và biểu diễn profile

người sử dụng theo một cấu trúc Xây dựng giải pháp đánh giá mức độ tương đồng giữa các profile

 Việc thu thập hồ sơ cá nhân là tĩnh, biểu diễn thông tin hồ

sơ dưới dạng vector bao gồm các vector con

 Xây dựng các đặc trưng thuộc tính hồ sơ dựa trên các

nghiên cứu về phân tích chủ đề ẩn (LDA)

 Kết hợp độ đo tương đồng Cosine với phân tích chủ đề ẩn

giúp hạn chế trường hợp liên quan đến ngữ nghĩa

Kết luận

34

Slide 33

Trang 35

 Hạn chế:

• Thông tin profile thu được từ mạng xã hội Facebook có

nhiều thông tin ảo, do đó quá trình học máy cho tập dữ liệu bao phủ miền ứng dụng chưa thật sự đạt mức tốt nhất

• Nhiều profile còn hạn chế thông tin cả về lượng lẫn về

chất dẫn đến khi so sánh không thể có kết luận như mong muốn

Hạn chế

35

Slide 34

Trang 36

 Mở rộng so sánh mức độ tương đồng giữa các profile

không những với thông tin dạng text mà cho cả thông tin dạng hình ảnh

 Cập nhật động thông tin hồ sơ cá nhân để đáp ứng lại

những thông tin thay đổi theo thời gian của hồ sơ

 Cải tiến quy trình xử lý để hệ thống được tối ưu nhất

Hướng phát triển

36

Slide 35

Ngày đăng: 27/11/2014, 08:06

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w