1. Trang chủ
  2. » Luận Văn - Báo Cáo

Lọc cộng tác dựa trên mô hình đồ thị hai phía

18 589 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Lọc cộng tác dựa trên mô hình đồ thị hai phía
Tác giả Mai Thị Như
Người hướng dẫn TS Nguyễn Duy Phương
Trường học Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành Truyền dữ liệu và mạng máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2012
Thành phố Hà Nội
Định dạng
Số trang 18
Dung lượng 686,48 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Vấn đề Denning công bố ngay lập tức được cộng đồng các nhà khoa học máy tính nhiệt tình hưởng ứng và tập trung nghiên cứu phương pháp hạn chế ảnh hưởng của vấn đề quá tải thông tin đối v

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

-

MAI THỊ NHƯ

ĐỀ TÀI: LỌC CỘNG TÁC DỰA TRÊN MÔ HÌNH

ĐỒ THỊ HAI PHÍA

CHUYÊN NGÀNH: TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH

MÃ SỐ: 60.48.15

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2012

Trang 2

Luận văn được hoàn thành tại:

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học.: TS Nguyễn Duy Phương

Phản biện 1:

……… Phản biện 2:

………

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông

Vào lúc: giờ ngày tháng năm ……

Có thể tìm hiểu luận văn tại:

- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

Trang 3

PHẦN MỞ ĐẦU

1 Tính cấp thiết của đề tài nghiên cứu

Vấn đề quá tải thông tin (Information Overload) được J.Denning nêu ra lần đầu

tiên vào năm 1982 Với những lý lẽ và bằng chứng thuyết phục, Denning khẳng định khả năng lựa chọn thông tin hữu ích của người dùng máy tính sẽ gặp khó khăn nghiêm trọng bởi sự gia tăng không ngừng lượng thông tin khổng lồ đến từ hàng trăm kênh truyền hình, hàng triệu băng hình, sách, báo, tạp chí, tài liệu thông qua các hệ thống giao dịch điện tử Vấn đề Denning công bố ngay lập tức được cộng đồng các nhà khoa học máy tính nhiệt tình hưởng ứng và tập trung nghiên cứu phương pháp hạn chế ảnh hưởng của vấn đề quá tải thông tin đối với người dùng, thúc đẩy một lĩnh vực nghiên cứu mới đó là lọc thông tin

Lọc thông tin (Information Filtering) là lĩnh vực nghiên cứu các quá trình lọc bỏ

những thông tin không thích hợp và cung cấp thông tin thích hợp đến với mỗi người dùng Lọc thông tin được xem là phương pháp hiệu quả hạn chế tình trạng quá tải thông tin được quan tâm nhiều nhất hiện nay

Hệ tư vấn (Recommender System) là hệ thống có khả năng tự động phân tích, phân

loại, lựa chọn và cung cấp cho người dùng những thông tin, hàng hóa hay dịch vụ mà họ quan tâm Hệ tư vấn được xem như một biến thể điển hình có vai trò quan trọng trong lọc thông tin Nhiều hệ tư vấn đã được thương mại hóa và triển khai thành công, tiêu biểu là hệ

tư vấn của các hãng Amazon.com, Netflix.com, Procter & Gamble

Hệ tư vấn được xây dựng dựa trên hai kỹ thuật lọc thông tin chính: Lọc theo nội

dung (Content-Based Filtering) và lọc cộng tác (Collaborative Filtering) Lọc theo nội

dung khai thác những khía cạnh liên quan đến nội dung thông tin sản phẩm hoặc người dùng đã từng sử dụng hay truy nhập trong quá khứ để tạo nên tư vấn Trái lại, lọc cộng tác khai thác những khía cạnh liên quan đến thói quen sở thích của người sử dụng sản phẩm

để đưa ra dự đoán các sản phẩm mới cho người dùng này

Trang 4

Lọc cộng tác được tiếp cận theo hai xu hướng chính: Lọc cộng tác dựa vào bộ nhớ (Memory Based Collaborative Filtering) và Lọc cộng tác dựa trên mô hình (Model Based Collborative Filtering) So với lọc cộng tác dựa vào bộ nhớ, lọc cộng tác dựa trên mô hình

cho lại kết quả tốt hơn Chính vì vậy, em đã lựa chọn đề tài “Lọc cộng tác dựa trên mô

hình đồ thị hai phía” để thực hiện trong khuôn khổ luận văn thạc sĩ chuyên ngành truyền

số liệu và mạng máy tính

2 Mục tiêu của luận văn

Mục tiêu của luận án là nghiên cứu áp dụng, cải tiến phương pháp lọc cộng tác dựa trên mô hình, cụ thể là mô hình đồ thị hai phía nhằm cải thiện độ chính xác của lọc thông tin trong các hệ tư vấn Đặc biệt, nghiên cứu tập trung vào việc nâng cao kết quả dự đoán nhu cầu người dùng trong trường hợp dữ liệu thưa

3 Các kết quả đạt được của luận văn

Luận văn đã thực hiện đầy đủ những nội dung theo đề cương đã được phê duyệt Những kết quả đạt được của luận văn bao gồm:

Nghiên cứu và tổng hợp được những vấn đề tổng quan về lọc cộng tác, bao gồm:

- Kiến trúc tổng quát của các hệ thống lọc thông tin, phân biệt hệ thống lọc thông

tinh với các hệ thống khác như hệ thống truy vấn thông tin (Information Retrieval)

hệ thống tách thông tin (Information Extraction);

- Phát biểu bài toán lọc cộng tác tổng quát và những vấn đề liên quan

- Nghiên cứu và tổng hợp lại các phương pháp lọc cộng tác tổng quát: Lọc cộng tác

dựa trên bộ nhớ (MBCF), lọc cộng tác dựa trên mô hình (MDBCF) Phân tích rõ

lợi thể và hạn chế của mỗi phương pháp để xác định mục tiêu nghiên cứu cụ thể của đề tài

Nghiên cứu và mở rộng mô hình đồ thị hai phía cho lọc cộng tác, bao gồm:

- Nghiên cứu và mở rộng phương pháp biểu diễn đồ thị hai phía cho lọc cộng tác Trong đó, phương pháp biểu diễn mở rộng trực tiếp mô hình của Huang

Trang 5

- Nghiên cứu và mở rộng phương pháp dự đoán cho lọc cộng tác bằng cách xem xét bài toán lọc cộng tác như bài toán tìm kiếm trên đồ thị

- Thử nghiệm, so sánh và đánh giá kết quả của mô hình so với các phương pháp khác Kết quả cho kiểm nghiệm cho thấy, mô hình đã cải thiện đáng kể chất lượng dự đoán cho lọc cộng tác Đặc biệt, mô hình hạn chế được vấn đề dữ liệu thưa của lọc cộng tác

Xây dựng hệ thống tư vấn lựa chọn phim dựa trên mô hình đồ thị hai phía Mô hình phản ánh đầy đủ các chức năng cơ bản của một hệ thống lọc và cho lại kết quả

tư vấn tốt trong trường hợp dữ liệu thưa

4 Bố cục của luận văn

Nội dung luận văn được xây dựng thành ba chương, trong đó:

Chương 1 giới thiệu tổng quan về lọc cộng tác Trình bày những nghiên cứu cơ bản

của lọc cộng tác, các phương pháp lọc cộng tác và những vấn đề cần tiếp tục nghiên cứu của mỗi phương pháp Trên cơ những nghiên cứu cơ bản, xác định rõ hướng nghiên cứu cụ thể của đề tài

Chương 2 trình bày phương pháp biểu diễn, phương pháp dự đoán cho lọc cộng tác

bằng mô hình đồ thị hai phía Đây cũng là kết quả nghiên cứu chính của đề tài

Chương 3 Trình bày thiết kế và xây dựng ứng dụng hệ tư vấn lưạ chọn phim Ứng

dụng được thiết kế và cài đặt theo phương pháp lọc cộng tác được trình bày trong chương

2 Cuối cùng là phần kết luận

Trang 6

CHƯƠNG 1: TỔNG QUAN VỀ LỌC CỘNG TÁC

Mục tiêu chính của chương này trình là bày những vấn đề tổng quan về lọc cộng tác, các phương pháp lọc cộng tác, phân tích rõ những hạn chế tồn tại mỗi phương pháp

để từ đó xác định rõ hướng nghiên cứu cụ thể của đề tài Những kết quả nghiên cứu của

đề tài sẽ được trình bày trong các chương tiếp theo của luận văn

1.1 Tổng quan về lọc thông tin

1.1.1 Kiến trúc tổng quát của hệ thống lọc thông tin

Một hệ thống lọc thông tin tổng quát bao gồm bốn thành phần cơ bản Thành phần

phân tích dữ liệu (Data Analyser Component), thành phần mô hình người dùng (User

Model Component), thành phần học (Learning Component) và thành phần lọc ( Filtering Component)

Hinh 1.1 Kiến trúc tổng quát của hệ thống lọc thông tin

1.1.2 Lọc thông tin và truy vấn thông tin

1.1.3 Lọc thông tin và các hệ tư vấn

1.2 Phát biểu bài toán lọc cộng tác

Cho tập hợp hữu hạn U = {u1, u2,…, uN} là tập gồm N người dùng, P = {p1, p2, ,

pM} là tập gồm M sản phẩm Mỗi sản phẩm pxP có thể là hàng hóa, phim, ảnh, tạp chí,

Trang 7

tài liệu, sách, báo, dịch vụ hoặc bất kỳ dạng thông tin nào mà người dùng cần đến Để

thuận tiện trong trình bày, ta viết pxP ngắn gọn thành xP; và uiU là iU

Mối quan hệ giữa tập người dùng U và tập sản phẩm P được biểu diễn thông qua

ma trận đánh giá R={ rix }, i = 1 N, x = 1 M Mỗi giá trị rix thể hiện đánh giá của người

dùng i  U cho một số sản phẩm x  P Giá trị r ix có thể được thu thập trực tiếp bằng cách hỏi ý kiến người dùng hoặc thu thập gián tiếp thông qua cơ chế phản hồi của người dùng

Giá trị rix =  được hiểu người dùng i chưa đánh giá hoặc chưa bao giờ biết đến sản phẩm x

Tiếp đến ta ký hiệu, Pi P là tập các sản phẩm được đánh giá bởi người dùng iU và

UxU là tập các người dùng đã đánh giá sản phẩm xP Với một người dùng cần được tư vấn aU (được gọi là người dùng hiện thời, người dùng cần được tư vấn, hay người dùng tích cực), bài toán lọc cộng tác là dự đoán đánh giá của a đối với những mặt hàng x (P \

Pa), trên cơ sở đó tư vấn cho người dùng a những sản phẩm được đánh giá cao

Ma trận đánh giá R = (rix) là đầu vào duy nhất của các phương pháp lọc cộng tác Dựa trên ma trận đầu vào, các phương pháp lọc cộng tác thực hiện như được mô tả trong Hình 1.2

Hinh 1.2 Các thành phần của hệ thống lọc cộng tác

Trang 8

Có nhiều phương pháp đề xuất khác nhau để giải quyết bài toán lọc cộng tác Tuy vậy ta có thể phân loại các phương pháp thành hai cách tiếp cận chính: Lọc cộng tác dựa vào bộ nhớ và lọc cộng tác dựa vào mô hình Nội dung cụ thể của hai phương pháp này được trình bày trong những mục tiếp theo

1.3 Phương pháp lọc cộng tác dựa trên bộ nhớ

Lọc cộng tác dựa trên độ bộ nhớ được tiếp cận theo hai phương pháp chính: Phương pháp lọc dựa vào người dùng (UserBased) và lọc dựa vào sản phẩm (ItemBased) Mỗi phương pháp đều có những ưu điểm riêng khai thác những khía cạnh liên quan đến người dùng hoặc sản phẩm Đặc điểm chung của cả hai phương pháp này là sử dụng toàn

bộ tập dữ liệu đánh giá để dự đoán quan điểm của người dùng cần được tư vấn về các sản phẩm mà họ chưa hề biết đến

1.3.1 Phương pháp UserBased và ItemBased

1.3.2 Ví dụ minh họa

1.3.3 Hạn chế của phương pháp User-Based và Item-Based

1.4 Phương pháp dựa trên mô hình

Việc thiết kế và phát triển các mô hình (như các thuật toán học máy, khai phá dữ liệu) có thể cho phép hệ thống học cách nhận biết các mẫu phức tạp dựa trên dữ liệu huấn luyện, và sau đó đưa ra các dự đoán thông minh cho nhiệm vụ lọc cộng tác cho dữ liệu kiểm thử hay dữ liệu thực, dựa trên các mô hình đã học được Các thuật toán CF dựa trên mô hình, như là các mô hình Bayesian, các mô hình phân cụm và các mạng phụ thuộc đã được nghiên cứu để giải quyết những hạn chế của các thuật toán CF dựa trên bộ nhớ

1.4.1 Các thuật toán CF mạng bayes tin cậy

1.4.2 Các thuật toán CF phân cụm

1.4.3 Những vấn đề còn hạn chế

Trang 9

1.5 Mục tiêu nghiên cứu của đề tài

Mục tiêu nghiên cứu chính của đề tài là:

 Đưa ra phương pháp biểu diễn đồ thị phù hợp với các bộ dữ liệu hiện nay Phương pháp xây dựng dựa trên mô hình đồ thị hai phía gồm các đỉnh người dùng và đỉnh sản phẩm Các đỉnh người dùng và đỉnh sản phẩm được liên kết với nhau dựa trên dữ liệu đánh giá của người dùng với các sản phẩm

 Xây dựng và đưa ra phương pháp huấn luyện và dự đoán dựa trên mô hình

đồ thị trọng số

 Thử nghiệm và đánh giá dựa trên các tập dữ liệu thực hiện nay, từ đó rút ra kết quả để so sánh với các nghiên cứu trước đây để thấy được hiệu quả của các phương pháp

Trang 10

CHƯƠNG 2:LỌC CỘNG TÁC DỰA TRÊN MÔ HÌNH ĐỒ THỊ HAI PHÍA

Nội dung chương này trình bày một mô hình lọc cộng tác dựa trên đồ thị hai phía Phương pháp biểu diễn phù hợp với tất cả các bộ dữ liệu hiện nay của lọc cộng tác Phương pháp dự đoán được đưa về bài toán tìm kiếm trên đồ thị cho phép ta sử kế thừa được các thuật toán hiệu quả trên đồ thị Kết quả thử nghiệm trên dữ liệu thực về phim cho thấy mô hình đề xuất cải thiện đáng kể chất lượng dự đoán cho lọc cộng tác

2.1 Giới thiệu về đồ thị hai phía

Định nghĩa Đồ thị vô hướng G= <T, E>, trong đó T là tập đỉnh, E là tập các cặp

là tập cạnh được gọi là đồ thị hai phía (Đồ thị lưỡng phân, đồ thị phân đôi, đồ thị đối

sánh) nếu T được chia thành hai tập U, V (T = UV) sao cho với mọi cạnh e =(s,t)  E thì

s  U và tV

Hinh 2.1 Ví dụ về đồ thị hai phía

Trang 11

2.2 Một số nghiên cứu liên quan

2.3 Mở rộng mô hình đồ thị hai phía

2.3.1 Phương pháp biểu diễn đồ thị

Không hạn chế tính tổng quát của bài toán, ta có thể giả sử rix = +v nếu người dùng i “thích” sản phẩm x ở mức độ v, rix = -v nếu người dùng i “không thích” sản phẩm

x ở mức độ -v, trong đó v[-1,1]

v

v

rix

(2.3)

Đối với các tập dữ liệu thử nghiệm cho lọc cộng tác, ta dễ dàng chuyển đổi biểu diễn thành ma trận đánh giá theo công thức (2.3) bằng cách chọn một giá trị ngưỡng 

Những giá trị rix> được dịch chuyển thành các giá trị dương, ngược lại chuyển đổi thành giá trị âm

2.3.2 Phương pháp dự đoán

2.3.3 Ví dụ minh họa

2.4 Thử nghiệm và đánh giá

2.4.1 Dữ liệu kiểm nghiệm

2.4.2 Phương pháp thử nghiệm

2.5 Kết quả kiểm nghiệm

Nếu người dùng i thích sản phẩm x ở mức độ v

Nếu người dùng i chưa biết đến sản phẩm x

Nếu người dùng i không thích sản phẩm x ở mức độ -v

Trang 12

Bang 2.1 Kết quả kiểm nghiệm trên tập MovieLens

Phương pháp

Độ đo

Số đánh giá biết trước trong tập kiểm tra

UserBased

Độ nhạy 0.144 0.157 0.162 0.279

Độ chính xác 0.174 0.186 0.198 0.218

F-Measure 0.158 0.170 0.178 0.245

ItemBased

Độ nhạy 0.098 0.118 0.144 0.259

Độ chính xác 0.211 0.211 0.174 0.144

F-Measure 0.134 0.151 0.157 0.185

Huang-Graph

Độ nhạy 0.142 0.165 0.234 0.381

Độ chính xác 0.175 0.234 0.292 0.339

F-Measure 0.157 0.194 0.299 0.359

Bipart-Graph

Độ nhạy 0.198 0.215 0.312 0.397

Độ chính xác 0.211 0.284 0.325 0.377

F-Measure 0.204 0.245 0.318 0.387

Bang 2.2 Kết quả kiểm nghiệm trên tập BookCrossing

Phương pháp

Độ đo

Số đánh giá biết trước trong tập kiểm tra

UserBased

Độ nhạy 0.102 0.121 0.142 0.149

Độ chính xác 0.174 0.194 0.214 0.265

F-Measure 0.129 0.149 0.171 0.191

Trang 13

ItemBased

Độ nhạy 0.092 0.114 0.124 0.152

Độ chính xác 0.147 0.163 0.211 0.259

F-Measure 0.113 0.134 0.156 0.192

Huang-Graph

Độ nhạy 0.113 0.129 0.134 0.156

Độ chính xác 0.248 0.286 0.310 0.326

F-Measure 0.155 0.178 0.187 0.211

Bipart-Graph

Độ nhạy 0.125 0.138 0.157 0.185

Độ chính xác 0.287 0.256 0.234 0.473

F-Measure 0.174 0.179 0.188 0.266

2.6 Kết luận

Kết quả kiểm nghiệm trên các bộ dữ liệu thực về sách và phim có nhiều mức đánh

giá khác nhau cho thấy mô hình đề xuất cho lại độ chính xác, độ nhạy và tỷ lệ F cao hơn

hẳn các phương pháp ItemBased, UserBased và Huang-Graph Điều đó có thể khẳng định, phương pháp biểu diễn và dự đoán của mô hình đồ thị hai phía có trọng số đề xuất cải thiện đáng kể chất lượng dự đoán cho lọc cộng tác Ưu điểm nổi bật của mô hình so với những mô hình trước đây là thỏa mãn biểu diễn hiện có của tất cả các tập dữ liệu của lọc cộng tác Phương pháp dự đoán được đưa về bài toán tìm kiếm trên đồ thị có trọng số cho phép ta phân biệt được mức độ quan trọng của từng loại đường đi bằng cách sử dụng các thuật toán hiệu quả đã được áp dụng thành công cho nhiều ứng dụng khác nhau trên

đồ thị Chất lượng dự đoán được cải thiện bằng cách mở rộng các đường đi từ đỉnh người dùng đến đỉnh sản phẩm Điều ày cho phép ta tận dụng được các mối liên hệ gián tiếp giữa người dùng và sản phẩm vào quá trình dự đoán

Trang 14

CHƯƠNG 3:XÂY DỰNG HỆ THỐNG TƯ VẤN LỰA

CHỌN PHIM DỰA TRÊN MÔ HÌNH ĐỒ THỊ HAI PHÍA

Hệ thống tư vấn lựa chọn phim (Film Recommendation System) được xây dựng

dựa vào mô hình đồ thị hai phía đã được trình bày trong Chương2 Hệ thống cho phép người dùng xem phim, tra cứu nội dung phim, đánh giá phim, tìm kiếm nội dung phim, tư vấn phim và một số chức năng cập nhật thông tin về phim và thông tin người dùng Toàn

bộ hệ thống được xây dựng dựa trên công nghệ JSP với giao diện Web thân thiện, đẹp và

dễ sử dụng

3.1 Kiến trúc tổng quát của hệ thống

3.1.1 Tầng trình bày

3.1.2 Tầng Logic

3.1.3 Tầng dữ liệu

Ngày đăng: 13/02/2014, 12:55

HÌNH ẢNH LIÊN QUAN

ĐỒ THỊ HAI PHÍA - Lọc cộng tác dựa trên mô hình đồ thị hai phía
ĐỒ THỊ HAI PHÍA (Trang 1)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w