Hệ tư vấn và ứng dụng cho bài toán dự báo kết quả bóng đá

DANH SÁCH HÌNH VẼ Hình 1.1: Quá trình khám phá tri thức Hình 1.2: Các nhiệm vụ khai phá dữ liệu Hình 1.3: Các kỹ thuật khai phá dữ liệu Hình 2.1: Ma trận đánh giá R của người dùng lên tà

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Đình Hóa

TS Lê Hoàng Sơn

HÀ NỘI - 2014

Trang 3

LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu độc lập của riêng tôi, không sao chép ở bất kỳ một công trình hoặc một luận văn, luận án của các tác giả khác Các số liệu, kết quả nêu trong luận văn này là trung thực và chƣa đƣợc công bố trong bất kỳ công trình nào khác Các trích dẫn, các số liệu và kết quả tham khảo dùng để so sánh đều có nguồn trích dẫn rõ ràng

Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình

Hà Nội, tháng 12 năm 2014

Tác giả luận văn

Nguyễn Thị Ninh

Trang 4

LỜI CẢM ƠN

Trước khi trình bày nội dung chính của luận văn, em xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS Nguyễn Đình Hóa và Tiến sĩ Lê Hoàng Sơn, người đã tận tình hướng dẫn và tạo điều kiện để em có thể hoàn thành luận văn này

Thứ hai, em xin bày tỏ lòng biết ơn chân thành tới toàn thể các thầy cô giáo trong khoa Công nghệ thông tin, trường Đại học Công nghệ Hà Nội, Đại học Quốc gia

Hà Nội đã dạy bảo tận tình em trong suốt quá trình em học tập tại khoa

Thứ ba, em xin được gửi lời cảm ơn tới các thầy cô, các anh chị và các bạn trong Trung tâm Tính toán Hiệu năng cao, trường Đại học Khoa học tự nhiên đã giúp

đỡ em trong suốt thời gian làm luận văn này

Cuối cùng em xin chân thành cảm ơn tới gia đình, bạn bè, đồng nghiệp đã luôn bên em cổ vũ, động viên, giúp đỡ em trong suốt quá trình học tập và thực hiện luận văn này Luận văn này được thực hiện dưới sự tài trợ của đề tài NAFOSTED, mã số: 102.05-2014.01

Mặc dù đã cố gắng hoàn thành luận văn trong phạm vi và khả năng cho phép nhưng chắc chắn sẽ không tránh khỏi những thiếu sót Em rất mong được sự góp ý chân thành của thầy cô và các bạn để em hoàn thiện luận văn của mình

Xin chân thành cảm ơn!

Hà Nội, ngày 02 tháng 12 năm 2014

Học viên

Nguyễn Thị Ninh

Trang 5

MỤC LỤC

LỜI CAM ĐOAN 2

LỜI CẢM ƠN 4

MỤC LỤC 5

DANH SÁCH HÌNH VẼ 8

DANH SÁCH BẢNG 9

DANH MỤC CÁC KÝ HIỆU VIẾT TẮT 10

MỞ ĐẦU 11

CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 13

1.1 KHAI PHÁ DỮ LIỆU 13

1.1.1 Định nghĩa khai phá dữ liệu 13

1.1.2 Khám phá tri thức 13

1.2 KỸ THUẬT KHAI PHÁ DỮ LIỆU 14

1.2.1 Các thành tố cơ bản 14

1.2.2 Các nhiệm vụ khai phá dữ liệu 16

1.2.3 Kỹ thuật khai phá dữ liệu 17

1.3 ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU 19

1.3.1 Ứng dụng của khai phá dữ liệu 19

1.3.2 Ứng dụng các phương pháp khai phá dữ liệu trong hệ tư vấn 20

1.4 KẾT LUẬN CHƯƠNG 21

CHƯƠNG 2 HỆ TƯ VẤN VÀ CÁC PHƯƠNG PHÁP LỌC 22

2.1 HỆ TƯ VẤN 22

2.1.1 Định nghĩa hệ tư vấn 22

2.1.2 Các phương pháp khuyến nghị 22

2.2 PHƯƠNG PHÁP LỌC CỘNG TÁC 23

2.2.1 Khát quát lọc cộng tác 23

2.2.2 Cách tiếp cận dựa trên người dùng 24

2.2.3 Cách tiếp cận dựa trên tài nguyên 26

2.3 VẤN ĐỀ COLD - START 28

Trang 6

2.3.1 Phát sinh vấn đề cold - start 28

2.3.2 Phương pháp dựa trên nhân khẩu 29

2.4 PHƯƠNG PHÁP TIẾP CẬN ĐA CHIỀU 31

2.4.1 Mô hình khuyến nghị đa chiều 31

2.4.2 Giảm chiều cho mô hình khuyến nghị đa chiều 32

2.5 NGỮ CẢNH TRONG HỆ TƯ VẤN 34

2.5.1 Vai trò của ngữ cảnh 34

2.5.2 Kết hợp ngữ cảnh trước khi lọc 35

2.5.3 Kết hợp ngữ cảnh sau khi lọc 35

2.5.4 Kết hợp ngữ cảnh trong khi lọc 36

2.6 MÔ HÌNH NGƯỜI DÙNG TƯƠNG TỰ NHSM 36

2.6.1 Nhược điểm của độ đo tương tự hiện có 36

2.6.2 Công thức của độ đo tương tự NHSM 39

2.7 THUẬT TOÁN DỰ BÁO 40

CHƯƠNG 3 ỨNG DỤNG CHO BÀI TOÁN DỰ BÁO KẾT QUẢ BÓNG ĐÁ 43

3.1 ĐẶC TẢ YÊU CẦU 43

3.1.1 Yêu cầu thực tế 43

3.1.2 Thực tế hóa hệ thống 43

3.1.3 Mục đích của hệ thống 43

3.2 PHÂN TÍCH HỆ THỐNG 44

3.2.1 Chức năng người dùng 44

3.2.2 Chức năng người quản trị 44

3.2.3 Mô hình tổng thể thể hiện mối quan hệ giữa các ca sử dụng 46

3.2.4 Mô tả giao diện hệ thống 46

3.3 ĐẶC TẢ CSDL 49

3.3.1 CSDL 49

3.3.2 Mô tả quan hệ CSDL 51

3.4 THIẾT KẾ HỆ THỐNG 51

Trang 7

3.4.1 Modul dự báo 51

3.4.2 Modul giải đấu 52

3.4.3 Modul mùa giải 52

3.4.4 Modul thông tin đội bóng 52

3.4.5 Modul thuật toán 53

3.5 MINH HỌA CÁC CHỨC NĂNG HỆ THỐNG 53

3.5.1 Chức năng dự báo kết quả bóng đá 53

3.5.2 Các chức năng trong việc quản lý dữ liệu 56

KẾT LUẬN 59

TÀI LIỆU THAM KHẢO 60

Trang 8

DANH SÁCH HÌNH VẼ

Hình 1.1: Quá trình khám phá tri thức

Hình 1.2: Các nhiệm vụ khai phá dữ liệu

Hình 1.3: Các kỹ thuật khai phá dữ liệu

Hình 2.1: Ma trận đánh giá R của người dùng lên tài nguyên

Hình 2.2: Minh họa một đánh giá cần dự đoán của người dùng với lọc cộng tác

Hình 2.3: Các cách tiếp cận trong lọc cộng tác

Hình 2.4: Phương pháp dựa trên nhân khẩu

Hình 2.5: Khung đánh giá thuộc tính nhân khẩu

Hình 2.6: Mô hình khuyến nghị đa chiều với không gian Người dùng  Mặt hàng 

Thời gian

Hình 2.7: Tư vấn cho người dùng theo ngữ cảnh (thời tiết)

Hình 2.8: Mô hình (UICR): Dữ liệu ban đầu gồm các người dùng, các mục để đưa ra khuyến nghị, các ngữ cảnh liên quan và hàm xếp hạng

Hình 2.9: Ma trận người dùng tương tự theo bảng 2.3

Hình 3.1: Sơ đồ ca sử dụng của người dùng

Hình 3.2: Sơ đồ ca người quản trị quản lý thông tin đội bóng

Hình 3.3: Sơ đồ ca người quản trị quản lý giải đấu

Hình 3.4: Sơ đồ ca người quản trị quản lý mùa giải

Hình 3.5: Sơ đồ ca người quản trị quản trị quản lý thuật toán

Hình 3.6: Sơ đồ ca tổng thể mối quan hệ giữa các ca sử dụng

Hình 3.7: Giao diện tại mục trang chủ (phần trang chủ)

Hình 3.8: Giao diện tại menu ảnh nằm ngang (phần trang quản trị)

Hình 3.9: CSDL quan hệ giữa các bảng

Hình 3.10: Lựa chọn giải đấu cho dự báo

Hình 3.11: Lựa chọn mùa giải cần dự báo

Hình 3.12: Lựa chọn tập huấn luyện và tập kiểm tra

Hình 3.13: Lựa chọn ô kết quả cần dự báo

Hình 3.14: Lựa chọn sai số cho kết quả cần dự báo và hiển thị kết quả

Hình 3.15: Giao diện phần quản lý thông tin đội bóng

Hình 3.16: Giao diện phần quản lý giải đấu

Trang 9

Hình 3.17: Giao diện phần quản lý mùa giải chung

Hình 3.18: Giao diện phần quản lý mùa giải chi tiết

Hình 3.19: Giao diện phần quản lý thuật toán

DANH SÁCH BẢNG

Bảng 2.1: Ví dụ về đánh giá của người dùng lên tài nguyên

Bảng 2.2: Ma trận đánh giá của người dùng lên tài nguyên có người dùng mới Bảng 2.3: Bảng thông tin nhân khẩu của một số người dùng

Bảng 2.4: Ma trận đánh giá người dùng – tài nguyên

Trang 10

DANH MỤC CÁC KÝ HIỆU VIẾT TẮT

Khám phá tri thức KDD Knowledge Discovery in Databases

NHSM New heuristic similarity model

Độ đo tương quan Pearson PCC Pearson correlation coefficient

Độ đo tương quan Pearson có

ràng buộc

CPCC Constrained Pearson correlation

coefficient

Độ đo cosin hiệu chỉnh ACOS Adjusted Cosine

Độ đo PSS PSS Proximity Signsficance Singularity

Trang 11

MỞ ĐẦU 1/ ĐẶT VẤN ĐỀ

Trong hơn một thập niên trở lại đây, với sự phát triển mạnh của xã hội thì công nghệ viễn thông và thiết bị điện tử cũng phát triển không ngừng Tuy nhiên, sự bùng

nổ này cũng kèm theo mặt trái của nó Lượng thông tin lưu trữ ngày một lớn đã gây sức ép đáng kể tới phần cứng, buộc con người tìm đủ mọi cách để tận dụng nguồn tài nguyên dồi dào này Khai phá dữ liệu xuất hiện như câu trả lời cho khủng hoảng thừa thông tin

Internet có mặt trên mọi phương diện của cuộc sống Tuy nhiên, người sử dụng lại mất nhiều thời gian để tìm kiếm thông tin với nhu cầu bản thân Một số công cụ tìm kiếm trực tuyến đã được triển khai hỗ trợ cho ngưởi dùng nhưng nhiều khi vẫn chưa cho hiệu quả như mong muốn Để thay đổi điều đó, các phương pháp khai phá thông tin được hình thành, hỗ trợ không nhỏ cho sự phát triển của hệ thống khuyến nghị Hệ

tư vấn sinh ra nhằm mục đích tính toán thông tin trong dữ liệu và để dự đoán sở thích của người dùng và đưa ra các khuyến nghị phù hợp với người dùng Để thực hiện mục tiêu đó, hệ tư vấn vẫn không ngừng được cải thiện, nâng cao chất lượng hiện có Phương pháp phổ biến, đóng vai trò quan trọng trong hệ tư vấn là lọc cộng tác Xuất hiện trong hệ tư vấn, ngữ cảnh mô tả chi tiết hơn về các đối tượng trong hệ thống, góp phần tư vấn được chính xác hơn

Hệ tư vấn có ứng dụng trong nhiều lĩnh vực thực tế như hệ thống dự báo phim,

âm nhạc, v.v Bóng đá là một môn thể thao được nhiều người quan tâm và triển khai nhiều dịch vụ giải trí Người hâm mộ được khuyến khích đưa ra kết quả dự báo của mình mỗi khi trận đấu được xảy ra Hiểu rõ điều này, chúng tôi xây dựng hệ thống dự báo kết bóng đá dựa trên hệ tư vấn Hệ thống áp dụng phương pháp điển hình của hệ

tư vấn kết hợp với các đặc trưng vốn có của một trận đấu bóng đá để dự báo kết quả theo các hướng khác nhau Hệ thống này được triển khai cho thấy được hướng phát triển của hệ tư vấn trong lĩnh vực thể thao

2/ MỤC ĐÍCH CỦA LUẬN VĂN

Việc dự báo kết quả bóng đá cũng sẽ giúp cho người tham gia dự đoán có được những ý kiến gợi ý nhất định, tránh được những sai lầm không đáng có Trang web dự báo kết quả bóng đá được xây dựng dựa trên hệ tư vấn Luận văn tiến hành trình bày

và phân tích dựa trên thuật toán lọc sử dụng độ đo tương tự để tính toán đưa ra khuyến nghị Sau đó dựa trên kết quả phân tích để so sánh và đánh giá khả năng dự báo

3/ BỐ CỤC CỦA LUẬN VĂN

Luận văn gồm 3 chương, có phần mở đầu, phần kết luận, phần mục lục, phần tài liệu tham khảo Các nội dung cơ bản của luận văn được trình bày theo cấu trúc như sau:

Trang 12

Chương 1: Tổng quan về khai phá dữ liệu

Trong chương này, luận văn sẽ trình bày những vấn đề cơ bản của khai phá dữ liệu như: định nghĩa, các thành tố cơ bản của một nhiệm vụ khai phá dữ liệu, các nhiệm vụ, các kỹ thuật và ứng dụng của khai phá dữ liệu Thông qua đó, khai phá dữ liệu tạo đã điều kiện phát triển cho hệ tư vấn

Phần tiếp theo trình bày về các độ đo tương tự Đưa ra độ đo tương tự mới NHSM và thuật toán dự báo kết quả bóng đá với độ đo mới này

Chương 3: Ứng dụng cho bài toán dự báo kết quả bóng đá

Nội dung chương này trình bày phân tích, thiết kế trang web dự báo kết quả bóng đá và xây dựng chương trình ứng dụng

Trang 13

CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1 KHAI PHÁ DỮ LIỆU

1.1.1 Định nghĩa khai phá dữ liệu

Trong những năm trở lại đây, công nghệ thông tin đã có những bước đột phá, đạt được nhiều thành tựu to lớn Sự phát triển của công nghệ điện tử dựa trên định luật Moore đã cho ra những thiết bị có dung lượng chứa lớn mà giá thành lại giảm Với nhu cầu của con người thì lượng thông tin đang được lưu trữ là một con số khổng lồ và không ngừng tiếp tục gia tăng nhanh chóng Trong tác phẩm John Naisbitt năm 1982 thì Megatrends đã đề cập [29]: “Chúng ta đang ngập trong dữ liệu nhưng lại đói tri thức” Thực trạng đòi hỏi con người phải tìm cách khai thác nguồn dữ liệu này, tuy nhiên chỉ có 20% dữ liệu ẩn chứa những tri thức quý giá Vấn đề được đặt ra là làm thế nào chúng ta có thể lấy ra được những thông tin hữu ích đó trong một “núi” dữ liệu như vậy?

Như một quy luật của tự nhiên, sự khó khăn của bài toán thúc đẩy con người tìm mọi cách khắc phục KPDL đã được xuất hiện như một giải pháp thần kỳ cho vấn đề nan giải của công nghệ thông tin Gắn liền với dữ liệu, KPDL được úng dụng rộng rãi không chỉ trong khoa học mà còn cả kinh tế, xã hội, giáo dục, v.v

Thuật ngữ KPDL xuất hiện vào những năm thập niên 90 nhưng sự phát triển của KPDL là quá trình phát triển của một lĩnh vực với lịch sử lâu dài Hiểu một cách đơn giản, KPDL là chiết xuất hoặc khai thác kiến thức từ một lượng lớn dữ liệu Thuật ngữ này dễ làm cho người ta hiểu nhầm ý nghĩa của nó Cụ thể hóa là việc thực hiện khai thác vàng từ các loại đá hoặc cát là được gọi là khai thác vàng chứ không phải khai thác

đá hoặc cát Do đó, KPDL hiểu một cách chính xác hơn là khai thác tri thức từ dữ liệu, mặc dù cái tên gọi đó hơi dài Nếu tên gọi được đổi lại là khai thác tri thức, sẽ là ngắn gọn hơn nhưng nó có thể sẽ không nhấn mạnh vào việc khai thác từ một lượng lớn dữ liệu Tuy nhiên, KPDL là một thuật ngữ sinh động, thể hiện ra việc tìm kiếm một lượng tài nguyên nhỏ từ lượng lớn dữ liệu

Từ những lý giải trên, định nghĩa về KPDL có thể được mô tả như sau [2, 23, 27]: Khai phá dữ liệu là một quá trình khai thác, chiết xuất các tri thức mới có khả năng hữu ích từ một lượng lớn dữ liệu

1.1.2 Khám phá tri thức

KPDL là một bước quan trọng trong quá trình KDD [18, 30] nhằm phân tích và giải thích các mẫu dữ liệu trong không gian lớn dữ liệu KDD là một quá trình bao gồm một chuỗi lặp đi lặp lại 5 bước sau [3, 8, 27, 28]:

 Trích chọn dữ liệu là công đoạn lấy dữ liệu liên quan đến nhiệm vụ được phân tích từ kho dữ liệu lưu trữ ở trên

 Tiền xử lý dữ liệu bao gồm có các quá trình làm sạch dữ liệu, tích hợp dữ liệu

Trang 14

 Chuyển đổi dữ liệu có nhiệm vụ biến đổi dữ liệu hoặc hợp nhất thành các hình thức thích hợp cho khai thác

 Khai phá dữ liệu là quá trình cần thiết, có vai trò quyết định việc tìm ra những tri thức ẩn

 Đánh giá mô hình và trình bày tri thức là quá trình xác định giá trị của các mẫu

dữ liệu đại diện cho tri thức nằm bên trong dựa trên một số các độ đo, sau đó sử dụng các kỹ thuật biểu diễn và thể hiện trực quan các tri thức khai phá được cho người sử dụng

và biểu diễn tri thức [17, 27]

Dữ liệu với nhiệm vụ liên quan [17, 26] là phần dữ liệu từ các nguồn được điều tra tương ứng với các thuộc tính hay chiều hướng của dữ liệu được quan tâm Các dữ liệu

cụ thể này bao gồm có tên kho dữ liệu hoặc CSDL, các bảng dữ liệu hoặc các khối dữ liệu, các điều kiện chọn dữ liệu, các thuộc tính hoặc chiều dữ liệu được quan tâm, các tiêu chí gom nhóm dữ liệu, v.v

Loại tri thức sẽ đạt được [17, 26] có trọng tâm là phải xác định những tri thức được khai thác, vì điều này sẽ quyết định chức năng KPDL sẽ được thực hiện Các loại tri thức bao gồm đặc trưng hóa dữ liệu, phân biệt hóa dữ liệu, mô hình phân tích kết hợp hay tương quan, mô hình phân lớp, mô hình dự đoán, mô hình gom cụm, mô hình phân tích phần tử biên, mô hình phân tích tiến hóa, v.v

Trang 15

Tri thức nền [17, 26] là những thông tin về lĩnh vực cụ thể sẽ được khai phá Thành tố này hướng dẫn quá trình khám phá tri thức bằng cách hỗ trợ KPDL ở nhiều mức khác nhau Hệ thống phân cấp khái niệm là một hình thức điển hình của tri thức nền Hệ thống này bao gồm bốn loại chính là phân cấp lược đồ, phân cấp thiết lập nhóm, phân cấp nguồn gốc hoạt động, phân cấp dựa trên quy Một số hệ thống phân cấp là:

 Hệ thống phân phân cấp lược đồ là thứ tự toàn bộ hoặc một phần các thuộc tính trong lược đồ CSDL

 Hệ thống phân cấp thiết lập nhóm tổ chức các giá trị cho thuộc tính thành các nhóm hoặc tập các giá trị Hệ thống này được dùng để hoàn thiện hoặc làm phong phú thêm cho hệ thống phân cấp lược đồ, thường được sử dụng cho một tập nhỏ của thuộc tính đối tượng

 Hệ thống phân cấp nguồn gốc hoạt động dựa trên các hoạt động cụ thể Các hoạt động này có thể bao gồm giải mã các chuỗi thông tin mã hóa, khai thác thông tin từ các đối tượng dữ liệu phức tạp, phân cụm dữ liệu

 Hệ thống phân cấp dựa trên quy luật xuất hiện khi toàn bộ hoặc một phần của

hệ thống phân cấp khái niệm được định nghĩa là một tập hợp các quy tắc và được đánh giá tự động dựa trên CSDL hiện tại và quy tắc định nghĩa

Các độ đo [17, 26] được sử dụng để giới hạn số lượng các mẫu dữ liệu dựa trên cấu trúc của mẫu và số liệu thống kê cơ bản của chúng Các độ đo thường đi kèm với các ngưỡng giá trị được lựa chọn bởi người khai thác nhằm dẫn đường cho quá trình khai phá hoặc đánh giá các mẫu tìm thấy Các phép đo khách quan bao gồm các thuộc tính là tính đơn giản, tính chắc chắn, tính hữu dụng, tính mới lạ Các thuộc tính trên được sử dụng như sau:

 Tính đơn giản của một mô hình được dựa trên sư đơn giản tổng thể của mô hình

đó đối với sự hiểu biết của con người Ví dụ, quy định về độ dài là một quy định đơn giản

 Tính chắc chắn đánh giá những giá trị độ tin cậy của một mô hình Ví dụ, xác suất có điều kiện mua máy tính thì sẽ mua phần mềm cao chứng tỏ nhiều khả năng người mua máy tính cũng sẽ mua phần mềm

 Tính hữu ích cho thấy khả năng sử dụng của một mô hình Ví dụ, một xác suất cho trước cho các quy tắc mua phần mềm trước đó có ý nghĩa là với xác suất này thì tất cả người mua máy tính cũng sẽ mua phần mềm trong các của hàng

 Tính mới lạ chỉ ra các mẫu góp phần thông tin mới cho việc thiết lập mô hình được gọi là mẫu mới Việc loại bỏ mô hình dư thừa là chiến lược cho việc phát hiện mẫu mới lạ

Trang 16

Mô hình trực quan và biểu diễn tri thức [17, 26] có tác dụng giúp cho khai thác dữ liệu có hiệu quả, bằng cách hiển thị các mẫu được phát hiện ở nhiều hình thức bao gồm các quy tắc, bảng, báo cáo, biểu đồ, đồ thị, cây, khối và các trình bày trực quan khác Người khai thác phải có khả năng xác định các hình thức trình bày cần được sử dụng để hiển thị các mô hình được phát hiện

1.2.2 Các nhiệm vụ khai phá dữ liệu

Nhiệm vụ KPDL là rất đa dạng bởi có nhiều mẫu trong một CSDL lớn Dựa trên các loại mẫu, nhiệm vụ KPDL có thể được phân chia thành năm loại gồm có tổng hợp, phân lớp, phân cụm, luật kết hợp và phân tích xu hướng [16, 27]

Tổng hợp [16] là sự trừu tượng hoặc khái quát hóa dữ liệu Cụ thể là:

 Một tập hợp các dữ liệu có liên quan được tổng hợp và trừu tượng hóa dẫn đến

một tập nhỏ hơn và đưa ra cái nhìn tổng quan về dữ liệu với thông tin kèm theo

Ví dụ như cuộc gọi đường dài của một khách hàng có thể được tóm tắt trong tổng

số phút, tổng số chi phí, tổng số các cuộc gọi, v.v

 Tổng kết có thể lên đến những mức độ trừu tượng khác nhau và được nhìn từ nhiều góc độ khác nhau Các phút gọi và chi phí điện thoại có thể được tổng cộng theo thời gian gọi điện thoại trong tuần, tháng, quý, năm Tương tự như vậy, các cuộc gọi được tóm tắt vào trong cuộc gọi trong thành phố, cuộc gọi giữa các thành phố, cuộc gọi châu Á, cuộc gọi châu Âu, v.v

Phân lớp [16] xác định lớp của một đối tượng dựa trên thuộc tính của nó Phân lớp

có thể hiểu như:

 Một tập hợp các đối tượng được cho là tập huấn luyện, trong đó mỗi đối tượng được biểu diễn bởi một véc-tơ các thuộc tính của nó Một chức năng phân lớp được xây dựng bằng cách phân tích mối quan hệ giữa các thuộc tính của đối tượng trong tập huấn luyện Ví dụ, từ một tập các bệnh nhân được chẩn đoán, được dùng như một tập huấn luyện, một mô hình phân lớp có thể được xây dựng, trong đó kết luận bệnh của bệnh nhân mắc phải từ dữ liệu chẩn đoán của mình

 Mô hình phân lớp có thể được sử dụng để chẩn đoán bệnh của bệnh nhân mới dựa trên dựa trên dữ liệu chẩn đoán của bệnh nhân, chẳng hạn như tuổi, giới tính, khối lượng, nhiệt độ, huyết áp, v.v

Luật kết hợp [16] khám phá sự liên kết hoặc kết nối của các đối tượng Liên kết hoặc kết nối như vậy được gọi với thuật ngữ là luật kết hợp Luật kết hợp về căn bản như sau:

 Một luật kết hợp cho thấy mối quan hệ liên kết giữa các đối tượng Sự xuất hiện của một tập hợp các đối tượng trong một CSDL có liên quan chặt chẽ đến sự xuất hiện của một tập hợp các đối tượng khác

Trang 17

 Các luật kết hợp có tác dụng trong tiếp thị, quản lý hàng hóa, quảng cáo, v.v Phân cụm [16] xác định các cụm hay nhóm cho một tập các đối tượng mà nhóm của chúng chưa rõ Khi các cụm được quyết định, các đối tượng được dán nhãn với các cụm tương ứng của chúng và các tính năng phổ biến của các đối tượng trong một cụm được tổng hợp để hình thành các mô tả các lớp

Phân tích xu hướng [16] là phân tích các chuỗi dữ liệu được tích lũy theo thời gian Phương pháp phân tích xu hướng khám phá ra mẫu trong lịch sử phát triển của các đối tượng Một mẫu được xây dựng để mô phỏng hành vi của các đối tượng, có thể

sử dụng để dự đoán hành vi trong tương lai

Hình 1.2: Các nhiệm vụ khai phá dữ liệu

1.2.3 Kỹ thuật khai phá dữ liệu

Khai phá dữ liệu bao gồm cả thống kê, học máy, định hướng CSDL, mạng nơron, tập thô và trực quan [16, 27]

Kỹ thuật thống kê [16, 24] chỉ ra rằng nhiều công cụ thống kê đã được sử dụng cho khai phá dữ liệu bao gồm cả mạng Bayesian, phân tích hồi quy, phân tích tương quan và phân tích cụm Mô hình thống kê thường được xây dựng được từ một tập hợp các dữ liệu huấn luyện Một mô hình tối ưu, dựa vào kỹ thuật thống kê được xác định trước, được tìm kiếm trong không gian giả thuyết Quy định và quy luật sau đó được rút

ra từ mô hình Các mô hình trên được mô tả như sau:

 Một mạng Bayes là một đồ thị có hướng đại diện cho các mối quan hệ thông thường giữa các biến, được tính bằng cách sử dụng lý thuyết xác suất Bayes

 Hồi quy là nguồn gốc của một hàm ánh xạ một tập hợp các thuộc tính của các đối tượng đến một biến đầu ra

 Phân tích tương quan nghiên cứu sự tương ứng của các biến với nhau

Trang 18

 Phân tích cụm tìm thấy các nhóm từ một tập hợp đối tượng dựa trên thước đo khoảng cách

Kỹ thuật học máy [16, 24] tìm kiếm một mô hình phù hợp nhất với các dữ liệu thử nghiệm giống như thống kê Khác với thống kê ở chỗ, không gian tìm kiếm trong học máy là một không gian nhận thức của nhiều thuộc tính Bên cạnh đó, hầu hết kỹ thuật học máy sử dụng kỹ thuật chẩn đoán trong tìm kiếm Kỹ thuật học máy phổ biến nhất được sử dụng cho khai phá dữ liệu là cây quyết định, học quy nạp khái niệm và phân cụm khái niệm Các mô hình áp dụng cụ thể là:

 Cây quyết định là một phân loại tự do, xác định một lớp các đối tượng bằng cách đi theo con đường hình thành từ gốc đến nút lá, lựa chọn các chi nhánh theo các giá trị thuộc tính đối tượng Cây quyết định được tạo nên từ tập huấn luyện và quy tắc phân loại có thể được trích ra từ những cây quyết định khác

 Học quy nạp khái niệm xuất phát ngắn gọn, mô tả hợp logic các khái niệm từ một tập hợp các ví dụ

 Phân cụm khái niệm tìm thấy các nhóm hoặc các cụm trong một tập đối tượng dựa trên khái niệm gần gũi giữa các đối tượng

Kỹ thuật định hướng CSDL [16, 24] không tìm kiếm một mô hình tốt nhất như hai

kỹ thuật trước Thay vào đó, mẫu dữ liệu hoặc CSDL phỏng đoán cụ thể được sử dụng

để khai thác dữ liệu theo cách thủ công Các thuộc tính định hướng quy nạp, kỹ thuật quét CSDL lặp đi lặp lại, và các thuộc tính tập trung, là đại diện của các kỹ thuật định hướng CSDL

 Trong định hướng thuộc tính quy nạp, dữ liệu cấp thấp tổng hợp vào các khái niệm cao cấp sử dụng hệ thống phân cấp khái niệm

 Kỹ thuật quét CSDL lặp đi lặp lại sử dụng để tìm kiếm các tập hợp thường xuyên trong một CSDL

 Kỹ thuật tập trung liên kết tìm kiếm các mẫu với xác xuất bất thường bằng cách thêm thuộc tính chọn lọc vào mô hình

Kỹ thuật trực quan hóa [16, 24] là kỹ thuật khai thác dựa vào việc phân tích biểu diễn Dữ liệu được chuyển đổi thành dấu chấm, đường, khu vực, v.v và hiển thị trong một không gian hai hoặc ba chiều Người sử dụng có thể tương tác, khám phá những điểm lý thú bằng cách kiểm tra trực quan

Các kỹ thuật trên có thể kết hợp với nhau để giải quyết các vấn đề phức tạp hoặc cung cấp giải pháp thay thế cách thức đã có

Trang 19

Hình 1.3: Các kỹ thuật khai phá dữ liệu

1.3 ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU

1.3.1 Ứng dụng của khai phá dữ liệu

KPDL đã được áp dụng thành công trên nhiều lĩnh vực, từ các lĩnh vực truyền thống như kinh doanh, khoa học cho đến các lĩnh vực mới như thể thao

Ứng dụng trong kinh doanh [16]: Nhiều tổ chức hiện nay sử dụng KPDL như là một vũ khí bí mật để giữ hoặc đạt được lợi thế cạnh tranh KPDL đã được sử dụng trong tiếp thị, phân tích dữ liệu bán lẻ, lựa chọn cổ phiếu, phê duyệt tín dụng, v.v Cụ thể các ứng dụng đó là:

 CSDL của tiếp thị là một trong những ứng dụng kinh doanh thành công và phổ biến của KPDL Bằng cách khai thác CSDL về lịch sử khách hàng, xu hướng được rút ra và hồ sơ khách hàng được xây dựng có thể được sử dụng để tiếp thị hiệu quả hơn

 CSDL bán lẻ có chứa các giao dịch mua sắm của khách hàng KPDL có thể tìm thấy mô hình mua sắm của khách hàng đã được sử dụng Ví dụ, trong chiến dịch bán hàng

 Sử dụng KPDL, nhà đầu tư có thể xây dựng mô hình được sử dụng để dự đoán hiệu suất của các cổ phiếu Bằng cách tìm kiếm các xu hướng và các mẫu cổ phiếu trong dữ liệu, KPDL có thể giúp các nhà đầu tư tìm cổ phiếu có hiệu suất tốt

 Ứng dụng cho tín dụng hoặc cho vay được quyết định dựa trên thông tin của thông tin người nộp đơn Một hỗ trợ quyết định duyệt tín dụng hoặc cho vay có thể được xây dựng từ dữ liệu lịch sử sử dụng các công cụ KPDL

Trang 20

Ứng dụng trong khoa học [16]: KPDL cũng được sử dụng trong thiên văn học, sinh học phân tử, y học địa chất và nhiều hơn nữa Ví dụ, hệ thống KPDL có thể phân loại các đối tượng trên bầu trời, chẳng hạn như ngôi sao, thông qua hình ảnh của những

vệ tinh

Ứng dụng khác: KPDL cũng được sử dụng trong nhiều lĩnh vực khác, chẳng hạn như quản lý chăm sóc sức khỏe, phát hiện gian lân thuế, giám sát hoạt động rửa tiền, thậm chí cả thể thao

1.3.2 Ứng dụng các phương pháp khai phá dữ liệu trong hệ tư vấn

Thuật ngữ KPDL để cập đến một loạt các mô hình toán học và các công cụ phần mềm được sử dụng để tìm kiếm các mẫu trong dữ liệu và sử dụng chúng để xây dựng

mô hình Trong bối cảnh các ứng dụng khuyến nghị, thuật ngữ KPDL được sử dụng để

mô tả bộ các kỹ thuật phân tích được sử dụng hệ đưa ra quy tắc khuyến nghị hoặc xây dựng các mô hình khuyến nghị từ các tập dữ liệu lớn Hệ thống tư vấn kết hợp các kỹ thuật KPDL làm cho khuyến nghị của chúng có thể sử dụng những kiến thức học được

từ những hành động và các thuộc tính của người sử dụng Các hệ thống này thường dựa trên phát triển hồ sơ của người dùng kéo dài (dựa trên tính nhân khẩu hoặc dữ liệu lịch

sử tiêu thụ), nhất thời (dựa trên các hành động ở hiện tại) hoặc là cả hai Các thuật toán được sử dụng bao gồm phân cụm, phân lớp, luật kết hợp, v.v [22]

Phân cụm [22] được thực hiện bằng cách xác định các nhóm (cụm) người tiêu dùng có sở thích tương tự Khi nhóm được tạo ra, trung bình các ý kiến của người dùng khác trong nhóm có thể được sử dụng để đưa ra dự đoán cho một cá nhân Dự đoán là một giá trị trung bình dựa trên các cụm, trọng số là mức độ tham gia của từng cụm Phương pháp phân cụm thường tạo ra các khuyến nghị ít mang tính cá nhân hơn các phương pháp khác Một số trường hợp, phân cụm có độ chính xác kém hơn các thuật toán lọc cộng tác Mỗi khi một quá trình phân cụm được hoàn tất, hiệu quả đạt được có thể rất tốt nếu như kích thước của một nhóm được phân chia thành rất nhỏ

Phân lớp [25] là các mô hình tính toán chung gán với một thể loại đầu vào Các đầu vào có thể là các véc-tơ tính năng cho các tài nguyên được phân lớp hoặc dữ liệu

về mối quan hệ giữa các mặt hàng Thể loại là một tên miền phân lớp, cụ thể như ác tính hoặc lành tính để phân loại cho khối u, cho phép hoặc không cho phép yêu cầu tín dụng, xâm nhập hoặc ủy quyền cho kiểm tra an ninh Một cách để xây dựng một hệ thống tư vấn sử dụng phân lớp là sử dụng thông tin về một sản phẩm mà đầu vào là một khách hàng và thể loại đầu ra sản phẩm đại diện chắc chắn để khuyến nghị cho khách hàng Phân lớp có thể được thực hiện bằng cách sử dụng nhiều chiến lược học máy khác nhau bao gồm quy tắc cảm ứng, mạng noron và mạng Bayes Trong mỗi trường hợp, phân lớp được đào tạo bởi tập huấn luyện trong đó phân loại đúng đã có sẵn Sau

đó, phân lớp có thể được áp dụng để phân loại các mặt hàng mới mà chưa có sẵn phân loại đúng Ví dụ, mạng Bayes tạo ra một mô hình đào tạo dựa trên một thiết lập với một

Trang 21

cây quyết định tại mỗi nút và các cạnh đại diện cho thông tin người dùng Phân lớp khá thành công trong một số lĩnh vực khác nhau từ xác định gian lận và rủi ro tín dụng trong các giao dịch tài chính đến chẩn đoán y tế để phát hiện bệnh

Luật kết hợp [22] là một trong các phương pháp được biết đến nhiều nhất của KPDL trong hệ tư vấn Các cách xác định tài nguyên thường xuyên được tìm thấy trong các kết hợp mà người dùng bày tỏ quan tâm Sự kết hợp có thể dựa trên việc cùng mua,

sở thích của những người dùng thông thường hoặc các biện pháp khác Hệ thống tỏ ra hiệu quả với toàn bộ các mặt hàng, chẳng hạn dựa vào giỏ mua của khách hàng, giúp cho việc xác định các mặt hàng kết hợp Mỗi luật kết hợp biểu hiện một mối quan hệ là một sản phẩm thường được mua cùng với các sản phẩm khác Luật kết hợp có thể tạo thành một đại diện đơn giản của các dữ liệu sở thích, góp phần nâng cao hiệu quả lưu trữ cũng như hiệu suất khuyến nghị Luật kết hợp thành công trong nhiều ứng dụng như

bố trí kệ để hàng trong các cửa hàng bán lẻ Ngược lại, hệ thống tư vấn trong lọc cộng tác lại dễ dàng thực hiện khuyến nghị cho một cá nhân trong một miền mà ý kiến người dùng thường xuyên bổ sung, chẳng hạn như bán lẻ trực tuyến Ngoài việc sử dụng trong thương mại, luật kết hợp đã trở thành công cụ mạnh cho ứng dụng trong lĩnh vực quản

lý kiến thức Trong lĩnh vực trên, hệ thống cố gắng để dự đoán những trang web hoặc tài liệu có thể có ích cho một người sử dụng

1.4 KẾT LUẬN CHƯƠNG

Trong chương này, chúng tôi đã trình bày tổng quan về khai phá dữ liệu và các

kỹ thuật khai phá cùng những ứng dụng của khai phá kỹ thuật, đặc biệt là ứng dụng trong hệ tư vấn

Trang 22

Hệ tư vấn xuất hiện để tính toán dữ liệu sao cho phù hợp với sở thích của người sử dụng Qua đó, hệ thống sẽ khuyến nghị cho người dùng những thông tin, sản phẩm phù hợp nhất với nhu cầu của họ

Hệ thống tư vấn (hay còn gọi là hệ thống khuyến nghị) [5, 1] là một phân lớp của

hệ thống lọc thông tin mà tìm cách dự đoán đánh giá hoặc sở thích người dùng sẽ cung cấp cho một đối tượng

Đối tượng được nhắc đến ở trên có thể là một mặt hàng (chẳng hạn như âm nhạc, sách, phim) hoặc yếu tố xã hội (ví dụ như người hoặc nhóm) vẫn chưa được xem xét

Mô hình dự báo có thể được xây dựng từ những đặc điểm của một đối tượng (theo phương pháp tiếp cận dựa trên nội dung) hoặc môi trường xã hội của người dùng (theo phương pháp lọc cộng tác)

Lọc dựa trên nội dung [7] được dựa trên thông tin, mục tiêu đánh giá và đặc điểm tính năng của sản phẩm được khuyến nghị Phương pháp này có phương châm là người

sử dụng sẽ đánh giá như nhau với các mặt hàng có tính năng tương tự Dựa trên lịch sử lựa chọn mặt hàng của người dùng, nó sẽ khuyến nghị người dùng sử dụng các mặt hàng có tính năng tương tự đối với các mặt hàng đã được đánh giá cao

Trang 23

Ngoài hai phương pháp trên, các phương pháp khuyến nghị khác [1] là phương pháp nhân khẩu, phương pháp dựa trên tiện ích, phương pháp dựa trên tri thức, v.v Và một số phương pháp biến thể được tạo ra bằng cách kết hợp hai hay nhiều phương pháp được nêu ra ở trên nhằm phát huy ưu thế riêng của từng phương pháp

2.2 PHƯƠNG PHÁP LỌC CỘNG TÁC

2.2.1 Khát quát lọc cộng tác

Lọc cộng tác [3, 6] là một kỹ thuật được sử dụng cho hệ thống tư vấn, dựa vào việc xử lý dữ liệu để xây dựng đặc điểm của người dùng cần khuyến nghị dựa trên sở thích tương tự hoặc thói quen Trong phương pháp này, dữ liệu đầu vào là một tập đánh giá các tài nguyên của người dùng Dựa trên các đánh giá này, người dùng có thể so sánh được với nhau hình thành nên khái niệm người dùng tương đồng Tương tự như vậy, xuất hiên khái niệm tài nguyên tương đồng Điểm đánh giá của một người dùng có thể dự đoán được dựa trên các đánh giá của người dùng “lân cận” hay tài nguyên “gần gũi” Dựa theo cơ sở để dự đoán đánh giá của một người dùng, chúng ta có thể phân ra làm hai cách tiếp cận chính:

 Dựa trên người dùng (user - based)

 Dựa trên tài nguyên (item - based)

Hình 2.1: Ma trận đánh giá R của người dùng lên tài nguyên

Theo hình trên, U là tập gồm N người dùng, I là tập gồm M tài nguyên và R là tập đánh giá của người dùng uU lên tài nguyên iI Mục tiêu của lọc cộng tác là có thể dự đoán đánh giá của người dùng lên một tài nguyên chưa được lựa chọn Lọc cộng tác bao gồm hai nhiệm vụ chính: dự báo và tư vấn Phương thức dự báo cho ra giá trị

Trang 24

Hình 2.2: Minh họa một đánh giá cần dự đoán của người dùng với lọc cộng tác

Hình 2.3: Các cách tiếp cận trong lọc cộng tác

2.2.2 Cách tiếp cận dựa trên người dùng

Theo cách tiếp cận dựa trên người dùng [14, 18], việc dự đoán đánh giá của người dùng lên một tài nguyên dựa trên đánh giá của những người dùng hàng xóm “lân cận” lên tài nguyên đó Vì thế, cần định nghĩa một độ đo tương đồng giữa những người dùng trước khi một tập những người hàng xóm lân cận được xác định

Độ đo tương đồng này sử dụng hệ số tương quan Pearson Gọi sim , u v là độ đo tương đồng giữa người dùng u và v được đo bởi công thức [9, 31]:

v i v I

i

u i u

I i

v i v u i u

r r r

r

r r r r v

u sim

2 , 2

,

, ,

) (

) ,

Ở đây,

 I là tập tất cả các tài nguyên được đánh giá bởi người dùng u và v

 r u,i và r v,i là các đánh giá đã biết của người dùng u và v lên tài nguyên i

Trang 25

 r u và r v là đánh giá trung bình của các người dùng u và v

Trước hết, hệ thống xác định số lượng người K tương đồng với người được xét Tập người dùng hàng xóm của người dùng u, ký hiệu là G u, được tạo nên bởi K người dùng trên, với K là tham số hệ thống, được xác định tùy thuộc vào hệ thống

Một cách khả thi để có thể dự đoán được đánh giá của người dùng u lên tài nguyên i là sử dụng tổng trọng số các đánh giá của những người hàng xóm gần nhất (hoặc tương đồng với u nhất dựa trên độ đo tương đồng trên) v lên tài nguyên i:

G v

i v i

u

v u sim

r v u sim p

) , (

* ) ,

Để xem xét sự khác nhau giữa những người dùng khác nhau, việc đánh giá độ lệch dựa trên đánh giá trung bình được đề ra p u,i trong trường hợp này sẽ được đánh giá dựa trên tổng của đánh giá trung bình của người dùng u với tổng trọng số được đánh giá từ độ lệch từ đánh giá trung bình của những người dùng hàng xóm lên tài nguyên [9, 31]:

G v

v i v u

i u

v u sim

r r v u sim r

p

) , (

) (

* ) ,

 r v là đánh giá trung bình của người dùng v

Ví dụ: Cho ma trận đánh giá R dưới đây R là ma trận đánh giá của người dùng lên các tài nguyên

Bảng 2.1: Ví dụ về đánh giá của người dùng lên tài nguyên

Trang 26

v i v I

i

u i u

I i

v i v u i u

r r r

r

r r r r v

u sim

2 , 2

,

, ,

) (

) , (

1 3

12 3 3

12 5

* 2

7 4 2

7 3

3

12 3 2

7 4 3

12 5 2

7 3 )

( )

(

) (

2 2

} , 1

2 }

, 1

2 } ,

a aj j

u uj a aj

r r r

r

r r r r sim

Tương tự như vậy

17

4)

4,3(

;5

2)2,3

2 4

17 5 5 2 2

7 , 2 ,

4 1 5 2

4

15 3 17

4 ) 4 4 (

* 1 4

17 5 5 2 2

7 , 2 ,

2.2.3 Cách tiếp cận dựa trên tài nguyên

Cách tiếp cận dựa trên tài nguyên [18, 21] được đánh giá cao trong phương pháp lọc cộng tác Tương tự như với người dùng, một độ đo tương đồng giữa những tài nguyên được đặt ra để xác định các tài nguyên hàng xóm Dự đoán đánh giá của người dùng lên một tài nguyên được dựa trên đánh giá của người dùng đó lên các tài nguyên hàng xóm

Các độ đo tương đồng giữa tài nguyên u và tài nguyên i được cho bởi công thức [9, 21, 31]:

j j u U

u

i i u

U u

j j u i i u

r r r

r

r r r r j

i sim

2 , 2

,

, ,

) (

) ,

Trong đó,

Trang 27

 U là tập những người dùng đánh giá cho cả tài nguyên i và j

 r u,i và

j u

r, là đánh giá của người dùng u cho tài nguyên i và j

 r i và r j là trung bình các đánh giá của các tài nguyên i và j

Kích thước K của tập tài nguyên hàng xóm là một tham số hệ thống và cần được định nghĩa Với tập các tài nguyên hàng xóm của tài nguyên i, một vài cách dự đoán đánh giá cho người dùng có thể được sử dụng

H j

j u i

u

j i sim

r j i sim p

) , (

* ) ,

H j

j j u i

i u

j i sim

r r j i sim r

p

),(

)(

*),

,

Trong đó

 H i là tập các tài nguyên hàng xóm của tài nguyên i

 r j đánh giá trung bình trên tài nguyên j

Làm lại ví dụ với bộ dữ liệu bảng 2.1:

2 ,

} , 1

2 ,

} , 1

, ,

) (

) 1 , 2 (

u

j j u u

i j u u

j j u i i u

r r r

r

r r r r sim

19

2 4 4

17 5 4

17 4 4

17 5

* 3

12 3 3

12 5 3

12 4

4

17 5

* 3

12 3 4

17 4

* 3

12 5 4

17 5

* 3

12 4

2 2

;43

4)3,2

sim

Dự báo đánh giá cho người dùng u3lên tài nguyên i2 theo hai trường hợp :

 Với K 1

Trang 28

3 43 4

3

* 43

4 ,

2 ,

p

 Với K 2

3 5 43

4 19

2 4

4

* 43

4 5

* 19

2 4 ,

2 ,

2.3.1 Phát sinh vấn đề cold - start

Trong hệ thống khuyến nghị, với hai phương pháp lọc cộng tác và lọc dựa trên nội dung, hệ thống đều phải dựa trên lịch sử đánh giá của người dùng đối với những tài nguyên đã được đánh giá trong quá khứ Điều này có nghĩa là đối với người dùng mới thì hệ thống không có thông tin về đánh giá của người dùng trong dữ liệu nên không thể

áp dụng các phương pháp trên để khuyến nghị [12] Những người dùng mới này lại chiếm một lượng không nhỏ trong tổng số người dùng, đóng vai trò quan trọng trong việc duy trì và phát triển quy mô mặt hàng, gây ảnh hưởng đến hiệu suất của hệ tư vấn [20] Vấn đề trên được gọi là vấn đề cold - start xảy đến với người dùng mới Do vậy,

hê tư vấn cần phải thay thế dữ liệu đầu vào cho phù hợp với đối tượng người dùng này

Ví dụ: Một hệ khuyến nghị có người dùng mới và chưa có đánh giá tài nguyên của người dùng này

Bảng 2.2: Ma trận đánh giá của người dùng lên tài nguyên có người dùng mới

Trang 29

2.3.2 Phương pháp dựa trên nhân khẩu

Một phương pháp khuyến nghị mới được đề xuất để giải quyết vấn đề trên Đó là phương pháp dựa trên nhân khẩu Phương pháp này có sự thay đổi đầu vào là không nhằm vào lịch sử đánh giá của những người dùng mà dựa vào sự tương đồng về mặt nhân khẩu giữa những người dùng với nhau, ví dụ như tuổi, công việc, nơi ở và giả định rằng những người dùng có sự tương đồng về mặt nhân khẩu sẽ có những đánh giá, lựa chọn tương tự nhau để hình thành một nhóm người dùng “gần gũi” Trong đó, một người dùng là người dùng đang cần được tư vấn, còn lại là những người dùng đã từng tham gia đánh giá

Phương pháp khuyến nghị dựa trên nhân khẩu bao gồm ba quá trình [7]: giai đoạn

dữ liệu đầu vào, giai đoạn tính toán tương tự và giai đoạn tính toán đề nghị Dữ liệu đầu vào là dữ liệu nhân khẩu của người dùng mới được xếp chung với dữ liệu của những người dùng khác đã biết thông tin đánh giá Giai đoạn tính toán tương tự sử dụng dữ liệu nhân khẩu của những người đánh giá để tìm ra người dùng tương đồng với người dùng cần tư vấn rồi thành lập nhóm người dùng tương đồng với người dùng đó Giai đoạn tính đoán đề nghị tìm được các tài nguyên có sự phổ biến cao đối với những người dùng trong nhóm tương tự để đưa ra đề nghị cho người dùng mới

Hình 2.4: Phương pháp dựa trên nhân khẩu

Ta sẽ thực hiện ví dụ sau Bảng dưới đây có thông tin nhân khẩu của một số người dùng, trong đó có một người dùng cần khuyến nghị

Bảng 2.3: Bảng thông tin nhân khẩu của một số người dùng

Trang 30

Theo bảng thông tin trên có bốn thuộc tính nhân khẩu học là giới tính, nghề nghiệp, quốc gia và tuổi Giả sử John là người dùng cần tư vấn thì dựa theo sự giống nhau về giới tính, quốc gia thì giống Paul và Mike Nếu lựa chọn sự tương đồng về mặt nghề nghiệp thì Sarah tương tự John Sự lựa chọn các thuộc tính tương tự ở giai đoạn

dữ liệu vào ảnh hưởng đến số lượng người dùng cho giai đoạn tính toán tương tự và từ

đó ảnh hưởng đến kết quả cho giai đoạn tính toán đề nghị

Cùng với quá trình trên, một khuôn khổ mới dựa trên dữ liệu nhân khẩu học được xây dựng nhằm đánh giá ảnh hưởng thuộc tính nhân khẩu tới đánh giá của người dùng Khung đánh giá nhân khẩu gồm bốn phần: dữ liệu nguồn, phân tích thuộc tính, phân chia dữ liệu và đưa ra khuyến nghị [7]

Nguồn dữ liệu chứa dữ liệu về người dùng, tương ứng với giai đoạn dữ liệu đầu vào Phân tích thuộc tính sẽ phân tích các loại thuộc tính nhân khẩu, sự phân bố của các loại thuộc tính trong dữ liệu và xác định các thuộc tính hợp lệ cho việc khuyến nghị Phần phân chia dữ liệu gồm hai công việc là tách tập dữ liệu ra thành một tập dữ liệu huấn luyện và loại bỏ một số đánh giá của một vài người dùng được lựa chọn ngẫu nhiên (coi như ẩn hoặc người dùng mới không có đánh giá) từ tập dữ liệu được huấn luyện và ghi lại xếp hạng của những người dùng đó vào tập dữ liệu thử nghiệm tương ứng với mỗi thuộc tính hợp lệ Phần phân tích thuộc tính và phần phân chia dữ liệu thuộc vào giai đoạn tính toán tương tự Sau đó, phần đưa ra đề nghị rút ra những đối tượng xuất hiện trong tập dữ liệu huấn luyện giới thiệu cho người dùng mới và sử dụng các tập dữ liệu ẩn đã có sẵn đánh giá độ chính xác Phần đưa ra đề nghị xảy ra trong giai đoạn tính toán đề nghị

Hình 2.5: Khung đánh giá thuộc tính nhân khẩu

Trang 31

2.4 PHƯƠNG PHÁP TIẾP CẬN ĐA CHIỀU

2.4.1 Mô hình khuyến nghị đa chiều

Hệ thống khuyến nghị hai chiều sử dụng hàm R dự đoán các đánh giá chưa biết:

Rating Item

User

Ở đây,

 User là tập người dùng

 Item là tập tài nguyên

 Rating là tập đánh giá của người dùng lên các tài nguyên

Thêm vào yếu tố ngữ cảnh, hệ thống khuyến nghị truyền thống đã trở thành hệ khuyến nghị MD Lúc này, hàm R được bổ xung thêm thành phần Context và trở thành:

Rating Context

Item User

Trong đó

 Context là tập các ngữ cảnh liên quan đến các đánh giá

Ví dụ trong hệ thống khuyến nghị du lịch, người dùng là người cần được hệ thống khuyến nghị các địa điểm du lịch, đối tượng tư vấn là địa điểm du lịch, ngữ cảnh là thời gian đi (buổi sáng, buổi tối, tháng, mùa), đồng hành (đi một mình, đi với bạn bè, đi với gia đình, v.v.) Khi đó, quyết định của người dùng sẽ phụ thuộc vào ngữ cảnh

Để hình dung về mô hình khuyến nghị MD [11], chúng ta dựa vào mô hình ba chiều Giả sử không gian dữ liệu có các chiều là D1,  ,D n Trong đó, chiều “người dùng” và chiều “đối tượng” đã biết trước Các chiều còn lại là các thành phần của yếu

tố “ngữ cảnh” Mỗi chiều là một tập con của tập hợp tích Decarste gồm nhiều thuộc tính D i  A i1A í2  A ik Trong đó, mỗi thuộc tính A ik định nghĩa một miền giá trị Thêm vào đó, một hoặc một vài thuộc tính tạo thành khóa để phân biệt Trong một số trường hợp, một chiều có thể chỉ là một thuộc tính đơn lẻ (khi đó k 1 trong A ik)

Ví dụ sau sẽ làm rõ hơn về mô hình này: Giả sử có một không gian khuyến nghị

ba chiều là: Người dùng  Đối tượng  Thời gian

Người dùng  Tên người dùng  Địa chỉ  Thu nhập  Tuổi

Đối tượng  Tên đối tượng  Thể loại  Giá cả

Thời gian  Năm  tháng  ngày

Khi đó, hàm R:UserItemContext sẽ trở thành hàm R:UserItemTime, có nghĩa là người dùng uUser đánh giá đối tượng iItem vào thời điểm tTime dưới

Định dạng
Số trang	62
Dung lượng	3,38 MB