DANH SÁCH HÌNH VẼ Hình 1.1: Quá trình khám phá tri thức Hình 1.2: Các nhiệm vụ khai phá dữ liệu Hình 1.3: Các kỹ thuật khai phá dữ liệu Hình 2.1: Ma trận đánh giá R của người dùng lên tà
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Đình Hóa
TS Lê Hoàng Sơn
HÀ NỘI - 2014
Trang 3LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu độc lập của riêng tôi, không sao chép ở bất kỳ một công trình hoặc một luận văn, luận án của các tác giả khác Các số liệu, kết quả nêu trong luận văn này là trung thực và chƣa đƣợc công bố trong bất kỳ công trình nào khác Các trích dẫn, các số liệu và kết quả tham khảo dùng để so sánh đều có nguồn trích dẫn rõ ràng
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình
Hà Nội, tháng 12 năm 2014
Tác giả luận văn
Nguyễn Thị Ninh
Trang 4LỜI CẢM ƠN
Trước khi trình bày nội dung chính của luận văn, em xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS Nguyễn Đình Hóa và Tiến sĩ Lê Hoàng Sơn, người đã tận tình hướng dẫn và tạo điều kiện để em có thể hoàn thành luận văn này
Thứ hai, em xin bày tỏ lòng biết ơn chân thành tới toàn thể các thầy cô giáo trong khoa Công nghệ thông tin, trường Đại học Công nghệ Hà Nội, Đại học Quốc gia
Hà Nội đã dạy bảo tận tình em trong suốt quá trình em học tập tại khoa
Thứ ba, em xin được gửi lời cảm ơn tới các thầy cô, các anh chị và các bạn trong Trung tâm Tính toán Hiệu năng cao, trường Đại học Khoa học tự nhiên đã giúp
đỡ em trong suốt thời gian làm luận văn này
Cuối cùng em xin chân thành cảm ơn tới gia đình, bạn bè, đồng nghiệp đã luôn bên em cổ vũ, động viên, giúp đỡ em trong suốt quá trình học tập và thực hiện luận văn này Luận văn này được thực hiện dưới sự tài trợ của đề tài NAFOSTED, mã số: 102.05-2014.01
Mặc dù đã cố gắng hoàn thành luận văn trong phạm vi và khả năng cho phép nhưng chắc chắn sẽ không tránh khỏi những thiếu sót Em rất mong được sự góp ý chân thành của thầy cô và các bạn để em hoàn thiện luận văn của mình
Xin chân thành cảm ơn!
Hà Nội, ngày 02 tháng 12 năm 2014
Học viên
Nguyễn Thị Ninh
Trang 5MỤC LỤC
LỜI CAM ĐOAN 2
LỜI CẢM ƠN 4
MỤC LỤC 5
DANH SÁCH HÌNH VẼ 8
DANH SÁCH BẢNG 9
DANH MỤC CÁC KÝ HIỆU VIẾT TẮT 10
MỞ ĐẦU 11
CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 13
1.1 KHAI PHÁ DỮ LIỆU 13
1.1.1 Định nghĩa khai phá dữ liệu 13
1.1.2 Khám phá tri thức 13
1.2 KỸ THUẬT KHAI PHÁ DỮ LIỆU 14
1.2.1 Các thành tố cơ bản 14
1.2.2 Các nhiệm vụ khai phá dữ liệu 16
1.2.3 Kỹ thuật khai phá dữ liệu 17
1.3 ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU 19
1.3.1 Ứng dụng của khai phá dữ liệu 19
1.3.2 Ứng dụng các phương pháp khai phá dữ liệu trong hệ tư vấn 20
1.4 KẾT LUẬN CHƯƠNG 21
CHƯƠNG 2 HỆ TƯ VẤN VÀ CÁC PHƯƠNG PHÁP LỌC 22
2.1 HỆ TƯ VẤN 22
2.1.1 Định nghĩa hệ tư vấn 22
2.1.2 Các phương pháp khuyến nghị 22
2.2 PHƯƠNG PHÁP LỌC CỘNG TÁC 23
2.2.1 Khát quát lọc cộng tác 23
2.2.2 Cách tiếp cận dựa trên người dùng 24
2.2.3 Cách tiếp cận dựa trên tài nguyên 26
2.3 VẤN ĐỀ COLD - START 28
Trang 62.3.1 Phát sinh vấn đề cold - start 28
2.3.2 Phương pháp dựa trên nhân khẩu 29
2.4 PHƯƠNG PHÁP TIẾP CẬN ĐA CHIỀU 31
2.4.1 Mô hình khuyến nghị đa chiều 31
2.4.2 Giảm chiều cho mô hình khuyến nghị đa chiều 32
2.5 NGỮ CẢNH TRONG HỆ TƯ VẤN 34
2.5.1 Vai trò của ngữ cảnh 34
2.5.2 Kết hợp ngữ cảnh trước khi lọc 35
2.5.3 Kết hợp ngữ cảnh sau khi lọc 35
2.5.4 Kết hợp ngữ cảnh trong khi lọc 36
2.6 MÔ HÌNH NGƯỜI DÙNG TƯƠNG TỰ NHSM 36
2.6.1 Nhược điểm của độ đo tương tự hiện có 36
2.6.2 Công thức của độ đo tương tự NHSM 39
2.7 THUẬT TOÁN DỰ BÁO 40
2.8 KẾT LUẬN CHƯƠNG 42
CHƯƠNG 3 ỨNG DỤNG CHO BÀI TOÁN DỰ BÁO KẾT QUẢ BÓNG ĐÁ 43
3.1 ĐẶC TẢ YÊU CẦU 43
3.1.1 Yêu cầu thực tế 43
3.1.2 Thực tế hóa hệ thống 43
3.1.3 Mục đích của hệ thống 43
3.2 PHÂN TÍCH HỆ THỐNG 44
3.2.1 Chức năng người dùng 44
3.2.2 Chức năng người quản trị 44
3.2.3 Mô hình tổng thể thể hiện mối quan hệ giữa các ca sử dụng 46
3.2.4 Mô tả giao diện hệ thống 46
3.3 ĐẶC TẢ CSDL 49
3.3.1 CSDL 49
3.3.2 Mô tả quan hệ CSDL 51
3.4 THIẾT KẾ HỆ THỐNG 51
Trang 73.4.1 Modul dự báo 51
3.4.2 Modul giải đấu 52
3.4.3 Modul mùa giải 52
3.4.4 Modul thông tin đội bóng 52
3.4.5 Modul thuật toán 53
3.5 MINH HỌA CÁC CHỨC NĂNG HỆ THỐNG 53
3.5.1 Chức năng dự báo kết quả bóng đá 53
3.5.2 Các chức năng trong việc quản lý dữ liệu 56
3.6 KẾT LUẬN CHƯƠNG 58
KẾT LUẬN 59
TÀI LIỆU THAM KHẢO 60
Trang 8DANH SÁCH HÌNH VẼ
Hình 1.1: Quá trình khám phá tri thức
Hình 1.2: Các nhiệm vụ khai phá dữ liệu
Hình 1.3: Các kỹ thuật khai phá dữ liệu
Hình 2.1: Ma trận đánh giá R của người dùng lên tài nguyên
Hình 2.2: Minh họa một đánh giá cần dự đoán của người dùng với lọc cộng tác
Hình 2.3: Các cách tiếp cận trong lọc cộng tác
Hình 2.4: Phương pháp dựa trên nhân khẩu
Hình 2.5: Khung đánh giá thuộc tính nhân khẩu
Hình 2.6: Mô hình khuyến nghị đa chiều với không gian Người dùng Mặt hàng
Thời gian
Hình 2.7: Tư vấn cho người dùng theo ngữ cảnh (thời tiết)
Hình 2.8: Mô hình (UICR): Dữ liệu ban đầu gồm các người dùng, các mục để đưa ra khuyến nghị, các ngữ cảnh liên quan và hàm xếp hạng
Hình 2.9: Ma trận người dùng tương tự theo bảng 2.3
Hình 3.1: Sơ đồ ca sử dụng của người dùng
Hình 3.2: Sơ đồ ca người quản trị quản lý thông tin đội bóng
Hình 3.3: Sơ đồ ca người quản trị quản lý giải đấu
Hình 3.4: Sơ đồ ca người quản trị quản lý mùa giải
Hình 3.5: Sơ đồ ca người quản trị quản trị quản lý thuật toán
Hình 3.6: Sơ đồ ca tổng thể mối quan hệ giữa các ca sử dụng
Hình 3.7: Giao diện tại mục trang chủ (phần trang chủ)
Hình 3.8: Giao diện tại menu ảnh nằm ngang (phần trang quản trị)
Hình 3.9: CSDL quan hệ giữa các bảng
Hình 3.10: Lựa chọn giải đấu cho dự báo
Hình 3.11: Lựa chọn mùa giải cần dự báo
Hình 3.12: Lựa chọn tập huấn luyện và tập kiểm tra
Hình 3.13: Lựa chọn ô kết quả cần dự báo
Hình 3.14: Lựa chọn sai số cho kết quả cần dự báo và hiển thị kết quả
Hình 3.15: Giao diện phần quản lý thông tin đội bóng
Hình 3.16: Giao diện phần quản lý giải đấu
Trang 9Hình 3.17: Giao diện phần quản lý mùa giải chung
Hình 3.18: Giao diện phần quản lý mùa giải chi tiết
Hình 3.19: Giao diện phần quản lý thuật toán
DANH SÁCH BẢNG
Bảng 2.1: Ví dụ về đánh giá của người dùng lên tài nguyên
Bảng 2.2: Ma trận đánh giá của người dùng lên tài nguyên có người dùng mới Bảng 2.3: Bảng thông tin nhân khẩu của một số người dùng
Bảng 2.4: Ma trận đánh giá người dùng – tài nguyên
Trang 10DANH MỤC CÁC KÝ HIỆU VIẾT TẮT
Khám phá tri thức KDD Knowledge Discovery in Databases
NHSM New heuristic similarity model
Độ đo tương quan Pearson PCC Pearson correlation coefficient
Độ đo tương quan Pearson có
ràng buộc
CPCC Constrained Pearson correlation
coefficient
Độ đo cosin hiệu chỉnh ACOS Adjusted Cosine
Độ đo PSS PSS Proximity Signsficance Singularity
Trang 11MỞ ĐẦU 1/ ĐẶT VẤN ĐỀ
Trong hơn một thập niên trở lại đây, với sự phát triển mạnh của xã hội thì công nghệ viễn thông và thiết bị điện tử cũng phát triển không ngừng Tuy nhiên, sự bùng
nổ này cũng kèm theo mặt trái của nó Lượng thông tin lưu trữ ngày một lớn đã gây sức ép đáng kể tới phần cứng, buộc con người tìm đủ mọi cách để tận dụng nguồn tài nguyên dồi dào này Khai phá dữ liệu xuất hiện như câu trả lời cho khủng hoảng thừa thông tin
Internet có mặt trên mọi phương diện của cuộc sống Tuy nhiên, người sử dụng lại mất nhiều thời gian để tìm kiếm thông tin với nhu cầu bản thân Một số công cụ tìm kiếm trực tuyến đã được triển khai hỗ trợ cho ngưởi dùng nhưng nhiều khi vẫn chưa cho hiệu quả như mong muốn Để thay đổi điều đó, các phương pháp khai phá thông tin được hình thành, hỗ trợ không nhỏ cho sự phát triển của hệ thống khuyến nghị Hệ
tư vấn sinh ra nhằm mục đích tính toán thông tin trong dữ liệu và để dự đoán sở thích của người dùng và đưa ra các khuyến nghị phù hợp với người dùng Để thực hiện mục tiêu đó, hệ tư vấn vẫn không ngừng được cải thiện, nâng cao chất lượng hiện có Phương pháp phổ biến, đóng vai trò quan trọng trong hệ tư vấn là lọc cộng tác Xuất hiện trong hệ tư vấn, ngữ cảnh mô tả chi tiết hơn về các đối tượng trong hệ thống, góp phần tư vấn được chính xác hơn
Hệ tư vấn có ứng dụng trong nhiều lĩnh vực thực tế như hệ thống dự báo phim,
âm nhạc, v.v Bóng đá là một môn thể thao được nhiều người quan tâm và triển khai nhiều dịch vụ giải trí Người hâm mộ được khuyến khích đưa ra kết quả dự báo của mình mỗi khi trận đấu được xảy ra Hiểu rõ điều này, chúng tôi xây dựng hệ thống dự báo kết bóng đá dựa trên hệ tư vấn Hệ thống áp dụng phương pháp điển hình của hệ
tư vấn kết hợp với các đặc trưng vốn có của một trận đấu bóng đá để dự báo kết quả theo các hướng khác nhau Hệ thống này được triển khai cho thấy được hướng phát triển của hệ tư vấn trong lĩnh vực thể thao
2/ MỤC ĐÍCH CỦA LUẬN VĂN
Việc dự báo kết quả bóng đá cũng sẽ giúp cho người tham gia dự đoán có được những ý kiến gợi ý nhất định, tránh được những sai lầm không đáng có Trang web dự báo kết quả bóng đá được xây dựng dựa trên hệ tư vấn Luận văn tiến hành trình bày
và phân tích dựa trên thuật toán lọc sử dụng độ đo tương tự để tính toán đưa ra khuyến nghị Sau đó dựa trên kết quả phân tích để so sánh và đánh giá khả năng dự báo
3/ BỐ CỤC CỦA LUẬN VĂN
Luận văn gồm 3 chương, có phần mở đầu, phần kết luận, phần mục lục, phần tài liệu tham khảo Các nội dung cơ bản của luận văn được trình bày theo cấu trúc như sau:
Trang 12Chương 1: Tổng quan về khai phá dữ liệu
Trong chương này, luận văn sẽ trình bày những vấn đề cơ bản của khai phá dữ liệu như: định nghĩa, các thành tố cơ bản của một nhiệm vụ khai phá dữ liệu, các nhiệm vụ, các kỹ thuật và ứng dụng của khai phá dữ liệu Thông qua đó, khai phá dữ liệu tạo đã điều kiện phát triển cho hệ tư vấn
Phần tiếp theo trình bày về các độ đo tương tự Đưa ra độ đo tương tự mới NHSM và thuật toán dự báo kết quả bóng đá với độ đo mới này
Chương 3: Ứng dụng cho bài toán dự báo kết quả bóng đá
Nội dung chương này trình bày phân tích, thiết kế trang web dự báo kết quả bóng đá và xây dựng chương trình ứng dụng
Trang 13CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1 KHAI PHÁ DỮ LIỆU
1.1.1 Định nghĩa khai phá dữ liệu
Trong những năm trở lại đây, công nghệ thông tin đã có những bước đột phá, đạt được nhiều thành tựu to lớn Sự phát triển của công nghệ điện tử dựa trên định luật Moore đã cho ra những thiết bị có dung lượng chứa lớn mà giá thành lại giảm Với nhu cầu của con người thì lượng thông tin đang được lưu trữ là một con số khổng lồ và không ngừng tiếp tục gia tăng nhanh chóng Trong tác phẩm John Naisbitt năm 1982 thì Megatrends đã đề cập [29]: “Chúng ta đang ngập trong dữ liệu nhưng lại đói tri thức” Thực trạng đòi hỏi con người phải tìm cách khai thác nguồn dữ liệu này, tuy nhiên chỉ có 20% dữ liệu ẩn chứa những tri thức quý giá Vấn đề được đặt ra là làm thế nào chúng ta có thể lấy ra được những thông tin hữu ích đó trong một “núi” dữ liệu như vậy?
Như một quy luật của tự nhiên, sự khó khăn của bài toán thúc đẩy con người tìm mọi cách khắc phục KPDL đã được xuất hiện như một giải pháp thần kỳ cho vấn đề nan giải của công nghệ thông tin Gắn liền với dữ liệu, KPDL được úng dụng rộng rãi không chỉ trong khoa học mà còn cả kinh tế, xã hội, giáo dục, v.v
Thuật ngữ KPDL xuất hiện vào những năm thập niên 90 nhưng sự phát triển của KPDL là quá trình phát triển của một lĩnh vực với lịch sử lâu dài Hiểu một cách đơn giản, KPDL là chiết xuất hoặc khai thác kiến thức từ một lượng lớn dữ liệu Thuật ngữ này dễ làm cho người ta hiểu nhầm ý nghĩa của nó Cụ thể hóa là việc thực hiện khai thác vàng từ các loại đá hoặc cát là được gọi là khai thác vàng chứ không phải khai thác
đá hoặc cát Do đó, KPDL hiểu một cách chính xác hơn là khai thác tri thức từ dữ liệu, mặc dù cái tên gọi đó hơi dài Nếu tên gọi được đổi lại là khai thác tri thức, sẽ là ngắn gọn hơn nhưng nó có thể sẽ không nhấn mạnh vào việc khai thác từ một lượng lớn dữ liệu Tuy nhiên, KPDL là một thuật ngữ sinh động, thể hiện ra việc tìm kiếm một lượng tài nguyên nhỏ từ lượng lớn dữ liệu
Từ những lý giải trên, định nghĩa về KPDL có thể được mô tả như sau [2, 23, 27]: Khai phá dữ liệu là một quá trình khai thác, chiết xuất các tri thức mới có khả năng hữu ích từ một lượng lớn dữ liệu
1.1.2 Khám phá tri thức
KPDL là một bước quan trọng trong quá trình KDD [18, 30] nhằm phân tích và giải thích các mẫu dữ liệu trong không gian lớn dữ liệu KDD là một quá trình bao gồm một chuỗi lặp đi lặp lại 5 bước sau [3, 8, 27, 28]:
Trích chọn dữ liệu là công đoạn lấy dữ liệu liên quan đến nhiệm vụ được phân tích từ kho dữ liệu lưu trữ ở trên
Tiền xử lý dữ liệu bao gồm có các quá trình làm sạch dữ liệu, tích hợp dữ liệu
Trang 14 Chuyển đổi dữ liệu có nhiệm vụ biến đổi dữ liệu hoặc hợp nhất thành các hình thức thích hợp cho khai thác
Khai phá dữ liệu là quá trình cần thiết, có vai trò quyết định việc tìm ra những tri thức ẩn
Đánh giá mô hình và trình bày tri thức là quá trình xác định giá trị của các mẫu
dữ liệu đại diện cho tri thức nằm bên trong dựa trên một số các độ đo, sau đó sử dụng các kỹ thuật biểu diễn và thể hiện trực quan các tri thức khai phá được cho người sử dụng
và biểu diễn tri thức [17, 27]
Dữ liệu với nhiệm vụ liên quan [17, 26] là phần dữ liệu từ các nguồn được điều tra tương ứng với các thuộc tính hay chiều hướng của dữ liệu được quan tâm Các dữ liệu
cụ thể này bao gồm có tên kho dữ liệu hoặc CSDL, các bảng dữ liệu hoặc các khối dữ liệu, các điều kiện chọn dữ liệu, các thuộc tính hoặc chiều dữ liệu được quan tâm, các tiêu chí gom nhóm dữ liệu, v.v
Loại tri thức sẽ đạt được [17, 26] có trọng tâm là phải xác định những tri thức được khai thác, vì điều này sẽ quyết định chức năng KPDL sẽ được thực hiện Các loại tri thức bao gồm đặc trưng hóa dữ liệu, phân biệt hóa dữ liệu, mô hình phân tích kết hợp hay tương quan, mô hình phân lớp, mô hình dự đoán, mô hình gom cụm, mô hình phân tích phần tử biên, mô hình phân tích tiến hóa, v.v
Trang 15Tri thức nền [17, 26] là những thông tin về lĩnh vực cụ thể sẽ được khai phá Thành tố này hướng dẫn quá trình khám phá tri thức bằng cách hỗ trợ KPDL ở nhiều mức khác nhau Hệ thống phân cấp khái niệm là một hình thức điển hình của tri thức nền Hệ thống này bao gồm bốn loại chính là phân cấp lược đồ, phân cấp thiết lập nhóm, phân cấp nguồn gốc hoạt động, phân cấp dựa trên quy Một số hệ thống phân cấp là:
Hệ thống phân phân cấp lược đồ là thứ tự toàn bộ hoặc một phần các thuộc tính trong lược đồ CSDL
Hệ thống phân cấp thiết lập nhóm tổ chức các giá trị cho thuộc tính thành các nhóm hoặc tập các giá trị Hệ thống này được dùng để hoàn thiện hoặc làm phong phú thêm cho hệ thống phân cấp lược đồ, thường được sử dụng cho một tập nhỏ của thuộc tính đối tượng
Hệ thống phân cấp nguồn gốc hoạt động dựa trên các hoạt động cụ thể Các hoạt động này có thể bao gồm giải mã các chuỗi thông tin mã hóa, khai thác thông tin từ các đối tượng dữ liệu phức tạp, phân cụm dữ liệu
Hệ thống phân cấp dựa trên quy luật xuất hiện khi toàn bộ hoặc một phần của
hệ thống phân cấp khái niệm được định nghĩa là một tập hợp các quy tắc và được đánh giá tự động dựa trên CSDL hiện tại và quy tắc định nghĩa
Các độ đo [17, 26] được sử dụng để giới hạn số lượng các mẫu dữ liệu dựa trên cấu trúc của mẫu và số liệu thống kê cơ bản của chúng Các độ đo thường đi kèm với các ngưỡng giá trị được lựa chọn bởi người khai thác nhằm dẫn đường cho quá trình khai phá hoặc đánh giá các mẫu tìm thấy Các phép đo khách quan bao gồm các thuộc tính là tính đơn giản, tính chắc chắn, tính hữu dụng, tính mới lạ Các thuộc tính trên được sử dụng như sau:
Tính đơn giản của một mô hình được dựa trên sư đơn giản tổng thể của mô hình
đó đối với sự hiểu biết của con người Ví dụ, quy định về độ dài là một quy định đơn giản
Tính chắc chắn đánh giá những giá trị độ tin cậy của một mô hình Ví dụ, xác suất có điều kiện mua máy tính thì sẽ mua phần mềm cao chứng tỏ nhiều khả năng người mua máy tính cũng sẽ mua phần mềm
Tính hữu ích cho thấy khả năng sử dụng của một mô hình Ví dụ, một xác suất cho trước cho các quy tắc mua phần mềm trước đó có ý nghĩa là với xác suất này thì tất cả người mua máy tính cũng sẽ mua phần mềm trong các của hàng
Tính mới lạ chỉ ra các mẫu góp phần thông tin mới cho việc thiết lập mô hình được gọi là mẫu mới Việc loại bỏ mô hình dư thừa là chiến lược cho việc phát hiện mẫu mới lạ
Trang 16Mô hình trực quan và biểu diễn tri thức [17, 26] có tác dụng giúp cho khai thác dữ liệu có hiệu quả, bằng cách hiển thị các mẫu được phát hiện ở nhiều hình thức bao gồm các quy tắc, bảng, báo cáo, biểu đồ, đồ thị, cây, khối và các trình bày trực quan khác Người khai thác phải có khả năng xác định các hình thức trình bày cần được sử dụng để hiển thị các mô hình được phát hiện
1.2.2 Các nhiệm vụ khai phá dữ liệu
Nhiệm vụ KPDL là rất đa dạng bởi có nhiều mẫu trong một CSDL lớn Dựa trên các loại mẫu, nhiệm vụ KPDL có thể được phân chia thành năm loại gồm có tổng hợp, phân lớp, phân cụm, luật kết hợp và phân tích xu hướng [16, 27]
Tổng hợp [16] là sự trừu tượng hoặc khái quát hóa dữ liệu Cụ thể là:
Một tập hợp các dữ liệu có liên quan được tổng hợp và trừu tượng hóa dẫn đến
một tập nhỏ hơn và đưa ra cái nhìn tổng quan về dữ liệu với thông tin kèm theo
Ví dụ như cuộc gọi đường dài của một khách hàng có thể được tóm tắt trong tổng
số phút, tổng số chi phí, tổng số các cuộc gọi, v.v
Tổng kết có thể lên đến những mức độ trừu tượng khác nhau và được nhìn từ nhiều góc độ khác nhau Các phút gọi và chi phí điện thoại có thể được tổng cộng theo thời gian gọi điện thoại trong tuần, tháng, quý, năm Tương tự như vậy, các cuộc gọi được tóm tắt vào trong cuộc gọi trong thành phố, cuộc gọi giữa các thành phố, cuộc gọi châu Á, cuộc gọi châu Âu, v.v
Phân lớp [16] xác định lớp của một đối tượng dựa trên thuộc tính của nó Phân lớp
có thể hiểu như:
Một tập hợp các đối tượng được cho là tập huấn luyện, trong đó mỗi đối tượng được biểu diễn bởi một véc-tơ các thuộc tính của nó Một chức năng phân lớp được xây dựng bằng cách phân tích mối quan hệ giữa các thuộc tính của đối tượng trong tập huấn luyện Ví dụ, từ một tập các bệnh nhân được chẩn đoán, được dùng như một tập huấn luyện, một mô hình phân lớp có thể được xây dựng, trong đó kết luận bệnh của bệnh nhân mắc phải từ dữ liệu chẩn đoán của mình
Mô hình phân lớp có thể được sử dụng để chẩn đoán bệnh của bệnh nhân mới dựa trên dựa trên dữ liệu chẩn đoán của bệnh nhân, chẳng hạn như tuổi, giới tính, khối lượng, nhiệt độ, huyết áp, v.v
Luật kết hợp [16] khám phá sự liên kết hoặc kết nối của các đối tượng Liên kết hoặc kết nối như vậy được gọi với thuật ngữ là luật kết hợp Luật kết hợp về căn bản như sau:
Một luật kết hợp cho thấy mối quan hệ liên kết giữa các đối tượng Sự xuất hiện của một tập hợp các đối tượng trong một CSDL có liên quan chặt chẽ đến sự xuất hiện của một tập hợp các đối tượng khác
Trang 17 Các luật kết hợp có tác dụng trong tiếp thị, quản lý hàng hóa, quảng cáo, v.v Phân cụm [16] xác định các cụm hay nhóm cho một tập các đối tượng mà nhóm của chúng chưa rõ Khi các cụm được quyết định, các đối tượng được dán nhãn với các cụm tương ứng của chúng và các tính năng phổ biến của các đối tượng trong một cụm được tổng hợp để hình thành các mô tả các lớp
Phân tích xu hướng [16] là phân tích các chuỗi dữ liệu được tích lũy theo thời gian Phương pháp phân tích xu hướng khám phá ra mẫu trong lịch sử phát triển của các đối tượng Một mẫu được xây dựng để mô phỏng hành vi của các đối tượng, có thể
sử dụng để dự đoán hành vi trong tương lai
Hình 1.2: Các nhiệm vụ khai phá dữ liệu
1.2.3 Kỹ thuật khai phá dữ liệu
Khai phá dữ liệu bao gồm cả thống kê, học máy, định hướng CSDL, mạng nơron, tập thô và trực quan [16, 27]
Kỹ thuật thống kê [16, 24] chỉ ra rằng nhiều công cụ thống kê đã được sử dụng cho khai phá dữ liệu bao gồm cả mạng Bayesian, phân tích hồi quy, phân tích tương quan và phân tích cụm Mô hình thống kê thường được xây dựng được từ một tập hợp các dữ liệu huấn luyện Một mô hình tối ưu, dựa vào kỹ thuật thống kê được xác định trước, được tìm kiếm trong không gian giả thuyết Quy định và quy luật sau đó được rút
ra từ mô hình Các mô hình trên được mô tả như sau:
Một mạng Bayes là một đồ thị có hướng đại diện cho các mối quan hệ thông thường giữa các biến, được tính bằng cách sử dụng lý thuyết xác suất Bayes
Hồi quy là nguồn gốc của một hàm ánh xạ một tập hợp các thuộc tính của các đối tượng đến một biến đầu ra
Phân tích tương quan nghiên cứu sự tương ứng của các biến với nhau
Trang 18 Phân tích cụm tìm thấy các nhóm từ một tập hợp đối tượng dựa trên thước đo khoảng cách
Kỹ thuật học máy [16, 24] tìm kiếm một mô hình phù hợp nhất với các dữ liệu thử nghiệm giống như thống kê Khác với thống kê ở chỗ, không gian tìm kiếm trong học máy là một không gian nhận thức của nhiều thuộc tính Bên cạnh đó, hầu hết kỹ thuật học máy sử dụng kỹ thuật chẩn đoán trong tìm kiếm Kỹ thuật học máy phổ biến nhất được sử dụng cho khai phá dữ liệu là cây quyết định, học quy nạp khái niệm và phân cụm khái niệm Các mô hình áp dụng cụ thể là:
Cây quyết định là một phân loại tự do, xác định một lớp các đối tượng bằng cách đi theo con đường hình thành từ gốc đến nút lá, lựa chọn các chi nhánh theo các giá trị thuộc tính đối tượng Cây quyết định được tạo nên từ tập huấn luyện và quy tắc phân loại có thể được trích ra từ những cây quyết định khác
Học quy nạp khái niệm xuất phát ngắn gọn, mô tả hợp logic các khái niệm từ một tập hợp các ví dụ
Phân cụm khái niệm tìm thấy các nhóm hoặc các cụm trong một tập đối tượng dựa trên khái niệm gần gũi giữa các đối tượng
Kỹ thuật định hướng CSDL [16, 24] không tìm kiếm một mô hình tốt nhất như hai
kỹ thuật trước Thay vào đó, mẫu dữ liệu hoặc CSDL phỏng đoán cụ thể được sử dụng
để khai thác dữ liệu theo cách thủ công Các thuộc tính định hướng quy nạp, kỹ thuật quét CSDL lặp đi lặp lại, và các thuộc tính tập trung, là đại diện của các kỹ thuật định hướng CSDL
Trong định hướng thuộc tính quy nạp, dữ liệu cấp thấp tổng hợp vào các khái niệm cao cấp sử dụng hệ thống phân cấp khái niệm
Kỹ thuật quét CSDL lặp đi lặp lại sử dụng để tìm kiếm các tập hợp thường xuyên trong một CSDL
Kỹ thuật tập trung liên kết tìm kiếm các mẫu với xác xuất bất thường bằng cách thêm thuộc tính chọn lọc vào mô hình
Kỹ thuật trực quan hóa [16, 24] là kỹ thuật khai thác dựa vào việc phân tích biểu diễn Dữ liệu được chuyển đổi thành dấu chấm, đường, khu vực, v.v và hiển thị trong một không gian hai hoặc ba chiều Người sử dụng có thể tương tác, khám phá những điểm lý thú bằng cách kiểm tra trực quan
Các kỹ thuật trên có thể kết hợp với nhau để giải quyết các vấn đề phức tạp hoặc cung cấp giải pháp thay thế cách thức đã có
Trang 19Hình 1.3: Các kỹ thuật khai phá dữ liệu
1.3 ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU
1.3.1 Ứng dụng của khai phá dữ liệu
KPDL đã được áp dụng thành công trên nhiều lĩnh vực, từ các lĩnh vực truyền thống như kinh doanh, khoa học cho đến các lĩnh vực mới như thể thao
Ứng dụng trong kinh doanh [16]: Nhiều tổ chức hiện nay sử dụng KPDL như là một vũ khí bí mật để giữ hoặc đạt được lợi thế cạnh tranh KPDL đã được sử dụng trong tiếp thị, phân tích dữ liệu bán lẻ, lựa chọn cổ phiếu, phê duyệt tín dụng, v.v Cụ thể các ứng dụng đó là:
CSDL của tiếp thị là một trong những ứng dụng kinh doanh thành công và phổ biến của KPDL Bằng cách khai thác CSDL về lịch sử khách hàng, xu hướng được rút ra và hồ sơ khách hàng được xây dựng có thể được sử dụng để tiếp thị hiệu quả hơn
CSDL bán lẻ có chứa các giao dịch mua sắm của khách hàng KPDL có thể tìm thấy mô hình mua sắm của khách hàng đã được sử dụng Ví dụ, trong chiến dịch bán hàng
Sử dụng KPDL, nhà đầu tư có thể xây dựng mô hình được sử dụng để dự đoán hiệu suất của các cổ phiếu Bằng cách tìm kiếm các xu hướng và các mẫu cổ phiếu trong dữ liệu, KPDL có thể giúp các nhà đầu tư tìm cổ phiếu có hiệu suất tốt
Ứng dụng cho tín dụng hoặc cho vay được quyết định dựa trên thông tin của thông tin người nộp đơn Một hỗ trợ quyết định duyệt tín dụng hoặc cho vay có thể được xây dựng từ dữ liệu lịch sử sử dụng các công cụ KPDL
Trang 20Ứng dụng trong khoa học [16]: KPDL cũng được sử dụng trong thiên văn học, sinh học phân tử, y học địa chất và nhiều hơn nữa Ví dụ, hệ thống KPDL có thể phân loại các đối tượng trên bầu trời, chẳng hạn như ngôi sao, thông qua hình ảnh của những
vệ tinh
Ứng dụng khác: KPDL cũng được sử dụng trong nhiều lĩnh vực khác, chẳng hạn như quản lý chăm sóc sức khỏe, phát hiện gian lân thuế, giám sát hoạt động rửa tiền, thậm chí cả thể thao
1.3.2 Ứng dụng các phương pháp khai phá dữ liệu trong hệ tư vấn
Thuật ngữ KPDL để cập đến một loạt các mô hình toán học và các công cụ phần mềm được sử dụng để tìm kiếm các mẫu trong dữ liệu và sử dụng chúng để xây dựng
mô hình Trong bối cảnh các ứng dụng khuyến nghị, thuật ngữ KPDL được sử dụng để
mô tả bộ các kỹ thuật phân tích được sử dụng hệ đưa ra quy tắc khuyến nghị hoặc xây dựng các mô hình khuyến nghị từ các tập dữ liệu lớn Hệ thống tư vấn kết hợp các kỹ thuật KPDL làm cho khuyến nghị của chúng có thể sử dụng những kiến thức học được
từ những hành động và các thuộc tính của người sử dụng Các hệ thống này thường dựa trên phát triển hồ sơ của người dùng kéo dài (dựa trên tính nhân khẩu hoặc dữ liệu lịch
sử tiêu thụ), nhất thời (dựa trên các hành động ở hiện tại) hoặc là cả hai Các thuật toán được sử dụng bao gồm phân cụm, phân lớp, luật kết hợp, v.v [22]
Phân cụm [22] được thực hiện bằng cách xác định các nhóm (cụm) người tiêu dùng có sở thích tương tự Khi nhóm được tạo ra, trung bình các ý kiến của người dùng khác trong nhóm có thể được sử dụng để đưa ra dự đoán cho một cá nhân Dự đoán là một giá trị trung bình dựa trên các cụm, trọng số là mức độ tham gia của từng cụm Phương pháp phân cụm thường tạo ra các khuyến nghị ít mang tính cá nhân hơn các phương pháp khác Một số trường hợp, phân cụm có độ chính xác kém hơn các thuật toán lọc cộng tác Mỗi khi một quá trình phân cụm được hoàn tất, hiệu quả đạt được có thể rất tốt nếu như kích thước của một nhóm được phân chia thành rất nhỏ
Phân lớp [25] là các mô hình tính toán chung gán với một thể loại đầu vào Các đầu vào có thể là các véc-tơ tính năng cho các tài nguyên được phân lớp hoặc dữ liệu
về mối quan hệ giữa các mặt hàng Thể loại là một tên miền phân lớp, cụ thể như ác tính hoặc lành tính để phân loại cho khối u, cho phép hoặc không cho phép yêu cầu tín dụng, xâm nhập hoặc ủy quyền cho kiểm tra an ninh Một cách để xây dựng một hệ thống tư vấn sử dụng phân lớp là sử dụng thông tin về một sản phẩm mà đầu vào là một khách hàng và thể loại đầu ra sản phẩm đại diện chắc chắn để khuyến nghị cho khách hàng Phân lớp có thể được thực hiện bằng cách sử dụng nhiều chiến lược học máy khác nhau bao gồm quy tắc cảm ứng, mạng noron và mạng Bayes Trong mỗi trường hợp, phân lớp được đào tạo bởi tập huấn luyện trong đó phân loại đúng đã có sẵn Sau
đó, phân lớp có thể được áp dụng để phân loại các mặt hàng mới mà chưa có sẵn phân loại đúng Ví dụ, mạng Bayes tạo ra một mô hình đào tạo dựa trên một thiết lập với một
Trang 21cây quyết định tại mỗi nút và các cạnh đại diện cho thông tin người dùng Phân lớp khá thành công trong một số lĩnh vực khác nhau từ xác định gian lận và rủi ro tín dụng trong các giao dịch tài chính đến chẩn đoán y tế để phát hiện bệnh
Luật kết hợp [22] là một trong các phương pháp được biết đến nhiều nhất của KPDL trong hệ tư vấn Các cách xác định tài nguyên thường xuyên được tìm thấy trong các kết hợp mà người dùng bày tỏ quan tâm Sự kết hợp có thể dựa trên việc cùng mua,
sở thích của những người dùng thông thường hoặc các biện pháp khác Hệ thống tỏ ra hiệu quả với toàn bộ các mặt hàng, chẳng hạn dựa vào giỏ mua của khách hàng, giúp cho việc xác định các mặt hàng kết hợp Mỗi luật kết hợp biểu hiện một mối quan hệ là một sản phẩm thường được mua cùng với các sản phẩm khác Luật kết hợp có thể tạo thành một đại diện đơn giản của các dữ liệu sở thích, góp phần nâng cao hiệu quả lưu trữ cũng như hiệu suất khuyến nghị Luật kết hợp thành công trong nhiều ứng dụng như
bố trí kệ để hàng trong các cửa hàng bán lẻ Ngược lại, hệ thống tư vấn trong lọc cộng tác lại dễ dàng thực hiện khuyến nghị cho một cá nhân trong một miền mà ý kiến người dùng thường xuyên bổ sung, chẳng hạn như bán lẻ trực tuyến Ngoài việc sử dụng trong thương mại, luật kết hợp đã trở thành công cụ mạnh cho ứng dụng trong lĩnh vực quản
lý kiến thức Trong lĩnh vực trên, hệ thống cố gắng để dự đoán những trang web hoặc tài liệu có thể có ích cho một người sử dụng
1.4 KẾT LUẬN CHƯƠNG
Trong chương này, chúng tôi đã trình bày tổng quan về khai phá dữ liệu và các
kỹ thuật khai phá cùng những ứng dụng của khai phá kỹ thuật, đặc biệt là ứng dụng trong hệ tư vấn
Trang 22Hệ tư vấn xuất hiện để tính toán dữ liệu sao cho phù hợp với sở thích của người sử dụng Qua đó, hệ thống sẽ khuyến nghị cho người dùng những thông tin, sản phẩm phù hợp nhất với nhu cầu của họ
Hệ thống tư vấn (hay còn gọi là hệ thống khuyến nghị) [5, 1] là một phân lớp của
hệ thống lọc thông tin mà tìm cách dự đoán đánh giá hoặc sở thích người dùng sẽ cung cấp cho một đối tượng
Đối tượng được nhắc đến ở trên có thể là một mặt hàng (chẳng hạn như âm nhạc, sách, phim) hoặc yếu tố xã hội (ví dụ như người hoặc nhóm) vẫn chưa được xem xét
Mô hình dự báo có thể được xây dựng từ những đặc điểm của một đối tượng (theo phương pháp tiếp cận dựa trên nội dung) hoặc môi trường xã hội của người dùng (theo phương pháp lọc cộng tác)
Lọc dựa trên nội dung [7] được dựa trên thông tin, mục tiêu đánh giá và đặc điểm tính năng của sản phẩm được khuyến nghị Phương pháp này có phương châm là người
sử dụng sẽ đánh giá như nhau với các mặt hàng có tính năng tương tự Dựa trên lịch sử lựa chọn mặt hàng của người dùng, nó sẽ khuyến nghị người dùng sử dụng các mặt hàng có tính năng tương tự đối với các mặt hàng đã được đánh giá cao
Trang 23Ngoài hai phương pháp trên, các phương pháp khuyến nghị khác [1] là phương pháp nhân khẩu, phương pháp dựa trên tiện ích, phương pháp dựa trên tri thức, v.v Và một số phương pháp biến thể được tạo ra bằng cách kết hợp hai hay nhiều phương pháp được nêu ra ở trên nhằm phát huy ưu thế riêng của từng phương pháp
2.2 PHƯƠNG PHÁP LỌC CỘNG TÁC
2.2.1 Khát quát lọc cộng tác
Lọc cộng tác [3, 6] là một kỹ thuật được sử dụng cho hệ thống tư vấn, dựa vào việc xử lý dữ liệu để xây dựng đặc điểm của người dùng cần khuyến nghị dựa trên sở thích tương tự hoặc thói quen Trong phương pháp này, dữ liệu đầu vào là một tập đánh giá các tài nguyên của người dùng Dựa trên các đánh giá này, người dùng có thể so sánh được với nhau hình thành nên khái niệm người dùng tương đồng Tương tự như vậy, xuất hiên khái niệm tài nguyên tương đồng Điểm đánh giá của một người dùng có thể dự đoán được dựa trên các đánh giá của người dùng “lân cận” hay tài nguyên “gần gũi” Dựa theo cơ sở để dự đoán đánh giá của một người dùng, chúng ta có thể phân ra làm hai cách tiếp cận chính:
Dựa trên người dùng (user - based)
Dựa trên tài nguyên (item - based)
Hình 2.1: Ma trận đánh giá R của người dùng lên tài nguyên
Theo hình trên, U là tập gồm N người dùng, I là tập gồm M tài nguyên và R là tập đánh giá của người dùng uU lên tài nguyên iI Mục tiêu của lọc cộng tác là có thể dự đoán đánh giá của người dùng lên một tài nguyên chưa được lựa chọn Lọc cộng tác bao gồm hai nhiệm vụ chính: dự báo và tư vấn Phương thức dự báo cho ra giá trị
Trang 24Hình 2.2: Minh họa một đánh giá cần dự đoán của người dùng với lọc cộng tác
Hình 2.3: Các cách tiếp cận trong lọc cộng tác
2.2.2 Cách tiếp cận dựa trên người dùng
Theo cách tiếp cận dựa trên người dùng [14, 18], việc dự đoán đánh giá của người dùng lên một tài nguyên dựa trên đánh giá của những người dùng hàng xóm “lân cận” lên tài nguyên đó Vì thế, cần định nghĩa một độ đo tương đồng giữa những người dùng trước khi một tập những người hàng xóm lân cận được xác định
Độ đo tương đồng này sử dụng hệ số tương quan Pearson Gọi sim , u v là độ đo tương đồng giữa người dùng u và v được đo bởi công thức [9, 31]:
v i v I
i
u i u
I i
v i v u i u
r r r
r
r r r r v
u sim
2 , 2
,
, ,
) (
) (
) (
) (
) ,
Ở đây,
I là tập tất cả các tài nguyên được đánh giá bởi người dùng u và v
r u,i và r v,i là các đánh giá đã biết của người dùng u và v lên tài nguyên i
Trang 25 r u và r v là đánh giá trung bình của các người dùng u và v
Trước hết, hệ thống xác định số lượng người K tương đồng với người được xét Tập người dùng hàng xóm của người dùng u, ký hiệu là G u, được tạo nên bởi K người dùng trên, với K là tham số hệ thống, được xác định tùy thuộc vào hệ thống
Một cách khả thi để có thể dự đoán được đánh giá của người dùng u lên tài nguyên i là sử dụng tổng trọng số các đánh giá của những người hàng xóm gần nhất (hoặc tương đồng với u nhất dựa trên độ đo tương đồng trên) v lên tài nguyên i:
G v
G v
i v i
u
v u sim
r v u sim p
) , (
* ) ,
Để xem xét sự khác nhau giữa những người dùng khác nhau, việc đánh giá độ lệch dựa trên đánh giá trung bình được đề ra p u,i trong trường hợp này sẽ được đánh giá dựa trên tổng của đánh giá trung bình của người dùng u với tổng trọng số được đánh giá từ độ lệch từ đánh giá trung bình của những người dùng hàng xóm lên tài nguyên [9, 31]:
G v
G v
v i v u
i u
v u sim
r r v u sim r
p
) , (
) (
* ) ,
r v là đánh giá trung bình của người dùng v
Ví dụ: Cho ma trận đánh giá R dưới đây R là ma trận đánh giá của người dùng lên các tài nguyên
Bảng 2.1: Ví dụ về đánh giá của người dùng lên tài nguyên
Trang 26v i v I
i
u i u
I i
v i v u i u
r r r
r
r r r r v
u sim
2 , 2
,
, ,
) (
) (
) (
) (
) , (
1 3
12 3 3
12 5
* 2
7 4 2
7 3
3
12 3 2
7 4 3
12 5 2
7 3 )
( )
(
) (
) (
2 2
} , 1
2 }
, 1
2 } ,
a aj j
u uj a aj
r r r
r
r r r r sim
Tương tự như vậy
17
4)
4,3(
;5
2)2,3
2 4
17 5 5 2 2
7 , 2 ,
4 1 5 2
4
15 3 17
4 ) 4 4 (
* 1 4
17 5 5 2 2
7 , 2 ,
2.2.3 Cách tiếp cận dựa trên tài nguyên
Cách tiếp cận dựa trên tài nguyên [18, 21] được đánh giá cao trong phương pháp lọc cộng tác Tương tự như với người dùng, một độ đo tương đồng giữa những tài nguyên được đặt ra để xác định các tài nguyên hàng xóm Dự đoán đánh giá của người dùng lên một tài nguyên được dựa trên đánh giá của người dùng đó lên các tài nguyên hàng xóm
Các độ đo tương đồng giữa tài nguyên u và tài nguyên i được cho bởi công thức [9, 21, 31]:
j j u U
u
i i u
U u
j j u i i u
r r r
r
r r r r j
i sim
2 , 2
,
, ,
) (
) (
) (
) (
) ,
Trong đó,
Trang 27 U là tập những người dùng đánh giá cho cả tài nguyên i và j
r u,i và
j u
r, là đánh giá của người dùng u cho tài nguyên i và j
r i và r j là trung bình các đánh giá của các tài nguyên i và j
Kích thước K của tập tài nguyên hàng xóm là một tham số hệ thống và cần được định nghĩa Với tập các tài nguyên hàng xóm của tài nguyên i, một vài cách dự đoán đánh giá cho người dùng có thể được sử dụng
H j
H j
j u i
u
j i sim
r j i sim p
) , (
* ) ,
H j
H j
j j u i
i u
j i sim
r r j i sim r
p
),(
)(
*),
,
Trong đó
H i là tập các tài nguyên hàng xóm của tài nguyên i
r j đánh giá trung bình trên tài nguyên j
Làm lại ví dụ với bộ dữ liệu bảng 2.1:
2 ,
} , 1
2 ,
} , 1
, ,
) (
) (
) (
) (
) 1 , 2 (
u
j j u u
i j u u
j j u i i u
r r r
r
r r r r sim
19
2 4 4
17 5 4
17 4 4
17 5
* 3
12 3 3
12 5 3
12 4
4
17 5
* 3
12 3 4
17 4
* 3
12 5 4
17 5
* 3
12 4
2 2
2 2
;43
4)3,2
sim
Dự báo đánh giá cho người dùng u3lên tài nguyên i2 theo hai trường hợp :
Với K 1
Trang 283 43 4
3
* 43
4 ,
2 ,
p
Với K 2
3 5 43
4 19
2 4
4
* 43
4 5
* 19
2 4 ,
2 ,
2.3.1 Phát sinh vấn đề cold - start
Trong hệ thống khuyến nghị, với hai phương pháp lọc cộng tác và lọc dựa trên nội dung, hệ thống đều phải dựa trên lịch sử đánh giá của người dùng đối với những tài nguyên đã được đánh giá trong quá khứ Điều này có nghĩa là đối với người dùng mới thì hệ thống không có thông tin về đánh giá của người dùng trong dữ liệu nên không thể
áp dụng các phương pháp trên để khuyến nghị [12] Những người dùng mới này lại chiếm một lượng không nhỏ trong tổng số người dùng, đóng vai trò quan trọng trong việc duy trì và phát triển quy mô mặt hàng, gây ảnh hưởng đến hiệu suất của hệ tư vấn [20] Vấn đề trên được gọi là vấn đề cold - start xảy đến với người dùng mới Do vậy,
hê tư vấn cần phải thay thế dữ liệu đầu vào cho phù hợp với đối tượng người dùng này
Ví dụ: Một hệ khuyến nghị có người dùng mới và chưa có đánh giá tài nguyên của người dùng này
Bảng 2.2: Ma trận đánh giá của người dùng lên tài nguyên có người dùng mới
Trang 292.3.2 Phương pháp dựa trên nhân khẩu
Một phương pháp khuyến nghị mới được đề xuất để giải quyết vấn đề trên Đó là phương pháp dựa trên nhân khẩu Phương pháp này có sự thay đổi đầu vào là không nhằm vào lịch sử đánh giá của những người dùng mà dựa vào sự tương đồng về mặt nhân khẩu giữa những người dùng với nhau, ví dụ như tuổi, công việc, nơi ở và giả định rằng những người dùng có sự tương đồng về mặt nhân khẩu sẽ có những đánh giá, lựa chọn tương tự nhau để hình thành một nhóm người dùng “gần gũi” Trong đó, một người dùng là người dùng đang cần được tư vấn, còn lại là những người dùng đã từng tham gia đánh giá
Phương pháp khuyến nghị dựa trên nhân khẩu bao gồm ba quá trình [7]: giai đoạn
dữ liệu đầu vào, giai đoạn tính toán tương tự và giai đoạn tính toán đề nghị Dữ liệu đầu vào là dữ liệu nhân khẩu của người dùng mới được xếp chung với dữ liệu của những người dùng khác đã biết thông tin đánh giá Giai đoạn tính toán tương tự sử dụng dữ liệu nhân khẩu của những người đánh giá để tìm ra người dùng tương đồng với người dùng cần tư vấn rồi thành lập nhóm người dùng tương đồng với người dùng đó Giai đoạn tính đoán đề nghị tìm được các tài nguyên có sự phổ biến cao đối với những người dùng trong nhóm tương tự để đưa ra đề nghị cho người dùng mới
Hình 2.4: Phương pháp dựa trên nhân khẩu
Ta sẽ thực hiện ví dụ sau Bảng dưới đây có thông tin nhân khẩu của một số người dùng, trong đó có một người dùng cần khuyến nghị
Bảng 2.3: Bảng thông tin nhân khẩu của một số người dùng
Trang 30Theo bảng thông tin trên có bốn thuộc tính nhân khẩu học là giới tính, nghề nghiệp, quốc gia và tuổi Giả sử John là người dùng cần tư vấn thì dựa theo sự giống nhau về giới tính, quốc gia thì giống Paul và Mike Nếu lựa chọn sự tương đồng về mặt nghề nghiệp thì Sarah tương tự John Sự lựa chọn các thuộc tính tương tự ở giai đoạn
dữ liệu vào ảnh hưởng đến số lượng người dùng cho giai đoạn tính toán tương tự và từ
đó ảnh hưởng đến kết quả cho giai đoạn tính toán đề nghị
Cùng với quá trình trên, một khuôn khổ mới dựa trên dữ liệu nhân khẩu học được xây dựng nhằm đánh giá ảnh hưởng thuộc tính nhân khẩu tới đánh giá của người dùng Khung đánh giá nhân khẩu gồm bốn phần: dữ liệu nguồn, phân tích thuộc tính, phân chia dữ liệu và đưa ra khuyến nghị [7]
Nguồn dữ liệu chứa dữ liệu về người dùng, tương ứng với giai đoạn dữ liệu đầu vào Phân tích thuộc tính sẽ phân tích các loại thuộc tính nhân khẩu, sự phân bố của các loại thuộc tính trong dữ liệu và xác định các thuộc tính hợp lệ cho việc khuyến nghị Phần phân chia dữ liệu gồm hai công việc là tách tập dữ liệu ra thành một tập dữ liệu huấn luyện và loại bỏ một số đánh giá của một vài người dùng được lựa chọn ngẫu nhiên (coi như ẩn hoặc người dùng mới không có đánh giá) từ tập dữ liệu được huấn luyện và ghi lại xếp hạng của những người dùng đó vào tập dữ liệu thử nghiệm tương ứng với mỗi thuộc tính hợp lệ Phần phân tích thuộc tính và phần phân chia dữ liệu thuộc vào giai đoạn tính toán tương tự Sau đó, phần đưa ra đề nghị rút ra những đối tượng xuất hiện trong tập dữ liệu huấn luyện giới thiệu cho người dùng mới và sử dụng các tập dữ liệu ẩn đã có sẵn đánh giá độ chính xác Phần đưa ra đề nghị xảy ra trong giai đoạn tính toán đề nghị
Hình 2.5: Khung đánh giá thuộc tính nhân khẩu
Trang 312.4 PHƯƠNG PHÁP TIẾP CẬN ĐA CHIỀU
2.4.1 Mô hình khuyến nghị đa chiều
Hệ thống khuyến nghị hai chiều sử dụng hàm R dự đoán các đánh giá chưa biết:
Rating Item
User
Ở đây,
User là tập người dùng
Item là tập tài nguyên
Rating là tập đánh giá của người dùng lên các tài nguyên
Thêm vào yếu tố ngữ cảnh, hệ thống khuyến nghị truyền thống đã trở thành hệ khuyến nghị MD Lúc này, hàm R được bổ xung thêm thành phần Context và trở thành:
Rating Context
Item User
Trong đó
Context là tập các ngữ cảnh liên quan đến các đánh giá
Ví dụ trong hệ thống khuyến nghị du lịch, người dùng là người cần được hệ thống khuyến nghị các địa điểm du lịch, đối tượng tư vấn là địa điểm du lịch, ngữ cảnh là thời gian đi (buổi sáng, buổi tối, tháng, mùa), đồng hành (đi một mình, đi với bạn bè, đi với gia đình, v.v.) Khi đó, quyết định của người dùng sẽ phụ thuộc vào ngữ cảnh
Để hình dung về mô hình khuyến nghị MD [11], chúng ta dựa vào mô hình ba chiều Giả sử không gian dữ liệu có các chiều là D1, ,D n Trong đó, chiều “người dùng” và chiều “đối tượng” đã biết trước Các chiều còn lại là các thành phần của yếu
tố “ngữ cảnh” Mỗi chiều là một tập con của tập hợp tích Decarste gồm nhiều thuộc tính D i A i1A í2 A ik Trong đó, mỗi thuộc tính A ik định nghĩa một miền giá trị Thêm vào đó, một hoặc một vài thuộc tính tạo thành khóa để phân biệt Trong một số trường hợp, một chiều có thể chỉ là một thuộc tính đơn lẻ (khi đó k 1 trong A ik)
Ví dụ sau sẽ làm rõ hơn về mô hình này: Giả sử có một không gian khuyến nghị
ba chiều là: Người dùng Đối tượng Thời gian
Người dùng Tên người dùng Địa chỉ Thu nhập Tuổi
Đối tượng Tên đối tượng Thể loại Giá cả
Thời gian Năm tháng ngày
Khi đó, hàm R:UserItemContext sẽ trở thành hàm R:UserItemTime, có nghĩa là người dùng uUser đánh giá đối tượng iItem vào thời điểm tTime dưới