1. Trang chủ
  2. » Luận Văn - Báo Cáo

1 toan van luan an

205 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Hệ Tư Vấn Dựa Trên Trường Hàm Ý Thống Kê
Tác giả Nguyễn Tấn Hoàng
Người hướng dẫn PGS.TS Huỳnh Xuân Hiệp, TS Huỳnh Hữu Hưng
Trường học Trường Đại học Bách khoa Đà Nẵng
Chuyên ngành Khoa học máy tính
Thể loại Luận án Tiến sĩ kỹ thuật
Năm xuất bản 2022
Thành phố Đà Nẵng
Định dạng
Số trang 205
Dung lượng 4,05 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • 0. MỞ ĐẦU (15)
  • 1. CHƯƠNG TỔNG QUAN VỀ TRƯỜNG HÀM Ý VÀ HỆ TƯ VẤN (0)
    • 1.1. Phân tích hàm ý thống kê (22)
      • 1.1.1. Các độ đo hàm ý thống kê (28)
        • 1.1.1.1. Chỉ số hàm ý (29)
        • 1.1.1.2. Cường độ hàm ý (29)
      • 1.1.2. Trường hàm ý (33)
        • 1.1.2.1. Biến thiên chỉ số hàm ý (33)
        • 1.1.2.2. Trường hàm ý (34)
        • 1.1.2.3. Mặt đẳng trị hàm ý (35)
    • 1.2. Hệ tư vấn (36)
      • 1.2.1. Các thành phần của một hệ tư vấn (37)
      • 1.2.2. Đánh giá (38)
        • 1.2.2.1. Tổ chức dữ liệu đánh giá mô hình hệ tư vấn (38)
        • 1.2.2.2. Đánh giá hiệu quả mô hình hệ tư vấn (41)
      • 1.2.3. Phân loại (44)
        • 1.2.3.1. Hệ tư vấn dựa trên lọc nội dung (45)
        • 1.2.3.2. Hệ tư vấn dựa trên lọc cộng tác (48)
        • 1.2.3.3. Hệ tư vấn lai ghép (56)
        • 1.2.3.4. Các hệ tư vấn khác (58)
      • 1.2.4. Các lĩnh vực ứng dụng của hệ tư vấn (61)
        • 1.2.4.1. Quản lý hành chính nhà nước (e-government) (61)
        • 1.2.4.2. Thương mại điện tử (e-commercial) (62)
        • 1.2.4.3. Thư viện điện tử (e-library) (62)
        • 1.2.4.4. Học tập trực tuyến (e-learning) (63)
        • 1.2.4.5. Du lịch trực tuyến (e-tourism) (63)
        • 1.2.4.6. Quản lý tài nguyên (e-resource) (63)
      • 1.2.5. Một số vấn đề về hệ tư vấn (64)
        • 1.2.5.1. Dữ liệu thưa (Sparsity Problem) (64)
        • 1.2.5.2. Thiếu dữ liệu ban đầu (Cold Start) (64)
        • 1.2.5.3. Khả năng mở rộng (Scalability) (65)
        • 1.2.5.4. Quá chuyên môn (Over Specialization Problem) (65)
        • 1.2.5.5. Xu hướng thiên lệch theo sự phổ biến (Popularity bias) (65)
        • 1.2.5.6. Độ đo đối xứng (Symmetric measure problem) (66)
      • 1.2.6. Một số vấn đề về hệ tư vấn dựa trên mô hình khai thác luật (67)
      • 1.2.7. Một số vấn đề về hệ tư vấn dựa trên phân tích hàm ý thống kê (69)
    • 1.3. Đề xuất nghiên cứu (74)
    • 1.4. Kết luận chương (75)
  • 2. CHƯƠNG MÔ HÌNH HỆ TƯ VẤN DỰA TRÊN TRƯỜNG HÀM Ý (0)
    • 2.1. Mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý (77)
      • 2.1.1. Phân tích các vấn đề của hệ tư vấn dựa trên mô hình khai thác luật kết hợp (77)
      • 2.1.2. Độ biến thiên hàm ý thống kê và ngưỡng biến thiên hàm ý (81)
        • 2.1.2.1. Độ đo biến thiên hàm ý thống kê (82)
        • 2.1.2.2. Ngưỡng biến thiên chỉ số hàm ý (83)
        • 2.1.2.3. Ngưỡng biến thiên cường độ hàm ý (85)
      • 2.1.3. Luật kết hợp và khung khai thác luật (88)
        • 2.1.3.1. Luật kết hợp (88)
        • 2.1.3.2. Mô hình hoá luật kết hợp và khung khai thác luật kết hợp (88)
      • 2.1.4. Mô hình tư vấn và đánh giá mô hình (106)
        • 2.1.4.1. Mô hình (106)
        • 2.1.4.2. Đánh giá mô hình (110)
        • 2.1.4.3. Chọn mô hình tốt nhất (117)
        • 2.1.4.4. Tối ưu hoá các thông số của mô hình (119)
    • 2.2. Mô hình tư vấn dựa trên trường hàm ý thống kê (119)
      • 2.2.1. Các vấn đề của hệ tư vấn dựa trên biến thiên hàm ý thống kê (119)
      • 2.2.2. Luật hàm ý và khung khai thác luật hàm ý (120)
        • 2.2.2.1. Mô hình hoá luật hàm ý (121)
        • 2.2.2.2. Mô hình hoá khung khai thác luật hàm ý (123)
        • 2.2.2.3. Thủ tục tư vấn và thuật toán sử dụng (127)
      • 2.2.3. Mô hình (128)
      • 2.2.4. Đánh giá mô hình (129)
    • 2.3. Kết luận chương (136)
  • 3. CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ (0)
    • 3.1. Dữ liệu thực nghiệm (139)
      • 3.1.1. Tập dữ liệu Movielens và phân bố dữ liệu của nó (139)
      • 3.1.2. Tập dữ liệu MSWeb và phân bố dữ liệu của nó (142)
    • 3.2. Công cụ thực nghiệm (145)
    • 3.3. Thực nghiệm (146)
      • 3.3.1. Thực nghiệm mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý (146)
        • 3.3.1.1. Mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý theo người dùng (147)
        • 3.3.1.2. Mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý theo mục (152)
      • 3.3.2. Thực nghiệm mô hình tư vấn dựa trên trường hàm ý thống kê (158)
        • 3.3.2.1. Thực nghiệm trên dữ liệu phân hoạch theo số giao dịch của tập dữ liệu (159)
        • 3.3.2.2. Thực nghiệm trên dữ liệu phân hoạch theo mục đánh giá của giao dịch (165)
    • 3.4. Kết luận chương (172)
  • 4. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN (174)
  • Kết luận (21)
    • 5. DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ (177)
    • 6. TÀI LIỆU THAM KHẢO (179)

Nội dung

Trong các công cụ khai thác dữ liệu, phân tích hàm ý thống kê ASI- Analysis Statistical Implication dù chỉ mới được đề xuất vào cuối thập niên 1990 [94][95] bởi Regis Gras1 với mục đích

CHƯƠNG TỔNG QUAN VỀ TRƯỜNG HÀM Ý VÀ HỆ TƯ VẤN

Phân tích hàm ý thống kê

Phân tích hàm ý thống kê (ASI), được Regis Gras đề xuất vào thập niên 1990, nghiên cứu mối quan hệ hàm ý giữa các biến dữ liệu, thường được biểu diễn dưới dạng luật 𝑎 → 𝑏 Dạng biểu diễn này đã trở thành khái niệm chính trong khai phá dữ liệu để thể hiện mối quan hệ giữa các mẫu của các tập phổ biến Nhiều thuật toán đã được Agrawal et al phát triển nhằm khai thác các luật này một cách hiệu quả trong cơ sở dữ liệu lớn, với mục tiêu trích xuất một tập hợp hạn chế các luật có liên quan để hỗ trợ ra quyết định Tuy nhiên, các thử nghiệm so sánh cho thấy kết quả có thể thay đổi tùy thuộc vào sự lựa chọn của các độ đo chất lượng luật Các độ đo mức độ thú vị thường được phân loại thành hai loại: độ đo chủ quan (hướng người dùng) và độ đo khách quan (hướng dữ liệu), trong đó độ đo chủ quan tính đến tính bất ngờ và khả năng hoạt động tương đối, còn độ đo khách quan ưu tiên các tiêu chí thống kê như mức độ bao phủ, cường độ và ý nghĩa.

Trong các độ đo khách quan, độ hỗ trợ 𝑠𝑢𝑝𝑝 và độ tin cậy 𝑐𝑜𝑛𝑓 là hai tiêu chí phổ biến nhất Độ hỗ trợ 𝑠𝑢𝑝𝑝(𝑎 → 𝑏) cho biết tần suất xuất hiện đồng thời của các biến 𝑎 và 𝑏 trong dữ liệu, trong khi độ tin cậy 𝑐𝑜𝑛𝑓(𝑎 → 𝑏) thể hiện xác suất có điều kiện của 𝑏 trong số các đối tượng thỏa mãn 𝑎 Tuy nhiên, độ tin cậy có những hạn chế như không thay đổi khi kích thước của 𝑏 hoặc tập giao dịch 𝐸 thay đổi và không nhạy cảm với độ giãn của các biến Brin đã đề xuất tìm kiếm các tập phổ biến tương quan thông qua giá trị 𝜒², nhưng phép đo này không tận dụng sự mất cân bằng giữa các ô trong bảng tương quan Để xem xét kích thước tập dữ liệu và đặc điểm không đối xứng của hàm ý, Gras đã giới thiệu độ đo cường độ hàm ý 𝜑(𝑎 → 𝑏) và chỉ số hàm ý 𝑞(𝑎 → 𝑏) nhằm lượng hóa "sự ngạc nhiên" của mối quan hệ Cường độ hàm ý dựa trên mô hình xác suất cho phép đo lường chính xác ý nghĩa thống kê của các luật đã phát hiện và đã được chứng minh là nhạy cảm với các biến đổi nhỏ, đồng thời kết hợp tốt với các độ đo cổ điển hơn.

Để hiểu lý thuyết hàm ý thống kê, chúng ta xem xét một tập hữu hạn 𝐸 = {𝑒 1 , 𝑒 2 , … , 𝑒 𝑛 } gồm 𝑛 giao dịch, được mô tả bởi tập 𝐼 = {𝑖 1 , 𝑖 2 , … , 𝑖 𝑝 } với 𝑝 biến Ký hiệu Ω(𝑒 𝑘 ) đại diện cho tập phổ biến của giao dịch 𝑒 𝑘, với điều kiện 0 < 𝑘 ≤ 𝑛 và Ω(𝑒 𝑘 ) ⊆ 𝐼 Đặt 𝑎, 𝑏 là hai tập con của 𝐼, ta có tập 𝐴 = {𝑒 𝑘 ∈ 𝐸; ∀j ∈ 𝑎, 𝑗 ∈ Ω(𝑒 𝑘 )} chứa các giao dịch trong 𝐸 có chứa 𝑎, và 𝐴̅, 𝐵̅ là tập bù của 𝐴 trong 𝐸 Tương tự, tập 𝐵 = {𝑒 𝑘 ∈ 𝐸; ∀j ∈ 𝑏, 𝑗 ∈ Ω(𝑒 𝑘 )} và 𝐵̅ là tập bù của 𝐵 trong 𝐸.

Luật kết hợp hay hàm ý được biểu diễn dưới dạng 𝑎 → 𝑏, trong đó 𝑎 và 𝑏 là các tập phổ biến không giao nhau (𝑎 ⊂ 𝐼, 𝑏 ⊂ 𝐼 và 𝑎 ∩ 𝑏 = ∅) Trong thực tế, việc quan sát các giao dịch có sự xuất hiện của 𝑎 mà không có 𝑏 là khá phổ biến, và điều này không tuân theo xu hướng chung là 𝑏 sẽ xuất hiện khi 𝑎 có mặt Do đó, mối liên hệ giữa bản số 𝑛 của E và các bản số khác cũng cần được xem xét.

Số lượng phản ví dụ \( n_{A \cap B̅} = \text{card}(A \cap B̅) \) cần được xem xét để thống kê và quyết định chấp nhận hay không một luật \( a \rightarrow b \) Theo phân tích liên kết khả năng xảy ra của Lerman [41], cường độ hàm ý thể hiện khả năng không xảy ra các phản ví dụ \( n_{A \cap B̅} \) trong \( T \).

Mối quan hệ hàm ý giữa 𝑎 và 𝑏 được mô hình hóa trong phân tích hàm ý thống kê như sau (xem Hình 1-1)

Hình 1-1 Minh hoạ các thành phần của phân tích hàm ý thống kê bởi giản đồ

Để hiểu rõ hơn về cách biểu diễn mối quan hệ hàm ý của một luật hàm ý, chúng ta hãy xem xét một tập dữ liệu các giao dịch được trình bày trong ví dụ ở Bảng 1-1.

Bảng 1-1 Dữ liệu các giao dịch phim

Bảng 1-2 Trình bày dạng nhị phân dữ liệu các giao dịch phim

Tập dữ liệu gồm 9 giao dịch 𝐸 = {𝑒 1 , 𝑒 2 , … , 𝑒 9 } và tập mục 𝐼 = {𝑃ℎ𝑖𝑚 1 , 𝑃ℎ𝑖𝑚 2 , 𝑃ℎ𝑖𝑚 3 } chứa 3 mục Tập hợp các mục liên quan được xác định như sau: Ω(𝑒 1 ) = {𝑃ℎ𝑖𝑚 2 }, Ω(𝑒 2 ) = {𝑃ℎ𝑖𝑚 1 , 𝑃ℎ𝑖𝑚 2 } Các giao dịch trong Bảng 1-1 có thể được biểu diễn dưới dạng nhị phân.

Bảng 1-2 trình bày các giao dịch, trong đó mỗi dòng tương ứng với một giao dịch và mỗi cột đại diện cho một bộ phim Mỗi bộ phim được xem như một biến nhị phân, với giá trị 1 nếu nó có mặt trong giao dịch và 0 nếu không Xem xét luật 𝑎 → 𝑏 với 𝑎 = {𝑃ℎ𝑖𝑚 1 , 𝑃ℎ𝑖𝑚 2 } và 𝑏 = {𝑃ℎ𝑖𝑚 3 }, ta có tập 𝐴 = {𝑒 2 , 𝑒 4 , 𝑒 5 , 𝑒 6 , 𝑒 8 , 𝑒 9 } và 𝐵 = {𝑒 4 , 𝑒 5 , 𝑒 6 , 𝑒 9 } Với 𝑛 = 9, 𝑛 𝐴 = 6, 𝑛 𝐵 = 4, và 𝑛 𝐴𝐵̅ = 2.

Do đó, mối quan hệ 𝑎 → 𝑏 có thể được biểu diễn bằng bốn tham số (𝑛, 𝑛 𝐴 , 𝑛 𝐵 , 𝑛 𝐴𝐵̅ ) với giá trị cụ thể là 𝑎 → 𝑏 = (9,6,4,2) Chúng tôi tiến hành so sánh số lượng các phản ví dụ quan sát được với một mô hình xác suất Giả sử rằng chúng ta rút ngẫu nhiên hai tập con 𝑋 và 𝑌 trong nghiên cứu này.

𝐸, tương ứng chứa số các giao dịch 𝑛 𝐴 và 𝑛 𝐵 Các tập bù 𝑌̅ của 𝑌 và 𝐵̅ của 𝐵 trong

Trong trường hợp 𝐸 có cùng một số 𝑛 𝐵̅, biến ngẫu nhiên 𝑁 𝑋∩𝑌̅ được định nghĩa là 𝑐𝑎𝑟𝑑(𝑋 ∩ 𝑌̅), trong khi 𝑛 𝐴∩𝐵̅ là giá trị quan sát Luật kết hợp 𝑎 → 𝑏 có thể được chấp nhận với ngưỡng 1 − α nếu α lớn hơn xác suất số lượng phản ví dụ trong các quan sát vượt quá số lượng phản ví dụ mong đợi trong một phép rút ngẫu nhiên, tức là nếu 𝑃𝑟(𝑁 𝑋∩𝑌̅ ≤ 𝑛 (𝐴∩𝐵̅)) ≤ α.

Hình 1-2 So sánh số lượng các phản ví dụ quan sát được với mô hình xác suất

Phân phối của biến ngẫu nhiên 𝑁 𝑋∩𝑌 phụ thuộc vào phương pháp chọn ngẫu nhiên các giao dịch 𝑋 và 𝑌 Việc rút ra hai tập giao dịch 𝑋 và 𝑌 được thực hiện theo một thủ tục ngẫu nhiên, trong đó các phần tử xuất hiện theo dòng thực hiện giao dịch và phải thỏa mãn ba điều kiện: (𝑖) thời gian chờ cho các sự kiện (𝑎 và 𝑏̅) là các biến ngẫu nhiên độc lập, (𝑖𝑖) sự phân bổ số lượng của các sự kiện xảy ra trong khoảng [𝑡, 𝑡 + 𝑇] chỉ phụ thuộc vào T, và (𝑖𝑖𝑖) hai sự kiện có thể không đồng thời xảy ra Quá trình này dừng lại khi có 𝑛 𝐴 phần tử với 𝑎 = 𝑡𝑟𝑢𝑒 và 𝑛 𝐵 phần tử với 𝑏 = 𝑡𝑟𝑢𝑒 Gán 𝑐𝑎𝑟𝑑(𝑋 ∩ 𝑌̅) cho biến ngẫu nhiên số các phản ví dụ trong quá trình này.

Số lượng sự kiện xảy ra trong một khoảng thời gian cố định tuân theo phân phối Poisson 𝑃(𝜆), trong đó λ đại diện cho trung bình số lần thành công trong việc rút ra các giao dịch thỏa mãn điều kiện 𝑎 và 𝑏̅.

Xác suất của sự kiện (𝑎 = true) (và tương ứng, (𝑏 = false)) được lượng giá bởi 𝑛 𝐴

𝑛 Vậy, xác suất của sự kiện (𝑎 = true và 𝑏 = false) là λ = 𝑛 𝐴 𝑛 𝐵̅

𝑛 Đối với các trường hợp xấp xỉ [94] ( 𝜆 > 3), biến ngẫu nhiên chuẩn 𝑁̃ 𝑋∩𝑌̅ 𝑐𝑎𝑟𝑑(𝑋∩𝑌̅)−𝜆

√𝜆 là xấp xỉ phân phối 𝑁(0,1) Giá trị quan sát được của 𝑁̃ 𝑋∩𝑌̅ là 𝑛̃ 𝐴∩𝐵 𝑛 𝐴∩𝐵 ഥ −𝜆

Xác suất của 𝑐𝑎𝑟𝑑(𝑋 ∩ 𝑌̅) = 𝑠 được xác định theo công thức (1.1)

Xác suất mà các cơ hội dẫn đến một số lượng lớn các phản ví dụ \$\text{card}(X \cap \overline{Y})\$ lớn hơn so với số phản ví dụ quan sát được định nghĩa bởi công thức (1.2).

Trong phần dưới đây, chúng tôi xem xét phân phối Poison Trong các điều kiện xấp xỉ cổ điển, các phân phối khác hội tụ về loại Poison

Hãy xem xét, đối với 𝑛 𝐵̅ ≠ 0, biến ngẫu nhiên chuẩn tắc 𝑄(𝑎, 𝑏̅) thể hiện giá trị quan sát của 𝑛 (𝑋∩𝑌̅) [94] theo công thức (1.3)

Các phân phối Chuẩn, Possion và Nhị thức nêu trên trong luận án này sẽ được trình bày trong phần phụ lục 3

1.1.1 Các độ đo hàm ý thống kê Độ đo SIA là một độ đo bất đối xứng Không giống như các phương pháp phân tích dữ liệu khác, SIA dựa trên yếu tố phản ví dụ, theo đó số lượng phản ví dụ càng nhỏ thì mức độ của mối quan hệ hàm ý càng lớn và ngược lại Hai độ đo quan trọng của SIA là chỉ số hàm ý và cường độ hàm ý

Chúng ta định nghĩa 𝑞(𝑎, 𝑏̅) là giá trị quan sát của 𝑄(𝑎, 𝑏̅) trong thực nghiệm, và gọi nó là chỉ số hàm ý Giá trị này đo lường sự sai biệt giữa giá trị ngẫu nhiên và giá trị mong đợi khi a và b là độc lập Đối với các biến nhị phân, chỉ số hàm ý được xác định theo công thức (1.4) [94][96].

(1.4) Đối với các biến phi nhị phân trong khoảng [0,1] ( biến modal), thì chỉ số hàm ý được xác định bởi (1.5) [94][96]

Hệ tư vấn

Công việc tư vấn và khuyến nghị đóng vai trò quan trọng trong cuộc sống hàng ngày, khi mọi người dựa vào kiến thức bên ngoài để đưa ra quyết định về các mục như âm nhạc, sách hoặc phim Hệ tư vấn, một phần của hệ thống truy xuất thông tin (IR), dự đoán xếp hạng hoặc đánh giá sở thích của người dùng đối với các mục hoặc yếu tố xã hội mà họ chưa xem xét Hệ thống này sử dụng các mô hình từ nghiên cứu máy học, khai phá dữ liệu, thống kê và toán học, kết hợp với đặc tính của mục (phương pháp dựa trên nội dung) hoặc môi trường xã hội của người dùng (phương pháp lọc cộng tác) Để thuận tiện cho việc tiếp cận và nghiên cứu, cần có cái nhìn tổng quan về hệ tư vấn.

1.2.1 Các thành phần của một hệ tư vấn

Hệ tư vấn bao gồm tập hợp người dùng ký hiệu là 𝑈, tập các mục được ký hiệu là 𝐼, và tập xếp hạng của người dùng cho các mục được biểu thị bởi 𝑅 Tập các giá trị có thể có cho một đánh giá cũng được xác định trong hệ thống này.

Trong bài viết này, chúng ta xem xét các tập hợp đánh giá 𝒮, ví dụ như 𝒮 = [1,5] hoặc 𝒮 = {𝑙𝑖𝑘𝑒, 𝑑𝑖𝑠𝑙𝑖𝑘𝑒} Giả định rằng mỗi người dùng 𝑢 ∈ 𝑈 chỉ có một đánh giá cho mỗi mục 𝑖 ∈ Ι, ký hiệu là 𝑟 𝑢𝑖 Để xác định tập con người dùng 𝑢 đã đánh giá mục 𝑖, chúng ta sử dụng ký hiệu 𝑈 𝑖 Tương tự, Ι 𝑢 đại diện cho các mục đã được đánh giá bởi người dùng 𝑢 Khái niệm Ι 𝑢𝑣, tức là các mục đã được đánh giá bởi cả hai người dùng 𝑢 và 𝑣, được định nghĩa là Ι 𝑢𝑣 = Ι 𝑢 ⋂ Ι 𝑣 Cuối cùng, ký hiệu 𝑈 𝑖𝑗 được sử dụng để biểu thị tập hợp người dùng đã đánh giá cả hai mục 𝑖 và 𝑗, tức là 𝑈 𝑖𝑗 = 𝑈 𝑖 ⋂ 𝑈 𝑗.

Hai vấn đề quan trọng trong hệ thống tư vấn là dự báo mục tốt nhất và đề xuất danh sách N mục dữ liệu tốt nhất cho người dùng Đối với một người dùng cụ thể, các mặt hàng mới mà họ có khả năng quan tâm thường được xác định Khi có xếp hạng, nhiệm vụ này thường được định nghĩa là bài toán hồi quy hoặc phân loại đa lớp, với mục tiêu tìm hiểu một hàm số theo công thức đã nêu.

Hàm dự đoán đánh giá \$f(u, i)\$ được định nghĩa từ tập hợp người dùng \$U\$ và mục hàng \$I\$ đến tập hợp giá trị \$\mathcal{S}\$ Mục đích của hàm này là để ước lượng giá trị mà người dùng \$u\$ sẽ đánh giá cho một mục hàng mới \$i\$ Sau đó, hàm này được sử dụng để giới thiệu cho người dùng tích cực \$u\$ một mục \$i^*\$ mà có đánh giá ước tính cao nhất.

Sau khi xây dựng các mô hình hệ tư vấn, bước đầu tiên là đánh giá và so sánh hiệu suất của chúng Việc này giúp lựa chọn mô hình phù hợp nhất cùng với các thông số cần thiết để quyết định đưa vào sử dụng.

• Tổ chức dữ liệu để đánh giá hiệu suất

• Đánh giá hiệu quả của mô hình tư vấn

1.2.2.1 Tổ chức dữ liệu đánh giá mô hình hệ tư vấn Để đánh giá mô hình, cần phải xây dựng và huấn luyện chúng với một tập dữ liệu và kiểm tra chúng trên một số dữ liệu khác có cùng phân phối xác suất với nhau

Tập huấn luyện là tập dữ liệu dùng để huấn luyện mô hình, nơi các thuật toán khuyến nghị học từ đó Quá trình học phụ thuộc vào thuật toán và mô hình được sử dụng Ví dụ, với thuật toán k láng giềng gần nhất trong hình lọc cộng tác, các giá trị trong tập huấn luyện được xác định là láng giềng dựa trên độ đo tương tự Ngoài ra, mô hình tư vấn khai thác luật sử dụng biến thiên hàm ý để xác định cường độ hàm ý Thực tế, tập dữ liệu huấn luyện thường bao gồm các cặp vectơ đầu vào và đầu ra tương ứng, và các thuật toán sẽ tối ưu hóa sai số dự đoán trên tập huấn luyện đến mức đủ tốt.

Tập kiểm thử là bộ dữ liệu quan trọng để đánh giá hiệu quả của hệ tư vấn, nhằm xác định khả năng dự đoán của mô hình trên dữ liệu chưa được huấn luyện Sau khi huấn luyện, mô hình cần được kiểm tra bằng cách sử dụng tập dữ liệu này để tính toán độ chính xác hoặc sai số dự đoán Mặc dù chúng ta biết nhãn thực của các điểm trong tập kiểm thử, nhưng chúng ta sẽ ẩn đi thông tin này để mô hình thực hiện dự đoán Bằng cách so sánh nhãn thực với kết quả dự đoán, chúng ta có thể đánh giá độ chính xác của mô hình Việc tính toán tổng trung bình của các lỗi dự đoán cho phép xác định hiệu suất của mô hình, với nhiều chỉ số khác nhau được sử dụng để đánh giá Cần lưu ý rằng các chỉ số này có thể khác với những chỉ số được sử dụng trong quá trình tối ưu hóa mô hình trên tập huấn luyện, cho thấy rằng quá trình kiểm thử và huấn luyện là độc lập về dữ liệu và phương pháp so sánh.

Tập dữ liệu kiểm thử tốt là tập dữ liệu độc lập với tập dữ liệu huấn luyện, nhưng phải tuân theo cùng một phân phối xác suất, giúp đánh giá không bị thiên vị Nếu mô hình hoạt động tốt trên tập huấn luyện nhưng kém trên tập kiểm thử, có thể nó đã bị quá khớp (overfitting) Ngược lại, nếu sai số không lớn, mô hình có thể được coi là phù hợp Để đánh giá, cần so sánh các khuyến nghị với sở thích người dùng, giả sử một số sở thích chưa biết trong tập kiểm tra Tập kiểm thử thường được chia thành hai tập con: tập kiểm thử với dữ liệu chưa biết (unknown set) và tập kiểm thử với dữ liệu đã biết (known set) Số lượng sở thích người dùng được giữ lại gọi là số được biết trước (given), và không được vượt quá số giá trị sở thích tối thiểu của người dùng Để đảm bảo hai tập dữ liệu có cùng phân phối xác suất, chúng thường được phân chia từ cùng một tập dữ liệu Việc phân hoạch này có thể thực hiện hiệu quả thông qua nhiều phương pháp khác nhau, tùy thuộc vào số lượng dữ liệu quan sát được và mô hình huấn luyện.

Phương pháp chia tách dữ liệu (Hold-out/Splitting) là kỹ thuật phân chia tập dữ liệu thành hai phần: tập huấn luyện, chiếm khoảng 70-80% tổng số dữ liệu, và tập kiểm thử, chứa 20-30% dữ liệu còn lại.

Chia tách dữ liệu có hoàn lại, hay còn gọi là bootstrapping, là phương pháp chia dữ liệu thành hai phần, trong đó tập huấn luyện thường chiếm 70-80% tổng lượng dữ liệu Khác với các phương pháp truyền thống, bootstrapping cho phép lấy mẫu các dòng dữ liệu có sự hoàn lại, nghĩa là cùng một người dùng có thể được chọn nhiều lần Điều này dẫn đến việc tập huấn luyện có thể có cùng kích thước nhưng lại chứa nhiều người dùng hơn trong tập kiểm tra.

Đánh giá chéo (Cross Validation) là phương pháp chủ yếu để đánh giá thuật toán huấn luyện hoặc dạng của mô hình, không phải mô hình huấn luyện Quá trình này thực hiện lặp đi lặp lại, trong đó dữ liệu được chia thành hai phần: phần huấn luyện để học mô hình và phần kiểm thử để kiểm tra mô hình Kết quả kiểm thử được cộng lại và lấy trung bình; nếu kết quả trung bình tốt, thuật toán hoặc mô hình có độ ổn định cao Có nhiều cách chia tập huấn luyện - kiểm thử, như Leave-p-out cross-validation, Leave-one-out cross-validation, và phổ biến nhất là k-fold validation Trong k-fold validation, dữ liệu được chia thành k phần, với một phần để kiểm thử và k-1 phần để huấn luyện Ví dụ, trong 5-fold cross validation, 20% dữ liệu được sử dụng để tính toán các chỉ số như accuracy, precision, recall, và F1-Score Quy trình này lặp lại 5 lần với các phân đoạn dữ liệu khác nhau, và cuối cùng, trung bình tất cả các độ chính xác giúp hiểu rõ hơn về cách mô hình hoạt động.

Phương pháp đánh giá k-fold là một trong những phương pháp phổ biến nhất trong chuẩn bị dữ liệu Do đó, trong khuôn khổ luận án này, chúng tôi đề xuất sử dụng phương pháp đánh giá k-fold.

1.2.2.2 Đánh giá hiệu quả mô hình hệ tư vấn

Việc đánh giá mô hình tư vấn được thực hiện thông qua các phương pháp như splitting, bootstraping và đánh giá chéo k-fold Có hai nhóm độ đo phổ biến để đánh giá các khuyến nghị của hệ tư vấn, dựa trên phương pháp đánh giá chéo Nhóm đầu tiên đánh giá tính chính xác ước tính theo thuật toán, trong khi nhóm còn lại đánh giá độ chuẩn xác trực tiếp trên các khuyến nghị Để giới thiệu các mục cho người dùng, phương pháp lọc cộng tác ước tính xếp hạng các mục chưa được chọn và đề xuất các mục đánh giá cao nhất Đánh giá độ chính xác của các dự đoán khuyến nghị là vấn đề chính của hệ tư vấn, với độ chính xác thường được sử dụng để đánh giá hiệu quả của phương pháp khuyến nghị Các xếp hạng R được chia thành tập huấn luyện 𝑅 𝑡𝑟𝑎𝑖𝑛 và tập thử nghiệm 𝑅 𝑡𝑒𝑠𝑡 để đánh giá độ chính xác dự đoán Ba độ đo phổ biến của độ chính xác là Sai số tuyệt đối trung bình (MAE), Sai số bình phương trung bình (MSE) và Căn bậc hai của sai số bình phương trung bình (RMSE).

Sai số tuyệt đối trung bình (MAE):

(1.20) Sai số bình phương trung bình (MSE)

Và căn bậc hai của sai số bình phương trung bình (RMSE):

(1.22) Đánh giá mô hình dựa trên độ chuẩn xác phân lớp của các khuyến nghị

Đề xuất nghiên cứu

Trong nỗ lực nhằm góp phần giải quyết những vấn đề được phân tích và trình bày ở Mục 1.2.5, Mục 1.2.6 và Mục 1.2.7 luận án tập trung vào các nội dung:

Đề xuất các mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý thống kê nhằm nâng cao hiệu quả khuyến nghị của hệ thống lọc cộng tác Các mô hình này có khả năng hoạt động trên dữ liệu nhị phân và khai thác luật kết hợp.

Tiếp tục phát triển mô hình tư vấn bằng cách tích hợp độ đo biến thiên hàm ý thống kê vào khung khai thác luật kết hợp Mô hình này sẽ khai thác các luật hàm ý trên tập dữ liệu nhị phân và phi nhị phân, nhằm tăng hiệu quả và giảm thời gian tìm kiếm, đồng thời đưa ra khuyến nghị chính xác hơn.

Sử dụng bổ sung độ đo xếp hạng mục trong danh sách khuyến nghị là cần thiết bên cạnh các độ đo chính xác dự đoán mục khuyến nghị và các độ đo độ chuẩn xác phân lớp để đánh giá hiệu quả của mô hình tư vấn.

Đề xuất một phương pháp phân hoạch tập dữ liệu nhằm huấn luyện và đánh giá mô hình phù hợp với các tập dữ liệu thưa trong các hệ tư vấn.

Phát triển công cụ phần mềm để cài đặt và tích hợp các mô hình tư vấn đề xuất, đồng thời cung cấp chức năng hỗ trợ cho việc xây dựng và đánh giá hệ tư vấn Hình 2-10 mô tả mối liên hệ giữa các hướng nghiên cứu ứng dụng phân tích hàm ý thống kê hiện có (được thể hiện bằng màu nâu, xanh dương và xanh lá cây) và định hướng nghiên cứu mới của luận án về hệ tư vấn dựa trên trường hàm ý (được thể hiện bằng màu đỏ) trong lĩnh vực hệ tư vấn.

Chỉ số hàm ý Cường độ hàm ý

Dữ liệu Nh ị phân Ph i nh ị phân

Hệ tư vấn dựa trên phân tích hàm ý thống kê

Hệ tư vấn dựa trên mức độ quan trọng hàm ý thống kê

Hệ tư vấn dựa trên trường hàm ý thống kê

Hệ tư vấn dựa trên A.S.I

Cường độ hàm ý Cường dộ hàm ý entropy

Chỉ số gắn kết Chỉ số đóng góp Chỉ số tiêu biểu

Biến thiên chỉ số hàm ý Biến thiên cường độ hàm ý

Hình 1-10 Các hướng nghiên cứu hệ tư vấn tiếp cận phân tích hàm ý thống kê

Kết luận chương

Chương 1 của luận án trình bày các vấn đề chính Thứ nhất, nội dung cơ bản của lý thuyết phân tích hàm ý thống kê với các độ đo chỉ số hàm ý và cường độ hàm ý cùng khuynh hướng biến thiên hàm ý của chúng, cùng các đặc tính đáng chú ý của chúng so với các độ đo khác đối với hệ tư vấn, mặt đẳng trị hàm ý và trường hàm ý thống kê Thứ hai, hệ tư vấn, phân loại, phương pháp đánh giá và vai trò của hệ tư vấn thông qua tìm hiểu các lĩnh vực ứng dụng của chúng hiện nay Thứ ba, trình bày các vấn đề còn cần phải giải quyết của hệ tư vấn nói chung, của hệ tư vấn dựa trên mô hình khai thác luật và đặc biệt là của mô hình hệ tư vấn dựa trên tiếp cận phân tích hàm ý thống kê, từ đó để làm cơ sở đưa ra đề xuất nghiên cứu “Hệ tư vấn dựa trên trường hàm ý thống kê” với các nội dung đề xuất sẽ được trình bày trong các Chương 2 và Chương 3 tiếp sau.

2 CHƯƠNG 2 MÔ HÌNH HỆ TƯ VẤN DỰA TRÊN

Trong chương này, chúng tôi đề xuất một phương pháp mới dựa trên lý thuyết hàm ý thống kê và độ đo biến thiên chỉ số hàm ý để khai thác các luật kết hợp trong tư vấn lọc cộng tác Mô hình hệ tư vấn lọc cộng tác dựa trên độ biến thiên hàm ý được giới thiệu nhằm giải quyết các vấn đề hiện tại trong việc khai thác luật kết hợp, từ đó cải thiện hiệu quả của hệ thống so với các mô hình truyền thống Tuy nhiên, vẫn còn một số điểm cần cải thiện, tạo nền tảng cho việc phát triển mô hình tư vấn dựa trên trường hàm ý thống kê.

Chương này được chia thành ba phần chính Phần đầu tiên giới thiệu mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý, tập trung vào phân tích các vấn đề khai thác tri thức từ luật kết hợp, mô hình hóa và khung khai thác luật kết hợp hàm ý, cùng với việc xây dựng độ đo sự biến thiên của chỉ số hàm ý Phần thứ hai trình bày mô hình tư vấn dựa trên trường hàm ý, phân tích các vấn đề cần cải tiến để nâng cao chất lượng mô hình tư vấn, từ đó xây dựng và đánh giá mô hình trên các tập dữ liệu nhị phân và phi nhị phân Cuối cùng, phần kết luận tóm tắt nội dung của chương.

Nhiều công trình nghiên cứu liên quan đã được công bố tại các hội thảo quốc gia và quốc tế, bao gồm Hội nghị Fair lần thứ 17 năm 2017, Hội nghị quốc gia @ lần thứ 20 năm 2018, và hội thảo quốc tế ICMLSC2018 Những sự kiện này tập trung vào nghiên cứu cơ bản và ứng dụng Công nghệ thông tin, đặc biệt trong lĩnh vực Machine Learning và Soft Computing.

CHƯƠNG MÔ HÌNH HỆ TƯ VẤN DỰA TRÊN TRƯỜNG HÀM Ý

CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ

Ngày đăng: 25/06/2023, 13:16

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Adomavicius Gediminas, Tuzhilin Alexander, (2005) Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions, IEEE transactions on Knowledge and Data engineering, Vol.17 No.6, pp. 734 – 749 Sách, tạp chí
Tiêu đề: Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions
Tác giả: Adomavicius Gediminas, Tuzhilin Alexander
Nhà XB: IEEE transactions on Knowledge and Data engineering
Năm: 2005
[2] Adomavicius Gediminas, Tuzhilin Alexander, (2011), Context-aware recommender systems, Springer US, pp. 217-253 Sách, tạp chí
Tiêu đề: Context-aware recommender systems
Tác giả: Adomavicius Gediminas, Tuzhilin Alexander
Nhà XB: Springer US
Năm: 2011
[3] Ahmed Mohammed K. Alsalama (2015), A Hybrid Recommendation System Based On Association Rules, International Science Index, Computer and Information Engineering Vol:9, No:1, 2015 waset.org/Publication/10000147 Sách, tạp chí
Tiêu đề: A Hybrid Recommendation System Based On Association Rules
Tác giả: Ahmed Mohammed K. Alsalama
Nhà XB: International Science Index
Năm: 2015
[4] Andi Asrafiani Arafah, Imam Mukhlash (2015), The Application of Fuzzy Association Rule on Co-Movement Analyze of Indonesian Stock Price, International Conference on Computer Science and Computational Intelligence (ICCSCI 2015), Procedia Computer Science 59 pp. 235 – 243 Sách, tạp chí
Tiêu đề: The Application of Fuzzy Association Rule on Co-Movement Analyze of Indonesian Stock Price
Tác giả: Andi Asrafiani Arafah, Imam Mukhlash
Nhà XB: Procedia Computer Science
Năm: 2015
[5] Ariel Pashtan, Remy Blattler, Andi Heussus, Peter Scheuermann (2003), “CATIS: a context-aware tourist information system”, The 4th International Workshop of Mobile Computing, Rostock Sách, tạp chí
Tiêu đề: CATIS: a context-aware tourist information system
Tác giả: Ariel Pashtan, Remy Blattler, Andi Heussus, Peter Scheuermann
Nhà XB: The 4th International Workshop of Mobile Computing
Năm: 2003
[6] Alqadah, F., Reddy, C. K., Hu, J., &amp; Alqadah, H. F. (2015). Biclustering neighborhood-based collaborative filtering method for top- n recommender systems. Knowledge and Information Systems, pp.475–491 Sách, tạp chí
Tiêu đề: Biclustering neighborhood-based collaborative filtering method for top- n recommender systems
Tác giả: Alqadah, F., Reddy, C. K., Hu, J., Alqadah, H. F
Nhà XB: Knowledge and Information Systems
Năm: 2015
[7] Al-shamri, M. Y. H. (2014). “Power coefficient as a similarity measure for memory-based collaborative recommender systems”, EXPERT SYSTEMS WITH APPLICATIONS, 41(13), pp.5680–5688 Sách, tạp chí
Tiêu đề: Power coefficient as a similarity measure for memory-based collaborative recommender systems
Tác giả: Al-shamri, M. Y. H
Nhà XB: EXPERT SYSTEMS WITH APPLICATIONS
Năm: 2014
[8] Aléx Alves Freitas. On rule interestingness measures. Knowledge-Based Systems Journal, 12(5):309–315, 1999 Sách, tạp chí
Tiêu đề: On rule interestingness measures
Tác giả: Aléx Alves Freitas
Nhà XB: Knowledge-Based Systems Journal
Năm: 1999
[9] Alexander Felfernig, Gerhard Friedrich, Dietmar Jannach, Markus Stumptner, (2004) “Consistency-based diagnosis of configuration knowledge bases”.Artificial Intelligence 152(2), pp. 213–234 Sách, tạp chí
Tiêu đề: Consistency-based diagnosis of configuration knowledge bases
Tác giả: Alexander Felfernig, Gerhard Friedrich, Dietmar Jannach, Markus Stumptner
Nhà XB: Artificial Intelligence
Năm: 2004
[10] Alexander Felfernig, Robin Burke, (2008), “Constraint-based recommender systems: technologies and research issues”. In: ICEC ’08: Proceedings of the 10th international conference on Electronic commerce ACM, New York, NY, USA. , pp. 1–10 Sách, tạp chí
Tiêu đề: Constraint-based recommender systems: technologies and research issues
Tác giả: Alexander Felfernig, Robin Burke
Nhà XB: ACM
Năm: 2008
[11] Avi Silberschatz and Alexander Tuzhilin. On subjective measures of interestingness in knowledge discovery. In Proc. of the First Int. Conf. on Knowledge Discovery and Data Mining, pages 275–281, 1995 Sách, tạp chí
Tiêu đề: On subjective measures of interestingness in knowledge discovery
Tác giả: Avi Silberschatz, Alexander Tuzhilin
Nhà XB: Proc. of the First Int. Conf. on Knowledge Discovery and Data Mining
Năm: 1995
[12] Bin Cao, Qiang Yang, Jian-Tao Sun, Zheng Chen, (2011) “Learning bidirectional asymmetric similarity for collaborative filtering via matrix factorization”, Data Mining and Knowledge Discovery, Volume 22, Issue 3, pp.393–418 Sách, tạp chí
Tiêu đề: Learning bidirectional asymmetric similarity for collaborative filtering via matrix factorization
Tác giả: Bin Cao, Qiang Yang, Jian-Tao Sun, Zheng Chen
Nhà XB: Data Mining and Knowledge Discovery
Năm: 2011
[13] Bing Liu, Wynne. Hsu, Lai Fun Mun, and Hing Yan Lee. Finding interesting patterns using user expectations. Knowledge and Data Engineering, 11(6):817–832, 1999 Sách, tạp chí
Tiêu đề: Finding interesting patterns using user expectations
Tác giả: Bing Liu, Wynne Hsu, Lai Fun Mun, Hing Yan Lee
Nhà XB: Knowledge and Data Engineering
Năm: 1999
[14] Breese, J.S. and D. Heckerman, 1998. Empirical analysis of predictive algorithms for collaborative filtering. In Proceedings of the Fourteenth Conference on Uncertainty in Artificial Intelligence (UAI1998) , pp. 43–52 Sách, tạp chí
Tiêu đề: Proceedings of the Fourteenth Conference on Uncertainty in Artificial Intelligence (UAI1998)
Tác giả: Breese, J.S., Heckerman, D
Năm: 1998
[15] Boddu Raja Sarath Kumarmaddali and Surendra Prasad Babuan (2013), “Implementation of Content Boosted Collaborative Filtering Algorithm”, IJEST.pp. 11-20 Sách, tạp chí
Tiêu đề: Implementation of Content Boosted Collaborative Filtering Algorithm
Tác giả: Boddu Raja Sarath Kumarmaddali, Surendra Prasad Babuan
Nhà XB: IJEST
Năm: 2013
[16] Christian Desrosier, George Karypis, (2010), “A Comprehensive Survey of Neighborhood-based Recommendation Methods”, Recommender Systems Handbook pp 107-144 Sách, tạp chí
Tiêu đề: Recommender Systems Handbook
Tác giả: Christian Desrosier, George Karypis
Năm: 2010
[17] Chrsistian Desrosiers and George Karypis, (2008) “Solving the Sparsity Problem: Collaborative Filtering via Indirect Similarities”, Technical Report, pp.1989-1992 Sách, tạp chí
Tiêu đề: Solving the Sparsity Problem: Collaborative Filtering via Indirect Similarities
Tác giả: Christian Desrosiers, George Karypis
Nhà XB: Technical Report
Năm: 2008
[18] David Hand, Heikki Mannila, and Padhraic Smyth. Principles of data mining. The MIT Press, 2001 Sách, tạp chí
Tiêu đề: Principles of data mining
Tác giả: David Hand, Heikki Mannila, Padhraic Smyth
Nhà XB: The MIT Press
Năm: 2001
[19] Debnath, Ganguly and Mitra, (2008) “Feature Weighting In Content Based Recommendation System Using Social Network Analysis” pp. 1041-1042 Sách, tạp chí
Tiêu đề: Feature Weighting In Content Based Recommendation System Using Social Network Analysis
Tác giả: Debnath, Ganguly, Mitra
Năm: 2008
[20] Derek Bridge, Mehmet H. Goker, Lorraine McGinty, Barry Smyth, (2005) “Case-based recommender systems”, The Knowledge Engineering Review 20(3), pp. 315–320 Sách, tạp chí
Tiêu đề: Case-based recommender systems
Tác giả: Derek Bridge, Mehmet H. Goker, Lorraine McGinty, Barry Smyth
Nhà XB: The Knowledge Engineering Review
Năm: 2005

TỪ KHÓA LIÊN QUAN

w