Trong các công cụ khai thác dữ liệu, phân tích hàm ý thống kê ASI- Analysis Statistical Implication dù chỉ mới được đề xuất vào cuối thập niên 1990 [94][95] bởi Regis Gras1 với mục đích
CHƯƠNG TỔNG QUAN VỀ TRƯỜNG HÀM Ý VÀ HỆ TƯ VẤN
Phân tích hàm ý thống kê
Phân tích hàm ý thống kê (ASI), được Regis Gras đề xuất vào thập niên 1990, nghiên cứu mối quan hệ hàm ý giữa các biến dữ liệu, thường được biểu diễn dưới dạng luật 𝑎 → 𝑏 Dạng biểu diễn này đã trở thành khái niệm chính trong khai phá dữ liệu để thể hiện mối quan hệ giữa các mẫu của các tập phổ biến Nhiều thuật toán đã được Agrawal et al phát triển nhằm khai thác các luật này một cách hiệu quả trong cơ sở dữ liệu lớn, với mục tiêu trích xuất một tập hợp hạn chế các luật có liên quan để hỗ trợ ra quyết định Tuy nhiên, các thử nghiệm so sánh cho thấy kết quả có thể thay đổi tùy thuộc vào sự lựa chọn của các độ đo chất lượng luật Các độ đo mức độ thú vị thường được phân loại thành hai loại: độ đo chủ quan (hướng người dùng) và độ đo khách quan (hướng dữ liệu), trong đó độ đo chủ quan tính đến tính bất ngờ và khả năng hoạt động tương đối, còn độ đo khách quan ưu tiên các tiêu chí thống kê như mức độ bao phủ, cường độ và ý nghĩa.
Trong các độ đo khách quan, độ hỗ trợ 𝑠𝑢𝑝𝑝 và độ tin cậy 𝑐𝑜𝑛𝑓 là hai tiêu chí phổ biến nhất Độ hỗ trợ 𝑠𝑢𝑝𝑝(𝑎 → 𝑏) cho biết tần suất xuất hiện đồng thời của các biến 𝑎 và 𝑏 trong dữ liệu, trong khi độ tin cậy 𝑐𝑜𝑛𝑓(𝑎 → 𝑏) thể hiện xác suất có điều kiện của 𝑏 trong số các đối tượng thỏa mãn 𝑎 Tuy nhiên, độ tin cậy có những hạn chế như không thay đổi khi kích thước của 𝑏 hoặc tập giao dịch 𝐸 thay đổi và không nhạy cảm với độ giãn của các biến Brin đã đề xuất tìm kiếm các tập phổ biến tương quan thông qua giá trị 𝜒², nhưng phép đo này không tận dụng sự mất cân bằng giữa các ô trong bảng tương quan Để xem xét kích thước tập dữ liệu và đặc điểm không đối xứng của hàm ý, Gras đã giới thiệu độ đo cường độ hàm ý 𝜑(𝑎 → 𝑏) và chỉ số hàm ý 𝑞(𝑎 → 𝑏) nhằm lượng hóa "sự ngạc nhiên" của mối quan hệ Cường độ hàm ý dựa trên mô hình xác suất cho phép đo lường chính xác ý nghĩa thống kê của các luật đã phát hiện và đã được chứng minh là nhạy cảm với các biến đổi nhỏ, đồng thời kết hợp tốt với các độ đo cổ điển hơn.
Để hiểu lý thuyết hàm ý thống kê, chúng ta xem xét một tập hữu hạn 𝐸 = {𝑒 1 , 𝑒 2 , … , 𝑒 𝑛 } gồm 𝑛 giao dịch, được mô tả bởi tập 𝐼 = {𝑖 1 , 𝑖 2 , … , 𝑖 𝑝 } với 𝑝 biến Ký hiệu Ω(𝑒 𝑘 ) đại diện cho tập phổ biến của giao dịch 𝑒 𝑘, với điều kiện 0 < 𝑘 ≤ 𝑛 và Ω(𝑒 𝑘 ) ⊆ 𝐼 Đặt 𝑎, 𝑏 là hai tập con của 𝐼, ta có tập 𝐴 = {𝑒 𝑘 ∈ 𝐸; ∀j ∈ 𝑎, 𝑗 ∈ Ω(𝑒 𝑘 )} chứa các giao dịch trong 𝐸 có chứa 𝑎, và 𝐴̅, 𝐵̅ là tập bù của 𝐴 trong 𝐸 Tương tự, tập 𝐵 = {𝑒 𝑘 ∈ 𝐸; ∀j ∈ 𝑏, 𝑗 ∈ Ω(𝑒 𝑘 )} và 𝐵̅ là tập bù của 𝐵 trong 𝐸.
Luật kết hợp hay hàm ý được biểu diễn dưới dạng 𝑎 → 𝑏, trong đó 𝑎 và 𝑏 là các tập phổ biến không giao nhau (𝑎 ⊂ 𝐼, 𝑏 ⊂ 𝐼 và 𝑎 ∩ 𝑏 = ∅) Trong thực tế, việc quan sát các giao dịch có sự xuất hiện của 𝑎 mà không có 𝑏 là khá phổ biến, và điều này không tuân theo xu hướng chung là 𝑏 sẽ xuất hiện khi 𝑎 có mặt Do đó, mối liên hệ giữa bản số 𝑛 của E và các bản số khác cũng cần được xem xét.
Số lượng phản ví dụ \( n_{A \cap B̅} = \text{card}(A \cap B̅) \) cần được xem xét để thống kê và quyết định chấp nhận hay không một luật \( a \rightarrow b \) Theo phân tích liên kết khả năng xảy ra của Lerman [41], cường độ hàm ý thể hiện khả năng không xảy ra các phản ví dụ \( n_{A \cap B̅} \) trong \( T \).
Mối quan hệ hàm ý giữa 𝑎 và 𝑏 được mô hình hóa trong phân tích hàm ý thống kê như sau (xem Hình 1-1)
Hình 1-1 Minh hoạ các thành phần của phân tích hàm ý thống kê bởi giản đồ
Để hiểu rõ hơn về cách biểu diễn mối quan hệ hàm ý của một luật hàm ý, chúng ta hãy xem xét một tập dữ liệu các giao dịch được trình bày trong ví dụ ở Bảng 1-1.
Bảng 1-1 Dữ liệu các giao dịch phim
Bảng 1-2 Trình bày dạng nhị phân dữ liệu các giao dịch phim
Tập dữ liệu gồm 9 giao dịch 𝐸 = {𝑒 1 , 𝑒 2 , … , 𝑒 9 } và tập mục 𝐼 = {𝑃ℎ𝑖𝑚 1 , 𝑃ℎ𝑖𝑚 2 , 𝑃ℎ𝑖𝑚 3 } chứa 3 mục Tập hợp các mục liên quan được xác định như sau: Ω(𝑒 1 ) = {𝑃ℎ𝑖𝑚 2 }, Ω(𝑒 2 ) = {𝑃ℎ𝑖𝑚 1 , 𝑃ℎ𝑖𝑚 2 } Các giao dịch trong Bảng 1-1 có thể được biểu diễn dưới dạng nhị phân.
Bảng 1-2 trình bày các giao dịch, trong đó mỗi dòng tương ứng với một giao dịch và mỗi cột đại diện cho một bộ phim Mỗi bộ phim được xem như một biến nhị phân, với giá trị 1 nếu nó có mặt trong giao dịch và 0 nếu không Xem xét luật 𝑎 → 𝑏 với 𝑎 = {𝑃ℎ𝑖𝑚 1 , 𝑃ℎ𝑖𝑚 2 } và 𝑏 = {𝑃ℎ𝑖𝑚 3 }, ta có tập 𝐴 = {𝑒 2 , 𝑒 4 , 𝑒 5 , 𝑒 6 , 𝑒 8 , 𝑒 9 } và 𝐵 = {𝑒 4 , 𝑒 5 , 𝑒 6 , 𝑒 9 } Với 𝑛 = 9, 𝑛 𝐴 = 6, 𝑛 𝐵 = 4, và 𝑛 𝐴𝐵̅ = 2.
Do đó, mối quan hệ 𝑎 → 𝑏 có thể được biểu diễn bằng bốn tham số (𝑛, 𝑛 𝐴 , 𝑛 𝐵 , 𝑛 𝐴𝐵̅ ) với giá trị cụ thể là 𝑎 → 𝑏 = (9,6,4,2) Chúng tôi tiến hành so sánh số lượng các phản ví dụ quan sát được với một mô hình xác suất Giả sử rằng chúng ta rút ngẫu nhiên hai tập con 𝑋 và 𝑌 trong nghiên cứu này.
𝐸, tương ứng chứa số các giao dịch 𝑛 𝐴 và 𝑛 𝐵 Các tập bù 𝑌̅ của 𝑌 và 𝐵̅ của 𝐵 trong
Trong trường hợp 𝐸 có cùng một số 𝑛 𝐵̅, biến ngẫu nhiên 𝑁 𝑋∩𝑌̅ được định nghĩa là 𝑐𝑎𝑟𝑑(𝑋 ∩ 𝑌̅), trong khi 𝑛 𝐴∩𝐵̅ là giá trị quan sát Luật kết hợp 𝑎 → 𝑏 có thể được chấp nhận với ngưỡng 1 − α nếu α lớn hơn xác suất số lượng phản ví dụ trong các quan sát vượt quá số lượng phản ví dụ mong đợi trong một phép rút ngẫu nhiên, tức là nếu 𝑃𝑟(𝑁 𝑋∩𝑌̅ ≤ 𝑛 (𝐴∩𝐵̅)) ≤ α.
Hình 1-2 So sánh số lượng các phản ví dụ quan sát được với mô hình xác suất
Phân phối của biến ngẫu nhiên 𝑁 𝑋∩𝑌 phụ thuộc vào phương pháp chọn ngẫu nhiên các giao dịch 𝑋 và 𝑌 Việc rút ra hai tập giao dịch 𝑋 và 𝑌 được thực hiện theo một thủ tục ngẫu nhiên, trong đó các phần tử xuất hiện theo dòng thực hiện giao dịch và phải thỏa mãn ba điều kiện: (𝑖) thời gian chờ cho các sự kiện (𝑎 và 𝑏̅) là các biến ngẫu nhiên độc lập, (𝑖𝑖) sự phân bổ số lượng của các sự kiện xảy ra trong khoảng [𝑡, 𝑡 + 𝑇] chỉ phụ thuộc vào T, và (𝑖𝑖𝑖) hai sự kiện có thể không đồng thời xảy ra Quá trình này dừng lại khi có 𝑛 𝐴 phần tử với 𝑎 = 𝑡𝑟𝑢𝑒 và 𝑛 𝐵 phần tử với 𝑏 = 𝑡𝑟𝑢𝑒 Gán 𝑐𝑎𝑟𝑑(𝑋 ∩ 𝑌̅) cho biến ngẫu nhiên số các phản ví dụ trong quá trình này.
Số lượng sự kiện xảy ra trong một khoảng thời gian cố định tuân theo phân phối Poisson 𝑃(𝜆), trong đó λ đại diện cho trung bình số lần thành công trong việc rút ra các giao dịch thỏa mãn điều kiện 𝑎 và 𝑏̅.
Xác suất của sự kiện (𝑎 = true) (và tương ứng, (𝑏 = false)) được lượng giá bởi 𝑛 𝐴
𝑛 Vậy, xác suất của sự kiện (𝑎 = true và 𝑏 = false) là λ = 𝑛 𝐴 𝑛 𝐵̅
𝑛 Đối với các trường hợp xấp xỉ [94] ( 𝜆 > 3), biến ngẫu nhiên chuẩn 𝑁̃ 𝑋∩𝑌̅ 𝑐𝑎𝑟𝑑(𝑋∩𝑌̅)−𝜆
√𝜆 là xấp xỉ phân phối 𝑁(0,1) Giá trị quan sát được của 𝑁̃ 𝑋∩𝑌̅ là 𝑛̃ 𝐴∩𝐵 𝑛 𝐴∩𝐵 ഥ −𝜆
Xác suất của 𝑐𝑎𝑟𝑑(𝑋 ∩ 𝑌̅) = 𝑠 được xác định theo công thức (1.1)
Xác suất mà các cơ hội dẫn đến một số lượng lớn các phản ví dụ \$\text{card}(X \cap \overline{Y})\$ lớn hơn so với số phản ví dụ quan sát được định nghĩa bởi công thức (1.2).
Trong phần dưới đây, chúng tôi xem xét phân phối Poison Trong các điều kiện xấp xỉ cổ điển, các phân phối khác hội tụ về loại Poison
Hãy xem xét, đối với 𝑛 𝐵̅ ≠ 0, biến ngẫu nhiên chuẩn tắc 𝑄(𝑎, 𝑏̅) thể hiện giá trị quan sát của 𝑛 (𝑋∩𝑌̅) [94] theo công thức (1.3)
Các phân phối Chuẩn, Possion và Nhị thức nêu trên trong luận án này sẽ được trình bày trong phần phụ lục 3
1.1.1 Các độ đo hàm ý thống kê Độ đo SIA là một độ đo bất đối xứng Không giống như các phương pháp phân tích dữ liệu khác, SIA dựa trên yếu tố phản ví dụ, theo đó số lượng phản ví dụ càng nhỏ thì mức độ của mối quan hệ hàm ý càng lớn và ngược lại Hai độ đo quan trọng của SIA là chỉ số hàm ý và cường độ hàm ý
Chúng ta định nghĩa 𝑞(𝑎, 𝑏̅) là giá trị quan sát của 𝑄(𝑎, 𝑏̅) trong thực nghiệm, và gọi nó là chỉ số hàm ý Giá trị này đo lường sự sai biệt giữa giá trị ngẫu nhiên và giá trị mong đợi khi a và b là độc lập Đối với các biến nhị phân, chỉ số hàm ý được xác định theo công thức (1.4) [94][96].
(1.4) Đối với các biến phi nhị phân trong khoảng [0,1] ( biến modal), thì chỉ số hàm ý được xác định bởi (1.5) [94][96]
Hệ tư vấn
Công việc tư vấn và khuyến nghị đóng vai trò quan trọng trong cuộc sống hàng ngày, khi mọi người dựa vào kiến thức bên ngoài để đưa ra quyết định về các mục như âm nhạc, sách hoặc phim Hệ tư vấn, một phần của hệ thống truy xuất thông tin (IR), dự đoán xếp hạng hoặc đánh giá sở thích của người dùng đối với các mục hoặc yếu tố xã hội mà họ chưa xem xét Hệ thống này sử dụng các mô hình từ nghiên cứu máy học, khai phá dữ liệu, thống kê và toán học, kết hợp với đặc tính của mục (phương pháp dựa trên nội dung) hoặc môi trường xã hội của người dùng (phương pháp lọc cộng tác) Để thuận tiện cho việc tiếp cận và nghiên cứu, cần có cái nhìn tổng quan về hệ tư vấn.
1.2.1 Các thành phần của một hệ tư vấn
Hệ tư vấn bao gồm tập hợp người dùng ký hiệu là 𝑈, tập các mục được ký hiệu là 𝐼, và tập xếp hạng của người dùng cho các mục được biểu thị bởi 𝑅 Tập các giá trị có thể có cho một đánh giá cũng được xác định trong hệ thống này.
Trong bài viết này, chúng ta xem xét các tập hợp đánh giá 𝒮, ví dụ như 𝒮 = [1,5] hoặc 𝒮 = {𝑙𝑖𝑘𝑒, 𝑑𝑖𝑠𝑙𝑖𝑘𝑒} Giả định rằng mỗi người dùng 𝑢 ∈ 𝑈 chỉ có một đánh giá cho mỗi mục 𝑖 ∈ Ι, ký hiệu là 𝑟 𝑢𝑖 Để xác định tập con người dùng 𝑢 đã đánh giá mục 𝑖, chúng ta sử dụng ký hiệu 𝑈 𝑖 Tương tự, Ι 𝑢 đại diện cho các mục đã được đánh giá bởi người dùng 𝑢 Khái niệm Ι 𝑢𝑣, tức là các mục đã được đánh giá bởi cả hai người dùng 𝑢 và 𝑣, được định nghĩa là Ι 𝑢𝑣 = Ι 𝑢 ⋂ Ι 𝑣 Cuối cùng, ký hiệu 𝑈 𝑖𝑗 được sử dụng để biểu thị tập hợp người dùng đã đánh giá cả hai mục 𝑖 và 𝑗, tức là 𝑈 𝑖𝑗 = 𝑈 𝑖 ⋂ 𝑈 𝑗.
Hai vấn đề quan trọng trong hệ thống tư vấn là dự báo mục tốt nhất và đề xuất danh sách N mục dữ liệu tốt nhất cho người dùng Đối với một người dùng cụ thể, các mặt hàng mới mà họ có khả năng quan tâm thường được xác định Khi có xếp hạng, nhiệm vụ này thường được định nghĩa là bài toán hồi quy hoặc phân loại đa lớp, với mục tiêu tìm hiểu một hàm số theo công thức đã nêu.
Hàm dự đoán đánh giá \$f(u, i)\$ được định nghĩa từ tập hợp người dùng \$U\$ và mục hàng \$I\$ đến tập hợp giá trị \$\mathcal{S}\$ Mục đích của hàm này là để ước lượng giá trị mà người dùng \$u\$ sẽ đánh giá cho một mục hàng mới \$i\$ Sau đó, hàm này được sử dụng để giới thiệu cho người dùng tích cực \$u\$ một mục \$i^*\$ mà có đánh giá ước tính cao nhất.
Sau khi xây dựng các mô hình hệ tư vấn, bước đầu tiên là đánh giá và so sánh hiệu suất của chúng Việc này giúp lựa chọn mô hình phù hợp nhất cùng với các thông số cần thiết để quyết định đưa vào sử dụng.
• Tổ chức dữ liệu để đánh giá hiệu suất
• Đánh giá hiệu quả của mô hình tư vấn
1.2.2.1 Tổ chức dữ liệu đánh giá mô hình hệ tư vấn Để đánh giá mô hình, cần phải xây dựng và huấn luyện chúng với một tập dữ liệu và kiểm tra chúng trên một số dữ liệu khác có cùng phân phối xác suất với nhau
Tập huấn luyện là tập dữ liệu dùng để huấn luyện mô hình, nơi các thuật toán khuyến nghị học từ đó Quá trình học phụ thuộc vào thuật toán và mô hình được sử dụng Ví dụ, với thuật toán k láng giềng gần nhất trong hình lọc cộng tác, các giá trị trong tập huấn luyện được xác định là láng giềng dựa trên độ đo tương tự Ngoài ra, mô hình tư vấn khai thác luật sử dụng biến thiên hàm ý để xác định cường độ hàm ý Thực tế, tập dữ liệu huấn luyện thường bao gồm các cặp vectơ đầu vào và đầu ra tương ứng, và các thuật toán sẽ tối ưu hóa sai số dự đoán trên tập huấn luyện đến mức đủ tốt.
Tập kiểm thử là bộ dữ liệu quan trọng để đánh giá hiệu quả của hệ tư vấn, nhằm xác định khả năng dự đoán của mô hình trên dữ liệu chưa được huấn luyện Sau khi huấn luyện, mô hình cần được kiểm tra bằng cách sử dụng tập dữ liệu này để tính toán độ chính xác hoặc sai số dự đoán Mặc dù chúng ta biết nhãn thực của các điểm trong tập kiểm thử, nhưng chúng ta sẽ ẩn đi thông tin này để mô hình thực hiện dự đoán Bằng cách so sánh nhãn thực với kết quả dự đoán, chúng ta có thể đánh giá độ chính xác của mô hình Việc tính toán tổng trung bình của các lỗi dự đoán cho phép xác định hiệu suất của mô hình, với nhiều chỉ số khác nhau được sử dụng để đánh giá Cần lưu ý rằng các chỉ số này có thể khác với những chỉ số được sử dụng trong quá trình tối ưu hóa mô hình trên tập huấn luyện, cho thấy rằng quá trình kiểm thử và huấn luyện là độc lập về dữ liệu và phương pháp so sánh.
Tập dữ liệu kiểm thử tốt là tập dữ liệu độc lập với tập dữ liệu huấn luyện, nhưng phải tuân theo cùng một phân phối xác suất, giúp đánh giá không bị thiên vị Nếu mô hình hoạt động tốt trên tập huấn luyện nhưng kém trên tập kiểm thử, có thể nó đã bị quá khớp (overfitting) Ngược lại, nếu sai số không lớn, mô hình có thể được coi là phù hợp Để đánh giá, cần so sánh các khuyến nghị với sở thích người dùng, giả sử một số sở thích chưa biết trong tập kiểm tra Tập kiểm thử thường được chia thành hai tập con: tập kiểm thử với dữ liệu chưa biết (unknown set) và tập kiểm thử với dữ liệu đã biết (known set) Số lượng sở thích người dùng được giữ lại gọi là số được biết trước (given), và không được vượt quá số giá trị sở thích tối thiểu của người dùng Để đảm bảo hai tập dữ liệu có cùng phân phối xác suất, chúng thường được phân chia từ cùng một tập dữ liệu Việc phân hoạch này có thể thực hiện hiệu quả thông qua nhiều phương pháp khác nhau, tùy thuộc vào số lượng dữ liệu quan sát được và mô hình huấn luyện.
Phương pháp chia tách dữ liệu (Hold-out/Splitting) là kỹ thuật phân chia tập dữ liệu thành hai phần: tập huấn luyện, chiếm khoảng 70-80% tổng số dữ liệu, và tập kiểm thử, chứa 20-30% dữ liệu còn lại.
Chia tách dữ liệu có hoàn lại, hay còn gọi là bootstrapping, là phương pháp chia dữ liệu thành hai phần, trong đó tập huấn luyện thường chiếm 70-80% tổng lượng dữ liệu Khác với các phương pháp truyền thống, bootstrapping cho phép lấy mẫu các dòng dữ liệu có sự hoàn lại, nghĩa là cùng một người dùng có thể được chọn nhiều lần Điều này dẫn đến việc tập huấn luyện có thể có cùng kích thước nhưng lại chứa nhiều người dùng hơn trong tập kiểm tra.
Đánh giá chéo (Cross Validation) là phương pháp chủ yếu để đánh giá thuật toán huấn luyện hoặc dạng của mô hình, không phải mô hình huấn luyện Quá trình này thực hiện lặp đi lặp lại, trong đó dữ liệu được chia thành hai phần: phần huấn luyện để học mô hình và phần kiểm thử để kiểm tra mô hình Kết quả kiểm thử được cộng lại và lấy trung bình; nếu kết quả trung bình tốt, thuật toán hoặc mô hình có độ ổn định cao Có nhiều cách chia tập huấn luyện - kiểm thử, như Leave-p-out cross-validation, Leave-one-out cross-validation, và phổ biến nhất là k-fold validation Trong k-fold validation, dữ liệu được chia thành k phần, với một phần để kiểm thử và k-1 phần để huấn luyện Ví dụ, trong 5-fold cross validation, 20% dữ liệu được sử dụng để tính toán các chỉ số như accuracy, precision, recall, và F1-Score Quy trình này lặp lại 5 lần với các phân đoạn dữ liệu khác nhau, và cuối cùng, trung bình tất cả các độ chính xác giúp hiểu rõ hơn về cách mô hình hoạt động.
Phương pháp đánh giá k-fold là một trong những phương pháp phổ biến nhất trong chuẩn bị dữ liệu Do đó, trong khuôn khổ luận án này, chúng tôi đề xuất sử dụng phương pháp đánh giá k-fold.
1.2.2.2 Đánh giá hiệu quả mô hình hệ tư vấn
Việc đánh giá mô hình tư vấn được thực hiện thông qua các phương pháp như splitting, bootstraping và đánh giá chéo k-fold Có hai nhóm độ đo phổ biến để đánh giá các khuyến nghị của hệ tư vấn, dựa trên phương pháp đánh giá chéo Nhóm đầu tiên đánh giá tính chính xác ước tính theo thuật toán, trong khi nhóm còn lại đánh giá độ chuẩn xác trực tiếp trên các khuyến nghị Để giới thiệu các mục cho người dùng, phương pháp lọc cộng tác ước tính xếp hạng các mục chưa được chọn và đề xuất các mục đánh giá cao nhất Đánh giá độ chính xác của các dự đoán khuyến nghị là vấn đề chính của hệ tư vấn, với độ chính xác thường được sử dụng để đánh giá hiệu quả của phương pháp khuyến nghị Các xếp hạng R được chia thành tập huấn luyện 𝑅 𝑡𝑟𝑎𝑖𝑛 và tập thử nghiệm 𝑅 𝑡𝑒𝑠𝑡 để đánh giá độ chính xác dự đoán Ba độ đo phổ biến của độ chính xác là Sai số tuyệt đối trung bình (MAE), Sai số bình phương trung bình (MSE) và Căn bậc hai của sai số bình phương trung bình (RMSE).
Sai số tuyệt đối trung bình (MAE):
(1.20) Sai số bình phương trung bình (MSE)
Và căn bậc hai của sai số bình phương trung bình (RMSE):
(1.22) Đánh giá mô hình dựa trên độ chuẩn xác phân lớp của các khuyến nghị
Đề xuất nghiên cứu
Trong nỗ lực nhằm góp phần giải quyết những vấn đề được phân tích và trình bày ở Mục 1.2.5, Mục 1.2.6 và Mục 1.2.7 luận án tập trung vào các nội dung:
Đề xuất các mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý thống kê nhằm nâng cao hiệu quả khuyến nghị của hệ thống lọc cộng tác Các mô hình này có khả năng hoạt động trên dữ liệu nhị phân và khai thác luật kết hợp.
Tiếp tục phát triển mô hình tư vấn bằng cách tích hợp độ đo biến thiên hàm ý thống kê vào khung khai thác luật kết hợp Mô hình này sẽ khai thác các luật hàm ý trên tập dữ liệu nhị phân và phi nhị phân, nhằm tăng hiệu quả và giảm thời gian tìm kiếm, đồng thời đưa ra khuyến nghị chính xác hơn.
Sử dụng bổ sung độ đo xếp hạng mục trong danh sách khuyến nghị là cần thiết bên cạnh các độ đo chính xác dự đoán mục khuyến nghị và các độ đo độ chuẩn xác phân lớp để đánh giá hiệu quả của mô hình tư vấn.
Đề xuất một phương pháp phân hoạch tập dữ liệu nhằm huấn luyện và đánh giá mô hình phù hợp với các tập dữ liệu thưa trong các hệ tư vấn.
Phát triển công cụ phần mềm để cài đặt và tích hợp các mô hình tư vấn đề xuất, đồng thời cung cấp chức năng hỗ trợ cho việc xây dựng và đánh giá hệ tư vấn Hình 2-10 mô tả mối liên hệ giữa các hướng nghiên cứu ứng dụng phân tích hàm ý thống kê hiện có (được thể hiện bằng màu nâu, xanh dương và xanh lá cây) và định hướng nghiên cứu mới của luận án về hệ tư vấn dựa trên trường hàm ý (được thể hiện bằng màu đỏ) trong lĩnh vực hệ tư vấn.
Chỉ số hàm ý Cường độ hàm ý
Dữ liệu Nh ị phân Ph i nh ị phân
Hệ tư vấn dựa trên phân tích hàm ý thống kê
Hệ tư vấn dựa trên mức độ quan trọng hàm ý thống kê
Hệ tư vấn dựa trên trường hàm ý thống kê
Hệ tư vấn dựa trên A.S.I
Cường độ hàm ý Cường dộ hàm ý entropy
Chỉ số gắn kết Chỉ số đóng góp Chỉ số tiêu biểu
Biến thiên chỉ số hàm ý Biến thiên cường độ hàm ý
Hình 1-10 Các hướng nghiên cứu hệ tư vấn tiếp cận phân tích hàm ý thống kê
Kết luận chương
Chương 1 của luận án trình bày các vấn đề chính Thứ nhất, nội dung cơ bản của lý thuyết phân tích hàm ý thống kê với các độ đo chỉ số hàm ý và cường độ hàm ý cùng khuynh hướng biến thiên hàm ý của chúng, cùng các đặc tính đáng chú ý của chúng so với các độ đo khác đối với hệ tư vấn, mặt đẳng trị hàm ý và trường hàm ý thống kê Thứ hai, hệ tư vấn, phân loại, phương pháp đánh giá và vai trò của hệ tư vấn thông qua tìm hiểu các lĩnh vực ứng dụng của chúng hiện nay Thứ ba, trình bày các vấn đề còn cần phải giải quyết của hệ tư vấn nói chung, của hệ tư vấn dựa trên mô hình khai thác luật và đặc biệt là của mô hình hệ tư vấn dựa trên tiếp cận phân tích hàm ý thống kê, từ đó để làm cơ sở đưa ra đề xuất nghiên cứu “Hệ tư vấn dựa trên trường hàm ý thống kê” với các nội dung đề xuất sẽ được trình bày trong các Chương 2 và Chương 3 tiếp sau.
2 CHƯƠNG 2 MÔ HÌNH HỆ TƯ VẤN DỰA TRÊN
Trong chương này, chúng tôi đề xuất một phương pháp mới dựa trên lý thuyết hàm ý thống kê và độ đo biến thiên chỉ số hàm ý để khai thác các luật kết hợp trong tư vấn lọc cộng tác Mô hình hệ tư vấn lọc cộng tác dựa trên độ biến thiên hàm ý được giới thiệu nhằm giải quyết các vấn đề hiện tại trong việc khai thác luật kết hợp, từ đó cải thiện hiệu quả của hệ thống so với các mô hình truyền thống Tuy nhiên, vẫn còn một số điểm cần cải thiện, tạo nền tảng cho việc phát triển mô hình tư vấn dựa trên trường hàm ý thống kê.
Chương này được chia thành ba phần chính Phần đầu tiên giới thiệu mô hình tư vấn lọc cộng tác dựa trên biến thiên hàm ý, tập trung vào phân tích các vấn đề khai thác tri thức từ luật kết hợp, mô hình hóa và khung khai thác luật kết hợp hàm ý, cùng với việc xây dựng độ đo sự biến thiên của chỉ số hàm ý Phần thứ hai trình bày mô hình tư vấn dựa trên trường hàm ý, phân tích các vấn đề cần cải tiến để nâng cao chất lượng mô hình tư vấn, từ đó xây dựng và đánh giá mô hình trên các tập dữ liệu nhị phân và phi nhị phân Cuối cùng, phần kết luận tóm tắt nội dung của chương.
Nhiều công trình nghiên cứu liên quan đã được công bố tại các hội thảo quốc gia và quốc tế, bao gồm Hội nghị Fair lần thứ 17 năm 2017, Hội nghị quốc gia @ lần thứ 20 năm 2018, và hội thảo quốc tế ICMLSC2018 Những sự kiện này tập trung vào nghiên cứu cơ bản và ứng dụng Công nghệ thông tin, đặc biệt trong lĩnh vực Machine Learning và Soft Computing.