Nhóm 2 pptx Mô hình chủ đề, Kỹ thuật học suốt đời và Dữ liệu lớn Trình bày bởi nhóm 2 Lê Anh Dũng (Nhóm trưởng) Trần Khánh Minh Phan Bắc Giới thiệu Giới thiệu Phổ biến nhưng không mạch lạc Giới thiệu[.]
Trang 2Giới thiệu
Trang 3Phổ biến nhưng không mạch lạc
Trang 4Giới thiệu
● Khả năng sai lệch từ kết quả của một lĩnh vực riêng lẻ
● Có thể được giải quyết bằng việc kết hợp nhiều lĩnh vực
○ Có thể dùng làm kiến thức của mô hình cho các lĩnh vực mới
Trang 5Giới thiệu
giá cả, màu sắc,
chi phí, cuộc sống
chi phí, hình ảnh, giá cả, đắt
giá cả, tiền, khách hàng, đắt { giá cả, chi phí }
{ giá cả, đắt }
pk-sets: tập hợp
kiến thức có trước
Trang 7Giới thiệu
Tiếp cận 3 bước: Bước 2
● Khai thác một tập trong pk-sets K từ tất cả các p-topic S (tập các Si)
Tiếp cận 3 bước: Bước 3
● Dùng các pk-sets K trong KBTM để sinh ra chủ đề cho tập văn bản thử Dt
Trang 8○ Tập chủ đề Mtj, sẽ cho ra kiến thức chất lượng cao hơn
● Khai thác Mtj => pk-sets Ktj cho c-topic => kiến thức cho lần chạy sau
Trang 9Giới thiệu
Mục đích công trình:
● Cung cấp phương thức mới để khai thác kiến thức và sinh ra chủ đề mạch lạc hơn.
● Đề xuất một phương pháp hiệu quả để khai thác/học kiến thức chất lượng từ chủ đề được sinh ra
● Đề xuất mô hình chủ đề theo kiến thức LTM có thể xử lý lỗi kiến thức
Trang 10Thuật toán chung
Bước 1: Sinh chủ đề
Bước 2: Kiểm thử
Học suốt đời:
● Phase 1: Học với kiến thức có sẵn
● Phase 2: Lưu lại và hợp nhất kiến thức
Trang 11Mô hình LTM
Nhắc lại chu trình hoạt động:
● Chạy bộ lấy mẫu Gibbs cho N vòng lặp để tìm bộ Chủ đề khởi đầu mà không cần kiến thức
● Tạo ra N bộ lấy mẫu quét Gibbs khác
● Trong mỗi lần quét, đào bộ pk và dùng nó để tạo bộ chủ đề mới
Trang 12Mô hình LTM - Thuật toán khai thác kiến thức
Trang 13Tìm chủ đề trùng khớp:
● KL-Divergence
○ Tính toán sự chênh lệch giữa 2 phân bố
○ Chỉ ra độ liên quan giữa 2 chủ đề
Trang 14Mô hình LTM - Thuật toán khai thác kiến thức
Khai thác kiến thức:
● Với mỗi p-topic trong Mtj*, tìm các từ khóa xuất hiện cùng nhau nhiều lần
● Phương pháp FIM (Frequent Itemset Mining)
○ Tập các giao dịch X => Mtj*
○ Tìm kiếm các tập phần tử (itemset) hiện nhiều lần trong X
Trang 16Mô hình LTM
Bộ lấy mẫu Gibbs:
● Áp dụng vào bài toán:
○ Từ khóa w <= chủ đề t
○ Các từ khóa w' <= chủ đề t
■ Nếu cùng tập pk-set với w
■ Số từ quyết định bởi ma trận A’t,w',w
Trang 17Mô hình LTM
Bộ lấy mẫu Gibbs:
● Bài toán kiến thức lỗi
○ Các pk-set khai thác từ lĩnh vực trước có thể sai với lĩnh vực hiện tại
○ Xét sự tương quan giữa các từ trong pk-set trong lĩnh vực hiện tại
○ Phương pháp PMI (Pointwise Mutual Information)
Trang 18Mô hình LTM
Bộ lấy mẫu Gibbs:
● Ma trận A
Trang 19Mô hình LTM
Bộ lấy mẫu Gibbs:
● Phân bố
Trang 23Đánh giá - Nội dung
Nội dung thử nghiệm:
● Khai thác kiến thức có sẵn từ các chủ đề
○ Case 1: Các lĩnh vực bao gồm lĩnh vực kiểm thử
○ Case 2: Các lĩnh vực không bao gồm lĩnh vực kiểm thử
Trang 24Đánh giá
Trường hợp 1
Trang 26Đánh giá
Trang 27Trường hợp 2