Tình trạng tương tự cũng diễn ra khi tích hợp tri thức được thực hiện trên các cơ sở tri thức có phân lớp [5], Hơn nữa, tất cả các công trình này yêu cầu các tác tử phải bộc lộ tất cả cá
Trang 1Danh sách cán bộ tham gia:
Khoa Toán - Cơ - Tin học, Trường ĐHKHTN, ĐHQGHN
Trang 2PHẦN I THÔPG TIN CHUNG
1.1 Tên đề tài: rích họp tri thức trong các hệ thống đa tác tử
1.2 Mã số: QG 14.13
1.3 Danh sách hủ trì, thành viên tham gia thực hiện đề tài
Trường ĐHKHTN, ĐHQGHN
Chủ nhiệm đề tài
Thông tin, Trường ĐHCN, ĐHQGHN
1.5 Thời gian tự c hiện:
1.6 Những tỉurđối so vói thuyết minh ban đầu (nếu có):
Không c thay đổi.
1.7 Tổng kinh hí được phê duyệt của đề tài: 200 triệu đồng.
A Vấn đề lỊhiên cứu tích hợp tri thức cho các hệ đa tác tử
Tích hợjtri thức là một lĩnh vực nghiên cứu quan trọng trong khoa học máy tính, vấn đề tích hợp tri thứđược phát biểu như sau:
Cho mộtiập hợp các cơ sở tri thức (knowledge bases), các cơ sở tri thức này có thể mâu thuẫn với nhau, àm thế nào để thu được một cơ sở tri thức chung từ các cơ sở tri thức đã cho?
Các giảiiháp cho vấn đề này có liên quan đến nhiều lĩnh vực nghiên cứu khác nhau, chẳng hạn như Cơ sở ứ liệu khi nhiều cơ sở dữ liệu cần phải được sáp nhập, hoặc Tìm kiếm thông tin khi
có nhiều nguồn lông tin cần phải được tổng hợp, và cũng liên quan đến các Hệ thống đa tác từ khi
1
Trang 3mà các tác tử với những sự hiểu biết khác nhau cần phải đạt được một sự đồng thuận trong việc phân chia tài nguyên hay phối hợp hoạt động Nhiều phương pháp tiếp cận đã được đề xuất, ví dụ như tích hợp tri thức với những hoạt động trọng tài của p.z Revesz [1], tích hợp tri thức với các cơ
sở tri thức có gắn trọng số của J.Lin [2], tích họp tri thức với các ràng buộc toàn vẹn của s
Konieczny [3], tích họp tri thức bàng Possibilistic Logic của s Benferhat [4], và tích hợp tri thức
với các cơ sở tri thức được phân lớp của L Qi [5] Nhìn chung, những phương pháp này tiến bộ hơn
so với phương pháp kết hợp tri thức [6, 7] bởi vì chúng không chỉ xem xét sự kết hợp của tất cả các
cơ sở tri thức mà còn quan tâm cả đến số nguồn tạo tri thức Tuy nhiên, trong những phương pháp tiếp cận này, các tác tử cung cấp các nguồn tin đã không được xét đến trong quá trình tích hợp Tất
cả các tác từ này cũng được giả thiết là đã cung cẩp các cơ sở tri thức mà chúng đang nắm giữ một cách rõ ràng và đầy đủ Quá trình sáp nhập thì được thực hiện bởi một trung gian hòa giải hoàn toàn độc lập và công tâm Hai giả thiết này thường là quá khó đổi với hầu hết các hệ thống đa tác tử.
Ngoài các phương pháp truyền thống đã nêu trên, tích hợp tri thức thông qua đàm phán cũng
đã được xem xét [8, 9, 10, 11] Phương pháp này xuất phát từ một ý tường tự nhiên và mang tính người khi giải quyết các cuộc xung đột, ấy là khi một nhóm người có một sổ ý kiến trái ngược hay mâu thuẫn nhau, chúng ta cho họ thảo luận và đàm phán vói nhau để đạt được sự đồng thuận Cách tiếp cận này được giới thiệu bởi R Booth [8, 9] như một quá trình tích hợp gồm hai giai đoạn dựa trên luật đồng nhất Levy [12] Trong các công trình này, tác giả đề xuất một mô hình chung cho việc tích họp tri thức thông qua đàm phán Nghiên cứu này được tiếp tục bởi s Koniecny bằng việc chỉ ra một lớp các toán tử tích hợp dựa vào các kỹ thuật đàm phán [10] Tuy nhiên, các kết quả này không đủ mạnh trong việc buộc các tác tử phải nhượng bộ một cách hợp tác, tức là một số tác tử
có thể sử dụng một số thủ thuật để bảo vệ những tri thức của chúng trong các kết quả sáp nhập Bên cạnh đó, vì muốn giữ nguyên tắc thay đổi ít nhất có thể, thừa hưởng từ các nghiên cứu về duyệt hiểu biết [8, 9], nên đã vi phạm đến nguyên tắc về sự công bằng, một thuộc tính quan trọng đối với tích họp tri thức Một công trình khác liên quan đến phương pháp này được giới thiệu bởi D Zhang [10] bằng cách xem xét các vấn đề trò chơi đàm phán trên tinh thần của tích hợp tri thức Công trình này được dựa trên ý tưởng cùa việc sắp xếp các thông tin trong từng cơ sở tri thức vào các lóp ưu tiên từ thấp đến cao và sau đó lần lượt loại bỏ các lớp thấp nhất của các cơ sở tri thức cho đến khi các phần còn lại không còn mâu thuẫn hoặc một tình huống bất đồng phát sinh (tri thức của một tác tử nào
đó bị loại bỏ hoàn toàn) Cách tiếp cận này có thể làm mất một số thông tin hữu ích trong trường hợp những thông tin này không gây ra mâu thuẫn, nhưng chúng lại nằm ở một số lớp có độ ưu tiên thấp mà cần phải loại bỏ Tình trạng tương tự cũng diễn ra khi tích hợp tri thức được thực hiện trên các cơ sở tri thức có phân lớp [5], Hơn nữa, tất cả các công trình này yêu cầu các tác tử phải bộc lộ tất cả các tri thức của chúng, đây là yêu cầu khó đáp ứng được trong các hệ thống đa tác tử
Theo quan điểm về đàm phán, tích hợp tri thức là một quá trình mà trong đó một số tác tử
sẽ thực hiện một số nhượng bộ trong các cơ sở tri thức của chúng để có thể đạt được sự đồng thuận Các tác tử được giả thiết là trung thực, có lý trí và hợp tác, tức là các tác tử này cung cấp các cơ sở tri thức thực sự cùa mình, mong muốn duy trì được càng nhiều càng tốt các tri thức của chúng và chấp nhận tất cả tri thức từ những tác tử khác miễn là chúng không mâu thuẫn vói các tri thức của
2
Trang 4mình Tuy nhiên, giả thiết về tính vụ lợi của các tác tử là rất phổ biến trong các hệ thống đa tác tử , khi đó các tác tử luôn cố gắng để đạt được càng nhiều lợi ích (giữ gìn tri thức riêng của chúng) càng tốt Vì vậy, hai câu hỏi phát sinh là làm thế nào để các tác tử thực hiện sự nhượng bộ ít nhất chỉ vừa đủ để đạt được sự đồng thuận và làm thế nào để có được những kết quả tích hợp công bằng cho tất cả các tác tử Những câu trả lời cho các câu hỏi này là những mục tiêu chính của đề tài này.
Xa hơn nữa, trong tất cả các tiếp cận nói trên, các tác tử tham gia trong quá trình tích hợp tri thức đều được giả thiết là có tính hợp tác, tức là chúng sẽ đạt được sự đồng thuận thông qua việc đánh đổi sự hy sinh lợi ích này lấy sự hy sinh các lợi ích khác từ các tác tử khác Tuy nhiên, trong nhiều các tình huống tích hợp tri thức thực tế, một số tác từ có thể gìn giữ được nhiều tri thức của riêng chúng hon các tác từ khác khi chúng có những lý lẽ, luận cứ vững chắc để bảo vệ các tri thức của mình, tức ỉà chúng có các lập luận để hỗ trợ tri thức của chúng cũng như phản bác lại các lập luận của đối phương nhàm bác bỏ các tri thức này Điều này gợi ý cho chúng ta ý tưởng về một kỹ thuật mới cho việc tích hợp tri thức, ấy là tích họp tri thức bàng tranh luận.
B Tích hợp tri thức tại Việt Nam
Xử lý tri thức nói chung cũng như tích hợp tri thức nói riêng hiện nay đang là một lĩnh vực nghiên cứu còn khá mới mẻ ờ Việt Nam Các nghiên cứu về tích họp tri thức trong nước đã bước đầu được ứng dụng trong một số lĩnh vực của đời sống, xã hội mà tiêu biểu là hệ thống dự báo kinh
tế đang được triển khai tại Bộ Kế hoạch - Đầu tư Các kết quả về học thuật cũng mói bắt đầu xuất hiện từ các kết quả nghiên cứu của một số nghiên cứu sinh trong nước và vài tiến sĩ mới học nước ngoài về Nhóm này tập trung chủ yếu ở một số trường đại học trong thành phố Hồ Chí Minh Tiêu biểu là Tiến sĩ Dương Trọng Hải nghiên cứu về tích họp ontology cho các hệ cơ sở dữ liệu lớn, nghiên cứu sinh Trương Hải Bằng về tích hợp trên các hệ thống mờ Tuy nhiên, các mô hình nghiên cứu xây dựng trên các hệ thống logic chưa được các nhóm này đề cập và các kết quả nghiên cứu của đề tài này là mới và tương đối độc lập với các kết quả nghiên cứu của các nhóm khác trong nước.
c Sự cần thiết, tỉnh cấp bách, ỷ nghĩa lý luận và thực tiễn:
Từ tình hình nghiên cứu còn nhiều khoảng trống và khả năng ứng dụng to lớn của tích hợp tri thức trong các hệ thống thông tin như đã nêu ở trên, đề nghiên cứu về tích hợp tri thức cho các hệ thống đa tác tử là cần thiết Các kết quả của đề tài này có ý nghĩa to lớn về lý luận và thực tiễn, v ề mặt lý luận, các kết quả nghiên cứu của đề tài cung cấp các mô hình lý thuyết và các kết quả đánh giá về tính hợp lý, độ phức tạp tính toán cho cộng đồng nghiên cứu và phát triển, v ề mặt thực tiễn, các mô hình tích hợp tri thức được đề xuất sẽ được sử dụng trong đào tạo đại học, sau đại học; được
sử dụng trong các hệ thống đa tác tử để phân chia tài nguyên, tác vụ, , cũng như trong các hệ thống chuyên gia nhằm tăng cường độ chính xác cho các hệ thống chẩn đoán bệnh, các hệ thống dự báo thời tiết, dự báo kinh tế, hay các hệ thống chống biến đổi khí hậu và phòng chống thiên tai, Các kết quả nghiên cứu này cũng được ứng dụng rộng rãi trong các hệ hỗ trợ ra quyết định, các hệ thống thương mại điện tử tự động, các hệ thống web hướng ngữ nghĩa, Đ ây là những hệ thống phục vụ cho nhiều mặt của đời sống xã hội cũng như an ninh quốc phòng.
3
Trang 52 Mục tiêu
Đề tài này nghiên cứu về cách tiếp cận mới cho việc tích hợp tri thức bàng đàm phán và bằng tranh luận Các kỹ thuật tích họp tri thức truyền thống bộc lộ một số nhược điểm không thể vượt qua được khi áp dụng cho các hệ thống đa tác tử Cụ thể là yêu cầu các tác tử tham gia quá trình tích hợp phải cung cấp một cách đầy đủ, trung thực các tri thức mà chúng đang có Hơn nữa quá trình tích hợp được thực hiện bởi trọng tài nên kết quả bị ảnh hường cùa các đánh giá mang tính chủ quan của trọng tài, khó được các tác từ tham gia chấp nhận Việc tích hợp tri thức sử dụng các
kỹ thuật đàm phán hay tranh luận là các tiếp cận mới để khắc phục các nhược điểm này Các mục tiêu chính của đề tài là khảo sát, đánh giá chi tiết các kĩ thuật tích họp tri thức hiện có, đề xuất các phương pháp tích hợp tri thức mới sử dụng các kỹ thuật đàm phán và tranh luận, đánh giá tính họp
lý, độ phức tạp tính toán của các phương pháp này.
3 Nội dung và phưong pháp nghiên cứu
A N ội dung nghiên cứu của đ ề tài:
Đề tài gồm hai phần chính là tích hợp tri thức bằng đàm phán và tích hợp tri thức bằng tranh luận Trong nội dung tích hợp tri thức bằng đàm phán, trước tiên chúng tôi khảo sát mô hình đàm phán do J Nash đề xuất (năm 1950) trong kinh tế học [13] và các nghiên cứu liên quan đến mô hình này trong Trí tuệ nhân tạo nói chung cũng như trong các hệ thống đa tác tử nói riêng Tiếp
đó chúng tôi đề xuất một mô hình tiên đề cho tiếp cận tích hợp tri thức bàng đàm phán trong đó định nghĩa tập các tính chất đáng mong đợi mà các kết quả tích hợp nên có và khảo sát mối quan
hệ giữa các tính chất vừa nêu trong mô hình này Tiếp nữa chúng tôi trình bày mô hình xây dựng cho cách tiếp cận này bàng cách định nghĩa lớp các toán tử tích hợp cùng các thuật toán heuristic
để thực hiện các toán tử này và chỉ ra các kết quả biểu diễn để phản ánh mổi quan hệ giữa hai mô hình kể trên Cuối cùng chúng tôi trình bày về các kết quả đánh giá độ phức tạp tính toán của cách tiếp cận này.
Trong nội dung tích hợp tri thức bàng tranh luận, chúng tôi nghiên cứu mô hình tranh luận do P.M Dung đề xuất (năm 1995) [14] trong Trí tuệ nhân tạo cũng như các ứng dụng của nó trong các
hệ thống đa tác tử Sau đó chúng tôi đề xuất một mô hình tiên đề cho tiếp cận tích hợp tri thức bàng tranh luận trong đó định nghĩa tập các tính chất đáng mong đợi mà các kết quả tích họp nên có và khảo sát mối quan hệ giữa các tính chất vừa nêu trong mô hình này Cuối cùng chúng tôi xây dựng một mô hình chiến lược cho cách tiếp cận này bàng cách định nghĩa giao thức cho việc tranh luận cũng như các chiến lược tranh luận trên giao thức được định nghĩa.
B Cách tiếp cận:
Các vấn đề nghiên cứu được tiếp cận từ hai hướng chính đó là tiếp cận tiên đề và tiếp cận xây dựng Trong tiếp cận tiên đề, một tập các tiên đề được định nghĩa để đặc tả những tính chất đáng mong đợi của kết quả tích họp tri thức và phân tích mối quan hệ giữa các tiên đề này Trong tiếp cận xây dựng, các mô hình tích hợp được đề xuất, các giao thức làm việc và các chiến lược tích hợp tri thức được chỉ ra và bàn luận.
4
Trang 6Với cách tiếp cận vừa nêu, chúng tôi sử dụng phương pháp nghiên cứu gồm có các bước như sau: Trước tiên, chúng tôi sử dụng lý thuyết đàm phán và lý thuyết tranh luận để mô hình hóa các bài toán tích hợp tri thức Tiếp theo chúng tôi xây dựng các mô hình tiên đề, mô hình xây dựng và mô hình chiến lược cho các cách tiếp cận đồng thời khảo sát mối quan hệ giữa các mô hình này Cuối cùng chiúng tôi tạo lập các mô phỏng thử nghiệm để đánh giá và kiểm chứng lại các kết quả lý thuyết.
Cách tiếp cận này thể hiện tính mới, tính độc đáo, tính sáng tạo Cụ thể là, tích hợp tri thức bằng đàm phán và bàng tranh luận là các hướng tiếp cận mới nhàm áp dụng được tích họp tri thức cho các hệ thống đa tác tử Các kỹ thuật tích họp tri thức bằng đàm phán và bằng tranh luận đã được nghiên cứu và áp dụng nhiều trong các lĩnh vực của khoa học xã hội như chính trị, kinh tế và triết học Trong đề tài này các kỹ thuật đó được đưa vào các nghiên cứu trong lĩnh vực trí tuệ nhân tạo.
4 Tồng kết kết quả nghiên cứu
Các kết quả nghiên cứu của đề tài gồm hai nhóm chính là các sản phẩm khoa học và các sản phẩm đào tạo Đối với nhóm các sản phẩm khoa học, các kết quả của đề tài đã được viết thành các công trình khoa học được công bố trên kỳ yếu của hội nghị chuyên ngành có uy tín trong và ngoài nước Cụ thể là có hai bài báo được đăng trên các kỷ yếu của các hội nghị quốc gia về CNTT & TT
và hai bài báo được đăng trên kỷ yếu hội nghị quốc tế có uy tín, có phản biện thuộc hệ thống IEEE/Scopus.
Bài báo ‘Độ đo Google trong tích hợp dữ liệu ” ([18]) bàn về lý thuyết về độ đo, một trong
những vấn đề đang được bàn đến nhiều trong các công trình nghiên cứu trong lĩnh vực Khoa học máy tính bởi tính ứng dụng sâu rộng của nó từ thu hồi dữ liệu, khai phá dữ liệu đến tích hợp tri thức, nhận dạng và học máy Bài báo này giói thiệu và bàn luận đầy đù và chi tiết về cơ sở lý thuyết, các tính chất và một sổ ứng dụng của độ đo dựa trên Google cho việc tích hợp các ontology dữ liệu.
Hai bài báo “Mô hình tiên đề cho tích hợp tri thức bằng đàm phán ” ([17]) và “On the B elief
Merging by N egotiation” ([20]) trình bày các mô hình tiên đề cho việc tích hợp các cơ sở tri thức
được phân lớp bằng đàm phán Quá trinh tích hợp tri thức trong các mô hình này được chia thành hai giai đoạn: trong giai đoạn đầu, các cơ sở tri thức được phân lớp của mỗi tác tử được ánh xạ thành các sở thích của tác tử đó, và trong giai đoạn thứ hai một cuộc đàm phán giữa các tác tử được thực hiện dựa trên những sờ thích này Trong các bài báo này, một tập các tiên đề hợp lý để đàm phán dựa trên tích hợp tri thức được đề xuất và giải pháp đàm phán thoả mãn các tiên đề đề xuất được giới thiệu Tiếp nữa, các tính chất lô-gic của một họ các toán tử tích hợp bằng đàm phán được trình bày [17,20] Cuối cùng độ phức tạp tính toán của các toán tử tích hợp tri thức bằng đàm phán được đưa ra bàn luận [20].
Trong bài báo Argumentation Framework fo r Merging Stratified B elief Bases" ([19]), quá
trình tích họfp tri thức được tổ chức như một trò chơi trong đó các tác tử tham gia dùng kỹ thuật tranh luận dựa trên các tri thức mà chúng được trang bị để đạt được sự đông thuận Để là được điều này, một khung làm việc (framework) để tích hợp tri thức bằng tranh luận được giới thiệu Trong khung làm việc này, một giao thức để tích hợp tri thức bằng tranh luận được đề xuất và một tập các
5
Trang 7tiên đề trực quan và họp lý để đặc tả các kết quả tích hợp được giới thiệu Các tính chất lô-gic của
họ các toán tử tích họp tri thức bằng tranh luận đã được chi ra và bàn luận.
Đối với nhóm các sản phẩm đào tạo, đề tài đã hồ trợ đào tạo hai thạc sĩ: Thạc sĩ Nguyễn Thị
Hoàn với đề tài “Một mô hình kết họp học giám sát và bán giảm sát cho bài toán dự báo khách
hàng có nguy cơ rời mạng Vinaphone ” và Thạc sĩ Phan Thị Thơm với đề tài “Phân lớp đa nhãn,
đa thế hiện và áp dụng trong quản lý danh tiếng Hai thạc sĩ này đã nhận bằng thạc sĩ của ĐH Công nghệ, ĐHQG Hà Nội năm 2015.
5 Đánh giá về các kết quả đã đạt đưọ'c và kết luận
Đề tài đã đạt được tất cả các yêu cầu về mặt nội dung, số lượng và chất lượng như đã đăng
ký Cụ thể là đề tài đã công bố được hai bài báo trên các kỷ yếu của các hội nghị quốc gia có uy tín trong chuyên ngành (một bài trong kỷ yếu hội nghị FAIR 2015 và một bài trong hội nghị @ 2016), hai bài báo trên kỷ yếu hội nghị quốc tế có uy tín, có phản biện thuộc hệ thống IEEE/Scopus (một bài trong kỷ yếu hội nghị KES 2014 và một bài trong hội nghị ACIIDS 2016), đóng góp đào tạo được hai thạc sĩ tại trường ĐH Công nghệ, ĐHQG Hà Nội Ngoài ra đề tài còn có hai báo cáo kỹ thuật và một bài báo đang chờ xét duyệt để đăng trên kỷ yếu hội nghị quốc tế thuộc hệ thống IEEE/Scopus.
6 Tóm tẳt kết quả (tiếng Việt và tiếng Anh)
Tiếng Việt:
Với mục tiêu là nghiên cứu về cách tiếp cận mới cho việc tích hợp tri thức bàng đàm phán và bằng tranh luận, đề tài đã đạt được các kết quả chính như sau: một tài liệu khảo sát, đánh giá chi tiết các kỹ thuật tích hợp tri thức trong các hệ thống đa tác tử hiện có và một tài liệu tổng quan về tích hợp tri thức bằng đàm phán đã được viết Các phương pháp tích họp tri thức trong các hệ thống đa tác tử, sử dụng các kỹ thuật đàm phán và tranh luận được đề xuất Các đánh giá về tính hợp lý, độ phức tạp tính toán của các phương pháp tích hợp tri thức trong các hệ thống đa tác tử được xem xét, đánh giá và bàn luận Từ các kết quả này, bốn công trình đã được công bố, trong đó có hai bài đang trên các kỷ yếu của các hội nghị quốc gia về chuyên ngành CNTT & TT, hai bài báo đăng trên kỷ yếu các hội nghị quốc tế có uy tín, có phản biện thuộc hệ thống IEEE/Scopus Đề tài cũng hỗ trợ đào tạo cho hai thạc sĩ về CNTT của trường ĐH Công nghệ, ĐHQG Hà nội.
6
Trang 8Tài liệu tham khảo:
1 P z Revesz On the semantics o f arbitration International Journal o f Algebra and
Computation, 7:133-160, 1995.
2 J Lin Integration o f weighted knowledge bases Artif Intell., 83:363-378, June 1996.
3 S Konieczny and R p Pérez Merging information under constraints: a logical framework
Journal o f Logic and Computation, 12(5):773-808, 2002
4 S Benferhat, D Dubois, s Kaci, and H Prade Possibilistic merging and distance-based
fusion o f propositional information Annals o f Mathematics and Artificial Intelligence,
34:217-252, March 2002.
5 G Qi, w Liu, and D A Bell Merging stratified knowledge bases under constraints In
Proceedings o f the 21s' national conference on Artificial intelligence -Volume 1, pages 281 -
286 AAAI Press, 2006.
6 c Baral, s Kraus, and J Minker Combining multiple knowledge bases IEEE Trans On
Knowl And Data Eng., 3:208-220, June 1991.
7 c Baral, s Kraus, J Minker, and V s Subrahmanian Combining knowledge bases
consisting o f first order theories In Proceedings o f the 6th International Symposium on
Methodologies fo r Intelligent Systems, ISMIS ‘91, pages 92-101, London, UK, 1991
Springer-Verlag.
8 R Booth A negotiation-style framework for non-prioritised revision In Proceedings o f the
8th conference on Theoretical aspects o f rationality and knowledge, TARK ‘01, pages 137-
150, San Francisco, CA, USA, 2001 Morgan Kaufmann Publishers Inc.
9 R Booth Social contraction and belief negotiation Inf Fusion, 7:19-34, March 2006.
10 D Zhang A logic-based axiomatic model o f bargaining Artif Intell., 174:1307- 1322,
November 2010.
1 1 s Konieczny B elief base merging as a game Journal o f A pplied Non-Classical Logics,
14(3):275-294, 2004.
1 2 1 Levi Subjunctives, dispositions and chances Synthese, 34:423-455, 1977.
13 J Nash The bargaining problem Econometrica, 18(2): 155-162, April 1950.
14 P.M Dung On the Acceptability o f Arguments and its Fundamental Role in Nonmonotonic
Reasoning, Logic Programming and n-Person Games Artif Intell 77(2): 321-358, 1995.
15 T.H Tran, N.T Nguyen, Q.B Vo Axiomatic Characterization o f B elief Merging by
Negotiation Multimedia Tools and Applications, DOI: 10.1007/sl 1042-012-1136-7, 2012
16 T.H Tran, Q.B Vo, An Axiomatic Model for Merging Stratified B elief Bases by
Negotiation, Lecture Notes in Computer Science 7653, 174-184, 2012.
17 Nguyễn Thị Hồng Khánh, Hà Quang Thụy, Trần Trọng Hiếu Mô hình tiên đề cho tích hợp
tri thức bằng đàm phản, Kỷ yếu Hội thảo Quốc gia lần thứ XIX "Một sổ vấn đề chọn lọc
cùa Công nghệ thông tin và Truyền thông" Trang 130-135, 2016.
7
Trang 918 Vũ Ngọc Trình, Hà Quang Thụy, Trần Trọng Hiếu, Độ đo Googỉe trong tích hợp dữ liệu,
Kỷ yếu Hội nghị Quốc gia lần thứ 8 về Nghiên cứu cơ bản và úng dụng Công Nghệ thông tin (FAIR), Trang 224-236, 2015.
19 Trong Hieu Tran, Thi Hong Khanh Nguyen, Quang-Thuy Ha, Ngoe Trinh Vu:
Argumentation Framework fo r M erging Stratified B elief Bases ACIIDS (1) 2016: 43-53.
20 Trong Hieu Tran, Quoc Bao Vo, Thi Hong Khanh Nguyen: On the B elief Merging by
Negotiation KES 2014: 147-155.
PHẢN III SẢN PH ẨM , CÔNG BÓ VÀ KÉT QUẢ ĐÀO TẠ O CỦA ĐẺ TÀI
3.1 Kết quả nghiên cứu
Ghi đia chỉ•
và cảm ơn sư *
tài trợ của
Đ H Q G H N đúng quy đinh•
Đánh giá chung
(Đạt, không đạt)
1.1
1.2
8
Trang 102 Sách chuyên khảo được xuât bản hoặc ký họp đông xuât bản, 'X F
quốc gia hoặc báo cáo khoa học đăng trong kỷ yếu hội nghị quốc tế
ìuyên ngành
5.1 Nguyễn Thị Hồng Khánh, Hà Quang Thụy,
Trần Trọng Hiếu Mô hình tiên đề cho tích hợp
tri thức bằng đàm phán, Kỷ yếu Hội thảo Quốc
gia lần thứ XIX "Một số vấn đề chọn lọc của
Công nghệ thông tin và Truyền thông"
@2016: 130-135.
5.2 Vũ Ngọc Trình, Hà Quang Thụy, Trần Trọng
Hiếu, Độ đo Google trong tích hợp dữ liệu, Kỷ
yếu Hội nghị Quốc gia lần thứ 8 về Nghiên cứu
cơ bản và ứng dụng Công Nghệ thông tin
FAIR 2015: 224-236.
5.3 Trong Hieu Tran, Thi Hong Khanh Nguyen,
Stratified B elief Bases ACIIDS (1) 2016: 43-
53.
5.4 Trong Hieu Tran, Quoc Bao Vo, Thi Hong
Khanh Nguyen: On the B elief M erging by
Trang 113.3 K ết quả đào tạo
T hòi gian và kinh phí tham gia đề tài
(sổ thảng/sổ tiền)
Công trình công bổ liên quan
(Sàn phâm KHCN, luận án, luận văn) Đã bảo vê •
Nghiên cứu sinh
1
Học viên cao học
Nguyễn Thị Hoàn: M ột mô hình kế í hợp
học giám sát và bán giám sát cho bài toán
dự bảo khách hàng có nguy cơ rời mạng Vinaphone, 2015, PGS.TS Hà Quang
Thụy, ĐH Công nghệ, ĐHQG Hà Nội.
Đã bảo vệ
hiện và áp dụng trong quản lý danh tiếng,
2015, PGS.TS Hà Quang Thụy, ĐH Công nghệ, ĐHQG Hà Nội.
ISI/Scopus
chí khoa học chuyên ngành quốc gia hoặc báo cáo khoa học
đăng trong kỷ yếu hội nghị quốc tế
6 Báo cáo khoa học kiến nghị, tư vấn chính sách theo đặt hàng
của đơn vị sừ dụng
chính sách hoặc cơ sở ứng dụng KH&CN
10
Trang 12PHẦN V TÌNH HÌNH s ử DỤNG KINH PHÍ
Kinh phí được duyệt
(triệu đồng)
Kinh phí thưc hiên• •
(triệu đồng)
Ghi chú
Từ quá trình thực hiện đề tài QG 14.13, nhóm tác giả có những kiến nghị như sau:
1 Đại học Quốc gia Hà N ội giúp nhóm tác giả liên hệ với các đơn vị có nhu cầu chuyển giao, sử dụng các kết quả nghiên cứu vào các hoạt động đào tạo, nghiên cứu hoặc sản xuất kinh doanh.
2 Đe tài đã nghiên cứu tích hợp tri thức cho các hệ thổng đa tác từ trên các mô hình lô-gic Trong phạm vi nghiên cứu của đề tài, các tác tử trong hệ thống đa tác tử được giả thiết là đã
có đầy đủ thông tin, qua đó chúng có thể lựa chọn chiến lược để đạt được thỏa thuận một cách dễ dàng Tuy nhiên, trong thực tế, giả thiết về tính đầy đủ của thông tin là khó đạt được, do vậy tích hợp tri thức cho các hệ thống đa tác tử trong điều kiện thiếu thông tin là một vấn đề nghiên cứu mở đáng quan tâm Các kết quả nghiên cứu của vấn đề này rất có ý nghĩa về mặt học thuật cũng như ứng dụng thực tiễn Nhóm tác giả xin đề xuất Đại học Quốc gia tiếp tục tài trợ để mở rộng đề tài cho giai đoạn tiếp theo nhàm nghiên cứu vấn đề
“Nghiên cứu các phương pháp đạt được thỏa thuận cho các hệ thống đa tác tử trong điều kiện thiếu thông tin
11
Trang 13PHẦN VI PHỤ LỤC (minh chứng các sản phẩm nêu ở Phần III)
1 Minh chửng kết quả công bố:
1 N guyễn Thị H ồng Khánh, Hà Q uang Thụy, Trần Trọng Hiểu: M ô hình tiên đ ề
cho tích h ợ p tr i thức b ằn g đàm p h á n , K ỷ y ếu H ội thảo Q uốc gia lần thứ X IX
"Một số vấn đề chọn lọc của C ông nghệ thông tin và Truyền thông" @ 2016: 130-135.
2 Vũ N g ọ c Trình, Hà Quang Thụy, Trần Trọng Hiếu: Đ ộ đ o G o o g le tro n g tích hợp
d ữ liệu , K ỷ yếu H ội nghị Q uốc gia lần thứ 8 v ề N gh iên cứu cơ bản và ứng dụng
Công N gh ệ thông tin FAIR 2015: 2 2 4 -2 3 6
3 Trong H ieu Tran, Thi H ong Khanh N gu yen , Q uang-Thuy Ha, N g o e Trinh Vu:
A rgu m en tation F ra m ew o rk f o r M erg in g S tra tified B e lie f B ases A C IID S (1 )
2 0 1 6 :4 3 -5 3
4 Trong H ieu Tran, Q uoc B ao V o, Thi H ong Khanh N guyen: On the B e lie f
M ergin g b y N eg o tia tio n KES 2014: 147-155.
2 Minh chứng kết quả đào tạo:
1 N guyễn Thị Hoàn: M ộ t m ô hình kết h ợ p h ọc g iá m sá t và bán g iả m sá t cho b à i
toán d ự bảo khách hàn g có n gu y c ơ r ờ i m ạ n g Vinaphone, 2 0 1 5 , Hà Quang Thụy,
ĐH C ông nghệ, Đ H Q G Hà N ộ i.
2 Phan Thị Thơm: P hân lớ p đ a nhãn, đ a th ể hiện và á p d ụ n g tro n g quản lý danh
tiếng, 2 0 1 5 , Hà Quang Thụy, Đ H C ông nghệ, Đ H Q G Hà N ộ i.
3 Thuyết minh đề tài QG.14.13
Trang 14PHỤ LỤC
1 Minh chứng kết quả công bố:
1 N gu yễn Thị H ồng Khánh, Hà Q uang T hụy, Trần Trọng H iếu: M ô hình tiên đ ề
cho tích h ợ p tri thức b ằ n g đàm p h ả n , K ỷ y ếu H ội thảo Q uốc gia lần thứ X IX
"Một số vấn đề chọn lọc của C ông nghệ th ông tin và Truyền thông" @ 2016: 130-135.
2 Vũ N g ọ c Trình, Hà Quang Thụy, Trần Trọng Hiểu: Đ ộ đ o G o o g le tro n g tích hợp
d ữ liệu, K ỷ yếu H ội nghị Q uốc gia lần thứ 8 v ề N gh iên cứu cơ bản và ứng dụng
C ông N gh ệ thông tin FA IR 2015: 2 2 4 -2 3 6
3 Trong H ieu Tran, Thi H ong Khanh N gu yen , Q uang-Thuy Ha, N g o e Trinh Vu:
A rgu m en tation F ra m ew o rk f o r M erg in g S tra tifie d B e lie f B a ses A C IIDS (1)
2016: 4 3 -5 3
4 Trong H ieu Tran, Q uoc B ao V o , Thi H ong Khanh N guyen: On the B e lie f
M erg in g b y N egotiation K ES 2014: 147-155.
2 Minfa chứng kết quả đào tạo:
1 N gu yễn Thị Hoàn: M ộ t m ô hình kểt hợp h ọc g iá m s á t và bán g iả m s á t cho bài
toán d ự bảo khách h àn g có ngu y c ơ rờ i m ạ n g V inaphone, 2 0 1 5 , Hà Quang
Thụy, Đ H C ông nghệ, Đ H Q G Hà N ội.
2 Phan Thị Thơm: Phân lớ p đ a nhãn, đ a th ể hiện và á p d ụ n g tro n g quản lý
danh tiếng, 2 0 1 5 , Hà Q uang Thụy, Đ H C ông nghệ, Đ H Q G Hà N ội.
3 Thuyết minh đề tài QG.14.13
13
Trang 15VIẸN CÔNG NGHẸ THÔNG TIN
HỘI THẢO QUỐC GIA LÂN THỨ XVIII
THÀNH PHỐ HỒ CHÍ MINH, NGÀY 5-6 THÁNG 11 NĂM 2015
Trang 16MỤC LỤC ■ ■
H eilm an và mật mã đường cong Elliptical
Lê Thị Thanh Lim, H ồ Văn H ư ơ n g 1
Nguyen Viet D u e Pham Thanh Giang, Bui N g o c H o a n g 5
m ô tả
Nguyễn Viết C h á n h 12
Ngiiyễn N g ọ c C ư ơ n g 17
B ùi Thị T h ư , N giiyễn Tnròmg T h ẳ n g , Trần M ạnh Đ ông, N guyễn Thị Ảnh
Phượng 23
Nguyền H à Phương, Phạm N g ọ c Minh, N guyền Đ ă n g Chang, Vũ Chẩn tìxm g,
Đ ỗ Anh Tuấn, N giiỳễn Thành L o n g 27
ĐỒ Thị Bích Lệ, N guyền Tiến Đ ạ t 3 4
Licu H ồng D ũng, N giiyễn Đ ứ c T h ụ y 4 0
Ngityễn Đ ình Thuân, N giiyễn H ữu L ộ c 47
10 Cơ sở lý thuyết và ứng dụng của phương pháp qui nạp trong đảm bảo giao thức bảo mật thông tin
Trang 1712 Đánh giá hiệu năng của giao thức định tuyến A O D V dưới tác động của tấn công
ngập lụt và lỗ đen
Trần Vũ Thái Bình, Lê Vũ, Vò Thanh Tủ 67
13 Đ ề xuất một số loại phương thức cho lóp trong cơ sờ dữ liệu hướng đổi tượng
Phạm Thị Xuân L ộ c 73
14 Entropy và ngưỡng an toàn trong lữu trữ và truyền thông tin
L ê P h ê Đô, Trần Xuân Phirơng, Trần Văn Mạnh, Ngityễn Thể Thạo, Trần M ai
Lệ, Lê Văn Ban, Vương Thị Mỵ, Lê Thị L e n 80
15 Giải pháp tìm kiếm thông tin dựa trên Semantic Web
Tào N gọc Biên, Đ oàn Văn Ban, Phạm Thế Q uế 89
16 Hệ tư vấn dựa trên khuynh hướng biến thiên hàm ý thống kê
Phan Q uốc N ghĩa, H uỳnh Xuân H iệp 93
17 Hướng đến chợ ứng dụng cho hạ tầng đa đám mây
Huỳnh H oàng Long, Lê Trọng Vĩnh, Nguyễn Hữu Đức, L ê Đ ức H ù n g 1 0 0
18 Kết quả xây dựng thư viện số Q H 2015 giải phương trình vi phân
Vũ Vinh Quang, Trirơng H à H ả i 106
19 Khai thác thông tin phân đoạn ảnh cải thiện hệ thống tra cứu ảnh sử dụng
phương pháp SIM PLE
Vũ Văn Hiệu, L ê H ải Sơn, N gô Q uốc T ạo 112
20 M ô hình hóa h ệ thống m ở có topo thay đổi
Phạm Văn Việt, L ê Q uang H ù n g 118
21 M ô hình M arkov-Chuồi thời gian mờ trong dự báo chứng khoán
Đ ào Xuân K ỳ, L ụ c Trỉ Tuyên, Phạm Quốc Vương, Thạch Thị N in h 124
22 M ô hình tiên đề cho tích hợp tri thức bằng đàm phán
Nguyễn Thị H ồ n g Khảnh, H à Q uang Thụy, Trần Trọng H iếu 130
23 M ô phỏng quá trình ngập địa hình với sự tác động của thủy triều và lượng mưa
tại vùng đồng bằng sông Cửu Long
H oàng N gọc H iển, Huỳnh X uân H iệ p 136
24 M odel-to-C program translation in TTTEST
Le Thanh Long, N giiyen Thanh Binh, Ioannis P a rissis 142
25 Một giải pháp nâng cao hiệu suất phân lớp bằng dữ liệu không gán nhãn
Quách H ài Thợ, Phạm Anh P h ư ơ n g 150
26 Một hướng tiếp cận của bài toán phân tích rủi ro
Đoàn Huấn, N guyễn Đình T h uăn ỉ 56
Trang 18
-xiv-27 M ột mô hình hệ thống giám sát và điều khiển SCÁDA trên nền tảng điện toán
đám mây
Phạm N gọc Minh, N guyễn Tiến Phương, Thải Quang Vinh 162
28 Một phương pháp phân lớp dữ liệu địa lý sử dụng cây quyết định
Trần Mạnh Tnrờng, Vũ Tiên Sinh, Đ ặn g Văn Đức, Vũ D ương T ù n g 168
29 Một phương pháp thích ứng m iền cho dịch m áy thống kê
Phạm N ghĩa Luân, N giiyễn Văn Vinh, Ngiiyền Q uang H u y 174
30 Một phương pháp tiếp cận xử lý ngôn ngữ tự nhiên ứng dụng trong bài toán tổng hợp và trích rút thông tin kinh tế
Nguyền Thị N g ọ c Tủ, N giiyền Thị Thu Hà, Tnrơng H uy Hoàng, Đ ào Thanh
Tĩnh, Nguyễn N g ọ c C ư o n g 180
31 Một phương pháp tổng hợp ỷ kiến đánh giá trên tính năng sản phẩm của người tiêu dùng Việt N am
Vù Thị Nhạn, N guyễn Việt Anh, N guyễn K h ắc G iá o 185
32 Một thuật toán hiệu quả đảm bảo nhất quán dữ liệu trong môi trường các bản sao phân tán trên m ạng phủ P2P có cấu trúc
Ngiiyễn H ồng Minh, N guyễn Xuân Huy, L ê Văn Sơn 191
33 Nâng cao chất lượng ảnh số được bảo vệ bản quyền bằng cải tiến lược đồ thủy
vân dựa trên biến đổi QR
Nguyễn N gọc H im g, Phạm Thanh G ia n g 197
34 Nâng cao độ tin cậy cho m áy chủ D N S Anycast với giải pháp dự phòng tích cực
Nguyễn Anh Chuyên, L ê Q uang Minh, Trần Thị D u n g 202
35 N ghiên cứu các nhân tố ảnh hường đến triển khai thành cống giải pháp quản trị
quan hệ khách hàng điện tử tại các ngân hàng thương mại V iệt Nam
Ngiiyễn Vàn Thủy 207
36 N ghiên cứu nâng cao hệ thống phát hiện xâm nhập dựa trên mạng nơ-ron
Phạm Văn H ạnh, L ê N g ọ c Thế, Trần Thị Hưomg, Vũ Tất Thảng, Lê Trọng Vĩnh 213
37 Nghiên cứu phương pháp gán nhãn vai nghĩa cho tiếng V iệt
Ngiiyễn Q uang H uy, N guyễn Văn Vinh, Ngiiyễn Q n a n g H iệp 219
38 N ghiên cứu quá trình tự chỉnh sửa các sai lệch về cấu trúc và từ vựng của
ontology trong hệ thống đa tác nhân
Huỳnh Nhứt Ph át, H oàng Hữu Hạnh, Phan Cóng Vinh 225
39 Nghiên cứu v ề tập từ loại tiếng V iệt sử dụng kỹ thuật phân cụm
Nguyễn M inh H iệp, N guyễn Thị M inh Huyền, N gô Thể Q u yền 23 ]
XV
Trang 19-40 N gữ nghĩa m ối quan hệ phản xạ trong mô hỉnh ER và ứng dụng vào việc chuyển
đổi sang OW L O ntology
Nguyễn Thị N ghĩa, Trần Thị Phư ơng Chi, H oàng Q uang 237
41 Nhận dạng cử chỉ từ quỳ đạo chuyển động của tay sử dụng m ô hình Markov ẩn
D ương K hắc Hicởng, N gityễn Đ ă n g B ình 244
42 Phân tích, đánh giá và dự báo m ột số tham sổ tài chính dựa trên mô hình tự hồi
quy
N gó Hải Anh, N g ô D u n g N g a 250
43 Phát hiện lỗ hổng trong giao thức bảo mật sử dụng các phương pháp hình thức
Trần Mạnh Đ ô n g N guyễn Tncờng Thẳng Bùi Thị Thư 256
44 Phương pháp tra cứu ảnh theo nội dung sừ dụng SV D kết hợp đặc trưng Haar
Vũ Văn Hiệu, N guyễn H ĩni Quỳnh, N gô Quốc Tạo, D ương Phủ Thuần, Đ ào Thị
Thúy Q uỳnh 7 262
45 Portfolio optim ization using forest optimization algorithm
D o Vinh T r u e 272
46 Regularization N ew ton-K antorovich iterative method for nonlinear m onotone
ill-posed equations on Banach spaces
Nguyen D u on g Nguyen, N giiyen B u o n g 278
47 Saliency guided interpolation for super-resolution
D ao Nam Anh, N guyen H uu Qnynh, Ngiiyen H ong Son 282
48 SD N và ứng dụng triển khai cho các mạng đang hoạt động
Trần Đức Thẳng, L ý Thành Tnm g, Nguyễn H oàng Tnm g,Bùi Anh Tuần, Nguyễn Thế Vinh, H o à n g Đ ắ c T h ẳ n g ị: 287
49 Suy diễn siêu dữ liệu và hiện thực hóa tài liệu kết hợp trong một thư viện sổ
Lý Anh Tuấn, Trần Thị Mình H o à n 293
50 Tăng cường m ức độ ổn định của thủy vân dựa trên m ô hình ảnh đa tầng và các
điểm đặc trưng ảnh
Phan Đ ăng K huyên, N guyễn P h i Bằng, Đ ặng Thành Trung 299
51 Thiết kể nút cảm biến đa kênh đáp ứng kiến trúc ảo hóa của mạng cảm biến
không dây
Lê Thành Nam , Vũ D u y L ợ i 306
52 Thuật toán hiệu quả khai thác T op -R an k -K tập phổ biến trọng số hữu ích
Ngityễn D u y Hàm, Võ Đình Bảy, Ngiiyễn Thị H ồng M inh 312
53 Tối ưu hóa truy vấn trong cơ sở dừ liệu hướng đối tượng phân tán
M ai Thủy Nga Đ oàn Văn Ban, Nguyền Mạnh H ù n g 318
xvi
Trang 20-54 Truy vẩn ổnh sử dụng C hữ ký nhị phân của Ảnh phân đoạn
Văn Thế Thành, Lê M ạnh Thạnh 324
55 ứ n g dụng thuật toán D elaunay và RQT vào bài toán quy hoạch mạng di động
Lê Mạnh, N giiyễn Thanh B ìn h 330
56 v ề các điều kiện hội tụ của thuật toán LMS trong mô hình lọc nhiễu thích nghi
H oàng Mạnh Hà, Phạm Trần Nhu ú 336
57 v ề một phương pháp cải tiến thuật toán Random Forest
Ngiiyền Anh Thơ, N guyền N hư Sơn, Nguyền Long Giang, D ươĩig N gọc Sơn 340
58 v ề m ột phươnẸ pháp rút gọn thuộc tính trong bảng quyết định có m iền giá trị
liên tục theo tiếp cận tập thô m ờ
Nguyễn L on g G iang, C ao Chính Nghĩa, Nguyễn Văn Thiện 346
59 V iết lại truy vấn SPJ để sừ dụng khung nhìn thực trong PostgreSQL
Nguyễn Trần Q u ốc V inh 352
60 Xác định cụm từ song ngữ cho dịch máy thống kê Anh - Việt
L ê Quang Hùng, L ê Anh Cường, Trần Thiên Thành, Phạm Văn Việt, Ngityễn Thị
L o a n 361
61 X ây dựng bộ luật phân lớp đồ thị dựa trên phương pháp Confidence-rated
Boosting có sử dụng quan hệ thứ tự trên dàn của đồ thị
Nguyễn Việt Anh, Vù C h i Q u a n g 366
62 X ây dựng hệ thống testbed về m ạng không dây phục vụ việc đánh giá nâng cao
hiệu năng m ạng
N gô H ải Anh, Takumi Tamura, Phạm Thanh G ia n g 371
63 X ây dựng topo của m ạng cảm biến không dây với các hố trong m ôi trường 3D
Đ ặng Thanh H ải, L ê Trọng Vĩnh, Trịnh Thị Thủy G ian g 377
64 X ử lý bài toán chọn lọc đối tác trong thương lượng tự động dựa vào tác tử di
động trên m ôi trường điện toán đám mây
Bùi Q uang K hải, B ùi Đ ức D irơng 383
xvii
Trang 21-MÔ hình tiên đề cho tích hợp tri thức bằng đàm phán
Nguyễn Thị H ồng K hánh
Khoa C ông nghệ thông tin
Đại học Điện lực
Hà Nội, V iệt Nam
Email: khanhnth@ epu.edu.vn
Hà Quang Thụy Khoa Công nghệ thông tin Trường Đại học Công nghệ Đại học Quốc gia H à Nội
H à Nội, V iệt Nam Email: hqthuy@ gm ail.com
Trần Trọng Hiếu Khoa Công nghệ thông tin Trường Đại học Công nghệ Đại học Quốc gia Hà Nội
H à Nội, V iệt Nam Email: hieutt@ vnu.edu.vn
Tóm tắt—Trong bài báo này chúng tôi trình bày một
mô hình tiên đề cho viêc tích hơp các cơ sờ tri thức
được phân lóp bằng đàm phán Quá trình tích hợp
tri thức trong mô hình này dược chia thành hai giai
đoạn: trong giai đoạn đầu, các cơ sỏ trí thức đưạc
phân lớp của mỗi tác tử được ánh xạ thành các ưu
tiên của tác tử dó và trong giai đoạn thứ hai một cuộc
đàm phán giữa các tác tử được thực hiện dựa trên
những ưu tiên này Một tập các tiên đề trực quan và
hơp lý để tích hợp trí thức dựa trên đàm phán được
đề xuất và một giải pháp đàm phán thoả mãn các tiên
đề này dược giói thiệu Cuối cùng, các tính chất lô-gic
của một họ các toán tử tích hợp tri thức bằng đàm
phán được dưa ra bàn luận.
Keywords-Tidi hợp tri thức; Đàm phán;
I GIÓI THIỆU
Tích hợp tri thức là m ột chủ đề nghiên cứu quan
trọng với nhiều ứng dụng trong các linh vực của
K hoa học máy tính [7, 1, 16, 13] Bài toán tích hợp
tri thức được phát biểu như sau: Cho một tập các
cơ sờ tri thức m à m ột số trong số chúng có th ể mâu
thuẫn với nhau, tìm m ột cơ sở tri thức chung là đại
diện tốt nhất cho tập các cơ sỏ tri thức này.
Trong các tài liệu nghiên cứu, nhiều phương pháp
tiếp cận đối với tích hợp tri thức đã được đề xuất và
chúng thường được phân loại thành hai nhóm là tập
trung và phân tán C ác phương pháp tích hợp tri thức
tập trung là hướng chủ yếu của tích hợp tri thức; nó
xử lý quá trình tích hợp tri thức như m ột quá trình
phân xử C ác phương pháp tiếp cận điển hình trong
nhóm này bao gồm tích hợp ư i thức với những toán
tử trọng tài được đề xuất bởi Revesz [18], tích hợp
tri thức với các cơ sở tri thức có gắn trọng số bởi
L in [14], tích hợp tri thức với các ràng buộc toàn
vẹn bởi Konieczny [11], tích hợp tri thức bằng lôgic
khả năng bởi B enferhat [3], tích hợp tri thức với các
cơ sỏ tri thức được phân lớp bội Qi [17] và tích hợp
tri thức trên tập câu H orn bởi H arte [8] C ác giái
pháp trong những phương pháp này đáp ứng được một số tính chất hợp lý cho tích hợp tri thức Tùy nhiên, các phương pháp này đòi các quá trình tích hợp được xử lý bởi m ột bên trung gian một cách độc lập và công tâm mà không xét đến vai trò của các bên tham gia Hơn nữa, tất cả các cơ sở tri thức được giả thiết là đã được các bên cung cấp đầy đủ
từ trước Những điều này đôi khi quá khó để đáp ứng được trong thực tế và chúng chỉ phù hợp với một số lớp ứng dụng cụ thể Đặc biệt, chúng không thể áp dụng cho hầu hết các hệ thống đa tác tử Trong các phương pháp tiếp cận tích hợp tri thức phân tán, quá trình tích hợp được thực hiện một cách
tự nhiện hơn Trong đó, tích hợp tri thức được xem như là m ột trò chơi mà các bên tham gia là có tính
vụ lợi và có thể hành động một cách có chiến lược theo m ột số giao thức được quy định trước để đạt được sự đồng thuận với nhau [4, 5, 20, 9, 19] Cách tiếp cận ríày được giới thiệu bởi Booth trong [4, 5] như m ột quá trình tích hợp tri thức hai giai đoạn dựa trên đồng dạng Levy trong duyệt tri thức [12] và sau
đó đã được phát triển tiếp bằng cách chỉ ra một họ các toán tử tích hợp theo cách này [9] Một cách tiếp cận khác được đề xuất bởi Zhang [20] trong
đó m ột mô hình đàm phán được xây dựng cho m ột tập các yêu cầu (được biểu diễn bởi các công thức logic) của các bên tham gia Cách tiếp cận này có một số nhược điểm: (i) nó phụ thuộc vào cú pháp
(ii) nó bị ảnh hưởng bởi hiệu ứng bị chìm 1 Trong
[19], các tác giả đề xuất một giải pháp cho tích hợp tri thức bằng đàm phán khác G iải pháp này có thể khắc phục được hiệu ứng bị chìm nhưng nó vẫn còn
bị phụ thuộc vào cú pháp.
Trong bài báo này, chúng tôi đề xuất m ột mô hình
'Hiệu ứng bị chìm (drowning effect) trong tích hợp tri thức
xảy ra khi một số thông tin không xuất hiện trong các mâu thuân nhưng vẫn bị loại bỏ do chúng có độ ưu liên nhò hơn các thông tin mâu thuẫn.
- 1 3 0
Trang 22-cho việc tích hợp các cơ sở tri thức được phân lớp
bằng đàm phán cho phép khắc phục được những vấn
đ ề nêu trên Trong mô hình này, quá trình tích hợp
được chia thành hai giai đoạn Trong giai đoạn đầu,
từ các cơ sở tri thức được biểu diễn bằng các công
thức lô-gic, chúng tôi xây dựng các ưu tiên trên toàn
bộ các thế giới có thể dựa trên một số chiến lược
sắp xếp G iai đoạn thứ hai bao gồm một quá trình
đàm phán hoạt động trên các ưu tiên được xây dựng
dựa trên ý tưởng về bản đồ giải pháp M ột tập các
tiên đề trực quan và hợp lý được đề xuất đ ể đặc tả
các giải pháp đàm phán Cuối cùng, chúng tôi giới
thiệu m ột định lý đ ể chứng minh tính hợp lý của tập
các tiên đề đã được đề xuất.
Phần còn lại của bài báo này được trình bày như
sau: Trong phần tiếp theo, một số khái niệm và ký
hiệu được đưa ra Các kiến thức nền tảng về tích
hợp tri thức và đàm phán được nhắc lại trong Phần
3 Cách tiếp cận mới của chúng tôi được giới thiệu
trong Phần 4, trong đó chúng tôi trinh bày một mô
hình cho tích hợp tri thức và m ột tập các tiên đề để
đặc tả các giải pháp đàm phán Các tính chất lô-gic
được phân tích trong Phần 5 và các kết luận của bài
báo được trình bày trong Phần 6.
n KHÁ I NIỆM VÀ KÝ HIỆU
A Lô-gic m ệnh đ ề c ổ điển
Trong bài báo này, chúng ta xem xét m ột ngôn
ngữ m ệnh đề Jẵ? trên m ột bảng chữ cái hữu hạn
Ế? và các hằng số { T , -L} Ký hiệu w được sử
dụng đ ể biểu diễn tập các thế giới có th ể (possible
w orlds), trong đó mỗi thế giới có thể là một hàm
từ tập £? vào tập {T,_L} M ột mô hình của công
thức ộ là một thế giới có th ể UJ mà nó làm cho ộ
đúng, ký hiệu là u/1= ệ Với $ là một tập các công
thức, [$] biểu diễn tập các mô hình của 3>, tức là
[$] = {ồ/ € ỳ^|Vự> € $ (w ^ <£)}• đây, chúng ta
sử dụng {ậ} thay vì [{<£}] Chúng ta cũng sử dụng
các ký hiệu h đ ể biểu diễn quan hệ nhân quả, ví dụ
{ ậ , ĩp} \- 6 nghĩa là 6 là m ột hệ quả logic của ộ và
ĩỊ) M ộ t cơ sở tri thức (phẳng) K là m ột tập hữu hạn
củ a các công thức lô-gic M ột tập tri thức E của n cơ
sở tri thức là một đa tập hợp2 E = { K i , , K n}
Giả sử rằng K = {ự>i, , ậm}, chúng ta ký hiệu
AK = AịLịậi và AE = AỊ*=1 A Kị K là nhất quán
khi v à chỉ khi 3u; G w , UJ Ị= K Hai cơ sở tri thức
K và K ' là tương đương về mặt lô-gic, ký hiệu là
K = K ', nếu và chỉ nếu với mọi ộ £ K , K ' h ộ
và ngược lại Một tập tri thức E' = {K[ , , K'n}
2M ột đa tập hợp (multi-set) khác vâi một tập hợp (set) ờ chỗ
nó cho phép các phần tử cùa nó có thể giống nhau.
là tương dương về m ặt lô-gic với một tập tri thức
E = { K ỵ , ,K „ } , ký hiệu là E = E ', nếu và
chỉ nếu tồn tại một hoán vị 7T trên tập { 1 , ,n }
sao cho K ị = với mọi i = 1 , ,77 Hợp của hai tập tri thức Ề và E ' cũng là một tập tri thức
E U E ' = { K l , , K n , K [ , , K ỉn }.
B Cơ sô tri thức được phân lớp
Một cơ sỏ tri thức được phân lớp, đôi khi cũng được gọi là cơ sô tri thức được xếp hạng hay cơ sở
tri thức ưu tiên, là một cơ sở tri thức K cùng với một
quan hệ thứ tự toàn phần3 trên K Cơ sở tri thức được phân lớp (K , £=) có thể được định nghĩa tương đương như là một chuỗi { K ,)? ) = ( S i , , S n ), trong đó mỗi S ị( i — 1 , , n ) là một tập khác rỗng
và với ệ G S i, Tp € S j, ộ )? tp khi và chỉ khi i < j , tức là khi I < j mỗi công thức trong lớp S i có độ
ưu tiên cao hơn so với các công thức của lớp S j Mỗi tập con Si được gọi là một lớp cùa K và chỉ
số i chỉ ra cấp độ của m ỗi công thức của S ị Hai cơ sở tri thức được phân lớp {K , ^=) =
M ột chiến lược quan trọng đ ể xác định các toán
tử tích hợp tri thức là dựa trên các hàm khoảng cách giữa các thế giới có thể Mỗi toán tử tích hợp được xác định bởi một hàm khoảng cách và một hàm kết tập Ý tưỏng của phương pháp này là xây dựng một quan hệ thứ tự toàn phần của các thế giới có thể là các mô hình của tập tri thức cần được tích hợp M ột cách hình thức, các hàm khoảng cách và các hàm kết tập được xác định như sau:
Đ ịnh n g h ĩa 1 M ột hàm bán khoảng cách d ' W x
w —ì R* với Gưi,u;2 ,k >3 € yp thỏa mãn:
d(u)i,L) 2 ) = d(uJ 2 ,UJi),
d (uji,uj 2 ) — 0 khi và ch ỉ khi U)\ — u 2
-3Quan hệ thứ tự toản phần (total pre-order) là một quan hệ nhị phân trên một tập hữu hạn các phần từ thỏa mãn ba tính chất là phàn xạ bắc cầu và toàn bộ.
131
Trang 23Một hàm khoảng cách là m ột hàm bán khoảng cách
thỏa m ãn d(uji,uj 2 ) + d ( u 2 ,w ì) > d(ui.u> 3 ) (bất
đẳng thức tam giác).
Tính chất bất đẳng thức tam giác là m ạnh và được
bỏ qua trong hầu hết các công trình nghiên cứu về
tích hợp tri thức Vì vậy, chúng ta cũng sẽ sử dụng
hàm khoảng cách với bản chất là hàm bán khoảng
cách trong phần còn lại của bài báo này.
Đ inh nghĩa 3 Cho một tập tri thức E =
{ K i , , K u } và ràng buộc toàn vẹn ịi, toán tủ
Các hàm khoảng cách phổ biến là hàm khoảng
cách Hamming d ji, hàm khoảng cách drastic d o ,
hàm khoảng cách Euclid.
Các hàm kết tập phổ biến là m a x , sum (E )
và leximax (G M a x ), Các thuộc tính của các
toán tử tích hợp tri thức được xây dựng bởi các
cặp hàm khoảng cách và hàm kết tập, ví dụ
A ị » ’ĩ:( E ) 1A d f ’™a x( E ) , A < ỊlH'GMax{ E ), v.v được
xem xét trong [11, 10].
B Đàm phán
Nash [ 15] đã thiết lập một khung (framework) đơn
giản, gọn gàng và dựa trên toán học đ ể nghiên cứu
về đàm phán Trong khung này, một tập các tác tử
N = { 1 , , n} cố gắng đ ể đạt được m ột thỏa thuận
từ m ột tập các kết quả có thể (possible outcom es)
ữ Nếu đàm phán thất bại, sự kiện bất đồng D sẽ
phát sinh Mỗi tác tử i được trang bị một hàm lợi ích
von Neumann - M orgenstern Ui : đ { J { D ) —> R*
B ằng các hàm này, tập tất cả các bộ (tuple) lợi ích,
5 — {(uị(o), ,u n (o)) E 1 " : o Ẽ ữ} , và bộ lợi
ích khi bất đồng d — (U i{ D ) , , u n (D )) được xây
dựng Cặp (s , d) được gọi là một bài toán đàm phán,
nó là một trong một tập tất cả các bài toán đàm phán
Sê Nash sau đó định nghĩa giải pháp đàm phán là
một hàm / : Sê -» R r‘ đ ể ánh xạ từng bài toán đàm phán (5 , d ) với một kết quả duy nhất f ( S , d) € s
Trong cùng công trình này, Nash cũng giới thiệu một
lý thuyết tiên đề để đàm phán bằng cách đề xuất một tập bốn tiên đề rất trực quan như sau:
1) B ấ t biến đối với các cách biểu diễn lợi ích tương
đương*:
Bài toán đàm phán ( 5 ', d') có được từ (s , d) bởi các
biến đổi s ' = atịSi 4- /3, và dị — Ocịdị + /3, trong đó
a , > 0, chúng ta có f i ( S ', d ' ) = 0 ti f i ( S , d ) + Pi với
i = 1 , , 71.
2) Tối 1(11 Pareto:
Nếu ( S ,d ) là một bài toán đàm phán, s , s ' G s , và
S i < s'ị đ ối với bất k ỳ 2 = 1 , ,71 và S j < s 'j đối với m ột s ố j = 1 , , n , thì f ( S , d) Ỷ s -
3) S ự độc lập cùa các lựa chọn không thích hợp: Nếu (5 , d ) và ( S ', d) là những bài toán đàm phán sao
X = ( x i , , x n ) và nó được gọi là giải pháp
đàm phán Nash Giải pháp này cực đại hóa tích
IV M Ô HÌNH LÔ-GIC CỦA TÍCH HỢP TRI
THỨC BẰNG ĐÀM PHÁN
Chúng ta xem xét một tập các tác ứ Sì/ —
{< 2 i, mỗi tác tử (li có một cơ sở tri thức được phân lớp (X i, > p ì ) trong đó X , C Sổ và một
quan hệ )pịC X i X X i là một quan hệ thứ tự toàn
phần.M ột trò chơi đàm phán là một chuỗi các cơ sở tri thức được phân lớp cùng với những ràng buộc toàn vẹn được trình bày một cách tương đương về mặt lô-gic như một công thức lô-gic Tặp tất cá các
các trò chơi đàm phán từ tập các tác tử s ỉ trong
ngôn ngữ được ký hiệu là Giải pháp đàm
phán được định nghĩa như sau:
Định nghĩa 4 M ột giải pháp đàm phán là một hàm
Ị : —> 2y //{ 0 } ánh xạ m ỗi trò chơi đàm phán vào m ột tập con khác rỗng của tất cả thế giới có thể.
4Một số tài liệu gọi tiên đề này là B ất biển trong kliỏng gian
A ffin e
1 3 2
Trang 24ơ đầy chúng ta xem xét giải pháp đàm phán của
bất kỳ trò chơi đàm phán như một tập của các thế
giới có thể thay vì m ột thế giói có thể riêng lẻ.
A Tỉt cơ sở trí thức được p hân lớp thành các ưu
tiên
Trong phần này, chúng ta xem xét m ột số chiến
lược sắp xếp từ m ột cơ sở tri thức được phân lớp
đã cho (K , )f=) = ( S i , , s n ) như sau:
Khi đó, UI vector u ' khi và chỉ khi v*(w) = u‘((i/)
với mọi i = 1 , n hoặc tồn tại j < n sao cho
vJ (a)) < v *{ ị J ) và v*(w) = v i ( u l) với mọi i < j
C ho một quan hệ thứ tự ^ trên W , quan hệ thứ
tự bộ phận chặt chẽ tương ứng được định nghĩa
bởi UI -< u ' khi và c h i khi Lơ =^! u i' như ng không
u ' ^ u M ột sắp xếp là đặc trưng hơn so với
=ếx khi và chỉ khi UI -<x kéo theo UI -< Y u '
C húng ta có mối quan hệ giữa các chiến lược sắp
xếp nói trên như sau:
M ệ n h đề 1 Cho ( K , :>=) là m ột cơ sỏ trí thức được
được phân lóp và UI, co' G w Các quan h ệ sau là
đúng:
ỉ ) u < m a x s a t u ' k é o t h e o LU - < v e c to r u ' ,
2 ) i d ~ ^ r n a x s a t ^ k c o ĩ h c o U) i e x i m i n w •
B Đ àm phán trên các ưu tiên
Rõ ràng, cho m ột cơ sở tri thức được phân lớp và
m ột chiến lược sắp xếp, người ta có thể dễ dàng
phân hoạch w vào các lớp của thế giới có thể
( W i , , Wfc) D o đó, đối với mỗi thế giới có thể
chúng ta có thể xác định m ột lớp duy nhất có chứa
thế giói có th ể này C húng ta định nghĩa hàm chi số
như sau:
Đ ịnh nghĩa 5 Cho m ộ t quan hệ th ứ tự toàn phần
=$ trên w Hàm c h ỉ số l của trên w dược định
nghĩa là: \ W —¥ N*, trong đó vói Vw, u ' e W :
1) Is*(u ) = 1 nếu U) £ m a x ( y ỵ , =ị),
' 2) ỉ ^ ( uj ) = khỉ và chì khi LU =4 ũj ' và
u ' ^ U),
3) 14 ( uj ) < l^ (íd ') khỉ vả ch ỉ khi u>' 4 u ,
4) N ếu u ~< ui' thì tồn tại U)" sao cho =
— 1 và nếu LO1 -< UI thì tồn tại ui" sao
cao, tức là cho U),cơ' e 14 { uj ) < H ( w ') khi va
chỉ khi u ' ^ LO Đến đây, chúng ta định nghĩa bản
đồ giải pháp cho một bài toán đàm phán được xây dựng từ tập các ưu tiên {=$ 1 , , m à tập này
có được từ các cơ sở tri thức được phân lớp và các
chiến lược sắp xếp và một tập c của các mô hình của ràng buộc toàn vẹn ịi tức là c — Ị/i] như sau:
Đ ịnh n g h ĩa 6 Cho m ột bài toán đàm phán G =
{C, =$„) trong đó c c w và =^1 , ,
lẩn lượt là ưu tiên cùa các tác tử a i , , a n, m ột bản đồ giải pháp cùa G là một hàm: m G : w -» N n trong đó m G(uj) = ( ỉ ^ 1 ( t ư ) , ( w ) ) với e
w
D o các chỉ số cùa mỗi thế giới có thể có trong
một ưu tiên là duy nhất, chúng ta có mệnh đề sau:
M ên h đ ề 2 Đối với m ỗi bài toán đàm phán G các
bản đồ giải pháp m G là duy nhất.
I
Bây giờ, chúng ta trình bày một tập các tiên đề
để đặc tả các giải pháp đàm phán Thứ nhất, tiên đề
về hiệu quả Pareto được phát biểu như sau:
PE Nếu G = (C , =4i, , 4 n ) là một bài toán đàm phán với u E c , w ' Ẽ f vổ m G {bj) < m G{uj') thì
u ' ị f { Ọ )
Lưu ý rằng hiệu quả Pareto chúng ta đề cập ỏ đây
là hiệu quả Pareto mạnh Nó nói rằng một giải pháp
là hiệu quả Pareto nếu không có tác tử nào có th ể cải thiện được lợi ích của nó m à không làm lợi ích của các tác tử khác tồi tệ đi.
Tiếp theo, tiên đề về tính độc lập của các lựa chọn không liên quan được phát biểu như sau:
IIA Nêu G \ — (Ữ1 , =^ 1, , =4n ) và Go = (Co, = ^ 1
=ỷn ) là những bài toán đàm phán vói Co c c 1
và f ( G \ ) C C 2 thì ỉ ( G 1) = f ( á 2).
Tiên đề về tính đối xứng được phát biểu như sau:
SYM Nếu G = {C, =$1 , =*:„) và G* = (C , ^ * ( 1 )
, ,= $ * ( « ) ) là nhũng bài toán đàm phán vói 7T
là hoán vị bất kỳ trên thì m c (oj) —
1 3 3
Trang 25(mG'(w ))w.
Tiên đề về cận trên được phát biểu như sau:
UB Cho m ột bài toán đàm phán G = (C , =^1
, ,= ^ n ) và hai kết quả có th ể U \,U 2 € c Nếu
m a x m G {ui]) < m a x m G (ui 2 ) thì U 12 ậ f ( G )
chúng ta nói U i, UJ 2 E W là có cận trên bằng nhau
khi và chỉ khi m a x m G ( u i ) = m a x m G (u>2 ) Tiên
đề về cận trên đảm bảo rằng quá trình đàm phán sẽ
dừng ngay khi m ột thỏa thuận đạt được.
Tiên đề về tính đ a số được phát biểu như sau:
M A Cho một bài toán đàm phán G = (C , = $ 1
vò các kết quả U\ , Wo e c có cận trên
bằng nhau, nếu # { i : UJ\ w2 } < # { z : w 2 =^í
U i} thì u>2 ệ f ( G )
Chúng ta cũng nói 0 / 1 , u >2 e w là có đa số bằng
nhau khi và chỉ khi U i, U)2 có cận trên bằng nhau và
# { i : Wi =^i w2} = # { ỉ : Wi} Tiên đề về đa
số phát biểu rằng nếu hai thế giới có th ể u và L ũ ' có
cận trên bằng nhau thì cái nào được bình chọn bởi
số lượng người tham gia lớn hơn thì cái đó được ưu
tiên là giải pháp hơn.
Cuối cùng, tiên đề về cận dưới như sau:
LB Cho m ột bài toán đàm phán G = (C , = ^ 1
,=4n) và hai kết quả có th ể € c Nếu LŨI
và uio có cận trên bằng nhau và đa số bằng nhau
và m i n m c (oji) < m i n m G ( 0 J 2 ) thì U i ặ Ĩ ( G )
Tiên đề về cận dưới đăm bảo giải pháp là công bằng
theo nghĩa là sự khác biệt giữa tốt nhất và xấu nhất
Chúng ta cũng ký hiệu y là tập tất cả các bài toán
đàm phán Bây giờ, chúng ta sẽ chỉ ra tính thỏa được
cùa tập các tiên đề trên bằng cách chỉ ra m ột giải
ta cũng nhận thấy quan hệ giữa các giải pháp đàm
phán f G và các tiên đề I I A , P E , S Y M như sau:
M ệ n h đề 3 Các giải p h á p đàm phá n f G thỏa mãn
I I A , P E và S Y M
V CÁC TÍN H CHẤT LÔ-GIC Trong phần này chúng ta xem xét tính chất lô-gic của họ các toán tử tích hợp ưi thức bằng đàm phán trên cơ sở đối chiếu với tập các tiên đề đ ể đặc tả các toán tử tích hợp với ràng buộc toàn vẹn (IC) được đề xuất trong [11] Do giới hạn số trang của bài báo nên chi tiết của các tiên đề này không được trình bày ở đây, người đọc có thể tham khảo thêm các bàn luận
về các tiên đề này tại [11, 17, 10] Cho m ột trò chơi
đàm phán G = ( { ( K i , ^ i ) \ a i
=4** là ưu tiên cùa tác tử cii trên w theo chiến
lược sap xep X ị G ^vector ì
v à X = { X Ĩ , , x n ) Gọi A * (G ) là một toán tử
tích hợp tri thức sao cho [A ^ (G )Ị = f c {\ụ\,
=^*n ) Chúng ta gọi các toán tử tích hợp tri thức này là các toán tử tích hợp tri thức dựa trên đàm phán Chúng ta cần phải sữa đổi m ột số tiên
đề trong các tiên đề (IC0)-(IC8) để có thể áp dụng cho việc tích hợp các cơ sở tri thức được phân lớp
Cụ thể là (IC2) và (IC3) nên được sửa đổi như sau:
(IC 2 ’) Đ ặt AG — Aaie ^ h ộ e K i ệ, nếu A G A ụ là
nhất quán thì A X (G ) = AG A Ị 1
(IC 3 ’) Cho hai trò chơi đàm phán G — { { (K i, £=i
)|o » G ^ } , / i ) và ơ = ( { ( k i ^ ị a i e ^ y ị
(G , ơ € nếu ụ = ụ! và tồn tại m ột hoán vị
7T trên { 1 , , n } sao cho ( Kị , >Pi) = { K ^ ụ y ^ (i))
{^m axaoíi ^vector J ^ỉexim in} ^ ^ i ^ đục tVUĩĩg
hơn x ị với m ọi i = 1 , , n thì
/ G( H * n n) C f G( H 1,
^n")-VI KẾT LUẬN Trong bài báo này, chúng tôi đề xuất m ột cách tiếp cận mới cho việc tích hợp các cơ sở tri thức được được phân lớp Cách tiếp cận của chúng tôi dựa trên khái niệm về băn đồ giải pháp, được sử dụng như một phương tiện để biểu diễn cho các trạng thái tri thức của các tác tử cũng như thái độ đàm phán của chúng Phương pháp tiếp cận mới cho tích hợp tri
1 3 4
Trang 26thức bằng đàm phán được xây dựng như là m ột quá
trình hai giai đoạn Giai đoạn đầu cho phép mỗi tác
tử xây dựng ưu tiên riêng của mình trên tập thế giới
có thể từ cơ sở tri thức được phân lốp của nó và một
chiến lược sắp xếp và giai đoạn thứ hai cho phép các
tác tử đàm phán với nhau dựa trên các ưu tiên được
xây dựng để đạt được thỏa thuận như kết quả của
việc tích hợp M ột tập các tiên đề hợp lý cho việc
tích hợp bằng đàm phán được đề xuất và phân tích
Đ ể chứng minh cho tính thỏa được của tập các tiên
đề được đ ề xuất, m ột giải pháp đàm phán thoả mãn
các tiên đề này đã được xác định.C ác tính chất lo
gic của m ột họ các toán tử tích hợp tri thức bằng
đàm phán cũng đã được giỏi thiệu và thảo luận.
C Ả M TẠ Công trình này được tài trợ bởi Quỹ Phát triển
Khoa học và C ông nghệ của Đại học Q uốc gia Hà
Nội trong đề tài Q G -14.13 (2014-2015).
TÀI LIỆ U T H A M KHẢO
[1] R A Baeza-Yates and B A Ribeiro-Neto
M o d e m Inform ation Retrieval ACM Press
Addison-Wesley, 1999.
[2] S Benferhat, c C ayrol, D D ubois, J Lang,
and H Prade Inconsistency m anagem ent and
prioritized syntax-based entailm ent In R Ba-
jcsy, editor, IJCA1, pages 6 4 0 -6 4 7 M organ
K aufm ann, 1993.
[3] S Benferhat, D D ubois, s Kaci, and H Prade
Possibilistic m erging and distance-based fusion
o f prepositional information A nnals o f M athe
m atics and A rtificial Intelligence, 34:217-252,
M arch 2002.
[4] R Booth A negotiation-style fram ew ork for
non-prioritised revision In Proceedings o f
the 8th C onference on Theoretical A spects o f
Rationality an d Knowledge, TA R K ’01, pages
137-150 M organ K aufm ann Publishers Inc.,
2001.
[5] R Booth Social contraction and belief nego
tiation Inf Fusion, 7:19—34, M arch 2006.
[6] G Brewka A ran k based description language
for qualitative preferences In R L de M án-
taras and L Saitta, editors, EC AI, pages 3 0 3 -
307 IOS Press, 2004.
[7] S de Amo, w A C arnielli, and J M arcos A
logical fram ework for integrating inconsistent
information in m ultiple databases In FoIKS
2002, volume 2284, pages 67-84 Springer,
2002.
[8] A Haret, s Riimmele, and s Woltran Merg
ing in the horn fragm ent In Proceedings o f
the Twenty-Fourth International Joint Confer ence on Artificial Intelligence, IJC AI 2015, Buenos Aires, Argentina, July 25-31, 2015,
p a g e s -3041-3047, 2015.
[9] S Konieczny B elief base merging as a
game Journal o f A pplied Non-Classical Log
ics, 14(3):275-294, 2004.
[10] S Konieczny, J Lang, and p M arquis Da2
merging operators Artif Intell., 157:49-79,
A ugust 2004.
[11] S Konieczny and R p Pérez M erging infor
m ation under constraints: a logical framework
Journal o f Logic and Computation, 12(5):773-
808, 2002.
[12] I Levi Subjunctives, dispositions and chances
Synthese, 34:423-455, 1977.
[13] M S Lew, N Sebe, c Djeraba, and
R Jain Content-based m ultimedia information
retrieval: State o f the art and challenges ACM
Trans Multimedia Comput Commun Appl.,
2(1): 1-19, Feb 2006.
[14] J Lin Integration o f weighted knowledge
bases Artif Intell., 83:363-378, June 1996 [15] J Nash The bargaining problem Econnmet-
[18] P z Revesz On the sem antics o f arbitration
International Journal o f Algebra and Compu tation, 7:133-160, 1995.
[19] T H Tran, N T Nguyen, and Q B Vo Axiom atic characterization o f belief merging
by negotiation M ultim edia Tools and A pplica
tions, 65(1): 133-159, 2013.
[20] D Zhang A logic-based axiomatic model
o f bargaining Artif IntelL, 174:1307-1322,
November 2010.
1 3 5
Trang 27KỶ YẾU HỘI NGHỊ KHOA HỌC CÔNG NGHỆ • • • •
QUỐC GIA LẦN THỨ VIII
Trang 28M Ụ C LỤ C
1 A NEW DIRECTION OF FUZZY LOGICS
Bùi Công Cường
2 A NEW TECHNIQUE FOR LINKING PERSON TRAJECTORIES IN SURVEILLANCE
CAMERA NETWORK
Phạm Thị Thanh Thủy, Vũ Hải, Phạm Anh Tuấn
3 AN ALGORITHM FOR COMPUTING IMPORTANT RULES IN DYNAMIC CONSISTENT
DECISION SYSTEM INFORMATION
Nguyễn Hữu Đồng, Nguyễn Bá Tường, Nguyễn Đức Thọ
APPROACHES
Hà Văn Sang, Nguyễn Hà Nam
5 ẢNH HƯỞNG CỦA ĐIỀU KIỆN NHIỆT ĐỘ ĐỔI VỚI ĐỘ TIN CẬY CỦA MẠNG MANET
Lê Khánh Dương, Nguyễn Văn Tào, Lê Quang Minh, Nguyễn Anh Chuyên, Quách Xuân Trưởng
6 ẢNH HƯỞNG CỦA LỨA TUỔI VÀ GIÓI TÍNH ĐẾN TÂN SÓ c ơ BẢN VÀ NĂNG LƯỢNG
CỦA TIẾNG VIỆT NÓI
Nguyễn Hồng Quang, Trịnh Văn Loan, Hoàng Bích Ngọc, Phạm Thu Thuận, Trần Thị Loan
7 BIÊU DIỄN MÔ HÌNH TIME-ER BẢNG LOGIC MÔ TẢ
Hoàng Quang, Nguyễn Viết Chánh
8 CÁCH TIẾP CẬN KỸ THUẬT KÉT HỢP LUẬT KHÔNG GIAN VÀ THÒI GIAN ỨNG DỤNG
CHO BÀI TOÁN DỤ' BÁO TRÊN B ộ DỮ LIỆU LỚN
Nguyễn Văn Thiện, Phạm Văn Hài
9 CAEER: CHANNEL ASSIGNMENT AND ENERGY-EFFICIENT ROUTING PROTOCOL IN
COGNITIVE RADIO ADHOC NETWORKS
Nguyễn Duy Tân, Nguyễn Đình Việt
10 CẢI THIỆN TỐC Đ ộ TÌM KIÊM CỦA MÔ HÌNH ĐỔ THỊ BT-GRAPH D ựA TRÊN NỀN
TẢNG c ú DA
Lương Hoàng Hướng, Nguyễn Hải Thanh, Huỳnh Xuân Hiệp
11 CẢI TIÊN CHÁT LƯỢNG DỊCH T ự ĐỘNG BẰNG GIẢI PHÁP MỞ RỘNG KHO NGỦ LIỆU
Huỳnh Công Pháp, Đặng Đại Thọ, Nguyễn Văn Bình
12 CẢI TIÊN PHƯƠNG PHÁP RỪNG N G Ã U NHIÊN CỎ ĐIÊU HƯỚNG ĐÊ ÁP DỤNG CHO D Ữ
LIỆU SNP
Hoàng Thị Hà, Nguyễn Thanh Tùng
13 Cơ CHẾ HỢP TÁC HIỆU QUẢ CHO MẠNG DI ĐỘNG TÙY BIẾN HÕ TRỢ BỞI ĐÁM MÂY
Vũ Khánh Quý, Nguyễn Đình Hân
14 CÔNG THÚC SUY DẢN TRONG MÔ HÌNH DỮ LIỆU DẠNG KHỒI
Trịnh Đình Tháng, Trần Minh Tuyến
15 ĐÁNH GIÁ ẢNH HƯỞNG CỦA NHIỄU TRUYỀN DÃN ĐÊN HIỆU NÃNG MẠNG MANET
DỰA TRÊN GIAO THỨC ĐỊNH TUYẾN THEO YÊU CẢU
Lê Hữu Bình, Võ Thanh Tú
16 ĐÁNH GIÁ CHÁT LƯỢNG LUẬT QUYẾT ĐỊNH ĐA TRỊ DựA TRÊN TIẾP CẬN HÀM Ỷ
THỐNG KÊ
Phan Tấn Tài, Lê Đức Thắng, Huỳnh Xuân Hiệp
17 ĐÁNH GIÁ HIỆU NĂNG CỦA THUẬT TOÁN PHÂN CỤM MÒ BÁN GIÁM SÁT CHO BÀI
TOÁN PHÂN ĐOẠN ẢNH NHA KHOA
Trần Mạnh Tuấn, Phạm Huy Thông, Lê Hoàng Sơn, Nguyễn Đình Hóa
Trang 2918 ? ÁĨ JH G I4 ^ ÀỊ'JG LỤC G1A0 THỨC Đ ’NH t u y ế n c ủ a m ạ n g c ả m b iế n k h ô n g d â y
TRONG HỆ THỐNG GIAO THÔNG THÔNG MINH
Đinh Văn Dữnê> Nguyễn Tuấn Anh, Lê Ngọc Hưng, Ngô Mạnh Dũng, Đỗ Thế Chuẩn
19 đ á n h g iá v i ệ c p h â n c ụ m c á c đ ộ đ o l ợ i íc h d ự a t r ẽ n m a t r ậ n g iá t r ị
Huỳnh Xuân Hiệp, Phan Phương Lan, Huỳnh Hoàng Vân
20 í UẨ1Ỉ G1ẢI.PHÁP J IỀN x ừ LÝ ĐẺ TÓNG h ợ p D ữ l i ệ u n h i ê u C ả m b i ê n t r o n g
MẠNG CẢM BIẾN KHÔNG DÂY
Dương Viết Huy, Nguyễn Đình Việt
21 ĐÊ XUÁT MỞ RỘNG HAI LỚP THỜI GI AN VÀ NGŨ' NGHĨA VÀO MÔ HÌNH UDM
I Phạm Văn Đăng, Phan Công Vinh
22 DEVELOPING DIGITAL SIGNATURE SCHEMES BASED ON DISCRETE LOGARITHM
Lưu Hồng Dũng, Lê Đình Sơn, Hồ Nhật Quang, Nguyễn Đức Thụy
23 ĐIÊU KHIÊN ROBOT PIONEER P3-DX BẰNG TIẾNG NÓI VỚI ĐẶC TRƯNG MFCC VÀ
Mã Trường Thành, Đỗ Thanh Nghị, Phạm Nguyên Khang, Châu Ngân Khánh
24 ĐIÊU KHIÊN TRƯỢT CHO ĐỐI TƯỢNG CON LẮC NGƯỢC CÓ LIÊN KẾT ĐÀN HỔI s ử
DỤNG ĐẠI SỐ GIA TỬ
Vũ Như Lân, Nguyễn Tiến Duy
25 DISTANCE METRICS FOR FACE RECOGNITION BY 2D PCA
Nguyễn Hữu Tuân, Trịnh Thị Ngọc Hương
26 Đ ộ ĐO GOOGLE TRONG TÍCH HỢP DỮ LIỆU
Vũ Ngọc Trình, Hà Quang Thụy, Trần Trọng Hiếu
27 D ự BÁO CHUÔI THỜI GIAN MỜ D ựA TRÊN NGỮ NGHĨA
Nguyễn Duy Hiếu, Vũ Như Lân, Nguyễn Cát Hồ
28 D ự ĐOÁN S ự HÀI LÒNG VÊ CHẨT LƯỢNG DỊCH v ụ TƯỚI TIỀU TẠI ĐÔNG BẰNG
SÔNG HỔNG DÙNG CÁC MÔ HÌNH HỔI QUY
Nguyễn Thanh Tùng
Đoàn Hương Giang, Vũ Duy Anh, Vũ Hải, Trần Thị Thanh Hải
30 GIẢI PHÁP CUNG CẤP TÀI NGUYÊN TRUYỀN THÔNG PHÂN TÁN
Đặng Hùng Vĩ, Lê Văn Sơn
3 ! GIẢI TH U Ậ T R Ừ N G N G Ã U N H IÊ N VỚI LUẬT GÁN N H Â N c ụ c B ộ CHO PHÂN LỚP
Đô Thanh Nghị, Phạm Nguyên Khang, Nguyễn Hữu Hòa, Nguyễn Minh Trung
32 HỆ THỐNG GỢI Ý s ử DỤNG THUẬT TOÁN TỐI Ư u BẦY ĐÀN
Phạm Minh Chuẩn, Lê Thanh Hương, Trần Đình Khang, Nguyễn Văn Hậu
33 HỆ TƯ VẨN DỰA TRÊN TIẾP CẶN Đ ộ ĐO HÀM Ý THÔNG KÊ
Phan Quốc Nghĩa, Nguyễn Minh Kỳ, Nguyễn Tấn Hoàng, Huỳnh Xuân Hiệp
34
35
36
IMPLEMENTATION OF ONLINE LEARNING SYSTEM IN FACE-TO-FACE CLASSROOM
FOR ONLINE DISTANCE LEARNING
Đàm Quang Hồng Hải, Lê Kim Hùng
IMPROVE CROSS LANGUAGE INFORMATION RETRIEVAL WITH PSEUDO-RELEVANCE
FEEDBACK
Lâm Tùng Giang, Võ Trung Hùng, Huỳnh Công Pháp
IMPROVE SPEECH RECOGNITION PERFORMANCE IN REVERBERANT ENVIRONMENT
Trang 30KHAI PHÁ CÂY CON THƯỜNG XUYÊN TRÊN c ơ s ờ DŨ' LIỆU V/EBLOGS
Hoàng Minh Quang, Vũ Đức Thi, Kiều Thu Thủy, Đào Văn Tuyết, Phan Trung Kiên
KI ÉM CHỬNG CHƯƠNG TRÌNH D ựA TRÊN SINH ĐIỀU KIỆN KIÊM CHỬNG VÀ CHỨNG
MINH ĐỊNH LÝ
Nguyễn Ngọc Cương, Nguyễn Trường Thắng, Trần Mạnh Đông
LƯỢC ĐÒ THỦY VÂN VỚI THUỘC TÍNH VÃN BẢN CHỨA NHIỀU TỪ
Lưu Thị Bích Hương, Bùi Thé Hồng
MÔ HÌNH Lực CHO BIỂU DIỄN ĐÓ THỊ PHÂN NHÓM
Trương Quốc Định, Taoufiq Dkaki
MÔ HÌNH MỚI TRÊN CÂY NÉN CHO KHAI PHÁ TẬP Mực LỢI ÍCH CAO
Đậu Hải Phong, Đoàn Văn Ban, Đỗ Thị Mai Hường
MỘT CẢI TIÊN CỦA THUẬT TOÁN KMEANS CHO VIỆC PHÂN VÙNG ÂNH VIỄN THÁM
Nguyễn Tu Trung, Ngô Hoàng Huy, Vũ Văn Thỏa, Đặng Văn Đức
MỘT DẠNG LƯỢC ĐỎ CHỮ KÝ SỐ XÂY DựNG TRÊN BÀI TOÁN PHÂN TÍCH SỐ
Lưu Hồng Dũng, Hoàng Thị Mai, Nguyễn Hữu Mộng
MỘT Đ ộ ĐO MỚI ĐO ĐỘ PHỤ THUỘC THUỘC TÍNH
Nguyễn Minh Huy, Đỗ Sĩ Trường, Nguyễn Huy Đức, Nguyễn Thanh Tùng
MỘT KỸ THUẬT ĐỊNH VỊ CÁC ĐIÊM ĐIỀU KHIÊN TRÊN KHUÔN MẬT D ựA TRÊN MÔ
HÌNH CHẤT LIỆU
Lê Thị Kim Nga, Phạm Trần Thiện, Hà Mạnh Toàn, Lâm Thành Hiển
MỘT KỸ THUẬT ƯỚC LƯỢNG PHÁP TUYẾN BỀ MẶT ĐỐI TƯỢNG D ựA TRÊN TẬP ẢNH
THU ĐƯỢC TU CAMERA
Trịnh Hùng Xuân, Đỗ Năng Toàn, Đỗ Văn Thiện
MỘT KỸ THUẬT XÂY D ựN G HỆ BAO T ự ĐỘNG CHO ĐỔI TƯỢNG 3D
Nguyễn Đức Hoàng, Đỗ Năng Toàn, Nông Minh Ngọc
MỘT MÔ HÌNH CẢI TIÊN CÙNG CÁC GIẢI THUẬT ĐỀ XUẢT GIÚP L ựA CHỌN ĐỐI TÁC
TIÊM NĂNG CHO BÀI TOÁN THƯƠNG LƯỢNG T ự ĐỘNG TRONG ụ ậ ĐA TÁC TỬ
Bùi Đức Dương, Bùi Quang Khải, Đỗ Văn Tuấn
MỘT MÔ HÌNH ĐỔ THỊ CHO HỆ TƯ VÂN LAI
Đỗ Thị Liên, Nguyễn Xuân Anh, Nguyễn Duy Phương, Từ Minh Phương
MỘT PHƯƠNG PHÁP PHÁT HIỆN ĐỐI TƯỢNG ỨNG DỤNG TRONG HỆ THỐNG T ự ĐỘNG
BAM MỤC TIÊU
Nguyễn Văn Hùng, Nguyễn Văn Xuất, Lê Mạnh Cường
MỘT PHƯƠNG PHÁP THỦY VÂN THUẬN NGHỊCH MỚI D ựA TRÊN DỊCH CHUYẾN
HISTOGRAM
Nguyễn Kim Sao, Lê Quang Hòa, Phạm Văn Ất
MỘT PHƯƠNG PHÁP TRA cúu ẢNH DỰA VÀO ĐỘ TƯƠNG T ự NHẬN THỨC
Vũ Văn Hiệu, Nguyễn Hữu Quỳnh, Ngô Quốc Tạo
MỘT SỐ VẨN ĐÈ VỀ D ự BÁO DỮ LIỆU CHUỖI THỜI GIAN
Trần Đức Minh, Trần Duy Dương, Vũ Đức Thi
MỘT THUẬT TOÁN TỐI u u ĐÀN KIÊN DÓNG HÀNG TOÀN c ụ c MẠNG TƯƠNG TÁC
PROTEIN
Trần Ngọc Hà, Hoàng Xuân Huấn
MỘT TIÊP CẬN PHỤC D ự N G PHÂN s ọ KHUYẾT THIẾU
Phạm Bá Mấy, Đỗ Năng Toàn, Trịnh Hiền Anh, Lê Thị Kim Nga
MỘT TIÊP CẬN TRONG XÂY DỰNG HỆ THÓNG GỢI Ỷ THEO NGỮ CẢNH
Lư Chân Thiện, Nguyễn Thái Nghe
x iii
Trang 31NGHIÊN CỬU MÔ PHỎNG CÁC HỆ THỐNG HÀNG ĐỢI
Phan Đăng Khoa, Lê Quang Minh, Nguyễn Thế Tùng, Nghiêm Thị Hoa
NGHIÊN CỬU ỨNG DỤNG MỘT SỐ GIẢI PHÁP CÔNG NGHỆ TRONG THI ÉT KÉ THIÉT BỊ
ĐIÊU KHIÊN LƯU LƯỢNG MẠNG SDN
Nguyễn Ái Việt, Lưu Thi Huy, Lâm Thị Sen, Nguyễn Văn Nghiệp
NGHIÊN CỨU XÂY D ựN G CHƯƠNG TRÌNH HỆ THỐNG SINH T ự ĐỘNG MÃ NGUỔN
CÁC WEBSITE ASP.NET MVC
Nguyễn Trần Quốc Vinh, Nguyễn Văn Vương, Nguyễn Ngọc Cương
NHẬN DẠNG PAYLOAD Đ ộ c VỚI HƯỚNG TIẾP CẬN TẬP MÔ HÌNH MÁY HỌC
Nguyễn Hữu Hòa, Đỗ Thanh Nghị, Phạm Nguyên Khang
NHẬN DẠNG PHƯƠNG NGŨ' TIẾNG VIỆT s ử DỰNG MFCC VÀ TÂN SỐ c ơ BẢN
Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang
OVER-SPLITTED AND MERGE FOR GEOMETRY DOCUMENT LAYOUT ANALYSIS
Hà Đại Tôn, Nguyễn Đức Dũng, Lê Đức Hiếu
PHÂN CỤM MỜ VÓI TRỌNG SỐ MŨ NGỒN NGŨ'
Lê Thái Hưng, Trằn Đình Khang, Lê Văn Hưng
PHÂN LỚP PHI TUYÊN DỮ LIỆU LỚN VÓI GIẢI THUẬT SONG SONG CHO MÔ HÌNH
MÁY HỌC VÉC-TƠ HÕ TRỢ c ụ c B ộ
Đỗ Thanh Nghị, Phạm Nguyên Khang
PHÁT HIỆN PHÓ QUÀN THẺ RÀY NÂU DựA TRÊN TIẾP CẬN x ử LÝ ẢNH HÌNH THÁI
Trần Công Nghị, Trần Công Án, Huỳnh Xuân Hiệp
PHÁT TRIÊN ỨNG DỤNG WEB HƯỚNG MÔ HÌNH D ựA TRÊN KỸ THUẬT WEB UWE
Trần Đình Diễn, Huỳnh Quyết Thắng
PHƯƠNG PHÁP ĐIỀU KHIỂN THIẾT BỊ BẰNG TIẾNG NÓI
Đỗ Văn Minh, Phan Thiện Phước, Nguyễn Minh Sơn
PHƯƠNG PHÁP PHÂN LOẠI NHANH PHƯƠNG TIỆN GIAO THÔNG D ựA TRÊN ĐƯỜNG
VIỀN
Nguyễn Văn Căn, Nguyễn Tiên Hưng, Dương Phú Thuần, Nguyễn Đăng Tiến
PHƯƠNG PHÁP SINH TỤ' ĐỘNG CA KIÉM THỬ'TỪ MÔ HÌNH CA s ử DỤNG
Chu Thị Minh Huệ, Đặng Đức Hạnh, Nguyễn Ngọc Bình
PHƯƠNG PHÁP XÂY D ựN G HỆ THỐNG GỢI Ý SẢN PHÂM s ử DỤNG PHẢN HỒI TIÊM
ẨN
Lưu Nguyễn Anh Thư, Nguyễn Thái Nghe
RANDOM BORDER UNDERSAMPLING: THUẬT TOÁN MỚI GIẢM PHẰN TỬ NGẪU
NHIÊN TRÊN ĐƯỜNG BIÊN TRONG DỮ LIỆU MẤT CÂN BẰNG
Nguyễn Mai Phương, Trần Thị Ánh Tuyết, Đặng Xuân Thọ, Nguyễn Thị Hồng
RISKE, A NOVEL CPA-SECURE SECRET-KEY ENCRYPTION SCHEME BASED-ON
INVERTIBLE ELEMENTS IN BINARY QUOTIENT POLYNOMIAL RINGS
Cao Minh Thắng, Nguyễn Bình
SINH DỮ LIỆU THỬ CHO ỨNG DỰNG LUSTRE/SCADE s ử DỰNG ĐIỀU KIỆN KÍCH HOẠT
Trịnh Công Duy, Nguyễn Thanh Bình, Ioannis Parissis
SOME SELECTED PROBLEMS OF MODERN SOFT COMPUTING
Bùi Công Cường, Lê Hoàng Sơn
TABLE PLANE DETECTION USING GEOMETRICAL CONSTRAINTS ON DEPTH IMAGES
Lê Văn Hùng, Vũ Hải, Nguyễn Thị Thùy, Lẽ Thị Lan, Trần Thị Thanh Hải
TĂNG CHẤT LƯỢNG THUẬT TOÁN PHÂN CỤM NỬA GIÁM SÁT BẲNG PHƯƠNG PHÁP
HỌC TÍCH CỰC
Vũ Việt Vũ
x iv
Trang 32Nguyễn Mạnh Hùng, Phạm Huy Đông
TH UẶT TOÁN ĐÍCH HƯ ỚNG N G U Ỏ N TÌM LUÔNG c ự c ĐẠI TRÊN MẠNG HỎN HỢP MỞ
RỘNG
Trần Ngọc Việt, Trần Quốc Chiến, Lê Mạnh Thạnh
THUẬT TOÁN KHAI THÁC TẬP PHỐ BIÊN TỪ c ơ SỞ DŨ' LIỆU SỐ LƯỢNG CÓ s ự PHÂN
CÁP CÁC MỤC
Nguyễn Duy Hàm, Võ Đình Bảy, Nguyễn Thị Hồng Minh
THUẬT TOÁN LẶP LỊCH LUÒNG CÔNG VIỆC TRONG MÔI TRƯỜNG ĐIỆN TOÁN ĐÁM
MÂY
Phan Thanh Toàn, Nguyễn Thế Lộc, Nguyễn Doãn Cường
THUẬT TOÁN MỚI VỀ s o KHỚP ONTOLOGY
Huỳnh Nhứt Phát, Hoàng Hữu Hạnh, Phan Công Vinh
TIẾP CẬN MỚI VỀ ĐỐI SÁNH ONTOLOGY
Huỳnh Nhứt Phát, Hoàng Hữu Hạnh, Phan Công Vinh
TRUY VẦN HƯỚNG ĐÔI TƯỢNG D ựA TRÊN ĐỒ THỊ CHỮ KÝ
Trần Minh Bào, Trương Công Tuấn
TRUY VẨN HƯỚNG ĐÓI TƯỢNG D ự A TRÊN PHÂN CẤP TẬP TIN CHỦ' KÝ VÀ CÂY SD-
TREE
Trần Minh Bảo, Trương Công Tuấn
ỨNG DỤNG GIẢI THUẬT SONG SONG TRÊN HỆ THỐNG CPU-GPU CHO BÀI TOÁN TÌM
KIẾM MOTIF
Nguyễn Tấn An, Trần Văn Lăng, Nguyễn Gia Khoa
ỨNG DỤNG MÔ HÌNH ĐÔ THỊ TRONG TÓM TẤT ĐA VĂN BẢN TIẾNG VIỆT
Nguyễn Thị Ngọc Tú, Nguyễn Thị Thu Hà, Lê Thanh Hương, Hồ Ngọc Vinh, Đào Thanh Tĩnh,
Nguyễn Ngọc Cương
VỀ Đ ộ PHỨC TẠP TÍNH TOÁN CỦA MỘT BÀI TOÁN LIÊN QUAN ĐẾN TẬP RÚT GỌN
TRÊN BẢNG QUYẾT ĐỊNH
Nguyễn Ngọc Cương, Vũ Đức Thi
VIẾT LẠI TRUY VÁN ĐẺ s ử DỤNG KHUNG NHÌN T H ựC CÓ HÀM THỐNG KÊ TRONG
POSTGRESQL
Nguyễn Trần Quốc Vinh
VNMATHSEARCH - HỆ THỐNG TÌM KIÊM CÁC TÀI LIỆU TOÁN HỌC BẰNG TIẾNG VIỆT
Cao Xuân Tuấn, Võ Trung Hùng, Nguyễn Mạnh Hùng, Nguyễn Thị Thu Hà
Trang 33Kỳ yếu Hội nghị Quắc gia lằn thứ V!1I về Nghiê.t cứu cơ bàn và ứng dụng Cóng nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/201 s
DOI: 10.l5625Aiap.2015.000155
Độ ĐO GOOGLE TRONG TÍCH HỢP DỮ LIỆU
Vũ Ngọc Trình', Hà Quang Thụy2, Trần Trọng Hiếu2,3,
1 Viện Dầu khí Việt Nam
2 Trường Đại học Công nghệ, ĐHQG Hà Nội
3 Trường Đại học Khoa học Tự nhiên, ĐHQG Hà Nội
trinhvn@vpi.pvn.vn, thuyhq@vnu.edu.vn, hieutt@vnu.edu.vn
TÓ M T Ả T - L ỷ thuyết về đ ộ đ o đ a n g là m ột tron g nhũng vấn đ ề được bàn đến nhiều tro n g c á c công trình nghiên cứu trc lĩnh vụ c khoa học m ày tinh b ở i tính ứ n g d ụ n g sâu rộn g cùa nó từ thu h ồ i d ữ liệu, khai p h á d ữ liệu đến tích hợp tri thức, nhận dọ
và h ọ c máy Việc tìm kiếm cá c đ ộ đ o p h ả n ánh đư ợc s ự khác biệt m ột cách tinh tế của các khái niệm, thuật ngữ và thục thế tro
m ột n g ữ cảnh nào đỏ là hết sức cần th iết và c ó tinh ứng dụng thực tiễn cao Tronịị bài b á o này chúng tôi g iớ i thiệu về m ột trong c
đ ộ đ o như vậy, độ đ o Google B ài báo g iớ i thiệu và bàn luận đ ây đủ và chi tiẽt vê c ơ s ớ lý thuyết, c á c tính chất và m ột sô ứng dụ của đ ộ đ o Google.
Từ khóa - Đ ộ đ o G oogle, tích h ợ p d ữ liệu /tri thức.
I GIỚI THIỆU
Khi chữ viết được phát minh, con người có một công cụ tốt để mô tà các đối tượng bằng cách biểu diễn các đ' tượng bằng một chuỗi các ký tự Tuy nhiên do sự linh hoạt của ngôn ngữ nên cùng một đối tượng có thể được biểu dil bằng nhiều chuỗi ký tụ khác nhau và ngược lại một chuỗi ký tự cũng có thể biểu diễn nhiều đối đượng khác nhau D
đó việc xem xét các đối tượng từ các chuỗi ký tự cần được xem xét trong ngữ cảnh cụ thể Một bài toán (ngược) đưọ đặt ra là nếu chúng ta có hai chuỗi ký tự, tìm ngữ cành mà hai chuỗi ký tự này biểu diễn các đối tượng có quan hệ gầ nhau nhất Bài toán này cỏ nhiêu ứng dụng trong xử lý ngôn ngữ tự nhiên, phân cụm dữ liệu, học máy, Trong bi này chúng ta sẽ xem xét một ừong các cách để trả lời cho câu hòi này.
Hằng ngày có hơn một tỷ lượt người dùng Internet với hàng tỷ comment trên các mạng xã hội, tweeter và hàn; triệu các tài liệu được xuất bản trên đó Internet trở thành một kho dữ liệu khổng lồ về các đối tượng ở tất cả các ngôi ngữ và trong vô vàn các ngữ cảnh khác nhau Với quy mô cực lớn của Internet, con nguời không thể tìm kiếm các đố tượng một cách thủ công thông qua các đường link Thay vào đó chúng ta sử dụng các máy tìm kiếm để hỗ trợ cho việ< này, chúng ta chỉ cần gửi các truy vấn và máy tìm kiém sẽ ứả lại các kết quả tìm được Một trong các máy tìm kiến mạnh mẽ nhất trên Internet hiện nay là Google Google hỗ trợ cho cả người dùng qua giao diện người dùng và các nhỉ phát triển thông qua giao diện API Các thông tin kết quả mà Google ữả về khá chi tiet và đủ cơ sở để chúng ta có thí xây dựng một độ đo như sẽ trình bày trong các mục phía sau.
Trong các công trình nghiên cứu tnxớc đây, một trong các hướng nghiên cứu chính để so sánh các các từ hay cụm từ là sử dụng tần suất xuẫt hiện của chúng trong các văn bản để xây dựng các độ đo sự tương đồng [6], [7], [8] Một tiếp cận khác là sử dụng các độ đo giữa các đối tượng được biểu diễn bời các chuỗi ký tự như [1], [3], [4], [2], [9] Tuy nhiên các tiếp cận này đều có một điểm yếu chung là chúng phân tích các đối tượng một cách độc lập với các đặc điểm của chúng, tức là chúng phân tích đồng thời tất cả các đặc điểm của đối tượng và xác định sự tương đồng giữa các cặp đôi tượng thông qua sự giống nhau nhiêu nhất trong số các cặp đặc điểm mà hai đối tượng cùng chia sẻ Với cách tiếp cận này, các đối tượng được so sánh trực tiếp với nhau và do đó chi phù hợp để đạt được các tri thức về chính các đối tượng đó mà không quan tâm đến thông tin chung về sự tương đồng này Trong bài báo này chúng tôi giới thiệu một cách tiếp cận mới nhằm lấy được các thông tin ý nghĩa hom về sự tương đồng giữa các đối tượng thông qua ngừ nghĩa Google Cụ thể là chúng tôi sử dụng các tên cùa đối tượng và thông qua máy tìm kiếm Google để thu được thông tin về đối tượng từ vô số các người dùng web trong các ngữ cảnh khác nhau, qua đó thống kê tần suất xuất hiện cùa cac tên đối tượng khi chúng xuất hiện riêng rẽ và xuất hiện cùng nhau để có thể xác định một cách định lượng sự tươnụ đồng giữa các đối tượng này.
Trong bài báo cơ sờ lý thuyết được trình bày trong Mục II, trong đó các khái niệm chính được đề cập gôm c°
Độ phức tạp Kolmogorov, khoảng cách thông tin, độ đo sự tương đồng dựa trên hàm nén Tiếp theo một mô tà ngA" gọn về phân phối Google, khoảng cách Google và bàn luận về các tính chất của khoảng cách này được trình bày tron? Mục III Mục IV trình bày về một số ứng dụng tiêu biểu cùa độ đo Google bao gồm xây dựng các cây phân lớp va can các mục của các ontology Kết luận và các công việc tương lai được trình bày trong Mục V.
II C ơ SỞ LÝ THUYẾT
Cơ sờ lý thuyết của bài báo này xuất phát từ độ phức tạp Kolmogorov [5], Dựa trên độ phức tạp này chúng 13 s' lần lượt xây dựng các khoảng cách thông tin được chuẩn hóa, khoảng cách nén được chuẩn hóa và đi đến xây y khoảng cách Google Nội dung chi tiết của phần này như sau.
A Độ p h ứ c tạp Kolmogorov
Đe xem xét về độ phức tạp Kolmogorov, chúng ta trước tiên cần xem xét về khái niệm hệ thống lập ,n" ' cách không hình thức, một hệ thông lập trinh được hiểu là hệ thống mà qua đó chúng ta có thể xây dựng cac c
Trang 34ninh nhằm thực hiện các yêu cầu công việc khác nhau Mỗi hệ thống lập trình thuờng sử đụng một ngôn ngữ lập trình nào đó, chăng hạn shell, C/C++, LIPS, Ngược lại, khi nói về các chương trình, chúng ta cần tham chiếu đến hệ thống lập trình để sinh ra chúng.
Định nghĩa ỉ Độ phức tạp Kolmogorov cùa một xâu X là độ dài tính theo bít của chương trình ngắn nhất để sinh ra X
trên một hệ thống lập trinh được tham chiếu.
Gọi độ phức tạp Kolmogorov của một xâu X là K(x) Từ định nghĩa trên chúng ta có nhận xét rằng việc lựa chọn các hệ thống lập trình khác nhau sẽ làm thay đổi giá trị của K(x) bằng cách cộng thêm một hàng số cố định Một cách hiểu đơn giản của độ phức tạp Kolmogorov của xâu X là các độ dài nhỏ nhất cùa các xâu nén mà qua đó chúng ta có thể sinh ra X thông qua các chương trinh giài nén khác nhau Một ví dụ là khi nén cùng xâu X bằng thuật toán gzip chúng ta thu được xâu Xg và bằng thuật toán tốt hom là rar chúng ta thu được xr Dùng ký hiệu |jỊ để biểu diễn độ dài theo bít của xâu s, ta có K(x) < |xr|< |xg| < ịx|.
*• Độ phức tạp Kolmogorov cung cấp giá trị giới hạn dưới của các chương trinh sinh ra X Đó là độ dài của chương trinh “lý tường” sinh ra xâu X trong một hệ thống lập trình cụ thể Trờ lại ví dụ ữên, K(x) là giá ứị độ dài nhỏ nhất của xâu kết quả khi nén X bằng mọi thuật toán nén có thể.
B Khoảng cách thông tin được chuẩn hóa
Định nghĩa 2 Cho hai xâu X và y, ỗ là chương trình ngắn nhất sao cho ỗ(x) = y và ỗ(y) = X , độ dài của ỏ được gọi là
khoảng cách thông tin giữa X và
Khoảng cách thông tin giữa X và y và được ký hiệu là E(x, y) và được tính theo công thức là:
E(x, y) = K(x, y) + min{K(x), K(y)}
Trong đó K(x, y) là độ dài của chương trinh nhỏ nhất sinh ra cặp X, y và cách để phân tác chúng Rõ ràng khoảng cách E(x, y) là một metric, tức là nó có các tính chất sau:
Với mọi xâu x , y và z ta có:
1 E(x, y) > 0 vói xỊ t y;
2 E(x, x) = 0;
3 E (x,y) = E(y,x);
4 E(x, y) + E(y, z) > E(x, z).
Vì E là một metric, hiển nhiên nó là một độ đo tốt Tuy nhiên, chúng ta có nhận xét như sau: Do E không quan
tâm đến độ dài của các xâu đầu vào nên nếu có cùng một khoảng cách thông tin, hai xâu nhỏ sẽ rất khác nhau ữong khi hai xâu lớn lại có thể rất giống nhau Do đó, khoảng cách thông tin không phản ánh đầy đù được về sự tưcmg đồng giữa các xâu Do vậy việc chuẩn hóa khoảng cách thông tin là cần thiết.
Khoảng cách thông tin được chuẩn hóa có giá trị nằm trong khoảng 0 và 1 là hàm khoảng cách thông tin có xét đến độ dài của các xâu đầu vào Công thức để tính khoảng cách này như sau:
Nl D{ x, ỳ) - ' v t \
: -m a x (K (x ),K (y ))
Khoảng cách thông tin được chuẩn hóa có một số tính chất thú vị và nó cũng được chứng minh là một metric (chi tiết xem tại [4]).
c Khoảng cách nén được chuẩn hóa
Mặc dù NID là một là một độ đo tốt nhưng nó được dựng dựa trên độ phức tạp Kolmogorov Điều này dẫn tới
NịD không thể tính được trong thực tế vì độ phức tạp Kolmogorov là không thể tính được Để khắc phục chúng ta cân
xâp xỉ các độ phức tạp Kolmogorov trong công thức nói trên bằng cách sử dụng hàm nén Mội hàm nén nhận vào một xâu ký tự và trà lại một xâu kết quả nén Xâu kết quả này có độ dài (theo bit) nhỏ hom xâu đâu vào và là cận trên của cac cùa độ phức tạp Kolmogorov đối với xâu đầu vào Nói cách khác, độ phức tạp Kolmogorov của xâu đâu vào sẽ nhỏ
hơn hay bằng độ dài của xâu kết quả nén mà chúng ta đã chỉ ra được Gọi c là một hàm nén và C(x) trà kêt quả là xâu
được nén của X , khi đó khoảng cách nén được chuẩn hóa được định nghĩa như sau:
Mrn ( \ - c ( x y l - n»n(C(x),C(y))
c x , y ~ m a x (C (x),C (y'))
trong đó để thuận tiện chúng ta thay C(x, y) bằng C(xy) với xy có được bằng cách nối xâu X với xâu y Rõ ràng
^'CDc xấp xỉ NID khi c xấp xỉ K Bây giờ NCD là một lớp các hàm khoảng cách nén được tham sô hóa bời hàm nén c
Kcu có c và C ' là hai hàm nén và c là “tốt hơn” c \ tức là C(x) < C'(x) thì chúng ta cũng sẽ có NCDc(x, y) <
NCDc(x,y).
Trong mỗi văn bàn, tần suất xuất hiện của các từ hay cụm từ phản ánh mối quan hệ (về tần suất) giữa từ hay cụri1 tù này Trên môi trường Internet hiện nay có hàng ti ữang web (web page) chứa nội dung do hàng triệu người
Trang 35A Phân bố Xác suất Google
Gọi s là tập các từ khóa tim kiếm đơn, tập các cặp khóa tìm kiếm là {(x,y): x , y e s } Tập các trang vveb đi lập chi mục bởi Google là Q số lượng các trang web được Google lập chi mục là M = |fì| Một cách lý tưởng chúni giả sử rằng các trang web này có xác suất được tìm thấy là như nhau và bằng l/M Mỗi tập con của tập n được gọ một sự kiện Với môi từ khóa tìm kiêm đơn X, Google sẽ trà lại tập các trang chứa X trong một sự kiện đơn ex Xác s của sự kiện ex là: L (eJ = \ex\/M Với hai từ khóa tìm kiếm X và y, xác suất của cặp sự kiện ex và ey được tính
L(ex n ey)=\ex n ey \/M, là xác suất tìm trang web mà có c ầ x v k y xuất hiện.
chưa xét đến.
c M ã Google
Trong bài báo này chúng ta sử dụng xác suất của các sự kiện để định nghĩa hàm khối xác suất trên ti
{(x,y): x ,y e 5 } cùa các từ khóa tìm kiếm đơn cũng như các cặp từ khóa tìm kiếm Chúng ta có |S| các từ khóa tì
kiếm đơn và C||| các cặp từ khóa tim kiểm mà các từ khóa ừong mỗi cặp là khác nhau Chúng ta định nghĩa
N = 2j(x,y}cs \ ^ x Cyl
là tồng số các ứang web tìm được từ hai từ khóa X vày Với {x,y} £ s \ ì x ị y, mỗi ứang web z e ex n ey i
được đếm đến ba lần trong các tập ex , ex n ey và ey Mỗi trang web được Google đánh chỉ mục phải chứa ít nhất mi
từ khỏa tìm kiếm, do đỏ N > M Ngược lại mỗi trang web chứa trung bình a từ khóa nên chúng ta cũng có N<a.M Tiếp theo chúng ta định nghĩa hàm phân phối Google g như sau:
Như đã trinh bày ở các phần Ưên, với một xâu X, độ phức tạp C(x) sẽ trả lại độ dài của kết quả nén xâu X bời
hàm nén c Trong khi đỏ mã Google của độ dài G(x) biểu diễn độ dài từ tien mã ngắn nhất được mong đợi của sự kiện
ex Giá trị kỳ vọng này có được từ phân phối Google g Do vậy ta có thể dùng phân phối Google như bộ nén cho ngữ
nghĩa Google K ê t hợp với họ các hàm khoảng cách nén được chuẩn hóa ở trên ta được khoảng các Google được chuân hóa như sau:
E Các tính chất cùa độ đo Google
M ệnh đề 3 Khoảng giá trị của NCDc từ 0 đến +oo.
Nếu X = y hoặc X Ỷ y nhưng \ex \ = \ex n ey \ = \ey ị > 0 thi NCDc (x,y)= 0, tức là X v à y có cùng ngữ ngh1,1
Google.
Nếu \ex \ = 0 thì với mọi từ khóa tìm kiếm ta luôn có \ex n ey \ = 0, do đó NCDc ( \,y)=oo/oo TrongtrươI1-
hợp này ta gán cho nó giá trị là 1.
1 Tính đến tháng 6 /2 0 1 5 G o o g le đã lập chi m ục đư ợc 2 ,5 I 0 l0trang w eb.
Trang 36Mệnh đề 4 NCDq là một k h o ản g cách nh ư n g không là metric.
Thật vậy:
NCDc luôn không âm và NCDc (x ,x)= 0 với mọi khóa tìm kiếm x;
NCD q có tính chất đối xứng Điều này là hiền nhiên vì theo công thức (6) vai trò cùa X và>> là như nhau.
NCDc không thỏa mãn tính chất tách biệt, tửc là NCDc ( x ,y ) > 0 với mọi cặp X Ỷ y.
NCDc cũng không thỏa mãn bất phương trình tam giác, tức là NCDc ( x ,z ) < NCDc ( x ,y ) + NCDc ( y ,z ).
IV CÁC ỦNG DỤNG Trong mục này chúng ta xem xét một số ứng dụng cùa độ đo Google bao gồm xây dựng các cây phân lớp và canh các mục của các ontology.
A Cây phân lớp
Trong việc phân lớp các đổi tượng, một độ đo được sử dụng để xác định khoảng cách giữa các đối tượng Độ đo này sẽ xác định ma trận khoảng cách giữa các đối tượng trong tập các đối tượng cần phân lớp Sau đó một thuật toán phân lớp được áp dụng để phân lớp các đối tượng và xây dựng lên cây phân lớp Ở đây chúng ta xét một tập các tiểu thuyêt của hai tác giả Vũ Trọng Phụng và Nguyễn Minh Châu Tập các tiểu thuyết này gồm có:
Nguyễn Minh Châu: Cừa sông, Dấu chán người lính, Mảnh đất tình yêu, Lừa từ những ngôi nhà, Những
người đi từ trong rừng ra.
Vũ Trọng Phụng: Dứt tình, Giông tố, Lấy nhau vì tình, Người tù được tha, Quý phái, s ố đỏ, Trúng sổ độc đắc,
Ngicời tù được tha 0.9733 0.7740 0.4252 0.3669 0.2719 1.0000 0.8774 0 1.0000 0.4447 0.3785 0.4214 0 J412
Những người đi từ trong rùng ra 0.2484 0.0767 0.7434 0.3769 1.0000 0.2302 0.2172 1.0000 0 0.7605 0.4257 0.6896 0.6126
Quỷ phái 0.3788 0.2467 0.2626 0.2938 0.1856 1.1493 0.3016 0.4447 0.7605 0 0.4073 0.2157 0.4082
Sỗ đỏ 0.4919 0.2673 0.3962 0.2826 0.4477 0.5788 0.5057 0.3785 0.4257 0.4073 0 0.4053 0.3136Trúng sẻ độc đắc 0.3695 0.3822 0.4840 0.1859 0.2590 0.9818 0,5778 0.4214 0.6896 0.2157 0.4053 0 0.2261
đẽ 0.3087 0.2911 0.4141 0.2730 0.1966 0.8816 0.5009 0.3412 0.6126 0.4082 0.3136 0-2261 0
Từ ma trận khoảng cách giữa các đối tượng thu được bằng độ đo Google (Bảng 1) Sử dụng phần mềm vẽ cây phân lớp 'ậi địa chi: http://www.compleam.org, chủng ta thu được cây phân lớp của các tiểu thuyết như Hình 1.
Trang 37Hỉnh 1 Cây phân lớp của các tiểu thuyết
B Canh các m ục của ontology
Trong phần này chúng ta xem xét một ứng dụng khác cùa độ đo Google đó là dùng để canh các mục trong các ontology Trong thực tế cùng một đối tuợng trong thế giới thực có thể được mô hình hóa và biểu diễn bằng các ontology khác nhau ừong các hệ thống khác nhau Để các hệ thống này cỏ thể trao đồi dữ liệu và làm việc được VỚI nhau thì các ontology này cần phải được thống nhất lại về nội dung của các mục mà chúng biểu diễn Xét một ví dụ Hình 2 biểu diễn một bộ truyền áp suất được sử dụng trong khai thác dầu khí với các bộ phận chính cùa thiết bị đirợc
mô tà Hình 3 là bảng các thông s ố kỹ thuật của cùng thiết bị này được cung cấp bởi hai nhà cung cấp là N o r s o c k va
ShareCat Chúng ta dễ dàng tìm thấy những điểm khác nhau về thông tin của thiết bị ữên hai bảng này Ví dụ, thông tin
về Trọng lượng ( Weight) của thiết bị nằm trong mục Thông tin chung (General) trong bảng thứ nhất nhựng lại năm trong mục Kích cỡ và Trọng lượng (Dimenssions and Weight) ở bàng thứ hai, hay thông tin vê Kêt nôi (Process
Connection) trong bảng thứ hai (phần bôi đậm) lại là các mục con của mục Thành phần/Cảm biến ( E l e m e n Ư S e n s o r ) trong bảng thứ nhất.
Quá trình canh các mục của các ontology đòi hỏi nhiều thời gian và công sức của các chuyên gia, nhất lả khi S'-’ mục cùa các ontology lên đến con số hàng nghìn, thậm chí hàng vạn Một chương trình hỗ trợ trong việc canh mục ontology bằng cách đua ra các gợi ý cho các chuyên gia là rất cần thiết Ở đây chúng ta xét một chương trình như ' ?>
sừ dụng độ đo Google.
Do hạn chế về số trang của bài báo và mang tính minh họa, chúng ta chi xem xét sự canh mục các ontology VỚI thonè-
từi phần tiêu đề của hai bàng thông số kỹ thuật này Các thông tin của Norsock gồm có: Tag number, Scale Range,
description, SeưAlarm Point, P&ID, Area, Line / equipment no., p o Number, của ShareCat gồm có: D o c u m e n t Nil"1,1'' Revision, Plant/Platform, Process Datash No , Tag number, SerialNo, Range From, SetPoint Low, Range To, Set °1^ ' Height, Range Unit, p & ID, Area, Line/Equipment no., Service description Ma trận khoảng cách Google giữa các mục
được tính như trong Bảng 2 Qua đó một gợi ý về canh các mục được trình bày như Hình 4.
Trang 382 2 9
S p a n a n d z » r c
A d ju s tm e n ts ( S ta n d a rd )
f t w t f V l t o n i
T feg n u m te r
s « w * t o
S rtP o in t Low 8«tPukH HigN
•
»10 harG M/A TU-M023-ME-01
U n iq u a n o TCK-0M 1I 117 Itan u lH d u ro r EM ERSON P R O C E S S MANAGEMENT
v , » W U 1C 0
M a « ji P a n n o W 51C G -5 A -i-J-A -1-K-B4-l1-L4-li*-04
C l s u T n m n M t r , f*r — I I W E la ctrtc E*ptofccn p ro itc b o n
M.1-UVDC
C u l w flMf* bmlM u
fcuM tatinaM
M l 31« MSTCMIK
U M i »u*l
««.
Jin
j i f A o s n w n c Ck>9Ul>9rv«
M b n q r UMarVvc
Trang 39Service description
Sit/Alarm
Line / equipment no.
s s
0 , 0 0 2 6 * ' *
VI LỜI CẢM ƠN
Công trình được tài trợ bời Quỹ phát triển Khoa học Cóng nghệ (nlióm B) của Đại học Quốc gia Hà Nội thóni- qua đề tài có mã số QG.14.13 (2014-2015).
VII TÀI LIỆU T H A M K H Ả O
[1] c H Bennett , p Gacs , Ming Li , p M.B Vitanyi, w H Zurek, Information distance, IEEE T ransactions 0 ‘
Information Theory, V.44 n.4, p 1407-1423, July 1998.
[2] Rudi Cilibrasi , Paul Vitányi , Ronald De Wolf, Algorithmic Clustering o f Music Based on String C o m p r e s s '11'1
Computer Music Journal, V.28 n.4, p.49-67.
Trang 40V ũ N gọc T rin h , llà Q u a n g T h ụ y , T rẩ n T rọ n g H iếu
[3] ÌVÌ Li, J.H B adger, X Chen, s K w ong, p K earney, and r i Z hang, “ A n In fo rm a tio n -B ased S equence D istance and
Its Application to Whole Mitochondrial Genome Phylogeny,” Bioinformatics, vol 17, no 2, pp 149-154, 2001 [4] Ming L i , Xin Chen , Xin Li , Bin Ma , p M.B Vitanyi, The similarity metric, IEEE Transactions on Information Theory, V.50 n.12, p.3250-3264, December 2004.
[5] Ming L i , Paul Vitányi, An introduction to Kolmogorov complexity and its applications (2nd ed.), Springer-Verlag New York, Inc., Secaucus, NJ, 1997.
[6] Egidio Terra , c L A Clarke, Frequency estimates for statistical word similarity measures, Proceedings o f the
2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, p 165-172, May 27-June 01, 2003, Edmonton, Canada.
[7] M.E Lesk, “Word-Word Associations in Document Retrieval Systems,” Am Documentation, vol 20, no 1, pp.
• 27-38, 1969.
[8] Pang-Ning Tan, Vipin Kumar , Jaideep Srivastava, Selecting the right interestingness measure for association patterns, Proceedings o f the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, July 23-26, 2002, Edmonton, Alberta, Canada.
[9] R Cilibrasi , p M.B Vitanyi, Clustering by compression, IEEE Transactions on Information Theory, V.51 n.4,
p 1523-1545, April 2005.
GOOGLE SIMILARITY DISTANCE FOR DATA INTEGRATION
Ngoe Trinh Vu, Quang Thuy Ha, Trong Hieu Tran
ABSTRsiCT - Measurement theory has em erged as one o f the important issues and discussed in a lot o f research work in Computer Science It is applied in a w ide range fro m D ata Retrieval, Data Mining to K nowledge Integration, Recognition and Machine Learning Obtaining good measures that reflect in a subtle way the difference o f the concepts, term inology and entities in a particular context is urgently needed and has high practical applicability In this p a p er w e introduce such a measure, G oogle
similarity distance To th is end, d e ta ile d th e o re tic a l b a sis is discu ssed , p r o p e r tie s a re p o in te d o u t a n d so m e app lica tio n s a re
presented.