Các công cụ và công nghệ này được xây dựng và phát triển nhằm mục đích hỗ trợ cho hệ chuyên gia thu thập tri thức để giúp cho quá trình tạo quyết định và tổ chức tri thức cho hệ chuyên g
Trang 1Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/
đại học thái nguyên
Tr-ờng đại học CÔNG NGHệ THÔNG TIN Và TRUYềN THÔNG
ĐẶNG THỊ THẢO
NGHIấN CỨU NHỮNG VẤN ĐỀ TRI THỨC
TRONG HỆ CƠ SỞ TRI THỨC
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
thái nguyên - năm 2014
Trang 2Số húa bởi Trung tõm Học liệu http://www.lrc-tnu.edu.vn/
đại học thái nguyên
Tr-ờng đại học CÔNG NGHệ THÔNG TIN Và TRUYềN THÔNG
ĐẶNG THỊ THẢO
[
NGHIấN CỨU NHỮNG VẤN ĐỀ TRI THỨC
TRONG HỆ CƠ SỞ TRI THỨC
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Chuyờn ngành: KHOA HỌC MÁY TÍNH
Mó số: 60.48.01
Người hướng dẫn khoa học: PGS.TS Lấ BÁ DŨNG
Thỏi Nguyờn, 2014
Trang 3LỜI CAM ĐOAN
Tên tôi là: Đặng Thị Thảo
Tôi xin cam đoan luận văn “Nghiên cứu những vấn đề tri thức trong hệ cơ
sở tri thức” này là công trình nghiên cứu của riêng tôi Các số liệu sử dụng trong
luận văn là trung thực, các kết quả nghiên cứu được trình bày trong luận văn chưa từng được công bố tại bất kỳ công trình nào khác
Thái Nguyên, ngày 28 tháng 8 năm 2014
Học viên
Đặng Thị Thảo
Trang 4LỜI CẢM ƠN
Tôi xin bày tỏ lời cảm ơn chân thành tới tập thể các thầy cô giáo Viện công nghệ thông tin – Viện Hàn lâm Khoa học và Công nghệ Việt Nam, các thầy cô giáo Trường Đại học Công nghệ thông tin và truyền thông - Đại học Thái Nguyên đã tận tình giảng dạy cũng như tạo mọi điều kiện để tôi học tập và nghiên cứu trong 2 năm học cao học
Tôi xin chân thành cảm ơn sâu sắc tới thầy giáo PGS.TS Lê Bá Dũng đã cho tôi nhiều sự chỉ bảo quý báu, đã tận tình hướng dẫn và tạo điều kiện cho tôi hoàn thành tốt luận văn tốt nghiệp này
Quá trình thực hiện đề tài không tránh khỏi các thiếu sót, rất mong tiếp tục nhận được sự đóng góp ý kiến của các thầy, các cô giáo, các bạn đồng nghiệp đối với đề tài nghiên cứu của tôi để đề tài được hoàn thiện hơn
Tôi xin trân trọng cảm ơn!
Thái Nguyên, ngày 28 tháng 8 năm 2014
Trang 5MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC BẢNG BIỂU v
DANH MỤC CÁC HÌNH VẼ vi
DANH MỤC CÁC TỪ VIẾT TẮT vii
MỞ ĐẦU 1
CHƯƠNG 1: TỔNG QUAN VỀ TRI THỨC 3
1.1 Khái niệm về tri thức 3
1.1.1 Thông tin, dữ liệu và tri thức 3
1.1.2 Phân loại tri thức 4
1.2 Công nghệ xử lý của tri thức 5
1.2.1 Thu thập tri thức (Kiến thức kế thừa từ các nguồn khác nhau) 7
1.2.2 Biểu diễn tri thức 8
1.3 Một số phương pháp biểu diễn tri thức 9
1.3.1 Biểu diễn tri thức sử dụng luật dẫn xuất (luật sinh) 9
1.3.2 Biểu diễn tri thức nhờ mệnh đề logic 13
1.3.3 Biểu diễn tri thức nhờ mạng ngữ nghĩa 14
1.3.4 Biểu diễn tri thức nhờ các khung 16
1.4 Suy diễn và suy luận 17
1.4.1 Phương pháp suy diễn tiến 17
1.4.2 Phương pháp suy diễn lùi 18
1.5 Kết luận chương 19
CHƯƠNG 2: THẨM ĐỊNH ĐÁNH GIÁ HỆ CƠ SỞ TRI THỨC 20
2.1 Hệ cơ sở tri thức (Knowledge Base System - KBS) 20
2.1.1 Hệ cơ sở tri thức là gì? 20
2.1.2 Thành phần cơ bản hệ cơ sở tri thức 21
2.2 Các vấn đề tri thức 23
2.2.1 Sự mâu thuẫn trong cơ sở tri thức 24
2.2.2 Tri thức dư thừa 24
2.2.3 Tri thức gộp 24
2.2.4 Tri thức mâu thuẫn 24
Trang 62.3 Tổng quan về tri thức mờ 24
2.4 Đánh giá xác minh một cơ sở tri thức 36
2.4.1 Luật dư thừa 38
2.4.2 Luật xung đột 39
2.4.3 Luật gộp 39
2.4.4 Luật tạo ra hình vòng 39
2.4.5 Phần điều kiện không cần thiết 40
2.4.6 Luật cụt 40
2.4.7 Thiếu luật 40
2.4.8 Luật không đạt 41
2.5 Thẩm định, đánh giá hệ cơ sở tri thức cho luật mờ 41
2.5.1 Khái nhiệm cơ bản 41
2.5.2 Tính chất đầy đủ (Completeness) của hệ cơ sở tri thức mờ 42
2.5.3 Tính nhất quán của hệ cơ sở tri thức mờ 43
2.5.4 Tính chính xác của hệ cơ sở tri thức mờ 45
2.6 Kết luận chương 45
CHƯƠNG 3: THẨM ĐỊNH ĐÁNH GIÁ HỆ CƠ SỞ TRI THỨC CHO HỆ LUẬT MỜ CỦA BÀI TOÁN ĐIỀU KHIỂN 46
3.1 Giới thiệu bài toán 46
3.2 Thiết kế bộ điều khiển mờ 49
3.2.1 Hệ luật điều khiển 49
3.2.2 Tập mờ của các biến vào – ra 51
3.2.3 Cấu trúc hệ thống 52
3.3 Tối giản hệ luật 53
3.3.1 Đặt vấn đề 53
3.3.2 Đánh giá và rút gọn hệ luật 53
3.4 Kết quả mô phỏng 57
3.5 Đánh giá 59
3.6 Kết luận chương 60
KẾT LUẬN 61
1 Kết quả thu được 61
2 Hướng nghiên cứu tiếp theo 61
TÀI LIỆU THAM KHẢO 62
Trang 7DANH MỤC CÁC BẢNG BIỂU
Bảng 1.1 Bảng minh họa vị từ 13
Bảng 3.1 Bảng cơ sở luật 50
Bảng 3.2 Hệ luật mới 57
Bảng 3.3 Giá trị đặt khi thực hiện mô phỏng hệ thống 58
Trang 8DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Định nghĩa hẹp quy trình của công nghệ xử lý tri thức 6
Hình 1.2 định nghĩa rộng của quá trình công nghệ xử lý tri thức 7
Hình 1.3 Nền tảng của công nghệ hệ chuyên gia dựa trên luật hiện đại 17
Hình 2.1 Các thành phần của hệ cơ sở tri thức 21
Hình 2.2 Sự mâu thuẫn cú pháp trong luật cơ sở 38
Hình 2.3 Hiệu đầu vào của hệ tri thức mờ 42
Hình 3.1 Tổng quan chung của quá tình xử lý nước thải dùng bùn hoạt tính [12] 47
Hình 3.2 Sơ đồ khối bộ điều khiển DO 48
Hình 3.3 Hàm thuộc của các tập mờ đối với biến e, ce 51
Hình 3.4 Hàm thuộc của các tập mờ đối với biến u 51
Hình 3.5 Mặt quan hệ vào ra tương ứng với hệ luật 52
Hình 3.6 Mặt quan hệ vào ra tương ứng với hệ luật mới 57
Hình 3.7 Mô hình mô phỏng hệ thống điều khiển DO 58
Hình 3.8 Đáp ứng của hệ thống với các bộ điều khiển 59
Hình 3.9 Đáp ứng hệ thống với giá trị tham chiếu = 2 59
Hình 3.10 Đáp ứng hệ thống với giá trị tham chiếu = 1 59
Trang 9Mô hình Takagi - Sugeno
Tính tương tự của phần điều kiện
Tính tương tự của phần kết luận
Trang 10Trong thời đại ngày nay, chúng ta đang sống trong một thế giới ngập tràn tri thức Nhiều ngành vẫn có các máy móc trợ giúp công việc và càng ngày máy móc càng khẳng định vị trí và vai trò của mình trong việc tăng năng xuất lao động Những điều này đã được khẳng định trong lịch sử phát triển của loài người Khi con người càng có trí tuệ thì càng đòi hỏi các thiết bị phải tự động hơn và thông minh hơn Do đó máy móc phải có khả năng xử lý tình huống và thu thập tri thức tự động giống như con người Vì thế các công cụ và công nghệ thu thập tri thức tự động đang được quan tâm xây dựng và phát triển Các công cụ và công nghệ này được xây dựng và phát triển nhằm mục đích hỗ trợ cho hệ chuyên gia thu thập tri thức để giúp cho quá trình tạo quyết định và tổ chức tri thức cho hệ chuyên gia.Tuy rằng có nhiều quan điểm khác nhau về vai trò của con người và máy móc nhưng chúng ta không thể phủ nhận vai trò của máy móc đối với cuộc sống của con người hiện đại hôm nay, đặc biệt là các máy thông minh hay các hệ chuyên gia Vì vậy theo thời gian nhu cầu của con người về các hệ thống này càng ngày càng cấp thiết Do đó, các công cụ và công nghệ thu thập tri thức cho các hệ chuyên gia hoạt động và tạo quyết định là một vấn đề then chốt để xây dựng một hệ chuyên gia hoàn chỉnh và có
thể hoạt động như một chuyên gia
Một yêu cầu cần thiết khi xây dựng các hệ thống thông minh sử dụng công
cụ của tính toán mềm [1, 2], hay các công cụ của trí tuệ nhân tạo, hệ chuyên gia
….cần phải thu thập tri thức Các tri thức thu thập được thực hiện từ các nguồn khác nhau như: tri thức từ các chuyên gia, từ tài liệu sách vở [4, 5], từ thực nghiệm, … Hoặc có thể thu thập tri thức từ các phương pháp tự động như sử dụng công cụ của tính toán mềm [2, 6, 7, 8]
Thực tế khi xây dựng các hệ thống thông minh thì các tri thức thu thập được chưa thể chính xác, hoàn hảo và đầy đủ Do vậy các nhà thiết kế các hệ xử lý thông minh cần phải thực hiện các phương pháp tiếp theo để có thể có được một hệ thống thông minh đáp ứng được yêu cầu đề ra
Việc ra các quyết định tham khảo các tiêu chí thoả mãn các chuẩn đề ra, theo các tri thức của các chuyên gia là một điều cần thiết, vì vậy được sự gợi ý
của thầy hướng dẫn em chọn đề tài “Nghiên cứu những vấn đề tri thức trong
hệ cơ sở tri thức”.
Trang 11“Nghiên cứu những vấn đề tri thức trong hệ cơ sở tri thức”Giúp cho các hệ tri thức hoạt động đảm bảo hơn có ý nghĩa khoa học và thực tế hơn
Những nội dung nghiên cứu chính của luận văn bao gồm:
Giới thiệu
Chương 1: Tổng quan về tri thức
Chương 2: Thẩm định đánh giá hệ cơ sở tri thức
Chương 3: Thẩm định đánh giá hệ cơ sở tri thức cho hệ luât mờ của bài toán điều khiển
Kết luận và hướng phát triển
Do thời gian và trình độ còn hạn chế nên luận văn khó tránh khỏi những thiếu sót, kính mong nhận được sự đóng góp, chỉ bảo của các thầy giáo, cô giáo và các bạn đồng nghiệp
Học viên
Đặng Thị Thảo
Trang 12CHƯƠNG 1: TỔNG QUAN VỀ TRI THỨC
1.1 Khái niệm về tri thức
1.1.1 Thông tin, dữ liệu và tri thức
Tri thức là một khái niệm rất trừu tượng Do đó, chúng ta sẽ không cố gắng đưa ra một định nghĩa hình thức chính xác ở đây Thay vào đó, chúng ta hãy cùng nhau cảm nhận khái niệm”tri thức”bằng cách so sánh nó với hai khái niệm khác là thông tin và dữ liệu [5, 6]
Nhà bác học nổi tiếng Karan Sing đã từng nói rằng “Chúng ta đang ngập chìm trong biển thông tin nhưng lại đang khát tri thức” Câu nói này làm nổi bật sự khác biệt về lượng lẫn về chất giữa hai khái niệm thông tin và tri thức
Trong ngữ cảnh của ngành khoa học máy tính, người ta quan niệm rằng dữ liệu là các con số, chữ cái, hình ảnh, âm thanh mà máy tính có thể tiếp nhận và xử
lý Bản thân dữ liệu thường không có ý nghĩa đối với con người Còn thông tin là tất
cả những gì mà con người có thể cảm nhận được một cách trực tiếp thông qua các giác quan của mình (khứu giác, vị giác, thính giác, xúc giác, thị giác và giác quan thứ 6) hoặc gián tiếp thông qua các phương tiện kỹ thuật như tivi, radio, cassette, … Thông tin đối với con người luôn có một ý nghĩa nhất định nào đó Với phương tiện máy tính (mà cụ thể là các thiết bị đầu ra), con người sẽ tiếp thu được một phần dữ liệu có ý nghĩa đối với mình Nếu so về lượng, dữ liệu thường nhiều hơn thông tin Cũng có thể quan niệm thông tin là quan hệ giữa các dữ liệu Các dữ liệu được sắp xếp theo một thứ tự hoặc được tập hợp lại theo một quan hệ nào đó sẽ chứa đựng thông tin Nếu những quan hệ này được chỉ ra một cách rõ ràng thì đó là các tri thức Chẳng hạn:
Công thức nêu trên chính là tri thức
- Trong cuộc sống hàng ngày:
Hằng ngày, người nông dân vẫn quan sát thấy các hiện tượng nắng, mưa, râm và chuồn chuồn bay Rất nhiều lần quan sát, họ đã có nhận xét như sau:
Trang 13“Chuồn chuồn bay thấp thì mưa, bay cao thì nắng, bay vừa thì râm”
Lời nhận xét trên là tri thức!
Có quan điểm trên cho rằng chỉ những mối liên hệ tường minh (có thể chứng minh được) giữa các dữ liệu mới được xem là tri thức Còn những mối quan
hệ không tường minh thì không được công nhận Ở đây, ta cũng có thể quan niệm rằng, mọi mối liên hệ giữa các dữ liệu đều có thể được xem là tri thức, bởi vì, những mối liên hệ này thực sự tồn tại Điểm khác biệt là chúng ta chưa phát hiện ra
nó mà thôi Rõ ràng rằng”dù sao thì trái đất cũng vẫn xoay quanh mặt trời”dù tri thức này có được Galilê phát hiện ra hay không!
Như vậy, so với dữ liệu thì tri thức có số lượng ít hơn rất nhiều Thuật ngữ ít
ở đây không chỉ đơn giản là một dấu nhỏ hơn bình thường mà là sự kết tinh hoặc cô đọng lại Bạn hãy hình dung dữ liệu như là những điểm trên mặt phẳng còn tri thức chính là phương trình của đường cong nối tất cả những điểm này lại Chỉ cần một phương trình đường cong ta có thể biểu diễn được vô số điểm!
Chúng ta cần có những kinh nghiệm, nhận xét từ hàng đống số liệu thống kê, nếu không, chúng ta sẽ ngập chìm trong biển thông tin như nhà bác học Karan Sing
đã cảnh báo
1.1.2 Phân loại tri thức
Dựa vào cách thức con người giải quyết vấn đề, các nhà nghiên cứu đã xây dựng các kỹ thuật để biểu diễn các dạng tri thức khác nhau trên máy tính Mặc dù vậy, không một kỹ thuật riêng lẻ nào có thể giải thích đầy đủ cơ chế tổ chức tri thức trong các chương trình máy tính Để giải quyết vấn đề, chúng ta chỉ chọn dạng biễu diễn nào thích hợp nhất
Người ta thường phân loại tri thức ra làm các dạng như sau:
Tri thức sự kiện: là các khẳng định về một sự kiện, khái niệm nào đó (trong một phạm vi xác định) Các định luật vật lý, toán học, … thường được xếp vào loại này (Chẳng hạn: mặt trời mọc ở đằng Đông, tam giác đều có 3 góc 60 0, …)
Tri thức thủ tục: thường dùng để diễn tả phương pháp, các bước cần tiến hành, trình từ hay ngắn gọn là cách giải quyết một vấn đề Thuật toán, thuật giải là một dạng của tri thức thủ tục
Tri thức mô tả: cho biết một đối tượng, sự kiện, vấn đề, khái niệm, … được thấy, cảm nhận, cấu tạo như thế nào (một cái bàn thường có 4 chân, con người có 2 tay, 2 mắt, …)
Trang 14Tri thức Heuristic: là một dạng tri thức cảm tính Các tri thức thuộc loại này thường có dạng ước lượng, phỏng đoán, và thường được hình thành thông qua kinh nghiệm Trên thực tế, rất hiếm có một trí tuệ mà không cần đến tri thức (liệu có thể
có một đại kiện tướng cờ vua mà không biết đánh cờ hoặc không biết các thế cờ quan trọng không?) Tuy tri thức không quyết định sự thông minh (người biết nhiều định lý toán hơn chưa chắc đã giải toán giỏi hơn!) nhưng nó là một yếu tố cơ bản cấu thành trí thông minh Chính vì vậy, muốn xây dựng một trí thông minh nhân tạo, ta cần phải có yếu tố cơ bản này Từ đây đặt ra vấn đề đầu tiên là các phương pháp đưa tri thức vào máy tính được gọi là biểu diễn tri thức [4, 5, 6]
1.2 Công nghệ xử lý của tri thức
Công nghệ xử lý của tri thức (Knowledge Engineering): là các phương pháp,
kỹ thuật được những kỹ sư tri thức (knowledge engineers) dùng để xây dựng những
hệ thống thông minh như: hệ chuyên gia, hệ cơ sở tri thức, hệ hổ trợ quyết định [7]
Nó có thể được nhìn từ một góc độ hẹp và rộng Theo quan điểm hẹp, công nghệ xử lý của tri thức được giới hạn trong các bước cần thiết để xây dựng các hệ
cơ sở tri thức (tức là kiến thức mua lại, biểu diễn tri thức, kiến thức xác nhận, suy luận, giải thích và biện minh ở trong hình 1.1 Quan điểm rộng mô tả toàn bộ quá trình phát triển và duy trì bất kỳ hệ thống thông minh ở trong hình 1.2
Trang 15Hình 1.1: Định nghĩa hẹp quy trình của công nghệ xử lý tri thức
Thu thập tri thức
Biểu diễn tri thức
Kiểm định và xác minh tri thức
Suy luận
Giải thích và chứng minh Vấn đề hay cơ hội
Giải thích và chứng minh
kiến thức hệ thống hóa
kiến thức xác nhận
kiến thức thô
Trang 16Hình 1.2: định nghĩa rộng của quá trình công nghệ xử lý tri thức
Cả hai con số 1.1 và 1.2 có thể được hiểu như quá trình phát triển liên tục Trong thực tế, mặc dù các giai đoạn phát triển thường được thực hiện song song Hơn nữa, quá trình phát triển của một hệ cơ sở tri thức được lặp lại và gia tăng Như một thông tin mới xuất hiệntrong quá trình phát triển gần như chắc chắn cần cải tiến sớm hơn Hệ thống từng bước được tiến hóa từ một khả năng giới hạn do sự cải tiến tri thức và khả năng giải quyết vấn đề
1.2.1 Thu thập tri thức (Kiến thức kế thừa từ các nguồn khác nhau)
Thu thập tri thức là bộ sưu tập, chuyển giao và chuyển đổi tri thức từ các nguồn tri thức đến một chương trình máy tính.Tri thức có thể được lấy từ các nguồn như sách, cơ sở dữ liệu, hình ảnh, bài viết và các cảm biến, cũng như các chuyên gia
Trang 17của con người Tri thức mua lại từ các chuyên gia của con người đặc biệt, thường được gọi là tri thức gợi mở Người tương tác với các chuyên gia để gợi mở tri thức của họ được gọi là một kỹ sư tri thức
Các yếu tố sau góp phần vào sự khó khăn trong việc mua lại tri thức từ các chuyên gia và chuyển giao của nó với một máy tính:
- Các chuyên gia có thể không biết làm thế nào để nói lên tri thức của họ
- Các chuyên gia có thể nói lên tri thức không chính xác
- Các chuyên gia có thể thiếu thời gian hoặc không hợp tác
- Tính phức tạp của kiểm thử hoặc tinh chỉnh kiến thức cao
- Phương pháp gợi mở kiến thức có thể được định nghĩa chưa mềm dẻo
- Phát triển hệ thống thường được thu thập tri thức từ một nguồn nhưng các kiến thức liên quan thì lại ở rải rác nhiều nguồn khác nhau
- Tri thức thu thập được có thể không đầy đủ
- Khó khăn khi nhận biết kiến thức cụ thể khi nó trộn lẫn với dữ liệu không liên quan
- Các chuyên gia có thể thay đổi hành vi của họ khi họ quan sát và phỏng vấn
1.2.2 Biểu diễn tri thức
a Khái niệm về biểu diễn tri thức
Biểu diễn tri thức (Knowledge Representation) là sự diễn đạt và thể hiện của tri thức dưới những dạng thích hợp để có thể tổ chức một hệ cơ sở tri thức của hệ thống
Trong tin học biểu diển tri thức là một phương pháp mã hóa tri thức sao cho máy tính có thể xử lí được chúng Cũng như dữ liệu có nhiều cách khác nhau để biểu diễn tri thức trong máy tính Tuy nhiên ta phải chọn một phương pháp nào phù hợp để đưa lên máy tính
Các công cụ cho việc biểu diễn tri thức đơn giản như:
- Các cấu trúc dữ liệu cơ bản: Dãy danh sách, tập hợp, mẫu, …
- Các cấu trúc dữ liệu trừu tượng: ngăn xếp, hàng đợi
- Các mô hình toán học: đồ thị, cây, …
- Các mô hình đối tượng
- Các ngôn ngữ đặc tả tri thức
Ví dụ: Kiến thức về một hình chữ nhật cần thiết cho việc giải bài toán có thể được biểu diễn gồm:
Trang 18- Một tập hợp các biến thực, mỗi biến đại diện cho một yếu tố của hình chữ nhật như chiều dài, chiều rộng
- Một tập hợp các công thức liên quan đến tính toán trên các yếu tố của hình chữ nhật
b Vấn đề biểu diễn tri thức
Biểu diễn tri thức đóng vai trò quan trọng trong thiết kế và xây dựng một hệ giải toán thông minh và các hệ chuyên gia Phương pháp biểu diễn tri thức thích hợp sẽ tạo nên một hệ thống có trái tim khỏe mạnh Xây dựng và phát triển các phương pháp biểu diễn tri thức và một hướng nghiên cứu quan trọng trong các nhà nghiên cứu Trí tuệ nhân tạo Suy diễn tự động để giải quyết các bài toán dựa trên tri thức cũng là một vấn đề rất quan trọng
Các phương pháp suy diễn tự động nhằm vận dụng kiến thức đã biết trong quá trình lập luận giải quyết vấn đề, trong đó quan trọng nhất là các chiến lược điều khiển giúp phát sinh các sự kiện mới từ các sự kiện đã có
Xây dựng và phát triển các phương pháp biểu diễn tri thức là một hướng nghiên cứu quan trọng cho các nhà nghiên cứu về Trí tuệ nhân tạo
1.3 Một số phương pháp biểu diễn tri thức
Tri thức của một hệ chuyên gia có thể được biểu diễn theo nhiều cách khác nhau Thông thường người ta sử dụng các cách sau đây:
- Biểu diễn tri thức sử dụng luật dẫn xuất
- Biểu diễn tri thức nhờ mệnh đề logic
- Biểu diễn tri thức nhờ mạng ngữ nghĩa
- Biểu diễn tri thức nhờ các khung
Ngoài ra, người ta còn sử dụng cách biểu diễn tri thức nhờ các sự kiện không chắc chắn, nhờ bộ ba: đối tượng, thuộc tính và giá trị (O-A-V: Object-Attribute-Value), nhờ khung (frame), … Tuỳ theo từng hệ chuyên gia, người ta có thể sử dụng một cách hoặc đồng thời cả nhiều cách.[4,5,6]
1.3.1 Biểu diễn tri thức sử dụng luật dẫn xuất (luật sinh)
Phương pháp biểu diễn tri thức bằng luật sinh được phát minh bởi Newell và Simon trong lúc hai ông đang cố gắng xây dựng một hệ giải bài toán tổng quát Đây
là một kiểu biểu diễn tri thức có cấu trúc Ý tưởng cơ bản là tri thức có thể được cấu trúc bằng một cặp điều kiện - hành động: “NẾU điều kiện xảy ra THÌ hành động sẽ được thi hành” Chẳng hạn: NẾU đèn giao thông là đỏ THÌ bạn không được đi thẳng, NẾU máy tính đã mở mà không khởi động được THÌ kiểm tra nguồn điện, …
Trang 19Ngày nay, các luật sinh đã trở nên phổ biến và được áp dụng rộng rãi trong nhiều hệ thống trí tuệ nhân tạo khác nhau Luật sinh có thể là một công cụ mô tả để giải quyết các vấn đề thực tế thay cho các kiểu phân tích vấn đề truyền thống Trong trường hợp này, các luật được dùng như là những chỉ dẫn (tuy có thể không hoàn chỉnh) nhưng rất hữu ích để trợ giúp cho các quyết định trong quá trình tìm kiếm, từ
đó làm giảm không gian tìm kiếm Một ví dụ khác là luật sinh có thể được dùng để bắt chước hành vi của những chuyên gia Theo cách này, luật sinh không chỉ đơn thuần là một kiểu biểu diễn tri thức trong máy tính mà là một kiểu biễu diễn các hành vi của con người [5, 6]
Một cách tổng quát luật sinh có dạng như sau:
P1 ∧ P2 ∧ ∧ Pn → Q
Tùy vào các vấn đề đang quan tâm mà luật sinh có những ngữ nghĩa hay cấu tạo khác nhau:
Trong logic vị từ: P1, P2, …, Pn, Q là những biểu thức logic
Trong ngôn ngữ lập trình, mỗi một luật sinh là một câu lệnh
IF (P1 AND P2 AND … AND Pn) THEN Q
Trong lý thuyết hiểu ngôn ngữ tự nhiên, mỗi luật sinh là một phép dịch: ONE → một
f1 ^ f2 ^ ^ fi → q Trong đó, các fi, q đều thuộc F
Ví dụ: Cho 1 cơ sở tri thức được xác định như sau:
Các sự kiện: A, B, C, D, E, F, G, H, K
Tập các quy tắc hay luật sinh (rule)
R1: A → E
R2: B → D
Trang 20Vấn đề tối ưu luật
Tập các luật trong một cơ sở tri thức rất có khả năng thừa, trùng lặp hoặc mâu thuẫn Dĩ nhiên là hệ thống có thể đổ lỗi cho người dùng về việc đưa vào hệ thống những tri thức như vậy Tuy việc tối ưu một cơ sở tri thức về mặt tổng quát là một thao tác khó (vì giữa các tri thức thường có quan hệ không tường minh), nhưng trong giới hạn cơ sở tri thức dưới dạng luật, ta vẫn có một số thuật toán đơn giản để loại bỏ các vấn đề này
b Rút gọn bên trái
Xét các luật: (L1) A, B → C (L2) A → X (L3) X → C
Rõ ràng là luật A, B → C có thể được thay thế bằng luật A → C mà không làm ảnh hưởng đến các kết luận trong mọi trường hợp Ta nói rằng sự kiện B trong luật (1) là dư thừa và có thể được loại bỏ khỏi luật dẫn trên
Trang 21Với quy tắc này, ta có thể loại bỏ hoàn toàn các luật có phép nối HOẶC Các luật có phép nối này thường làm cho thao tác xử lý trở nên phức tạp
d Thuật toán tối ưu tập luật dẫn
Thuật toán này sẽ tối ưu hóa tập luật đã cho bằng cách loại đi các luật có phép nối HOẶC, các luật hiển nhiên hoặc các luật thừa Thuật toán bao gồm các bước chính:
B1: Rút gọn vế phải
Với mỗi luật r trong R
Với mỗi sự kiện A ∈ VếPhải(r)
Nếu A ∈ VếTrái(r) thì Loại A ra khỏi vế phải của R
Nếu VếPhải(r) rỗng thì loại bỏ r ra khỏi hệ luật dẫn: R = R – {r}
B2: Phân rã các luật
Với mỗi luật r: X1 ∨ X2 ∨ … ∨ Xn → Y trong R
Với mỗi i từ 1 đến n R:= R + { Xi → Y }
R:= R – {r}
B3: Loại bỏ luật thừa
Với mỗi luật r thuộc R
Nếu VếPhải(r) ∈ BaoĐóng(VếTrái(r), R-{r}) thì R:= R – {r}
B4: Rút gọn vế trái
Với mỗi luật dẫn r: X: A1 ∧ A2, …, An → Y thuộc R
Với mỗi sự kiện Ai thuộc r
Gọi luật r1: X – Ai → Y
S = (R – {r}) ∪ {r1}
Nếu BaoĐóng(X – Ai, S) ≡ BaoĐóng(X, R) thì loại sự kiện A ra khỏi X
Trang 22Ưu điểm và nhược điểm của biểu diễn tri thức bằng luật
Biểu diễn tri thức bằng luật đặc biệt hữu hiệu trong những tình huống hệ thống cần đưa ra những hành động dựa vào những sự kiện có thể quan sát được Nó những ưu điểm chính sau đây:
- Các luật rất dễ hiểu nên có thể dễ dàng dùng để trao đổi với người dùng (vì
nó là một trong những dạng tự nhiên của ngôn ngữ)
- Có thể dễ dàng xây dựng được cơ chế suy luận và giải thích từ các luật
- Việc hiệu chỉnh và bảo trì hệ thống là tương đối dễ dàng
- Có thể cải tiến dễ dàng để tích hợp các luật mờ
- Các luật thường ít phụ thuộc vào nhau
Cơ sở tri thức luật sinh lớn sẽ làm giới hạn khả năng tìm kiếm của chương trình điều khiển Nhiều hệ thống gặp khó khăn trong việc đánh giá các hệ dựa trên luật sinh cũng như gặp khó khăn khi suy luận trên luật sinh
1.3.2 Biểu diễn tri thức nhờ mệnh đề logic
Người ta sử dụng các ký hiệu để thể hiện tri thức và các phép toán lôgic tác động lên các ký hiệu để thể hiện suy luận lôgic Kỹ thuật chủ yếu thường được sử
dụng là lôgic vị từ (predicate logic) mà ta sẽ đề cập đến ở chương sau
Các ví dụ dưới đây minh hoạ cách thể hiện các phát biểu (cột bên trái) dưới dạng vị từ (cột bên phải):
Bảng 1.1 Bảng minh họa vị từ
Trang 23Các vị từ thường có chứa hằng, biến hay hàm Người ta gọi các vị từ không
chứa biến (có thể chứa hằng) là các mệnh đề (preposition) Mỗi vị từ có thể là một
sự kiện (fact) hay một luật Luật là vị từ gồm hai vế trái và phải được nối nhau bởi
một dấu mũi tên () Các vị từ còn lại (không chứa mũi tên) được gọi là các sự kiện Trong ví dụ trên đây, MAN và FATHER là các mệnh đề và là các sự kiện Còn MORTAL(X) là một luật
Ví dụ: Từ các tri thức sau:
Marc có tóc vàng hoe, còn Jean có tóc màu nâu Pierre là cha của Jean Marc là cha của Pierre Jean là cha của René Marc là con của Georges
Giả sử X, Y và là Z những người nào đó, nếu Y là con của X thì X là cha của
Y Nếu X là cha của Z và Z là cha của Y thì X là ông của Y ta có thể biểu diễn thành
các sự kiện và các luật như sau:
1 BLOND (marc)
2 BROWN (jean)
3 FATHER (pierre, jean)
4 FATHER (marc, pierre)
5 FATHER (jean, rené)
6 SON (marc, georges)
7 FATHER (X, SON (Y, X)
8 GRANDFATHER (X, FATHER (X, Z), FATHER (Z, Y)
Người ta gọi tập hợp các sự kiện và các luật là một cơ sở tri thức
1.3.3 Biểu diễn tri thức nhờ mạng ngữ nghĩa
Khái niệm
Mạng ngữ nghĩa là một phương pháp biểu diễn tri thức đầu tiên và cũng là phương pháp dễ hiểu nhất đối với chúng ta Phương pháp này sẽ biểu diễn tri thức dưới dạng một đồ thị, trong đó đỉnh là các đối tượng (khái niệm) còn các cung cho biết mối quan hệ giữa các đối tượng (khái niệm) này
Chẳng hạn: giữa các khái niệm chích chòe, chim, hót, cánh, tổ có một số mối
quan hệ như sau:
- Chích chòe là một loài chim
- Chim biết hót
- Chim có cánh
- Chim sống trong tổ
Trang 24Các mối quan hệ này sẽ được biểu diễn trực quan bằng một đồ thị như sau:
Do mạng ngữ nghĩa là một loại đồ thị cho nên nó thừa hưởng được tất cả những mặt mạnh của công cụ này Nghĩa là ta có thể dùng những thuật toán của đồ thị trên mạng ngữ nghĩa như thuật toán tìm liên thông, tìm đường đi ngắn nhất,… để thực hiện các cơ chế suy luận Điểm đặc biệt của mạng ngữ nghĩa so với đồ thị
thông thường chính là việc gán một ý nghĩa (có, làm, là, biết, .) cho các cung Trong đồ thị tiêu chuẩn, việc có một cung nối giữa hai đỉnh chỉ cho biết có sự liên
hệ giữa hai đỉnh đó và tất cả các cung trong đồ thị đều biểu diễn cho cùng một loại
liên hệ Trong mạng ngữ nghĩa, cung nối giữa hai đỉnh còn cho biết giữa hai khái
niệm tương ứng có sự liên hệ như thế nào Việc gán ngữ nghĩa vào các cung của đồ
thị đã giúp giảm bớt được số lượng đồ thị cần phải dùng để biễu diễn các mối liên
hệ giữa các khái niệm Chẳng hạn như trong ví dụ trên, nếu sử dụng đồ thị thông thường, ta phải dùng đến 4 loại đồ thị cho 4 mối liên hệ: một đồ thị để biểu diễn
mối liên hệ “là”, một đồ thị cho mối liên hệ “làm”, một cho “biết” và một cho “có”
Một điểm khá thú vị của mạng ngữ nghĩa là tính kế thừa Bởi vì ngay từ
trong khái niệm, mạng ngữ nghĩa đã hàm ý sự phân cấp (như các mối liên hệ “là”)
nên có nhiều đỉnh trong mạng mặc nhiên sẽ có những thuộc tính của những đỉnh khác Chẳng hạn theo mạng ngữ nghĩa ở trên, ta có thể dễ dàng trả lời”có”cho câu hỏi: “Chích chòe có làm tổ không?” Ta có thể khẳng định được điều này vì đỉnh
“chích chòe” có liên kết “là” với đỉnh “chim” và đỉnh “chim” lại liên kết “biết” với đỉnh “làm tổ” nên suy ra đỉnh “chích chòe” cũng có liên kết loại “biết” với đỉnh
“làm tổ” (Nếu để ý, bạn sẽ nhận ra được kiểu “suy luận” mà ta vừa thực hiện bắt
nguồn từ thuật toán “loang” hay “tìm liên thông” trên đồ thị!) Chính đặc tính kế thừa của mạng ngữ nghĩa đã cho phép ta có thể thực hiện được rất nhiều phép suy diễn từ những thông tin sẵn có trên mạng
Tuy mạng ngữ nghĩa là một kiểu biểu diễn trực quan đối với con người nhưng khi đưa vào máy tính, các đối tượng và mối liên hệ giữa chúng thường được biểu diễn dưới dạng những phát biểu động từ (như vị từ) Hơn nữa, các thao tác tìm kiếm trên mạng ngữ nghĩa thường khó khăn (đặc biệt đối với những mạng có kích
Trang 25thước lớn) Do đó, mô hình mạng ngữ nghĩa được dùng chủ yếu để phân tích vấn
đề Sau đó, nó sẽ được chuyển đổi sang dạng luật hoặc frame để thi hành hoặc mạng ngữ nghĩa sẽ được dùng kết hợp với một số phương pháp biểu diễn khác
Ưu điểm và nhược điểm của mạng ngữ nghĩa
Ưu điểm
- Mạng ngữ nghĩa rất linh động, ta có thể dễ dàng thêm vào mạng các đỉnh hoặc cung mới để bổ sung các tri thức cần thiết
- Mạng ngữ nghĩa có tính trực quan cao nên rất dễ hiểu
- Mạng ngữ nghĩa cho phép các đỉnh có thể thừa kế các tính chất từ các đỉnh khác thông qua các cung loại”là", từ đó, có thể tạo ra các liên kết”ngầm”giữa những đỉnh không có liên kết trực tiếp với nhau
- Mạng ngữ nghĩa hoạt động khá tự nhiên theo cách thức con người ghi nhận
thông tin
Nhược điểm
Cho đến nay, vẫn chưa có một chuẩn nào quy định các giới hạn cho các đỉnh
và cung của mạng Nghĩa là bạn có thể gán ghép bất kỳ khái niệm nào cho đỉnh hoặc cung!
Tính thừa kế (vốn là một ưu điểm) trên mạng sẽ có thể dẫn đến nguy cơ mâu thuẫn trong tri thức Chẳng hạn, nếu bổ sung thêm nút “Gà” vào mạng như hình sau thì ta có thể kết luận rằng “Gà” biết “bay”! Sở dĩ có điều này là vì có
sự không rõ ràng trong ngữ nghĩa gán cho một nút của mạng Bạn đọc có thể phản đối quan điểm vì cho rằng, việc sinh ra mâu thuẫn là do ta thiết kế mạng
dở chứ không phải do khuyết điểm của mạng! Tuy nhiên, xin lưu ý rằng, tính
thừa kế sinh ra rất nhiều mối liên “ngầm” nên khả năng nảy sinh ra một mối
liên hệ không hợp lệ là rất lớn!
Hầu như không thể biển diễn các tri thức dạng thủ tục bằng mạng ngữ nghĩa
vì các khái niệm về thời gian và trình tự không được thể hiện tường minh trên mạng ngữ nghĩa
1.3.4 Biểu diễn tri thức nhờ các khung
Các khung Các khung (frame) thể hiện các khái niệm dưới dạng các cấu trúc mẫu tin các hình thức như một bảng mẫu
Khung cơ bản: Gồm các thành phần cơ bản sau:
- Tên đối tượng (loại khung)
- Các thuộc tính
Trang 26- Giá trị các thuộc tính Khung lớp: Thể hiện các tính chất tổng quát của một lớp các đối tượng với những quan hệ kế thừa và cấu trúc phân cấp
1.4 Suy diễn và suy luận
Có nhiều phương pháp tổng quát để suy luận trong các chiến lược giải quyết vấn đề của hệ chuyên gia Những phương pháp hay gặp là suy diễn tiến (foward chaining), suy diễn lùi (backward chaining) và phối hợp hai phương pháp này (mixed chaining) Những phương pháp khác là phân tích phương tiện (means -end analysis), rút gọn vấn đề (problem reduction), quay lui (backtracking), kiểm tra lập kế hoạch (plan-generate-test), lập kế hoạch phân cấp (hierachical planning) [3, 4]
Dưới đây là nền tảng của công nghệ hệ chuyên gia hiện đại (foundation of modern rele-based expert system)
Hình 1.3 Nền tảng của công nghệ hệ chuyên gia dựa trên luật hiện đại
1.4.1 Phương pháp suy diễn tiến
Suy diễn tiến (forward charning) là lập luận từ các sự kiện, sự việc để rút ra các kết luận Ví dụ: Nếu thấy trời mưa trước khi ra khỏi nhà (sự kiện) thì phải lấy áo mưa (kết luận)
Trong phương pháp này, người sử dụng cung cấp các sự kiện cho hệ chuyên gia để hệ thống (máy suy diễn) tìm cách rút ra các kết luận có thể Kết luận được xem là những thuộc tính có thể được gán giá trị Trong số những kết luận này, có thể có những kết luận làm người sử dụng quan tâm, một số khác không nói lên điều
gì, một số khác có thể vắng mặt
Hệ chuyên gia dựa trên luật
Luật sản xuất
Post
So khớp hiệu quả
Suy diễn bên phải luật
Hợp giải xung đột
Thuật toán mạng lưới
Thuật toán Markov
Trang 27Các sự kiện thường có dạng: Atthibute = value
Lần lượt các sự kiện trong cơ sở tri thức được chọn và hệ thống xem xét tất
cả các luật mà các sự kiện này xuất hiện như là tiền đề Theo nguyên tắc lập luận trên, hệ thống sẽ lấy ra những luật thoã mãn Sau khi gán giá trị cho các thuộc tính thuộc kết luận tương ứng, người ta nói rằng các sự kiện đã được thoã mãn Các thuộc tính được gán giá trị sẽ là một phần của kết qu ả chuyên gia Sau khi mọi sự kiện đã được xem xét, kết quả được xuất ra cho người sử dụng
1.4.2 Phương pháp suy diễn lùi
Phương pháp suy diễn lùi tiến hành các lập luận theo chiều ngược lại (đối với phương pháp suy diễn tiến) Từ một giả thuyết (như là một kết luận), hệ thống đưa
ra một tình huống trả lời gồm các sự kiện là cơ sở của giả thuyết đã cho này
Ví dụ nếu ai đó vào nhà mà cầm áo mưa và áo quần bị ướt thì giả thuyết này
là trời mưa Để củng cố giả thuyết này, ta sẽ hỏi người đó xem có phải trời mưa không ? Nếu người đó trả lời có thì giả thuyết trời mưa đúng và trở thành một sự kiện Nghĩa là trời mưa nên phải cầm áo mưa và áo quần bị ướt
Suy diễn lùi là cho phép nhận được giá trị của một thuộc tính Đó là câu trả lời cho câu hỏi “giá trị của thuộc tính A là bao nhiêu?” với A là một đích (goal)
Để xác định giá trị của A, cần có các nguồn thông tin Những nguồn này có thể là những câu hỏi hoặc có thể là những luật Căn cứ vào các câu hỏi, hệ thống nhận được một cách trực tiếp từ người sử dụng những giá trị của thuộc tính liên quan Căn cứ vào các luật, hệ thống suy diễn có thể tìm ra giá trị sẽ là kết luận của một trong số các kết luận có thể của thuộc tính liên quan, …
Ý tưởng của thuật toán suy diễn lùi như sau Với mỗi thuộc tính đã cho, người ta định nghĩa nguồn của nó:
- Nếu thuộc tính xuất hiện như là tiền đề của một luật (phần đầu của luật), thì nguồn sẽ thu gọn thành một câu hỏi
- Nếu thuộc tính xuất hiện như là hậu quả của một luật (phần cuối của luật), thì nguồn sẽ là các luật mà trong đó, thuộc tính là kết luận
- Nếu thuộc tính là trung gian, xuất hiện đồng thời như là tiền đề và như là kết luận, khi đó nguồn có thể là các luật, hoặc có thể là các câu hỏi mà chưa được nêu ra
Nếu mỗi lần với câu hỏi đã cho, người s ử dụng trả l ời hợp lệ, giá trị trả lời này sẽ được gán cho thu ộc tính và xem như thành công Nếu nguồn là các lu ật, hệ thống sẽ lấy lần lượt các luật mà thuộc tính đích xuất hiện như kế t luận, để có thể
Trang 28tìm giá trị các thuộc tính thuộc tiền đề Nếu các luật thoã mãn, thuộc tính kết luận sẽ được ghi nhận
1.5 Kết luận chương
Chương 1 đã trình bày tổng quan về các vấn đề về tri thức: từ thông tin, dữ liệu đến tri thức Sự phân loại về các kiểu tri thức như tri thức sự kiện, tri thức thủ tục, tri thức mô tả, … Công nghệ xử lý tri thức, bao gồm quá trình thu thập, các phương pháp biểu diễn và sử dụng tri thức Biểu diễn tri thức với các các hình thức như: tri thức dạng luật, tri thức dạng luật ngữ nghĩa, tri thức nhờ cây khung Khai thác và sử dụng tri thức thông qua các phép suy diễn
Trang 29CHƯƠNG 2: THẨM ĐỊNH ĐÁNH GIÁ HỆ CƠ SỞ TRI THỨC
2.1 Hệ cơ sở tri thức (Knowledge Base System - KBS)
- Cơ sở tri thức: Chứa các tri thức chuyên sâu về lĩnh vực như chuyên gia Cơ
sở tri thức bao gồm: các sự kiện, các luật, các khái niệm và các quan hệ
- Động cơ suy diễn: Bộ xử lý tri thưc mô hình hóa theo cách lập luận của hệ chuyên gia Động cơ hoạt động dựa trên thông tinh về vấn đề đang xét, so sánh với tri thức đang lưu trong cơ sở tri thức rồi rút ra kết luận
Hệ cơ sở tri thức là một trong những lĩnh vực nghiên cứu khoa học của trí tuệ nhân tạo Các ứng dụng khác của trí tuệ nhân tạo là về người máy, sự hiểu biết ngôn ngữ tự nhiên, nhận dạng giọng nói, và tầm nhìn máy tính Đột phá lớn trong lĩnh vực trí tuệ nhân tạo là sự phát triển thông minh của máy tính bổ sung nguồn nhân lực và sự hiểu biết tốt hơn về con người cách suy nghĩ, lý do và học hỏi Hệ cơ sở tri thức có lẽ là ứng dụng thực tế của trí tuệ nhân tạo
Các hệ thống về chuyên gia và hệ cơ sở tri thức thường được sử dụng cùng một lúc Hệ thống chuyên gia thường được mô tả như hệ thống thông tin máy tính dựa trên mô phỏng suy luận của con người với kiến thức sâu sắc và nhiệm vụ cụ thể trong một miền vấn đề hẹp Các tài liệu nghiên cứu cho thấy quan điểm khác nhau
về hệ cơ sở tri thức bao gồm tất cả các ứng dụng công nghệ thông tin liên quan đến
tổ chức, với mục đích giúp quản lý tài sản tri thức trong tổ chức Với quan điểm này, hệ cơ sở tri thức không chỉ bao gồm hệ chuyên gia, mà còn ứng dụng như phần mềm nhóm và hệ thống quản lý cơ sở dữ liệu, giống hệt với hệ chuyên gia, ngoại trừ các nguồn chuyên môn có thể bao gồm kiến thức tài liệu Do đó hệ chuyên gia
có thể được xem như là một chi nhánh của hệ cơ sở tri thức Luận văn này sẽ sử dụng định nghĩa của hệ SCTT như đồng nhất với hệ thống chuyên gia
Hệ cơ sở tri thức đã được phát triển đầu tiên vào giữa những năm 1960 bởi cộng đồng trí tuệ nhân tạo Trong những năm 1980 hệ cơ sở tri thức là một khái niệm học tập Điều này nhanh chóng thay đổi trong những năm 1990 trong lĩnh vực
Trang 30được gọi là hệ thống chuyên gia (hoặc cách khác như hệ cơ sở tri thức) Hệ cơ sở tri thức một cách nhanh chóng phát triển thành một sản phẩm đã được kiểm chứng và đánh giá cao thị trường Trong thập kỷ qua ứng dụng của họ đã được chứng minh là quan trọng trong việc hỗ trợ quyết định và ra quyết định, và hệ cơ sở tri thức đã thành công và được áp dụng cho nhiều lĩnh vực, chẳng hạn như, tiếp thị, sản xuất,
hệ thống hỗ trợ cuộc sống và kế hoạch sản xuất và lập kế hoạch
Ý tưởng cơ bản đằng sau hệ cơ sở tri thức là”một số quyết định định tính và tri thức cần phán xét nằm trong các chuyên gia con người” Các khái niệm cơ bản của hệ CSTT bao gồm làm thế nào để xác định các chuyên gia là ai, xác định chuyên môn, làm thế nào để chuyển chuyên môn từ người sang một máy tính và các tính năng của một hệ thống làm việc
2.1.2 Thành phần cơ bản hệ cơ sở tri thức
Các thành phần chính của một hệ cơ sở tri thức thông thường là một cơ sở tri thức, máy suy diễn, một cơ chế giải thích và một giao diện người dùng được thể hiện trong hình 2.1 Một lợi thế của kiến trúc hệ cơ sở tri thức là thành phần cơ sở tri thức ngoại lệ có thể là miền độc lập.Vỏ ngoài hệ chuyên gia có thể tái sử dụng để phát triển thành một hệ thống mới.Vỏ của một hệ chuyên gia điển hình có các chức năng phương pháp suy luận, giao diện người dùng, chỉ có cơ sở tri thức cần cho việc phát triển [7.8]
Hình 2.1: Các thành phần của hệ cơ sở tri thức
Cơ sở tri thức
Mục đích của cơ sở tri thức là đại diện và lưu trữ tất cả thông tin liên quan,
sự kiện, quy định, các trường hợp, và mối quan hệ được sử dụng bởi các hệ CSTT Kiến thức của nhiều chuyên gia con người có thể được kết hợp và đại diện trong cơ
sở tri thức
Giao diện người sử dụng
Máy suy diễn
Cơ sở tri thức Cơ chế giải
thích
Kiến thức chuyên
Trang 31Máy suy diễn
Như được chỉ ra trong hình 2.1 Bộ não (trung tâm điều khiển) của một hệ chuyên gia là máy suy diễn Mục đích của nó là để tìm kiếm thông tin và các mối quan hệ từ cơ sở tri thức và người sử dụng, và để kết luận câu trả lời, dự đoán và đề xuất như một chuyên gia về con người Nhiều phương pháp suy luận có khả năng suy luận với sự hiện diện của nhân tố không chắc chắn Có hai phương pháp được
sử dụng đó là chuỗi ngược và chuỗi chuyển tiếp
Cơ chế giải thích
Một lợi thế của hệ cơ sở tri thức so với các hệ thống hỗ trợ quyết định khác
là khả năng để giải thích cho người sử dụng biết thế nào và lý do tại sao hệ thống có kết quả nhất định Nhiều cơ chế giải thích được mở rộng, ví dụ, cho phép người dùng nhận được giải thích lý do tại sao câu hỏi được hỏi, và cung cấp truy cập kiến thức chuyên sâu cho người dùng Cơ chế giải thích có thể đưa ra giải thích dựa trên những kiến thức trong cơ sở tri thức Vì vậy cơ chế giải thích mở rộng hệ cơ sở tri thức không chỉ cung cấp việc hỗ trợ ra quyết định mà còn làm cho người dùng tìm hiểu được cách sử dụng hệ thống
Giao diện người sử dụng
Giao diện người sử dùng là thành phần rất quan trọng khi muốn được sự chấp nhận của người sử dụng Điều đầu tiên mà người sử dụng đánh giá hệ thống cũng như là điều đầu tiên mà người dùng tiếp cận với hệ chuyên gia cũng như thường xuyên tiếp xúc với đó chính là giao diện người sử dụng Nếu một hệ thống
có giao diện không mềm dẻo, linh hoạt, trong sáng sẽ gây nhiều khó khăn cho người sử dụng tiếp cận và khai thác hệ thống Người kỹ sư xử lý tri thức sẽ tốn khá nhiều thời gian, công sức cho việc xây dựng các chức năng cần thiết cho giao diện người dùng
Các chức năng có thể bao gồm: Bộ giao diện, module ngôn ngữ tự nhiên và module biểu diễn đồ họa Xây dựng các menu cho phép người kỹ sư xử lý tri thức xây dựng menu một cách nhanh chóng Menu lựa chọn chính là một kiểu giao diện trực quan nhất
Menu ngôn ngữ tự nhiên có khả năng trợ giúp người sử dụng, xây dựng giao diện người dùng thực hiện các ngôn ngữ tự nhiên mà người sử dụng giao tiếp với hệ thống và khai thác hệ chuyên gia Khi đó giao diện ngôn ngữ cho phép người xây dựng hệ chuyên gia và người sử dụng tương tác với các chương trình ngoài
Module biểu diễn đồ họa thường có giá trị trợ giúp người sử dụng hiểu những câu hỏi và những lời giải thích của hệ chuyên gia Module này giúp người sử
Trang 32dụng xử lý các tri thức kết hợp chặt chẽ với khái niệm đồ họa và giao diện người dùng Nó nhận các file đồ họa và biểu diễn chúng theo cách nhất định mà người xây dựng hệ chuyên gia quyết định Nó thường được sử dụng khi hệ chuyên gia muốn
mô tả bằng hình ảnh hơn là việc mô tả bằng lời
Bộ tạo giải thích đưa ra lời giải thích dựa vào dữ liệu tri thức do người kỹ sư
xử lý tri thức cung cấp Do đó người kỹ sư tri thức luôn luôn giữ các chức năng giải thích và việc sử dụng tri thức sẽ quyết định bằng việc định dạng dữ liệu tri thức vào
cơ sở tri thức của hệ chuyên gia Nghĩa là người kỹ sư xử lý tri thức xây dựng cơ sở tri thức cùng với chức năng giải thích cùng một lúc
2.2 Các vấn đề tri thức
Các hệ thống khai phá tri thức dựa trên cơ sở dữ liệu để cung cấp dữ liệu thô cho đầu vào và đề xuất các vấn đề này trong cơ sở dữ liệu động, không đầy đủ, nhiễu, và lớn Các vấn đề như giới hạn thông tin, mất mát giá trị, và các thuộc tính không liên quan xuất hiện như là một kết quả của sự đầy đủ và xác đáng của dữ liệu được lưu trữ
Giới hạn thông tin: Một cơ sở dữ liệu thường được thiết kế cho môi trường
hoạt động và những mục đích của nó khác với khai phá tri thức Đôi khi các thuộc tính sẽ đơn giản hóa nhiệm vụ khai phá hoặc không đưa ra hoặc có thể được yêu cầu
từ thế giới thực Dữ liệu không xác định sẽ gây ra một số vấn đề Nó có thể không khai phá được tri thức quan trọng về một lĩnh vực đã cho nếu một số thuộc tính quan trọng đối với kiến thức về lĩnh vực ứng dụng là không được đưa ra trong
dữ liệu
Ví dụ, chúng ta không thể chẩn đoán bệnh sốt rét từ một cơ sở dữ liệu bệnh nhân nếu dữ liệu không chứa đựng những xét nghiệm máu của bệnh nhân
Cập nhật: Cơ sở dữ liệu thường là động trong nội dung do chúng thay
đổi như là thêm, sửa, hay xoá dữ liệu Sự bảo dưỡng hầu hết được giữ để bảo đảm cái mà các luật khám phá được tăng lên theo ngày tháng và ổn định với hầu hết dữ liệu hiện tại
Dữ liệu bên ngoài: Đây có thể là các trường hợp những mẫu được khai phá
dựa vào dữ liệu cấu trúc bên trong không thể được chứng minh là đúng hay được giải thích Những mẫu như vậy có thể được chỉ giải thích bởi dữ liệu ngoài bổ sung
mà không có sẵn trong dữ liệu thao tác hay kho dữ liệu liên quan Chẳng hạn, chúng
ta có thể khai phá một sự giảm đều số hàng bán của một mặt hàng đã cho trong hai tháng qua Tại cùng thời gian, những sản phẩm khác của công ty là tốt và tổng thu nhập toàn diện và những lợi nhuận toàn bộ tăng lên Một lý do cho sự giảm trong
Trang 33những sản phẩm bán có thể là một sự thúc đẩy tiếp thị cuộc chạy đua giá cả được làm bởi một đối thủ với sự quan tâm tới dòng sản phẩm này của chúng ta Thông tin như vậy có thể không sẵn có trong hệ thống Chi tiết này là dữ liệu thao tác và dữ liệu rút trích thoả thuận gần như với riêng dữ liệu bên trong tổ chức
2.2.1 Sự mâu thuẫn trong cơ sở tri thức
Sự mâu thuẫn trong cơ sở dữ liệu có thể dẫn tới khai phá tri thức dư thừa, gộp lại, và mâu thuẫn
2.2.2 Tri thức dư thừa
Thông tin thường xảy ra liên tiếp ở nhiều nơi trong một cơ sở dữ liệu Một dạng dư thừa phổ biến đó là phụ thuộc hàm trong đó một trường được định nghĩa như một hàm của các trường khác (Lợi_nhuận = Thu_nhập – Chi_phí) Vấn đề với thông tin thừa là nó có thể khai phá lỗi như là tri thức, mà nó thường không được quan tâm bởi người dùng cuối Tri thức khai phá có thể chứa sự dư thừa khi hai mảnh của tri thức là chính xác như nhau (các luật có các giả thuyết và kết luật tương
tự nhau) hoặc có nghĩa tương đương Thêm vào đó, “khai phá tri thức” có thể là sự thật biết trước (một tri thức lĩnh vực) hơn là một khai phá mới Trong quan hệ CAR của hình 6, chúng ta có thuộc tính Engine_Size, cái mà giống như là Bore*Stroke*Cylinders Công cụ khai phá khai phá các luật liên quan tới tổng số dặm đường đã đi tới Engine_Size và tổng số dặm đường đã đi tới Bore, Stroke và Cylinders là sự dư thừa
2.2.3 Tri thức gộp
Khai phá tri thức có thể gộp những tri thức tương tự nghĩa là các luật có kết luận tương tự, nhưng chỉ một luật có nhiều điều kiện hơn
2.2.4 Tri thức mâu thuẫn
Đây là khả năng tri thức được khai phá mâu thuẫn với tri thức của chuyên gia Trong trường hợp khác, các luật được khai phá có thể mâu thuẫn lẫn nhau Nguyên nhân có thể vì mọi giá trị dữ liệu thực tế được đưa vào trong cơ sở dữ liệu
là sai hoặc một vài mối quan hệ bị mất mát từ cơ sở dữ liệu
Trang 34thuyết tập hợp cổ điển là nền tảng cho nhiều ngành khoa học, chứng tỏ vai trò quan trọng của mình Nhưng những yêu cầu phát sinh trong khoa học cũng như cuộc sống đã cho thấy rằng lý thuyết tập hợp cổ điển cần phải được mở rộng [2, 9, 10]
Ta xét tập hợp những người trẻ Ta thấy rằng người dưới 26 tuổi thì rõ ràng
là trẻ và người trên 60 tuổi thì rõ ràng là không trẻ Nhưng những người có tuổi từ
26 đến 60 thì có thuộc tập hợp những người trẻ hay không? Nếu áp dụng khái niệm tập hợp cổ điển thì ta phải định ra một ranh giới rõ ràng và mang tính chất áp đặt chẳng hạn là 45 để xác định tập hợp những người trẻ Và trong thực tế thì có một ranh giới mờ để ngăn cách những người trẻ và những người không trẻ đó là những người trung niên Như vậy, những người trung niên là những người có một”độ trẻ”nào đó Nếu coi”độ trẻ”của người dưới 26 tuổi là hoàn toàn đúng tức là có giá trị là 1 và coi”độ trẻ”của người trên 60 tuổi là hoàn toàn sai tức là có giá trị là 0, thì”độ trẻ”của người trung niên sẽ có giá trị p nào đó thoả 0 < p < 1
Như vậy nhu cầu mở rộng khái niệm tập hợp và lý thuyết tập hợp là hoàn toàn tự nhiên Các công trình nghiên cứu về lý thuyết tập mờ và logic mờ đã được L.Zadeh công bố đầu tiên năm 1965, và sau đó liên tục phát triển mạnh mẽ
Định nghĩa: Cho không gian nền U, tập AU được gọi là tập mờ nếu A được xác định bởi hàm A:X->[0,1]
A
được gọi là hàm thuộc, hàm liên thuộc hay hàm thành viên (membership
function)
Với xX thì A(x) được gọi là mức độ thuộc của x vào A
Như vậy ta có thể coi tập rõ là một trường hợp đặc biệt của tập mờ, trong đó hàm thuộc chỉ nhận 2 giá trị 0 và 1
Ký hiệu tập mờ, ta có các dạng ký hiệu sau:
Liệt kê phần tử: giả sử U = {a, b, c, d} ta co thể xác định một tập mờ A =
d c
b
a
02
A x
Trang 35Lưu ý là các ký hiệu và không phải là các phép tính tổng hay tích phân, mà chỉ là ký hiệu biểu thị tập hợp mờ
Các dạng hàm thuộc tiêu biểu
Theo lý thuyết thì hàm thuộc có thể là một hàm bất kỳ thoả A:X->[0,1] Nhưng trong thực tế thì có các dạng hàm thuộc sau đây là quan trọng và có tính ứng dụng cao hơn cả
Nhóm hàm đơn điệu
Nhóm này gồm đơn điệu tăng và đơn điệu giảm Ví dụ tập hợp người già có hàm thuộc đơn điệu tăng theo tuổi trong khi đó tập hợp người trẻ có hàm thuộc đơn điệu giảm theo tuổi Ta xét thêm ví dụ minh hoạ sau: Cho tập vũ trụ E = Tốc độ =
20,50,80,100,120 đơn vị là km/h Xét tập mờ F = Tốc độ nhanh xác định bởi hàm thuộc nhanh như đồ thị
Như vậy tốc độ dưới 20km/h được coi là không nhanh Tốc độ càng cao thì
độ thuộc của nó vào tập F càng cao Khi tốc độ là 100km/h trở lên thì độ thuộc là 1
50/)100(
5020
30/)20(
10020
0
x khi
x
x khi
x
x x
khi trungbình
1 0.85 0.5