Kết quả chúng tôi đã xây dựng bộ từ vựng phòng chống dịch hại trên lúa theo thuật ngữ thường dùng của nhà nông, nhà quản lý và nhà khoa học với các lớp sau: các từ vựng về sâu hại, các t
Trang 1LỜI NÓI ĐẦU
Hội thảo Khoa học Quốc gia lần thứ 5 về Nghiên cứu, phát triển và ứng dụng Công nghệ
Thông tin và Truyền thông (gọi tắt là Hội thảo ICT.rda’10) do Chương trình KHCN trọng
điểm cấp Nhà nước về Công nghệ Thông tin và Truyền thông giai đoạn 2006-2010 (Chương
trình KC.01/06-10) chủ trì dưới sự bảo trợ của Bộ Khoa học và Công nghệ và Bộ Thông tin và
Truyền thông đã được tổ chức thành công vào ngày 18/3/2011
Hội thảo ICT.rda’10 được tổ chức trong khuôn khổ Lễ Tổng kết Chương trình
KC.01/06-10 đã nhận được hàng trăm báo cáo khoa học của các tác giả với các chủ đề đa dạng, tập trung
phản ánh các kết quả nghiên cứu mới nhất của các đề tài, dự án trong Chương trình
Được sự đồng ý của Tạp chí Công nghệ Thông tin và Truyền thông (Bộ Thông tin và
Truyền thông), Ban Chương trình Hội thảo ICT.rda’10 và Ban Biên tập Chuyên san “Các công
trình nghiên cứu, phát triển và ứng dụng Công nghệ Thông tin và Truyền thông” đã tiến hành
quy trình phản biện tuyển chọn các bài báo có chất lượng để công bố trong số đặc biệt của Chuyên san thay cho Kỷ yếu của Hội thảo
Ban Chương trình Hội thảo và Ban Biên tập Chuyên san chân thành cám ơn các nhà khoa học đã nhiệt tình tham gia báo cáo, đánh giá phản biện các báo cáo để xuất bản số Chuyên san đặc biệt này
GS.TS Nguyễn Thúc Hải
Trưởng Ban Chương trình Hội thảo ICT.rda’10 - Trưởng Ban Biên tập Chuyên san
Trang 2
Mục lục
Phan Thượng Cang
Tiếp cận đa tác tử trên môi trường hệ thống thông tin địa lý
Thiết kế chế tạo máy thu đa kênh dùng cho rađa cộng hưởng
Trần Minh Tuấn
Lương Xuân Trường
Nghiên cứu xây dựng hệ thống rađa thụ động sử dụng tín hiệu
Đào Quang Minh
Lê Đức Tùng
Lê Đức Hùng
Nguyễn Hữu Đức
Nguyễn Thanh Thủy
Xây dựng dịch vụ so khớp tài liệu điện tử trên lưới dữ liệu
Trang 3Nguyễn Thế Hiếu
Nguyễn Trọng Tuấn
Nguyễn Đại Hưng
Đinh Văn Trung
Nguyễn Thanh Bình
Nghiên cứu chế tạo hệ thống LIDAR đo đạc thông số khí quyển
89
Đặng Trọng Trình
Nguyễn Tuấn Phước
Thiết kế lõi điều khiển bộ nhớ DDR3 SDRAM tích hợp trong hệ thống SoC theo chuẩn giao tiếp AMBA AXI 99 Nguyễn Tư Hoàn
Nguyễn Linh Giang
Một cách tiếp cận cho bài toán nhận dạng kí tự viết tay
Hà Quốc Trung Mô hình hệ thống giám sát mạng hướng chức năng của dịch vụ 118
Lê Hoàng Thái
Trương Phước Hưng
Đặng Đăng Khoa
Dương Anh Đức
Xây dựng bộ hệ số tin cậy bằng thuật giải di truyền
Mô hình tích hợp sinh trắc tăng cường an ninh cho cơ sở hạ tầng
Trang 4Hoàng Xuân Minh
Nguyễn Thị Hoàng Lan
Trần Quang Đức
Thuật toán xác thực đa sinh trắc trong hệ thống BioPKI
172
Nguyễn Văn Toàn
Nguyễn Thị Hương Thủy
Nguyễn Ngọc Kỷ
Nguyễn Thị Hoàng Lan
Bảo mật truy cập dựa trên hệ BioPKI và ứng dụng để bảo mật
Hoàng Đăng Hải Một hướng tiếp cận mới cho thiết kế và phát triển các hệ thống
Mô hình hóa khuôn mặt ba chiều dựa vào cặp ảnh 217
Nguyễn Tấn Khôi Tái tạo mặt cong dựa trên lược đồ hợp mảnh không đồng nhất
Nguyễn Chấn Hùng Một cách tiếp cận mới cho vấn đề nâng cao khả năng mở rộng
của hệ thống thông tin theo mô hình tính toán khắp nơi 250
Hà Quang Thụy
Nguyễn Ngọc Hóa
Nguyễn Viết Thế
Lương Nguyễn Hoàng Hoa
Giải pháp lọc nội dung hỗ trợ quản lý và đảm bảo an toàn
Trang 5Lê Hoàng Sơn
Kỹ thuật mã hóa âm tiết tiếng Việt và các mô hình N-GRAMS
Trương Thị Diệu Linh
Trang 6Contents
Phan Thuong Cang
Le Quyet Thang
The Semantic Support Service for Farmers in Searching
Multi Agent-Based Approach in GIS Environment:
Nguyen Thi Ngoc Minh
Nguyen Van Hanh
Tran Manh Quy
Tran Thi Tram
One Solution to Design and Manufacture a VHF- Band Multi Channel Receiver for Small RCS Targets Early Warning Resonance Radar
Tran Minh Tuan
Luong Xuan Truong
Research to Build a Passive Radar System Using Broadcasting
Dao Quang Minh
Le Duc Tung
Le Duc Hung
Nguyen Huu Duc
Nguyen Thanh Thuy
Building a Digital Document Matching Service on VNGRID
Pham Thanh Binh
Nguyen Thuy Van
Nguyen The Anh
Nguyen Thanh Hai
Bui Huy
Pham Van Hoi
Fiber Bragg Grating: from Simulation and Fabrication 82
Trang 7Nguyen The Hieu
Nguyen Trong Tuan
Nguyen Dai Hung
Dinh Van Trung
Nguyen Thanh Binh
Designing and Manufacturing LIDAR System for Measurement
Dang Trong Trinh
Nguyen Tuan Phuoc
Hardware Implementation of AXI-Compatible DDR3 SDRAM
Nguyen Tu Hoan
Nguyen Linh Giang
An Approach for Handwriting Character Recognition Using
Ha Quoc Trung A Service Functionality Oriented Network Management System
Le Hoang Thai
Truong Phuoc Hung
Dang Dang Khoa
Duong Anh Duc
Using Genetic Algorithms to Find Reliable Set of Coefficients
Nguyen Ngoc Hue
Le Nguyen Tuong Nhi
Pham Minh Nhut
Duong Anh Duc
Vu Hai Quan
A Voice Search System in Small Vocabulary Context 134
Phan Thi Tươi
Nguyen Chanh Thanh
Huynh Thi Ngoc Thuy
A Proposal of Vietnamese Question Answering System
Nguyen Dinh Dung
Ngo Thanh Long
Pham The Long
Some Improvements of Type-2 Fuzzy C-Means Clustering
Bui Trong Tung
Nguyen Linh Giang
Luong Anh Hoang
A Biometric and Public Key Infrastructure (PKI) Integration
Trang 8Hoang Xuan Minh
Nguyen Thi Hoang Lan
Tran Quang Duc
Multibiometric Authentication Algorithm in BioPKI System
172
Nguyen Van Toan
Nguyen Thi Huong Thuy
Nguyen Ngoc Ky
Nguyen Thi Hoang Lan
Security Access Control Based on BioPKI System
Hoang Dang Hai A New Approach for Designing and Developing Network
Ngo Thi Duyen
Bui The Duy
Dang Trung Kien
Nguyen Tan Khoi A Surface Reconstruction Approach Based on Non- Uniform
Ngo Hoang Huy Forecasting Acoustic Values of Vietnamese Prosody
Le Hoan
Ngo Hong Son
Heuristic Approach for Optimal Placement of Relay Stations in
Nguyen Chan Hung A Novel Approach for Improving Scalibility of Pervasive
Ha Quang Thuy
Nguyen Ngoc Hoa
Nguyen Viet The
Luong Nguyen Hoang Hoa
Toward a Content-Based Filtering Solution for Supporting
Trang 9Le Hoang Son
Pham Huy Thong
Truong Thi Hanh Phuc
Nguyen Dinh Hoa
Nguyen Thi Hong Minh
An Improvement of SESA Algorithm for Terrain Splitting
Tran Ngoc Anh
Dao Thanh Tinh
Apply The Coding Vietnamese Syllable and N-GRAM Models
to Check The Usage of Word and Chunk in Vietnamese Text 280 Truong Thi Dieu Linh
Trang 10Abstract: Nowadays, to improve crop-livestock
productivity, farmers have continuously self-improved
their knowledge via various media, and especially, the
Internet In reality, however, they faced many
difficulties in accessing information on pest
prevention These have partly derived from the current
keyword-based web search engines Another
important reason is that Vietnamese language used
among individual farmers, scientists, managers and
regions are different In this paper, we propose three
Ontologies for pest prevention on rice, shrimp and
fish With the proposed ontologies, we built the
semantic generator, semantic processor and
developed an application called semantic support
service for farmers in finding information on pest As
a result, this service will assist the three objects
including farmers, scientists and managers in
“meeting together” when they have the same idea but
different expressions The service is actually practical
by offering farmers an online consultant in the field of
agriculture and fisheries Also, it provides knowledge
warehouse about pest prevention for farmers in the
Mekong Delta provinces as well as for the ones in
Vietnam
I ĐẶT VẤN ĐỀ
Ngày nay, phần lớn các thông tin cần thiết trong
các lĩnh vực như nông nghiệp, thủy sản, giáo dục, y tế,
pháp luật, v.v, đều được cung cấp trên mạng Internet
Những thông tin đó được các cơ quan, tổ chức hoặc các cá nhân tạo ra với những mục đích khác nhau và thường xuyên được cập nhật Người sử dụng Web có thể tìm ra thông tin bằng cách sử dụng các công cụ tìm kiếm hiện có và theo các liên kết để tìm ra các tài nguyên liên quan
Tuy nhiên, tính đơn giản của Web hiện nay đã dẫn tới một số hạn chế như: chúng ta có thể dễ dàng bị lạc hay phải đối mặt với một lượng thông tin khổng lồ, không hợp lý và không liên quan mà chúng được trả
về từ một công cụ tìm kiếm trên Web Thật vậy, nếu xét trong lĩnh vực nông nghiệp và thủy sản, hằng ngày không ít nông dân và nhà quản lý phải sử dụng phương tiện Internet để tra cứu các giống nuôi, cây trồng, triệu trứng và cách phòng trị bệnh cho cây trồng hay vật nuôi của mình Trong trường hợp đó, họ gặp rất nhiều khó khăn để xác định thông tin nhận được là chính xác và phù hợp với điều kiện nuôi trồng của mình Nhiều câu hỏi của nông dân khó tìm được câu trả lời hợp lý mặc dù nhiều tổ chức hay hội nuôi trồng
đã có đầy đủ các thông tin và kinh nghiệm về vấn đề
đó và cung cấp rộng rãi dưới nhiều hình thức khác nhau Bên cạnh đó, với cùng một ý nghĩa, nhưng ngôn ngữ được sử dụng để truy vấn thông tin của nhà nông, nhà khoa học và nhà quản lý là khác nhau Thậm chí,
sự khác nhau đó còn thể hiện ở những vùng miền Một
ví dụ cụ thể để minh họa cho vấn đề trên là một nhà khoa học chia sẻ thông tin về bệnh nhiễm trùng máu trên cá basa lên Internet Người nông dân thay vì sử dụng câu truy vấn “bệnh nhiễm trùng máu trên cá
Dịch vụ hỗ trợ ngữ nghĩa cho nông dân
tìm kiếm thông tin về dịch hại
The Semantic Support Service for Farmers
in Searching for Pest Information
Phan Thượng Cang, Lê Quyết Thắng
Trang 11basa” thì họ lại dùng từ ngữ quen thuộc của mình là
“bệnh đốm đỏ của cá basa là sao” mặc dù chúng có
cùng nghĩa Điều này dẫn đến kết quả tìm kiếm không
như ý muốn Chúng ta thử dùng công cụ tìm kiếm
Google để trả lời cho câu hỏi trên với cụm từ khóa
“bệnh đốm đỏ của cá basa”, sau đó thu được khoảng
8.890 kết quả tìm kiếm có dạng: “chữa bệnh đốm đỏ ở
cá mè trắng”, “Một số bệnh của cá tra và basa”, “Bệnh
trên các loài cá nước ngọt”, “Dịch bệnh đốm trắng, đỏ
thân, đầu vàng”, “Tác nhân gây bệnh đốm trắng trên
gan”, “Kỹ thuật nuôi cá basa và cá tra”, “Đừng ăn cá
Basa”… Rõ ràng những câu trả lời là chưa thỏa đáng
thậm chí là ‘lạc đề’ Chúng ta sẽ giải quyết vấn đề này
bằng cách nào?
Sự bùng nổ thông tin trên Internet hiện nay đã gây
ra nhiều khó khăn trong việc rút trích, bảo trì và phát
triển thông tin Máy tính chỉ được dùng như một thiết
bị gửi và nhận thông tin Do đó, chúng chỉ hỗ trợ ở
mức giới hạn nào đó trong việc truy xuất hay xử lý
thông tin Kết quả là người sử dụng phải gánh trên vai
trách nhiệm không những truy cập và xử lý thông tin
mà còn rút trích và thông dịch mọi thông tin
Để khắc phục các yếu điểm của Web hiện tại, khái
niệm Web ngữ nghĩa (Semantic Web) đã ra đời Theo
Tim Berners Lee, Web ngữ nghĩa là sự mở rộng của
Web hiện tại mà trong đó thông tin được bổ sung thêm
ngữ nghĩa mà máy tính có thể hiểu và tăng khả năng
xử lý tự động [1]
Sử dụng Web ngữ nghĩa để xây dựng dịch vụ hỗ
trợ ngữ nghĩa cho nông dân nhằm từng bước hiện thực
hóa việc liên kết ba nhà: nhà nông, nhà khoa học và
nhà quản lý trong việc phòng chống dịch bệnh và tăng
năng suất cây trồng vật nuôi Vấn đề này đã trở nên
bức thiết hơn bao giờ hết khi mà tình hình dịch bệnh
trên cây trồng vật nuôi trong những năm gần đây ở
nước ta có nhiều diễn biến phức tạp Đó là lý do chính
mà chúng tôi đã quan tâm và thực hiện trong một phân
hệ của đề tài KC.01.15/06-10
Trong bài viết này, chúng tôi không dự định trình
bày lại Web ngữ nghĩa và các công nghệ có liên quan bởi vì nó đã được nói đến trong nhiều bài báo trước đây [1,5,16-17] hoặc gần đây [7,13] Thay vào đó, chúng tôi tập trung trên đề xuất ba bộ từ vựng và ba Ontology tương ứng trong lĩnh vực phòng chống dịch hại cho Lúa, Tôm và Cá Trên cơ sở các Ontology đã
đề xuất, chúng tôi đã xây dựng bộ tạo ngữ nghĩa, bộ
xử lý và bộ giao tiếp với người dùng cho dịch vụ hỗ trợ ngữ nghĩa cho nông dân trong việc tìm kiếm thông tin dịch hại
Nội dung của bài viết được trình bày với bố cục như sau Sau phần đặt vấn đề, phần II sẽ trình bày sơ lược về Ontology và một số nhận xét khi phát triển Ontology trong những bước tiếp theo Trong phần III, chúng tôi đề cập đến việc xây dựng các bộ từ vựng về phòng chống dịch hại trên lúa, tôm và cá Dựa trên kết quả ba bộ từ vựng đã xây dựng, chúng tôi đề xuất ba Ontology trong lĩnh vực phòng chống dịch hại và đây
sẽ là nội dung của phần IV Phần V trình bày việc xây dựng dịch vụ hỗ trợ ngữ nghĩa cho nông dân Phần VI trình bày kịch bản ứng dụng minh họa hiện thực hóa
từ các Ontology và mô hình đề xuất Phần VII tổng kết
về các đề xuất và kết quả đã thực hiện
II ONTOLOGY
Trong lĩnh vực tin học, Ontology có nhiều định nghĩa khác nhau [6,14] Ontology là mô hình khái niệm trong phạm vi ứng dụng nhất định, có thể chia sẻ
và thực thi trên máy tính (Maedche & B Motik & L Stojanovic, 2003) Định nghĩa gần đây nhất của Ivan Herman, thành viên của tổ chức W3C, Ontology định nghĩa các khái niệm và những mối quan hệ dùng để diễn tả và trình bày trong một lĩnh vực [7]
Mặc dù có nhiều định nghĩa khác nhau tùy thuộc vào quá trình phát triển và phạm vi nghiên cứu Nhưng bản chất của Ontology không thay đổi và có những tính chất chung như được sử dụng để mô tả phạm vi ứng dụng nhất định, các khái niệm và quan hệ được định nghĩa rõ ràng trong phạm vi ứng dụng, cơ chế tổ chức các khái niệm thường là phân cấp và Ontology
Trang 12cho phép chúng ta biểu diễn từ việc tham chiếu các
luật
Các thành phần chính trong Ontology:
Khái niệm: là một thành phần dùng để tổ chức
phân loại tập các thuộc tính, các thao tác đặc trưng
vốn có của bất cứ thành phần nào thuộc lĩnh vực đang
thực hiện
Quan hệ: dùng để thể hiện sự tương tác lẫn nhau
của các khái niệm
Thể hiện: là phần tử cụ thể và xác định của khái
niệm trong Ontology
Slots: một khái niệm được định nghĩa bằng bộ
ba: Property, Facet và Filler, bộ ba này được gọi là
Slots
Thuộc tính: là một bộ ba của một khái niệm
(Object, Event, Property) hoặc được dùng để định
nghĩa các khái niệm khác trong Ontology như Object,
Event và cả Property khác
Một số nhận xét khi phát triển một Ontology:
Chưa có một cách nào để hoàn chỉnh mô hình
một Domain Giải pháp tốt nhất tùy thuộc vào ứng
dụng mà chúng ta nghĩ đến và sự mở rộng mà chúng ta
lường trước
Những khái niệm trong Ontology phải gần gũi
với những đối tượng và mối quan hệ với Domain
Những khái niệm giống như là chủ ngữ và vị ngữ mà
chúng ta dùng để mô tả Domain
Quyết định sử dụng Ontology để làm gì và chi
tiết hay tổng quát Ontology đó như thế nào sẽ giúp
chúng ta ở những bước sau Điều cần lưu ý, một
Ontology là một mô hình của thế giới thực vì thế
những khái niệm trong nó phải phản ánh thế giới thực
Sau khi chúng ta định nghĩa một Ontology ban đầu,
chúng ta có thể đánh giá và sửa lỗi nó bằng cách dùng
nó vào ứng dụng thực tế hoặc trao đổi với chuyên gia
thuộc lĩnh vực đó
III XÂY DỰNG CÁC BỘ TỪ VỰNG VỀ PHÒNG CHỐNG DỊCH HẠI
III.1 Phương pháp xây dựng các bộ từ vựng về phòng chống dịch hại
Để thực hiện việc xây dựng bộ từ vựng phòng chống dịch bệnh trên lúa, tôm và cá, chúng ta có nhiều hướng tiếp cận khác nhau Phương pháp nghiên cứu, phân tích tổng hợp, lấy ý kiến chuyên gia và tiếp xúc trực tiếp người nông dân là một lựa chọn để nhóm thực hiện
Từ ngữ của nhà khoa học thường xuất hiện trên các sách báo, bài viết hay Internet Nhà quản lý cũng có thể là nhà khoa học nên từ ngữ của họ cũng gần với nhà khoa học và có mở rộng thêm các từ mà nông dân thường sử dụng để dễ dàng cho việc quản lý Từ ngữ người nông dân đa phần là các từ địa phương, các từ mang tính quan sát và miêu tả Bằng phương pháp đã chọn, mặc dù các từ ngữ khác nhau do cách sử dụng của ba nhà nhưng chúng đã được đối chiếu tương ứng Với các tài liệu về phòng chống dịch bệnh trên lúa, tôm và cá, chúng tôi đã tiến hành phân tích để xây dựng bộ từ vựng về phòng chống dịch bệnh Tiếp tục khảo sát, lấy ý kiến đóng góp của các chuyên gia quản
lý hay nhà khoa học để hoàn thiện bộ từ vựng theo nhà quản lý và nhà khoa học
Tiếp xúc trực tiếp người nông dân ở các khu vực khác nhau để lấy thông tin về phòng chống dịch bệnh dựa trên bộ từ vựng của nhà quản lý Từ đó, chúng tôi xây dựng bộ từ vựng cho người nông dân trong lĩnh vực phòng chống dịch bệnh Qua đó, bộ từ vựng về phòng chống dịch bệnh cho nhà khoa học và nhà quản
lý đã được xây dựng hoàn chỉnh Riêng đối với bộ từ vựng của nhà nông từng bước được hoàn chỉnh dần,
bộ từ vựng này sẽ được xây dựng như một bộ từ mở thường xuyên được cập nhật
III.2 Bộ từ vựng về phòng chống dịch hại trên lúa
Tiến hành thu thập các tài liệu có liên quan đến phòng chống dịch hại trên lúa và xác định một số
Trang 13thông tin như: tên bệnh, tác nhân, triệu chứng, tác hại,
nấm gây bệnh, điều kiện phát sinh, phát triển, biện
pháp phòng trừ, v.v
Trong phần này, chúng tôi giới thiệu một từ vựng
trong tập từ vựng phòng chống dịch hại trên lúa Mục
đích chính là nhằm minh họa cho vấn đề đã nêu trong
Bệnh đạo ôn, Bệnh cháy lá, Bệnh khô cổ bông, Bệnh khô cổ gié, Bệnh thối cổ bông, Bệnh thối cổ gié, Bệnh thúi cổ bông, Bệnh đạo ôn lá, Bệnh thúi khô
Bảng 1 cho thấy, mặc dù cùng đề cập về một bệnh
hại trên lúa là “đạo ôn” nhưng giữa nhà khoa học, nhà
quản lý và nhà nông lại có những tên gọi khác nhau về
nó
Kết quả chúng tôi đã xây dựng bộ từ vựng phòng
chống dịch hại trên lúa theo thuật ngữ thường dùng
của nhà nông, nhà quản lý và nhà khoa học với các lớp
sau: các từ vựng về sâu hại, các từ vựng về thuốc
phòng trừ sâu hại, các từ vựng về bệnh hại, các từ
vựng về thuốc phòng trừ bệnh hại, các từ vựng về
giống lúa, các từ vựng về thời kỳ sinh trưởng và phát
triển của cây lúa, các từ vựng về triệu chứng của dịch
hại, các từ vựng về tác hại của dịch hại
III.3 Bộ từ vựng về phòng chống dịch hại trên tôm
Một từ vựng trong tập từ vựng phòng chống dịch
bệnh trên tôm
Bảng 2 thể hiện nhiều tên gọi khác nhau của cùng
một bệnh dịch trên tôm là “thân đỏ đốm trắng”
Bộ từ vựng đã được xây dựng chủ yếu dựa trên một
số bệnh thường gặp trên tôm Đặc biệt là đối với tôm
sú, một đối tượng trọng điểm được nuôi ở khu vực Đồng bằng sông Cửu Long Bộ từ vựng được phân loại theo thuật ngữ thường dùng của ba nhà với các lớp sau: các từ vựng về bộ phận trên tôm, các từ vựng
về bệnh trên tôm, các từ vựng về triệu chứng bệnh lý, các từ vựng về phòng trị bệnh trên tôm
Bảng 2: Từ vựng của ba nhà đối với Bệnh thân đỏ đốm trắng
Nhà Khoa học Nhà Quản lý Nhà Nông
White spot syndrime virus
Systemic Ectodermal and Mesodorma Baculoviras
Hội chứng đốm trắng ở giáp xác, WSSV, SEMBV
Bệnh đốm trắng, Bệnh thân đỏ đốm trắng
III.4 Bộ từ vựng về phòng chống dịch hại trên cá
Với kiến thức về bệnh lý của các bệnh thường gặp trên cá, kết hợp với ý kiến của chuyên gia và tiếp xúc với nông dân tại các vùng nuôi cá trong khu vực, ban đầu bộ từ vựng về phòng chống dịch bệnh trên cá đã được xây dựng Nó chủ yếu là bộ từ về bệnh, dấu hiệu bệnh lý và cách phòng trị bệnh trên cá Bộ từ này được phân loại như sau: các từ vựng về bộ phận trên cá, các
từ vựng về loại bệnh, các từ vựng về dấu hiệu bệnh lý, các từ vựng về phòng và trị bệnh
IV ĐỀ XUẤT 3 ONTOLOGY TRONG LĨNH VỰC PHÒNG CHỐNG DỊCH HẠI
Thông qua việc phân tích các bộ từ vựng, chúng tôi thiết lập được mối quan hệ giữa các nhóm từ cũng như vấn đề liên kết ngữ nghĩa trong cách diễn tả của mỗi đối tượng Từ đó, xây dựng được tri thức về bản thể luận (Ontology) cho phòng chống dịch hại trên lúa, tôm và cá Việc đề xuất ba Ontology về phòng chống dịch hại dựa trên cơ sở là ba bộ từ vựng của nhà quản
lý làm bộ từ chuyên môn bởi vì bộ từ vựng của nhà
quản lý có nhiều ưu điểm cho quá trình xây dựng Ontology Nó có ít từ đồng nghĩa, đa nghĩa và chính xác hơn so với bộ từ của nhà nông do đó dễ dàng cho
Trang 14quá trình xây dựng Ontology và xử lý ngữ nghĩa trong
cấu trúc truy vấn Bên cạnh đó, nhà quản lý cũng có
thể là nhà khoa học và họ thường cập nhật thông tin vì
vậy bộ từ này luôn xuất hiện trên các sách báo, bài
viết, Internet, v.v Ngoài ra, bộ từ vựng nhà quản lý có
nhiều từ được sử dụng cũng được chính nhà nông
thường sử dụng và ít dùng tiếng nước ngoài nên dễ
dàng chuẩn hóa hơn so với từ khoa học
IV.1 Đề xuất Ontology trong lĩnh vực phòng chống
dịch bệnh trên lúa
Ontology sau khi xây dựng xong, nó có khả năng
trả lời các câu hỏi như: Sâu A có tác hại như thế nào?
Triệu chứng B liên quan đến bệnh gì? Để trị bệnh C
cần thuốc gì? Tác nhân của bệnh D là gì? Cấu trúc
phân lớp của các lớp trong Ontology lúa được thể hiện
IV.3 Đề xuất Ontology trong lĩnh vực phòng chống dịch bệnh trên cá
Ontology sau khi xây dựng xong, nó có khả năng trả lời các câu hỏi như: Bệnh X có biểu hiện như thế nào? Biểu hiện X là của bệnh gì? Bệnh X có phòng trị bệnh ra sao? Cách phòng trị X là của bệnh gì? Cấu trúc phân lớp của các lớp trong Ontology cá được thể hiện trong sơ đồ Hình 3
Hình 1 Cấu trúc phân lớp của Ontology trong lĩnh vực phòng chống dịch bệnh trên lúa
Trang 15Hình 2 Cấu trúc phân lớp của Ontology trong lĩnh vực phòng chống dịch hại trên tôm
Hình 3 Cấu trúc phân lớp của Ontology trong lĩnh vực phòng chống dịch hại trên cá
Trang 16V XÂY DỰNG DỊCH VỤ HỖ TRỢ NGỮ NGHĨA
CHO NÔNG DÂN
V.1 Sơ đồ tổng thể
Hệ thống gồm ba thành phần chính: bộ tạo ngữ
nghĩa, bộ xử lý và bộ giao tiếp với người dùng Nó
được mô tả như Hình 4
Bộ xử lý thực hiện chức năng phân tích câu truy
vấn do người dùng nhập vào Đối chiếu với từ điển là
các từ đồng nghĩa, đa nghĩa theo ngữ cảnh để được từ
chuyên môn truy vấn kho chứa tri thức Kết quả truy
vấn là bộ từ theo ngữ nghĩa và tìm thông tin trên cơ sở
dữ liệu thông tin dịch hại cung cấp cho người dùng
Bộ giao tiếp với người dùng cung cấp giao diện để
người dùng có thể tương tác với bộ xử lý của hệ thống
Nó sẽ nhận yêu cầu từ người dùng và chuyển cho bộ
xử lý, sau đó sẽ hiển thị kết quả thực hiện từ bộ xử lý
đến người dùng
V.2 Thiết kế tổng thể bộ xử lý của hệ thống
Mô hình xử lý của hệ thống gồm ba thành phần
chính: bộ phân tích từ vựng, bộ truy vấn ngữ nghĩa
trên Sesame và bộ xử lý tìm kiếm
Mô hình xử lý được mô tả ở Hình 5
Bộ truy vấn kho chứa tri thức: thực hiện việc truy vấn bằng SPARQL với tham số đầu vào là các từ chuyên môn có được từ bộ phân tích từ vựng Kết quả trả về là các từ gốc liên quan
Bộ xử lý tìm kiếm: thực hiện việc tìm kiếm theo từ khóa (là các từ gốc trả về từ bộ truy vấn kho chứa tri thức) trong CSDL phòng chống dịch hại Kết quả trả
về của nó là các tài liệu có liên quan được sắp xếp theo độ tương thích của tài liệu (sorting by relevance)
VI KẾT QUẢ THỬ NGHIỆM
Bằng công cụ hỗ trợ là Protégé, các Ontology đã đề xuất được xây dựng theo định dạng chuẩn của ngôn ngữ diễn tả OWL
Dựa trên sơ đồ và mô hình đề xuất, chúng tôi đã xây dựng hệ thống với các bộ xử lý là các Web service
và phần giao tiếp với người dùng là ứng dụng Web Như vậy, bộ xử lý hệ thống sẽ là dịch vụ đa hợp của
ba dịch vụ: dịch vụ phân tích từ vựng, dịch vụ truy vấn kho chứa tri thức và dịch vụ xử lý tìm kiếm Lựa chọn này cho phép xây dựng và lưu trữ phần ngữ nghĩa ở dạng tập trung hoặc phân tán Đối với bộ giao tiếp sẽ
là một ứng dụng web tích hợp của các Web service client Hệ thống đã sử dụng những ngôn ngữ và công
Trang 17cụ như: Java, JSP, OWL, ngôn ngữ truy vấn SPARQL,
kho chứa tri thức Sesame, Web server Apache
Tomcat
Các trường hợp sử dụng của người dùng hệ thống
được mô tả tóm tắt như Hình 6
Hệ thống đã được triển khai thành công trên cổng
thông tin phòng chống dịch hại nằm trong khuôn khổ
của đề tài cấp Nhà nước KC.01.15/06-10 Người sử
dụng có thể dùng trình duyệt web để truy cập vào hệ
thống tại địa chỉ www.phongchongdichhai.org.vn
Trong mỗi lĩnh vực (lúa, tôm hay cá), người dùng
có thể tìm kiếm thông tin dịch hại thông qua ba tùy
chọn: Tìm theo từ khóa, Tìm với trợ giúp và Tìm theo
ngữ nghĩa Với chức năng tìm theo từ khóa sẽ cho
phép người dùng tìm kiếm các tài liệu có liên quan
đến một từ khóa đã cung cấp (searching for
relevance) Chức năng tìm với trợ giúp, người dùng có thể tìm kiếm tài liệu bằng cách sử dụng các từ khóa gợi ý như bệnh, triệu chứng, tác hại hay cách phòng trị được cung cấp bởi hệ thống Chức năng tìm theo ngữ nghĩa, người dùng tìm kiếm các tài liệu có liên quan theo ngữ nghĩa của nhà nông, nhà khoa học và nhà quản lý Chức năng này sẽ thực hiện việc phân tích các câu hay cụm từ ban đầu để sinh ra nhiều câu hay nhiều cụm từ cùng mang ý nghĩa giống nhau nhưng một phần các từ trong câu hay trong cụm từ thì khác nhau Sau đó xác định ngữ cảnh của câu truy vấn thuộc về triệu chứng bệnh, cách điều trị hay tác hại, v.v, và gửi các từ khóa đến chức năng tìm theo từ khóa để có kết quả
Ngoài ra, hệ thống cũng cung cấp tính năng theo dõi tất cả các câu truy vấn của người dùng để tiện cho việc cập nhật các từ đồng nghĩa hay mới của ba nhà
Hình 6 Sơ đồ Use Case của hệ thống xử lý
Trang 18Chúng tôi minh họa cho hệ thống đã xây dựng
bằng ba kịch bản nhằm thể hiện một cách rõ ràng và
cụ thể những tiện ích mang lại từ dịch vụ hỗ trợ ngữ
nghĩa cho nông dân trong việc tìm kiếm thông tin dịch
hại Kịch bản đầu tiên, khi nông dân nhập vào những
dạng câu hỏi như: “Tôi muốn biết về bệnh đốm đỏ?”,
“Tôi muốn biết về bệnh đỏ mỏ?”, “Tôi muốn biết về
bệnh đỏ kỳ?”, v.v, mặc dù câu truy vấn có vẻ khác
nhau nhưng chúng có cùng nghĩa nên hệ thống hỗ trợ
sẽ trả về cùng một tập tài liệu nói về “bệnh nhiễm
trùng máu” Kịch bản thứ hai, khi nông dân muốn biết
thông tin về một dấu hiệu thấy được cụ thể từ ao nuôi
tôm, như dấu hiệu “nổi đầu” Như vậy với câu hỏi
“tôm bị nổi đầu” kết quả hệ thống trả về là thông tin
tất cả bệnh liên quan đến dấu hiệu “nổi đầu” Mặt
khác, kết quả các tài liệu trả về còn có các tài liệu liên
quan với từ tương đương của “nổi đầu” như “hoạt
động yếu”, “bơi lờ đờ” Kịch bản thứ ba, khi nông dân
nhập vào những câu hỏi dạng “khô cổ bông là sao”,
“biểu hiện khô cổ bông”, v.v, hệ thống sẽ trả về tập tài
liệu nói về “triệu chứng của bệnh đạo ôn” Trong khi
đó những câu hỏi dạng “khô cổ bông”, “kho co bong”,
“dao on”, v.v, hệ thống sẽ trả về tập tài liệu nói về
“triệu chứng, tác hại và điều trị bệnh đạo ôn”
Việc đánh giá khảo sát các chức năng của hệ thống
đã được thực hiện bởi một nhóm tác giả độc lập Dựa
trên báo cáo “Thử nghiệm và Đánh giá các hệ thống
thành phần” [8], chúng ta có được số liệu điều tra trên
đối tượng nông dân như sau: 100% hiểu được mục
đích của các chức năng tìm kiếm, 100% phân biệt
được sự khác biệt về thông tin tìm được bởi các chức
năng Trồng lúa, Nuôi cá, Nuôi tôm, hơn 71.4% phân
biệt được ba cấp độ tìm kiếm thông tin khác nhau,
100% có thể sử dụng được chức năng tìm kiếm thông
tin về dịch bệnh, 90% cho rằng giao diện của chương
trình dễ sử dụng và thỏa mãn nhu cầu Thống kê này
có được từ quá trình kiểm thử bởi nhiều nông dân điển
hình và trong các hội nghị công bố cổng thông tin dịch
hại tại các tỉnh ĐBSCL
Mặc dù hệ thống đã đạt được các mục tiêu đã đề ra
trong phần đặt vấn đề nhưng vẫn còn một số hạn chế nhất định: bộ từ vựng chưa đủ lớn và chưa bao quát hết các trường hợp trong lĩnh vực phòng chống dịch hại mà nó cần được cập nhật theo thời gian; chưa có điều kiện để triển khai sâu rộng đến nhiều hộ nông dân
VII KẾT LUẬN
Việc xây dựng Web ngữ nghĩa cung cấp thông tin
về phòng chống dịch bệnh trên lúa, tôm và cá theo nghĩa của nhà nông, nhà quản lý và nhà khoa học mang lại tính thiết thực cao, phù hợp với tình hình thực tế của cả nước nói chung và các tỉnh ĐBSCL nói riêng Với sự phát triển không ngừng của ngành công nghệ thông tin và đặc biệt là Internet như hiện nay, nhu cầu tìm kiếm thông tin trên mạng ngày càng nhiều Đối với các nhà khoa học và đặc biệt là nông dân thì việc nắm bắt thông tin về khoa học kỹ thuật, về phòng và trị dịch bệnh, để giảm thiểu rủi ro và tăng năng suất cây trồng vật nuôi được xem như là nhu cầu rất cần thiết hiện nay Những kết quả chính đã đạt được:
Trước hết, xây dựng được ba bộ từ vựng và ba Ontology về lĩnh vực phòng chống dịch hại trên lúa, tôm và cá; đây là một vấn đề mới mà chúng tôi đã đạt được Bộ từ vựng này được xây dựng bởi việc tham khảo tài liệu, giáo trình, bài viết của các đơn vị chuyên ngành; sự đóng góp ý kiến của các chuyên gia ngành nông nghiệp; phỏng vấn trực tiếp và phát bảng câu hỏi với những nông dân trực tiếp nuôi trồng ở nhiều nơi khác nhau
Ngoài ra, xây dựng được hệ thống hỗ trợ cung cấp thông tin về phòng chống dịch hại theo ngữ nghĩa Nó cho phép nhà nông, nhà quản lý hay nhà khoa học tìm kiếm thông tin dễ dàng hơn nhờ chức năng xử lý ngữ nghĩa Đặc biệt, hệ thống đáp ứng đòi hỏi về việc xử
lý câu tìm kiếm của nông dân khi câu tìm kiếm họ nhập vào không chuẩn, nghĩa là câu có từ viết sai chính tả, câu có sử dụng từ địa phương, từ đồng nghĩa, câu có từ thiếu dấu
Trang 19Chúng tôi cũng đã xây dựng và phân tích nhiều
kịch bản tổng hợp với nhiều tình huống khác nhau
Kết quả thử nghiệm đã chứng tỏ các Ontology và mô
hình mà chúng tôi đề xuất là một hướng tiếp cận khả
thi, có thể áp dụng, cải tiến các hạn chế đã trình bày
trong việc tìm kiếm thông tin để hỗ trợ cho nông dân
hiện nay
TÀI LIỆU THAM KHẢO
[1] BERNERS-LEE, T., HENDLER, J AND LASSILA,
O.: The semantic web, Scientific American, Vol 284,
No 5, 2001, pp.34–43
[2] BÙI, Q-T.: Bệnh học thủy sản, Viện nghiên cứu nuôi
trồng thủy sản 1, Bình Đảng – Từ Sơn – Bắc Ninh,
trường Đại học Cần Thơ, 2008(1), tr.181-186
[5] FENSEL, D., HENDLER, J., LIEBERMAN, H AND
WAHLSTER, W.: Spinning the Semantic Web, MIT
Press, 2003
[6] GRUBER, T.R.: A translation approach to portable
ontology specifications, Knowledge Acquisition, 5,
[12] REANTASO, M.G.B., MCGLADDERY, S.E., EAST,
I VÀ SUBASINGHE, R.P.: Hướng dẫn chẩn đoán
bệnh của động vật thủy sản Châu Á, NXB Nông
nghiệp Hà Nội, 2005
[13] SEGARAN, T., EVANS, C AND TAYLOR, J.:
Programming the Semantic Web, O’Reilly Media
Published, 2009
[14] SICILIA, M-Á.: Metadata, semantics, and ontology:
providing meaning to information resources, Int J
Metadata, Semantics and Ontologies, Vol 1, No 1,
2006, pp.83–86
[15] TRẦN, T-C.: Bệnh tôm cá, Bài giảng Khoa Thủy Sản Trường Đại học Nông lâm, Tp Hồ Chí Minh, 2002 [16] TỪ, M-P., và Trịnh, H-K.: Công cụ hỗ trợ tạo ngữ
nghĩa trang Web sử dụng kỹ thuật tách thông tin từ văn bản, 2004
[17] WANG, X and YU, X.: A OWL-Based Semantic Web
Service Discovery Framework, Proceedings of the
Advanced International Conference on Telecommunications and International Conference on Internet and Web Applications and Services (AICT/ICIW), 2006
Trang 20SƠ LƯỢC VỀ TÁC GIẢ
PHAN THƯỢNG CANG
Sinh năm 1975
Tốt nghiệp Đại học Cần Thơ năm 1998 và nhận bằng Thạc sĩ tại Viện Công Nghệ Châu Á (AIT), Bangkok, Thái Lan năm
2006
Hiện nay công tác tại Khoa Công nghệ Thông tin và
Truyền thông, Đại học Cần thơ
Hướng nghiên cứu: Các dịch vụ Web ngữ nghĩa, Điện
toán lưới và Lập trình song song
Email: ptcang@cit.ctu.edu.vn
LÊ QUYẾT THẮNG
Sinh năm 1954
Tốt nghiệp Đại học Toán năm
1977 tại Trường đại học Tổng hợp Tashkent, Uzbekistan, tốt nghiệp Thạc sĩ Toán năm 1985 và bảo vệ luận án Tiến sĩ Toán năm 1988 tại Trường Đại học Tổng hợp Paris 11, CH Pháp
Hiện nay là Trưởng Khoa Công nghệ Thông tin và Truyền thông, Đại học Cần thơ
Hướng nghiên cứu: Mô hình toán về Dự báo và Mô phỏng
Email: lqthang@cit.ctu.edu.vn
Trang 21Abstract: Our investigation aims at detecting
network intrusions using decision tree algorithms In
contrast to other complex models, decision tree
algorithms give high predictive performance for a
relatively small computational effort The tree model
represents inductive rules (IF-THEN) that facilitate
human interpretation However, large differences in
prior class probabilities of intrusion data have been
reported to hinder the performance of decision trees
We propose to replace the Shannon entropy used in
tree induction algorithms with a Kolmogorov-Smirnov
splitting criterion which locates a Bayes optimal
cutpoint of attributes The Kolmogorov-Smirnov
distance based on the cumulative distributions is not
degraded by class imbalance Numerical test results
on the KDDCup99 dataset showed that our proposals
achieve best results compared with the bagged
boosting of trees of the KDDCup’99 winner and
classical decision tree algorithms using the Shannon
entropy
Keywords: Decision trees, Kolmogorov-Smirnov,
Shannon entropy, Network intrusion detection
I GIỚI THIỆU
Sự phát triển mạnh mẽ của cơng nghệ thơng tin và
truyền thơng, đặc biệt là sự bùng nổ người dùng trên
mạng Internet cùng với những tiềm năng của nĩ đã
thay đổi nhiều mơ hình kinh doanh và quản lý của các
tổ chức, cơng ty trên tồn thế giới Tuy nhiên, bên
cạnh phần lớn những người sử dụng mạng máy tính
cho các mục đích lành mạnh, hiệu quả, thì cũng khơng
ít các người dùng sử dụng mạng như là một cơng cụ
để thực hiện các hành vi khơng tốt đặc biệt là tấn cơng
hệ thống Thiệt hại do các cuộc thâm nhập mạng bất hợp pháp gây ra to lớn
Để hạn chế các thiệt hại do việc thâm nhập bất hợp pháp và tấn cơng hệ thống, các mạng máy tính cần cĩ các chính sách hợp lý cho các người dùng thâm nhập mạng Tuy nhiên, việc thâm nhập mạng với mục đích khơng tốt thường rất đa dạng và luơn cải tiến nên các biện pháp phịng chống thường khơng hiệu quả sau một thời gian được cài đặt Để nâng cao hiệu quả của việc phát hiện tấn cơng hệ thống, chúng tơi chọn hướng tiếp cận từ phương pháp học tự động nhằm rút trích các quy luật tấn cơng hệ thống từ dữ liệu là các logfile (tập tin nhật ký) của hệ thống Sau đĩ sử dụng các luật quyết định để bổ sung vào tập luật nhận dạng tấn cơng của chương trình phát hiện tấn cơng hệ thống như SNORT [25] hay OSSEC [27] Để đạt được mục tiêu như yêu cầu, chúng tơi trước tiên nghiên cứu và đánh giá một số giải thuật học của cây quyết định (C4.5 [22] hay CART [5]), rừng ngẫu nhiên (Randoms Forests của Breiman [7]), Bayes thơ ngây (Nạve Bayes [14]) trong việc ứng dụng các giải thuật này vào vấn đề phát hiện xâm nhập hệ thống Qua kết quả nghiên cứu [8], chúng tơi nhận thấy giải thuật học cây quyết định phù hợp với việc phát triển ứng dụng phát hiện xâm nhập mạng do thời gian học của giải thuật nhanh, kết quả nhận dạng khá tốt so với các mơ hình học khác, đồng thời kết quả cĩ thể chuyển thành các luật quyết định dạng IF-THEN dễ hiểu và cĩ thể sử
Nhận dạng tấn cơng mạng với mơ hình trực quan cây quyết định
Network Intrusion Detection with Intuitive Decision Trees
Đỗ Thanh Nghị, Lê Quyết Thắng
Trang 22dụng để bổ sung vào tập luật Để nâng cao hiệu quả
của giải thuật học cây quyết định, chúng tôi cũng đề
xuất cải tiến phương pháp phân hoạch dựa trên khoảng
cách Kolmogorov-Smirnov thay vì chỉ sử dụng hàm
entropy của Shannon [24] Sự thay đổi này đã giúp
giải thuật cho kết quả nhận dạng còn tốt hơn so với
phương pháp tập hợp mô hình phức tạp của người
chiến thắng trong cuộc thi KDDCup 1999, Pfahringer
[21] Các tiêu chí đánh giá thực hiện như đã đề nghị
trong cuộc thi năm 1999 mà Elkan đề xuất [9]
Phần còn lại của bài viết được tổ chức như sau:
phần II trình bày tóm tắt về các phương pháp máy học
cho nhận dạng tấn công mạng Phần III giới thiệu về
cải tiến mô hình cây quyết định dựa trên khoảng cách
Kolmogorov-Smirnov cho nhận dạng tấn công mạng
Phần IV trình bày kết quả thực nghiệm Cuối cùng, kết
luận và hướng phát triển được trình bày trong phần V
II CÁC NGHIÊN CỨU LIÊN QUAN ĐẾN PHÁT
HIỆN TẤN CÔNG MẠNG
Một hệ thống phát hiện tấn công (Intrusion
Detection System – IDS) là một hệ thống an ninh được
cài đặt để giám sát các hệ thống máy tính, các phân
tích lưu thông trên mạng để xác định rằng kết nối truy
cập hệ thống đang được phân tích có phải là một tấn
công từ bên ngoài, kết nối bất thường hay kết nối bình
thường Tổng quát, chúng ta có hai kiểu của hệ thống
phát hiện tấn công:
+ Phát hiện tấn công trên máy (host-based IDS):
được cài đặt trên các máy riêng biệt, phân tích nhật ký
hệ thống (logfile), phát hiện các kết nối bình thường
và các kiểu kết nối bất thường (bao gồm các loại tấn
công, dò tìm thông tin,…) Chúng tôi tập trung nghiên
cứu theo hướng tiếp cận này
+ Phát hiện tấn công trên mạng (network-based
IDS – NIDS): được cài đặt bằng cách thiết lập các
giao diện thu thập thông tin tại các khu vực cần thiết,
phát hiện tấn công bằng cách quan sát các hoạt động
khác nhau trên mạng
Hướng tiếp cận máy học trong phát hiện tấn công mạng đã được biết đến như là tiếp cận hiệu quả và được nhiều nhóm nghiên cứu thực hiện Chúng tôi sẽ trình bày các nghiên cứu liên quan đến vấn đề phát hiện tấn công mạng đã được thực hiện trước đó Với tài trợ của DARPA (Under the sponsorship of Defense Advanced Research Projects Agency) và AFRL (Air Force Research Laboratory), MIT Lincoln Laboratory đã thu thập và tiền xử lý để tạo ra cơ sở dữ liệu DARPA [15] phục vụ cho học dự báo tấn công mạng Trong kỳ KDDCup năm 1999, ban tổ chức đã
sử dụng tập con dữ liệu của DARPA, được tiền xử lý bởi Sal Stofo và Wenke Lee [16] Tập bao gồm 41 thuộc tính tạo thành từ dữ liệu thu thập bởi tcpdump trong năm 1998, được sử dụng làm tập dữ liệu để học
dự báo tấn công, chẳng hạn tấn công từ chối dịch vụ Khi tổng kết cuộc thi KDDCup năm 1999, Pfahringer [21] thắng cuộc với phương pháp bagged boosting cây quyết định [6,12] (rừng cây quyết định) Hạng nhì thuộc về Levin [17] của LLSoft, Inc sử dụng các công cụ hàm nhân Hạng ba được trao cho Miheev et al [19] với phương pháp cây quyết định tối
ưu Khi tổng kết, Elkan [9] cho rằng chỉ có 9 trong tất
cả phương pháp dự thi là tốt hơn phương pháp 1 láng giềng [11]
Sau cuộc thi, đã có rất nhiều nghiên cứu tiếp theo như Ben-Amor et al [2] đã nghiên cứu so sánh kết quả giữa hai giải thuật được sử dụng trong hệ thống phát hiện xâm nhập là Bayes thơ ngây và cây quyết định Stein et al [26] đã đề nghị dùng giải thuật di truyền, qua đó chọn một tập con các thuộc tính đầu vào cho bộ phân loại dùng cây quyết định với mục đích làm tăng hiệu quả phát hiện và giảm tỉ lệ cảnh báo lỗi trong phát hiện xâm nhập mạng
Zhang và Zulkernine [31] áp dụng giải thuật rừng ngẫu nhiên của Breiman [7] xử lý tập dữ liệu KDDCup 1999 Họ đã cố gắng tạo cân bằng cho tập
dữ liệu huấn luyện bằng cách làm giảm số mẫu của
Trang 23lớp đa số (majority class) và tăng số mẫu của lớp thiểu
số (minority class)
Giacinto et al [13] kết hợp nhiều mô hình 1-lớp
với giải thuật gom cụm KMeans của MacQueen [18],
mỗi mô hình 1-lớp được huấn luyện để phân biệt giữa
các mẫu tấn công của dạng tấn công đang xét với tất
cả các mẫu khác Perdisci et al [20] cũng giải quyết
vấn đề phát hiện tấn công bằng cách dùng tập hợp các
mô hình máy học véctơ hỗ trợ 1-lớp của Scholkopf et
al [23]
Bouzida và Cuppens [3,4] đã đề nghị sửa đổi giải
thuật cây quyết định C4.5 để khám phá các tấn công
đã biết và chưa biết Trong tập dữ liệu KDDCup 1999,
có một số kiểu tấn công mới có trong tập kiểm tra
nhưng không có trong tập huấn luyện; điều này sẽ làm
cho việc dự báo các kiểu tấn công mới rất khó Họ đã
giới thiệu một nguyên tắc: một lớp mặc định được k ý
hiệu là lớp mới để gán cho bất kỳ một lớp mới mà nó
không tương ứng với một lớp nào trong tập huấn
luyện Vì vậy, nếu bất kỳ một trường hợp mới nào
không phù hợp với các luật được phát ra bởi cây quyết
định thì trường hợp đó được phân loại là lớp mới thay
thì gán nó vào một lớp mặc định
Xiao et al [30] với mục đích xây dựng một tập hợp
các mô hình của các máy véctơ hỗ trợ của Vapnik [28]
để dự đoán xâm nhập mạng Các kết quả thực nghiệm
đã cho thấy được khả năng ứng dụng của cách tiếp cận
được đề xuất
Engen et al [10] đề nghị một phát triển của mạng
nơ-ron, trong đó, nhiều hàm đánh giá được kiểm tra
Mặc dù có nhiều nghiên cứu cho vấn đề này trong
những năm qua, hầu hết các cách tiếp cận không thể
đạt được kết quả tốt toàn diện so với kết quả của người
chiến thắng trong cuộc thi KDDCup 1999 Hơn nữa,
tiêu chí đánh giá hiệu quả của các phương pháp rất
khác nhau, trước hết là nói đến tập dữ liệu đánh giá,
nghi thức kiểm tra, độ chính xác, chi phí Một điều
quan trọng mà hầu hết các ứng dụng trong thực tế của
bài toán phát hiện tấn công phải quan tâm đến là việc
tạo ra các luật dễ hiểu dạng « nếu (điều kiện) thì (dự đoán tương ứng) » Nếu chúng ta sử dụng những phương pháp phức tạp, khó diễn dịch kết quả, thì việc tạo ra các luật dự báo sẽ rất khó khăn, không có tính ứng dụng cao trong thực tiễn Vấn đề là làm sao nghiên cứu các phương pháp máy học hiện có, so sánh, phân tích, đánh giá hiệu quả và bất lợi của từng phương pháp để chọn ra được một giải pháp tốt cho vấn đề phát hiện tấn công mạng Để đạt được mục tiêu trên, chúng tôi đề xuất sử dụng giải thuật học cây quyết định vì lý do thời gian học của giải thuật nhanh, kết quả nhận dạng khá tốt so với các mô hình học khác, đồng thời kết quả có thể chuyển thành các luật quyết định dạng IF-THEN dễ hiểu và có thể sử dụng
để bổ sung vào tập luật Để nâng cao hiệu quả của giải thuật học cây quyết định, chúng tôi cũng đề xuất cải tiến phương pháp phân hoạch dựa trên khoảng cách Kolmogorov-Smirnov thay vì chỉ sử dụng hàm entropy của Shannon [24] Sự thay đổi này đã giúp giải thuật cho kết quả nhận dạng tốt hơn các lớp thiểu
số Việc thực nghiệm cũng được tiến hành theo các yêu cầu như cuộc thi KDDCup 1999, kết quả của nhóm nhận được cho là rất đáng ghi nhận: tỉ lệ phát hiện đúng các nhóm thiểu số, chi phí (cost matrix) và
độ chính xác tổng thể (global accuracy) còn tốt hơn so với phương pháp tập hợp mô hình phức tạp của người chiến thắng trong cuộc thi KDDCup 1999, Pfahringer [21]
III CÂY QUYẾT ĐỊNH SỬ DỤNG HÀM PHÂN HOẠCH KOLMOGOROV-SMIRNOV
Mô hình cây quyết định có cấu trúc dạng cây mà ở đó:
- Nút lá được gán nhãn tương ứng với lớp của dữ liệu,
- Nút trong được tích hợp với điều kiện kiểm tra để
Trang 24các thuộc tính outlook, temperature, humidity và
windy Mô hình rất dễ hiểu bởi vì chúng ta có thể rút
trích luật quyết định tương ứng với nút lá có dạng
IF-THEN được tạo ra từ việc thực hiện AND trên các
điều kiện theo đường dẫn từ nút gốc đến nút lá Các
luật quyết định dễ hiểu với người sử dụng
Giải thuật học cây quyết định gồm 2 bước lớn: xây
dựng cây (Top-down), cắt nhánh (Bottom-up) để tránh
học vẹt Quá trình xây dựng cây được làm như sau:
- bắt đầu nút gốc, tất cả các dữ liệu học ở nút gốc,
- nếu dữ liệu tại 1 nút có cùng lớp thì nút được cho
là nút lá, nhãn của nút lá là nhãn của các phần tử trong
nút lá (hay luật bình chọn số đông nếu nút lá có chứa
các phần tử có lớp khác nhau),
- nếu dữ liệu ở nút quá hỗn loạn (các phần tử có lớp
rất khác nhau) thì nút được cho là nút trong, tiến hành
phân hoạch dữ liệu một cách đệ quy bằng việc chọn 1
thuộc tính để thực hiện phân hoạch tốt nhất có thể
Quá trình xây dựng cây chủ yếu phụ thuộc vào việc
chọn thuộc tính tốt nhất để phân hoạch dữ liệu Chọn
thuộc tính phân hoạch tốt theo nghĩa, cho ra kết quả là
cây nhỏ nhất Việc lựa chọn này dựa vào các heuristics: chọn thuộc tính sinh ra các nút thuần khiết nhất
Giải thuật học cây quyết định tiêu biểu C4.5 của Quinlan [22] sử dụng entropy của Shannon để đánh giá sự hỗn loạn thông tin Theo như Hình 2, độ hỗn loạn đạt cực đại khi phân phối xác suất của lớp bằng nhau (bài toán 2 lớp, thì giá trị 0.5) Nhưng nếu tỉ lệ
dữ liệu đã biết là lệch nhau, chẳng hạn ta có 10% là lớp dương (pos) và 90% là lớp âm (neg), thì tại một nút khi phân hoạch, độ hỗn loạn nên đạt cực đại khi biết xác suất của lớp dương là 0.1 chứ không phải là 0.5 Đây là yếu điểm của việc dùng hàm entropy khi
xử lý dữ liệu không cân bằng về lớp Trong thực tế, dữ liệu thường mất cân bằng, cụ thể là tập dữ liệu KDDCup 1999, các nối kết bình thường và tấn công từ chối dịch vụ chiếm đa số trong tập dữ liệu, các kiểu tấn công khác thường rất ít, chính vì lý do đó mà giải thuật cây quyết định C4.5 không xử lý tốt tập dữ liệu phát hiện tấn công mạng bằng các phương pháp thắng giải trong cuộc thi Đây cũng là nguyên nhân gây hiệu quả thấp của các phương pháp đề xuất trong phần lớn các nghiên cứu liên quan trong những năm qua
Hình 1 Cây quyết định cho tập dữ liệu weather
Trang 25Hình 2 Hàm entropy của Shannon
Để khắc phục nhược điểm này, chúng tôi đề nghị
thay thế hàm phân hoạch cây quyết định bằng khoảng
cách Kolmogorov-Smirnov có thể xử lý tốt hơn cho
dữ liệu không cân bằng
Hình 3 Hàm mật độ xác suất
Về cơ bản, khoảng cách Kolmogorov-Smirnov
dùng để đo sự tách biệt của 2 hàm phân phối xác suất
Xét bài toán phân lớp nhị phân (lớp dương-pos,
âm-neg); với hàm mật độ xác suất tương ứng là fpos(X),
fneg(X) trên thuộc tính X như Hình 3
Điểm phân hoạch ở X = 8 trong trường hợp này
nhằm cực tiểu rủi ro Bayes cho phân lớp sai của cả lớp
dương và lớp âm Điểm phân hoạch tại X = 8 có thể
được xác định dễ dàng hơn dựa trên khoảng cách tối
đa giữa 2 hàm phân phối tích lũy, cdfpos(X), cdfneg(X)
(Hình 4) Vấn đề được biết đến như là khoảng cách
Kolmogorov-Smirnov Trong thực tế, không cần tính chính xác hàm phân phối tích lũy mà thường làm việc với hàm phân phối tích lũy thực nghiệm (gần đúng) thì khá đơn giản
Hình 4 Khoảng cách Komogorov-Smirnov trên hàm phân
IV KẾT QUẢ THỰC NGHIỆM
Để đánh giá hiệu quả của giải thuật học cải tiến cây quyết định sử dụng hàm phân hoạch dựa trên khoảng cách Kolmogorov-Smirnov, chúng tôi đã thay đổi mã nguồn của C4.5 [22] (sẵn dùng tại địa chỉ http://www.rulequest.com/Personal/c4.5r8.tar.gz) Sau
đó tiến hành thực nghiệm trên tập dữ liệu KDDCup năm 1999 Tập bao gồm 41 thuộc tính tạo thành từ dữ liệu thu thập bởi tcpdump trong năm 1998, được sử dụng làm tập dữ liệu để học dự báo 4 nhóm tấn công bao gồm : tấn công từ chối dịch vụ (DoS), tấn công người dùng giả danh root (U2R), tấn công từ xa vào cục bộ (R2L), tấn công thăm dò (Probe) Dữ liệu được phân bố trong tập học và tập kiểm tra được cho như Bảng 1
Nhìn vào bảng phân bố dữ liệu tập học, chúng ta có thể thấy được có 2 lớp đa số là nối kết bình thường
Trang 26(Normal) và tấn công từ chối dịch vụ (DoS) Còn 3 lớp
còn lại là lớp thiểu số có rất ít phần tử Chính vì lý do
này mà đa số các phương pháp học vẫn không hiệu
quả khi nhận dạng các tấn công thuộc 3 lớp thiểu số
Cách đánh giá hiệu quả của các giải thuật học là sử
dụng tập học để xây dựng mô hình, dùng tập kiểm tra
để đánh giá mô hình Tuy nhiên trong cuộc thi
KDDCup 1999, ngoài độ chính xác của từng lớp và độ
chính xác toàn cục, ban tổ chức đề nghị dùng ma trận
chi phí để đánh giá hiệu quả của các giải thuật Để tính
toán chi phí tổng cộng, trước hết, chúng ta cần tính
toán ma trận dự báo (confusion matrix) M mà ở đó,
mỗi phần tử Mij biểu diễn cho số mẫu thuộc lớp thứ i
được phân loại thành lớp thứ j Chuyên gia cũng cung
cấp ma trận chi phí C như Bảng 2 trong đó mỗi phần
tử Cij là chi phí tương ứng cho dự báo mẫu thuộc lớp thứ i được phân loại thành lớp thứ j Gọi tổng chi phí
là Cost, N là tổng số mẫu tin trong tập kiểm tra, ta có :
∑
=
0 ,
1
j
ij
ijM C N Cost
Chúng tôi tiến hành đánh giá hiệu quả nhận dạng tấn công mạng bằng cách so sánh kết quả thực nghiệm của các phương pháp học như cây quyết định C4.5 của Quinlan [22], cây quyết định C4.5 sử dụng khoảng cách Kolmogorov-Smirnov như đề xuất (viết tắt là C4.5-KS), rừng ngẫu nhiên của Breiman [7] (50 cây quyết định, mỗi lần phân hoạch lấy ngẫu nhiên 20 thuộc tính, viết tắt RF) và Bayes thơ ngây (viết tắt là
NB [14]) Chúng tôi sử dụng chương trình C4.5 để thực thi giải thuật truyền thống cây quyết định C4.5 và cây quyết định C4.5-KS đề xuất Thư viện máy học Weka [29] cũng được sử dụng cho các giải thuật còn lại (RF và NB) Sau cùng chúng tôi so sánh kết quả thu được từ các giải thuật với người thắng cuộc tại KDDCup 1999 (viết tắt là Winning [21]) Kết quả thực nghiệm trình bày trong Bảng 3
Trang 27Hình 5 Cây quyết định cho nhận dạng tấn công mạng, rút trích luật dự báo tấn công từ chối dịch vụ (DoS).
Trong bảng, các kết quả tốt nhất được in đậm Khi
so sánh phương pháp chúng tôi đề xuất sử dụng
khoảng cách Kolmogorov-Smirnov để làm hàm phân
hoạch cây quyết định, kết quả thu được gần với dự
tính ban đầu Tức là giải thuật học cây quyết định
được cải thiện hiệu quả khi nhận dạng các lớp thiểu
số, trường hợp cụ thể là lớp R2L mặc dù vậy vẫn
không làm mất quá nhiều dự báo của lớp đa số, chính
vì lẽ đó, khi tính trên tổng chi phí, C4.5-KS cho chi
phí thấp nhất và độ chính xác toàn cục cao nhất Đây
được biết như thành công lớn khi so sánh với người
thắng cuộc của KDDCup 1999 Hơn nữa ở đây chúng
tôi thu được kết quả dự báo tốt chỉ trên mô hình cây
quyết định 211 nút như Hình 5, dễ rút trích các luật dự
báo dạng IF-THEN để bổ sung cho tập luật dự báo của
các chương trình SNORT [25] hay OSSEC [27]
Chúng tôi cũng đề nghị trang bị thêm công cụ
tương tác cho phép khai thác một cách trực quan cây
quyết Các chuyên gia an ninh có thể:
- Rút trích các luật IF-THEN Nếu là nút lá thì ta có
một luật quyết định là đường dẫn từ nút gốc (Root)
đến nút lá (Hình 5) Nếu là nút trong ta có tập luật tương ứng với các nút lá của nút trong
- Dự báo trực tuyến, có ghi nhận luật dự báo được
sử dụng
V KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Chúng tôi vừa trình bày giải thuật học cải tiến cây quyết định để phát hiện xâm nhập mạng Chúng tôi đề xuất phương pháp phân hoạch dựa trên khoảng cách Kolmogorov-Smirnov thay vì chỉ sử dụng hàm entropy của Shannon Với tiêu chí đánh giá hiệu quả giải thuật thực hiện như Elkan [9] đã đề nghị trong cuộc thi năm 1999, chúng tôi tiến hành so sánh hiệu quả của giải thuật chúng tôi đề xuất với các mô hình học khác như rừng ngẫu nhiên [7], Bayes thơ ngây [14] và cả người thắng cuộc KDDCup 1999 [21] Thực nghiệm cho thấy cây quyết định sử dụng hàm phân hoạch Kolmogorov-Smirnov cho kết quả nhận dạng còn tốt hơn so với phương pháp tập hợp mô hình phức tạp của người chiến thắng trong cuộc thi KDDCup 1999 Hơn nữa, kết quả trên mô hình một
Trang 28cây quyết định có thể chuyển thành các luật quyết định
dạng IF-THEN dễ hiểu bởi các chuyên gia nhờ vào
công cụ hiển thị tương tác cây quyết định
Trong tương lai chúng tôi trích các luật dự báo để
bổ sung luật cho các hệ thống nhận dạng tấn công
mạng như SNORT [25] hay OSSEC [27]
TÀI LIỆU THAM KHẢO
[1] ASUNCION, A and NEWMAN, D., UCI repository
of machine learning databases, 2007
http://www.ics.uci.edu/~mlearn/MLRepository.html
[2] BEN-AMOR, N., BENFERHAT, S., ELOUEDI, Z.,
Naive bayes vs decision trees in intrusion detection
systems, In: ACM Symposium on Applied Computing,
(2004) 420–424
[3] BOUZIDA, Y., CUPPENS, F., Detecting known and
novel network intrusion In: IFIP/SEC 2006, 21st IFIP
TC-11 International Information Security Conference
Karlstad University, 2006
[4] BOUZIDA, Y., CUPPENS, F., Neural networks vs
decision trees for intrusion detection, In: IEEE IST
Workshop on Monitoring, Attack Detection and
Mitigation., 2006
[5] BREIMAN, L., FRIEDMAN, J., OLSHEN, R.,
STONE, C., Classification and Regression Trees,
Chapman & Hall, New York, 1984
[6] BREIMAN, L., Bagging predictors, Machine Learning
24(2):123–140, 1996
[7] BREIMAN, L., Random forests, Machine Learning
45(1):5–32, 2001
[8] DO, T-N., LENCA, P and LALLICH, S., Enhancing
network intrusion classification with the
Kolmogorov-Smirnov splitting criterion in proc of ICTACS’10, The
3rd International Conference on Theories and
Applications of Computer Sciences, Vietnam, 2010
[9] ELKAN, C., Results of the kdd’99 classifier learning,
SIGKDD Explorations 1(2) (2000) 63–64
[10] ENGEN, V., VINCENT, J., PHALP, K., Enhancing
network based intrusion detection for imbalanced data,
International Journal of Knowledge-Based Intelligent Engineering Systems 12(5-6) (2008) 357–367
[11] FIX, E., HODGES, J., Discriminatoiry Analysis: Small
Sample Performance, in Technical Report 21-49-004,
USAF School of Aviation Medicine, Randolph Field, USA, 1952
[12] FREUND, Y., SCHAPIRE, R., A decision-theoretic
generalization of on-line learning and an application
to boosting, Computational Learning Theory, 1995, pp
23–37
[13] GIACINTO, G., PERDISCI, R., ROLI, F., Network
intrusion detection by combining one-class classifiers,
In: Image Analysis and Processing , (2005) 58–65 [14] GOOD, I., The Estimation of Probabilities: An Essay
on Modern Bayesian Methods, MIT Press, 1965
[15] LAB, M.L., Darpa intrusion detection evaluation,
1999, http://www.ll.mit.edu/IST/ideval
[16] LEE, W., A data mining framework for constructing
features and models for intrusion detection systems
(1999) [17] LEVIN, I., Kdd-99 classifier learning contest llsoft’s
results overview, SIGKDD Explorations 1(2) (2000)
67–75 [18] MACQUEEN, J., Some methods for classification and
analysis of multivariate observations, Berkeley
Symposium on Mathematical Statistics and Probability, University of California Press (1) (1967) 281–297
[19] MIHEEV, V., VOPILOV, A., SHABALIN, I., The
mp13 approach to the kdd’99 classifer learning contest, SIGKDD Explorations 1(2) (2000) 76–77
[20] PERDISCI, R., GU, G., LEE, W., Using an ensemble
of one-class svm classifiers to harden payload-based anomaly detection systems, In: the Sixth International
Conference on Data Mining (2006) 488–498
[21] PFAHRINGER, B., Winning the kdd99 classification
cup: Bagged boosting, SIGKDD Explorations 1(2)
(2000) 65–66
Trang 29[22] QUINLAN, J., C4.5: Programs for Machine Learning,
Morgan Kaufmann Publishers, 1993
[23] SCHOLKOPF, B., PLATT, J., SHAWE-TAYLOR, J.,
SMOLA, A., WILLIAMSON, R., Estimating the
support of a high-dimensional distribution, Neural
Computation 13 (2001) 1447–1471
[24] SHANNON, C-E., A mathematical theory of
communication, Bell System Technological Journal
(27):379–423, 623–656, 1948
[25] Sourcefire SNORT: open source network intrusion
http://www.snort.org/
[26] STEIN, G., CHEN, B., WU, A., HUA, K., Decision
tree classifier for network intrusion detection with
ga-based feature selection, In: 43rd ACM Southeast
Conference, (2005) 136–141
[27] Trend Micro OSSEC, Open Source Host-based
Intrusion Detection System,
http://www.ossec.net/main
[28] VAPNIK, V., The Nature of Statistical Learning
Theory, Springer-Verlag, New York, 1995
[29] WITTEN, I-H., FRANK, E., Data Mining: Practical
Machine Learning Tools and Techniques with Java
Implementations, Morgan Kaufmann, San Francisco,
2000
[30] XIAO, H., HONG, F., ZHANG, Z., LIAO, J.,
Intrusion detection using ensemble of svm classifiers,
In: Fourth International Conference on Fuzzy Systems
and Knowledge Discovery, (2007) 45–49
[31] ZHANG, J., ZULKERNINE, M., Network intrusion
detection using random forests, In: Third Annual
Conference on Privacy, Security and Trust, (2005)
SƠ LƯỢC VỀ TÁC GIẢ
ĐỖ THANH NGHỊ
Sinh năm 1974
Tốt nghiệp Kỹ sư Tin học năm
1996 tại Trường Đại học Cần Thơ, tốt nghiệp Thạc sĩ Tin học năm 2001 tại Viện Tin Học Pháp Ngữ IFI Hà Nội, tốt nghiệp Thạc sĩ Tin học năm 2002
và bảo vệ luận án Tiến sĩ Tin học năm 2004 tại Trường Đại học Nantes, CH Pháp
Hiện nay công tác tại Khoa Công nghệ Thông tin và Truyền thông, Đại học Cần Thơ
Lĩnh vực nghiên cứu: Khám phá tri thức và khai mỏ
dữ liệu
Email: dtnghi@cit.ctu.edu.vn
LÊ QUYẾT THẮNG
Sinh năm 1954
Tốt nghiệp Đại học Toán năm
1977 tại Trường đại học Tổng hợp Tashkent, Uzbekistan, tốt nghiệp Thạc sĩ Toán năm 1985 và bảo vệ luận án Tiến sĩ Toán năm 1988 tại Trường Đại học Tổng hợp Paris 11, CH Pháp
Hiện nay là Trưởng Khoa Công nghệ Thông tin và Truyền thông, Đại học Cần Thơ
Hướng nghiên cứu: Mô hình toán về Dự báo và Mô phỏng
Email: lqthang@cit.ctu.edu.vn
Trang 30Abstract: The article introduces modeling theory
and agent-based simulation which are applied to build
a model simulating how the propagation of catfish
diseases work under physical, chemical, and bacterial
conditions of fishponds and water flow in some areas
in the Mekong Delta region in Vietnam The model,
which applies SEIRTS epidemic model, combines two
models (regional model and local model) into one in
Geographic Information System (GIS) environment It
allows the observation of the disease propagation in
whole system (pathogens propagate along the river,
from the river to fishponds and vice versa) and in a
single fishpond (from pathogen to fish, among
individual fish) by adjusting the input arguments (such
as originally infectious state, fish density, fish quality,
fish age, temperature, pH value) The objective is to
predict the infectious process and the treatment of fish
disease
Keyworks: modeling, agent-based simulation, catfish
disease, white spots on the internal organs of catfish,
epidemic model, GAMA
I GIỚI THIỆU
Với vị trí địa lý và điều kiện tự nhiên phù hợp,
nghề nuôi cá tra thâm canh ở vùng ĐBSCL đang ngày
càng phát triển, không những là nguồn thực phẩm
được nhiều người ưa chuộng mà còn giúp tăng đáng
kể kim ngạch xuất khẩu của Việt Nam Tuy nhiên, song song với sự gia tăng diện tích nuôi trồng là những lo lắng về bệnh dịch trên cá và ô nhiễm môi trường do ảnh hưởng của nước thải từ các ao nuôi [1] Theo các chuyên gia nuôi trồng thuỷ sản, hiện tại chưa
có thuốc điều trị đặc hiệu cho bệnh gan thận mủ trên
cá tra do vi khuẩn Edwardsiella Ictaluri gây ra
[4,9,20], nên khi xảy ra dịch bệnh thì thiệt hại cho người nuôi cá là rất cao Cần thiết phải có hệ thống giúp dự báo tình hình lan truyền dịch bệnh giúp người nuôi cá phòng ngừa và ngăn chặn kịp thời quá trình lây lan bệnh trên diện rộng cũng như trong từng ao Việc xây dựng mô hình nhằm mô phỏng quá trình lan truyền dịch bệnh gan thận mủ giữa các ao nuôi theo dòng nước, theo sự di chuyển của sinh vật ăn động vật thủy sản, cũng như sự lây lan bệnh của quần thể cá trong một ao đã được nghiên cứu [3] Tuy nhiên
mô hình hiện tại chưa có sự tích hợp giữa mô hình lan truyền diện rộng trên toàn hệ thống và mô hình đơn lẻ trong từng ao nuôi Để mô hình có thể ứng dụng hiệu quả trong thực tiễn, cần thiết phải tích hợp hai mô hình (toàn hệ thống và từng ao nuôi) thành một mô hình duy nhất, giúp kết quả mô phỏng gần với thực tiễn hơn nhằm hỗ trợ trong việc ra những quyết định liên quan đến hệ thống thực Bài báo trình bày kết quả nghiên cứu và xây dựng mô hình dịch tễ SEIRTS mô phỏng quá trình lan truyền dịch bệnh gan thận mủ trong môi trường GIS cho phép tích hợp quá trình lan truyền
Tiếp cận đa tác tử trên môi trường
hệ thống thông tin địa lý mô phỏng
sự lan truyền dịch bệnh cá tra
Multi Agent-Based Approach in GIS Environment:
Simulation of Catfish Disease Propagation
Hồ Văn Tú, Huỳnh Xuân Hiệp, Alexis Drogoul
Trang 31dịch bệnh trên toàn hệ thống và trong từng ao nuôi cụ
thể
Nội dung bài báo gồm năm phần: phần một giới
thiệu tóm tắt động lực nghiên cứu và các nghiên cứu
liên quan; phần thứ hai giới thiệu về mô phỏng đa tác
tử gắn với môi trường GIS; phần ba trình bày mô hình
và hệ thống mô phỏng lan truyền dịch bệnh; phần bốn
là các thực nghiệm và so sánh kết quả; phần cuối cùng
là kết quả đạt được, một số kiến nghị và hướng phát
với sự trợ giúp của một phương pháp thực nghiệm
(được gọi là bộ mô phỏng), dữ liệu đầu vào của một
mô hình động được xáo trộn, được thực thi và nhận
những dữ liệu đầu ra để hiểu được những chức năng,
đặc tính của mô hình [5] Như vậy việc mô phỏng rất
phù hợp với sự mô hình hóa quá trình lan truyền dịch
bệnh
Mô phỏng đa tác tử là một hệ thống bao gồm nhiều
thực thể (tác tử), những thực thể này phát triển trong
cùng một môi trường, môi trường được thiết kế như
một thực thể đặc biệt để các tác tử khác định vị trong
đó [10,11] Mỗi tác tử có những thuộc tính, những
hành vi, khả năng nhận thức và giao tiếp khác nhau
Tập hợp những giá trị của các thuộc tính của một thể
hiện của thực thể hình thành nên trạng thái của thực
thể đó Hành vi là những luật điều khiển sự thay đổi
trạng thái thông qua việc can thiệp vào các trạng thái
của các tác tử mang những hành vi này, cũng như
những trạng thái của những tác tử khác xuất hiện trong
các sự kiện, hành động, giao tiếp hay tương tác được
mô tả trong các hành vi Như vậy quan trọng nhất
trong hệ thống mô phỏng đa tác tử là môi trường, các
tác tử, và các hành vi của tác tử [10,11,21]
II.2 Hệ nền GAMA
GAMA (GIS & Agent-based Modeling Architecture) [10] là hệ nền mô phỏng thời gian rời rạc và song song với các đặc điểm sau: hỗ trợ mô phỏng dựa trên mô hình đa tác tử, cho phép thực hiện
và quản lý môi trường ở dạng lưới (grid) hay bản đồ
số (GIS) cũng như hiển thị kết quả mô phỏng và đồ thị thống kê ở nhiều dạng khác nhau, hỗ trợ môi trường lập trình bằng ngôn ngữ GAML với tập lệnh phong phú ở dạng các thẻ XML
II.3 Môi trường GIS trong GAMA
Vì dữ liệu được sử dụng trong GIS không chỉ là dữ liệu không gian (hay dữ liệu địa lý) riêng lẻ mà còn được thiết kế trong một cơ sở dữ liệu để lưu trữ dữ liệu thuộc tính [8] nên rất thuận tiện trong việc tạo, cập nhật, và lưu trữ giá trị thuộc tính cho môi trường GAMA hỗ trợ sử dụng bản đồ GIS để tạo môi trường và các tác tử, cho phép lưu trữ và cập nhật giá trị các thuộc tính của tác tử Dữ liệu không gian của bản đồ GIS được sử dụng trong GAMA theo dạng cấu trúc dữ liệu vector (trình bày dưới dạng điểm, đường
và vùng) Dữ liệu thực tế được sử dụng như bản đồ hành chính các cấp, bản đồ sử dụng đất, bản đồ nước giúp kết quả mô phỏng được gần hệ thống thực hơn
III MÔ HÌNH LAN TRUYỀN DỊCH BỆNH
là thời kỳ bệnh phát triển cao nhất, triệu chứng điển hình của bệnh thể hiện rõ nhất, cuối thời kỳ này nếu mầm bệnh thắng cơ thể cá thì cá có thể bị chết, ngược
Trang 32lại nếu thuốc chữa trị có tác dụng diệt mầm bệnh, các
tác nhân gây bệnh, triệu chứng bệnh lý sẽ mất đi, hiện
tượng cá chết giảm và chuyển qua thời kỳ phục hồi
(Recorvered) đó là khi việc chữa trị bệnh lý đã dứt
hẳn, các chức năng sinh lý hồi phục hoàn toàn, cơ thể
hoạt động trở lại bình thường Ngoài ra, do cá có thể
mắc bệnh lại nhiều lần trong chu kỳ sống chứ không
hoàn toàn miễn nhiễm sau khi hết bệnh nên ta gọi đó
là thời kỳ tạm thời miễn dịch (Temporary Immune),
sau thời gian này có thể cá sẽ trở lại trạng thái nhạy
cảm với bệnh
Với đặc tính như trên kết hợp với các nghiên cứu
về mô hình dịch tễ học [13,16,18,22]; đặc biệt các mô
hình SEIR, SEIRS [12,14,15,17,19]; bài báo đã điều
chỉnh cho phù hợp với các thời kỳ của bệnh gan thận
mủ trên cá tra hình thành mô hình SEIRTS như Hình
1
Nếu ngay từ thời kỳ dự phát (Exposed), người nuôi
phát hiện kịp thời và dùng thuốc đúng qui định thì cá
sẽ phục hồi (E R), ngược lại nếu không phát hiện
kịp thời và mầm bệnh gặp điều kiện thuận lợi thì sẽ
chuyển qua trạng thái bệnh (E I)
D’ = D + (S + E + I + R + T)d + αI N’ = N = S’ + E’ + I’ + R’ + T’ + D’
Trong đó: λ là tỉ lệ lan truyền do tiếp xúc với mầm bệnh, cá bệnh, và môi trường ở trạng thái nhạy cảm;
λSI là số cá thể chuyển trạng thái từ nhạy cảm sang dự phát d: tỉ lệ chết ngẫu nhiên (do điều kiện môi trường sống); ε là tỉ lệ lan truyền do tiếp xúc với mầm bệnh,
cá bệnh, và môi trường ở trạng thái dự phát; p là xác suất chuyển đổi trạng thái từ dự phát sang nhiễm bệnh; 1- p là xác suất chuyển đổi trạng thái từ dự phát sang phục hồi; pεE là số cá thể chuyển trạng thái từ dự phát sang nhiễm bệnh; (1 - p)εE là số cá thể chuyển trạng thái từ dự phát sang phục hồi; α là tỉ lệ chết do bệnh không được chữa kịp thời hoặc thuốc không phát huy tác dụng; αI là số cá thể chết do nhiễm bệnh; γ là tỉ lệ chuyển đổi từ trạng thái bệnh qua trạng thái phục hồi;
γI là số cá thể chuyển trạng thái từ nhiễm bệnh sang phục hồi; δ là tỉ lệ chuyển đổi từ trạng thái phục hồi qua trạng thái tạm thời miễn dịch; δR là số cá thể chuyển trạng thái từ phục hồi sang tạm thời miễn dịch;
β là tỉ lệ chuyển đổi từ trạng thái tạm thời miễn dịch qua trạng thái nhạy cảm; βT là số cá thể chuyển trạng thái từ tạm thời miễn dịch sang nhạy cảm
Hình 1 Mô hình SEIRTS cho bệnh gan thận mủ
βTλSI
Trang 33( +ε )( λ +ε α+γ )
=
d d
Sp
R0
Các tỉ lệ λ, ε, α, γ, β, δ phụ thuộc vào rất nhiều yếu
tố như: mật độ cá nuôi, chất lượng cá giống, nhiệt độ,
độ pH, mức N-NH3, độ trong của nước nên sẽ được
tính dựa trên các yếu tố này
Tỉ số sinh cơ bản R0 [14,17]: số lượng trung bình
cá thể bị lây nhiễm bởi một cá thể đã bị nhiễm trong
tập dân số chưa bị lây nhiễm Từ các công thức tính số
cá thể trong các trạng thái ở thời điểm hiện tại, ta tính
được: (tham khảo chi tiết tại Phụ lục)
Với R0 > 1 thì bệnh dịch bùng phát (epidemic), với
R0 = 1 thì bệnh chỉ lây lan nhẹ trong vùng (endemic),
ngược lại với R0 < 1 thì bệnh dịch tắt dần [14] Như
vậy dịch bệnh lan truyền chủ yếu ảnh hưởng bởi số
lượng các tiếp xúc với mầm bệnh trong quần thể (λS)
và xác suất chuyển đổi trạng thái từ dự phát qua nhiễm
bệnh (p) Điều này cũng cho thấy việc khuyến cáo
người nuôi chọn mật độ cá nuôi phù hợp là đặc biệt
quan trọng
III.2 Môi trường
Môi trường là một phần thiết yếu của hệ đa tác tử;
là nơi chứa các tác tử, tài nguyên; phục vụ các chức
năng như nhận thức, di chuyển, định vị Mô hình lan
truyền có thể được xây dựng trên một huyện, một tỉnh
hay kết hợp nhiều tỉnh Trong bài báo này mô hình
được xây dựng trong phạm vi một huyện tiêu biểu của
vùng ĐBSCL2 Dữ liệu bản đồ GIS được lọc từ bản đồ
số Việt Nam3, bổ sung thuộc tính cho phép cập nhật
thông số các tác tử, gồm các lớp: xã-phường
(Villages), sông ngòi (Rivers), và hệ thống ao nuôi
(Ponds)
1 Basic reproduction number hay Basic reproduction ratio
2 Huyện Phú Tân tỉnh An Giang vì ở đây có cả hai nhánh
sông của Sông Tiền và Sông Hậu chảy vào rất thuận lợi cho
nuôi cá tra thâm canh ở hai bờ sông
3 http://gis.chinhphu.vn
III.3 Tác tử
Các tác tử tạo ra sẽ định vị trong môi trường của
mô hình, dựa trên mối quan hệ của tác tử mà các hành
vi của chúng trong hệ thống sẽ tác động qua lại tạo nên sự biến đổi của hệ thống theo thời gian Các tác tử trong hệ thống được xây dựng như sau:
− Tác tử sông: trao đổi nước với hệ thống ao nuôi,
là môi trường sống và lây lan của mầm bệnh thể hiện quá trình lây lan bệnh giữa các ao trong vùng
− Tác tử ao: là môi trường sống và phát triển của
cá, đồng thời cũng là môi trường lây lan bệnh theo hành vi lấy và xả nước, lan truyền bệnh cho ao lân cận
Có 3 loại ao trong hệ thống: ao lắng (ao loại 1: front-pond) xử lý nước trước khi đưa vào ao nuôi chính giúp giảm được sự lan truyền bệnh theo dòng nước, ao nuôi chính (ao loại 2: main-pond), và ao thải (ao loại 3: back-pond) xử lý nước thải trước khi đưa ra sông giúp giảm lan truyền bệnh theo đường nước, đồng thời cũng giảm tác động đến môi trường xung quanh Một ao nuôi đúng tiêu chuẩn sẽ bao gồm ao nuôi chính, ao lắng và ao thải Tuy nhiên trong thực tế
có rất ít hộ nuôi cá thực hiện đúng (do chi phí khá cao) nên trong thực tế còn có các mô hình ao khác: chỉ có
ao nuôi chính, có ao nuôi chính và ao lắng, có ao nuôi chính và ao thải
Trạng thái ao nuôi sẽ tương ứng với trạng thái của
đa số cá trong ao và một số điều kiện môi trường khác Khi cá bị mầm bệnh tấn công, nếu người nuôi phát hiện và sử dụng thuốc kịp thời thì sẽ giúp cá nhanh chóng phục hồi, ngược lại thì cá sẽ bị nhiễm bệnh và lan truyền bệnh lẫn nhau gây ra nguy cơ thiệt hại cao Máy trạng thái hữu hạn cho hệ thống ao được mô tả như Hình 2 cho thấy ao sẽ đổi màu khi chuyển qua trạng thái khác; trong trạng thái ao sẽ lan truyền bệnh cho các ao lân cận nếu ở trạng thái dự phát, hoặc nhiễm bệnh, hoặc chết (thiệt hại trên 95%)
Trang 34− Tác tử cá: với nhiều hành vi tương tác với môi
trường (ao), mầm bệnh, thuốc chữa bệnh, và giữa
những cá thể cá với nhau do tiếp xúc trong một bán
kính cho phép gọi là bán kính giao tiếp hay không
gian lây nhiễm
− Tác tử mầm bệnh: với hành vi lan truyền bệnh
cho các cá thể cá do sự tiếp xúc trực tiếp giữa mầm
bệnh với quần thể cá trong ao và cập nhật trạng thái
(di chuyển, sinh sản thêm hay chết đi do ảnh hưởng
khi môi trường thay đổi)
− Tác tử người nuôi cá: thể hiện quá trình chăm
sóc ao cá, đảm bảo nước trong ao, sức khỏe của cá,
phát hiện dấu hiệu cá nhiễm bệnh để kịp thời sử dụng
thuốc chữa trị cho cá
− Tác tử thuốc chữa bệnh cá: do người nuôi tạo ra
khi phát hiện trong ao có cá nhiễm bệnh, thuốc có thể
làm cho cá giảm dần bệnh và đi đến hết bệnh, cũng có
thể diệt bớt mầm bệnh trong ao
− Tác tử thuốc xử lý nước: do người nuôi tạo ra ở
ao lắng và ao xả khi thực hiện thay nước trong ao, giúp làm sạch nước, giảm sự lan truyền mầm bệnh và tránh được sự ô nhiễm môi trường
III.4 Mô hình tương tác giữa các tác tử trên toàn
hệ thống
Qua nghiên cứu hệ thống thực, mô hình tương tác giữa các tác tử trên toàn hệ thống được xây dựng có dạng như Hình 3 với đặc điểm như sau: nước lan truyền và mang theo mầm bệnh trên sông từ nơi này qua nơi khác, khi ao có nhu cầu lấy nước thì mầm bệnh sẽ theo nước vào ao; nếu ao nuôi chính có ao lắng thì nhờ thời gian và thuốc xử lý nước sẽ tiêu diệt đáng kể mầm bệnh và lọc sạch nước, ngược lại thì mầm bệnh sẽ vào thẳng ao nuôi chính chờ điều kiện môi trường thuận lợi để tấn công và gây bệnh cho cá; tương tự, khi có nhu cầu xả nước ra ngoài, nếu có ao thải để lọc cặn và mầm bệnh thì sẽ giảm sự lan truyền bệnh cho các ao khác cũng như chính ao đang xả nước
Đổi màu hiển thị
Lây nhiễm cho ao khác
Trang 35ra, ngược lại không những gây ảnh hưởng đến vùng
nuôi mà còn có tác động xấu đối với môi trường sống;
ngoài ra, giữa các ao cũng có sự lây lan bệnh thông
qua sự di chuyển của các động vật ăn thủy sản như
chim, cua, rắn
III.5 Mô hình tương tác giữa các tác tử trong từng
ao nuôi
Trong mô hình lan truyền trên toàn hệ thống chúng
ta chỉ xét các trạng thái của ao (hay quần thể cá ở
trong ao) nên khi thấy ao có những dấu hiệu của bệnh
thì có thể trong ao đã có cá nhiễm bệnh mà người nuôi
chưa phát hiện được Mô hình lan truyền trong từng ao
nuôi như Hình 4 thể hiện chi tiết trạng thái từng tác tử
cũng như hành vi tương tác giữa các tác tử trong ao
(giữa các cá thể cá, giữa mầm bệnh với cá, giữa thuốc
chữa bệnh với cá, giữa thuốc với mầm bệnh) trong
vùng giao tiếp Mô hình cho phép theo dõi diễn biến
quá trình lây lan bệnh và chữa bệnh từ đó giúp hỗ trợ người nuôi cá ra quyết định phù hợp hơn cho hệ thống thực
Mô phỏng quá trình lan truyền dịch bệnh trên toàn hệ thống
Sơ đồ tổng quát hệ thống mô phỏng lan truyền bệnh trên cá tra (PPCDSim-Propagation of Pangasious Catfish Disease Simulation) được thiết kế như Hình 5 với ba phần lớn:
− Dữ liệu đầu vào: các điều kiện môi trường, mật
độ cá, chất lượng cá bột (cá giống), mức độ dịch bệnh khi khởi tạo, trạng thái các ao khi khởi tạo, độ tuổi cá, trạng thái con nước tại thời điểm bắt đầu mô phỏng, nhiệt độ, độ pH, mức N-NH3
− Hệ thống mô phỏng: là phần quan trọng của hệ thống, tích hợp hai mô hình lan truyền bệnh diện rộng trên toàn hệ thống và diện hẹp trong từng ao nuôi cụ thể, quá trình thực thi mô phỏng trên toàn hệ thống được mô tả như lưu đồ giải thuật trong Hình 6
− Hệ thống hiển thị kết quả trực quan: bộ mô phỏng thực thi sẽ cho ra kết quả về tình hình lan truyền dịch bệnh đồng thời ở hai góc độ: sự lan truyền trên toàn hệ thống cung cấp một cái nhìn tổng quan về vấn đề lan truyền bệnh theo mô hình tương tác giữa các tác tử và có thể phóng to để theo dõi sự lan truyền
Hình 3 Mô hình tương tác giữa các tác tử
trên toàn hệ thống
Hình 4 Mô hình tương tác giữa
các tác tử trong từng ao nuôi
Trang 36bệnh trong từng ao thể hiện tính cấp bách của vấn đề
lan truyền bệnh; đồng thời sử dụng đồ thị để mô tả,
thống kê quá trình chuyển đổi trạng thái của hệ thống
Kết quả này có thể hỗ trợ người nuôi ra quyết định để
có thể kịp thời phòng ngừa khi trong vùng đang có
dịch bệnh lây lan, thay đổi cách xây dựng hệ thống ao
nuôi, chọn mật độ nuôi, chế độ chăm sóc và sử dụng
thuốc phù hợp
Để thuận tiện quan sát diễn biến mô phỏng, hệ
thống sử dụng màu cho ao như Bảng 1 với cột thứ
nhất là các trạng thái của ao và cá, cột thứ hai và cột
thứ ba lần lượt là màu cho ao và hình cho cá tương
ứng với các trạng thái ở cột thứ nhất
Bảng 1: Bảng màu và hình biểu diễn ao và cá theo trạng thái
Đồ thị thống kê
Hỗ trợ
Ra quyết
định
Hệ thống PPCDSim Tích hợp
- Lan truyền toàn hệ thống
- Lan truyền trong từng ao
Hình 5 Sơ đồ hệ thống mô phỏng lan truyền dịch bệnh.
Trang 37IV KẾT QUẢ THỰC NGHIỆM
Hệ thống gồm 65 ao với 39 ao nuôi chính, 13 ao
lắng và 13 ao thải, trong đó có 11 ao nuôi chính đúng
tiêu chuẩn (có ao lắng và ao thải), 2 ao nuôi chính có
ao lắng không có ao thải, 2 ao nuôi chính có ao thải
không có ao lắng, và 24 ao nuôi chính không có cả ao
lắng và ao thải; cùng với 1.695 tác tử cá đại diện (theo
mật độ cá 24 con/ m2), khoảng 700 tác tử mầm bệnh
(trên sông và trong ao) Trạng thái từng ao được xác
định thông qua tham số hoặc khởi tạo ngẫu nhiên, thực
nghiệm này chọn khởi tạo với 2 ao đạng ở trạng thái
dự phát, các ao còn lại ở trạng thái nhạy cảm
Thời gian chuẩn cho hệ thống là 60 phút, mỗi bước
mô phỏng hiện tại là 90 phút (tỉ lệ bước mô phỏng
stepRate = 1,5), tùy theo yêu cầu mô phỏng mà có thể
thay đổi thời gian này, số liệu thống kê được ghi nhận
theo từng ngày (16 bước) Ở mỗi bước thực thi ngoài
việc cập nhật các thông số, trạng thái của các tác tử; hệ
thống còn thống kê tổng số ao, tổng số cá trong từng
trạng thái và biểu diễn thông qua biểu đồ
Ngoài ra, thông qua thay đổi các tham số, hệ thống cho phép mô phỏng quá trình lan truyền dịch bệnh theo mức độ lan truyền bệnh, theo độ tuổi của cá, chất lượng cá giống, hoặc theo mật độ cá nuôi từ đó có thể
dự báo trước các trường hợp có thể xảy ra giúp người nuôi cá phòng ngừa trong từng tình huống cụ thể Từ những tình huống nêu trên, bài báo chọn minh họa dựa trên kịch bản là quá trình lan truyền dịch bệnh theo dòng nước trên sông và tương tác giữa các tác tử trong từng ao; trong kịch bản ta sẽ quan sát, phân tích đồng thời trên toàn hệ thống và trong ao nuôi cụ thể
IV.1 Mô phỏng quá trình lan truyền bệnh trên toàn hệ thống
Sau 24 bước mô phỏng (1,5 ngày) ta thấy có một
ao lân cận đã chuyển qua trạng thái dự phát, các ao khác cũng đã có nhiều cá ở trạng thái dự phát, như vậy lúc này hệ thống ao trong vùng đã bị mầm bệnh tấn công và bệnh đã lan truyền theo đường nước trên sông Tới bước 40 thì có một ao nuôi chuyển sạng trạng thái nhiễm bệnh Ở ngày thứ 3 đã có 22 ao ở trạng thái dự phát, 5 ao bị nhiễm bệnh
Hình 7 Hệ thống và các tham số khi khởi tạo
Trang 38
Tới ngày thứ 5 đã có 9 ao ở trạng thái dự phát, 24
ao bị nhiễm bệnh, có 25 cá chết vì bệnh và 1 cá chết
do các điều kiện khác (1,53 %) như Hình 8 Cả 24 ao
bị nhiễm bệnh đều là các ao không có ao lắng, các ao
nuôi có hệ thống ao xử lý nước (các ao có khoanh tròn
O) khó bị bệnh tấn công, có 8 ao đang ở trạng thái dự
phát, và không có ao nào nhiễm bệnh
Tiếp tục quan sát, ta thấy tới ngày thứ 7 thì đa số
các ao bị nhiễm bệnh đã chuyển qua trạng thái phục
hồi chỉ còn 4 ao vẫn đang bị nhiễm bệnh; có 6 ao lắng
ở trạng thái dự phát cũng phục hồi do mầm bệnh
không đủ mạnh Như vậy thuốc chữa bệnh đã phát huy
tác dụng rất tốt, hiện có 90 cá chết vì bệnh và 1 cá chết
do điều kiện khác (5,37 %) như Hình 9
Tới ngày thứ 10 thì tất cả các ao bị nhiễm bệnh và
dự phát trước đó đã được phục hồi, hiện có 123 cá
dự phát đã phục hồi rất nhanh, không bị nhiễm bệnh Ngoài ra ta thấy một số vùng đất đã bị ô nhiễm rất nhiều (vùng được khoanh ở hình 9), đó là ở nơi hệ thống ao không có ao thải xử lý trước khi xả ra sông, nhất là nơi có ao bị nhiễm bệnh đã sử dụng nhiều thuốc nên bị ảnh hưởng khi dư lượng thuốc được thải trực tiếp ra ngoài sông Có khoảng 1.360 cá bị ảnh hưởng (80,24 %), cho thấy dịch bệnh lan truyền rất nhanh và rộng, tuy nhiên nhờ phát hiện kịp thời và sử dụng thuốc hiệu quả nên thiệt hại không quá lớn: đa số
Trang 39IV.2 Mô phỏng quá trình lan truyền bệnh trong
từng ao
Thực hiện phóng to hệ thống ta có thể theo dõi chi
tiết diễn biến lan truyền bệnh trong từng ao nuôi giúp
thuận lợi hơn trong việc phòng ngừa và kịp thời ngăn
chặn dịch bệnh trong ao
Sau 51 bước mô phỏng (hơn 3 ngày) ao đã chuyển
qua trạng thái dự phát với các điểm tròn đỏ là mầm
bệnh như Hình 12, ao bị nhiễm bệnh ở bước 70 với
các điểm tròn xanh dương là thuốc chữa bệnh như
Hình 13, bắt đầu phục hồi ở bước 116, và khỏe hẳn
(tạm thời miễn dịch) ở bước 204 (gần 13 ngày) Quá
trình chuyển đổi trạng thái của cá theo thời gian được
Nhận xét: Sau 15 ngày mô phỏng tất cả cá trong ao
đều bị ảnh hưởng vì ao không có hệ thống xử lọc nước, nên dù phát hiện sớm và thuốc phát có tác dụng tốt nhưng vẫn có 25 cá bị chết (24,75 %) cao hơn rất nhiều so với tỉ lệ của toàn hệ thống Khi cá trong ao đã hoàn toàn bình phục nhưng vẫn còn mầm bệnh trong
ao cũng như ở trên sông nên luôn tiềm ẩn nguy cơ phát bệnh
về mô hình dịch tễ học và các thời kỳ bệnh gan thận
mủ trên cá tra Mô hình được xây dựng trên môi trường GIS với tập các tác tử: xã-phường, sông, ao nuôi, cá, mầm bệnh, thuốc chữa bệnh, thuốc xử lý nước, xác định tập thuộc tính và hành vi của mỗi tác
tử, xây dựng mô hình tương tác giữa các tác tử trong toàn hệ thống cũng như trong mỗi ao nuôi
Hệ thống mô phỏng bằng máy tính trên hệ nền GAMA được xây dựng là sự thực thi mô hình đã đề xuất bằng việc tạo ra tập các tác tử, những hành vi của các tác tử và các thống kê tính toán Hệ thống đã mô phỏng được diễn biến của quá trình phát sinh mầm bệnh trong dòng nước và lan truyền vào các ao nuôi,
mô phỏng sự lan truyền bệnh do các sinh vật ăn xác động vật thủy sản bệnh di chuyển từ ao này sang ao khác và tình hình lan truyền dịch bệnh trong từng ao nuôi Hệ thống còn mô phỏng quá trình sử dụng thuốc chữa bệnh cho cá cũng như thuốc xử lý nước cho ao
Hình 14 Đồ thị chuyển đổi trạng thái của cá trong ao
không có hệ thống xử lý nước
Trang 40lắng và ao thải trong trao đổi nước, ảnh hưởng của
nước thải và dư lượng thuốc đối với môi trường sống
Kết quả mô phỏng có thể hỗ trợ cho việc đưa ra những
lời dự báo sớm để có biện pháp kịp thời trong việc
ngăn chặn cũng như điều trị bệnh cho cá, giảm thiệt
hại cho các hộ nuôi
Kịch bản lan truyền bệnh gan thận mủ trên cá tra
cho phép quan sát, phân tích và nhận xét về các yêu tố
liên quan quá trình lan truyền bệnh trên toàn hệ thống
cũng như trong từng ao nuôi cụ thể giúp có được cái
nhìn toàn cục và chi tiết về vấn đề lan truyền bệnh
Qua quá trình thực hiện mô phỏng quá trình lan
truyền bệnh trong hệ thống theo nhiều trường hợp
khác nhau, một số vấn đề cần được quan tâm như: lan
truyền dịch bệnh là vấn đề thực tiễn phức tạp, cần
công tác hỗ trợ dự báo sớm và có biện pháp phòng
ngừa bệnh, tránh chủ quan gây thiệt hại nặng do không
phát hiện kịp thời; khuyến khích người nuôi cá xây
dựng hệ thống ao nuôi đúng tiêu chuẩn, nuôi cá với
mật độ vừa phải và tuân theo các tiêu chuẩn đã được
khuyến cáo Việc thực nghiệm mô hình lan truyền
dịch bệnh trong bài báo mới dừng ở việc mô phỏng
trên máy tính và chủ yếu dựa trên ý kiến chuyên gia,
chưa được kiểm định đối sánh với thực tiễn lan truyền
dịch bệnh cá tra Mô hình lan truyền dịch bệnh trên cá
tra có thể được phát triển theo hướng mở rộng mô
hình cho phép mô phỏng về tác động của hệ thống
nuôi cá thâm canh đối với môi trường sống
LỜI CẢM ƠN
Chúng tôi xin chân thành cảm ơn Tiến sĩ Lê Quyết
Thắng, Chủ nhiệm Đề tài cấp nhà nước
KC01.15/06-10 về “Nghiên cứu xây dựng các hệ thống thông tin hỗ
trợ việc phòng chống dịch bệnh cây trồng và thuỷ sản
cho vùng kinh tế trọng điểm” đã cung cấp dữ liệu và
hỗ trợ chúng tôi hoàn thành nghiên cứu Chúng tôi
cũng xin chân thành cám ơn Tiến sĩ Phạm Thanh
Liêm, giảng viên Trường Đại học Cần Thơ về bệnh
thủy sản đã góp ý xây dựng mô hình Kết quả nghiên
cứu này nằm trong một nhánh nghiên cứu của Đề tài KC01.15/06-10
TÀI LIỆU THAM KHẢO
[1] Bao dien tu Nong nghiep Viet Nam http://www.nongnghiep.vn/nongnghiepvn/vi- VN/61/158/45/45/45/14209/Default.aspx
[2] NGUYỄN CHUNG, Kỹ thuật sinh sản & nuôi cá tra,
Nhà xuất bản Nông Nghiệp, 2008
[3] LÊ THỊ DIỄM, HUỲNH XUÂN HIỆP, ALEXIS
DROGOUL, Tiếp cận đa tác tử mô phỏng sự lan
truyền dịch bệnh ở cá da trơn, Kỷ yếu hội thảo
ICTFIT’10, Đại học Khoa học tự nhiên, 2010
thủy sản - phần I, Đại học Cần Thơ, 2005
hình hóa hệ thống và mô phỏng, Nhà xuất bản Khoa
học và Kỹ thuật, 2006
sản xuất giống và nuôi cá tra xuất khẩu, Nhà xuất bản
Thanh Hóa
LONG, Chương 5: Kỹ thuật nuôi cá tra, Nuôi trồng
thủy sản, Đại học Cần Thơ, 2009
tin địa lý, Trường Đại học Nông nghiệp 1 Hà Nội,
2006
nuôi trồng thủy sản 1, 2006
[10] ALEXIS DROGOUL, Agent-Based Modeling and
Simulation of Complex Systems, Lecture notes, CanTho
University, 2009
[11] ALEXIS DROGOUL et al, Agent-based simulation:
definition, applications and perspectives, Invited Talk
for the biannual Conference of the Faculty of Computer Science, University of Science, Hanoi, 2008 [12] ANDERSON G.MCKENDRICK, KERMACK W.O.,
A Contribution to the Mathematical theory of epidemics, Proceedings of The Royal Society A 115,
1927, pp 700-721