Trích xuất các quan hệ và các thực thể trong dữ liệu toàn văn và sử dụng chúng trong platform người dùng cuối, platform có tên là VESPA dùng trong cảnh báo dịch tễ học PHAN TRỌNG TIẾN D
Trang 1Trích xuất các quan hệ và các thực thể trong dữ liệu toàn văn và sử dụng chúng trong platform người dùng cuối, platform có tên là VESPA dùng
trong cảnh báo dịch tễ học
PHAN TRỌNG TIẾN Department of software engineering Faculty of Information Technology Vietnam National University of Agriculture
Trang 2Dữ liệu chúng ta ngày nay
Trang 3Xử lý text và corpus
• Xử lý ngôn ngữ tự nhiên (phân tích cú pháp, logic)
• Trích xuất thông tin (Information Extraction - IE)
• Các phân tích về khảo sát mở (Open Survey Analytics)
• Các phân tích về ý kiến và độ hài lòng của người dùng
như mò kim đáy bể
Trang 4Trích xuất thông tin (IE)
• People, organizations, locations, times, dates, prices …
• Hoặc đôi khi: genre, proteins, diseases, medicines …
• Located in, employed by, part of, married to …
• Tái tạo mạng lưới, tìm ra tập các sự kiện
Trang 5Ba cơ sở nền móng
Trang 6Các báo cáo về cảnh báo dịch bệnh trong nông nghiệp
• Thông tin cho người nông dân hàng tuần về sự tấn công của các mầm bệnh hoặc dịch bệnh và côn trùng đối với cây trồng
• Mục tiêu của các bài báo: Khuyến khích người nông dân sử dụng các phương pháp điều trị để chống lại các loài gây hại
• 1946: phát hành số đầu tiên, là các bản đánh máy (bản in)
• 2001: tất cả các ấn bản được xuất bản theo định dạng PDF
• Pháp được chia thành 22 vùng, và các vùng nước ngoài, mỗi vùng xuất bản các báo cáo riêng
Trang 7Các báo cáo về cảnh báo dịch bệnh trong nông nghiệp
Trang 8Dữ liệu của dự án
Chúng được chia sẻ tại BNF (thư viện
François-Mitterrand) Và sau đó được
chuyển đổi sang dạng text dùng kỹ
thuật OCR (optical character
recognition) với Jouve Corp Giá cho
quá trình chuyển đổi này là 50000 €
của 2 vùng (Bourgogne và
Midi-Pyrénées), 1800 files (1963-2001) và
523 files PDF (2004-2011)
là 2323 files
Trang 9Người sử dụng
• Dự án được tài trợ bởi Bộ nông nghiệp và
nghiên cứu của Pháp
• Dự án bao gồm các chuyên gia về sinh vật học
và sinh thái học nghiên cứu các tác nhân gây
bệnh: dịch tễ học và khoa học môi trường (các
dự báo về sâu bệnh) với một mạng lưới gọi là
PIC (Integrated Crop Protection)
• PIC được thành lập năm 2004 với 400 thành
viên
• 4 chuyên gia (potato,wheat) từ PIC đồng hành
cùng chúng tôi
Trang 10Thuật toán và mô hình
trồng với các tác nhân gây hại cho cây trồng cùng với mức độ gây hại của chúng
• Bước 1: Nhận dạng thực thể định danh (Named Entity Recognition - NER)
• Bước 2: Trích xuất quan hệ
• Bước 3: Trích xuất thông tin ngữ cảnh như mức độ gây hại, giai đoạn phát triển của cây trồng, khí hậu, vị trí địa lý, …
Trang 11Trích xuất thông tin (IE)
được xem xét như một phương án giải quyết vấn đề
Conferences)
cho news (2003)
Trang 12Trích xuất thông tin: cơ sở dữ liệu bản thể học
Trang 13Trích xuất thông tin: các hệ thống NER khác
• 90.6 F1 (CoNLL03 NER shared task data)
• 86.86 F1 (CoNLL03 NER shared task data)
co-Occurrences and Relationships
Trang 14Trích xuất quan hệ
Tr
Trang 15Trích xuất thông tin: NER - cách tiếp cận của chúng tôi
• Từ điển cây trồng (crops), bệnh (diseases), sinh vật phá hoại (pests), Các sinh vật
có lợi khác (auxiliaries), vị trí địa lý(region, town), các hoá chất
Trang 16Trích xuất thông tin: NER - cách tiếp cận của chúng tôi
• 37 files được lưu tạo thủ công với các thực thể và các quan hệ
• Chi phí về thời gian nếu 1000 files ~ 5 tháng/1 người
Định dạng CoNLL hay BIO/BILOU Định dạng của chúng tôi
Trang 17Trích xuất thông tin : NER - cách tiếp cận của chúng tôi
Trang 18Trích xuất thông tin: NER - cách tiếp cận của chúng tôi
• Luật trích xuất (rule-based)
trồng, đánh giá mức độ nghiêm trọng của dịch bệnh, khí hậu, hay
cũng có thể là số xuất bản của báo cáo, ngày tháng
• Sử dụng phân tích ngữ pháp
“xx {January|February…} xxxx” cho ngày tháng
dụng Automat hữu hạn (Finite-State Automata)
Trang 19Trích xuất thông tin: NER cách tiếp cận của chúng tôi
• Tìm ngày tháng http://www-igm.univ-mlv.fr/~unitex/
Trang 20Trích xuất thông tin: NER cách tiếp cận của chúng tôi
• Tìm thông tinh đánh giá mực độ nghiêm trọng của dịch bệnh
infestations sont limitées à 0,27 larves par pied
environ 1 parcelle sur 5 avait atteint
1 grosse altise en moyenne
Trang 21Trích xuất thông tin: trích xuất quan hệ
• Phân tích từ từ điển từ vựng (Exact Dictionary-Based Chunking)
• Các kỹ thuật định nghĩa mô hình bằng tay (Hand-crafted pattern definition
techniques)
• Symbolic Learning Models (‘inductive-logic programming’)
• Statistical Learning Models (‘Bayesian network analysis’)
• Unsupervised Learning Models (‘co-occurrence analysis’)
Trang 22Trích xuất thông tin: trích xuất quan hệ
• Kết hợp giữa hai phương pháp:
• Phân tích cấu trúc tài liệu: áp dụng các quy luật trong định dạng của tài liệu
Và
• Mô hình học không giám sát (Unsupervised Learning
Models): dò tìm sự xuất hiện đồng thời (cooccurrence)
không sử dụng kỹ thuật POS tagging đi kèm
Trang 23Trích xuất thông tin: trích xuất quan hệ
Trang 24Trích xuất thông tin: trích xuất quan hệ
Trang 25Thực thi x.ent
Trang 26x.ent xconfig()
đường dẫn tới các các thư mục, từ điển, ngữ pháp được tạo bởi Unitex, mối quan hệ và các file đặc biệt
Trang 27x.ent xshow()
>xshow(“p:b”,sort=“f”)
Trang 29x.ent xhist()
• Biểu đồ tần xuất theo
thời gian
>xhist("colza:mildiou")
Trang 32xent xtest()
• So sánh các cặp quan hệ
> b <- as.vector(xdata_value("b")[["value"]])
> xtest("blé",b)
Trang 33Trích xuất quan hệ: định giá kết quả
Trang 34VESPA platform
Trang 35VESPA platform
Trang 36VESPA platform
http://vespa.cortext.net
Trang 37Kết luận
vấn đề nguy hại với cây trồng
• F-62%
• crops/diseases và crops/pests
công cụ trích xuất kết hợp cùng với vị trí địa lý nơi xảy ra dịch bệnh và liên kết tới tài liệu gốc
Trang 38Một số khía cạnh khác
• Đã thêm chức năng phân tích cho các tài liệu không có định dạng (concurrence)
• Đánh giá quan hê với tập hợp các quan hệ đã biết (extern ontology)
• Tinh chỉnh các hệ số ảnh hưởng tới kết quả trích xuất
• Thêm cách tiếp cận thống kê cho việc tìm các quan hệ không biết, với các thực thể không định tên
• Thêm giao diện cộng tác nhiều người sử dụng
• Có thể hỗ trợ được nhiều ngôn ngữ
• Kết hợp với bản thể học thời tiết với cơ sở dữ liệu
• x.ent : R Package for Entities and Relations Extraction based on Unsupervised
Learning and Document Structure – submitted
• Open Data Platform for Knowledge Access in Plant Health Domain: VESPA
mining - draft
Trang 39Nhóm dự án
Trang 40Cảm ơn các Thầy, Cô và các bạn đã
lắng nghe!