1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Trích xuất các quan hệ và các thực thể trong dữ liệu toàn văn và sử dụng chúng trong platform người dùng cuối, platform có tên là VESPA dùng trong cảnh báo dịch tễ học

40 120 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 40
Dung lượng 13,82 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trích xuất các quan hệ và các thực thể trong dữ liệu toàn văn và sử dụng chúng trong platform người dùng cuối, platform có tên là VESPA dùng trong cảnh báo dịch tễ học PHAN TRỌNG TIẾN D

Trang 1

Trích xuất các quan hệ và các thực thể trong dữ liệu toàn văn và sử dụng chúng trong platform người dùng cuối, platform có tên là VESPA dùng

trong cảnh báo dịch tễ học

PHAN TRỌNG TIẾN Department of software engineering Faculty of Information Technology Vietnam National University of Agriculture

Trang 2

Dữ liệu chúng ta ngày nay

Trang 3

Xử lý text và corpus

•   Xử lý ngôn ngữ tự nhiên (phân tích cú pháp, logic)

•   Trích xuất thông tin (Information Extraction - IE)

•  Các phân tích về khảo sát mở (Open Survey Analytics)

•   Các phân tích về ý kiến và độ hài lòng của người dùng

như mò kim đáy bể

Trang 4

Trích xuất thông tin (IE)

•  People, organizations, locations, times, dates, prices …

•   Hoặc đôi khi: genre, proteins, diseases, medicines …

•  Located in, employed by, part of, married to …

•   Tái tạo mạng lưới, tìm ra tập các sự kiện

Trang 5

Ba cơ sở nền móng

Trang 6

Các báo cáo về cảnh báo dịch bệnh trong nông nghiệp

• Thông tin cho người nông dân hàng tuần về sự tấn công của các mầm bệnh hoặc dịch bệnh và côn trùng đối với cây trồng

• Mục tiêu của các bài báo: Khuyến khích người nông dân sử dụng các phương pháp điều trị để chống lại các loài gây hại

• 1946: phát hành số đầu tiên, là các bản đánh máy (bản in)

• 2001: tất cả các ấn bản được xuất bản theo định dạng PDF

• Pháp được chia thành 22 vùng, và các vùng nước ngoài, mỗi vùng xuất bản các báo cáo riêng

Trang 7

Các báo cáo về cảnh báo dịch bệnh trong nông nghiệp

Trang 8

Dữ liệu của dự án

Chúng được chia sẻ tại BNF (thư viện

François-Mitterrand) Và sau đó được

chuyển đổi sang dạng text dùng kỹ

thuật OCR (optical character

recognition) với Jouve Corp Giá cho

quá trình chuyển đổi này là 50000 €

của 2 vùng (Bourgogne và

Midi-Pyrénées), 1800 files (1963-2001) và

523 files PDF (2004-2011)

là 2323 files

Trang 9

Người sử dụng

• Dự án được tài trợ bởi Bộ nông nghiệp và

nghiên cứu của Pháp

• Dự án bao gồm các chuyên gia về sinh vật học

và sinh thái học nghiên cứu các tác nhân gây

bệnh: dịch tễ học và khoa học môi trường (các

dự báo về sâu bệnh) với một mạng lưới gọi là

PIC (Integrated Crop Protection)

• PIC được thành lập năm 2004 với 400 thành

viên

• 4 chuyên gia (potato,wheat) từ PIC đồng hành

cùng chúng tôi

Trang 10

Thuật toán và mô hình

trồng với các tác nhân gây hại cho cây trồng cùng với mức độ gây hại của chúng

•   Bước 1: Nhận dạng thực thể định danh (Named Entity Recognition - NER)

•  Bước 2: Trích xuất quan hệ

•   Bước 3: Trích xuất thông tin ngữ cảnh như mức độ gây hại, giai đoạn phát triển của cây trồng, khí hậu, vị trí địa lý, …

Trang 11

Trích xuất thông tin (IE)

được xem xét như một phương án giải quyết vấn đề

Conferences)

cho news (2003)

Trang 12

Trích xuất thông tin: cơ sở dữ liệu bản thể học

Trang 13

Trích xuất thông tin: các hệ thống NER khác

•  90.6 F1 (CoNLL03 NER shared task data)

•  86.86 F1 (CoNLL03 NER shared task data)

co-Occurrences and Relationships

Trang 14

Trích xuất quan hệ

Tr

Trang 15

Trích xuất thông tin: NER - cách tiếp cận của chúng tôi

•   Từ điển cây trồng (crops), bệnh (diseases), sinh vật phá hoại (pests), Các sinh vật

có lợi khác (auxiliaries), vị trí địa lý(region, town), các hoá chất

Trang 16

Trích xuất thông tin: NER - cách tiếp cận của chúng tôi

•   37 files được lưu tạo thủ công với các thực thể và các quan hệ

•  Chi phí về thời gian nếu 1000 files ~ 5 tháng/1 người

Định dạng CoNLL hay BIO/BILOU Định dạng của chúng tôi

Trang 17

Trích xuất thông tin : NER - cách tiếp cận của chúng tôi

Trang 18

Trích xuất thông tin: NER - cách tiếp cận của chúng tôi

• Luật trích xuất (rule-based)

trồng, đánh giá mức độ nghiêm trọng của dịch bệnh, khí hậu, hay

cũng có thể là số xuất bản của báo cáo, ngày tháng

• Sử dụng phân tích ngữ pháp

“xx {January|February…} xxxx” cho ngày tháng

dụng Automat hữu hạn (Finite-State Automata)

Trang 19

Trích xuất thông tin: NER cách tiếp cận của chúng tôi

•  Tìm ngày tháng http://www-igm.univ-mlv.fr/~unitex/

Trang 20

Trích xuất thông tin: NER cách tiếp cận của chúng tôi

•   Tìm thông tinh đánh giá mực độ nghiêm trọng của dịch bệnh

infestations sont limitées à 0,27 larves par pied

environ 1 parcelle sur 5 avait atteint

1 grosse altise en moyenne

Trang 21

Trích xuất thông tin: trích xuất quan hệ

•  Phân tích từ từ điển từ vựng (Exact Dictionary-Based Chunking)

•   Các kỹ thuật định nghĩa mô hình bằng tay (Hand-crafted pattern definition

techniques)

•  Symbolic Learning Models (‘inductive-logic programming’)

•   Statistical Learning Models (‘Bayesian network analysis’)

•  Unsupervised Learning Models (‘co-occurrence analysis’)

Trang 22

Trích xuất thông tin: trích xuất quan hệ

• Kết hợp giữa hai phương pháp:

• Phân tích cấu trúc tài liệu: áp dụng các quy luật trong định dạng của tài liệu

• Mô hình học không giám sát (Unsupervised Learning

Models): dò tìm sự xuất hiện đồng thời (cooccurrence)

không sử dụng kỹ thuật POS tagging đi kèm

Trang 23

Trích xuất thông tin: trích xuất quan hệ

Trang 24

Trích xuất thông tin: trích xuất quan hệ

Trang 25

Thực thi x.ent

Trang 26

x.ent xconfig()

đường dẫn tới các các thư mục, từ điển, ngữ pháp được tạo bởi Unitex, mối quan hệ và các file đặc biệt

Trang 27

x.ent xshow()

>xshow(“p:b”,sort=“f”)

Trang 29

x.ent xhist()

• Biểu đồ tần xuất theo

thời gian

>xhist("colza:mildiou")

Trang 32

xent xtest()

• So sánh các cặp quan hệ

> b <- as.vector(xdata_value("b")[["value"]])

> xtest("blé",b)

Trang 33

Trích xuất quan hệ: định giá kết quả

Trang 34

VESPA platform

Trang 35

VESPA platform

Trang 36

VESPA platform

http://vespa.cortext.net

Trang 37

Kết luận

vấn đề nguy hại với cây trồng

•   F-62%

•   crops/diseases và crops/pests

công cụ trích xuất kết hợp cùng với vị trí địa lý nơi xảy ra dịch bệnh và liên kết tới tài liệu gốc

Trang 38

Một số khía cạnh khác

•   Đã thêm chức năng phân tích cho các tài liệu không có định dạng (concurrence)

•  Đánh giá quan hê với tập hợp các quan hệ đã biết (extern ontology)

•   Tinh chỉnh các hệ số ảnh hưởng tới kết quả trích xuất

•  Thêm cách tiếp cận thống kê cho việc tìm các quan hệ không biết, với các thực thể không định tên

•   Thêm giao diện cộng tác nhiều người sử dụng

•  Có thể hỗ trợ được nhiều ngôn ngữ

•   Kết hợp với bản thể học thời tiết với cơ sở dữ liệu

•  x.ent : R Package for Entities and Relations Extraction based on Unsupervised

Learning and Document Structure – submitted

•   Open Data Platform for Knowledge Access in Plant Health Domain: VESPA

mining - draft

Trang 39

Nhóm dự án

Trang 40

Cảm ơn các Thầy, Cô và các bạn đã

lắng nghe!

Ngày đăng: 19/04/2018, 07:55

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm