1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu quá trình lạnh đông ứng dụng trong bảo quản sữa ong chúa để xuất khẩu

49 11 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Quá Trình Lạnh Đông Ứng Dụng Trong Bảo Quản Sữa Ong Chúa Để Xuất Khẩu
Tác giả Nguyễn Thanh Tuấn
Trường học Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh
Chuyên ngành Công Nghệ Thông Tin
Thể loại Báo Cáo Tổng Kết
Năm xuất bản 2014
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 49
Dung lượng 3,67 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

TÓM LƢỢC ĐỀ TÀI Khi trích lọc thông tin, các hệ thống thường cố gắn sử dụng công cụ phân tích câu, để tìm ra các đặt trưng features từ câu truy vấn thông tin.. Đề tài đã sử dụng kho dữ l

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT

Trang 3

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT

THÀNH PHỐ HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN

TP HCM, 02/2014

Trang 4

TÓM LƢỢC ĐỀ TÀI

Khi trích lọc thông tin, các hệ thống thường cố gắn sử dụng công cụ phân tích câu, để tìm ra các đặt trưng (features) từ câu truy vấn thông tin Sau đó tìm kiếm trong kho dữ liệu để tìm ra các tài liệu có độ tương đồng gần nhất với các đặt trưng Công việc này thường tốn nhiều thời gian vì phải làm cả hai công việc là phân tích câu tuy vấn và phân tích các tài liệu cần rút trích trong kho dữ liệu

Trích lọc thông tin sử dụng mẫu trích lọc công việc cố gắng tìm ra các tài liệu

có phù hợp với các tập mẫu rút trích hay không Các tập mẫu này phải được tạo ra trước bằng cách huấn luyện tập mẫu với một tập dữ liệu cho trước

Vì các tập mẫu này được tạo ra trước khi sử dụng chúng để trích lọc thông tin nên các dữ liệu mới, chưa được huấn luyện sẽ không được xử lý tốt Có thể không được trích ra vì nó không thỏa bất cứ mẫu trích lọc nào trong kho dữ liệu

Việc tạo ra tập mẫu rút trích sử dụng cho tất cả các dữ liệu nói chung, liên quan đến tất cả các lĩnh vực là không khả thi (trích dẫn) Và là công việc lãng phí thời gian (trích dẫn) Do đó, các mẫu trích lọc được huấn luyện thông thường liên quan đến một lĩnh vực nào đó Ví dụ: y tế, địa lý…

Để sử dụng cho mục đích trích các thuật ngữ định nghĩa của các câu định nghĩa trong lĩnh vực y khoa Đề tài đã sử dụng kho dữ liệu MEDLINE liên quan đến lĩnh vực y khoa và các câu có cấu trúc định nghĩa từ Google của các thuật ngữ y khoa để tạo tự động các tập mẫu trích lọc thông tin

Số lượng tập mẫu được tạo tự động là rất nhiều Trong đó, có một số mẫu không phù hợp cho hệ thống trích lọc thuật ngữ định nghĩa trong y khoa Tôi đã xác

định 2 tiêu chí để trích lọc ra các tập mẫu định nghĩa Và đã trích lọc được 348 mẫu

trích lọc

Trang 5

Đề tài chưa sử dụng ngữ nghĩa trong quá trình tạo tự động các mẫu trích lọc

Do vậy, các mẫu trích lọc thông tin vẫn chưa được tốt Theo nhận định của [10], [14]: khi tạo tập mẫu có quan tâm đến ngữ nghĩa sẽ cho tập mẫu tốt hơn Đây là hướng nghiên cứu phát triển sau này của đề tài

Trang 6

MỤC LỤC

TÓM LƯỢC ĐỀ TÀI 1

DANH MỤC CÁC BẢNG BIỂU 6

DANH MỤC CÁC HÌNH ẢNH 7

DANH MỤC CÁC TỪ VIẾT TẮT 8

MỞ ĐẦU 9

1 Tình hình nghiên cứu trong và ngoài nước 9

2 Tính cấp thiết của đề tài 9

3 Mục tiêu đề tài 10

4 Phương pháp nghiên cứu 10

5 Đối tượng và phạm vi nghiên cứu 10

6 Nội dung nghiên cứu 11

7 Phương pháp và quy trình thực hiện mục tiêu 11

8 Nội dung đề tài 12

CHƯƠNG 1 CÁC KIẾN THỨC CƠ SỞ 13

1.1 Sơ lược về hệ thống trích lọc thông tin sử dụng mẫu 13

1.1.1 Định nghĩa 13

1.1.2 Thành phần phân tích tài liệu 13

1.1.2.1 Tiền xử lý tách câu 13

1.1.2.2 Phân tích cú pháp câu 13

1.1.3 Thành phần so khớp mẫu 14

1.2 UMLS 15

Trang 7

1.2.1 Khái niệm 15

1.2.2 Metathesaurus 16

1.2.3 Semantic Network 16

1.2.4 SPECIALIST Lexicon & Lexical Tools 17

1.3 Kho dữ liệu MEDLINE 17

1.4 Kiến thức về các thuật giải xử lý của máy tính mà nghiên cứu sử dụng 18

1.4.1 AutoSlog 18

1.4.1.1 Mô hình 18

1.4.1.2 Kho dữ liệu 18

1.4.1.3 Bộ phân tích câu 18

1.4.1.4 Tập mẫu cú pháp 20

1.4.1.5 Danh sách các cụm danh từ 21

1.4.1.6 Nhận xét 21

1.4.2 AutoSlog-TS 22

1.4.2.1 Mô hình 22

1.4.2.2 Nguyên tắc hoạt động 23

1.4.2.3 Nhận xét 23

1.5 Sơ lược về hệ thống Sundance 23

1.5.1 Giới thiệu 23

1.5.2 Cấu trúc của một case frame 24

1.5.3 Giải thích các thành phần 24

1.5.4 Ví dụ về một case frame 26

1.5.5 Nhận xét 28

Trang 8

CHƯƠNG 2 XÂY DỰNG CASE FRAME TỰ ĐỘNG 29

2.1 Mục tiêu 29

2.2 Mô hình xử lý 29

2.3 Dữ liệu huấn luyện 30

2.3.1 Relevant text 30

2.3.2 Irrelevant text 31

2.4 Xây dựng cấu trúc case frame định nghĩa 31

2.5 Trích lọc case frame định nghĩa 32

2.5.1 Đặc tả Slot 32

2.5.2 Các thông số chọn lọc 33

2.6 Thực nghiệm xây dựng case frame định nghĩa 33

2.7 Sử dụng case frame để xác định câu định nghĩa và trích thuật ngữ 35

2.8 Kết luận 36

KẾT LUẬN & KIẾN NGHỊ 38

1 Kết quả đạt được của đề tài 38

2 Hướng phát triển của đề tài 38

TÀI LIỆU THAM KHẢO 39

PHỤ LỤC 41

Trang 9

DANH MỤC CÁC BẢNG BIỂU

Bảng 1.1 Tập mẫu cú pháp 20

Bảng 2.1 Case frame không phù hợp với ngưỡng RelFreqi >=3 33

Bảng 2.2 Case frame định nghĩa bị bỏ qua với ngưỡng RelFreqi >=5 34

Bảng 2.3 Các thông số chọn lọc case frame 34

Bảng 2.4 Một số case frame được trích lọc theo điều kiện 35

Bảng 2.5 Bảng kết quả thực nghiệm sử dụng case frame 36

Trang 10

DANH MỤC CÁC HÌNH ẢNH

Hình 1.1 Mô hình tổng quan hệ thống trích lọc thông tin sử dụng mẫu 13

Hình 1.2 Kết quả phân tích câu 14

Hình 1.3 nguồn dữ liệu được tích hợp trong UMLS 15

Hình 1.4 Kiến trúc tổng quan của kho tri thức UMLS 16

Hình 1.5 Các lớp khái niệm của Semantic Network 17

Hình 1.6 Mô hình tạo mẫu tự động AutoSlog 18

Hình 1.7 Kết quả phân tích câu "Bacteriastrum is a genus of diatoms in family Chaetocerotaceae" 19

Hình 1.8 Mô hình tạo mẫu tự động AutoSlog-TS 22

Hình 1.9 Cấu trúc của một case frame 24

Hình 1.10 Thể hiện của một caseframe 26

Hình 1.11 Phân tích câu :"The plane crashed in Utah in January in a blaze of fire" 27 Hình 1.12 Case frame được matching với câu phân tích 28

Hình 2.1 Mô hình tạo case frame tự động 30

Hình 2.2 Mô hình tạo relevant text 31

Hình 2.3 Cấu trúc case frame định nghĩa 32

Hình 2.4 Biểu đồ số lượng case frame thỏa tiêu chí chọn lọc 34

Hình 2.5 Biểu đồ tỉ lệ các câu thỏa và không thỏa case frame 36

Hình 2.6 Hình thức lưu trữ tập câu định nghĩa 36

Trang 11

DANH MỤC CÁC TỪ VIẾT TẮT

National Center for Biotechnology Information NCBI

Trang 12

MỞ ĐẦU

1 Tình hình nghiên cứu trong và ngoài nước

Trước khi tiến hành nghiên cứu của mình, tôi đã tìm hiểu tổng quan về tình hình nghiên cứu chung về quá trình xây dựng tự động các mẫu trích lọc thông tin trong và ngoài nước Quá trình xây dựng này được chia làm các hướng tiếp cận chính như sau:

Các hệ thống trích lọc thông tin phần lớn đều sử dụng mẫu để xác định và trích lọc các thông tin có liên quan trong dữ liệu Một số hệ thống sử dụng các mẫu đơn giản để trích lọc mà không dùng các xử lý về ngôn ngữ tự nhiên [2], [6] Nhiều nghiên cứu sử dụng các mẫu có phân tích cú pháp của dữ liệu để xây dựng hệ thống trích lọc [3], [5], [11], [13]

Thông thường các mẫu này được xây dựng bằng phương pháp truyền thống (bằng tay) Điều này làm tốn thời gian và chi phí Do đó, việc tạo các mẫu trích lọc

tự động được nhiều nghiên cứu lựa chọn phát triển [10], [12]

Hiện nay, tình hình nghiên cứu trong nước, các nghiên cứu phân tích cú pháp của câu trong Tiếng Việt vẫn chưa được hoàn thiện Do đó, vẫn chưa có nhiều nghiên cứu trích thông tin sử dụng mẫu; đặc biệt là trích lọc thông tin ngôn ngữ Tiếng Việt

2 Tính cấp thiết của đề tài

Thông tin phát sinh, được lưu trữ và xử lý ngày càng nhiều Điều này làm nảy sinh vấn đề: dữ liệu nhiều nhưng thông tin hữu ích thì lại ít Việc xác định và trích các thông tin có ích này từ một kho dữ liệu lớn là điều cấp thiết và có ý nghĩa làm

cơ sở để hỗ trợ các doanh nghiệp, tổ chức ra quyết định Giúp doanh nghiệp, tổ chức tiết kiệm được thời gian, công sức để có các quyết định tốt nhất trong các lĩnh vực cụ thể; góp phần nâng cao hiệu quả công việc

Trang 13

Việc xây dựng được hệ thống hỗ trợ tốt yêu cầu của tổ chức đang là một thử thách thực sự cho các nhà nghiên cứu Một trong nhiều gói nghiên cứu để hỗ trợ hiện thực hóa hệ thống này là trích lọc thông tin sử dụng các mẫu

3 Mục tiêu đề tài

tập mẫu Kết quả của đề tài làm cơ sở cho các nghiên cứu về hệ thống hỏi đáp cho các loại câu hỏi khác nhau

Trên cơ sở nghiên cứu và xây dựng hệ thống này, định hướng và bước đầu nghiên cứu, xây dựng các hệ thống trả lời tự động

4 Phương pháp nghiên cứu

a Cách tiếp cận

- Đề tài dùng cách tiếp cận sử dụng mẫu để trích lọc thông tin

b Phương pháp nghiên cứu

- Khảo sát các hướng tiếp cận và các hệ thống trích lọc thông tin trước đó

- Sử dụng các hướng tiếp cận, giải pháp, thuật giải có kết hợp với phương pháp so sánh

- Sử dụng phương tiện máy tính cá nhân, kết hợp với các hệ thống khác để thử nghiệm và hiện thực hóa hệ thống

- Sử dụng các bảng biểu để hiển thị kết quả thử nghiệm và các đối tượng đồ họa để vẽ đồ thị và trực quan hóa kết quả thực nghiệm

5 Đối tượng và phạm vi nghiên cứu

a Đối tượng nghiên cứu

- Các kho dữ liệu chuẩn: MEDLINE, UMLS

- Các hướng tiếp cận và các thuật giải

- Các bài báo khoa học tại các hội nghị khoa học

Trang 14

- Luận văn, bài khảo sát của các công trình nghiên cứu liên quan

- Bộ mã nguồn mở: Lucene, Lemur, Terrier, AutoSlog TS

b Phạm vi nghiên cứu

- Đề tài đi sâu vào xây dựng các tập mẫu và hệ thống trích lọc thông tin

6 Nội dung nghiên cứu

- Nghiên cứu tổng quan

- Tiền xử lý và phân tích cú pháp

- Xây dựng các mẫu trích lọc thông tin

- Xây dựng hệ thống trích lọc thông tin

7 Phương pháp và quy trình thực hiện mục tiêu

Các mục tiêu của đề tài cần phải làm rõ một số khái niệm, mô hình và sử dụng một số kỹ thuật, thuật giải cũng như các phần mềm chuyên dụng để giải quyết bài

toán Chi tiết các công việc được thực hiện như sau:

- Tôi đề cập đến các khái niệm cơ bản về hệ thống trích lọc thông tin (xem mục 1.1); các thành phần xử lý trong quá trình xây dựng một hệ thống trích lọc:

phân tích tài liệu (xem 1.1.2), so khớp mẫu (xem 1.1.3)

- Kho dữ liệu MEDLINE (xem mục 1.3) được hệ thống sử dụng để trích lọc các câu định nghĩa và các thuật ngữ MEDLINE chứa các tóm tắt (abstract) của các bài báo khoa học về y khoa Hong Yu [14] nhận định: các thuật ngữ

thường được định nghĩa trong phần Introduction và background của abstract

- Số lượng các câu trong thành phần Introduction và background là rất lớn

(4,657,334 câu) Trong đó có nhiều câu không là loại câu định nghĩa Do đó, tôi tạo tự động các case frame dựa trên tập mẫu cú pháp của AutoSlog [7], [8], [9] (xem chương 2) để rút trích các thông tin định nghĩa của các thuật ngữ trong tập dữ liệu đã được phân lớp Cơ sở thuật toán tạo tự động các case frame (xem mục 1.4.1, 1.4.2) và hệ thống rút trích thông tin sử dụng case frame được trình bày trong mục 1.5 Cách thức xử lý được trình bày trong

Trang 15

chương 2 Kết quả thực nghiệm tạo tự động được 348 case frame (xem mục 2.6) Sử dụng các case frame này loại trừ được 3,423,430 câu không phải là

câu định nghĩa (76%) (xem mục 2.7)

8 Nội dung đề tài

Nội dung của đề tài được trình bày dưới bố cục như sau:

Chương 1: Trình bày các kiến thức cơ sở về hệ thống trích lọc thông tin, kiến trúc

của UMLS và các kiến thức về kỹ thuật, thuật giải xử lý của máy tính mà nghiên cứu sử dụng như: AutoSlog, AutoSlog-TS, Sharp NLP…

Chương 2: Trình bày cấu trúc của case frame phù hợp với hệ thống hỏi đáp tự động

và quy trình xây dựng tự động các case frame để rút trích các thông tin của các thuật ngữ và các câu định nghĩa kèm theo

Kết luận và kiến nghị: Tóm lược những nội dung chính đạt được của để tài và đưa

ra định hướng nghiên cứu trong thời gian tới

Tài liệu tham khảo

Phụ lục

Trang 16

1 CHƯƠNG 1 CÁC KIẾN THỨC CƠ SỞ

1.1 Sơ lược về hệ thống trích lọc thông tin sử dụng mẫu

1.1.1 Định nghĩa

Hình 1.1 Mô hình tổng quan hệ thống trích lọc thông tin sử dụng mẫu

1.1.2 Thành phần phân tích tài liệu

Đây là phần xử lý đầu tiên của hệ thống Thành phần này đảm nhiệm 02 tác vụ chính:

1.1.2.1 Tiền xử lý tách câu

Trong phần xử lý này, hệ thống sẽ nhận diện các dấu hiệu kết thúc câu Sau

đó, xử lý tách thành các câu riêng biệt trong mỗi tài liệu Các câu này sẽ được bộ phận phân tích câu phân tích cú pháp để thực hiện so khớp với các mẫu trích lọc

1.1.2.2 Phân tích cú pháp câu

Bộ phân tích cú pháp sẽ phân tích các câu và gán nhãn cú pháp cho các đặc

trưng trong câu Ví dụ: Câu: “The plane crashed in Utah in January in a blaze of

fire” sẽ được gán nhãn như sau:

So khớp mẫu trích lọc

Thông tin trích lọc

Phân tích tài liệu

Kho dữ liệu

Tập mẫu

trích lọc

Trang 17

Hình 1.2 Kết quả phân tích câu

Người sử dụng có thể đặt ra các loại câu truy vấn bằng ngôn ngữ tự nhiên và yêu cầu hệ thống trả lời các thông tin có liên quan Quá trình phân tích câu truy vấn giúp cho hệ thống “hiểu” được câu truy vấn và trích thông tin trả lời phù hợp Quá trình này đóng vai trò rất quan trọng trong toàn bộ tiến trình hoạt động của hệ thống Nếu công đoạn này hoàn thành không tốt sẽ ảnh hưởng lớn đến chất lượng,

sự thỏa mãn của người dùng về thông tin trả lời của hệ thống

1.1.3 Thành phần so khớp mẫu

Vai trò chính của thành phần này là sử dụng tập các mẫu trích lọc để so khớp mẫu với cấu trúc câu đã phân tích trước đó Các cấu trúc câu lần lượt sẽ được so khớp với từng mẫu Nếu câu nào phù hợp với một mẫu nào đó thì thông tin của câu

đó được trích lọc tùy vào thành phần trích lọc mà mẫu đó quy định (xem mục 1.5)

Bài báo [7], [8] cho rằng: các mẫu có độ do RlogF càng cao sẽ cho kết quả rút

trích thông tin càng chính xác Do vậy, Kết quả trích lọc thông tin cũng được sắp

xếp theo độ đo RlogF giảm dần

S

NP VP PP PP PP

The plane crashed in Utah in January in a blaze of fire

Trang 18

1.2 UMLS

1.2.1 Khái niệm

UMLS (Unified Medical Language System) là kho tri thức về y khoa được thiết kế và quản lý bởi NLM Nó được tạo thành từ nhiều nguồn dữ liệu khác nhau (hình 1.3) Mục đích thiết kế, xây dựng UMLS là để tìm kiếm và tích hợp nhiều thông tin y khoa từ nhiều nguồn dữ liệu khác nhau Nó được tổ chức như là một ontology của các khái niệm và hỗ trợ, cung cấp dữ liệu cho quá trình xây dựng các

hệ thống tin học ứng dụng trong y khoa

Hình 1.3 nguồn dữ liệu đƣợc tích hợp trong UMLS 1

Kiến trúc của UMLS bao gồm: Metathesaurus, Semantic Network và SPECIALIST Lexicon & Lexical Tools (hình 1.4)

1

http://nar.oxfordjournals.org/cgi/content/full/32/suppl_1/D267

Trang 19

Hình 1.4 Kiến trúc tổng quan của kho tri thức UMLS 2 1.2.2 Metathesaurus

Metathesaurus là CSDL các từ vựng (vocabulary database) đa ngôn ngữ chứa hơn 1 triệu khái niệm (concepts) và khoảng 5 triệu các thuật ngữ có liên quan biểu diễn các thông tin định nghĩa, các tên gọi khác nhau cũng như các mối liên hệ giữa các khái niệm, thuật ngữ trong lĩnh vực y khoa

1.2.3 Semantic Network

Các khái niệm trong Metathesaurus được gán một hay nhiều loại ngữ nghĩa (semantic types) Ứng với loại ngữ nghĩa, Semantic Network biểu diễn nhiều loại quan hệ ngữ nghĩa giữa lớp này với các loại ngữ nghĩa khác (hình 1.5) Có tất cả

135 loại ngữ nghĩa và 54 loại quan hệ khác nhau Ví dụ, hai lớp được gán nhãn là

Disease or Syndrome và Clinical Drug có quan hệ ngữ nghĩa là Clinical Drug [treats] Disease or Syndrome

Trang 20

Hình 1.5 Các lớp khái niệm của Semantic Network 3 1.2.4 SPECIALIST Lexicon & Lexical Tools

SPECIALIST Lexicon là một từ điển Anh ngữ bao gồm các từ thuộc lĩnh vực

y sinh học Phần lớn từ loại của các từ là danh từ và được trích từ nhiều nguồn khác

nhau như: Các MEDLINE abstracts của các bài báo khoa học, từ điển Dorland's

Illustrated Medical…Mỗi một từ trong từ điển được biểu diễn cú pháp, hình thái từ

và thông tin về chính tả (spelling)

Lexical Tools là một tập các chương trình được viết bằng ngôn ngữ Java để hỗ trợ khai thác thông tin của UMLS và xây dựng, phát triển các chương trình NLP

1.3 Kho dữ liệu MEDLINE

MEDLINE, một phần của CSDL PubMed4 được quản lý và cung cấp bởi National Center for Biotechnology Information (NCBI), là một CSDL chứa trên 18 triệu các bài báo, và trên 55000 tạp chí của nhiều ngôn ngữ trên thế giới về nhiều lĩnh vực nghiên cứu thuộc y khoa, khoa học đời sống, sinh hóa…phục vụ cho công tác nghiên cứu về sức khỏe cộng đồng, các chính sách về chăm sóc và bảo vệ sức khỏe, và các hoạt động nghiên cứu, giáo dục khác có liên quan MEDLINE sử dụng

3 http://krono.act.uji.es/people/Ernesto/UMLS_SN_OWL

4

http://www.ncbi.nlm.nih.gov/pubmed

Trang 21

MeSH (MeSH là một cấu trúc phân cấp các từ vựng về các chuyên đề khác nhau thuộc lĩnh vực liên quan đến y khoa) để đánh chỉ mục phân loại các phần tử dữ liệu Hàng năm, các tạp chí, báo cáo khoa học tại các hội nghị được cập nhật đầy đủ bởi các chuyên gia giàu kinh nghiệm về các lĩnh vực có liên quan

1.4 Kiến thức về các thuật giải xử lý của máy tính mà nghiên cứu sử dụng 1.4.1 AutoSlog

Trang 22

Ví dụ: Cho câu: Bacteriastrum is a genus of diatoms in family

Chaetocerotaceae

Câu được phân tích thành cấu trúc như sau (hình 1.7) [10]:

Hình 1.7 Kết quả phân tích câu "Bacteriastrum is a genus of diatoms in family

Chaetocerotaceae"

Sundance (xem mục 1.5) cho phép thay đổi các thông số đầu vào cho từng lĩnh vực cụ thể để phục vụ cho quá trình phân tích câu:

- Dấu hiệu chưa kết thúc câu (non-eos) (xem phụ lục B)

- Các luật suy diễn để xác định các danh từ là tên riêng

[genus (root: _coronavirus) (LEX)(N SINGULAR(VIRUS))]

Following PP attaches to: a genus

[family (LEX)(N SINGULAR(HUMAN))]

[Chaetocerotaceae (?)(UNK(ENTITY UNKNOWN))]

[>PERIOD (LEX)(PUNC)]

[<EOS (?)]

Trang 23

- Từ điển định nghĩa loại từ của các từ thuộc lĩnh vực cụ thể mà trong từ điển chuẩn của Sundance không định nghĩa (xem phụ lục B)

- Các cụm từ chuyên môn (xem phụ lục B)

Ví dụ: trong lĩnh vực y khoa, cụm từ “chiclero ulcer” được xem như là chiclero_ulcer và được gán nhãn là danh từ (NOUN)

1.4.1.4 Tập mẫu cú pháp

Các mẫu cú pháp được [9] xây dựng và sử dụng để so khớp với các câu đã được phân tích cú pháp Có tất cả là 15 mẫu cú pháp khác nhau được tạo ra và phủ hết các cú pháp thông thường trong tiếng Anh (bảng 1.1) Nếu câu thỏa một mẫu cú pháp nào đó thì các thành phần của mẫu đó được gán giá trị tương ứng (xem ví dụ trong mục 1.4.1.5)

Bảng 1.1 Tập mẫu cú pháp

1 <subject> active-verb

2 <subject> active-verb direct-object

3 <subject> passive-verb

4 <subject> verb infinitive

5 <subject> auxiliary noun

11 noun auxiliary <direct-object>

12 active-verb preposition <noun pharse>

13 active-verb preposition <noun pharse>

14 passive-verb preposition <noun pharse>

Trang 24

15 infinitive preposition <noun pharse>

1.4.1.5 Danh sách các cụm danh từ

Danh sách này được sử dụng để so khớp với các danh từ, cụm danh từ nằm ở đầu của mỗi câu được phân tích AutoSlog sẽ tạo ra tất cả các mẫu tương ứng

Ví dụ [10]:

Trong danh sách danh từ có cụm sau: World Trade Center

Câu: World Trade Center was bombed by terrorists

o NP: World Trade Center

o V: was bombed

o PP: by terrorists

o 1 <subject> passive-verb

o 2 passive-verb preposition <noun pharse>

cụm danh từ đã cung cấp trước đó)

Ngày đăng: 12/12/2021, 00:00

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2] Dayne Freitag (1998), Toward General-Purpose Learning for Information Extraction. In Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics Sách, tạp chí
Tiêu đề: Toward General-Purpose Learning for Information Extraction
Tác giả: Dayne Freitag
Năm: 1998
[3] S. Huffman (1996), Learning information extraction patterns from examples. In Stefan Wermter, Ellen Riloff, and Gabriele Scheler, editors, Connectionist, Statistical, and Symbolic Approaches to Learning for Natural Language Processing, pages 246–260. Springer-V erlag, Berlin Sách, tạp chí
Tiêu đề: Learning information extraction patterns from exampl
Tác giả: S. Huffman
Năm: 1996
[4] Roderick A. Jacobs (1995), English Syntax: A Grammar for English Language Professionals, Oxford University Press, US Sách, tạp chí
Tiêu đề: English Syntax: A Grammar for English Language Professionals
Tác giả: Roderick A. Jacobs
Năm: 1995
[5] J. Kim and D. Moldovan (1993), Acquisition of Semantic Patterns for Information Extraction from Corpora. In Proceedings of the Ninth IEEE Conference on Artificial Intelligence for Applications, pages 171–176, Los Alamitos, CA. IEEE Computer Society Press Sách, tạp chí
Tiêu đề: Acquisition of Semantic Patterns for Information Extraction from Corpora
Tác giả: J. Kim and D. Moldovan
Năm: 1993
[6] Nicholas Kushmerick (1997), Wrapper Induction for Information Extraction, Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence, IJCAI 97, Nagoya, Japan Sách, tạp chí
Tiêu đề: Wrapper Induction for Information Extraction
Tác giả: Nicholas Kushmerick
Năm: 1997
[7] Ellen Riloff and Jay Shoen (1995), “Automatically Acquiring Conceptual Patterns Without an Annotated Corpus”, Proceedings Third Workshop on Very Large Corpora, pp. 148-161 Sách, tạp chí
Tiêu đề: Automatically Acquiring Conceptual Patterns Without an Annotated Corpus”, "Proceedings Third Workshop on Very Large Corpora
Tác giả: Ellen Riloff and Jay Shoen
Năm: 1995
[8] Ellen Riloff (1996), “Automatically Generating Extraction Patterns from Untagged Text”, In Proceesding of the Thirteenth National Conference on Artificial Intelligence, pp. 1044-1049 Sách, tạp chí
Tiêu đề: Automatically Generating Extraction Patterns from Untagged Text”, "In Proceesding of the Thirteenth National Conference on Artificial Intelligence
Tác giả: Ellen Riloff
Năm: 1996
[9] Ellen Riloff (1993), “Automatically Constructing a Dictionary for Information Extraction Tasks”, Proceedings of the Eleventh National Conference on Artificial Intelligence, pp. 811–816 Sách, tạp chí
Tiêu đề: Automatically Constructing a Dictionary for Information Extraction Tasks”, "Proceedings of the Eleventh National Conference on Artificial Intelligence
Tác giả: Ellen Riloff
Năm: 1993
[10] Ellen Riloff and William Phillips (2004), An introduction to the Sundance and AutoSlog Systems, Technical Report UUCS-04-015, School of Computing, University of Utah Sách, tạp chí
Tiêu đề: Technical Report UUCS-04-015
Tác giả: Ellen Riloff and William Phillips
Năm: 2004
[11] Riloff, E. and Jones, R. (1999) "Learning Dictionaries for Information Extraction by Multi-Level Bootstrapping", Proceedings of the Sixteenth National Conference on Artificial Intelligence (AAAI-99), pp. 474-479 Sách, tạp chí
Tiêu đề: Learning Dictionaries for Information Extraction by Multi-Level Bootstrapping
[12] Riloff, E. and Wiebe, J. (2003) "Learning Extraction Patterns for Subjective Expressions", Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing (EMNLP-03) Sách, tạp chí
Tiêu đề: Learning Extraction Patterns for Subjective Expressions
[13] S. Soderland, D. Fisher, J. Aseltine, and W . Lehnert (1995), CRYST AL: Inducing a conceptual dictionary. In Proc. of the F ourteenth International Joint Conference on Artificial Intelligence, pages 1314–1319 Sách, tạp chí
Tiêu đề: CRYST AL: "Inducing a conceptual dictionary
Tác giả: S. Soderland, D. Fisher, J. Aseltine, and W . Lehnert
Năm: 1995
[14] Hong Yu, et al (2007), “Development, implementation, and a cognitive evaluation of a definitional question answering system for physicians”.Journal of Biomedical Informatics 40, pp. 236–251 Sách, tạp chí
Tiêu đề: Development, implementation, and a cognitive evaluation of a definitional question answering system for physicians”. "Journal of Biomedical Informatics 40
Tác giả: Hong Yu, et al
Năm: 2007

HÌNH ẢNH LIÊN QUAN

Hình 1.1 Mô hình tổng quan hệ thống trích lọc thông tin sử dụng mẫu - Nghiên cứu quá trình lạnh đông ứng dụng trong bảo quản sữa ong chúa để xuất khẩu
Hình 1.1 Mô hình tổng quan hệ thống trích lọc thông tin sử dụng mẫu (Trang 16)
Hình 1.2 Kết quả phân tích câu - Nghiên cứu quá trình lạnh đông ứng dụng trong bảo quản sữa ong chúa để xuất khẩu
Hình 1.2 Kết quả phân tích câu (Trang 17)
Hình 1.3 nguồn dữ liệu đƣợc tích hợp trong UMLS 1 - Nghiên cứu quá trình lạnh đông ứng dụng trong bảo quản sữa ong chúa để xuất khẩu
Hình 1.3 nguồn dữ liệu đƣợc tích hợp trong UMLS 1 (Trang 18)
Hình 1.4 Kiến trúc tổng quan của kho tri thức UMLS 2 1.2.2 Metathesaurus - Nghiên cứu quá trình lạnh đông ứng dụng trong bảo quản sữa ong chúa để xuất khẩu
Hình 1.4 Kiến trúc tổng quan của kho tri thức UMLS 2 1.2.2 Metathesaurus (Trang 19)
Hình 1.5 Các lớp khái niệm của Semantic Network 3 1.2.4 SPECIALIST Lexicon &amp; Lexical Tools - Nghiên cứu quá trình lạnh đông ứng dụng trong bảo quản sữa ong chúa để xuất khẩu
Hình 1.5 Các lớp khái niệm của Semantic Network 3 1.2.4 SPECIALIST Lexicon &amp; Lexical Tools (Trang 20)
Hình 1.6 Mô hình tạo mẫu tự động AutoSlog  1.4.1.2 Kho dữ liệu - Nghiên cứu quá trình lạnh đông ứng dụng trong bảo quản sữa ong chúa để xuất khẩu
Hình 1.6 Mô hình tạo mẫu tự động AutoSlog 1.4.1.2 Kho dữ liệu (Trang 21)
Hình 1.7 Kết quả phân tích câu &#34;Bacteriastrum is a genus of diatoms in family - Nghiên cứu quá trình lạnh đông ứng dụng trong bảo quản sữa ong chúa để xuất khẩu
Hình 1.7 Kết quả phân tích câu &#34;Bacteriastrum is a genus of diatoms in family (Trang 22)
Bảng  1.1 Tập mẫu cú pháp - Nghiên cứu quá trình lạnh đông ứng dụng trong bảo quản sữa ong chúa để xuất khẩu
ng 1.1 Tập mẫu cú pháp (Trang 23)
Hình 1.8 Mô hình tạo mẫu tự động AutoSlog-TS - Nghiên cứu quá trình lạnh đông ứng dụng trong bảo quản sữa ong chúa để xuất khẩu
Hình 1.8 Mô hình tạo mẫu tự động AutoSlog-TS (Trang 25)
Hình 1.11 Phân tích câu :&#34;The plane crashed in Utah in January in a blaze of - Nghiên cứu quá trình lạnh đông ứng dụng trong bảo quản sữa ong chúa để xuất khẩu
Hình 1.11 Phân tích câu :&#34;The plane crashed in Utah in January in a blaze of (Trang 30)
Hình 1.12 thể hiện các đối tượng được rút trích ứng với case frame ở hình 1.10 và  câu được phân tích hình 1.11 - Nghiên cứu quá trình lạnh đông ứng dụng trong bảo quản sữa ong chúa để xuất khẩu
Hình 1.12 thể hiện các đối tượng được rút trích ứng với case frame ở hình 1.10 và câu được phân tích hình 1.11 (Trang 31)
Hình 2.1 Mô hình tạo case frame tự động  2.3 Dữ liệu huấn luyện - Nghiên cứu quá trình lạnh đông ứng dụng trong bảo quản sữa ong chúa để xuất khẩu
Hình 2.1 Mô hình tạo case frame tự động 2.3 Dữ liệu huấn luyện (Trang 33)
Hình 2.2 Mô hình tạo relevant text  2.3.2 Irrelevant text - Nghiên cứu quá trình lạnh đông ứng dụng trong bảo quản sữa ong chúa để xuất khẩu
Hình 2.2 Mô hình tạo relevant text 2.3.2 Irrelevant text (Trang 34)
Bảng  2.3 Các thông số chọn lọc case frame  Thông số  Giá trị thỏa - Nghiên cứu quá trình lạnh đông ứng dụng trong bảo quản sữa ong chúa để xuất khẩu
ng 2.3 Các thông số chọn lọc case frame Thông số Giá trị thỏa (Trang 37)
Bảng  2.2 Case frame định nghĩa bị bỏ qua với ngƣỡng RelFreqi &gt;=5 - Nghiên cứu quá trình lạnh đông ứng dụng trong bảo quản sữa ong chúa để xuất khẩu
ng 2.2 Case frame định nghĩa bị bỏ qua với ngƣỡng RelFreqi &gt;=5 (Trang 37)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w