Tác tử hội thoại dựa trên văn bản cho tiếng ViệtNguyễn Quốc Đại Lớp K16 Khoa học máy tính Khoa Công nghệ thông tin Đại học Công nghệ Đại học Quốc gia Hà Nội dainq@vnu.edu.vn Tiến sĩ Phạm
Trang 1A Vietnamese Text-based Conversational Agent
Nguyen Quoc Dai
Faculty of Information Technology University of Engineering and Technology Vietnam National University, Hanoi
Supervised by
Dr Pham Bao Son
A thesis submitted in fulfillment of the requirements
for the degree of Master of Science in Computer Science
November 2011
Trang 2Table of Contents
1.1 A Semantic Approach for Question Analysis 1
1.2 A Vietnamese Text-based Conversational Agent 2
1.3 Thesis Organisation 3
2 Literature review 4 2.1 Text-based conversational agents 4
2.1.1 Using keywords for pattern matching 4
2.1.2 Using the sentence similarity measure for pattern matching 7
2.2 FrameScript Scripting Language 9
2.3 Question answering systems 12
3 Our Question Answering System Architecture 15 3.1 Vietnamese Question Answering System 15
3.1.1 Natural language question analysis component 16
3.1.1.1 Intermediate representation of an input question 16
3.1.1.2 Question analysis 17
3.1.2 Answer retrieval component 18
3.2 Using FrameScript for question analysis 19
3.2.1 Preprocessing module 19
3.2.2 Syntactic analysis module 20
3.2.3 Semantic analysis module 22
4 Text-based Conversational Agent for Vietnamese 24 4.1 Overview of architecture 24
4.2 Determining separate contexts 25
4.3 Identifying hierarchical contexts 27
vi
Trang 3TABLE OF CONTENTS vii
5.1 Experimental results
for Vietnamese text-based conversational agent 29
5.2 Question Analysis for English 31
5.3 Discussion 33
A Scripting patterns
Trang 4Tác tử hội thoại dựa trên văn bản cho tiếng Việt
Nguyễn Quốc Đại
Lớp K16 Khoa học máy tính Khoa Công nghệ thông tin Đại học Công nghệ Đại học Quốc gia Hà Nội dainq@vnu.edu.vn
Tiến sĩ Phạm Bảo Sơn
Khoa Công nghệ thông tin Đại học Công nghệ Đại học Quốc gia Hà Nội sonpb@vnu.edu.vn
Tóm tắt: Đầu tiên, luận văn này mô tả tổng quan về kiến trúc hệ thống hỏi đáp tiếng Việt
của chúng tôi, và chi tiết hơn đề xuất một phương pháp mới dựa trên luật để lấy ra một bộ biểudiễn trung gian của câu hỏi trực tiếp bên trong các luật ngữ pháp Quan trọng hơn, luận vănnày tập trung vào việc giới thiệu một tác tử hội thoại dựa trên văn bản cho tiếng Việt về mộtmiền tri thức cụ thể Đóng góp của chúng tôi nhằm hướng người dùng vào trong các ngữ cảnhhội thoại để cung cấp các thông tin liên quan tới phát biểu của người dùng Thêm nữa, khi hệthống hỏi đáp của chúng tôi không thể trả lời các câu hỏi của người dùng thì việc sử dụng tác
tử hội thoại có thể thu nhận các thông tin cần thiết để hỗ trợ hệ thống hỏi đáp trong việc đưa
ra một câu trả lời Các kết quả thực nghiệm là đủ triển vọng nơi mà tác tử hội thoại cho tiếngViệt của chúng tôi đạt đươc các đánh giá tích cực dựa trên mức độ hài lòng của người dùng
và chỉ ra khả năng trong việc sử dụng kiến trúc này để áp dụng vào một miền mới Ngoài ra,phương pháp cho phân tích câu hỏi của chúng tôi cũng thu được các kết quả khả quan trongtiếng Anh và chỉ ra rằng phương pháp này dễ dàng thích hợp cho một ngôn ngữ mới
Từ khóa: Tác tử hội thoại dựa trên văn bản; Hệ thống hỏi đáp; Phân tích câu hỏi;
CÔNG TRÌNH KHOA HỌC
? Dai Quoc Nguyen, Dat Quoc Nguyen and Son Bao Pham A Vietnamese Text-based
Con-versational Agent In Proc of The 25th International Conference on Industrial, Engineering &
Other Applications of Applied Intelligent Systems, Springer-Verlag LNAI, pp 699-708
? Dai Quoc Nguyen, Dat Quoc Nguyen and Son Bao Pham A Semantic Approach for
Question Analysis In Proc of The 25th International Conference on Industrial, Engineering &
Other Applications of Applied Intelligent Systems, Springer-Verlag LNAI, pp 156-165
? Dat Quoc Nguyen, Dai Quoc Nguyen and Son Bao Pham Systematic Knowledge
Acquisi-tion for QuesAcquisi-tion Analysis In Proc of the 8th InternaAcquisi-tional Conference on Recent Advances in
Natural Language Processing (RANLP 2011), pp 406-412
Trang 5? Dai Quoc Nguyen, Dat Quoc Nguyen, Khoi Trong Ma and Son Bao Pham Automatic
Ontology Construction from Vietnamese text In Proceedings of the 7th International Conference
on Natural Language Processing and Knowledge Engineering (NLPKE’11), IEEE CS
? Dat Quoc Nguyen, Dai Quoc Nguyen, Son Bao Pham and Dang Duc Pham Ripple Down
Rules for Part-Of-Speech Tagging In Proc of 12th International Conference on Intelligent Text
Processing and Computational Linguistics (CICLING 2011), Springer-Verlag LNCS, part I, pp.190-201
? Dai Quoc Nguyen, Dat Quoc Nguyen and Son Bao Pham A Vietnamese question
answer-ing system In Proceedanswer-ings of the 2009 International Conference on Knowledge and Systems
Engineering (KSE 2009) , IEEE CS, pp 26–32
I GIỚI THIỆU
Sự phát triển mạnh mẽ của các thông tin trực tuyến với các công cụ tìm kiếm thông tin nhằm
để trích ra các thông tin mong muốn Điều này đưa ra các những thách thức đối với việc xâydựng các hệ thống tìm kiếm thông tin như các tác tử hội thoại có thể giao tiếp với con người.Mục đích của các tác tử hội thoại là hỗ trợ các ứng dụng trong các tổ chức doanh nghiệp, tronggiáo dục, chăm sóc sức khỏe, trong chính phủ và các hoạt động giải trí
Một trong các dạng tác tử hội thoại là dựa trên một giao diện văn bản Một tác tử hội thoạidựa trên văn bản là một chương trình cho phép các tương tác hội thoại giữa người và máy bằngcách sử dụng ngôn ngữ tự nhiên thông qua văn bản Tác tử hội thoại dựa trên văn bản sử dụngcác tập lệnh (script) được tổ chức vào trong các ngữ cảnh gồm các luật được cấu trúc phân cấp.Các luật bao gồm các mẫu và các đáp ứng kết hợp, nơi một đầu vào được so khớp dựa vào cácmẫu và các đáp ứng tương ứng là một đầu ra được gửi tới người dùng
Gần đây, việc xây dựng các tác tử hội thoại dựa trên văn bản được phát triển theo hai cáchtiếp cận chính bao gồm việc sử dụng các từ khóa (ELIZA [1], ALICE [2], ProBot [3]) và sửdụng một độ đo sự giống nhau [4][5] cho việc so khớp mẫu Mỗi cách tiếp cận đều có các ưunhược điểm riêng, nhưng thực thế rằng việc sử dụng các từ khóa có thể đem lại các kết quảkhả quan cho việc thu nhận tri thức
Các hệ thống hỏi đáp nhằm đưa ra các câu trả lời chính xác cho các câu hỏi người dùng.Bước đầu tiên mà các hệ thống hỏi đáp phải được thực hiện là chuyển câu hỏi đầu vào thànhmột bộ biểu diễn trung gian Gần đây tất cả các nghiên cứu đã công bố sử dụng các phươngpháp dựa trên luật để thực hiện việc chuyển đổi này trong các hệ thống hỏi đáp Tuy nhiên,trong các phương pháp dựa trên luật hiện có thì việc tạo các luật bằng tay rất mất công sức vàtốn nhiều thời gian Do đó, trong luận văn này, đầu tiên chúng tôi sẽ đề xuật một phương phápmới dựa trên luật để thu lấy một bộ biểu diễn trung gian của câu hỏi một cách trực tiếp bêntrong các luật thông qua ngôn ngữ FrameScript [8]
Trang 6Quan trọng hơn, trong luận văn này, chúng tôi đồng thời giới thiệu một kiến trúc tác tử hộithoại dựa trên văn bản cho tiếng Việt về một miền tri thức cụ thể Hệ thống của chúng tôi nhằmhướng những người dùng vào trong sự phân cấp của các ngữ cảnh hội thoại dựa vào các scriptgồm các luật dùng ngôn ngữ [8] Thêm nữa, tác tử hội thoại dựa trên văn bản của chúng tôiđược tích hợp với hệ thống hỏi đáp tiếng Việt để hình thành một hệ thống chung mà hệ thốnghỏi đáp được xem như phần mặt trước (front-end) còn tác tử hội thoại được xem như phần mặtsau Mục đích của chúng tôi không chỉ cung cấp các thông tin liên quan tới phát biểu ngườidùng mà còn có thể thu nhận các thông tin cần thiết để giúp đỡ hệ thống hỏi đáp đưa ra mộtcâu trả lời.
Luận văn này gồm 6 phần Trong phần II, chúng tôi cung cấp các nghiên cứu liên quan và
mô tả kiến trúc hệ thống hỏi đáp tiếng Việt của chúng tôi cùng với việc trình bày một phươngpháp cho việc chuyển đổi một câu hỏi ngôn ngữ tự nhiên vào trong một bộ biểu diễn trunggian trong phần III Chúng tôi đưa ra kiến trúc tác tử hội thoại dựa trên văn bản cho tiếng Việttrong phần IV Chúng tôi mô tả các thực nghiệm trong phần V, và kết luận sẽ được trình bàytrong phần VI
II CÁC NGHIÊN CỨU LIÊN QUAN
A Tác tử hội thoại dựa trên văn bản
ELIZA [1] là một trong các tác tử hội thoại dựa trên văn bản đầu tiên dùng một so khớpmẫu đơn giản bằng cách nhận biết từ khóa từ phát biểu của người dùng Sau đó ELIZA chuyểnphát biểu này tới một luật thích hợp và sinh ra đáp ứng đầu ra
ALICE [2] là một tác tử hội thoại dựa trên văn bản như là robot nói chuyện dùng một ngônngữ XML gọi là ngôn ngữ đánh dấu trí tuệ nhân tạo (Artificial Intelligence Markup Language
- AIML) Các tệp AIML gồm các thẻ category biểu diễn các luật và được lưu trong một cây; mỗi thẻ category chứa đựng một cặp thẻ pattern và template Hệ thống tìm kiếm pattern phù hợp với đầu vào bằng cách dùng tìm kiếm theo chiều sâu và đưa ra các template thích hợp như
một đáp ứng tới người dùng
O’Shea et al [4][5] đã đề xuất một framework tác tử hội thoại dựa trên văn bản sử dụng phântích ngữ nghĩa Tất cả các mẫu trong các script là các câu ngôn ngữ tự nhiên So khớp mẫu sửdụng một độ đo sự giống nhau [9] để tính sự tương đồng giữa các câu từ các script và câu đầuvào Câu được xếp hạng cao nhất được lựa chọn và đáp ứng kết hợp được gửi tới người dùng.Sammut [3] đã trình bày một tác tử hội thoại gọi là ProBot mà có thể trích xuất dữ liệu từngười dùng Các script của ProBot được tổ chức vào trong các ngữ cảnh phân cấp bao gồmcác luật được tổ chức để xử lý các đầu vào không mong muốn Hiện thời McGill et al [8] bắtnguồn từ các script của ProBot [3] để xây dựng hệ thống luật trong ngôn ngữ FrameScript (insection II-B) FrameScript [8] cung cấp sự tạo nguyên mẫu nhanh của các giao diện hội thoại
và đơn giản hóa quá trình viết các script
Trang 7B Ngôn ngữ FrameScript
FrameScript [8] là một ngôn ngữ cho việc tạo các giao diện người dùng đa phương thức Mỗiscript trong FrameScript bao gồm một danh sách các luật được so khớp dựa vào đầu vào vàđược sử dụng để đưa ra các đáp ứng thích hợp Các luật được nhóm vào trong các ngữ cảnhriêng biệt dưới dạng: tên_ngữ_cảnh :: tập_luật Các luật bao gồm các mẫu và các đáp ứng ởdạng:
mẫu ==>đáp ứng
Các biểu thức mẫu có thể chứa đựng hai ký tự đặc trưng là * và ∼ Ký tự * sẽ so khớp với
0 hoặc nhiều từ trong khi ký tự ∼ bên trong một từ chỉ ra rằng có 0 hoặc nhiều ký tự có thểđược so khớp Các biểu thức mẫu cũng cho phép sử dụng các lựa chọn bằng cách cấu trúc dướidạng: { lựa chọn 1 | lựa chọn 2 | } Thêm nữa, các mẫu dùng các dạng không kết thúc để
sử dụng lại các biểu thức mẫu bằng cách viết tên các dạng không kết thúc được bao quanh bởi
‘<’ và ‘>’ Các dạng không kết thúc thường được khai báo như là một danh sách các lựa chọnđược theo sau bởi ;;
Các biểu thức đáp ứng chứa đựng hai kiểu khác nhau là các dãy và các lựa chọn Dãy cácđáp ứng có dạng được bao quanh bởi dấu ngoặc vuông: [đáp ứng 1 | đáp ứng 2 | | đáp ứngkhác], nơi mỗi đáp ứng được đưa ra lần lượt khi mẫu được so khớp và dãy lặp lại khi đáp ứngcuối cùng là đầu ra Các lựa chọn có dạng được bao quanh bởi dấu ngoặc nhọn: {đáp ứng 1 |
đáp ứng 2 | | đáp ứng khác}, trong đó bất kỳ đáp ứng nào cũng có thể được lựa chọn ngẫunhiên làm đầu ra
Thêm nữa, các đáp ứng dùng ‘#’ và ‘∧’ để thực hiện các hành động Ví dụ, #goto(a_script)chuyển đổi một một hội thoại hoặc tương tác từ một ngữ cảnh này sang ngữ cảnh khác Mộtvài các biểu thức đáp ứng có thể phụ thuộc vào một số điều kiện mà được cấu trúc như bêndưới:
Một đầu vào được nhận từ người dùng được truyền tới một miền - domain để chắc chắn rằng
đầu vào được so khớp dựa vào các script chính xác Script có thể được đăng ký như là một chủ
để trong một miền để trở thành script hiện thời và xử lý đầu vào Khi một script được đăng kýnhư một chủ đề, domain sử dụng bộ khởi động (trigger) của script để xác định có hay không
Trang 8một đầu vào kích hoạt chủ đề đó và nếu có một trigger của chủ đề so khớp với đầu vào thì chủ
đề này trở thành ngữ cảnh hiện thời và là chủ đề hiện thời
C Question answering systems
Ban đầu, các hệ thống giao diện ngôn ngữ tự nhiên hướng cơ sở dữ liệu (NLIDB) sử dụng kỹthuật so khớp mẫu để xử lý câu hỏi của người dùng và sinh ra câu trả lời tương ứng [10] Một
kỹ thuật thông dụng cho việc phân tích các câu hỏi đầu vào trong các hướng tiếp cận hướng
cơ sở dữ liệu là phân tích cú pháp Một câu hỏi ngôn ngữ tự nhiên được ánh xạ trực tiếp tớimột truy vấn cơ sở dữ liệu như SQL thông qua các luật văn phạm Nguyen and Le [11] đã giớithiệu một hệ thống hỏi đáp NLIDB cho tiếng Việt sử dụng các văn phạm ngữ nghĩa Hệ thốngcủa họ gồm 2 module chính: QTRAN và TGEN QTRAN (bộ dịch truy vấn) ánh xạ một câuhỏi ngôn ngữ tự nhiên tới một truy vấn SQL trong khi TGEN (bộ sinh văn bản) sinh ra câutrả lời dựa trên các bảng kết quả truy vấn QTRAN sử dụng văn phạm phi ngữ cảnh hữu hạnnhằm phân tích câu hỏi thành cây cú pháp thông qua thuật toán CYK
Hiện nay, một số hệ thống hỏi đáp sử dụng các chú giải ngữ nghĩa đem lại kết quả cao trongphân tích các câu hỏi ngôn ngữ tự nhiên Một trong những framework nổi tiếng xây dựng cácchú giải là GATE [12] GATE được sử dụng trong nhiều hệ thống hỏi đáp và đặc biệt là được
sử dụng trong module phân tích câu hỏi như trong các hệ thống Aqualog [6], QuestIO [13], hệthống được giới thiệu trong [7]
AquaLog là một hệ thống hỏi đáp tiếng Anh dựa trên Ontology Đầu vào của hệ thống này
là câu hỏi ngôn ngữ tự nhiên và một Ontology Hệ thống sẽ sinh ra câu trả lời cho người dùngdựa trên phân tích ngữ nghĩa của câu hỏi và dựa trên các thành phần tương ứng trong Ontology.Kiến trúc của Aqualog được mô tả như một mô hình thác nước, trong đó, thành phần ngôn ngữ
sẽ ánh xạ một câu hỏi tới một tập biểu diễn của các bộ ba trung gian được gọi là bộ ba truyvấn (Query-Triple) Thành phần RSS (Relation Similarity Service) lấy một bộ ba truy vấn nhưđầu vào và xử lý nó để sinh ra các bộ ba Onto (Onto-Triple) truy vấn trong mối quan hệ vớiOntology mục tiêu
Aqualog thực hiện phân tích cú pháp và ngữ nghĩa của câu hỏi áp dụng các nguồn xử lý đượccung cấp trong GATE như bộ tách từ, bộ tách câu, bộ gán nhãn từ loại Khi một câu hỏi đượchỏi, nhiệm vụ của thành phần ngôn ngữ là chuyển câu hỏi ấy thành bộ ba truy vấn có địnhdạng (generic term(thuật ngữ chung), mối quan hệ (relation), second term(thuật ngữ thứ2)) Thông qua việc sử dụng văn phạm JAPE trong GATE [12], AquaLog nhận biết các thuậtngữ (term) và mối quan hệ giữa chúng Thành phần RSS sử dụng bộ ba truy vấn nhằm tạo ra
bộ ba Onto truy vấn, trong đó, mỗi thuật ngữ trong các bộ ba truy vấn sẽ được khớp với cácthành phần trong Ontology
Trong các công trình của mình, chúng tôi đã trình bày một phương pháp [14] biến đổi câuhỏi ngôn ngữ tự nhiên trong tiếng Việt tới thành phần biểu diễn trung gian với các bộ truyvấn (query-tuple) có định dạng (Question-structure(cấu trúc câu hỏi), Question-class(phân
Trang 9lớp câu hỏi), Term1(thuật ngữ thứ nhất), Relation(mối quan hệ), Term2(thuật ngữ thứ hai),Term3(thuật ngữ thứ ba)) dựa trên các chú giải ngữ nghĩa thông qua văn phạm JAPE Bộ truyvấn được lựa chọn nhằm mục tiêu bao phủ sự đa dạng của các kiểu câu hỏi trong các ngôn ngữkhác nhau Ngoài ra chúng tôi còn đề xuất một hướng tiếp cận độc lập ngôn ngữ [15](2011)
để thu các luật JAPE theo một cách có hệ thống nhằm tránh sự tương tác không mong muốngiữa các luật Phan và Nguyen [7](2010) giới thiệu một cách sử dụng văn phạm JAPE để ánh
xạ ngữ nghĩa và cấu trúc các câu hỏi tiếng Việt thành kiểu bộ ba Subject(chủ ngữ), Verb(động từ) và Object(đối tượng).
III KIẾN TRÚC HỆ THỐNG HỎI ĐÁP CỦA CHÚNG TÔI
Thành phần tìm kiếm câu trả lời gồm 2 module: ánh xạ Ontology và trích trọn câu trả lời
Nó lấy biểu diễn trung gian được tạo ra bởi thành phần phân tích câu hỏi và một Ontology đểsinh ra câu trả lời
Figure 1 Architecture of our question answering system.
Trang 101) Thành phần phân tích câu hỏi ngôn ngữ tự nhiên: Trong hệ thống của chúng tôi, bộ biểu diễn
trung gian được sử dụng gồm có một cấu trúc câu hỏi(question-structure) và một hoặc nhiều
bộ truy vấn (query-tuple) có định dạng: (question-structure, question-class, T erm 1, Relation,
T erm 2, T erm 3) Trong đó, T erm 1 biểu diễn một khái niệm (lớp đối tượng), T erm 2 và T erm 3
(nếu tồn tại) biểu diễn các thực thể (đối tượng), Relation là một ràng buộc ngữ nghĩa giữa các
thuật ngữ trong câu hỏi
Các câu hỏi được giản có một bộ truy vấn và structure của câu hỏi chính là
question-structure trong bộ truy vấn Các câu hỏi phức tạp như các câu hỏi phức hợp có vài câu hỏi con,
mỗi câu hỏi con được biểu diễn bởi một bộ truy vấn riêng biệt, và question-structure của câu
hỏi nắm bắt tính chất phức hợp này
Ví dụ với câu hỏi phức hợp “danh sách tất cả các sinh viên của khoa công nghệ thông tin
mà có quê quán ở Hà Nội?” có question-structure là And và có 2 bộ truy vấn là ( UnknRel ,
List , sinh viênstudent , ? , khoa công nghệ thông tinF aculty of Inf ormation T echnology , ? ) and (
Normal , List , sinh viênstudent , có quê quán has hometown , Hà NộiHanoi , ? ), trong đó ? biểu
diễn thành phần còn thiếu
Biểu diễn này được lựa chọn với mục đích biểu diễn một tập lớn các kiểu câu hỏi Bởivậy, một vài thuật ngữ hoặc mối quan hệ trong bộ truy vấn có thể bị thiếu Chúng tôi định
nghĩa các cấu trúc câu hỏi (question structure) gồm có Normal, UnknTerm, UnknRel, Definition,
Compare, ThreeTerm, Clause, Combine, And, Or, Affirm, Affirm_3Term, Affirm_MoreTuples, và
định nghĩa các phân lớp câu hỏi bao gồm HowWhy, YesNo, What, When, Where, Who, Many,
ManyClass, List và Entity.
Có 3 môđun mà chúng tôi sử dụng để lấy ra một bộ biểu biểu diễn trung gian của câu hỏingười dùng bao gồm: tiền xử lý, phân tích cú pháp và phân tích ngữ nghĩa
Môđun tiền xử lý sinh ra các chú giải TokenVn biểu diễn các từ tiếng Việt với các đặc trưng
như nhãn từ loại Tiếng Việt là ngôn ngữ đơn âm, bởi vậy một từ có thể chứa nhiều hơn mộttiếng Môđun này nhằm xác định các từ để hỏi và các cụm từ so sánh hoặc các từ đặc biệt bằngcách sử dụng các luật JAPE
Môđun phân tích cú pháp này dùng để nhận biết các cụm danh từ và mối quan hệ giữa chúng Module này sử dụng các chú giải TokenVn là các kết quả từ module tiền xử lý Ngoài ra, các
cụm để hỏi được xác định bằng cách sử dụng cụm danh từ và các từ hỏi được nhận biết từmodule tiền xử lý
Môđun phân tích ngữ nghĩa xác định cấu trúc câu hỏi và tạo ra các bộ truy vấn được
xem như biểu diễn trung gian (question-structure, question-class, Term1, Relation, Term2,Term3) của câu hỏi đầu vào bằng cách sử dụng các chú giải được sinh ra từ module trước đó.Chúng tôi sử dụng văn phạm JAPE để xác định cấu trúc câu hỏi, các thuật ngữ và mối quan
hệ tương ứng
Chúng tôi tạo biểu diễn trung gian của câu hỏi đầu vào theo cách nối cứng mỗi mẫu cấu trúcđược nhận biết bởi văn phạm JAPE với mã nguồn Java để trích ra các thành phần tương ứng
Trang 11Việc này tốn nhiều thời gian khi xuất hiện các mẫu mới Các luật được tạo ra theo cách nàygặp vấn đề khó khăn khi quản lý sự tương tác và giữ sự nhất quán giữa chúng Bởi vậy, chúngtôi sẽ trình bày một hướng tiếp cận thu hồi tri thức để lấy ra trực tiếp một bộ biểu diễn trunggian của câu hỏi bằng cách sử dụng ngôn ngữ FrameScript [8] trong phần III-B nhằm mục đíchgiải quyết các khó khăn gặp phải.
2) Thành phần tìm kiếm câu trả lời: Thành phần tìm kiếm câu trả lời chứa đựng hai module làánh xạ Ontology và trích chọn câu trả lời như được mô tả trong hình 1 Nó lấy một biểu diễntrung gian được tạo ra bởi thành phần phân tích câu hỏi và một ontology như đầu vào để sinh
ra câu trả lời
Đối với mỗi bộ truy vấn, kết quả của module ánh xạ Ontology là một bộ-ontology chứa đựngcác thành phần trong ontology tương ứng với các các thuật ngữ và mối quan hệ trong bộ truyvấn Với bộ-Ontology, module trích chọn câu trả lời tìm tất cả các đối tượng của các khái niệmontology tương ứng của Term1 có mối quan hệ Relation với đối tượng tương ứng với Term2.Phụ thuộc vào cấu trúc câu hỏi (question-structure) và phân lớp câu hỏi (question-class), câutrả lời tốt nhất sẽ được sinh ra
B Sử dụng ngôn ngữ FrameScript cho phân tích câu hỏi
Không giống với các phương pháp hiện có cho tiếng Anh [6] và tiếng Việt (trong phần III-A1)nơi mà bộ biểu diễn trung gian không thể được trích ra một cách trực tiếp và trực quan ngaytrong các luật ngữ pháp, chúng tôi sẽ mô tả một phương pháp mới để thu được bộ biểu diễncủa câu hỏi người dùng bằng cách sử dụng ngôn ngữ FrameScript [8]
Thành phần phân tích câu hỏi ngôn ngữ tự nhiên được đưa ra trong hình 2 cũng gồm có 3môđun: tiền xử lý, phân tích cú pháp và phân tích ngữ nghĩa
Figure 2 Architecture of the natural language analysis component using FrameScript.
1) Môđun tiền xử lý: Môđun tiền xử lý sử dụng một công cụ để lấy các nhãn từ loại từ câuhỏi người dùng Sau đó, chúng tôi dùng ngôn ngữ FrameScript [8] kết hợp với các nhãn từ loại