1. Trang chủ
  2. » Luận Văn - Báo Cáo

XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN

22 290 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 22
Dung lượng 538,14 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Động cơ nghiên cứu Để phục vụ cho những nhu cầu tìm kiếm thông tin của người sử dụng, các hệ thống truy xuất thông tin IR ñã ñược nghiên cứu và phát triển, trong ñó thành công nhất là m

Trang 2

- 1 -

1.1 Động cơ nghiên cứu

Để phục vụ cho những nhu cầu tìm kiếm thông tin của người sử dụng, các hệ thống truy xuất thông tin (IR) ñã ñược nghiên cứu và phát triển, trong ñó thành công nhất là một số ñộng cơ tìm kiếm

(search engine) nổi tiếng như Google–Yahoo–Alta Vista và Bing

trong thời gian gần ñây Tuy nhiên, thông qua các hệ thống ñó, việc tìm kiếm thông tin thường không nhận ñược ñầy ñủ kết quả cần thiết như mong muốn cũng như hiệu suất của chúng còn có một số giới hạn nhất ñịnh

Từ các phân tích trên, chúng ta nhận thấy nguyên nhân chính là các

hệ thống tìm kiếm thông tin chưa ñủ mạnh nên kết quả ñưa ra không

thể hỗ trợ người dùng như mong ñợi Truy vấn của người dùng cũng

chưa phản ánh ñầy ñủ ngữ nghĩa ñể hỗ trợ cho các quá trình tìm

kiếm và truy xuất thông tin ñược tốt hơn Vì vậy, việc bổ sung ngữ nghĩa vào truy vấn ban ñầu của người dùng là yêu cầu cần thiết

Từ tầm quan trọng về tính hiệu quả của quá trình truy xuất thông tin tiếng Anh (trên môi trường Web), cùng với hướng giải quyết làm sao

ñể hệ thống IR có thể hiểu nhiều hơn và thông minh hơn khi xử lý truy vấn ban ñầu của người dùng, thì yêu cầu về một hệ thống truy xuất thông tin có khả năng tạo ra những truy vấn ñồng nghĩa hoặc

cùng mục tiêu là bài toán quan trọng Do ñó, vấn ñề mở rộng truy

vấn là bài toán quan trọng mà luận án này nghiên cứu và ñề xuất

phương pháp giải quyết

1.2 Mục tiêu và phạm vi nghiên cứu

Từ ñộng cơ nghiên cứu nêu trên, luận án ñề xuất một số phương pháp mở rộng truy vấn ban ñầu của người dùng Đây là vấn ñề cốt lõi và ñồng thời là mục tiêu nghiên cứu của luận án

Như ñịnh hướng nêu trên, phạm vi nghiên cứu của luận án ñược thể

hiện trong hình 1.1 (trong khung ñường gạch ñứt nét)

Trang 3

- dạng cụm danh từ,

- ñã ñược mở rộng có dạng

truy vấn hoàn chỉnh

(B) Động cơ tìm kiếm thông tin (thuộc hệ thống truy xuất thông tin)

(C) Kết quả tìm kiếm thông tin từ yêu cầu của các câu truy vấn ñã mở rộng

Với mô hình ñược mô tả ở hình 1.1, trong mục (A), câu truy vấn nhập (dạng cụm danh từ bao gồm các thành phần là tính từ hay chỉ

có danh từ ñơn) ñược xử lý ñể trả về tập các câu truy vấn ñã ñược

luận án, dựa trên giải pháp rút trích các từ ñặc trưng cốt lõi cho một câu ([8] [39]), câu truy vấn ban ñầu của người dùng ñược tiền xử lý

ñể loại bỏ các thành phần không quan trọng nhằm giữ lại những thành phần chính thỏa ñiều kiện truy vấn hoàn chỉnh Điều ñó sẽ giúp giảm ñược ñộ phức tạp hay dạng biểu diễn phức hợp của truy vấn, ñồng thời còn giúp ñảm bảo tính duy nhất của từng thành phần

trong truy vấn thỏa ñiều kiện truy vấn hoàn chỉnh

Mục (B) của hình trên gồm ñộng cơ tìm kiếm thông tin (search

engine) Đây là một bộ phận quan trọng của hệ thống Truy xuất

Thông tin (Information Retrieval) Động cơ tìm kiếm thông tin giải

khảo ñược giữ ñúng theo quyển luận văn chính, không ñánh số lại.

d Tham khảo ñịnh nghĩa 3.10-Truy vấn hoàn chỉnh, mục 3.2.6, chương 3

Trang 4

- 3 -

quyết ba vấn ñề cốt lõi là mô hình biểu diễn văn bản, thuật toán tìm

kiếm so trùng từ khóa - ñối sánh ngữ nghĩa tương ứng với các truy

vấn và cơ chế lọc kết quả truy xuất Hiện tại trên thế giới có những

ñộng cơ tìm kiếm thông tin nổi tiếng như Google, Yahoo, Microsoft

Bing … Tuy nhiên, nghiên cứu của luận án chỉ sử dụng những ñộng

cơ này như một công cụ hỗ trợ việc tìm kiếm thông tin cho truy vấn

ñã mở rộng bằng phương pháp xử lý của luận án và không ñặt mục

tiêu nghiên cứu ba vấn ñề nêu trên Vì vậy luận án ñã không trình

bày ba vấn ñề này

Mô hình xử lý của luận án (trong mục (A)) chỉ thực hiện việc

mở rộng nội dung của truy vấn nhập nên hoàn toàn không làm

ảnh hưởng ñến ba khía cạnh nêu trên trong quá trình vận hành

của ñộng cơ tìm kiếm ở mục (B) Điều này còn cho thấy phạm

vi nghiên cứu của luận án hướng ñến bài toán mở rộng truy vấn

dựa trên ontology và hoàn toàn khác biệt so với ba khía cạnh

Từ những trình bày trên, các bài toán chính cần giải quyết trong

phạm vi luận án bao gồm:

Bài toán 1 - Xây dựng ontology OOMP

Nghiên cứu và phát triển cấu trúc ontology OOMP (Ontology of

Object-Member-Property) cùng cơ chế huấn luyện dữ liệu Từ ñó tạo

dữ liệu ban ñầu dựa trên tập tài liệu tiếng Anh từ nguồn TREC cũng

như khai thác dữ liệu từ WordNet ñể cung cấp ontology OOMP

nhằm phục vụ yêu cầu của bài toán 2

Bài toán 2 - Xây dựng phương pháp hoàn chỉnh mở rộng truy

vấn

Dựa trên ontology ở bài toán 1, nghiên cứu xây dựng phương pháp

tiếp cận mới cho việc mở rộng truy vấn nhằm tạo truy vấn kết quả có

dạng truy vấn hoàn chỉnh (biểu diễn ở dạng cụm danh từ về mặt

ngôn ngữ học) và xây dựng các giải thuật hỗ trợ trong phạm vi bài

toán 2

- 40 -

Conference on Principles and Practice of Knowledge Discovery in Databases Dubrovnik, Croatia 22 September 2003

[35] Sandhya Revuri, Sujatha R Upadhyaya, P Sreenivasa Kumar

Using Domain Ontologies for Efficient Information Retrieval 13th

International Conference on Management of Data (COMAD 2006), IIT, Delhi, India, 2006

[36] Tru H Cao, Khanh C Le, Vuong M Ngo Exploring Combinations of Ontological Features and Keywords for Text Retrieval

Lecture Notes In Artificial Intelligence; Vol 5351 The 10th Pacific Rim International Conference on Artificial Intelligence: Trends in Artificial Intelligence, pp.603-613 Hanoi, Vietnam 2008 ISBN: 978-3-540-89196-

3

[37] Tru H Cao, Truong D Cao, Thang L Tran A Robust Based Method for Translating Natural Language Queries to Conceptual Graphs Lecture Notes In Computer Science; Vol 5367 The 3rd Asian

Ontology-Semantic Web Conference on The Ontology-Semantic Web, pp.479 - 492 Bangkok, Thailand 2008 ISBN: 978-3-540-89703-3

[38] Van Dang, Bao-Quoc Ho, Minh Luong Vi, Bich-Thuy Dong

English-Vietnamese Cross-Language Information Retrieval: An Experimental Study IEEE International Conference on Research,

Innovation and Vision for the Future, RIVF 2008, pp.107-113 July 13-17,

2008 Ho Chi Minh City, Vietnam ISBN: 978-1-4244-2379-8

Trang web

[39] KEA, http://www.kea.org [40] Lucene, http://apache.lucene.org [41] TREC, http://trec.nist.gov/data.html

Trang 5

- 39 -

- in Computing and Communications Technologies (RIVF'2008),

pp.247-254 July 13-17, 2008 HCM City, Vietnam

[26] Julio Gonzalo, Felisa Verdejo, Irina Chugur, Juan Cigarran

Indexing with WordNet synsets can improve text retrieval Proceedings of

the COLING/ACL'98 Workshop on Usage of WordNet for NLP, Montreal

[27] Khanh Tran Dang Ensuring Correctness, Completeness and

Freshness for Outsourced Tree-Indexed Data Information Resources

Management Journal (IRMJ), Idea-Group Publisher, ISSN 1040-1628, Vol

21, Issue 1, pp.59-76 Jan-Mar 2008

[28] Lev Finkelstein, Evgeniy Gabrilovich, Yossi Matias, Ehud Rivlin,

Zach Solan, Gadi Wolfman, Eytan Ruppin Placing search in context: the

concept revisited ACM Transactions on Information Systems, volume 20,

issue 1 (January 2002), pp.116–131 2002 ISSN: 1046-8188

[29] Marti A Hearst Automatic acquisition of hyponyms from large

text corpora International Conference On Computational Linguistics

Proceedings of the 14th conference on Computational linguistics, Volume

2, pp.539–545.France 1992

[30] Phuc Do, Hung Xuan Mai Using SOM based graph clustering for

extracting main ideas from documents IEEE International Conference on

Research, Innovation and Vision for the Future, RIVF 2008, pp 209-214

July 13-17, 2008 Ho Chi Minh City, Vietnam ISBN: 978-1-4244-2379-8

[31] Phuc Do, Phung Nguyen Using Nạve Bayes Model and Natural

Language Processing for Classifying Messages on Online Forum IEEE

International Conference on Research, Innovation and Vision for the

Future, pp.247-252 March 5-9, 2007 Hanoi, Vietnam ISBN:

1-4244-0694-3

[32] Robert Bossy, Alain Kotoujansky, Sophie Aubin, Claire Nedellec

Close Integration of ML and NLP Tools in BioAlvis for Semantic Search in

Bacteriology In Semantic Web Applications and Tools for Life Sciences,

SWAT4LS 2008

[33] Robert Krovetz, W Bruce Croft Lexical ambiguity and

information retrieval ACM Transactions on Information Systems (TOIS),

Volume 10, Issue 2 (April 1992), pp.115–141 1992 ISSN: 1046-8188

[34] Roberto Navigli, Paola Velardi An analysis of ontology-based

query expansion strategies Proceedings of the International Workshop on

Adaptive Text Extraction and Mining held in conjunction with the 14th

European Conference on Machine Learning and the 7th European

- 4 -

1.3 Đĩng gĩp chính của luận án

Các vấn đề nghiên cứu của luận án đã cĩ một số đĩng gĩp mới về mặt khoa học từ phương pháp luận đến giải pháp thực hiện:

* Đĩng gĩp thứ nhất: đề xuất phương pháp xác định các quan hệ

của các khái niệm bao gồm:

đối tượng (object)

Các phương pháp mà luận án đề xuất khơng những cĩ thể áp dụng trong phạm vi luận án để giải quyết Bài tốn 1 và Bài tốn 2 nêu trên

mà cịn cĩ thể áp dụng trong một số lĩnh vực khác để tạo ontology cho một miền khái niệm (trong lĩnh vực xử lý ngơn ngữ tự nhiên)

Ngồi ra, từ gĩc độ tốn học, việc xây dựng các lớp đồng dạng (liên

quan đến nhĩm các đối tượng, nhĩm các thành phần đặc trưng và

việc phân loại đối tượng hiệu quả hơn Cơng trình [ii], [iv], [v] và

của những khái niệm này

Phần đĩng gĩp này sẽ khơng thực sự đầy đủ nếu khơng cĩ các định nghĩa MQE−+IR OB, MQE−+IR OB+P, MQE++IR OB, MQE++IR OB+P cùng khái niệm truy vấn hồn chỉnh, cây phân tích và dạng đồ thị ngữ nghĩa do tác giả đề xuất, liên quan đến việc mơ hình hĩa bài tốn mở rộng truy vấn

* Đĩng gĩp thứ hai: đề xuất mơ hình ontology OOMP cùng các

phương pháp huấn luyện dữ liệu:

(Corpus-Based Knowledge Base Training, CB-KBT)

e

Tham khảo thêm hình 3.3, trang 64 về các lớp này

f Tham khảo thêm phần Các cơng trình khoa học

Trang 6

- 5 -

(WordNet-Based Knowledge Base Training, WB-KBT)

ontology từ hai phương pháp CB-KBT và WB-KBT cùng WordNet

(Auto Knowledge Base Training, A-KBT)

Ontology OOMP không những ñược dùng ñể phục vụ bài toán mở

rộng truy vấn mà còn có thể ñược sử dụng cho những bài toán khác

theo hướng khai thác các quan hệ khái niệm Ngoài ra, từ góc ñộ

ngôn ngữ học, các thành phần của ontology OOMP ñược phân lớp

dựa trên một số dạng từ loại chính (như danh từ, tính từ) nên cấu trúc

của chúng ít phụ thuộc vào sự khác nhau của các ngôn ngữ tự nhiên

Do ñó, việc phát triển ontology trên những ngôn ngữ tự nhiên khác

(như tiếng Việt hay Pháp …) tương ñối thuận lợi Nội dung liên quan

ñến ñóng góp này ñược công bố trong [iv], [v] và [ix]

* Đóng góp thứ ba: ñề xuất mô hình xử lý truy vấn (truy vấn tiếng

Anh, dạng cụm danh từ) trên ontology OOMP, gồm các giải thuật:

Phrase Verification, CNPV)

Expansion, SNPE)

Mô hình cùng các phương pháp xử lý truy vấn này có thể áp dụng

trong Bài toán 2, cũng như trong các bài toán khác như:

quan ñiểm ngôn ngữ học tính toán (ứng dụng trong lĩnh vực xử lý

ngôn ngữ tự nhiên: truy xuất thông tin, rút trích thông tin, tóm lược

nội dung văn bản)

trong lĩnh vực xử lý ngôn ngữ tự nhiên: truy xuất thông tin, rút trích

thông tin, tóm lược nội dung văn bản) …

Các phương pháp và giải thuật liên quan ñến ñóng góp này ñược giới

thiệu trong [ii], [v] và [ix]

- 38 -

Intelligence - ICAI'09, vol 1, pp 137-141, Las Vegas, USA, July 13-16,

2009 ISBN: 1-60132-107-4, 1-60132-108-2 CSREA Press

[18] Dang Tuan Nguyen, Tuyen Thi-Thanh Do, Quoc Tan Phan

Natural Language Interaction-Based Document Retrieval Proceedings of

the 2nd IEEE International Conference on Computer Science and Information Technology 2009 (ICCSIT 2009), vol 4, pp 544-548 Beijing, China, August 8-11, 2009 ISBN: 978-1-4244-4520-2

[19] Dang Tuan Nguyen, Chinh Trong Nguyen Cross-lingual Information Retrieval Model for Vietnamese-English Web Sites Accepted

paper, The 2nd International Conference on Computer Modeling and Simulation (ICCMS 2010), Sanya, China, January 22-24, 2010 Editions IEEE

[20] Dang Tuan Nguyen, Tuan Ngoc Pham, Quoc Tan Phan A Semantic Model for Building the Vietnamese Language Query Processing Framework in e-Library Searching Application Accepted paper, The 2nd

International Conference on Machine Learning and Computing (ICMLC 2010), Bangalore, India, February 9-11, 2010 Editions IEEE

[21] Dat T Huynh, Tru H Cao, Hung Q Ta, Le H Nguyen VN-KIM KBM: A Distributed and Collective Tool for Managing Semantic Web Knowledge Bases The 1st Workshop on Human Factors and the Semantic

Web (SWAHA'2008, December 08, Bangkok, Thailand, in conjunction with ASWC'2008), pp.153-158 Thailand 2008

[22] Ellen M Voorhees Using Wordnet to disambiguate word senses for text retrieval Annual ACM Conference on Research and Development

in Information Retrieval Proceedings of the 16th annual international ACM SIGIR conference on Research and development in information retrieval, pp.171–180 Pennsylvania, United States 1993 ISBN: 0-89791-605-0 [23] Ellen M Voorhees Query expansion using lexical-semantic relations Annual ACM Conference on Research and Development in

Information Retrieval Proceedings of the 17th annual international ACM SIGIR conference on Research and development in information retrieval, pp.61 - 69 Dublin, Ireland 1994 ISBN: 0-387-19889-X

[24] Franc A Grootjen, Theo P Van Der Weide Conceptual query expansion Data & Knowledge Engineering, Vvolume 56, Iissue 2

Trang 7

- 37 -

[10] Chinh Trong Nguyen, Dang Tuan Nguyen A New Model of

English-Vietnamese Bilingual Information Retrieval System International

Conference on Information Technology (ICIT 2009), Venice, Italy, October

28-30, 2009

[11] Dang Tuan Nguyen, Ha Quy-Tinh Luong, Tuyen Thi-Thanh Do

Building a Vietnamese language query processing framework for e-library

searching systems International Journal of Computer Science and

Information Security (IJCSIS), pp 092-096, Vol 6, No 1, October 2009

ISSN: 1947-5500

[12] Dang Tuan Nguyen, Ha Quy-Tinh Luong Document searching

System based on natural language query processing for Vietnam Open

Courseware library International Journal of Computer Science Issues

(IJCSI), pp.7-13,Vol 6, No 2, November 2009 ISSN (online): 1694-0784,

ISSN (print): 1694-0814

[13] Dang Tuan Nguyen, Tuyen Thi-Thanh Do e-Document Retrieval

by Question Answering System International Conference on

Communication Technology, February 25-27, 2009, Penang, Malaysia

Proceedings of World Academy of Science, Engineering and Technology,

vol 38, 2009, pp.395-398, ISBN: 2070-3740

[14] Dang Tuan Nguyen, Tuyen Thi-Thanh Do Natural Language

Question Answering Model Applied To Document Retrieval System

International Conference on Computer Science and Technology, Hongkong,

March 23-25, 2009 Proceedings of World Academy of Science,

Engineering and Technology, vol 39, 2009, pp 36-39, ISBN: 2070-3740

[15] Dang Tuan Nguyen, Tuyen Thi-Thanh Do, Quoc Tan Phan A

Document Retrieval Model Based-on Natural Language Queries

Processing Proceedings of the International Conference on Artificial

Intelligence and Pattern Recognition (AIPR), pp 216-220, Orlando, USA,

July 13-16, 2009 ISBN: 978-1-60651-007-0 Editions ISRST

[16] Dang Tuan Nguyen Interactive Document Retrieval System

Based-on Natural Language Query Processing Proceedings of the Eighth

International Conference on Machine Learning and Cybernetics, pp

2233-2237, Baoding, Hebei, China, July 12-15, 2009 ISBN: 978-1-4244-3703-0

Editions IEEE

[17] Dang Tuan Nguyen, Tuyen Thi-Thanh Do, Quoc Tan Phan

Integrating Natural Language Query Processing and Database Search

Engine Proceedings of the 2009 International Conference on Artificialal

- 6 -

* Đóng góp thứ tư: Phương pháp xây dựng chỉ mục hướng ngữ

nghĩa (Semantic Index Creation, SIC) thông qua việc mở rộng cấu

trúc chỉ mục ñể lưu trữ thêm thông tin liên quan ngữ nghĩa ñến ontology xác ñịnh Đây chính là cầu nối giúp triển khai những nghiên cứu lý thuyết vào ứng dụng thực tiễn trong lĩnh vực truy xuất thông tin Kết quả thu ñược từ phương pháp này tạo tiền ñề cho nhiều nghiên cứu ứng dụng liên quan ñến truy xuất thông tin

Phương pháp này ñược trình này trong công trình [iv] và ñược phát triển trong [iii] và [viii]

Những kết quả ñạt ñược này ñồng thời ñược áp dụng cho công trình

[xii] và dự ñịnh áp dụng cho công trình [xiii]

Trang 8

- 7 -

Tóm tắt nội dung luận án:

Hình 1.2 Tóm tắt nội dung các vấn ñề trình bày trong luận án

học Quốc gia Tp.Hồ Chí Minh 2007

[2] Nguyễn Chí Hiếu, Phan Thị Tươi, Nguyễn Xuân Dũng, Nguyễn

Quang Châu Sử dụng kỹ thuật Pruning vào bài toán xác ñịnh từ loại Tạp

chí Phát triển Khoa học & Công nghệ, tập 8, số 11, 14-23, 2005

[3] Nguyễn Quang Châu, Phan Thị Tươi Nhận diện cụm từ ñặc trưng ngữ nghĩa trong tiếng Việt Tạp chí Bưu chính Viễn thông và Công nghệ

[5] Abraham Bernstein, Esther Kaufmann, Christian Kaiser, Christoph

Kiefer Ginseng, A Guided Input Natural Language Search Engine, for Querying Ontologies Jena User Conference Bristol UK 2005

[6] Bao Tu Ho, Thang Truong Nguyen, Chien Phu Nguyen, Mai Chi

Luong Towards a practical Framework for Vietnamese Natural Language Processing Proceeding of Second Vietnam-Japan Symposium on Fuzzy

Systems and Applications, 12/2001, pp297-304

[7] Baziz Mustapha, Boughanem Mohand,Aussenac-Gilles Nathalie

Conceptual indexing based on document content representation information context: nature, impact, and role In 5th International Conference on

Conceptions of Library and Information Sciences No5, Glasgow, Volume

3507, pp.171-186, UK (04/06/2005) [8] Chau Q Nguyen, Tuoi T Phan An Ontology-Based Approach for Key Phrase Extraction Proceedings of the Joint Conference of the 47th

Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP

[9] Chau Q.Nguyen, Tuoi T.Phan, Tru H.Cao Vietnamese Proper Noun Recognition Proceedings of the 4th IEEE International Conference

on Computer Science, Research, Innovation & Vision for the Future, February 12-16,2006 Ho Chi Minh City, Vietnam

Trang 9

- 35 -

40, 2010 Springer-Verlag ISSN 1860-949X DOI

10.1007/978-3-642-12090-9

Hội nghị Khoa học Quốc tế

Austrian Computer Society

Knowledge Base for Vietnamese Information Retrieval The 11th

International Conference on Information Integration and Web-based

Applications & Services, 2009, Malaysia, ACM & ACS ACM ISBN

978–1–60558–660–1

Index in Information Retrieval development The 10th International

Conference on Information Integration and Web-based Applications

& Services, 2008, Austria, ACM & ACS, pp.438–441 ACM ISBN

978–1–60558–349–5

[ix] Thanh C.NGUYEN, Tuoi T.PHAN An ontology-based

approach of query expansion The 9th International Conference on

Information Integration and Web Based Application & Service,

2007, Indonesia, ACS, pp.113–123 ISBN 978–3–85403–229–8

[x] Thanh C.NGUYEN, Tuoi T.PHAN A hybrid approach of noun

phrase translation in Cross-Language Information Retrieval The

9th International Conference on Information Integration and Web

Based Application & Service, 2007, Indonesia, ACS, pp.389–394

ISBN 978–3–85403–229–8

[xi] Thanh C Nguyen, Tuoi T.Phan Applying Key-Phrase in

Conference on Information Integration and Web Based Application

& Service, 2006, Indonesia, ACS, pp.451–460 ISSN 3–85403–214–

5, ISBN 978–3–85403–3–214–4

NGHIÊN CỨU KHOA HỌC

Quốc gia Tp.HCM “Xây dựng chương trình trợ giúp truy xuất thông

tin bằng tiếng Việt” (B2005-20-01-TD), 2005-2007 (ñã hoàn tất), do

PGS.TS Phan Thị Tươi chủ nhiệm

[xiii] Tham gia ñề tài nghiên cứu khoa học cấp Nhà nước “Nghiên

cứu, xây dựng một số hệ thống khai thác thông tin ña phương tiện có

hỗ trợ tiếng Việt” (KC.01/06-10/02), thuộc Chương trình Nghiên

cứu, phát triển và ứng dụng Công nghệ Thông tin và Truyền thông,

2009-2010 (ñang thực hiện), do PGS.TS Phan Thị Tươi

- 8 -

Ở Việt nam hiện có các nhóm nghiên cứu với nhiều công trình công

bố trong và ngoài nước Tuy hướng nghiên cứu và kết quả công bố của những nhóm này không hoàn toàn liên quan ñến các bài toán mở rộng truy vấn của luận án, nhưng trong mỗi hướng xử lý (liên quan từng phần ñến luận án) về ontology, truy xuất và rút trích thông tin cũng như ứng dụng xử lý ngôn ngữ tự nhiên, họ ñã ñạt ñược những kết quả quan trọng cùng với nhiều công trình khoa học công bố trong

và ngoài nước như [1] [2] [3] [4] [8] [9] trong năm 2007-2009 và năm 2010 (nhóm TS.Phan Thị Tươi), như [36] [37] trong năm 2007-

2009 (nhóm TS.Cao Hoàng Trụ-Quản Thành Thơ) và [27] (nhóm TS.Đặng Trần Khánh) cùng thuộc ĐH-BK.HCM, như [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20], [30] [31] năm 2008-2009 (nhóm TS.Nguyễn Tuấn Đăng, nhóm TS.Đỗ Phúc, ĐH-CNTT.HCM), như [38] (nhóm TS.Đồng Thị Bích Thủy-Hồ Bảo Quốc, ĐH-KHTN.HCM), [6] của Viện Công nghệ Thông tin (nhóm TS.Lương Chi Mai, TS.Bạch Hưng Khang, và TS.Hồ Tú Bảo) Việc ứng dụng ontology ñể trợ giúp vấn ñề mở rộng truy vấn ñược nghiên cứu từ những năm ñầu thập niên 1990 với một số thành

trong bài toán mở rộng truy vấn của các nhóm Gonzalo [26], Voorhees [22] [23], Hearst [29] Ngoài ra, việc phát triển một ontology chuyên dụng phục vụ nhu cầu mở rộng truy vấn cũng ñược tiến hành bởi các nhóm Finkelstein [28], Navigli và Velardi [34] hay Baziz [7], Grootjen và V.D.Weide [24]… Đặc biệt, nhóm Abraham

[5] phát triển bản thể học với các thành phần lớp (class), ñối tượng thể hiện (instance), thuộc tính (property) và tìm kiếm, phát sinh các

từ ñồng nghĩa Sandhya [35] ñã xây dựng bản thể học dựa trên các

khái niệm ñối tượng thể hiện, thuộc tính, khái niệm (concept) và một

số quan hệ như IS-A, rời rạc (disjointness) và tương ñương

g

Phần này chỉ trình bày một số công trình nghiên cứu ñặc trưng, các công trình nghiên cứu còn lại khác ñược trình bày chi tiết trong Chương 2 của quyển Luận án

Trang 10

- 9 -

(equivalence) cùng một giải thuật xử lý cho kết quả có ñộ chính xác

23% và ñộ bao phủ 34% [32] [33] ñề xuất một mô hình mới về

mạng ngữ nghĩa dựa trên một số quan hệ trích dẫn từ WordNet như

quan hệ thượng danh (hypernymy), hạ danh (hyponymy), toàn thể

(meronymy), bộ phận (holonymy), tính chất (attribute), tương ñồng

(similarity), và một số quan hệ ñược ñịnh nghĩa thêm như chú giải

(gloss), chủ ñề (topic) và miền (domain)

[

3.1 Giới thiệu

Chương này trình bày những khái niệm nền tảng của mô hình mở

rộng truy vấn dựa trên ontology Lý thuyết ñược ñề xuất về các quan

hệ hai ngôi ở mục 3.2 sẽ là cơ sở ñể xây dựng những quan hệ ngữ

nghĩa giữa các ñối tượng trong thế giới thực Ở mục 3.3, thông qua

các ñịnh nghĩa về mô hình bài toán mở rộng truy vấn, sẽ cung cấp

một lý thuyết giúp ñảm bảo tính tổng quát và tính ñúng của vấn ñề

Phần 3.4 hướng người ñọc ñến vấn ñề cấu trúc cụm danh từ trong

tiếng Anh, sau ñó trình bày về ñề xuất của luận án về mẫu xác ñịnh

cụm danh từ ñể phục vụ việc huấn luyện ontology OOMP cũng như

việc phân tích các truy vấn Các mục còn lại của chương giới thiệu

phương pháp ñánh giá kết quả, môi trường, công cụ hỗ trợ và dữ liệu

thực nghiệm ở các chương tiếp theo Một phần kết quả của chương

này ñã công bố trong công trình [ii], [iv], [v] và [ix]

3.2 Bài toán Xây dựng ontology và bài toán Hoàn chỉnh mở

rộng truy vấn

Từ hai bài toán xác ñịnh trong chương 1, tác giả ñề xuất cơ sở lý

thuyết về các quan hệ ngữ nghĩa mở rộng ñóng vai trò nền tảng trong

việc phát triển cấu trúc ontology và các phương pháp mở rộng truy

vấn cũng như hoàn thiện truy vấn

Giả sử:

- 34 -

hướng nghiên cứu trong tương lai Ứng dụng những phương pháp ñược ñề xuất trong luận án vào xử lý ngôn ngữ tự nhiên tiếng Việt là mục tiêu lâu dài và ñồng thời là hướng nghiên cứu phát triển của tác giả Những ứng dụng này sẽ ñóng góp một phần trong hướng nghiên cứu lĩnh vực xử lý ngôn ngữ tự nhiên tiếng Việt

DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ

BÁO CÁO KHOA HỌC

Tạp chí Khoa học

development and exploitation The International Journal of Business

Intelligence and Data Mining (IJBIDM), 2010 ISSN (Online):

1743-8195, ISSN (Print): 1743-8187 (Được chấp nhận ñăng bài)

[ii] Nguyễn Chánh Thành, Phan Thị Tươi Mô hình mở rộng truy

vấn trong truy xuất thông tin Tạp chí Công Nghệ Thông tin &

Truyền Thông: Các công trình nghiên cứu khoa học, nghiên cứu triển khai Công nghệ Thông tin và Truyền thông, số 2 (23) kỳ 3, Việt

nam, 2010 ISSN 0866–7039

chỉ mục hướng ñến ngữ nghĩa Tạp chí Công Nghệ Thông tin &

Truyền Thông: Các công trình nghiên cứu khoa học, nghiên cứu triển khai Công nghệ Thông tin và Truyền thông, số 20, Việt nam,

2008, tr 49–59 ISSN 0866–7039

[iv] Thanh C.Nguyen, Tuoi T.Phan A hybrid solution of

ontology-based query expansion The International Journal of Web

Information Systems, Volume 4 Number 2, 2008, pp.215–227, 2008

ISSN 1744–0084

[v] Nguyễn Chánh Thành, Phan Thị Tươi Truy xuất thông tin:

Giải pháp bản thể học cho hoàn chỉnh truy vấn Tạp chí Công Nghệ

Thông tin & Truyền Thông: Các công trình nghiên cứu khoa học, nghiên cứu triển khai Công nghệ Thông tin và Truyền thông, số 19,

Việt nam, tr 84–92, 2008 ISSN 0866–7039

Chương sách

Question Semantic Analysis in Vietnamese QA System The

Advances in Intelligent Information and Database Systems book, Serie of Studies in Computational Intelligence, Volume 283, pp.29-

Trang 11

- 33 -

* Vấn ñề 4: Tối ưu chi phí về thời gian xử lý của phương pháp mở

rộng kết quả tìm kiếm Định hướng của phương pháp tối ưu này như

minh họa ở hình 7.1

Hình 7.1 Phương pháp thực hiện của vấn ñề 4

Như trình bày trong hình 7.1, phương pháp giải quyết trong trường

hợp này hướng ñến việc thu giảm thời gian thực hiện trong các hai

bước xử lý, ñiều ñó có thể tác ñộng ñến số lượng tài liệu kết quả tìm

ñược của giải thuật HS nhưng tỉ lệ cách biệt về thời gian tìm kiếm

của giải thuật HS so với phương pháp thô sẽ giảm thiểu ñáng kể Vấn

ñề này cần ñược xem xét và tiến hành các thực nghiệm ñể kiểm

chứng mức ñộ tối ưu thu ñược từ phương pháp cải tiến

Nhìn chung, các vấn ñề trên là tập hợp những bài toán con không

quá phức tạp nhưng cần ñược xem xét và nghiên cứu trong tương lai,

ñể có thể hỗ trợ cho việc xây dựng một hệ thống truy xuất thông tin

hướng ngữ nghĩa cho tiếng Việt Những vấn ñề này có tầm quan

trọng ñến hướng nghiên cứu của tác giả trong lĩnh vực truy xuất

thông tin, ñặc biệt là trong việc hỗ trợ truy xuất thông tin tiếng Việt

7.3 Lời kết

Toàn bộ nội dung trình bày trong luận án là công trình nghiên cứu

lâu dài và và cũng là thành quả mà tác giả ñạt ñược trong quá trình

nghiên cứu ñó Đây là kết quả ñạt ñược thuộc các lĩnh vực xử lý

ngôn ngữ tự nhiên, truy xuất thông tin và ontology Các ñóng góp

ñược trình bày trong phần 7.1 cùng những kết quả ñạt ñược về mặt

thực nghiệm ñã nhấn mạnh ý nghĩa về lý thuyết và thực tiễn của luận

án Những vấn ñề ñược trình bày trong phần 7.2 là ñộng lực giúp tác

giả hoàn thiện những kết quả ñạt ñược trong luận án và tiếp tục

Các ñịnh nghĩa ñược ñề xuất:

Đị nh nghĩa 3.1–Độ liên kết (Sim) tương quan giữa hai ñối tượng

Đị nh nghĩa 3.2–Độ phụ thuộc (Dep) của ñối tượng x vào ñối tượng

y

Đị nh nghĩa 3.3–Thành phần của ñối tượng (Mem) xác ñịnh thành

phần của ñối tượng

Đị nh nghĩa 3.4–Thuộc tính của thành phần (Pro) xác ñịnh thuộc

tính của thành phần

Đị nh nghĩa 3.5–Quan hệ Thành phần ñặc trưng của một ñối

Đị nh nghĩa 3.6–Quan hệ Trội giữa các thành phần ñặc trưng Rfm

Đị nh nghĩa 3.7–Quan hệ Tính chất ñặc trưng của một thành phần

p

R

ñặc trưng của ñối tượng “bộ nhớ”

Đị nh nghĩa 3.8–Quan hệ Trội giữa các tính chất ñặc trưng Rfp

Các quan hệ ngữ nghĩa ñã ñược ñịnh nghĩa ở trên sẽ ñược xác ñịnh bằng các biểu thức luận lý sau:

) 8 3 ( ) 0 ) , ( ( ) 1 ) , ( 0 ) , ( ( ) ,

R

) 9 3 ( )) ( ) ( ( )) , ( ) , ( ( ) ,

i j m j

j

) 10 3 ( 0 1

Pr

0 o(p ,m ) ) (Sim(p ,m ) ) )

,m (Dep(p )

,m (p

R p k jk j > ∨ k j = ∧ k j >

) 11 3 ( )) ( ) ( ( )) , ( ) , ( ( ) ,

j k p k

Ngày đăng: 21/11/2016, 02:53

HÌNH ẢNH LIÊN QUAN

Hình 1.1. Mối quan hệ giữa mô hình của luận án và hệ thống truy xuất - XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN
Hình 1.1. Mối quan hệ giữa mô hình của luận án và hệ thống truy xuất (Trang 3)
Hỡnh 1.2. Túm tắt nội dung cỏc vấn ủề trỡnh bày trong luận ỏn - XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN
nh 1.2. Túm tắt nội dung cỏc vấn ủề trỡnh bày trong luận ỏn (Trang 8)
Hỡnh 7.1. Phương phỏp thực hiện của vấn ủề 4 - XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN
nh 7.1. Phương phỏp thực hiện của vấn ủề 4 (Trang 11)
Hỡnh 3.1. Vớ dụ về cõy phõn tớch (b) ủược xõy dựng từ quan hệ R OMP (a) - XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN
nh 3.1. Vớ dụ về cõy phõn tớch (b) ủược xõy dựng từ quan hệ R OMP (a) (Trang 12)
Hình 3.2. Đồ thị ngữ nghĩa G có phân lớp - XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN
Hình 3.2. Đồ thị ngữ nghĩa G có phân lớp (Trang 13)
Bảng 3.1. Thống kê thành phần dữ liệu từ TREC - XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN
Bảng 3.1. Thống kê thành phần dữ liệu từ TREC (Trang 15)
Bảng 3.2. Danh sách tập chỉ mục xây dựng cho hệ thống ISE - XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN
Bảng 3.2. Danh sách tập chỉ mục xây dựng cho hệ thống ISE (Trang 16)
Bảng 6.2. So sánh kết quả thực nghiệm 1 - XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN
Bảng 6.2. So sánh kết quả thực nghiệm 1 (Trang 17)
Hình 4.2. Phân bổ cụm danh từ trong tập TRAINING_DATA theo dạng mẫu - XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN
Hình 4.2. Phân bổ cụm danh từ trong tập TRAINING_DATA theo dạng mẫu (Trang 18)
Bảng 4.1. Dữ liệu dự tuyển rỳt trớch ủược trong giải thuật CB-KBT - XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN
Bảng 4.1. Dữ liệu dự tuyển rỳt trớch ủược trong giải thuật CB-KBT (Trang 18)
Hình 6.3. Minh họa tính chất (6.1) - XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN
Hình 6.3. Minh họa tính chất (6.1) (Trang 19)
Hỡnh 6.1. Mụ hỡnh hệ thống mở rộng truy vấn với ủộng cơ tỡm kiếm thụng - XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN
nh 6.1. Mụ hỡnh hệ thống mở rộng truy vấn với ủộng cơ tỡm kiếm thụng (Trang 21)
Hình 5.3. Thống kê số lượng kết quả thực nghiệm theo nguồn dữ liệu - XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN
Hình 5.3. Thống kê số lượng kết quả thực nghiệm theo nguồn dữ liệu (Trang 21)
Hỡnh 6.1. Thống kờ số liệu cỏc ủộ ủo theo nguồn dữ liệu - XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN
nh 6.1. Thống kờ số liệu cỏc ủộ ủo theo nguồn dữ liệu (Trang 21)
Hỡnh 5.5. Thống kờ số liệu cỏc ủộ ủo theo nguồn dữ liệu - XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN
nh 5.5. Thống kờ số liệu cỏc ủộ ủo theo nguồn dữ liệu (Trang 22)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w