Động cơ nghiên cứuĐể phục vụ cho những nhu cầu tìm kiếm thông tin của người sửdụng, các hệ thống truy xuất thông tin IR ñã ñược nghiên cứu vàphát triển, trong ñó thành công nhất là một s
Trang 1ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TP HỒ CHÍ MINH
NGUYỄN CHÁNH THÀNH
XÂY DỰNG MÔ HÌNH MỞ RỘNG TRUY VẤN TRONG TRUY XUẤT THÔNG TIN VĂN BẢN
Chuyên ngành: Khoa học Máy tính
Mã số: 62.48.01.01
TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT
TP HỒ CHÍ MINH – 2010
1
Trang 2-Chương 1- MỞ ĐẦU 1.1 Động cơ nghiên cứu
Để phục vụ cho những nhu cầu tìm kiếm thông tin của người sửdụng, các hệ thống truy xuất thông tin (IR) ñã ñược nghiên cứu vàphát triển, trong ñó thành công nhất là một số ñộng cơ tìm kiếm
(search engine) nổi tiếng như Google–Yahoo–Alta Vista và Bing
trong thời gian gần ñây Tuy nhiên, thông qua các hệ thống ñó, việctìm kiếm thông tin thường không nhận ñược ñầy ñủ kết quả cần thiếtnhư mong muốn cũng như hiệu suất của chúng còn có một số giớihạn nhất ñịnh
Từ các phân tích trên, chúng ta nhận thấy nguyên nhân chính là các
hệ thống tìm kiếm thông tin chưa ñủ mạnh nên kết quả ñưa ra không
thể hỗ trợ người dùng như mong ñợi Truy vấn của người dùng cũng
chưa phản ánh ñầy ñủ ngữ nghĩa ñể hỗ trợ cho các quá trình tìm
kiếm và truy xuất thông tin ñược tốt hơn Vì vậy, việc bổ sung ngữnghĩa vào truy vấn ban ñầu của người dùng là yêu cầu cần thiết
Từ tầm quan trọng về tính hiệu quả của quá trình truy xuất thông tintiếng Anh (trên môi trường Web), cùng với hướng giải quyết làm sao
ñể hệ thống IR có thể hiểu nhiều hơn và thông minh hơn khi xử lýtruy vấn ban ñầu của người dùng, thì yêu cầu về một hệ thống truyxuất thông tin có khả năng tạo ra những truy vấn ñồng nghĩa hoặc
cùng mục tiêu là bài toán quan trọng Do ñó, vấn ñề mở rộng truy
vấn là bài toán quan trọng mà luận án này nghiên cứu và ñề xuất
phương pháp giải quyết
1.2 Mục tiêu và phạm vi nghiên cứu
Từ ñộng cơ nghiên cứu nêu trên, luận án ñề xuất một số phươngpháp mở rộng truy vấn ban ñầu của người dùng Đây là vấn ñề cốtlõi và ñồng thời là mục tiêu nghiên cứu của luận án
Như ñịnh hướng nêu trên, phạm vi nghiên cứu của luận án ñược thể
hiện trong hình 1.1 (trong khung ñường gạch ñứt nét).
1
Trang 3(B)
Bộ xử lý mở rộng truy vấn trên cơ sở kết hợp với ontology Động cơ tìm kiếm thông tin
dạng cụm danh từ,
ñã ñược mở rộng có dạng truy vấn hoàn chỉnh.
Kết quả trả về (tập tài liệu)
(C)
Hình 1.1 Mối quan hệ giữa mô hình của luận án và hệ thống truy xuất
thông tin (c) (A) Mô hình xử lý của luận án (phạm vi nghiên cứu của luận án)
(B) Động cơ tìm kiếm thông tin (thuộc hệ thống truy xuất thông tin)
(C) Kết quả tìm kiếm thông tin từ yêu cầu của các câu truy vấn ñã mở rộng
Với mô hình ñược mô tả ở hình 1.1, trong mục (A), câu truy vấn
nhập (dạng cụm danh từ bao gồm các thành phần là tính từ hay chỉ
có danh từ ñơn) ñược xử lý ñể trả về tập các câu truy vấn ñã ñược
mở rộng (cụm danh từ có dạng truy vấn hoàn chỉnh d) Trong phạm vi
luận án, dựa trên giải pháp rút trích các từ ñặc trưng cốt lõi cho một
câu ([8] [39]), câu truy vấn ban ñầu của người dùng ñược tiền xử lý
ñể loại bỏ các thành phần không quan trọng nhằm giữ lại những
thành phần chính thỏa ñiều kiện truy vấn hoàn chỉnh Điều ñó sẽ
giúp giảm ñược ñộ phức tạp hay dạng biểu diễn phức hợp của truy
vấn, ñồng thời còn giúp ñảm bảo tính duy nhất của từng thành phần
trong truy vấn thỏa ñiều kiện truy vấn hoàn chỉnh.
Mục (B) của hình trên gồm ñộng cơ tìm kiếm thông tin (search
engine) Đây là một bộ phận quan trọng của hệ thống Truy xuất
Thông tin (Information Retrieval) Động cơ tìm kiếm thông tin giải
c Trong tài liệu này, chỉ số của các hình, bảng biểu và tài liệu tham
khảo ñược giữ ñúng theo quyển luận văn chính, không ñánh số lại.
d Tham khảo ñịnh nghĩa 3.10-Truy vấn hoàn chỉnh, mục 3.2.6, chương 3
2
Trang 440
-quyết ba vấn ñề cốt lõi là mô hình biểu diễn văn bản, thuật toán tìm
kiếm so trùng từ khóa - ñối sánh ngữ nghĩa tương ứng với các truy
vấn và cơ chế lọc kết quả truy xuất Hiện tại trên thế giới có những
ñộng cơ tìm kiếm thông tin nổi tiếng như Google, Yahoo, Microsoft
Bing … Tuy nhiên, nghiên cứu của luận án chỉ sử dụng những ñộng
cơ này như một công cụ hỗ trợ việc tìm kiếm thông tin cho truy vấn
ñã mở rộng bằng phương pháp xử lý của luận án và không ñặt mục
tiêu nghiên cứu ba vấn ñề nêu trên Vì vậy luận án ñã không trình
bày ba vấn ñề này
Mô hình xử lý của luận án (trong mục (A)) chỉ thực hiện việc
mở rộng nội dung của truy vấn nhập nên hoàn toàn không làm
ảnh hưởng ñến ba khía cạnh nêu trên trong quá trình vận hành
của ñộng cơ tìm kiếm ở mục (B) Điều này còn cho thấy phạm
vi nghiên cứu của luận án hướng ñến bài toán mở rộng truy vấn
dựa trên ontology và hoàn toàn khác biệt so với ba khía cạnh
Từ những trình bày trên, các bài toán chính cần giải quyết trong
phạm vi luận án bao gồm:
Bài toán 1 - Xây dựng ontology OOMP
Nghiên cứu và phát triển cấu trúc ontology OOMP (Ontology of
Object-Member-Property) cùng cơ chế huấn luyện dữ liệu Từ ñó tạo
dữ liệu ban ñầu dựa trên tập tài liệu tiếng Anh từ nguồn TREC cũng
như khai thác dữ liệu từ WordNet ñể cung cấp ontology OOMP
nhằm phục vụ yêu cầu của bài toán 2
Bài toán 2 - Xây dựng phương pháp hoàn chỉnh mở rộng truy
vấn
Dựa trên ontology ở bài toán 1, nghiên cứu xây dựng phương pháp
tiếp cận mới cho việc mở rộng truy vấn nhằm tạo truy vấn kết quả có
dạng truy vấn hoàn chỉnh (biểu diễn ở dạng cụm danh từ về mặt
ngôn ngữ học) và xây dựng các giải thuật hỗ trợ trong phạm vi bài
toán 2
Conference on Principles and Practice of Knowledge Discovery inDatabases Dubrovnik, Croatia 22 September 2003
[35] Sandhya Revuri, Sujatha R Upadhyaya, P Sreenivasa Kumar
Using Domain Ontologies for Efficient Information Retrieval 13th
International Conference on Management of Data (COMAD 2006), IIT,Delhi, India, 2006
[36] Tru H Cao, Khanh C Le, Vuong M Ngo Exploring Combinations of Ontological Features and Keywords for Text Retrieval.
Lecture Notes In Artificial Intelligence; Vol 5351 The 10th Pacific RimInternational Conference on Artificial Intelligence: Trends in ArtificialIntelligence, pp.603-613 Hanoi, Vietnam 2008 ISBN: 978-3-540-89196-3
[37] Tru H Cao, Truong D Cao, Thang L Tran A Robust Based Method for Translating Natural Language Queries to Conceptual Graphs Lecture Notes In Computer Science; Vol 5367 The 3rd Asian
Ontology-Semantic Web Conference on The Ontology-Semantic Web, pp.479 - 492 Bangkok,Thailand 2008 ISBN: 978-3-540-89703-3
[38] Van Dang, Bao-Quoc Ho, Minh Luong Vi, Bich-Thuy Dong
English-Vietnamese Cross-Language Information Retrieval: An Experimental Study IEEE International Conference on Research,
Innovation and Vision for the Future, RIVF 2008, pp.107-113 July 13-17,
2008 Ho Chi Minh City, Vietnam ISBN: 978-1-4244-2379-8
Trang 55
39
in Computing and Communications Technologies (RIVF'2008), -
pp.247-254 July 13-17, 2008 HCM City, Vietnam
[26] Julio Gonzalo, Felisa Verdejo, Irina Chugur, Juan Cigarran
Indexing with WordNet synsets can improve text retrieval Proceedings of
the COLING/ACL'98 Workshop on Usage of WordNet for NLP, Montreal
[27] Khanh Tran Dang Ensuring Correctness, Completeness and
1.3 Đĩng gĩp chính của luận án
Các vấn đề nghiên cứu của luận án đã cĩ một số đĩng gĩp mới vềmặt khoa học từ phương pháp luận đến giải pháp thực hiện:
* Đĩng gĩp thứ nhất: đề xuất phương pháp xác định các quan hệ
của các khái niệm bao gồm:
Freshness for Outsourced Tree-Indexed Data Information Resources − Quan hệ
Rm xác định thành phần đặc trưng (member) của
Management Journal (IRMJ), Idea-Group Publisher, ISSN 1040-1628, Vol
21, Issue 1, pp.59-76 Jan-Mar 2008
[28] Lev Finkelstein, Evgeniy Gabrilovich, Yossi Matias, Ehud Rivlin,
đối tượng (object).
− Quan hệ Rp tính chất đặc trưng (property) của thành phần Zach Solan, Gadi Wolfman, Eytan Ruppin Placing search in context: the
concept revisited ACM Transactions on Information Systems, volume 20, − Các quan hệ xác định tính chất trội R m và Rp liên quan.issue 1 (January 2002), pp.116–131 2002 ISSN: 1046-8188
[29] Marti A Hearst Automatic acquisition of hyponyms from large
text corpora International Conference On Computational Linguistics.
Proceedings of the 14th conference on Computational linguistics, Volume
2, pp.539–545.France 1992
[30] Phuc Do, Hung Xuan Mai Using SOM based graph clustering for
extracting main ideas from documents IEEE International Conference on
Research, Innovation and Vision for the Future, RIVF 2008, pp 209-214
July 13-17, 2008 Ho Chi Minh City, Vietnam ISBN: 978-1-4244-2379-8
[31] Phuc Do, Phung Nguyen Using Nạve Bayes Model and Natural
Language Processing for Classifying Messages on Online Forum IEEE
International Conference on Research, Innovation and Vision for the
Các phương pháp mà luận án đề xuất khơng những cĩ thể áp dụngtrong phạm vi luận án để giải quyết Bài tốn 1 và Bài tốn 2 nêu trên
mà cịn cĩ thể áp dụng trong một số lĩnh vực khác để tạo ontologycho một miền khái niệm (trong lĩnh vực xử lý ngơn ngữ tự nhiên)
Ngồi ra, từ gĩc độ tốn học, việc xây dựng các lớp đồng dạng (liên
quan đến nhĩm các đối tượng, nhĩm các thành phần đặc trưng và nhĩm các tính chất đặc trưng e) từ các quan hệ nêu trên sẽ giúp cho
việc phân loại đối tượng hiệu quả hơn Cơng trình [ii], [iv], [v] và [ix]f đã giới thiệu phương pháp xác định các quan hệ cùng định nghĩacủa những khái niệm này
Phần đĩng gĩp này sẽ khơng thực sự đầy đủ nếu khơng cĩ các địnhFuture, pp.247-252 March 5-9, 2007 Hanoi, Vietnam ISBN: 1-4244- nghĩa IR OB IR OBP IR OB OB P
IR cùng khái0694-3
[32] Robert Bossy, Alain Kotoujansky, Sophie Aubin, Claire Nedellec
Close Integration of ML and NLP Tools in BioAlvis for Semantic Search in
Bacteriology In Semantic Web Applications and Tools for Life Sciences,
SWAT4LS 2008
[33] Robert Krovetz, W Bruce Croft Lexical ambiguity and
information retrieval ACM Transactions on Information Systems (TOIS),
Volume 10, Issue 2 (April 1992), pp.115–141 1992 ISSN: 1046-8188
[34] Roberto Navigli, Paola Velardi An analysis of ontology-based
query expansion strategies Proceedings of the International Workshop on
Adaptive Text Extraction and Mining held in conjunction with the 14thEuropean Conference on Machine Learning and the 7th European
MQ
Trang 640
-niệm truy vấn hoàn chỉnh, cây phân tích và dạng ñồ thị ngữ nghĩa
do tác giả ñề xuất, liên quan ñến việc mô hình hóa bài toán mở
rộng truy vấn
* Đóng góp thứ hai: ñề xuất mô hình ontology OOMP cùng
các phương pháp huấn luyện dữ liệu:
− Phương pháp huấn luyện dựa trên kho ngữ liệu sẵn có
(Corpus-Based Knowledge Base Training, CB-KBT).
e Tham khảo thêm hình 3.3, trang 64 về các lớp này
f Tham khảo thêm phần Các công trình khoa học
Trang 77
37
-− Phương pháp huấn luyện dựa trên ontology WordNet sẵn có
(WordNet-Based Knowledge Base Training, WB-KBT).
− Phương pháp tự huấn luyện dựa trên nội dung sẵn có của
ontology từ hai phương pháp CB-KBT và WB-KBT cùng WordNet
(Auto Knowledge Base Training, A-KBT).
Ontology OOMP không những ñược dùng ñể phục vụ bài toán mở
rộng truy vấn mà còn có thể ñược sử dụng cho những bài toán khác
theo hướng khai thác các quan hệ khái niệm Ngoài ra, từ góc ñộ
ngôn ngữ học, các thành phần của ontology OOMP ñược phân lớp
dựa trên một số dạng từ loại chính (như danh từ, tính từ) nên cấu trúc
của chúng ít phụ thuộc vào sự khác nhau của các ngôn ngữ tự nhiên
Do ñó, việc phát triển ontology trên những ngôn ngữ tự nhiên khác
(như tiếng Việt hay Pháp …) tương ñối thuận lợi Nội dung liên quan
ñến ñóng góp này ñược công bố trong [iv], [v] và [ix].
* Đóng góp thứ ba: ñề xuất mô hình xử lý truy vấn (truy vấn tiếng
Anh, dạng cụm danh từ) trên ontology OOMP, gồm các giải thuật:
− Kiểm tra tính hoàn chỉnh của cụm danh từ (Complete Noun
Phrase Verification, CNPV)
− Hoàn chỉnh cụm danh từ (Noun Phrase Completion, NPC)
− Mở rộng cụm danh từ tương tự (Similar Noun Phrase
Expansion, SNPE)
Mô hình cùng các phương pháp xử lý truy vấn này có thể áp dụng
trong Bài toán 2, cũng như trong các bài toán khác như:
− Kiểm tra tính hoàn chỉnh của cụm danh từ tiếng Anh theo
quan ñiểm ngôn ngữ học tính toán (ứng dụng trong lĩnh vực xử lý
ngôn ngữ tự nhiên: truy xuất thông tin, rút trích thông tin, tóm lược
nội dung văn bản)
− Hoàn chỉnh và mở rộng cụm danh từ tương ñương (ứng dụng
trong lĩnh vực xử lý ngôn ngữ tự nhiên: truy xuất thông tin, rút trích
thông tin, tóm lược nội dung văn bản) …
Các phương pháp và giải thuật liên quan ñến ñóng góp này ñược giới
thiệu trong [ii], [v] và [ix].
5
-Intelligence - ICAI'09, vol 1, pp 137-141, Las Vegas, USA, July 13-16,
2009 ISBN: 1-60132-107-4, 1-60132-108-2 CSREA Press
[18] Dang Tuan Nguyen, Tuyen Thi-Thanh Do, Quoc Tan Phan
Natural Language Interaction-Based Document Retrieval Proceedings of
the 2nd IEEE International Conference on Computer Science andInformation Technology 2009 (ICCSIT 2009), vol 4, pp 544-548 Beijing,China, August 8-11, 2009 ISBN: 978-1-4244-4520-2
[19] Dang Tuan Nguyen, Chinh Trong Nguyen Cross-lingual Information Retrieval Model for Vietnamese-English Web Sites Accepted
paper, The 2nd International Conference on Computer Modeling andSimulation (ICCMS 2010), Sanya, China, January 22-24, 2010 EditionsIEEE
[20] Dang Tuan Nguyen, Tuan Ngoc Pham, Quoc Tan Phan A Semantic Model for Building the Vietnamese Language Query Processing Framework in e-Library Searching Application Accepted paper, The 2nd
International Conference on Machine Learning and Computing (ICMLC2010), Bangalore, India, February 9-11, 2010 Editions IEEE
[21] Dat T Huynh, Tru H Cao, Hung Q Ta, Le H Nguyen VN-KIM KBM: A Distributed and Collective Tool for Managing Semantic Web Knowledge Bases The 1st Workshop on Human Factors and the Semantic
Web (SWAHA'2008, December 08, Bangkok, Thailand, in conjunctionwith ASWC'2008), pp.153-158 Thailand 2008
[22] Ellen M Voorhees Using Wordnet to disambiguate word senses for text retrieval Annual ACM Conference on Research and Development
in Information Retrieval Proceedings of the 16th annual international ACMSIGIR conference on Research and development in information retrieval,pp.171–180 Pennsylvania, United States 1993 ISBN: 0-89791-605-0
[23] Ellen M Voorhees Query expansion using lexical-semantic relations Annual ACM Conference on Research and Development in
Information Retrieval Proceedings of the 17th annual international ACMSIGIR conference on Research and development in information retrieval,pp.61 - 69 Dublin, Ireland 1994 ISBN: 0-387-19889-X
[24] Franc A Grootjen, Theo P Van Der Weide Conceptual query expansion Data & Knowledge Engineering, Vvolume 56, Iissue 2
Trang 838
-[10] Chinh Trong Nguyen, Dang Tuan Nguyen A New Model of
English-Vietnamese Bilingual Information Retrieval System International
Conference on Information Technology (ICIT 2009), Venice, Italy, October
28-30, 2009
[11] Dang Tuan Nguyen, Ha Quy-Tinh Luong, Tuyen Thi-Thanh Do
Building a Vietnamese language query processing framework for e-library
searching systems International Journal of Computer Science and
Information Security (IJCSIS), pp 092-096, Vol 6, No 1, October 2009
ISSN: 1947-5500
[12] Dang Tuan Nguyen, Ha Quy-Tinh Luong Document searching
System based on natural language query processing for Vietnam Open
Courseware library International Journal of Computer Science Issues
(IJCSI), pp.7-13,Vol 6, No 2, November 2009 ISSN (online): 1694-0784,
ISSN (print): 1694-0814
[13] Dang Tuan Nguyen, Tuyen Thi-Thanh Do e-Document Retrieval
by Question Answering System International Conference on
Communication Technology, February 25-27, 2009, Penang, Malaysia
Proceedings of World Academy of Science, Engineering and Technology,
vol 38, 2009, pp.395-398, ISBN: 2070-3740
[14] Dang Tuan Nguyen, Tuyen Thi-Thanh Do Natural Language
Question Answering Model Applied To Document Retrieval System
International Conference on Computer Science and Technology, Hongkong,
March 23-25, 2009 Proceedings of World Academy of Science,
Engineering and Technology, vol 39, 2009, pp 36-39, ISBN: 2070-3740
[15] Dang Tuan Nguyen, Tuyen Thi-Thanh Do, Quoc Tan Phan A
Document Retrieval Model Based-on Natural Language Queries
Processing Proceedings of the International Conference on Artificial
Intelligence and Pattern Recognition (AIPR), pp 216-220, Orlando, USA,
July 13-16, 2009 ISBN: 978-1-60651-007-0 Editions ISRST
[16] Dang Tuan Nguyen Interactive Document Retrieval System
Based-on Natural Language Query Processing Proceedings of the Eighth
International Conference on Machine Learning and Cybernetics, pp
2233-2237, Baoding, Hebei, China, July 12-15, 2009 ISBN: 978-1-4244-3703-0
Editions IEEE
[17] Dang Tuan Nguyen, Tuyen Thi-Thanh Do, Quoc Tan Phan
Integrating Natural Language Query Processing and Database Search
Engine Proceedings of the 2009 International Conference on Artificialal
* Đóng góp thứ tư: Phương pháp xây dựng chỉ mục hướng ngữ
nghĩa (Semantic Index Creation, SIC) thông qua việc mở rộng cấu
trúc chỉ mục ñể lưu trữ thêm thông tin liên quan ngữ nghĩa ñếnontology xác ñịnh Đây chính là cầu nối giúp triển khai nhữngnghiên cứu lý thuyết vào ứng dụng thực tiễn trong lĩnh vực truy xuấtthông tin Kết quả thu ñược từ phương pháp này tạo tiền ñề chonhiều nghiên cứu ứng dụng liên quan ñến truy xuất thông tin
Phương pháp này ñược trình này trong công trình [iv] và ñược phát triển trong [iii] và [viii].
Những kết quả ñạt ñược này ñồng thời ñược áp dụng cho công trình
[xii] và dự ñịnh áp dụng cho công trình [xiii].
Trang 1036
-[1] Nguyễn Chí Hiếu Mô hình khai thác ñặc tính ngôn
ngữ ñích nhằm xác ñịnh các cụm danh từ cơ sở tương ứng
Anh-Việt Luận án tiến sĩ Đại học Quốc gia Tp.Hồ Chí
Minh 2007
[2] Nguyễn Chí Hiếu, Phan Thị Tươi, Nguyễn Xuân
Dũng, Nguyễn Quang Châu Sử dụng kỹ thuật Pruning vào
bài toán xác ñịnh từ loại Tạp chí Phát triển Khoa học &
Công nghệ, tập 8, số 11, 14-23, 2005
[3] Nguyễn Quang Châu, Phan Thị Tươi Nhận diện cụm
từ ñặc trưng ngữ nghĩa trong tiếng Việt Tạp chí Bưu
chính Viễn thông và Công nghệ thông tin, số 19, 2/2008
[4] Nguyễn Quang Châu, Phan Thị Tươi, Cao Hoàng Trụ
Tự ñộng rút trích các cụm danh từ Anh - Việt từ kho ngữ
liệu song ngữ Kỹ yếu hội thảo khoa học Quốc gia lần II
“Nghiên cứu cơ bản và Ứng dụng công nghệ thông tin”,
Đại học Bách khoa Tp.HCM, Việt nam, 23-24/9/2005
Tiếng Anh
[5] Abraham Bernstein, Esther Kaufmann, Christian Kaiser,
Christoph Kiefer Ginseng, A Guided Input Natural
Language Search Engine, for Querying Ontologies Jena User
Conference Bristol UK 2005
[6] Bao Tu Ho, Thang Truong Nguyen, Chien Phu Nguyen, Mai Chi
Luong Towards a practical Framework for Vietnamese Natural Language Processing Proceeding of Second Vietnam-Japan Symposium on Fuzzy
Systems and Applications, 12/2001, pp297-304
[7] Baziz Mustapha, Boughanem Mohand,Aussenac-Gilles Nathalie
Conceptual indexing based on document content representation information context: nature, impact, and role In 5th International Conference on
Conceptions of Library and Information Sciences No5, Glasgow, Volume
Hội nghị Khoa học Quốc tế
Austrian Computer Society
[vii] Thanh C.NGUYEN, Hai M.LE, Tuoi T.PHAN Building
Knowledge Base for Vietnamese Information Retrieval The 11th
International Conference on Information Integration and
Web-based Applications & Services, 2009, Malaysia, ACM & ACS
ACM ISBN 978–1–60558–660–1.
[viii] Thanh C.NGUYEN, Tuoi T.PHAN The effect of Semantic
Index in Information Retrieval development The 10th
International Conference on Information Integration and
Web-based Applications
& Services, 2008, Austria, ACM & ACS, pp.438–441 ACM
ISBN 978–1–60558–349–5.
[ix] Thanh C.NGUYEN, Tuoi T.PHAN An ontology-based
approach of query expansion The 9th International Conference
on Information Integration and Web Based Application &
Service, 2007, Indonesia, ACS, pp.113–123 ISBN 978–3–
85403–229–8.
[x] Thanh C.NGUYEN, Tuoi T.PHAN A hybrid approach of
noun phrase translation in Cross-Language Information Retrieval The 9th International Conference on Information
Integration and Web Based Application & Service, 2007,
Indonesia, ACS, pp.389–394 ISBN 978–3–85403–229–8.
[xi] Thanh C Nguyen, Tuoi T.Phan Applying Key-Phrase in
Cross- Language Information Retrieval The Eighth
International Conference on Information Integration and WebBased Application
& Service, 2006, Indonesia, ACS, pp.451–460 ISSN 3–
85403–214– 5, ISBN 978–3–85403–3–214–4.
NGHIÊN CỨU KHOA HỌC
[xii] Tham gia ñề tài nghiên cứu khoa học trọng ñiểm cấp Đạihọc Quốc gia Tp.HCM “Xây dựng chương trình trợ giúp truyxuất thông tin bằng tiếng Việt” (B2005-20-01-TD), 2005-2007(ñã hoàn tất), do PGS.TS Phan Thị Tươi chủ nhiệm
[xiii] Tham gia ñề tài nghiên cứu khoa học cấp Nhà nước
“Nghiên cứu, xây dựng một số hệ thống khai thác thông tin ña
Trang 11- 35 - 8
-phương tiện có hỗ trợ tiếng Việt” (KC.01/06-10/02), thuộc
Chương trình Nghiên cứu, phát triển và ứng dụng Công nghệ
Thông tin và Truyền thông, 2009-2010 (ñang thực hiện), do
PGS.TS Phan Thị Tươi
Chương 2- NGHIÊN CỨU LIÊN QUAN
Ở Việt nam hiện có các nhóm nghiên cứu với nhiều công trìnhcông bố trong và ngoài nước Tuy hướng nghiên cứu và kết quảcông bố của những nhóm này không hoàn toàn liên quan ñến cácbài toán mở rộng truy vấn của luận án, nhưng trong mỗi hướng
xử lý (liên quan từng phần ñến luận án) về ontology, truy xuất
và rút trích thông tin cũng như ứng dụng xử lý ngôn ngữ tựnhiên, họ ñã ñạt ñược những kết quả quan trọng cùng với nhiềucông trình khoa học công bố trong và ngoài nước như [1] [2] [3][4] [8] [9] trong năm 2007-2009 và
năm 2010 (nhóm TS.Phan Thị Tươi), như [36] [37] trong năm2007- 2009 (nhóm TS.Cao Hoàng Trụ-Quản Thành Thơ) và[27] (nhóm TS.Đặng Trần Khánh) cùng thuộc ĐH-BK.HCM, như[10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20], [30] [31]năm 2008-2009
(nhóm TS.Nguyễn Tuấn Đăng, nhóm TS.Đỗ Phúc, CNTT.HCM), như [38] (nhóm TS.Đồng Thị Bích Thủy-Hồ BảoQuốc, ĐH-KHTN.HCM), [6] của Viện Công nghệ Thông tin(nhóm TS.Lương Chi Mai, TS.Bạch Hưng Khang, và TS.Hồ TúBảo)
ĐH-Việc ứng dụng ontology ñể trợ giúp vấn ñề mở rộng truy vấnñược nghiên cứu từ những năm ñầu thập niên 1990 với một
số thành côngg WordNet là một ontology tổng quát phổ dụngñược dùng trong bài toán mở rộng truy vấn của các nhómGonzalo [26], Voorhees [22] [23], Hearst [29] Ngoài ra, việcphát triển một ontology chuyên dụng phục vụ nhu cầu mở rộngtruy vấn cũng ñược tiến hành bởi các nhóm Finkelstein [28],Navigli và Velardi [34] hay Baziz [7], Grootjen và V.D.Weide[24]… Đặc biệt, nhóm Abraham [5] phát triển bản thể học với
các thành phần lớp (class), ñối tượng thể hiện (instance), thuộc tính (property) và tìm kiếm, phát sinh các từ ñồng nghĩa.
Sandhya [35] ñã xây dựng bản thể học dựa trên các khái niệm
ñối tượng thể hiện, thuộc tính, khái niệm (concept) và một số quan hệ như IS-A, rời rạc (disjointness) và tương ñương
Trang 1236
-g Phần này chỉ trình bày một số công trình nghiên cứu ñặc trưng, các công trình nghiên cứu còn lại khác ñược trình bày chi tiết trong Chương 2 của quyển Luận án.
Trang 13- 13
-(equivalence) cùng một giải thuật xử lý cho kết quả có ñộ chính xác
23% và ñộ bao phủ 34% [32] [33] ñề xuất một mô hình mới về
mạng ngữ nghĩa dựa trên một số quan hệ trích dẫn từ WordNet như
quan hệ thượng danh (hypernymy), hạ danh (hyponymy), toàn thể
(meronymy), bộ phận (holonymy), tính chất (attribute), tương ñồng
(similarity), và một số quan hệ ñược ñịnh nghĩa thêm như chú giải
(gloss), chủ ñề (topic) và miền (domain).
[
hướng nghiên cứu trong tương lai Ứng dụng những phương phápñược ñề xuất trong luận án vào xử lý ngôn ngữ tự nhiên tiếng Việt làmục tiêu lâu dài và ñồng thời là hướng nghiên cứu phát triển của tácgiả Những ứng dụng này sẽ ñóng góp một phần trong hướng nghiêncứu lĩnh vực xử lý ngôn ngữ tự nhiên tiếng Việt
DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ
BÁO CÁO KHOA HỌC
3.1 Giới thiệu
Chương này trình bày những khái niệm nền tảng của mô hình mở
rộng truy vấn dựa trên ontology Lý thuyết ñược ñề xuất về các quan
hệ hai ngôi ở mục 3.2 sẽ là cơ sở ñể xây dựng những quan hệ ngữ
nghĩa giữa các ñối tượng trong thế giới thực Ở mục 3.3, thông qua
các ñịnh nghĩa về mô hình bài toán mở rộng truy vấn, sẽ cung cấp
một lý thuyết giúp ñảm bảo tính tổng quát và tính ñúng của vấn ñề
Phần 3.4 hướng người ñọc ñến vấn ñề cấu trúc cụm danh từ trong
tiếng Anh, sau ñó trình bày về ñề xuất của luận án về mẫu xác ñịnh
cụm danh từ ñể phục vụ việc huấn luyện ontology OOMP cũng như
việc phân tích các truy vấn Các mục còn lại của chương giới thiệu
phương pháp ñánh giá kết quả, môi trường, công cụ hỗ trợ và dữ liệu
thực nghiệm ở các chương tiếp theo Một phần kết quả của chương
này ñã công bố trong công trình [ii], [iv], [v] và [ix].
3.2 Bài toán Xây dựng ontology và bài toán Hoàn chỉnh mở
rộng truy vấn
Từ hai bài toán xác ñịnh trong chương 1, tác giả ñề xuất cơ sở lý
thuyết về các quan hệ ngữ nghĩa mở rộng ñóng vai trò nền tảng trong
việc phát triển cấu trúc ontology và các phương pháp mở rộng truy
vấn cũng như hoàn thiện truy vấn
Giả sử:
− D={wi} tập danh mục từ của ngôn ngữ tự nhiên
− O={oi} tập danh mục từ mô tả ñối tượng (object)
Tạp chí Khoa học
[i] Tuoi T.Phan, Thanh C.Nguyen Vietnamese knowledge base
development and exploitation The International Journal of Business
Intelligence and Data Mining (IJBIDM), 2010 ISSN (Online):
1743-8195, ISSN (Print): 1743-8187 (Được chấp nhận ñăng bài)
[ii] Nguyễn Chánh Thành, Phan Thị Tươi Mô hình mở rộng truy
vấn trong truy xuất thông tin Tạp chí Công Nghệ Thông tin &
Truyền Thông: Các công trình nghiên cứu khoa học, nghiên cứutriển khai Công nghệ Thông tin và Truyền thông, số 2 (23) kỳ 3, Việt
nam, 2010 ISSN 0866–7039.
[iii] Nguyễn Chánh Thành, Phan Thị Tươi Truy xuất thông tin với
chỉ mục hướng ñến ngữ nghĩa Tạp chí Công Nghệ Thông tin &
Truyền Thông: Các công trình nghiên cứu khoa học, nghiên cứutriển khai Công nghệ Thông tin và Truyền thông, số 20, Việt nam,
2008, tr 49–59 ISSN 0866–7039.
[iv] Thanh C.Nguyen, Tuoi T.Phan A hybrid solution of
ontology-based query expansion The International Journal of Web
Information Systems, Volume 4 Number 2, 2008, pp.215–227, 2008
ISSN 1744–0084.
[v] Nguyễn Chánh Thành, Phan Thị Tươi Truy xuất thông tin:
Giải pháp bản thể học cho hoàn chỉnh truy vấn Tạp chí Công Nghệ
Thông tin & Truyền Thông: Các công trình nghiên cứu khoa học,nghiên cứu triển khai Công nghệ Thông tin và Truyền thông, số 19,
Việt nam, tr 84–92, 2008 ISSN 0866–7039.
Chương sách
[vi] Tuoi T.PHAN, Thanh C.NGUYEN, Thuy N.T.HUYNH.
Question Semantic Analysis in Vietnamese QA System The
Advances in Intelligent Information and Database Systems book,Serie of Studies in Computational Intelligence, Volume 283, pp.29-
Trang 14Hình 7.1 Phương pháp thực hiện của vấn ñề 4
-* Vấn ñề 4: Tối ưu chi phí về thời gian xử lý của phương pháp
mở rộng kết quả tìm kiếm Định hướng của phương pháp tối ưu
này như minh họa ở hình 7.1
Như trình bày trong hình 7.1, phương pháp giải quyết trong
trường hợp này hướng ñến việc thu giảm thời gian thực hiện
trong các hai bước xử lý, ñiều ñó có thể tác ñộng ñến số lượng tài
liệu kết quả tìm ñược của giải thuật HS nhưng tỉ lệ cách biệt về
thời gian tìm kiếm
− M={mj} tập danh mục từ mô tả thành phần của ñối
tượng (member)
− P={pk} tập danh mục từ mô tả tính chất của thành
phần (property)
Các ñịnh nghĩa ñược ñề xuất:
Định nghĩa 3.1–Độ liên kết (Sim) tương quan giữa hai ñối tượng Định nghĩa 3.2–Độ phụ thuộc (Dep) của ñối tượng x vào ñối
tượng y
Định nghĩa 3.3–Thành phần của ñối tượng (Mem) xác ñịnh
thành phần của ñối tượng
Định nghĩa 3.4–Thuộc tính của thành phần (Pro) xác ñịnh
ñề này cần ñược xem xét và tiến hành các thực nghiệm ñể
m
chứng mức ñộ tối ưu thu ñược từ phương pháp cải
R m
(“dung lượng”, “chủng loại”) cho ñối tượng RAM
Nhìn chung, các vấn ñề trên là tập hợp những bài toán con
không quá phức tạp nhưng cần ñược xem xét và nghiên cứu trong
p (“lớn nhất”, “dung lượng”) vì “dung lượng” là thành phần
hướng ngữ nghĩa cho tiếng Việt Những vấn ñề này có tầm
quan trọng ñến hướng nghiên cứu của tác giả trong lĩnh vực
truy xuất
ñặc trưng của ñối tượng “bộ nhớ”
Định nghĩa 3.8–Quan hệ Trội giữa các tính chất ñặc trưng R p
thông tin, ñặc biệt là trong việc hỗ trợ truy xuất thông tin tiếng Việt
7.3 Lời kết
Toàn bộ nội dung trình bày trong luận án là công trình nghiên
cứu
Ví dụ: ñối tượng là “RAM”, R p (“lớn nhất”, “bền nhất”)
Các quan hệ ngữ nghĩa ñã ñược ñịnh nghĩa ở trên sẽ ñược xác ñịnh bằng các biểu thức luận lý sau:
f
f
f
f