1. Trang chủ
  2. » Luận Văn - Báo Cáo

Rút trích thông tin từ các tóm tắt của các bài báo cáo khoa học về trí tuệ nhân tạo dùng đồ thị khái niệm

174 59 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 174
Dung lượng 784,88 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

NHIỆM VỤ VÀ NỘI DUNG: NGHIÊN CỨU CÁC PHƯƠNG PHÁP RÚT TRÍCH THÔNG TIN VÀ KẾT QUẢ LIÊN QUAN NGHIÊN CỨU XÂY DỰNG CƠ SỞ LÝ THUYẾT CỦA PHƯƠNG PHÁP RÚT TRÍCH THÔNG TIN DÙNG ĐỒ THỊ KHÁI NIỆ

Trang 1

PHẦN MỞ ĐẦU LUẬN VĂN

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI

TRƯỜNG ĐẠI HỌC BÁCH KHOA

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

CÁN BỘ HƯỚNG DẪN KHOA HỌC:

PHÓ GIÁO SƯ, TIẾN SĨ PHAN THỊ TƯƠI

HIỆU TRƯỞNG TRƯỜNG ĐẠI HỌC BÁCH KHOA

CÁN BỘ PHẢN BIỆN ĐỀ TÀI 1:

TIẾN SĨ CAO HOÀNG TRỤ

PHÓ TRƯỞNG KHOA CÔNG NGHỆ THÔNG TIN

TRƯỜNG ĐẠI HỌC BÁCH KHOA CÁN BỘ PHẢN BIỆN ĐỀ TÀI 2:

TIẾN SĨ ĐINH ĐIỀN

BỘ MÔN CÔNG NGHỆ TRI THỨC KHOA CÔNG NGHỆ THÔNG TIN TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Trang 2

LUẬN VĂN THẠC SĨ ĐƯỢC BẢO VỆ TẠI:

HỘI ĐỒNG KHOA HỌC CHẤM BẢO VỆ

LUẬN VĂN THẠC SĨ

TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGÀY 08 THÁNG 01 NĂM 2004

Công trình luận văn thạc sĩ này và tất cả các công trình nghiên cứu liên quan đều được tài trợ bằng tài chính và thiết bị từ

CÔNG TY MÁY TÍNH ĐỖ DOCOM

TRUNG TÂM CÔNG NGHỆ PHẦN MỀM COMSOFT

Trang 3

Đại Học Quốc Gia TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc Lập - Tự Do - Hạnh Phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ và tên học viên: ĐỖ THÀNH DŨNG Phái: Nam

Ngày tháng năm sinh: 09/04/1974 Nơi sinh: Hải Phòng Chuyên ngành: Công Nghệ Thông Tin Mã số: 01.02.10

TÊN ĐỀ TÀI:

RÚT TRÍCH THÔNG TIN TỪ CÁC TÓM TẮT CỦA CÁC BÀI BÁO KHOA

HỌC VỀ TRÍ TUỆ NHÂN TẠO DÙNG ĐỒ THỊ KHÁI NIỆM

II NHIỆM VỤ VÀ NỘI DUNG:

 NGHIÊN CỨU CÁC PHƯƠNG PHÁP RÚT TRÍCH THÔNG TIN VÀ KẾT QUẢ LIÊN QUAN

 NGHIÊN CỨU XÂY DỰNG CƠ SỞ LÝ THUYẾT CỦA PHƯƠNG PHÁP RÚT TRÍCH THÔNG TIN DÙNG ĐỒ THỊ KHÁI NIỆM

 NGHIÊN CỨU XÂY DỰNG PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ RÚT TRÍCH THÔNG TIN DÙNG ĐỒ THỊ KHÁI NIỆM

 HIỆN THỰC CHƯƠNG TRÌNH MINH HỌA HỆ RÚT TRÍCH THÔNG TIN TỪ CÁC TÓM TẮT CỦA CÁC BÀI BÁO VỀ TRÍ TUỆ NHÂN TẠO DÙNG ĐỒ THỊ KHÁI NIỆM

 VIẾT BÁO CÁO LUẬN VĂN, NGHIÊN CỨU HƯỚNG PHÁT TRIỂN TIẾNG VIỆT

Trang 4

III NGÀY GIAO NHIỆM VỤ: 01 / 07 / 2003

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 01 / 12 / 2003

V HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN:

PHÓ GIÁO SƯ, TIẾN SĨ PHAN THỊ TƯƠI

CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM NGÀNH BỘ MÔN QUẢN LÝ NGÀNH

PGS.TS.PHAN THỊ TƯƠI TS.DƯƠNG TUẤN ANH

Nội dung và đề cương luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua

Ngày 01 tháng 07, năm 2003

PHÒNG ĐÀO TẠO SAU ĐẠI HỌC KHOA QUẢN LÝ NGÀNH

Trang 5

LUẬN VĂN THẠC SĨ ĐƯỢC ĐỆ TRÌNH ĐẾN

CÁN BỘ HƯỚNG DẪN

TS CAO HOÀNG TRỤ

PHÓ TRƯỞNG KHOA CÔNG NGHỆ

HỘI ĐỒNG

TS.NGUYỄN XUÂN DŨNG

PHÓ TRƯỞNG KHOA CÔNG NGHỆ

TS NGUYỄN VĂN HIỆP

BỘ MÔN CÔNG NGHỆ PHẦN MỀM KHOA CÔNG NGHỆ THÔNG TIN

TRƯỜNG ĐẠI HỌC BÁCH KHOA

TRUNG TÂM CÔNG NGHỆ PHẦN MỀM COMSOFT

CÔNG TY MÁY TÍNH ĐỖ

CHỦ NHIỆM NGÀNH SAU

ĐẠI HỌC

TS DƯƠNG TUẤN ANH

TRƯỜNG ĐẠI HỌC

PHÒNG QUẢN LÝ SAU

Trang 6

NHẬN XÉT CỦA CÁN BỘ HƯỚNG DẪN

KHOA HỌC

Trang 7

NHẬN XÉT CỦA CÁN BỘ PHẢN BIỆN ĐỀ TÀI 1

Trang 8

NHẬN XÉT CỦA CÁN BỘ PHẢN BIỆN ĐỀ TÀI 2

Trang 9

NHẬN XÉT CỦA CÁC CÁN BỘ THÀNH VIÊN

HỘI ĐỒNG

Trang 10

NHẬN XÉT CỦA CÁN BỘ CHỦ NHIỆM NGÀNH

Trang 11

NHẬN XÉT CỦA TRUNG TÂM CÔNG NGHỆ PHẦN MỀM COMSOFT CÔNG TY MÁY TÍNH ĐỖ - DOCOM

Trang 12

LỜI GHI ƠN SÂU SẮC

Tôi rất biết ơn Thầy Cô Trường Đại Học Bách Khoa Thành Phố Hồ Chí Minh đã tận tâm giảng dạy, truyền đạt kiến thức về nhiều môn học chuyên ngành quan trọng cho thế hệ trẻ Đặc biệt, tôi xin ghi ơn các Thầy Cô Khoa Công Nghệ Thông Tin đã dìu dắt suốt từ bậc đại học ở lớp MT92 trong giai đoạn 1992-1997, cho đến khi tôi hoàn thành bậc cao học này ở lớp Cao Học CNTT 12 trong giai đoạn 2001-2003 Bản Luận Văn Cao Học này là sự kết tinh của công ơn giảng dạy của Cô Thầy cùng với nỗ lực nghiên cứu và yêu nghề của bản thân tôi

Tôi rất biết ơn Cô PGS.TS Phan Thị Tươi, Thầy TS Nguyễn Thanh Sơn là những bậc lãnh đạo Khoa Công Nghệ Thông Tin trong những năm tháng đầu tiên ở bậc đại học Giờ đây, với những trọng trách lớn lao, nhưng Cô Thầy vẫn luôn tâm huyết và dành nhiều thời gian để giảng dạy, hướng dẫn thế hệ trẻ Tôi rất biết ơn Thầy TS Dương Tuấn Anh, Thầy TS Phạm Tường Hải, Thầy TS Cao Hoàng Trụ, Thầy TS Nguyễn Văn Hiệp, Thầy TS Lê Ngọc Minh, Thầy TSKH Nguyễn Hữu Anh, Thầy

TS Trần Văn Lăng, Thầy TS Nguyễn Xuân Dũng, Thầy TS Đinh Điền, Thầy Th.S Nguyễn Trung Trực Các Thầy Cô là những tấm gương sáng về tri thức, sự thành đạt và yêu nghề cho thế hệ trẻ noi theo

Tôi xin gửi lòng biết ơn đến TS Cao Hoàng Trụ, TS Nguyễn Văn Hiệp, và TS Nguyễn Xuân Dũng, các Thầy đã dành nhiều thời gian, công sức giảng dạy nhiều tri thức quý giá trong chặng đường đại học, cao học Tôi xin gửi tấm lòng biết ơn đến các Thầy Cô là thành viên hội đồng giám khảo, và Tiến Sĩ Đinh Điền - Bộ Môn Công Nghệ Tri Thức - Khoa

Trang 13

Công Nghệ Thông Tin - Trường Đại Học Khoa Học Tự Nhiên đã dành những thời gian quý báu để đánh giá chấm nhận xét luận văn này

Trong những dòng ghi ơn này, bản thân tôi luôn ghi nhớ đến công ơn

Ba Mẹ và người thân trong gia đình, đã giáo dục tôi nên người, tạo điều kiện cho tôi học tập và từng bước trưởng thành Luận văn này là lời ghi

ơn sâu sắc nhất đến các đấng sinh thành và giáo dục tôi nên người Tôi xin được một lần nữa gửi lòng tri ân đến PGS.TS Phan Thị Tươi Cô đã hướng dẫn tôi nghiên cứu đề tài và hoàn thành luận văn cao học này Hình ảnh người hiệu trưởng - giảng viên yêu kính luôn sống mãi trong tâm trí tôi với những kỷ niệm đẹp nhất trong chặng đường cao học này

Tôi xin kính chúc Thầy Cô luôn thành công trong sự nghiệp và dồi dào sức khỏe,

Nhân ngày Lễ Thầy Cô, 20 tháng 11 năm 2003,

Tác giả thực hiện công trình,

ThS KS Máy Tính ĐỖ THÀNH DŨNG

GIÁM ĐỐC CÔNG TY MÁY TÍNH ĐỖ DOCOM

TRƯỞNG TRUNG TÂM CÔNG NGHỆ PHẦN MỀM

Trang 14

TÓM TẮT

Rút trích thông tin là một vấn đề khó Trong khi rất nhiều nỗ lực đã được thực hiện để mô hình hóa các tài liệu văn bản và cải tiến kết quả rút trích thông tin, thì mô hình rút trích thông tin thành công nhất cho đến hiện nay đã được phát triển chỉ dựa trên cách thức rất thông thường Một lý do khả dĩ cho điều này là trong việc phát triển các mô hình này, người ta rất ít chú trọng đến bản chất thật sự của công việc xử lý ngôn ngữ tự nhiên Trong luận văn này, tác giả trình bày cách tiếp cận giải quyết của tác giả theo hướng xử lý ngôn ngữ tự nhiên, ứng dụng trong công việc rút trích thông tin, trong đó tác giả dựa trên tiêu chuẩn của xử lý ngôn ngữ tự nhiên và đồ thị khái niệm

Bằng việc phân tích ngôn ngữ tự nhiên để làm nổi bật giải pháp và làm sáng tỏ các đặc tính của văn bản tài liệu, tác giả hy vọng đạt đến một mô hình tốt hơn với giải pháp của mình, và do đó đạt được một chíến lược rút trích thông tin tốt hơn

THÔNG TIN LIÊN QUAN

Luận văn được đệ trình Khoa Công Nghệ Thông Tin,

Trường Đại Học Bách Khoa Thành Phố Hồ Chí Minh,

Đại Học Quốc Gia Thành Phố Hồ Chí Minh, Vào ngày 01 tháng 12 năm 2003, trong tiến trình nghiên cứu sau đại học hoàn tất văn bằng Thạc Sĩ ngành Công Nghệ Thông Tin

Cán Bộ Hướng Dẫn: Phó Gíáo Sư, Tiến Sĩ Phan Thi Tươi

Chức vụ: Hiệu Trưởng Trường Đại Học Bách Khoa

Thành Phố Hồ Chí Minh

Trang 15

ABSTRACT

Information retrieval (IR) is a difficult problem While many attempts have been made to model text documents and improve search results by doing so, the most successful text retrieval to date has been developed just in an ad-hoc manner One possible reason for this is that in developing these models very little focus has been placed on the actual properties of natural language processing In this thesis, I would like to present my solution approach, based on natural language processing, that I take to information retrieval, in which I base on the standard of natural language processing and conceptual graphs

Using natural language analysis to highlight my solution and the actual properties of text documents, I hope to arrive at a better model with my solution, and thus a better information retrieval strategy

RELEVANT INFORMATION

Submitted to the Department of Information Technology,

Ho Chi Minh Polytechnic University, National University of Ho Chi Minh City,

on December 1st, 2003, in partial fulfillment of the

graduate study requirements for the degree of Master of Science in Information Technology Thesis Supervisor: Madam Phan Thi Tuoi Title: Doctor of Philosophy, Assoc Professor Position: Principal of the Ho Chi Minh Polytechnic University

Trang 16

NỘI DUNG LUẬN VĂN THẠC SĨ

PHẦN MỞ ĐẦU LUẬN VĂN I

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI I NHIỆM VỤ LUẬN VĂN THẠC SĨ III LUẬN VĂN THẠC SĨ ĐƯỢC ĐỆ TRÌNH ĐẾN V NHẬN XÉT CỦA CÁN BỘ HƯỚNG DẪN KHOA HỌC VI NHẬN XÉT CỦA CÁN BỘ PHẢN BIỆN ĐỀ TÀI 1 VII NHẬN XÉT CỦA CÁN BỘ PHẢN BIỆN ĐỀ TÀI 2 VIII NHẬN XÉT CỦA CÁC CÁN BỘ THÀNH VIÊN HỘI ĐỒNG IX NHẬN XÉT CỦA CÁN BỘ CHỦ NHIỆM NGÀNH X NHẬN XÉT CỦA TRUNG TÂM CÔNG NGHỆ PHẦN MỀM COMSOFT

CÔNG TY MÁY TÍNH ĐỖ - DOCOM XI LỜI GHI ƠN SÂU SẮC XII TÓM TẮT XIV ABSTRACT XV

NỘI DUNG LUẬN VĂN THẠC SĨ XVI CHƯƠNG 1 ĐẶT VẤN ĐỀ 1

1.1 MỞ ĐẦU 1 1.2 VÌ SAO RÚT TRÍCH THÔNG TIN LÀ CÔNG VIỆC QUAN TRỌNG HIỆN NAY ? 2 1.3 CÔNG VIỆC RÚT TRÍCH THÔNG TIN THỰC HIỆN NHƯ THẾ NÀO

? 3 1.4 MỤC TIÊU - KẾT QUẢ CỦA LUẬN VĂN 4 1.5 TÓM TẮT CHƯƠNG 6

Trang 17

CHƯƠNG 2 NGHIÊN CỨU CÁC PHƯƠNG PHÁP RÚT TRÍCH THÔNG

TIN VÀ KẾT QUẢ LIÊN QUAN 7

2.1 GIỚI THIỆU TỔNG QUAN 7

2.2 CÁC PHƯƠNG PHÁP RÚT TRÍCH VĂN BẢN TRUYỀN THỐNG 8

2.2.1 PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN TOÀN PHẦN 8

2.2.2 PHƯƠNG PHÁP DÙNG TẬP TIN KÝ SỐ 11

2.2.3 PHƯƠNG PHÁP ĐẢO NGƯỢC 12

2.2.4 PHƯƠNG PHÁP DÙNG MÔ HÌNH VÉC TƠ VÀ GOM NHÓM 14

2.2.4.1 PHƯƠNG PHÁP TẠO SINH CÁC NHÓM 15

2.2.4.2 PHƯƠNG PHÁP TÌM KIẾM TRONG NHÓM 18

2.3 CÁC PHƯƠNG PHÁP MANG NGUYÊN LÝ MÔ HÌNH THÔNG TIN NGỮ NGHĨA 18

2.3.1 PHƯƠNG PHÁP XỬ LÝ NGÔN NGỮ TỰ NHIÊN 19

2.3.2 PHƯƠNG PHÁP ĐÁNH CHỈ MỤC NGỮ NGHĨA NGẦM 21

2.3.3 PHƯƠNG PHÁP MẠNG NƠ RON 21

2.4 MỘT SỐ HƯỚNG TIẾP CẬN TRONG NƯỚC 22

2.5 CÁC KẾT LUẬN VÀ PHƯƠNG PHÁP RÚT TRÍCH THÔNG TIN ĐỀ NGHỊ 23

2.6 GIỚI THIỆU PHƯƠNG PHÁP RÚT TRÍCH THÔNG TIN ĐỀ NGHỊ 24 2.7 TÓM TẮT CHƯƠNG 26

CHƯƠNG 3 CƠ SỞ LÝ THUYẾT CỦA PHƯƠNG PHÁP RÚT TRÍCH THÔNG TIN DÙNG ĐỒ THỊ KHÁI NIỆM 27

3.1 LÝ THUYẾT ĐỒ THỊ KHÁI NIỆM 27

3.1.1 ĐỊNH NGHĨA ĐỒ THỊ KHÁI NIỆM 29

3.1.2 ĐỊNH NGHĨA KHÁI NIỆM 30

3.1.3 ĐỊNH NGHĨA QUAN HỆ KHÁI NIỆM 30

Trang 18

3.1.4 ĐỊNH NGHĨA BIỂU THỨC LAMDA 30

3.1.5 ĐỊNH NGHĨA KIỂU KHÁI NIỆM 31

3.1.6 ĐỊNH NGHĨA KIỂU QUAN HỆ KHÁI NIỆM 32

3.1.7 ĐỊNH NGHĨA THAM CHIẾU 33

3.1.8 ĐỊNH NGHĨA NGỮ CẢNH 34

3.1.9 ĐỊNH NGHĨA TẬP THAM CHIẾU CÙNG NHAU 35

3.1.10 ĐỊNH NGHĨA CƠ SỞ TRI THỨC 35

3.2 LÝ THUYẾT XỬ LÝ NGÔN NGỮ TỰ NHIÊN 37

3.2.1 LUẬT KẾT HỢP TỪ VỰNG 39

3.2.2 LUẬT KẾT HỢP CÂU 42

3.2.3 PHƯƠNG PHÁP KẾT HỢP 43

3.2.4 ĐÁNH GIÁ CÁC PHƯƠNG PHÁP TRƯỚC ĐÂY ĐO LƯỜNG ĐỘ TƯƠNG TỰ GIỮA CÂU TRUY VẤN VÀ TÀI LIỆU 44

3.2.4.1 MÔ HÌNH THANG ĐIỂM SO TRÙNG 44

3.2.4.2 MÔ HÌNH LUẬN LÝ 45

3.2.4.3 MÔ HÌNH LUẬN LÝ DỰA TRÊN TẬP MỜ 46

3.2.4.4 MÔ HÌNH VÉC TƠ 47

3.2.4.5 MÔ HÌNH XÁC SUẤT 50

3.2.4.6 NHẬN XÉT 51

3.3 TÓM TẮT CHƯƠNG 52

CHƯƠNG 4 PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ RÚT TRÍCH THÔNG TIN DÙNG ĐỒ THỊ KHÁI NIỆM 53

4.1 PHƯƠNG PHÁP PHÂN TÍCH XỬ LÝ NGÔN NGỮ TỰ NHIÊN VÀ XÂY DỰNG ĐỒ THỊ KHÁI NIỆM 54

4.1.1 TỔNG QUAN 54

4.1.2 XÂY DỰNG CÁC ĐẶC TÍNH CHO BỘ PHÂN TÍCH 56

4.1.2.1 PHƯƠNG PHÁP VIẾT TẮT 56

Trang 19

4.1.2.2 CÁC TẬP TIN TỪ LOẠI 57

4.1.2.3 PHƯƠNG PHÁP KÝ HIỆU THỂ LOẠI TỪ 60

4.1.2.4 TÍNH TOÁN CHI PHÍ NỐI KẾT 61

4.1.3 XÂY DỰNG CÁC ĐẶC TÍNH CHO TỪ ĐIỂN 62

4.1.3.1 CÁC TỪ VIẾT HOA 62

4.1.3.2 CÁC TỪ CÓ GẠCH NỐI 63

4.1.3.3 CÁC BIỂU THỨC SỐ VÀ THỜI GIAN 64

4.1.3.4 CÁC TỪ CHƯA NHẬN DIỆN 64

4.1.3.5 CÁC KÝ HIỆU DẤU VÀ PHỤ TỐ 65

4.1.3.6 THỨ TỰ CÁC CHUỖI CHƯA NHẬN DIỆN 66

4.1.3.7 KHÁI NIỆM CHẶN TƯỢNG TRƯNG 67

4.1.3.8 CÁC THÀNH NGỮ 68

4.1.4 XỬ LÝ CÁC LIÊN TỪ NGANG HÀNG 68

4.1.5 XỬ LÝ NÂNG CAO 69

4.1.6 XÂY DỰNG CÁC ĐẶC TÍNH PHÂN TÍCH NHANH 70

4.1.6.1 BỎ QUA TỪ VÀ KẾT NỐI VÔ NGHĨA 70

4.1.6.2 GIỚI HẠN CHIỀU DÀI KẾT NỐI KHÔNG HỢP LÝ 71

4.1.6.3 BỘ ĐỊNH THÌ 71

4.2 PHƯƠNG PHÁP SO SÁNH ĐO LƯỜNG THÔNG TIN TRÊN ĐỒ THỊ KHÁI NIỆM 72

4.2.1 ĐỒ THỊ KHÁI NIỆM 73

4.2.2 VIỆC SO SÁNH CÁC ĐỒ THỊ KHÁI NIỆM 74

4.2.2.1 TÌM Gc 75

4.2.2.2 ĐO LƯỜNG SỰ GIỐNG NHAU GIỮA HAI ĐỒ THỊ G1 VÀ G2 DỰA VÀO ĐỒ THỊ GIAO GIỮA CHÚNG Gc 76

4.2.3 ĐO LƯỜNG SỰ GIỐNG NHAU GIỮA HAI ĐỒ THỊ KHÁI NIỆM 77

4.2.3.1 SỰ GIỐNG NHAU VỀ KHÁI NIỆM Sc 77

Trang 20

4.2.3.2 SỰ GIỐNG NHAU VỀ QUAN HỆ Sr 77

4.2.3.3 SỰ GIỐNG NHAU TỔNG QUAN S 79

4.3 CÁC CHƯƠNG TRÌNH THÍ NGHIỆM 81

4.4 TÓM TẮT CHƯƠNG 85

CHƯƠNG 5 HIỆN THỰC CHƯƠNG TRÌNH RÚT TRÍCH THÔNG TIN DÙNG ĐỒ THỊ KHÁI NIỆM 86

5.1 BỘ PHÂN TÍCH NGÔN NGỮ 86

5.1.1 GIỚI THIỆU 86

5.1.2 CÁC KHÁI NIỆM VÀ THUẬT NGỮ 87

5.1.3 CÁC TÁC VỤ CƠ BẢN 88

5.1.3.1 TÁC VỤ KHỞI TẠO TỪ ĐIỂN 88

5.1.3.2 TÁC VỤ KHỞI TẠO CÂU 89

5.1.3.3 TÁC VỤ ĐIỀU CHỈNH THÔNG SỐ PHÂN TÍCH 89

5.1.3.4 TÁC VỤ PHÂN TÍCH CÂU 90

5.1.3.5 TÁC VỤ XÂY DỰNG NỐI KẾT 90

5.1.4 CHI TIẾT CÁC TÁC VỤ QUAN TRỌNG 91

5.1.4.1 NHÓM TÁC VỤ KHỞI TẠO TỪ ĐIỂN 91

5.1.4.2 NHÓM TÁC VỤ KHỞI TẠO THÔNG SỐ PHÂN TÍCH 91

5.1.4.3 NHÓM TÁC VỤ XỬ LÝ CÂU 95

5.1.4.4 NHÓM TÁC VỤ XỬ LÝ NỐI KẾT 96

5.1.4.5 NHÓM TÁC VỤ XỬ LÝ NÂNG CAO ĐỘC LẬP 99

5.1.4.6 NHÓM TÁC VỤ RÚT TRÍCH THÀNH PHẦN CẤU TRÚC 99

5.1.4.7 NHÓM TÁC VỤ LIÊN QUAN ĐỒ THỊ KHÁI NIỆM 100

5.2 MÔ TẢ CÁC GIẢI THUẬT QUAN TRỌNG CỦA CHƯƠNG TRÌNH 102 5.2.1 GIẢI THUẬT BỘ XỬ LÝ NGÔN NGỮ TỰ NHIÊN 102

5.2.2 GIẢI THUẬT TÍNH TOÁN SO SÁNH ĐỒ THỊ KHÁI NIỆM 103

5.2.3 GIẢI THUẬT TÍNH TOÁN THÔNG SỐ PHÂN TÍCH 104

Trang 21

5.2.4 GIẢI THUẬT TÁCH CÁC THÀNH PHẦN CỦA TÀI LIỆU 104

5.2.5 GIẢI THUẬT THỐNG KÊ TẤT CẢ TÀI LIỆU BÀI BÁO 105

5.2.6 GIẢI THUẬT KIỂM TRA TỪ CẦN LOẠI BỎ 105

5.3 DANH SÁCH CÁC LOẠI NỐI KẾT 106

5.4 CẤU TRÚC THƯ MỤC CỦA CHƯƠNG TRÌNH 114

5.5 MÔ TẢ CÁC CHỨC NĂNG QUAN TRỌNG CỦA CHƯƠNG TRÌNH116 5.5.1 CHỨC NĂNG HỒ SƠ 116

5.5.2 CHỨC NĂNG HIỆU CHỈNH 118

5.5.3 CHỨC NĂNG CHÍNH 119

5.5.4 CHỨC NĂNG THỂ HIỆN 120

5.5.5 CHỨC NĂNG TRỢ GIÚP 120

5.5.6 MÀN HÌNH CHÍNH CHƯƠNG TRÌNH 121

5.6 TÓM TẮT CHƯƠNG 123

CHƯƠNG 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TIẾNG VIỆT 124

6.1 KẾT LUẬN 124

6.2 HƯỚNG PHÁT TRIỂN TIẾNG VIỆT 126

6.2.1 PHÂN TÍCH ĐẶC ĐIỂM TIẾNG VIỆT 126

6.2.2 CÁCH PHÂN LOẠI TỪ TIẾNG VIỆT 128

6.2.3 ĐỀ NGHỊ GIẢI PHÁP XÁC ĐỊNH TỪ TIẾNG VIỆT 129

6.2.3.1 GIẢI PHÁP XÁC ĐỊNH DANH TỪ RIÊNG 129

6.2.3.2 GIẢI PHÁP XÁC ĐỊNH TỪ LÁY 130

6.2.4 GIẢI PHÁP XỬ LÝ TIẾNG VIỆT DÙNG BẢNG MÃ THỐNG NHẤT UNICODE 131

6.3 TÓM TẮT CHƯƠNG 133

THƯ MỤC THAM KHẢO 134 PHỤ LỤC A-1

Trang 22

A KẾ HOẠCH LÀM VIỆC A-1

B TÓM TẮT LÝ LỊCH TRÍCH NGANG B-1

B.1 THÔNG TIN CÁ NHÂN B-1 B.2 QUÁ TRÌNH HỌC TẬP B-1 B.3 ĐIỂM HỌC CÁC MÔN TRONG CHƯƠNG TRÌNH CAO HỌC B-3 B.4 QUÁ TRÌNH CÔNG TÁC B-4

C KẾT THÚC C-1 THE END C-2

Trang 23

CHƯƠNG 1 ĐẶT VẤN ĐỀ

Trong phần này tác giả dẫn nhập vào công việc chính của luận văn, bằng cách trước tiên trình bày về vai trò quan trọng của việc rút trích thông tin, vì sao cách tiếp cận của tác giả luận văn để cải tiến công việc rút trích thông tin là giải pháp tốt Trong các phần sau, tác giả luận văn trình bày kết quả các bước tiến hành của công việc trong thời gian 5 tháng thực hiện công trình này

1.1 MỞ ĐẦU

Rút trích thông tin là công việc quan trọng trong xử lý thông tin, giúp thu thập những nội dung cần thiết nhanh chóng và tiết kiệm thời gian của con người Các nhà nghiên cứu đã xem xét và nghiên cứu vấn đề này từ lâu với các kết quả thành công nhất định Tuy nhiên cách giải quyết vấn đề còn nhiều hạn chế, nhất là các phương pháp cổ điển truyền thống Ngày nay đã xuất hiện một khuynh hướng là giải quyết vấn đề rút trích thông tin kết hợp với xử lý ngôn ngữ tự nhiên Tuy vậy vẫn chưa hình thành một phương cách giải quyết vấn đề một cách thuyết phục Luận văn này thực hiện với một nỗ lực nghiên cứu các cách tiếp cận hiện nay, và nghiên cứu một hướng tiếp cận để giải quyết vấn đề rút trích thông tin thông qua xử lý ngôn ngữ tự nhiên Thông qua một bài toán cụ thể là vấn đề "Rút Trích Thông Tin từ các Tóm Tắt của các Bài Báo Khoa Học về Trí Tuệ Nhân Tạo dùng Đồ Thị Khái Niệm", luận văn nghiên cứu về một phương pháp giải quyết dùng trong phân tích xử lý ngôn ngữ tự nhiên nhằm rút trích thông tin và so sánh thông qua mô hình biểu diễn luận lý cho ngôn ngữ tự nhiên là các đồ thị khái niệm

Trang 24

Trong luận văn này, tác giả luận văn trình bày công trình đã làm sử dụng xử lý ngôn ngữ tự nhiên và đồ thị khái niệm để thực hiện việc rút trích thông tin từ các tóm tắt của các bài báo khoa học về trí tuệ nhân tạo, và mở rộng hơn là các tài liệu trong ngôn ngữ tự nhiên Công việc xử lý này quan tâm đến cách hành văn theo văn phạm chuẩn của ngôn ngữ, và do vậy công việc rút trích thực hiện một cách khoa học bài bản, chú trọng đến các câu văn đúng ngữ pháp

1.2 VÌ SAO RÚT TRÍCH THÔNG TIN LÀ CÔNG

VIỆC QUAN TRỌNG HIỆN NAY ?

Rút trích thông tin là một vấn đề khó, ngày càng trở nên khó khăn hơn và quan trọng hơn trong giai đoạn hiện nay Điều này bởi vì lượng thông tin dưới dạng điện tử ngày càng gia tăng, và yêu cầu ngày càng cao trong công việc rút trích thông tin Từ khi có sự phát triển của World Wide Web, con người bị bao quanh bởi một lượng thông tin rất lớn, nhất là các tài liệu khoa học, trong đó có khoa học về Trí Tuệ Nhân Tạo Con người không thể sử dụng nguồn thông tin hiệu quả bởi

vì tính chất quá phong phú và phức tạp Do vậy, công việc rút trích thông tin tự động đòi hỏi phải có nhiều nghiên cứu phát triển để giải quyết công việc hiệu quả thay thế con người trong việc thu thập thông tin cần thiết

Với kết quả nghiên cứu phương pháp rút trích thông tin dựa trên xử lý ngôn ngữ tự nhiên và đồ thị khái niệm, tác giả luận văn mong muốn đóng góp cải tiến tiến trình rút trích thông tin tự động, và quản lý nguồn thông tin hiệu quả hơn Kết quả nghiên cứu này có thể ứng dụng rộng rãi trong nhiều hoạt động xử lý thông tin tự động có liên

Trang 25

quan đến ngôn ngữ tự nhiên, và mở ra hướng đi quan trọng trong việc hiện thực các thiết bị giao tiếp với con người thông qua ngôn ngữ tự nhiên

1.3 CÔNG VIỆC RÚT TRÍCH THÔNG TIN THỰC

HIỆN NHƯ THẾ NÀO ?

Luận văn sẽ trình bày về rút trích thông tin, nên điều cần thiết trước tiên là việc trình bày tiến trình rút trích thực hiện ra sao Hiện nay có hai cách tiếp cận chính mà người ta thường làm để xây dựng hệ thống truy xuất các tài liệu để trả lời cho một câu hỏi đưa ra Một là xây dựng theo cách cổ điển truyền thống, và hai là cách mang nguyên lý mô hình thông tin ngữ nghĩa Tác giả luận văn trình bày việc nghiên cứu các cách tiếp cận này trong phần sau

Với cách tiếp cận truyền thống, đây là những phương pháp phát triển đầu tiên và là những phương pháp rút trích thông tin thông dụng nhất trong thực tế Nhưng chúng có những khuyết điểm nhất định, trong đó có việc không thật sự xem xét vai trò ngữ pháp Trong nhiều trường hợp, cách tiếp cận này chỉ đơn giản xem câu như là một tập hợp các từ có trong từ điển Do vậy, với tập hợp n từ có thể kết hợp đến n! câu Trong khi thực tế, rất nhiều khả năng là chỉ có tối đa 1 câu duy nhất đúng ngữ pháp

Với cách tiếp cận mang nguyên lý mô hình thông tin ngữ nghĩa, đây là các phương pháp mới hơn Tác giả luận văn sẽ trình bày về các phương pháp này và đề xuất phương pháp của mình, trong đó có sử dụng thông tin ngữ nghĩa với việc xử lý ngôn ngữ tự nhiên và đồ thị khái niệm

Trang 26

Tuy trình bày hai cách tiếp cận riêng biệt nhau, nhưng tác giả luận văn nhấn mạnh là nhiều cách tiếp cận rút trích thông tin hiện nay nằm giữa hai trường phái này Nhiều mô hình rút trích thông tin có những yếu tố kế thừa, cải tiến từ phương pháp cổ điển truyền thống Trong nhiều trường hợp, các phương pháp truyền thống này đã bổ sung nhiều yếu tố mới từ các phương pháp tiếp cận sau này để tăng tính hiệu quả Kết quả luận văn của tác giả cũng đóng góp được một phần vào tiến trình này

1.4 MỤC TIÊU - KẾT QUẢ CỦA LUẬN VĂN

Mục tiêu của luận văn là xây dựng phương pháp rút trích thông tin từ ngôn ngữ tự nhiên dùng đồ thị khái niệm và thực hiện việc rút trích thông tin từ các tóm tắt của các bài báo khoa học về Trí Tuệ Nhân Tạo dùng đồ thị khái niệm, nhằm đạt kết quả là thu thập những thông tin quan trọng nhất về nội dung của bài báo, và biểu diễn mối quan hệ của các khái niệm mà bài báo đề cập bằng các đồ thị khái niệm

Nội dung thực hiện được trình bày trong phần kế hoạch làm việc Bên cạnh đó, việc tìm hiểu các khung chung về cấu trúc và nội dung của các tóm tắt bài báo, để từ đó xác định các thông tin có thể rút trích từ các tóm tắt cũng là một việc cần thiết

Qua việc nghiên cứu tác giả luận văn xây dựng mô hình biểu diễn các thông tin rút trích và phương pháp rút trích dùng đồ thị khái niệm Kết quả là mô hình biểu diễn nội dung bài báo bằng đồ thị khái niệm, cùng các thông tin liên quan rút trích từ nội dung các tóm tắt của các bài báo Kết quả này thông qua quá trình xử lý, phân tích và

Trang 27

lưu lại trong cơ sở dữ liệu, nhằm phục vụ nhiều yêu cầu khác nhau của người dùng

Thông qua việc xử lý ngôn ngữ tự nhiên, xây dựng đồ thị khái niệm cho câu hỏi truy vấn và các tài liệu, cùng với phương pháp so sánh đo lường thông tin trên đồ thị khái niệm, hệ thống cho phép tính toán, trả về các tài liệu có độ phù hợp cao nhất với câu hỏi và xếp loại tài liệu theo mức độ đáp ứng của tài liệu đối với từng câu hỏi cụ thể

Ý nghĩa quan trọng nhất của luận văn thể hiện ở tính nắm bắt trọn vẹn ngôn ngữ thông qua xử lý ngôn ngữ tự nhiên, và giải quyết vấn đề ở mức độ bản chất ngôn ngữ và văn phạm Do vậy công việc rút trích thông tin luôn có được tính bền vững và không bị giới hạn bởi phạm vi trong miền các bài báo về Trí Tuệ Nhân Tạo

Trang 28

1.5 TÓM TẮT CHƯƠNG

Chương đầu tiên, tác giả luận văn đã trình bày về vấn đề chung nhất mở đầu cho công việc nghiên cứu, bao gồm việc trình bày vấn đề cần giải quyết, vai trò quan trọng của công việc rút trích thông tin hiện nay, công việc rút trích thông tin thường thực hiện như thế nào, và mục tiêu kết quả của luận văn

Trong phần sau, tác giả trình bày nghiên cứu của mình về các phương pháp rút trích thông tin và kết quả liên quan Công việc này rất cần thiết khi nghiên cứu đề xuất một phương pháp rút trích thông tin nhất định

Trang 29

CHƯƠNG 2 NGHIÊN CỨU CÁC PHƯƠNG PHÁP RÚT TRÍCH THÔNG TIN VÀ KẾT

QUẢ LIÊN QUAN

Trong chương hai, tác giả luận văn trình bày nghiên cứu của mình về các phương pháp rút trích thông tin và kết quả liên quan Trong đó, ở phần đầu tiên, tác giả luận văn trình bày tổng quan về các phương pháp rút trích văn bản truyền thống như: phương pháp tìm kiếm văn bản toàn phần, phương pháp dùng tập tin ký số, phương pháp đảo ngược, phương pháp dùng mô hình véc-tơ và gom nhóm Trong phần hai, tác giả luận văn thảo luận hướng kết hợp với các thông tin ngữ nghĩa Đó là các phương pháp mang nguyên lý mô hình thông tin ngữ nghĩa như: phương pháp xử lý ngôn ngữ tự nhiên, phương pháp đánh chỉ mục ngữ nghĩa ngầm, và phương pháp mạng nơ ron Ngoài ra, tác giả luận văn cũng trình bày về một số hướng tiếp cận trong nước, các kết luận và giới thiệu về phương pháp đề nghị giải quyết vấn đề rút trích thông tin dùng đồ thị khái niệm

2.1 GIỚI THIỆU TỔNG QUAN

Nghiên cứu trong phần này chia thành hai phần Trong phần đầu tiên, tác giả luận văn trình bày các phương pháp truyền thống để rút trích thông tin Nguyên nhân xuất phát chính là: (a) Các kiến thức của những phương pháp này rất hữu ích và là thông tin nền tảng cho các phát triển mới và (b) Các biến đổi và mở rộng của những phương pháp này chính là phần trung tâm của những phương pháp mới hơn

Trang 30

Một số phương pháp truyền thống này bao gồm: phương pháp tìm kiếm văn bản toàn phần với các cải tiến gần đây trong việc tìm kiếm xấp xỉ; các phương pháp dựa vào chuyển đổi ngược là tương đối nhanh đang sử dụng hiện nay, và dùng như là động cơ tìm kiếm trong nhiều hệ thống rút trích thông tin; các phương pháp sử dụng tập tin ký số; các phương pháp sử dụng gom nhóm là cách tiếp cận truyền thống trong ngành khoa học về thư viện

Sau tất cả thông tin nền tảng trên, trong phần thứ hai, tác giả luận văn khảo sát một số nỗ lực gần đây để kết hợp các phương pháp xử lý ngôn ngữ tự nhiên và rút trích thông tin, bao gồm phương pháp chỉ mục ngữ nghĩa ngầm và các mạng nơ ron Công việc khảo sát kết thúc với những kết luận, điểm nhấn của mỗi phương pháp và các đề nghị

2.2 CÁC PHƯƠNG PHÁP RÚT TRÍCH VĂN BẢN

Trang 31

Tác giả luận văn không kiểm tra các phương pháp tìm kiếm cho các biểu thức chính quy tổng quát Đề tài này thảo luận trong lý thuyết autômát, bạn xem tài liệu Hopcroft và Ullman năm 1979, trang 29-35 [1] Với một biểu thức chính quy cần tìm, một autômát hữu hạn có thể xây dựng, và nó dùng để dò tìm sự xuất hiện của biểu thức cho trước trong một tài liệu Ngoài ra, vấn đề này tác giả luận văn trình bày trong đề tài "Tìm kiếm song song trên search engine" trong tài liệu tham khảo [2] Thời gian tìm kiếm của autômát này là tuyến tính với kích thước của văn bản, nhưng số lượng các trạng thái của autômát có thể là hàm mũ trên độ lớn của biểu thức chính quy

Tuy nhiên, nếu các mẫu cần tìm chỉ giới hạn trong các chuỗi ký tự, ta có thể dùng các phương pháp hiệu quả hơn autômát hữu hạn Phần tiếp theo, ta sẽ thảo luận các phương pháp này

Giải thuật hiển nhiên để kiểm tra chuỗi con như sau:

 So sánh các ký tự của chuỗi cần tìm với các ký tự tương ứng của văn bản

 Nếu xuất hiện khác nhau, dịch chuyển chuỗi cần tìm sang phải một ký tự và tiếp tục cho đến khi chuỗi tìm thấy hay đã đến cuối tài liệu

Mặc dù đơn giản để hiện thực, nhưng giải thuật này quá chậm Nếu m là chiều dài chuỗi cần tìm, và n là chiều dài của tài liệu tức số ký tự trong tài liệu, thì giải thuật cần đến O (m * n) phép so sánh

Knuth, Morris and Pratt [4] trình bày một giải thuật cần O (m+n) phép so sánh Ý tưởng chính của họ là dịch chuyển chuỗi cần tìm sang phải nhiều hơn một ký tự khi có sự khác nhau Phương pháp

Trang 32

này cần một vài tiền xử lý trên chuỗi cần tìm, để dò các chuỗi các chữ cái lặp đi lặp lại Chi phí thời gian cho tiền xử lý là O(m)

Giải thuật nhanh nhất biết đến là giải thuật đề xuất bởi Boyer và Moore [5] Ý tưởng của họ là thực hiện so sánh ký tự từ phải sang trái; nếu xuất hiện khác nhau, chuỗi cần tìm có thể dịch chuyển sang phải m vị trí Số lần so sánh là n - m trong trường hợp xấu nhất, và thường thấp hơn nhiều: với một mẫu từ vựng chiều dài là m = 5, giải thuật chỉ xét điển hình i / 4 ký tự của văn bản, với i là vị trí bắt đầu của sự so trùng Và nó cũng cần phí tổn khoảng O (m) để tiền xử lý trước chuỗi cần tìm Các phiên bản thay đổi gần đây của giải thuật cơ bản này đề nghị bởi Sunday [6]

Một tiếp cận khác với vấn đề này là dựa vào lý thuyết autômát Aho và Corasick vào năm 1975 [7] đã đề nghị một phương pháp dựa trên autômát hữu hạn tất định và cho phép tìm một vài chuỗi đồng thời Với giải thuật này, bản thân tác giả luận văn phát triển thành giải thuật song song và hiện thực thành 3 chương trình song song dùng thư viện PVM và MPI trên máy song song chạy hệ điều hành Linux, bạn xem tài liệu tham khảo [2] Thời gian tìm kiếm là O(n) và thời gian xây dựng của autômát là tuyến tính với tổng số các ký tự trong các chuỗi cần tìm

Các giải thuật tìm kiếm có thể dung lỗi, chấp nhận các lỗi từ vựng do gõ phím, phát triển bởi Wu và Manber [8] Ý tưởng là duyệt qua cơ sở dữ liệu với mỗi ký tự trong một lần duyệt, và lưu vết của các ký tự tìm thấy trong một phép mã hóa bit thông minh Phương pháp này nhanh, chỉ một vài giây đối với việc tìm trên một tập ký tự độ lớn kích thước khoảng một vài megabyte trên máy chủ chạy hệ điều hành

Trang 33

SUN và rất uyển chuyển Hơn thế nữa, mã nguồn của nó có sẵn ở Đại Học Arizona thông qua ftp

Nói tổng quát, ưu thế của tất cả phương pháp tìm kiếm văn bản toàn phần là nó không đòi hỏi các nỗ lực và không gian lớn trong việc chèn và cập nhật, không thay đổi các tập chỉ số Tuy nhiên, giá phải trả là thời gian đáp ứng kém, và điều này càng trầm trọng với các cơ sở dữ liệu lớn Do vậy, việc tìm kiếm văn bản toàn phần thường thực hiện bởi phần cứng với mục tiêu đặc biệt, bạn xem thêm công trình của Hollaar và đồng nghiệp năm 1983 [9], hay dùng kết hợp với một phương pháp truy xuất khác, chẳng hạn như phương pháp đảo ngược, cho phép giới hạn phạm vi tìm kiếm

2.2.2 PHƯƠNG PHÁP DÙNG TẬP TIN KÝ SỐ

Cách tiếp cận bằng tập tin ký số đã thu hút nhiều sự quan tâm từ các nhà nghiên cứu Trong phương pháp này, từ mỗi tài liệu ta tạo tương ứng với nó một chuỗi bit, gọi là chữ ký, bằng phép băm trên các từ của nó và mã hóa Các chữ ký tạo ra từ tài liệu này lưu tuần tự trong một tập tin riêng, gọi là tập tin ký số, mà nó nhỏ hơn nhiều tập tin nguyên thủy, và có thể tìm kiếm nhanh hơn nhiều Files và Huskey [10] đã áp dụng phương pháp này trên một cơ sở dữ liệu các mục từ thư mục Họ dùng một danh sách ngăn chặn để loại bỏ các từ chung chung và một thủ tục tự động để thu giảm mỗi từ cụ thể thành các gốc từ của nó Họ cũng dùng một thủ tục xử lý số như là một hàm băm, thay vì dùng một bảng tra cứu Harrison [11] đã dùng cách tiếp cận tập tin ký số để tăng tốc việc kiểm tra chuỗi con Tác giả luận văn này đã đề nghị sử dụng các ký tự liên tiếp trong lược đồ "n-grams" như là biến đầu vào của hàm băm

Trang 34

Barton và đồng nghiệp năm 1974 [12] đề nghị sử dụng phân đoạn văn bản thường xuyên xảy ra như nhau thay vì dùng lược đồ "n-grams" Do vậy, sự phân phối của các giá trị "1" trong tập tin ký số là thống nhất nhau Phương pháp đề nghị bởi Tsichritzis và Christodoulakis [13] cố gắng dùng các tập tin ký số mà không đặt nặng việc dùng mã hóa Trong đó, chữ ký của tài liệu bao gồm phần nối kết của chữ ký từng từ Với cách này, thông tin vị trí bảo toàn Rabitti và Zizka [14] đã chứng tỏ rằng phương pháp này sẽ yêu cầu bộ xử lý tính toán nhiều hơn so với việc dùng mã hóa

Để kết luận việc thảo luận về cách tiếp dùng tập tin ký số, tác giả luận văn đề cập rằng điểm yếu lớn nhất của phương pháp này là thời gian đáp ứng chậm khi tập tin lớn Trong khi, các điểm mạnh là sự đơn giản khi hiện thực, tính hiệu quả khi xử lý các phép chèn thêm, khả năng giải quyết các câu truy vấn trên các phần của các từ, khả năng hỗ trợ một tập tin có nội dung thêm dần, khả năng dung lỗi, chấp nhận lỗi chính tả và lỗi gõ nhập sai Thêm vào đó, phương pháp này dễ dàng song song hóa, bạn xem thêm tài liệu [15] với một hiện thực của phương pháp

2.2.3 PHƯƠNG PHÁP ĐẢO NGƯỢC

Trong phương pháp này, ta biểu diễn mỗi tài liệu bằng một danh sách các từ khóa, mô tả mục lục nội dung của tài liệu nhằm mục đích trích dẫn nội dung Việc rút trích nội dung sẽ đạt nhanh nếu ta làm đảo ngược trên các từ khóa này Các từ khóa lưu lại, chẳng hạn theo vần a, b, c Trong một tập chỉ mục, với mỗi từ ta duy trì một danh sách các con trỏ đến các tài liệu thích hợp và lưu chúng trong tập tin

Trang 35

gồm các từ vựng niêm yết Thực tế là phương pháp này áp dụng bởi hầu hết tất cả hệ thống thương mại [16]

Các phương pháp phức tạp hơn có thể dùng để tổ chức các tập tin chỉ mục, như là: cây nhị phân, hàm băm, hay những biến đổi cải tiến và kết hợp của những cách này, chẳng hạn bạn xem [17] trang 471-542 Hệ thống STAIRS [18] sử dụng hai cấp độ cho tập tin chỉ mục Các từ bắt đầu với cụm chữ giống nhau đều lưu giữ cùng nhau trong cấp độ thứ hai Trong khi cấp độ thứ nhất chứa các con trỏ đến cấp độ thứ hai, mỗi con trỏ cho mỗi cụm chữ Lesk [19] sử dụng một bảng băm lớn với liên kết tách rời nhau, nhằm để đạt việc truy xuất nhanh trong một cơ sở dữ liệu của các mục từ thư mục

Nhược điểm của phương pháp này là đòi hỏi sự gia tăng của vùng nhớ lưu trữ, mà có thể đạt đến gấp 3 lần kích thước của tập tin gốc [20] Chi phí càng cao cho việc cập nhật và tổ chức lại hệ thống chỉ mục nếu như môi trường luôn biến động; và chi phí cao cho việc trộn các danh sách nếu như chúng có quá nhiều hay quá dài

Trong khi đó, ưu điểm của phương pháp này là phương pháp tương đối dễ để hiện thực Phương pháp này nhanh, và hỗ trợ các từ đồng nghĩa dễ dàng, chẳng hạn các từ đồng nghĩa có thể tổ chức thành chuỗi danh sách bên trong từ điển Chíng vì những lý do trên, phương pháp đảo ngược ứng dụng trong hầu hết các hệ thống thương mại, chẳng hạn DIALOG, BRS, MEDLARS, ORBIT, STAIRS

Đối với phương pháp này những phát triển và thách thức gần đây bao gồm:

 Tính lệch trong sự phân phối (luật Zipf) của các danh sách các từ vựng niêm yết Điều này có nghĩa là một số từ vựng

Trang 36

xuất hiện rất thường xuyên, trong khi phần đông các từ vựng xuất hiện chỉ một hay hai lần Để sửa vấn đề này, người ta đề nghị phương pháp lai, bạn xem thêm tài liệu [21], cũng như các giải thuật làm gia tăng các danh sách từ vựng niêm yết phù hợp, bạn xem thêm tài liệu [22]

 Một vấn đề là các chỉ mục có thể rất lớn, tăng lên vài megabyte hay cả gigabyte Trong khi bất kể kích thước của chúng, ta luôn muốn đạt việc chèn vào nhanh chóng Các kỹ thuật để đạt việc chèn vào nhanh điển hình là công trình của Tomasic và đồng nghiệp [23]; Cutting và Pedersen [24], Brown và đồng nghiệp [25] Những nỗ lực này chủ yếu tận dụng tính lệch của sự phân bố các danh sách từ vựng niêm yết, giải quyết các danh sách ngắn hơn là các danh sách dài Các phương pháp nén cũng đề nghị để quản lý vấn đề kích thước của chỉ mục như: Zobel và đồng nghiệp [26] sử dụng lược đồ nén của Elias [27] cho các danh sách từ vựng niêm yết Ngoài ra, một số phần mềm thực hiện tìm kiếm trên hệ thống tập tin như gói phần mềm tìm kiếm đại cương sử dụng một chỉ mục thô, bạn xem thêm tài liệu tham khảo [28], hay với gói phần mềm `agrep' bạn xem thêm tài liệu tham khảo [8] để tìm kiếm xấp xỉ

2.2.4 PHƯƠNG PHÁP DÙNG MÔ HÌNH VÉC TƠ VÀ GOM NHÓM

Ý tưởng cơ bản của việc gom nhóm là các tài liệu tương tự nhau gom lại thành một nhóm Lý do tiềm ẩn chính là giả thuyết của việc gom nhóm: các tài liệu liên kết chặt với nhau có khuynh hướng phù

Trang 37

hợp với cùng một yêu cầu, việc gom nhóm các tài liệu gia tăng tốc độ tìm kiếm Việc gom nhóm đã thu hút nhiều quan tâm trong công việc truy xuất thông tin và khoa học thư viện, cũng như trong việc nhận dạng các mẫu [29] Mặc dù trọng tâm của việc nhận dạng các mẫu không phải là gom nhóm tài liệu, nhưng trong gom nhóm tài liệu thường sử dụng các phương pháp và ý tưởng mà ta có thể ứng dụng trong hướng giải quyết của bài toán

Ta thấy rằng việc gom nhóm có thể áp dụng vào các cụm từ, thay vì các tài liệu Do vậy, các cụm từ có thể gom nhóm và thành lập các lớp cụm từ xuất hiện cùng nhau Các cụm từ xuất hiện cùng nhau thường tương hợp nhau và đôi khi là các từ đồng nghĩa Việc gom nhóm các cụm từ có ý nghĩa trong việc tạo tự động từ điển đồng nghĩa và trong việc thu giảm kích thước Việc xây dựng từ điển đồng nghĩa tự động thường dựa vào tiêu chí thống kê, và do vậy nó cũng đồng nhất về ý tưởng với các phương pháp gom nhóm tài liệu Tuy nhiên, Salton [30] chỉ ra rằng tính hữu hiệu của các giải thuật tự động gom nhóm các cụm từ còn chưa thuyết phục, và cũng khuyên dùng các phương pháp bán tự động

Việc gom nhóm các tài liệu liên quan hai thủ tục: phát sinh các nhóm và tìm kiếm trong các nhóm Đầu tiên ta thảo luận về các phương pháp tạo sinh các nhóm và xếp loại chúng Vấn đề tìm kiếm trong nhóm dễ hơn và trình bày sau đó

2.2.4.1 PHƯƠNG PHÁP TẠO SINH CÁC NHÓM

Thủ tục tạo sinh nhóm hoạt động trên một không gian véc tơ hay các điểm của một không gian đa chiều, chẳng hạn t chiều Mỗi tài liệu trình bày như một véc-tơ Tài liệu thông qua xử lý và một số từ

Trang 38

khoá gán cho nó Đây là thủ tục “đánh chỉ mục” và nó có thể thực hiện bằng thao tác hay tự động Sự so sánh thực hiện bởi Salton [31] cho thấy rằng các phương pháp đánh chỉ mục tự động đơn giản, thực hiện tốt chí ít cũng ngang bằng các phương pháp đánh bằng thao tác trong môi trường thí nghiệm

Thủ tục đánh chỉ mục tự động thường dùng các từ điển sau, bạn xem thêm tài liệu về hệ thống SMART của Salton [32] trang 117, 144-145:

 Từ điển phủ định dùng để loại bỏ các từ chung chung thường xuất hiện, ít có giá trị cú pháp, chẳng hạn 'and', 'the',

 Danh sách tiền tố và hậu tố để giúp thu giảm mỗi từ thành từ gốc của nó

 Từ điển các từ đồng nghĩa để giúp gán mỗi từ gốc vào một lớp khái niệm

Theo cách này mỗi tài liệu mô tả bằng một véc-tơ t chiều, mà t

là số các cụm từ chỉ mục tức các khái niệm có thể cho phép Sự thiếu vắng một cụm từ chỉ ra bởi giá trị 0 hay -1, bạn xem thêm tài liệu [33] Sự hiện diện của một cụm từ chỉ ra bởi 1, tức trường hợp các véc-tơ tài liệu là véc-tơ nhị phân Hay bằng một số dương biển diễn trọng số của cụm từ, mà nó phản ánh mức quan trọng của cụm từ trong tài liệu Một số hàm trọng số đề nghị, chẳng hạn: FREQik: mô tả tần suất xuất hiện của cụm từ k trong tài liệu i Do vậy, hàm này dễ xác định và hiệu quả hơn việc dùng trọng số nhị phân

Vấn đề với cách tiếp cận này là nó yêu cầu sự định giá trị thích hợp cho mỗi cụm từ xét trên tập hợp tất cả tài liệu, mà điều này đòi

Trang 39

hỏi kiến thức chuyên môn và cần nhiều thời gian Thủ tục ở trên dùng để miêu tả tài liệu như là các điểm trong một không gian t chiều Bước tiếp theo trong việc hình thành nhóm là phân đoạn các điểm này thành các nhóm Thủ tục gom nhóm lý tưởng phải đáp ứng hai yêu cầu: phải có tính đúng đắn trên cơ sở lý thuyết và hiệu quả Tiêu chí đúng đắn về lý thuyết là:

 Phương pháp phải bền vững dưới sự phát triển, chẳng hạn, việc phân nhóm không thay đổi trầm trọng khi thêm vào những tài liệu mới

 Nhừng lỗi nhỏ trong việc mô tả các các tài liệu phải dẫn đến những thay đổi nhỏ trong việc phân nhóm

 Phương pháp phải độc lập với thứ tự ban đầu của những tài liệu

Tiêu chí quan trọng nhất cho tính hiệu quả là thời gian cần thiết cho việc gom nhóm Yêu cầu không gian vùng nhớ thường bỏ qua trong việc phân tích hiệu suất của các phương pháp tạo sinh nhóm Nhiều phương pháp tạo sinh nhóm đã đề nghị, nhưng tiếc thay, không một phương pháp nào đáp ứng cả hai yêu cầu về tính đúng đắn và hiệu quả

Vì vậy ta có hai lớp phương pháp:

 Các phương pháp "đúng đắn" dựa vào ma trận đồng dạng giữa hai tài liệu, ứng dụng kỹ thuật lý thuyết đồ thị

 Các phương pháp "hiệu quả" thường là các phương pháp lặp và thực hiện trực tiếp từ các véc-tơ tài liệu, mà không cần tính toán trước ma trận đồng dạng

Trang 40

2.2.4.2 PHƯƠNG PHÁP TÌM KIẾM TRONG NHÓM

Phương pháp tìm kiếm trong một tập tin nhóm thì đơn giản hơn việc tạo sinh nhóm Câu truy vấn nhập vào biểu diễn thành một véc-tơ

t chiều, và nó so sánh với đặc trưng không gian các nhóm Quá trình tìm kiếm thực hiện từ các nhóm tương đồng nhất, chẳng hạn các nhóm có tính đồng dạng với véc-tơ truy vấn vượt qua một giá trị ngưỡng Một hàm tính toán sự giống nhau giữa nhóm và câu truy vấn phải chọn trước; sự chọn lựa thông thường là hàm côsin, bạn xem thêm tài liệu [32]

Yu và Luk [34] đề nghị một thay đổi với chiến lược tìm kiếm ở trên: cho một véc-tơ nhị phân mô tả câu truy vấn, và các véc-tơ nhị phân mô tả nhóm, họ rút ra một công thức tính số lượng tài liệu thoả mãn trong mỗi nhóm cụ thể Sau đó, họ đề nghị tiếp tục tìm kiếm trong các nhóm có đủ số lượng tài liệu thỏa mãn cần thiết Kết quả thí nghiệm của phương pháp của họ mô tả trong tài liệu [35], cho thấy rằng kết quả thực hiện phương pháp đề nghị này cũng giống như hàm

so sánh cô sin, trong khi hàm cô sin đơn giản hơn

2.3 CÁC PHƯƠNG PHÁP MANG NGUYÊN LÝ

MÔ HÌNH THÔNG TIN NGỮ NGHĨA

Các kỹ thuật rút trích thông tin tác giả luận văn vừa trình bày chỉ sử dụng một phần rất nhỏ thông tin của tài liệu như là cơ sở cho các quyết định về tính liên quan của tài liệu, bạn xem thêm tài liệu [36] Mặc dù sự giới hạn vốn có này, chúng thường đạt sự chính xác chấp nhận vì toàn văn của một tài liệu chứa một khối lượng đáng kể sự trùng lặp Tiếp sau đây, tác giả luận văn trình bày về các nghiên

Ngày đăng: 18/02/2021, 08:04

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w