1. Trang chủ
  2. » Luận Văn - Báo Cáo

hệ thống tìm kiếm thông tin trên kho tài liệu tiếng Việt

116 577 1
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 116
Dung lượng 1,51 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

hệ thống tìm kiếm thông tin trên kho tài liệu tiếng Việt

Trang 1

LỜI CẢM ƠN

Chúng em xin gởi lời cảm ơn chân thành nhất đến thầy Hồ Bảo Quốc, người

đã tận tình hướng dẫn, giúp đỡ chúng em trong suốt thời gian thực hiện luận vănnày

Chúng con cảm ơn Cha, Mẹ và gia đình, những người đã dạy dỗ, khuyếnkhích, động viên chúng con trong những lúc khó khăn, tạo mọi điều kiện cho chúngcon nghiên cứu học tập

Chúng em cảm ơn các thầy, cô trong khoa Công Nghệ Thông Tin đã dìu dắt,giảng dạy chúng em, giúp chúng em có những kiến thức quý báu trong những nămhọc qua

Cảm ơn chị Lê Thúy Ngọc và các bạn đã tận tình đóng góp ý kiến cho luậnvăn của chúng tôi

Mặc dù rất cố gắng nhưng luận văn của chúng em không tránh khỏi sai sót,mong nhận được sự thông cảm và góp ý của thầy cô và các bạn

Tháng 7 năm 2005 Sinh viên Nguyễn Thị Thanh Hà – Nguyễn Trung Hiếu

Trang 2

NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN

Ngày…… tháng……năm 2005

Ký tên

Trang 3

NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN

Ngày…… tháng……năm 2005

Ký tên

Trang 4

MỤC LỤC

DANH SÁCH CÁC BẢNG 7

DANH SÁCH CÁC HÌNH VẼ 7

Phần 1 : TÌM HIỂU LÝ THUYẾT 10

Chương 1: TỔNG QUAN VỀ TÌM KIẾM THÔNG TIN 10

1 Giới thiệu về tìm kiếm thông tin 10

1.1 Khái niệm về tìm kiếm thông tin 10

1.2 Một số vấn đề trong việc tìm kiếm thông tin: 10

2 Hệ tìm kiếm thông tin – IRS 11

3 Các thành phần của một hệ tìm kiếm thông tin [1.1] 12

4 So sánh IRS với các hệ thống thông tin khác 13

4.1 Hệ quản trị cơ sở dữ liệu (DBMS) 14

4.2 Hệ quản lý thông tin (IMS) 14

4.3 Hệ hỗ trợ ra quyết định (DSS) 15

4.4 Hệ trả lời câu hỏi (QAS) 15

4.5 So sánh IRS với các hệ thống thông tin khác 16

Chương 2: XÂY DỰNG MỘT HỆ THỐNG TÌM KIẾM THÔNG TIN 17

1 Kiến trúc của hệ tìm kiếm thông tin [1.3] 17

2 Một số mô hình để xây dựng một hệ tìm kiếm thông tin [1.2] 18

2.1 Mô hình không gian vector 18

2.2 Tìm kiếm Boolean 20

2.3 Tìm kiếm Boolean mở rộng 21

2.4 Mở rộng trong việc thêm vào trọng số của câu hỏi 22

2.4.1 Mở rộng cho số từ tuỳ ý 22

2.4.2 Thêm toán tử tự động 23

2.5 Mô hình xác suất 23

2.6 Đánh giá chung về các mô hình 24

3 Các bước để xây dựng một hệ tìm kiếm thông tin [3.2] 24

3.1 Tách từ tự động cho tập các tài liệu 24

3.2 Lập chỉ mục cho tài liệu 24

3.3 Tìm kiếm 25

3.4 Sắp xếp các tài liệu trả về (Ranking) 25

4 Những khó khăn trong việc xây dựng một hệ thống tìm kiếm thông tin tiếng Việt 25

4.1 Khó khăn trong việc tách từ tiếng Việt 26

4.2 Vấn đề bảng mã tiếng Việt 26

4.3 Các khó khăn khác 26

Chương 3: TÁCH TỪ TỰ ĐỘNG 28

Trang 5

2 Tách từ trong Tiếng Việt 28

2.1 Một số đặc điểm chính về từ tiếng Việt [2.2] 28

2.1.1 Tiếng 28

2.1.2 Từ 29

2.2 Tách từ tự động tiếng Việt 29

3 Các phương pháp tách từ tiếng Việt 30

3.1 fnTBL (Fast Transformation-based learning) [3.1] 30

3.1.1 Mô tả 30

3.1.2 Áp dụng tách từ tiếng Việt 31

3.2 Longest Matching [1.4] 36

3.3 Kết hợp giữa fnTBL và Longest Matching 36

Chương 4: LẬP CHỈ MỤC 37

1 Khái quát về hệ thống lập chỉ mục 37

2 Phương pháp lập chỉ mục [1.1] 37

2.1 Xác định các từ chỉ mục 37

2.2 Các phương pháp tính trọng số của từ 39

2.2.1 Tần số tài liệu nghịch đảo 39

2.2.2 Độ nhiễu tín hiệu (The Signal – Noise Ratio) 39

2.2.3 Giá trị phân biệt từ (The Term Discrimination Value) 41

2.3 Lập chỉ mục tự động cho tài liệu tiếng Anh 42

3 Lập chỉ mục cho tài liệu tiếng Việt 44

4 Tập tin nghịch đảo tài liệu 45

4.1 Phân biệt giữa tập tin nghịch đảo và tập tin trực tiếp 45

4.2 Tại sao sử dụng tập tin nghịch đảo để lập chỉ mục 46

Phần 2 : PHÂN TÍCH VÀ THIẾT KẾ 48

Chương 5: PHÂN TÍCH 48

1 Sơ đồ UseCase hệ thống 48

2 Sơ đồ Lớp 50

2.1 Sơ đồ các lớp thể hiện 50

2.2 Sơ đồ các lớp xử lý 51

3 Tách từ 52

3.1 Sơ đồ UseCase 52

3.2 Sơ đồ Tuần tự 52

3.3 Sơ đồ Cộng tác 53

3.4 Sơ đồ Lớp 53

4 Lập chỉ mục 54

4.1 Sơ đồ UseCase 54

4.2 Sơ đồ Tuần tự 55

4.2.1 Tạo mới chỉ mục 55

4.2.2 Cập nhật chỉ mục 56

Trang 6

4.3.1 Tạo mới chỉ mục 57

4.3.2 Cập nhật chỉ mục 58

4.4 Sơ đồ Lớp 59

5 Tìm kiếm 60

5.1 Sơ đồ UseCase 60

5.2 Sơ đồ Tuần tự 60

5.3 Sơ đồ Cộng tác 61

5.4 Sơ đồ Lớp 62

Chương 6: THIẾT KẾ VÀ CÀI ĐẶT 63

1 Cấu trúc lưu trữ dữ liệu 63

1.1 Tập tin lưu nội dung tài liệu 63

1.1.1 Cấu trúc DTD / XSD 63

1.1.2 Tài liệu XML 65

1.2 Tập tin sau khi tách từ tài liệu 66

1.2.1 Cấu trúc DTD / XSD 66

1.2.2 Tài liệu XML 67

1.3 Tập tin chứa các từ không thể hiện nội dung của văn bản (stop list) 69

1.3.1 Cấu trúc DTD / XSD 69

1.3.2 Tài liệu XML 70

1.4 Tập tin chỉ mục đảo ( Inverted ) 70

1.4.1 Cấu trúc DTD / XSD 70

1.4.2 Tài liệu XML 72

1.5 Tập tin sau khi tách từ câu hỏi 73

1.5.1 Cấu trúc DTD / XSD 73

1.5.2 Tài liệu XML 74

1.6 Tập tin chứa các từ của câu hỏi sau khi loại bỏ các từ trong danh sách StopList 75

1.6.1 Cấu trúc DTD / XSD 75

1.6.2 Tài liệu XML 76

1.7 Tập tin chứa các từ trong câu hỏi và các tài liệu liên quan 76

1.7.1 Cấu trúc DTD / XSD 76

1.7.2 Tài liệu XML 78

1.8 Tập tin chứa độ tương quan giữa câu hỏi và các tài liệu 79

1.8.1 Cấu trúc DTD / XSD 79

1.8.2 Tài liệu XML 81

2 Chi tiết các lớp đối tượng 82

2.1 Các lớp trong quá trình tách từ 82

2.1.1 Sơ đồ các lớp 82

2.1.2 Lớp tách từ ghép 82

2.1.3 Lớp tách từ 85

2.1.4 Lớp giao diện tách từ 88

2.2 Các lớp trong quá trình lập chỉ mục 90

Trang 7

2.2.2 Lớp lập chỉ mục 91

2.2.3 Lớp giao diện tạo mới chỉ mục 93

2.2.4 Lớp giao diện cập nhật chỉ mục 95

2.3 Các lớp trong quá trình tìm kiếm 97

2.3.1 Sơ đồ các lớp 97

2.3.2 Lớp tìm kiếm 98

2.3.3 Lớp giao diện tìm kiếm 104

3 Một số màn hình giao diện khác 108

3.1 Màn hình chính của chương trình 108

3.2 Màn hình tìm kiếm nhiều câu hỏi 109

3.3 Màn hình tìm kiếm chính ( giao diện Web) 111

3.4 Màn hình trả về các tài liệu tìm được ( giao diện Web) 112

3.5 Màn hình chi tiết của một tài liệu ( giao diện Web) 113

Phần 3 : TỔNG KẾT 114

1 Chương trình thử nghiệm 114

2 Đánh giá kết quả đạt được 114

3 Hướng phát triển 115

TÀI LIỆU THAM KHẢO 116

1 Sách 116

2 Luận văn 116

3 Website 116

DANH SÁCH CÁC BẢNG Bảng 1-1 So sánh IRS với các hệ thống thông tin khác 16

Bảng 4-1 Cách tập tin nghịch đảo lưu trữ 46

Bảng 4-2 Cách tập tin trực tiếp lưu trữ 46

Bảng 4-3 Thêm một tài liệu mới vào tập tin nghịch đảo 47

Bảng 5-1 Danh sách các Actor 49

Bảng 5-2 Danh sách các UseCase 49

DANH SÁCH CÁC HÌNH VẼ Hình 1-1 Môi trường của hệ tìm kiếm thông tin 12

Hình 1-2 Tổng quan về chức năng của một hệ tìm kiếm thông tin 13

Hình 2-1 Hệ tìm kiếm thông tin tiêu biểu 17

Hình 3-1 Quá trình học 34

Hình 3-2 Giai đoạn xác định từ cho tài liệu mới 35

Hình 4-1 Các từ được sắp theo thứ tự 38

Hình 4-2 Quá trình chọn từ làm chỉ mục 44

Trang 8

Hình 5-2 Sơ đồ các lớp thể hiện 50

Hình 5-3 Sơ đồ các lớp xử lý 51

Hình 5-4 Sơ đồ Use-case tách từ 52

Hình 5-5 Sơ đồ tuần tự tách từ 52

Hình 5-6 Sơ đồ cộng tác tách từ 53

Hình 5-7 Sơ đồ lớp tách từ 53

Hình 5-8 Sơ đồ use-case lập chỉ mục 54

Hình 5-9 Sơ đồ tuần tự tạo mới chỉ mục 55

Hình 5-10 Sơ đồ tuần tự cập nhật chỉ mục 56

Hình 5-11 Sơ đồ cộng tác tạo mới chỉ mục 57

Hình 5-12 Sơ đồ cộng tác cập nhật chỉ mục 58

Hình 5-13 Sơ đồ lớp lập chỉ mục 59

Hình 5-14 Sơ đồ use-case tìm kiếm 60

Hình 5-15 Sơ đồ tuần tự tìm kiếm 60

Hình 5-16 Sơ đồ cộng tác tìm kiếm 61

Hình 5-17 Sơ đồ lớp tìm kiếm 62

Hình 6-1 Sơ đồ lớp tách từ 82

Hình 6-2 Lớp tách từ ghép 82

Hình 6-3 Lớp tách từ 85

Hình 6-4 Lớp giao diện tách từ 88

Hình 6-5 Màn hình tách từ 88

Hình 6-6 Màn hình chi tiết tách từ 89

Hình 6-7 Sơ đồ lớp lập chỉ mục 90

Hình 6-8 Lớp lập chỉ mục 91

Hình 6-9 Lớp giao diện tạo mới chỉ mục 93

Hình 6-10 Màn hình tạo mới chỉ mục 94

Hình 6-11 Lớp Màn hình cập nhật chỉ mục 95

Hình 6-12 Màn hình cập nhật chỉ mục 96

Hình 6-13 Sơ đồ lớp tìm kiếm 97

Hình 6-14 Lớp xử lý tìm kiếm 98

Hình 6-15 Lớp giao diện tìm kiếm 104

Hình 6-16 Màn hình tìm kiếm 105

Hình 6-17 Xem từ khóa câu hỏi 105

Hình 6-18 Xem từ khóa tài liệu 106

Hình 6-19 Màn hình chính 108

Hình 6-20 Màn hình tìm kiếm nhiều câu hỏi 109

Hình 6-21 Giao diện tìm kiếm trên Web 111

Hình 6-22 Giao diện các tài liệu trả về sau khi tìm kiếm 112

Hình 6-23 Giao diện chi tiết nội dung của tài liệu 113

Trang 9

MỞ ĐẦU

Trong thời đại bùng nổ thông tin như hiện nay, thông tin được lưu trữ trênmáy tính ngày càng nhiều do đó việc tìm kiếm thông tin chính xác là nhu cầu thiếtyếu đối với mọi người trong mọi lĩnh vực Internet hiện nay đă trở thành một kho tưliệu khổng lồ mà việc tìm kiếm thông tin trên kho tư liệu này cần phải được hỗ trợbởi các công cụ tìm kiếm (search engine) tốt Các hệ thống tìm kiếm thông tin thôngdụng như Google, Yahoo Search đã đáp ứng được phần nào nhu cầu đó của mọingười Tuy nhiên, các hệ thống này được xây dựng để xử lý và tìm kíếm các vănbản tiếng Châu Âu, chúng chưa thật sự phù hợp cho các văn bản tiếng Việt Do đónhu cầu phải có một công cụ tìm kiếm “hiểu” và xử lý tốt các văn bản tíếng Việt

Các hệ tìm kiếm thông tin đều phải thực hiện giai đoạn lập chỉ mục(indexing) cho văn bản để trích các từ chỉ mục (index term) biểu diễn tốt nhất nộidung của văn bản Giai đoạn này phụ thuộc vào ngôn ngữ của văn bản và phươngpháp xử lý tự động ngôn ngữ đó Hiện nay chưa có nhiều hệ thống tìm kiếm thôngtin trên kho tài liệu tiếng Việt có khai thác các đặc trưng của tiếng Việt cho việc lậpchỉ mục

Vì vậy mục tiêu của luận văn này nhằm xây dựng một hệ thống tìm kiếmthông tin bằng tiếng Việt có sử dụng các kết quả của xử lý ngôn ngữ tự nhiên tựđộng để xác định được các chỉ mục là các từ (word) hay từ ghép (compound word)của tiếng Việt

Trang 10

Phần 1 : TÌM HIỂU LÝ THUYẾT

Chương 1: TỔNG QUAN VỀ TÌM KIẾM THÔNG TIN

1 Giới thiệu về tìm kiếm thông tin

1.1 Khái niệm về tìm kiếm thông tin

Tìm kiếm thông tin là tìm kiếm trong một tập tài liệu để lấy ra các thông tin màngười tìm kiếm quan tâm

1.2 Một số vấn đề trong việc tìm kiếm thông tin:

Kể từ những năm 40, các vấn đề trong việc lưu trữ thông tin và tìm kiếm thôngtin đã thu hút sự chú ý rất lớn Với một lượng thông tin khổng lồ thì việc tìm kiếmchính xác và nhanh chóng càng trở nên khó khăn hơn Với sự ra đời của máy tính, rấtnhiều ý tưởng lớn được đưa ra nhằm cung cấp một hệ thống tìm kiếm thông minh vàchính xác Tuy nhiên, vấn đề tìm kiếm sao cho hiệu quả vẫn chưa được giải quyết

Về nguyên tắc, việc lưu trữ thông tin và tìm kiếm thông tin thì đơn giản Giả sử

có một kho chứa các tài liệu và một người muốn tìm các tài liệu liên quan đến yêu cầucủa mình Người đó có thể đọc tất cả các tài liệu trong kho, giữ lại các tài liệu liên quan

và bỏ đi các tài liệu không liên quan Rõ ràng giải pháp này không thực tế bởi vì tốn rấtnhiều thời gian

Với sự ra đời của máy vi tính tốc độ cao, máy tính có thể “đọc” thay cho con

Trang 11

lúc này là làm sao để xác định được tài liệu nào liên quan đến câu hỏi Mục đích củamột hệ thống tìm kiếm thông tin tự động là truy lục được tất cả các tài liệu có liên quanđến yêu cầu.

2 Hệ tìm kiếm thông tin – IRS

Sau đây là định nghĩa về hệ thống tìm kiếm thông tin của một số tác giả: [2.1]

Salton (1989):

“Hệ thống tìm kiếm thông tin xử lý các tập tin lưu trữ và những yêu cầu vềthông tin, xác định và tìm từ các tập tin những thông tin phù hợp với những yêu cầu vềthông tin Việc truy tìm những thông tin đặc thù phụ thuộc vào sự tương tự giữa cácthông tin được lưu trữ và các yêu cầu, được đánh giá bằng cách so sánh các giá trị củacác thuộc tính đối với thông tin được lưu trữ và các yêu cầu về thông tin.”

Kowalski (1997) :

“Hệ thống truy tìm thông tin là một hệ thống có khả năng lưu trữ, truy tìm vàduy trì thông tin Thông tin trong những trường hợp này có thể bao gồm văn bản, hìnhảnh, âm thanh, video và những đối tượng đa phương tiện khác.”

Hiểu đơn giản hệ thống tìm kiếm thông tin là một hệ thống hỗ trợ cho người

sử dụng tìm kiếm thông tin một cách nhanh chóng và dễ dàng Người sử dụng có

thể đưa vào những câu hỏi, những yêu cầu (dạng ngôn ngữ tự nhiên) và hệ thống sẽ tìmkiếm trong tập các tài liệu (dạng ngôn ngữ tự nhiên) đã được lưu trữ để tìm ra nhữngtài liệu có liên quan, sau đó sẽ sắp xếp các tài liệu theo mức độ liên quan giảm dần vàtrả về cho người sử dụng

Trang 12

3 Các thành phần của một hệ tìm kiếm thông tin [1.1]

Gồm: tập các tài liệu (DOCS) đã được lưu trữ trong kho dữ liệu, tập các yêu cầu(REQS) của người dùng, và một số phương pháp tính độ tương quan (SIMILAR) đểxác định các tài liệu đáp ứng cho các yêu cầu

Hình 1-1 Môi trường của hệ tìm kiếm thông tin

Theo lý thuyết thì mối liên hệ giữa các câu hỏi và các tài liệu có thể so sánh mộtcách trực tiếp Nhưng trên thực tế thì điều này không thể được vì các câu hỏi và các tậptài liệu đều ở dạng văn bản, chỉ có con người đọc vào thì thấy ngay được mối liên hệgiữa chúng, nhưng ở đây chỉ là một hệ thống máy móc không thể suy luận như conngười được Chính vì thế để xác định được mối liên hệ giữa các câu hỏi và các tập tàiliệu phải qua một bước trung gian

Trang 13

Hình 1-2 Tổng quan về chức năng của một hệ tìm kiếm thông tin

Trước hết chuyển đổi các câu hỏi thành các từ riêng biệt đủ để biểu hiện cho nộidung của câu hỏi gọi là ngôn ngữ chỉ mục (Indexing language - LANG) Tách từ trongcác tập tài liệu và lập chỉ mục cho tài liệu Lúc này có thể so sánh trực tiếp giữa các từcủa câu hỏi và các từ chỉ mục của tập tài liệu Và từ đó ta sẽ dễ dàng hơn để xác định

độ tương quan giữa các câu hỏi và tập tài liệu

4 So sánh IRS với các hệ thống thông tin khác

Hệ thống tìm kiếm thông tin cũng tương tự như nhiều hệ thống xử lý thông tinkhác Hiện nay các hệ thống thông tin quan trọng nhất là: hệ quản trị cơ sở dữ liệu(DBMS), hệ quản lý thông tin (MIS), hệ hỗ trợ ra quyết định (DSS), hệ trả lời câu hỏi(QAS) và hệ tìm kiếm thông tin (IR)

Trang 14

4.1 Hệ quản trị cơ sở dữ liệu (DBMS)

Bất cứ hệ thống thông tin tự động nào cũng dựa trên một tập các mục được lưu

trữ (gọi là cơ sở dữ liệu) cần thiết cho việc truy cập Do đó hệ quản trị cơ sở dữ liệu

đơn giản là một hệ thống được thiết kế nhằm thao tác và duy trì điều khiển cơ sở dữliệu

DBMS tổ chức lưu trữ các dữ liệu của mình dưới dạng các bảng Mỗi một cơ sở

dữ liệu được lưu trữ thành nhiều bảng khác nhau Mỗi một cột trong bảng là một thuộctính, và mỗi một dòng là một bộ dữ liệu cụ thể Trong mỗi một bảng có một thuộc tínhduy nhất đại diện cho bảng, nó không được trùng lắp và ta gọi đó là khoá chính Cácbảng có mối liên hệ với nhau thông qua các khoá ngoại DBMS có một tập các lệnh để

hỗ trợ cho người sử dụng truy vấn đến dữ liệu của mình Vì vậy muốn truy vấn đếnCSDL trong DBMS ta phải học hết các tập lệnh này Nhưng ngược lại nó sẽ cung cấpcho ta các dữ liệu đầy đủ và hoàn toàn chính xác Hiện nay DBMS được sử dụng rộngrãi trên thế giới Một số DBMS thông dụng : Access, SQL Server, Oracle

4.2 Hệ quản lý thông tin (IMS)

Hệ quản lý thông tin là hệ quản trị cơ sở dữ liệu nhưng có thêm nhiều chứcnhưng về việc quản lý Những chức năng quản lý này phụ thuộc vào giá trị của nhiềukiểu dữ liệu khác nhau Nói chung bất kỳ hệ thống nào có mục đích đặc biệt phục vụcho việc quản lý thì ta gọi nó là hệ quản lý thông tin

4.3 Hệ hỗ trợ ra quyết định (DSS)

Hệ hỗ trợ ra quyết định sẽ dựa vào các tập luật được học, từ những luật đã họcrút ra những luật mới, sau khi gặp một vấn đề nó sẽ căn cứ vào vào tập các luật để đưa

Trang 15

Hệ thống này đang được áp dụng nhiều cho công việc nhận dạng và chuẩn đoánbệnh.

4.4 Hệ trả lời câu hỏi (QAS)

Hệ trả lời câu hỏi cung cấp việc truy cập đến các thông tin bằng ngôn ngữ tựnhiên Việc lưu trữ cơ sở dữ liệu thường bao gồm một số lượng lớn các vấn đề liênquan đến các lĩnh vực riêng biệt và các kiến thức tổng quát Câu hỏi của người dùng cóthể ở dạng ngôn ngữ tự nhiên Công việc của hệ trả lời câu hỏi là phân tích câu truyvấn của người dùng, so sánh với các tri thức được lưu trữ, và tập hợp các vấn đề có liênquan lại để đưa ra câu trả lời thích hợp

Tuy nhiên, hệ trả lời câu hỏi chỉ còn đang thử nghiệm Việc xác định ý nghĩacủa ngôn ngữ tự nhiên dường như vẫn là chướng ngại lớn để có thể sử dụng rộng rãi hệthống này

4.5 So sánh IRS với các hệ thống thông tin khác

IRS DBMS QAS MIS

trong các tài liệu

Các phần tử

có kiểu dữ liệu đã được

Các sự kiện

rõ ràng

Giống DBMSnhưng hỗ trợ thêm những

Trang 16

định nghĩa.

thủ tục( Tính tổng, tính trung bình, phép chiếu…)

Lưu trữ

Các văn bản ngôn ngữ tự nhiên

Các phần tử

dữ liệu ở dạng bảng

Các sự kiện

rõ ràng và cáckiến thức tổng quát

Xử lý

Các câu truy vấn không chính xác

Các câu truy vấn có cấu trúc

Các câu truy vấn không giới hạn

Bảng 1-1 So sánh IRS với các hệ thống thông tin khác

Chương 2: XÂY DỰNG MỘT HỆ THỐNG TÌM KIẾM

THÔNG TIN

1 Kiến trúc của hệ tìm kiếm thông tin [1.3]

Một hệ thống thông tin tiêu biểu như sau:

Trang 17

Hình 2-3 Hệ tìm kiếm thông tin tiêu biểu

Hệ thống tìm kiếm thông tin gồm có 3 bộ phận chính : bộ phận phân tích văn bản, bộ phận lập chỉ mục, bộ phận so khớp và sắp xếp các tài liệu trả về

(1) Bộ phận phân tích văn bản: bộ phận này có nhiệm vụ phân tích các văn

bản thu thập được thành các từ riêng biệt Tương tự, khi người dùng nhập câu truy vấnthì câu truy vấn cũng được phân tích thành các từ riêng biệt

(2) Bộ phận lập chỉ mục : các từ trích được từ các văn bản thu thập được sẽ

được bộ phận này lựa chọn để làm các từ chỉ mục Các từ chỉ mục phải là các từ thểhiện được nội dung của văn bản

(3) Bộ phận so khớp và sắp xếp các tài liệu trả về: Các từ trích được từ câu

Trang 18

liên quan đến câu truy vấn Mỗi tài liệu có một độ tương quan với câu hỏi Các tài liệunày sẽ được sắp xếp theo độ tương quan giảm dần và trả về cho người sử dụng.

2 Một số mô hình để xây dựng một hệ tìm kiếm thông tin [1.2]

Mục tiêu của các hệ thống tìm kiếm thông tin là trả về các tài liệu càng liên quanđến câu hỏi càng tốt Vì thế người ta đã đưa ra rất nhiều mô hình tìm kiếm nhằm tínhtoán một cách chính xác độ tương quan này Sau đây là một số mô hình tìm kiếm cơbản:

2.1 Mô hình không gian vector

Mô hình không gian vector tính toán độ tương quan giữa câu hỏi và tài liệu bằngcách định nghĩa một vector biễu diễn cho mỗi tài liệu, và một vector biểu diễn cho câuhỏi [ Salton, 1875] Mô hình dựa trên ý tưởng chính là ý nghĩa của một tài liệu thì phụthuộc vào các từ được sử dụng bên trong nó Vector tài liệu và vector câu hỏi sau đó sẽđược tính toán để xác định độ tương quan giữa chúng Độ tương quan càng lớn chứng

tỏ tài liệu đó càng liên quan đến câu hỏi

Giả sử một tập tài liệu chỉ gồm có hai từ là t1 và t2 Vector xây dựng được sẽgồm có 2 thành phần: thành phần thứ nhất biểu diễn sự xuất hiện của t1, và thành phầnthứ hai biểu diễn cho sự xuất hiện của t2 Cách đơn giản nhất để xây dựng vector làđánh 1 vào thành phần tương ứng nếu từ đó xuất hiện, và đánh 0 nếu từ đó không xuấthiện Giả sử tài liệu chỉ gồm có 2 từ t1 Ta biểu diễn cho tài liệu này bởi vector nhị phânnhư sau: <1,0> Tuy nhiên, biểu diễn như vậy không cho thấy được tần số xuất hiện củamỗi từ trong tài liệu Trong trường hợp này, vector nên được biễu diễn như sau: <2,0>

Đối với một câu hỏi đã cho, thay vì chỉ căn cứ so sánh các từ trong tài liệu với

Trang 19

là một từ xuất hiện tập trung trong một số tài liệu thì có trọng số cao hơn so với một từphân bố trong nhiều tài liệu Trọng số được tính dựa trên tần số tài liệu nghịch đảo(Inverse Document Frequency) liên quan đến các từ được cho:

n: số từ phân biệt trong tập tài liệu

tfij : số lần xuất hiện của từ tj trong tài liệu Di (tần số)

dfj : số tài liệu có chứa từ tj

idfj = log10

j

d

df trong đó d là tổng số tài liệu

Vector được xây dựng cho mỗi tài liệu gồm có n thành phần, mỗi thành phần làgiá trị trọng số đã được tính toán cho mỗi từ trong tập tài liệu Các từ trong tài liệuđược gán trọng số tự động dựa vào tần số xuất hiện của chúng trong tập tài liệu và sựxuất hiện của mỗi từ trong một tài liệu riêng biệt Trọng số của một từ tăng nếu từ đóxuất hiện thường xuyên trong một tài liệu và giảm nếu từ đó xuất hiện thường xuyêntrong tất cả các tài liệu Để tính trọng số của từ thứ tj trong tài liệu Di, dựa vào côngthức:

dij = tfij * idfj

dij : là trọng số của từ tj trong tài liệu Di

Đối với hệ thống tìm kiếm thông tin theo mô hình vector, mỗi tài liệu là mộtvector có dạng : Di(di1, di2 , …, din ) Tương tự, câu truy vấn Q cũng là một vector códạng : Q(wq1, wq2, …, wqn)

wqj : là trọng số của từ tj trong câu truy vấn Q

Trang 20

Độ tương quan (SC: similarity coeficient) giữa câu truy vấn Q và tài liệu Di

được tính như sau:

1

w *

n qj j

Do các từ hoặc xuất hiện hoặc là không xuất hiện, nên trọng số w ij e {0,1}

Giả sử đưa vào một câu hỏi dạng biểu thức Boolean như sau: t1 and t2 Sau khi tìmkiếm ta xác định được các tài liệu liên quan đến t1 là { d1, d3, d5} và các tài liệu liênquan đến t2 là {d3, d5, d7} Như vậy với phép and, các tài liệu thỏa yêu cầu của ngườidùng là {d3, d5} Phương pháp này có một số khuyết điểm như sau:

khó khăn cho người dùng

Trang 21

2.3 Tìm kiếm Boolean mở rộng

Mô hình tìm kiếm Boolean không hỗ trợ việc sắp xếp kết quả trả về bởi vì cáctài liệu hoặc thỏa hoặc không thỏa yêu cầu Boolean Tất cả các tài liệu thỏa mãn đềuđược trả về, nhưng không có sự ước lượng nào được tính toán cho sự liên quan củachúng đối với câu hỏi

Mô hình tìm kiếm Boolean mở rộng ra đời nhằm hỗ trợ việc sắp xếp (ranking)kết quả trả về dựa trên ý tưởng cơ bản là đánh trọng số cho mỗi từ trong câu hỏi vàtrong tài liệu Giả sử một câu hỏi yêu cầu (t1 OR t2) và một tài liệu D có chứa t1 vớitrọng số w1 và t2 với trọng số w2 Nếu w1 và w2 đều bằng 1 thì tài liệu nào có chứa cảhai từ này sẽ có thứ tự sắp xếp cao nhất Tài liệu nào không chứa một trong hai từ này

sẽ có thứ tự sắp xếp thấp nhất Ý tưởng đơn giản là tính khoảng cách Eclide từ điểm(w1, w2) tới gốc:

Trang 22

Công thức này giả sử là câu hỏi chỉ có toán tử OR Đối với toán tử AND, thay

vì tính khoảng cách tới gốc, ta sẽ tính khoảng cách đến điểm (1,1) Câu hỏi nào cànggần đến điểm (1,1) thì nó càng thoả yêu cầu của toán tử AND:

2.4 Mở rộng trong việc thêm vào trọng số của câu hỏi

Nếu câu hỏi có trọng số là q1 và q2 thì độ tương quan sẽ được tính như sau:

Độ tương quan SC tổng quát như sau:

Trang 23

Nếu p   : chuyển về hệ thống Boolean thông thường (không có trọng số)Nếu p = 1 : chuyển về hệ thống không gian vector

là đầu mối để xác định tài liệu liên quan Ý tưởng chính là tính xác suất của mỗi từtrong câu hỏi và sau đó sử dụng chúng để tính xác suất mà tài liệu liên quan đến câuhỏi

2.6 Đánh giá chung về các mô hình

như đã trình bày nó còn rất nhiều khuyết điểm

làm tốt hơn mô hình xác suất

Luận văn của chúng em sử dụng mô hình không gian vector để xây dựng một

Trang 24

3 Các bước để xây dựng một hệ tìm kiếm thông tin [3.2]

3.1 Tách từ tự động cho tập các tài liệu

Đối với tiếng Anh, ta tách từ dựa vào khoảng trắng Tuy nhiên đối với tiếngViệt, giai đoạn này tương đối khó khăn Cấu trúc tiếng Việt rất phức tạp, không chỉ đơnthuần dựa vào khoảng trắng để tách từ Hiện nay có rất nhiều công cụ dùng để tách từtiếng Việt, mỗi phương pháp có ưu, khuyết điểm riêng Các phương pháp này sẽ đượctrình bày chi tiết hơn ở chương III : Tách từ tự động

3.2 Lập chỉ mục cho tài liệu

Sau khi có được tập các từ đã được trích, ta sẽ chọn các từ để làm từ chỉ mục.Tuy nhiên, không phải từ nào cũng được chọn làm từ chỉ mục Các từ có khả năng đại

diện cho tài liệu sẽ được chọn, các từ này được gọi là key word, do đó trước khi lập chỉ

mục sẽ là giai đoạn tiền xử lý đối với các từ trích được để chọn ra các key word thíchhợp Ta sẽ loại bỏ danh sách các từ ít có khả năng đại diện cho nội dung văn bản dựavào danh sách gọi là stop list Đối với tiếng Anh hay tiếng Việt đều có danh sách stoplist Chi tiết về quá trình lập chỉ mục sẽ được mô tả ở chương IV: Lập chỉ mục

3.3 Tìm kiếm

Người dùng nhập câu hỏi và yêu cầu tìm kiếm, câu hỏi mà người dùng nhập vàocũng sẽ được xử lý, nghĩa là ta sẽ tách từ cho câu hỏi Phương pháp tách từ cho câu hỏicũng nên là phương pháp tách từ cho các tài liệu thu thập được để đảm bảo sự tươngthích Sau đó, hệ thống sẽ tìm kiếm trong tập tin chỉ mục để xác định các tài liệu liênquan đến câu hỏi của người dùng

Trang 25

3.4 Sắp xếp các tài liệu trả về (Ranking)

Các tài liệu sau khi đã xác định là liên quan đến câu hỏi của người dùng sẽ đượcsắp xếp lại, bởi vì trong các tài liệu đó có những tài liệu liên quan đến câu hỏi nhiềuhơn Hệ thống sẽ dựa vào một số phương pháp để xác định tài liệu nào liên quan nhiềunhất, sắp xếp lại (ranking) và trả về cho người dùng theo thứ tự ưu tiên

4 Những khó khăn trong việc xây dựng một hệ thống tìm kiếm

thông tin tiếng Việt

Hiện nay, chúng ta đã quen thuộc với rất nhiều công cụ hỗ trợ việc tìm kiếmthông tin như Google, Yahoo Search, AltaVista, … Tuy nhiên, đây là các công cụ của

người nước ngoài nên chúng chỉ giải quyết tốt đối với các yêu cầu của họ Chúng ta

cũng có một số công cụ hỗ trợ tìm kiếm thông tin tiếng Việt như: Vinaseek, NetNam,

…Các công cụ này cũng tách từ chủ yếu dựa vào khoảng trắng nên việc tìm kiếm cũngchưa được cải thiện Nhìn chung, để xây dựng một hệ thống tìm kiếm thông tin tiếngViệt, chúng ta gặp khó khăn trong việc tách từ tiếng Việt và xác định bảng mã tiếngViệt

4.1 Khó khăn trong việc tách từ tiếng Việt

Có thể nói tách từ là giai đoạn khó khăn nhất khi xây dựng một hệ tìm kiếmthông tin tiếng Việt Đối với tiếng Anh, việc xác định từ chỉ đơn giản dựa vào khoảngtrắng để tách từ Ví dụ, câu: “I am a student” sẽ được tách thành 4 từ : I, am, a, student.Tuy nhiên, đối với tiếng Việt, tách dựa vào khoảng trắng chỉ thu được các tiếng Từ cóthể được ghép từ một hay nhiều tiếng Từ phải có ý nghĩa hoàn chỉnh và có cấu tạo ổnđịnh Câu: “Tôi là một sinh viên” được tách thành 4 từ: Tôi, là, một, sinh viên Trong

Trang 26

Hiện nay, có rất nhiều phương pháp được sử dụng để tách từ tiếng Việt Tuynhiên, với sự phức tạp của ngữ pháp tiếng Việt nên chưa có phương pháp nào đạt đượcchính xác 100% Và việc lựa chọn phương pháp nào là tốt nhất cũng đang là vấn đềtranh cãi.

4.2 Vấn đề bảng mã tiếng Việt

Không như tiếng Anh, tiếng Việt có rất nhiều bảng mã đòi hỏi phải xử lý Một

số công cụ tìm kiếm tiếng Việt hỗ trợ bảng mã rất tốt như Vinaseek, hỗ trợ mọi bảng

mã (VNI, TCVN3, ViQR,…)

4.3 Các khó khăn khác

hỗ trợ việc xác định các từ đồng nghĩa Vì vậy, kết quả trả về sẽ không đầy đủ

có chứa các từ đã được tách trong câu hỏi mà không cần xác định chúng có thực

sự liên quan hay không Vì vậy, kết quả trả về sẽ không chính xác

 Một số từ xuất hiện rất nhiều nhưng không có ý nghĩa trong tài liệu Các từ như:

và, với, nhưng,… có tần số xuất hiện rất lớn trong bất cứ văn bản nào Nếu tìmcách trả về các tài liệu có chứa những từ này sẽ thu được kết quả vô ích, khôngcần thiết Do đó, chúng ta cần tìm cách loại bỏ các từ này trước khi tìm kiếm

Trang 27

Chương 3: TÁCH TỪ TỰ ĐỘNG

Trước khi lập chỉ mục là giai đoạn tách từ cho các tài liệu, đây là công việc quantrọng trong một hệ thống tìm kiếm thông tin Đối với tiếng Anh chỉ đơn giản dựa vàokhoảng trắng để tách từ Nhưng đối với tiếng Việt không thể dựa vào khoảng trắngđược vì tiếng Việt là ngôn ngữ đơn lập

Hiện nay, có rất nhiều phương pháp được đề xuất để tách từ cho tiếng Việt,nhưng vẫn chưa thống nhất là phương pháp nào tốt nhất Chương này sẽ trình bày chitiết về một số phương pháp tách từ

1 Tách từ trong Tiếng Anh

Do đặc điểm ngữ pháp của tiếng Anh, tách từ chỉ đơn giản dựa vào khoảngtrắng để phân biệt từ

2 Tách từ trong Tiếng Việt

2.1 Một số đặc điểm chính về từ tiếng Việt [2.2]

2.1.1 Tiếng

Về mặt ngữ âm, tiếng là âm tiết Âm tiết bao gồm những đơn vị ở bậc thấp hơn gọi

là âm vị Mỗi âm vị được ghi bằng một ký tự gọi là chữ

Trang 28

Về mặt ngữ nghĩa, tiếng là đơn vị nhỏ nhất có nghĩa, nhưng cũng có một số tiếngkhông có nghĩa.

Về giá trị ngữ pháp, tiếng là đơn vị cấu tạo từ Sử dụng tiếng để tạo thành từ, ta cóhai trường hợp như sau:

 Từ một tiếng: gọi là từ đơn Trường hợp này một từ chỉ có một tiếng Ví dụ như:ông, bà, …

nhiều tiếng trở lên Ví dụ như: xã hội, an ninh, hợp tác xã,…

2.1.2 Từ

Từ là đơn vị nhỏ nhất để tạo thành câu Trong đặt câu, chúng ta dùng từ chứkhông dùng tiếng

2.2 Tách từ tự động tiếng Việt

Tách từ tự động tiếng Việt dựa trên một số phương pháp có sẵn Sau đây chúng

ta sẽ nghiên cứu một số phương pháp được sử dụng để tách từ cho các văn bản tiếngViệt

Trang 29

3 Các phương pháp tách từ tiếng Việt

3.1 fnTBL (Fast Transformation-based learning) [3.1]

3.1.1 Mô tả

Ý tưởng chính của phương pháp học dựa trên sự biến đổi (TBL) là để giải quyếtmột vấn đề nào đó ta sẽ áp dụng các phép biến đổi, tại mỗi bước, phép biến đổi nào chokết quả tốt nhất sẽ được chọn và được áp dụng lại với vấn đề đã đưa ra Thuật toán kếtthúc khi không còn phép biến đổi nào được chọn Hệ thống fnTBL gồm hai tập tinchính:

Tập tin dữ liệu học (Training): Tập tin dữ liệu học được làm thủ công, đòi hỏi

độ chính xác Mỗi mẫu (template) được đặt trên một dòng riêng biệt Ví dụ: tập

dữ liệu học cho việc xác định từ loại của một văn bản có thể có định dạng nhưsau:

Công ty danhtu

An Đông danhturieng

bị dongtugiám sát dongtuTrong ví dụ này mỗi mẫu gồm có hai phần: phần đầu tiên là từ, phần thứ hai là từ loại tương ứng

Tập tin chứa các mẫu luật (rule-template): Mỗi luật được đặt trên một dòng, hệ

thống fTBL sẽ dựa vào các mẫu luật để áp dụng vào tập tin dữ liệu học Ví dụ:

chunk_-2 chunk_-1 => chunk

Trang 30

Áp dụng đối với việc xác định từ loại, với 2 = động từ, 1= số từ, chunk=danh từ thì luật trên có ý nghĩa như sau: nếu hai từ trước đó làđộng từ và số từ thì chuyển từ loại hiện hành thành danh từ.

ty IViệt B

Hà I

bị Bđặt Bvào Btình Btrạng I

Các ký tự B, I gọi là các chunk và có ý nghĩa như sau:

Tiếng có chunk=B nghĩa là tiếng đó bắt đầu một từ (begin)

Tiếng có chunk=I nghĩa là tiếng đó nằm ở trong một từ (inside)

Trang 31

Trong ví dụ trên, ta có được các từ: Vì, sao, công ty, Việt Hà, bị, đặt, vào, tình trạng, …

Xây dựng tập tin chứa các mẫu luật: Sau khi tìm hiểu về từ trong tiếng Việt,

chúng em xây dựng được 3 luật áp dụng cho việc tách từ tiếng Việt như sau:

chunk_0 word_0 => chunkchunk_0 word_-1 word_0 => chunkchunk_0 word_0 word_1 => chunk

3.1.2.1 Quá trình học

(1) Từ tập dữ liệu học xây dựng từ điển các từ

(2) Khởi tạo các từ

(3) Rút ra tập luật

Ở bước (1) từ tập dữ liệu học đã có sẵn, sử dụng phương pháp thống kê → ta sẽ

có từ điển các tiếng (Lexicon) Các tiếng có thể xuất hiện trong các từ với các chunkkhác nhau, ta sẽ ghi nhận lại số lần xuất hiện của mỗi tiếng với các chunk tương ứng

Ví dụ, đối với từ “công ty” thì tiếng “công” có chunk=B nhưng trong từ “của công” thìtiếng công có chunk=I

Ở bước (2) từ tập dữ liệu học, tạo ra tập dữ liệu học không có chunk bằng cáchxóa hết các chunk tương ứng Tập dữ liệu mới này sẽ được sử dụng để khởi tạo lại cácchunk thông dụng nhất dựa vào từ điển

Ở bước (3) so sánh tập dữ liệu học với tập dữ liệu đang xét, dựa vào các mẫuluật đã cho, ta sẽ rút ra được các luật ứng viên, ứng với mỗi luật ứng viên ta lại áp dụngvào tập dữ liệu đang xét và tính điểm cho nó (dựa vào số lỗi phát sinh khi so sánh với

Trang 32

tập dữ liệu học là tập dữ liệu chuẩn) Chọn luật có điểm cao nhất và lớn hơn mộtngưỡng cho trước để đưa vào danh sách luật được chọn.

Kết quả ta sẽ được một tập các luật được chọn Các luật có dạng như sau:

SCORE:414 RULE: chunk_0=B word_0=tế => chunk=I

SCORE:312 RULE: chunk_0=B word_-1=của word_0=công=>chunk=I

SCORE:250 RULE: chunk_0=B word_0=hóa => chunk=I

SCORE:231 RULE: chunk_0=B word_0=động => chunk=I

SCORE:205 RULE: chunk_0=B word_0=nghiệp => chunk=I

SCORE:175 RULE: chunk_0=B word_-1=phát word_0=triển => chunk=I

SCORE:133 RULE: chunk_0=B word_-1=xã word_0=hội => chunk=I

SCORE:109 RULE: chunk_0=B word_-1=đầu word_0=tư => chunk=I

SCORE:100 RULE: chunk_0=B word_0=thể => chunk=I

Ở dòng 2 ta có luật: nếu từ hiện hành là “công” (word_0=công) và từ trước đó là

“của” (word_-1=của) và chunk của từ hiện hành là B ( chunk_0=B) thì chuyển chunkcủa từ hiện hành là I , nghĩa là “của công” phải là một từ

Trang 33

Toàn bộ quá trình học được mô tả như sau:

Hình 3-4 Quá trình học

3.1.2.2 Xác định từ cho tài liệu mới

(1) Tài liệu mới đưa vào phải có định dạng giống như tập tin dữ liệu học, nghĩa

là mỗi tiếng trên một dòng

Trang 34

(2) Dựa vào từ điển, gán chunk thông dụng nhất cho các tiếng trong tài liệu mới(3) Áp dụng các luật có được từ giai đoạn học vào tài liệu đang xét ta sẽ tách được các từ hoàn chỉnh

Giai đoạn xác định từ cho tài liệu mới được mô tả như sau:

Hình 3-5 Giai đoạn xác định từ cho tài liệu mới

Trang 35

3.2 Longest Matching [1.4]

Phương pháp Longest Matching tách từ dựa vào từ điển có sẵn

Theo phương pháp này, để tách từ tiếng Việt ta đi từ trái sang phải và chọn từ cónhiều âm tiết nhất mà có mặt trong từ điển, rồi cứ tiếp tục cho từ kế tiếp cho đến hếtcâu Với cách này, ta dễ dàng tách được chính xác các ngữ/câu như: ”hợp tác| muabán”; “thành lập| nước|Việt Nam| dân chủ |cộng hòa”…Tuy nhiên, phương pháp này sẽtách từ sai trong trường hợp như: “học sinh |học sinh |học”; “một| ông | quan tài | giỏi”,

“trước | bàn là | một | ly| nước”,…

3.3 Kết hợp giữa fnTBL và Longest Matching

Chúng ta có thể kết hợp giữa hai phương pháp fnTBL và Longest Matching để

có được kết quả tách từ tốt nhất Đầu tiên ta sẽ tách từ bằng Longest Matching, đầu racủa phương pháp này sẽ là đầu vào cho phương pháp fnTBL học luật

Trang 36

Chương 4: LẬP CHỈ MỤC

1 Khái quát về hệ thống lập chỉ mục

Một cách để tăng tốc độ tìm kiếm thông tin lên là tạo chỉ mục cho các tài liệu.Tuy nhiên, việc lập chỉ mục có một nhược điểm lớn, đó là khi thêm một tài liệu mới,phải cập nhật lại tập tin chỉ mục Nhưng đối với hệ thống tìm kiếm thông tin, chỉ cầncập nhật lại tập tin chỉ mục vào một khoảng thời gian định kỳ Do đó, chỉ mục là mộtcông cụ rất có giá trị

Lập chỉ mục bao gồm các công việc sau:

trong một tài liệu

2 Phương pháp lập chỉ mục [1.1]

2.1 Xác định các từ chỉ mục

riêng biệt trong tài liệu đó Gọi FREQik: là tần số xuất hiện của từ k trong tài liệu i

cách tính tổng tần số xuất hiện của k trong tất cả n tài liệu:

Trang 37

TOTFREQK = ik

1FREQ

n i

liệu Xác định giá trị ngưỡng cao và loại bỏ tất cả các từ có tần số xuất hiện lớn hơn giátrị này

và loại bỏ tất cả các từ có tần số xuất hiện nhỏ hơn giá trị này Điều này sẽ loại bỏ các

từ ít xuất hiện trong tập tài liệu, nên sự có mặt của các từ này cũng không ảnh hưởngđến việc thực hiện truy vấn

mục

Hình 4-6 Các từ được sắp theo thứ tự

Trang 38

2.2 Các phương pháp tính trọng số của từ

Trọng số của một từ phản ánh tầm quan trọng của từ đó trong tài liệu Ý tưởngchính là một từ xuất hiện thường xuyên trong tất cả các tài liệu thì ít quan trọng hơn là

từ chỉ xuất hiện tập trung trong một số tài liệu

2.2.1 Tần số tài liệu nghịch đảo

Đây là phương pháp tính trọng số mà mô hình không gian vector đã sử dụng đểtính trọng số của từ trong tài liệu

n: số từ phân biệt trong tập tài liệu

FREQik : số lần xuất hiện của từ k trong tài liệu Di (tần số từ)

DOCFREQk : số tài liệu có chứa từ k

Khi đó, trọng số của từ k trong tài liệu Di được tính như sau:

WEIGHTik = FREQik * [log (n) – log (DOCFREQk)]

Trọng số của từ k trong tài liệu Di tăng nếu tần số xuất hiện của từ k trong tàiliệu i tăng và giảm nếu tổng số tài liệu có chứa từ k tăng

2.2.2 Độ nhiễu tín hiệu (The Signal – Noise Ratio)

Một quan điểm tương tự được xem xét đó là dựa vào thông tin để đánh giá tầmquan trọng của từ Trong thực tế, nội dung thông tin của một đoạn hay một từ có thểxác định dựa vào xác suất xuất hiện của các từ trong văn bản đã cho Rõ ràng, xác suấtxuất hiện của một từ càng cao thì thông tin mà nó chứa càng ít

Trang 39

INFORMATION= - log2 ptrong đó p là xác suất xuất hiện của từ.

Ví dụ: nếu từ “vi tính” xuất hiện 1 lần sau 10.000 từ, xác suất xuất hiện của nó là

0.0001, khi đó thông tin của nó sẽ là:

Ngược lại, từ “sẽ” xuất hiện 1 lần sau 10 từ, xác suất xuất hiện của nó là 0.1, khi

đó thông tin của nó sẽ là:

t

k k k

Giả sử, từ k xuất hiện một lần trong mỗi tài liệu (FREQik=1), khi đó độ nhiễucủa nó bằng:

Trang 40

NOISEk = 2

1

1log1

n i

n n

Hàm số nghịch đảo của độ nhiễu, gọi là độ signal, được tính như sau:

SIGNALk = log2 (TOTFREQk) – NOISEk

Trọng số của từ k trong tài liệu i được tính bằng cách kết hợp giữa FREQik vàSIGNALk:

WEIGHTik = FREQik * SIGNALk

2.2.3 Giá trị phân biệt từ (The Term Discrimination Value)

Một chức năng khác để xác định tầm quan trọng của một từ là tính giá trị phânbiệt của từ đó Gọi SIMILAR(Di, Dj) là độ tương quan giữa cặp tài liệu Di, Dj Khi đó,

độ tương quan trung bình của tập tài liệu là:

Ngày đăng: 24/04/2013, 16:41

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[3.1] http://nlp.cs.jhu.edu/~rflorian/fntbl/tbl-toolkit/ Link
[1.1] Gerard Salton/ Michael J.McGill; Introduction to Modern Information Retrieval Khác
[1.4] Đinh Điền; Xử lý ngôn ngữ tự nhiên2. Luận văn Khác
[2.1] Thành Giang. Luận án thạc sĩ khoa học. Tìm hiểu về cách xác định từ loại và xây dựng công cụ xác định từ loại. Giáo viên hướng dẫn : T.S Hồ Bảo Quốc Khác
[2.3] Lê Thúy Ngọc, Đỗ Mỹ Nhung. Luận văn cử nhân tin học. Tìm hiểu về Search Engine và xây dựng ứng dụng cho Search Engine tiếng Việt. Giáo viên hướng dẫn : Th.S Nguyễn Thị Diễm Tiên.3. Website Khác

HÌNH ẢNH LIÊN QUAN

Hình 1-2 Tổng quan về chức năng của một hệ tìm kiếm thông tin - hệ thống tìm kiếm thông tin trên kho tài liệu tiếng Việt
Hình 1 2 Tổng quan về chức năng của một hệ tìm kiếm thông tin (Trang 14)
Bảng 1-1 So sánh IRS với các hệ thống thông tin khác - hệ thống tìm kiếm thông tin trên kho tài liệu tiếng Việt
Bảng 1 1 So sánh IRS với các hệ thống thông tin khác (Trang 17)
Hình 2-3 Hệ tìm kiếm thông tin tiêu biểu - hệ thống tìm kiếm thông tin trên kho tài liệu tiếng Việt
Hình 2 3 Hệ tìm kiếm thông tin tiêu biểu (Trang 18)
Hình 3-4 Quá trình học 3.1.2.2 Xác định từ cho tài liệu mới - hệ thống tìm kiếm thông tin trên kho tài liệu tiếng Việt
Hình 3 4 Quá trình học 3.1.2.2 Xác định từ cho tài liệu mới (Trang 34)
Hình 3-5 Giai đoạn xác định từ cho tài liệu mới - hệ thống tìm kiếm thông tin trên kho tài liệu tiếng Việt
Hình 3 5 Giai đoạn xác định từ cho tài liệu mới (Trang 35)
Hình 4-6 Các từ được sắp theo thứ tự - hệ thống tìm kiếm thông tin trên kho tài liệu tiếng Việt
Hình 4 6 Các từ được sắp theo thứ tự (Trang 38)
Hình 4-7 Quá trình chọn từ làm chỉ mục - hệ thống tìm kiếm thông tin trên kho tài liệu tiếng Việt
Hình 4 7 Quá trình chọn từ làm chỉ mục (Trang 44)
Bảng 4-2 Cách tập tin nghịch đảo lưu trữ - hệ thống tìm kiếm thông tin trên kho tài liệu tiếng Việt
Bảng 4 2 Cách tập tin nghịch đảo lưu trữ (Trang 46)
Bảng 4-4 Thêm một tài liệu mới vào tập tin nghịch đảo - hệ thống tìm kiếm thông tin trên kho tài liệu tiếng Việt
Bảng 4 4 Thêm một tài liệu mới vào tập tin nghịch đảo (Trang 47)
Hình 5-8 Sơ đồ Use-case của hệ thống - hệ thống tìm kiếm thông tin trên kho tài liệu tiếng Việt
Hình 5 8 Sơ đồ Use-case của hệ thống (Trang 48)
2. Sơ đồ Lớp - hệ thống tìm kiếm thông tin trên kho tài liệu tiếng Việt
2. Sơ đồ Lớp (Trang 50)
2.2  Sơ đồ các lớp xử lý - hệ thống tìm kiếm thông tin trên kho tài liệu tiếng Việt
2.2 Sơ đồ các lớp xử lý (Trang 51)
3.1  Sơ đồ UseCase - hệ thống tìm kiếm thông tin trên kho tài liệu tiếng Việt
3.1 Sơ đồ UseCase (Trang 52)
4.2  Sơ đồ Tuần tự 4.2.1 Tạo mới chỉ mục - hệ thống tìm kiếm thông tin trên kho tài liệu tiếng Việt
4.2 Sơ đồ Tuần tự 4.2.1 Tạo mới chỉ mục (Trang 55)
Hình 5-17 Sơ đồ  tuần tự cập nhật chỉ mục - hệ thống tìm kiếm thông tin trên kho tài liệu tiếng Việt
Hình 5 17 Sơ đồ tuần tự cập nhật chỉ mục (Trang 56)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w