Một số kĩ thuật tìm kiếm văn bản theo nội dung

Song, nhược điểm cơ bản của các mô hình truy tìm thông tin hiện nay là những từ mà người tìm kiếm sử dụng, thường không giống với những từ đã được đánh chỉ mục trong thông tin tìm kiếm..

Trang 1

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

ĐỖ TẤT HƯNG

MỘT SỐ KỸ THUẬT TÌM KIẾM VĂN BẢN THEO NỘI DUNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên - 2015

Trang 2

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

ĐỖ TẤT HƯNG

MỘT SỐ KỸ THUẬT TÌM KIẾM VĂN BẢN THEO NỘI DUNG

Chuyên ngành: Khoa học máy tính

Trang 3

LỜI CAM ĐOAN

Em xin cam đoan : Luận văn thạc sĩ Khoa học máy tính “Một số kỹ thuật tìm kiếm văn bản theo nội dung” này là công trình nghiên cứu thực

sự của cá nhân em, được thực hiện trên cơ sở nghiên cứu lý thuyết và dưới sự hướng dẫn khoa học của Tiến sĩ Trương Hà Hải, Trường Đại học Công nghệ

Thông tin và Truyền thông

Em xin chi ̣u trách nhiê ̣m về lời cam đoan này

Thái Nguyên, ngày 6 tháng 7 năm 2015

Tác giả

Đỗ Tất Hưng

Trang 4

LỜI CẢM ƠN

Để hoàn thành luận văn, em xin chân thành cảm ơn Trường Đại học Công nghệ Thông tin và Truyền thông, Phòng Đào tạo, các thầy, cô giáo giảng dạy lớp cao học Khoa học máy tính K12E đã quan tâm, tạo điều kiện thuận lợi, tận tình giảng dạy và giúp đỡ em trong thời gian theo học tại trường

Đặc biệt, em xin bày tỏ lòng biết ơn sâu sắc đến TS Trương Hà Hải,

người đã dành nhiều thời gian, tâm huyết hướng dẫn em trong suốt quá trình nghiên cứu và hoàn thành luận văn

Em cũng xin cảm ơn các cán bộ, giảng viên đồng nghiệp ở Trường Đại học Hùng Vương đã tạo điều kiện về thời gian để em có thể học tập và hoàn thành luận văn

Mă ̣c dù đã cố gắng hết sức hoàn thiê ̣n luâ ̣n văn, tuy nhiên luận văn vẫn còn nhiều thiếu sót, rất mong sự góp ý quý báu của quí thầy cô và các bạn đồng nghiệp!

Xin trân trọng cảm ơn!

Thái Nguyên, ngày 6 tháng 7 năm 2015

Tác giả

Đỗ Tất Hưng

Trang 5

MỤC LỤC

Trang

LỜI CAM ĐOAN iii

LỜI CẢM ƠN iv

MỤC LỤC v

DANH MỤC BẢNG viii

DANH MỤC HÌNH VẼ ix

MỞ ĐẦU 1

CHƯƠNG I TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN 4

1.1 Cơ sở dữ liệu (CSDL) đa phương tiện 4

1.1.1 Giớ i thiê ̣u 4

1.1.2 Mục tiêu chính 5

1.1.3 Mô hình dữ liê ̣u đa phương tiê ̣n 5

1.1.4 Trích chọn đặc trưng, chỉ mục và đo tính tương tự 7

1.1.5 Hệ thống tìm kiếm thông tin (IR) 13

1.1.6 Xếp hạng tài liệu (Ranking) 19

1.2 Bài toán tìm kiếm văn bản 23

CHƯƠNG II MỘT SỐ VẤN ĐỀ VỀ TÌM KIẾM VĂN BẢN THEO NỘI DUNG 26

2.1 Mô hình Boolean 26

2.2 Mô hình tìm kiếm không gian vector 27

2.3 Mô hình tìm kiếm theo xác suất 30

2.4 Mô hình tìm kiếm dựa trên cơ sở cụm 30

2.5.1 Ý tưởng cơ bản của LSI 33

2.5.2 Một số khái niệm cơ bản 39

2.5.3 Kỹ thuật phân tích SVD 41

CHƯƠNG III ỨNG DỤNG THỬ NGHIỆM 55

3.1 Bài toán 55

Trang 6

3.2 Chức năng của chương trình thử nghiệm 57

3.3 Hoạt động cơ bản trong chương trình 65

3.4 So sánh các mô hình tìm kiếm 67

KẾT LUẬN 69

1 Kết luận 69

2 Hướng phát triển 69

TÀI LIỆU THAM KHẢO 71

Trang 8

DANH MỤC BẢNG

Bảng 1.1 Ma trận tài liệu - thuật ngữ 21

Bảng 1.2 Ma trận kết quả tài liệu - thuật ngữ TF-IDF 22

Bảng 1.3 Kết quả khoảng cách từ truy vấn Q với các tài liệu 23

Bảng 2.1 Số lần xuất hiện của thuật ngữ trong mỗi tài liệu 43

Trang 9

DANH MỤC HÌNH VẼ

Hình 1.1 Mô hình dữ liệu đa phương tiện 6

Hình 1.2 Mô hình xử lý cho hệ thống lập chỉ mục 11

Hình 1.3 Mô hình tổng quát tìm kiêm thông tin 15

Hình 1.4 Tiến trình truy vấn tài liệu 17

Hình 1.5 Hệ thống IR tiêu biểu 25

Hình 2.1 Sử dụng các khái niệm cho truy vấn 34

Hình 2.2 Các vector văn bản theo mô hình LSI 39

Hình 2.3 Biểu diễn ma trận xấp xỉ Ak có hạng là k 42

Hình 2.4 Biểu đồ 2-D của 16 thuật ngữ và 17 tài liệu từ tập mẫu 44

Hình 2.5 Sơ đồ SVD của một ma trận hình chữ nhật thuật ngữ- tài liệu 45

Hình 2.6 Sơ đồ của SVD được giảm lược của một ma trận thuật ngữ-tài liệu 46

Hình 2.7 Đồ thị Recall – Precision của thuật toán LSI 54

Hình 3.1 Kiến trúc mô hình tìm kiếm LSI 65

Hình 3.2 Giao diện cấu hình 66

Hình 3.3 Giao diện tìm kiếm 66

Hình 3.4 Giao diện kết quả tìm kiếm 67

Trang 10

MỞ ĐẦU

Việc tìm kiếm và lưu trữ thông tin từ xa xưa đã được con người chú trọng và quan tâm Ngày nay, với sự phát triển nhanh chóng của lĩnh vực thông tin và Internet đã tạo ra một khối lượng thông tin vô cùng lớn với sự phong phú, đa dạng và phức tạp của các loại hình như: văn bản, hình ảnh, video, siêu văn bản, đa phương tiện…Vấn đề tìm kiếm thông tin đa phương tiện hiện vẫn được các chuyên gia nghiên cứu trong việc truy tìm thông tin phù hợp với yêu cầu của người sử dụng

Văn bản là một trong số các dạng của dữ liệu đa phương tiện Nó đã được quan tâm từ hàng nghìn năm trước trong việc tổ chức, sắp xếp và lưu trữ các loại hình tài liệu Cho đến nay, tài liệu dưới dạng văn bản vẫn chiếm đa số trong mọi cơ quan, tổ chức, đặc biệt là trong thư viện Đồng thời, văn bản còn được sử dụng để mô tả các dạng khác của dữ liệu đa phương tiện như video, audio, hình ảnh Xuất phát từ nhu cầu thực tế sử dụng, số lượng tài liệu văn bản dạng số hóa hiện nay ngày càng lớn và được sử dụng rất phổ biến Vì vậy việc lưu trữ, xử lý và truy tìm thủ công trước đây đã gặp rất nhiều khó khăn, không thể hoặc khó có thể thực hiện và tìm kiếm được, hoặc có thể tìm kiếm được nhưng hiệu quả không cao Chính vì vậy, việc tìm kiếm văn bản theo nội dung có vai trò hết sức quan trọng

Cùng với sự ra đời và phát triển của máy tính, các công cụ xử lý cũng ngày càng hoàn thiện dựa trên những kỹ thuật hiện đại để phục vụ cho nhu cầu đó Các mô hình truy tìm thường được sử dụng trong phạm vi này, đó là: Đối sánh chính xác, không gian vector, xác suất và trên cơ sở cụm Song, nhược điểm cơ bản của các mô hình truy tìm thông tin hiện nay là những từ

mà người tìm kiếm sử dụng, thường không giống với những từ đã được đánh chỉ mục trong thông tin tìm kiếm Vấn đề này liên quan nhiều đến hai khía

cạnh thực tế: Thứ nhất là tính đồng nghĩa (synonymy)- cùng một thông tin

Trang 11

nhưng được miêu tả bằng các từ khác nhau, phụ thuộc vào ngữ cảnh hay mức

độ cần thiết, ví dụ như: nhìn, xem, trông, thấy có cùng ý nghĩa; khía cạnh thứ hai tính đa nghĩa (polysemy) – cùng một từ có nhiều ý nghĩa khác nhau trong ngữ cảnh khác nhau, ví dụ như: đi (có thể là chỉ chuyển động hay chỉ sự mất

mát) Kết quả truy tìm có thể gồm những tài liệu không liên quan, đơn giản vì những thuật ngữ xuất hiện ngẫu nhiên trong nó giống với thuật ngữ trong truy vấn và mặt khác, những tài liệu liên quan có thể bị bỏ qua bởi không chứa các thuật ngữ xuất hiện trong truy vấn (do tính đồng nghĩa) Một ý tưởng thú

vị xét xem liệu việc truy tìm có thể dựa vào các khái niệm có hiệu quả hơn

là trên các thuật ngữ, đó là mô hình LSI (Latent Semantic Indexing) dựa trên

kỹ thuật phân tích ma trận SVD (singular value decomposition), là các giải

pháp hữu hiệu cho vấn đề truy tìm thông tin dựa trên cơ sở nội dung tài liệu văn bản, tìm kiếm trên cơ sở những khái niệm (không phải trên các thuật ngữ đơn)

Luâ ̣n văn này tập trung nghiên cứu về lớp bài toán tìm kiếm nội dung văn bản, một số kỹ thuật tìm kiếm văn bản, cài đặt chương trình mô phỏng

mô hình tìm kiếm văn bản theo nội dung dựa trên phân tích SVD và ứng dụng vào công việc xử lý, tìm kiếm văn bản tại Trường Đại học Hùng Vương

Bố cục của luận văn bao gồm các chương sau:

Luận văn được trình bày thành 3 phần bao gồm: phần mở đầu, phần nội dung và phần kết luận

Phần mở đầu: Giới thiệu khái quát về đề tài, mục tiêu, ý nghĩa khoa học

và xã hội mang lại thông qua việc giải quyết các vấn đề được nêu trong đề tài

Phần nội dung:

Chương 1 Tổng quan về cơ sở dữ liệu đa phương tiê ̣n : Giới thiệu tổng

quan về cơ sở dữ liệu đa phương tiện, xếp hạng tài liệu và bước cơ bản phục vụ

Trang 12

cho việc tìm kiếm thông tin Khái quát về một hệ thống truy tìm thông tin (IR) tiêu biểu và cụ thể là truy tìm tài liệu văn bản

Chương 2 Mô ̣t số vấn đề về tìm kiếm văn bản theo nô ̣i dung : Đề cập

đến vấn đề chỉ mục tài liệu và thước đo hiệu năng Nghiên cứu một số mô hình tìm kiếm như: Boolean, không gian vector, mô hình truy tìm theo xác suất, phương pháp LSI, kỹ thuật phân tích ma trận SVD

Chương 3 Ứng dụng thử nghiệm: Cài đặt thử nghiệm một số mô hình

tìm kiếm văn bản ứng dụng cho công việc tìm kiếm văn bản tại Trường Đại học Hùng Vương

Phần kết luận: Trình bày kết quả mà luận văn đạt được và hướng phát

triển cho mô hình mà luận văn đã đề xuất

Trang 13

CHƯƠNG I TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN

1.1 Cơ sở dữ liệu (CSDL) đa phương tiện [1] [4] [8]

1.1.1 Giơ ́ i thiê ̣u

Dữ liệu đa phương tiện được chia thành hai lớp là các dữ liệu liên tục

và các dữ liệu không liên tục Các dữ liệu liên tục bao gồm các dữ liệu âm thanh, video thay đổi theo thời gian Các dữ liệu không liên tục là các dữ liệu không phụ thuộc vào thời gian, các loại dữ liệu đặc trưng cho dạng này là các

dữ liệu văn bản (có hoặc không có định dạng), hình ảnh tĩnh và các đối tượng

đồ họa Các kiểu dữ liệu thông thường của một CSDL multimedia bao gồm:

• Dữ liệu văn bản (có hoặc không có định dạng)

• Đồ họa: là các bản vẽ, minh họa được mã hóa như các tệp postscript

• Hình ảnh: là các hình ảnh được mã hóa sử dụng các dạng thức chuẩn như là JPEG hoặc JPG

• Các hoạt hình

• Âm thanh

• Video

Các đặc tính chung của dữ liệu đa phương tiện bao gồm:

• Thiếu cấu trúc: Các dữ liệu multimedia có khuynh hướng phi cấu trúc

vì vậy các tác nghiệp quản trị dữ liệu chuẩn như chỉ số hoá, tìm kiếm nội dung, truy vấn dữ liệu thường là không áp dụng được

• Tính tạm thời: Một vài kiểu dữ liệu đa phương tiện như là video, âm thanh và hoạt hình đều phụ thuộc vào yếu tố thời gian liên quan mật thiết đến việc lưu trữ, thao tác và mô tả chúng

Trang 14

• Có dung lượng lớn: các dữ liệu video và âm thanh thường đòi hỏi các thiết bị lưu trữ lớn

• Các ứng dụng hỗ trợ: các dữ liệu phi chuẩn có thể đòi hỏi các quy trình xử lý phức tạp như việc sử dụng các thuật toán nén dữ liệu đối với các ứng dụng CSDL đa phương tiện

1.1.2 Mục tiêu chính

Cơ sở dữ liệu đa phương tiện bao gồm năm mục tiêu chính như sau:

- Hỗ trợ các kiểu dữ liệu đa phương tiện: các phương tiện (media) khác

nhau và các thao tác thông thường cũng như các thao tác đặc biệt mà kiểu dữ liệu thông thường không có như tiến, lùi, dừng

- Có khả năng quản lý số lượng lớn các đối tượng đa phương tiện: đề cập đến không gian lưu trữ của CSDL

- Hỗ trợ hiệu năng cao, sức chứa cao và quản trị lưu trữ hiệu quả

- Có các khả năng của hệ CSDL truyền thống

- Có khả năng truy tìm thông tin đa phương tiện

1.1.3 Mô hi ̀nh dữ liê ̣u đa phương tiê ̣n [1] [4]

Mô hình dữ liệu MIRS (Multimedia Information Retrieval System) hình

thành trên nền tảng nguyên tắc hướng đối tượng và phân cấp đa tầng

Tầng đối tượng

Đối tượng bao gồm một hay nhiều mục media với các quan hệ không gian và thời gian xác định, như với một đối tượng đa phương tiện là một trang bao gồm một vài hình ảnh và âm thanh kèm theo

Nhiệm vụ mấu chốt là làm thế nào để chỉ ra các quan hệ không gian và thời gian Quan hệ không gian được đặc tả bởi kích thước và vị trí cửa sổ hiển thị của mỗi mục Phương pháp chung đặc tả thời gian là đặc tả trên cơ sở trục

Trang 15

thời gian, trong đó thời gian bắt đầu và độ dài mỗi mục được xác định trên cơ

sở đồng hồ chung Phương pháp khác là mô hình điều khiển theo sự kiện

Hình ảnh

Không gian Thời gian Tổng hợp

Tầng loại media

Tầng khuôn mẫu media

Trang 16

Chú ý rằng, các ứng dụng khác nhau có thể cần các mô hình dữ liệu khác nhau Tuy nhiên nhiều ứng dụng cùng chia sẻ mô hình cơ sở chung, nếu được thiết kế tốt thì có thể bổ sung các đặc trưng và đối tượng mới để đáp ứng yêu cầu ứng dụng cụ thể

Đến nay, chưa có chuẩn chung cho các tầng mô hình dữ liệu mô tả trên Bởi các ứng dụng MIRS hiện nay chủ yếu là đặc thù, chỉ tập trung vào giới hạn số đặc trưng và loại media Rất nhiều công việc phải làm khi mô hình hóa

dữ liệu đa phương tiện để phát triển MIRS và MMDBMS (MultiMedia

DataBase Manager System) lớn nhất quán

1.1.4 Trích chọn đặc trưng, chỉ mục và đo tính tương tự [1] [4]

1.1.4.1 Trích chọn đặc trưng:

Trong các MIRS, một trong những vấn đề quan trọng nhất là trích chọn đặc trưng hoặc biểu diễn nôi dung (cái gì là những nét đặc trưng hoặc nội dung chính trong một khoản mục multimedia) Trích rút đặc trưng có thể là quá trình tự động hay bán tự động

Trong tiến trình tìm kiếm, các đặc trưng và thuộc tính này được tìm kiếm

và so sánh thay cho chính các mục thông tin Do vậy, chất lượng của trích chọn đặc trưng xác định hiệu quả tìm kiếm Nếu đặc trưng không được tách ra từ mục nào thì không thể tìm thấy chúng từ CSDL theo đặc trưng đó Đó là một trong sự khác biệt lớn nhất giữa MIRS và DBMS Trong DBMS thì mọi thuộc tính là có sẵn và đầy đủ, trong khi đó các đặc trưng và thuộc tính phải được trích chọn theo loại truy vấn và thường là không đầy đủ trong MIRS

Trích chọn đặc trưng phải thỏa mãn các yêu cầu sau:

- Đặc trưng và thuộc tính trích chọn phải đầy đủ nhất có thể để biểu diễn nội dung của các mục thông tin

Trang 17

- Các đặc trưng phải được trình diễn và lưu trữ một cách chặt chẽ, mạch lạc Các đặc trưng phức tạp và đặc trưng lớn không phải là mục đích của trích chọn, nó phải có khả năng tìm kiếm và so sánh nhanh các mục thông tin với nhau

- Tính toán khoảng cách giữa các đặc trưng phải hiệu quả, nếu không thời gian đáp ứng của hệ thống rất lớn

Tổng thể có 4 mức đặc trưng và thuộc tính như sau:

Metadata: bao gồm các thuộc tính của các đối tượng đa phương tiện

như tên tác giả, ngày tạo lập, tiêu đề đối tượng Không mô tả hay diễn giải nội dung của đối tượng Các thuộc tính này được quản lý bằng kỹ thuật DBMS

Mô tả bằng văn bản: Mô tả nội dung đối tượng bằng văn bản Mô tả

dưới hình thức nhiều từ khóa hay văn bản thông thường Chỉ mục và tìm kiếm trên cơ sở mô tả bằng văn bản được quản lý bằng kỹ thuật IR Mặc dù mô tả bằng văn bản có hạn chế là còn tính chủ quan và chưa đầy đủ, nhưng đây vẫn

là phương pháp hay được sử dụng và hiệu quả Nên sử dụng mô tả bằng văn bản kết hợp với các đặc trưng khác trong ứng dụng đa phương tiện Hiện tại,

mô tả văn bản là tiến trình bằng tay, khá vất vả Cần phát triển các công cụ bán tự động để hỗ trợ tiến trình này Tri thức lĩnh vực và từ điển liệt kê luôn

có ích trong việc đem lại hiệu quả truy vấn

Đặc trưng nội dung mức thấp: Thu thập các mẫu và thống kê đối

tượng đa phương tiện và các quan hệ không gian, thời gian giữa các phần đối tượng Mỗi media khác nhau có các đặc trưng nội dung mức thấp khác nhau

- Với âm thanh, đặc trưng mức thấp bao gồm âm lượng trung bình, phân bổ tần số và tỷ lệ câm

- Các đặc trưng mức thấp của ảnh bao gồm phân bổ màu, texture, hình dạng đối tượng và cấu trúc không gian

- Đặc trưng mức thấp của video bao gồm cấu trúc thời gian

Trang 18

Lợi thế chính của việc sử dụng đặc trưng mức thấp là có thể tự động trích chọn chúng

Đặc trưng nội dung mức cao: Cố gắng nhận biết và hiểu đối tượng

Ngoài nhận dạng văn bản và tiếng nói, việc nhận dạng và hiểu đoạn âm thanh

và các đối tượng nhìn là rất khó khăn Trong ứng dụng với giới hạn số lượng đối tượng, việc mô tả và nhận biết các đối tượng chung là rất hiệu quả Ví dụ,

dự báo tới 95% các video có mục tiêu chính là quay người hay nhóm người

Nó hữu ích cho các hệ thống để nhận biết và diễn giải con người Hiện tại, tiến trình nhận dạng và diễn giải được thực hiện bán tự động

Việc truy vấn trên cơ sở hai loại đặc trưng nội dung mức thấp và mức cao gọi là truy vấn trên cơ sở nội dung Một hệ thống cần sử dụng toàn bộ bốn mức đặc trưng sao cho hỗ trợ được các câu truy vấn mềm dẻo của người sử dụng Các kỹ thuật này hỗ trợ nhau để hình thành mô tả đầy đủ về đối tượng

Ví dụ, mô tả văn bản tốt cho việc thu thập các khái niệm trừu tượng như cảm giác (vui, buồn ) nhưng không có khả năng mô tả mẫu dữ liệu đầy đủ về các hình dạng không đều hay texture Mặt khác, các đặc trưng nội dung mức thấp

có thể thu thập các mẫu dữ liệu này nhưng không mô tả được các khái niệm trừu tượng

Khi đối tượng đa phương tiện có nhiều kiểu media, các quan hệ và tương tác giữa các media phải được sử dụng để trích chọn đặc trưng, diễn giải

và truy tìm Có một vài kiểu media dễ hiểu và dễ diễn giải hơn vài kiểu khác,

ta có thể sử dụng sự hiểu biết về một hay vài kiểu giúp hiểu và trích chọn đặc trưng cho các kiểu khác Ví dụ, nếu đối tượng đa phương tiện bao gồm rãnh hình (video) và rãnh tiếng, ta có thể áp dụng nhận dạng tiếng nói để lấy ra tri thức về đối tượng và sử dụng tri thức này để phân đoạn, trích chọn các đặc

trưng và đối tượng trên rãnh hình (video)

Trang 19

1.1.4.2 Chỉ mục:

Từ nội dung của các tài liệu riêng rẽ trong tập tài liệu hệ thống tìm kiếm thông tin có nhiệm vụ tách nội dung đó thành các từ riêng biệt và tổng hợp chúng thành một danh sách các từ riêng biệt có trong tập tài liệu Sau khi

có được tập các từ đã được trích, ta sẽ chọn các từ để làm từ chỉ mục Tuy nhiên, không phải từ nào cũng được chọn làm từ chỉ mục Các từ có khả năng đại diện cho tài liệu sẽ được chọn, các từ này được gọi là key word, do đó trước khi lập chỉ mục sẽ là giai đoạn tiền xử lý đối với các từ trích được để chọn ra các keyword thích hợp Ta sẽ loại bỏ danh sách các từ ít có khả năng

đại diện cho nội dung văn bản dựa vào danh sách gọi là từ dừng (stoplist) Đối

với tiếng Anh hay tiếng Việt đều có danh sách stop list

+ Chỉ mục tự động cho tiếng Anh:

Một quá trình đơn giản để lập chỉ mục cho tài liệu có thể được mô tả như sau:

 Trước hết, xác định tất cả các từ tạo thành tài liệu Trong tiếng Anh, chỉ đơn giản là tách từ dựa vào khoảng trắng

 Loại bỏ các từ có tần số xuất hiện cao Những từ này chiếm khoảng 50% các từ, chúng có độ phân biệt kém do đó không thể sử dụng để đại diện cho nội dung của tài liệu Trong tiếng Anh, các từ này có khoảng

40-250 từ, do đó, để đơn giản có thể lưu chúng vào stoplist

 Sau khi loại bỏ các từ có trong stop list, xác định các từ chỉ mục “tốt” Trước hết cần loại bỏ các hậu tố để đưa về từ gốc, ví dụ các từ như:

analysis, analyzing, analyzer, analyzed, analysing có thể chuyển về từ gốc là

“analy.” Từ gốc sẽ có tần số xuất hiện cao hơn so với các dạng thông thường

của nó Nếu sử dụng từ gốc làm chỉ mục, ta có thể thu được nhiều tài liệu có liên quan hơn là sử dụng từ ban đầu của nó

Trang 20

Đối với tiếng Anh, việc loại bỏ hậu tố có thể được thực hiện dễ dàng

bằng cách sử dụng danh sách các hậu tố có sẵn (Suffix List)

Sau khi có được danh sách các từ gốc, sử dụng phương pháp dựa vào

tần số (frequency – based) để xác định tầm quan trọng của các từ gốc này

Trong hệ thống chỉ mục có trọng số, trọng số của một từ được sử dụng

để xác định tầm quan trọng của từ đó Mỗi tài liệu được biểu diễn là một vector:

Di = (di1, di2, …, dit) trong đó dij là trọng số của từ j trong tài liệu Di

Mô hình xử lý tổng quát của một hệ thống được trình bày như sau:

Hình 1.2 Mô hình xử lý cho hệ thống lập chỉ mục

+ Chỉ mục cho tài liệu tiếng Việt

Lập chỉ mục cho tài liệu tiếng Việt cũng tương tự như cho tiếng Anh tuy nhiên có những khó khăn sau:

Tính trọng số và loại bỏ những

từ có trọng số thấp Loại bỏ hậu tố Lập chỉ mục

Danh sách

các stop word

Danh sách các hậu tố

CSDL chỉ mục

thông tin

Trang 21

 Xác định ranh giới giữa các từ (đơn, láy, ghép) trong câu Đối với tiếng Anh điều này quá dễ dàng vì khoảng trắng chính là ranh giới phân biệt các từ, ngược lại tiếng Việt thì khoảng trắng không phải là ranh giới để xác định các từ mà chỉ là ranh giới để xác định các tiếng (Ví dụ: từ “hợp tác xã” - có 3 âm tiết)

 Chính tả tiếng Việt còn có một số trường hợp “bất qui tắc” như sử dụng

"y" hay "i" (ví dụ "quý" hay "quí", “Địa lí” hay “Địa lý”), cách bỏ dấu ("Thuý" hay Thúy"), cách viết hoa tên riêng ("Đại học Hùng Vương" hay

"Đại Học Hùng Vương") đòi hỏi quá trình hiệu chỉnh chính tả cho văn bản cần lập chỉ mục và cho từ điển chỉ mục

 Tồn tại nhiều bảng mã tiếng Việt đòi hỏi khả năng xử lý tài liệu ở các bảng mã khác nhau Cách giải quyết là đưa tất cả về bảng mã chuẩn của

hệ thống

 Sự phong phú về nghĩa của một từ (từ đa nghĩa – từ đa nghĩa) Một từ có thể có nhiều nghĩa khác nhau trong những ngữ cảnh khác nhau liên quan đến từ loại trong tiếng Việt nên việc tìm kiếm khó có được kết quả với

độ chính xác cao Ví dụ: thiết tha, nghĩa gốc là tính từ chỉ mức độ tình

Trang 22

 Có quá nhiều từ mà mật độ xuất hiện cao nhưng không mang ý nghĩa cụ thể nào mà chỉ là những từ nối, từ đệm hoặc chỉ mang sắc thái biểu cảm như những từ láy Những từ này cần phải được xác định và loại bỏ ra khỏi tập các mục từ Nó giống như stop word trong tiếng Anh Ví dụ: tuy, và, nhưng, thế, là, duy nhất, …

 Các văn bản có nội dung chính là một vấn đề cụ thể, một đề tài nghiên cứu khoa học nhưng đôi khi trọng số của các từ chuyên môn này thấp so với toàn tập tài liệu Vì vậy, một số thuật toán tính trọng số bỏ sót những trường hợp như vậy Kết quả là các từ chuyên môn đó không được lập chỉ mục

 Trong các vấn đề trên thì vấn đề xác định ranh giới từ trong câu là quan trọng nhất vì nó ảnh hưởng lớn đến hiệu quả của quá trình lập chỉ mục (nếu quá trình tách từ sai có nghĩa là nội dung của câu bị phân tích sai)

và cũng là vấn đề khó khăn nhất Các vấn đề còn lại chỉ là thuần tuý về mặt kỹ thuật mà hầu như chúng ta có thể giải quyết một cách triệt để

1.1.4.3 Đo tính tương tự:

Truy vấn đa phương tiện trên cơ sở tính tương tự thay cho đối sánh chính xác giữa các item truy vấn và các item trong CSDL Tính tương tự được tính toán trên cơ sở các đặc trưng, thuộc tính trích chọn và dưới dạng một hay nhiều giá trị Tuy nhiên, tương quan của kết quả truy vấn do con người quyết định Các kiểu đặc trưng được sử dụng để mô tả các đối tượng đóng vai trò quan trọng để phù hợp với yêu cầu này Thước đo tính tương tự rất phức tạp

vì quyết định của người sử dụng là chủ quan và phụ thuộc ngữ cảnh

1.1.5 Hệ thống tìm kiếm thông tin (IR) [5][6]

Các hệ thống tự động tìm kếm thông tin (IR) đã được phát triển để quản

lý khối lượng lớn tài liệu từ những năm 40 của thế kỷ XX Chức năng chính của hệ thống IR là lưu trữ và quản trị khối lượng văn bản lớn theo cách sao

Trang 23

cho dễ dàng truy vấn (query) tài liệu mà người sử dụng quan tâm Sau đây là

định nghĩa về hệ thống tìm kiếm thông tin của một số tác giả:

Salton (1989):

“Hệ thống tìm kiếm thông tin xử lý các tập tin lưu trữ và những yêu cầu

về thông tin, xác định và tìm từ các tập tin những thông tin phù hợp với những yêu cầu về thông tin Việc tìm kiếm những thông tin đặc thù phụ thuộc vào sự tương tự giữa các thông tin được lưu trữ và các yêu cầu, được đánh giá bằng cách so sánh các giá trị của các thuộc tính đối với thông tin được lưu trữ

và các yêu cầu về thông tin.”

Kowalski (1997):

“Hệ thống tìm kiếm thông tin là một hệ thống có khả năng lưu trữ, tìm kiếm và duy trì thông tin Thông tin trong những trường hợp này có thể bao gồm văn bản, hình ảnh, âm thanh, video và những đối tượng đa phương tiện khác.”

Tìm kiếm thông tin là lĩnh vực nghiên cứu nhằm tìm ra các giải pháp giúp người sử dụng có thể tìm thấy các thông tin mình cần trong một khối lượng lớn dữ liệu Nhiệm vụ của một hệ thống tìm kiếm thông tin tương tự như nhiệm vụ tổ chức phân loại tài liệu và phục vụ việc tra cứu của một thư viện Một hệ thống tìm kiếm thông tin có hai chức năng chính: lập chỉ mục

(indexing) và tra cứu (interrogation) Lập chỉ mục là giai đoạn phân tích tài liệu (document) để xác định các chỉ mục (term/index term) biểu diễn nội dung

của tài liệu Việc lập chỉ mục có thể dựa vào một cấu trúc phân lớp có sẵn

(control vocabulary) như cách làm của các nhân viên thư viện, phân loại tài

liệu theo một bộ phân loại cho trước Các chỉ mục trong cách làm này là tồn tại trước và độc lập với tài liệu Cách thứ hai để lập chỉ mục là rút trích các

chỉ mục từ chính nội dung của tài liệu (free text) Trong luận văn này tác giả

chỉ đề cập đến cách thứ hai này Cuối giai đoạn lập chỉ mục nội dung của các

Trang 24

tài liệu có trong kho tài liệu (corpus) được biểu diễn bằng tập các chỉ mục

Mô hình tổng quát tìm kiếm thông tin (Hình 1.3)

Mô hình gồm 4 thành phần:

 Mô hình yêu cầu: Sử dụng để biểu diễn yêu cầu của người sử dụng

 Mô hình tài liệu: Biểu diễn trừu tượng tài liệu thực và nội dung của

chúng

 Hàm ánh xạ (đối sánh): Xác định sự phù hợp của hệ thống đối với yêu cầu

 Tri thức: Biểu diễn các tri thức để mô tả ngữ nghĩa thuộc lĩnh vực

tài liệu

Trong đó:

D - Biểu diễn các tài liệu Docs

Q - Biểu diễn câu truy vấn Query (yêu cầu) F- Khung mô hình hóa của D, Q và quan hệ giữa chúng R(q, di) - Hàm đối sánh hay xếp hạng

Hình 1.3 Mô hình tổng quát tìm kiếm thông tin

Phù hợp với người sử dụng

Phù hợp

hệ thống

Mô hình yêu cầu

Mô hình tài liệu Đối sánh

Tri thức

Thế giới thực

Hệ thống

Mô hình tìm kiếm thông tin

Trang 25

Quy trình của hệ tìm kiếm thông tin như sau:

 Người dùng muốn tìm một tài liệu liên quan đến một chủ đề nào đó

 Người dùng cung cấp một mô tả chủ đề đó dưới dạng câu truy vấn

 Từ câu truy vấn này, hệ thống sẽ lọc ra những cụm từ chỉ mục

 Những cụm từ chỉ mục này sẽ được so khớp với những từ chỉ mục của văn bản đã được xử lý

 Hệ thống sẽ trả về những văn bản có độ liên quan cao nhất

Mục đích của IR là hiển thị một tập thông tin thỏa mãn nhu cầu của người sử dụng Chúng ta định nghĩa thông tin yêu cầu là câu truy vấn

(Query), thông tin tìm được là tài liệu (Document) Mục đích của hệ thống IR

là tự động tìm kiếm các tài liệu bằng cách kiểm tra độ tương quan giữa câu truy vấn và đặc trưng của tài liệu Kết quả thành công khi kết quả trả về của

hệ thống phù hợp với yêu cầu của câu truy vấn

Hệ thống IR gồm các bản ghi không có cấu trúc Chúng không chứa các thuộc tính cố định Nó chỉ đơn thuần là tài liệu văn bản Các tài liệu này

có thể chỉ mục bằng các từ khóa, bộ mô tả tài liệu, hay các thuật ngữ (term)

chỉ mục Mỗi thuật ngữ chỉ mục được sử dụng để mô tả nội dung văn bản chỉ theo một khía cạnh nào đó, không đầy đủ và không rõ ràng cho toàn bộ nội dung văn bản Nhiều thuật ngữ chỉ mục được gắn theo tài liệu hay văn bản cụ thể Bởi vì các thao tác truy vấn văn bản phụ thuộc trực tiếp vào nội dung đại diện, sử dụng để mô tả các bản ghi lưu trữ, do vậy cần phải có nhiều cố gắng

để tập trung vào phân tích nội dung của các tài liệu lưu trữ và vấn đề sinh từ khóa, chỉ mục

Ở đây, sẽ không thực tế nếu coi trọng truy vấn trên cơ sở đối sánh chính xác giữa câu truy vấn và các thuật ngữ tài liệu để tìm ra tài liệu kết quả Thay vì, truy vấn các mục liên quan với đủ mức độ tương đồng giữa tập

Trang 26

thuật ngữ gần theo câu truy vấn và tài liệu, được sinh ra bởi phương pháp xấp xỉ hay đối sánh toàn phần Hơn nữa cùng thuật ngữ có thể có nhiều ý nghĩa khác nhau

Tóm lại, các tài liệu kết quả truy vấn trong DBMS là hoàn toàn liên quan đến câu truy vấn và có ích với người sử dụng Nhưng trong hệ thống IR, các tài liệu được xem như liên quan đến câu truy vấn nhưng có thể không liên quan và không có ích với người sử dụng

Hình 1.4 chỉ ra tiến trình truy vấn tài liệu cơ sở

Hình 1.4 Tiến trình truy vấn tài liệu

Đối sánh (tính toán mức

độ tương đồng)

Tài liệu truy vấn

Đánh giá mức

độ thích hợp và phản hồi

Trang 27

Phía phải hình 1.4 chỉ ra rằng các tài liệu được xử lý offline để có đại diện (mô tả) Các đại diện này được lưu trữ cùng với các tài liệu

Phía trái hình 1.4 chỉ ra quá trình truy vấn Người sử dụng đưa ra câu truy vấn và được xử lý online để có đại diện của mình Sau đó đối sánh đại diện truy vấn với đại diện tài liệu Các tài liệu được xem như tương đồng sẽ được trình diễn cho người sử dụng Họ đánh giá tài liệu cho lại và quyết định tài liệu nào thực sự tương đồng với thông tin họ cần Một hệ thống IR tốt cần phải cho phép người sử dụng cung cấp phản hồi thích hợp cho hệ thống Hệ thống sử dụng thông tin này để điều chỉnh truy vấn, đại diện truy vấn, hoặc/và đại diện tài liệu Tìm kiếm khác tiếp theo được thực hiện trên cơ sở câu truy vấn đại diện tài liệu đã hiệu chỉnh Nếu cần, tiến trình phản hồi tìm kiếm được thực hiện lặp vài lần Chú ý rằng, không phải tất cả các hệ thống IR đều có tiến trình phản hồi thích hợp

Các hệ thống tìm kiếm thường được sử dụng hiện nay:

Google Desktop:

Google desktop search giúp cho chúng ta có thể tìm kiếm một cách dễ dàng trong máy tính của mình giống như việc tìm kiếm trên web của google Google Desktop là một ứng dụng cung cấp cho chúng ta tìm kiếm một văn bản với từ khóa đầy đủ trong mail, các file, âm nhạc, ảnh, chat, Gmail, và các trang web nằm trong máy mình.Bằng việc làm cho có thể tìm kiếm được trên máy tính của mình, Desktop đặt những thông tin của người dùng vào trong tầm kiểm soát và rất linh hoạt trong việc tổ chức file mail và bookmark

Google Desktop không chỉ giúp chúng ta tìm kiếm trong máy mà còn

có thể giúp chúng ta lấy thông tin trên mạng và chúng được bố trí trong gadgets và sidebar Chúng ta có thể đặt Google Gadgets ở bất cứ chỗ nào trong máy tính, nó sẽ hiển thị thông tin về mail, thời tiết, ảnh, tin tức và nhiều

Trang 28

thứ khác Sidebar là vertical bar nằm trên máy có tác dụng tổ chức lại các Gadgets

DTSearch:

DTSearch là một hệ tìm kiếm thực hiện theo mô hình boolean Nó lập chỉ mục khá nhanh và có nhiều lựa chọn thích hợp cho người sử dụng Ngoài việc cung cấp giao diện tìm kiếm trực tiếp và lập chỉ mục thì DTSearch còn cung cấp thư viện dll dùng cho lập trình viên Thư viện dll này có khả năng lập chỉ mục, thực hiện tìm kiếm theo mô hình boolean Có thể nói DTSearch

là điển hình tìm kiếm văn bản theo mô hình boolean khá tốt hiện nay

Hệ tìm kiếm văn bản Lucene:

Hệ tìm kiếm văn bản Lucene là hệ tìm kiếm mã nguồn mở Hệ thống được phát triển cả trên nền Net và cả trên ngôn ngữ Java Hệ thống hiện cũng được khá nhiều lập trình viên phát triển

1.1.6 Xếp hạng tài liệu (Ranking) [1][4]

Một truy vấn Boolean cho một máy tìm kiếm có thể đáp ứng tới hàng vài nghìn tài liệu phù hợp, nhưng một người sử dụng thông thường sẽ chỉ có thể xem xét được một số lượng nhỏ các tài liệu tìm được đó Vì thế, xếp hạng các tài liệu phù hợp theo mức độ tương thích với người dùng là một vấn đề quan trọng, cũng là tiêu điểm trong việc đánh giá một phương pháp truy tìm

Chỉ qua một phần thông tin của người sử dụng được trích lọc biểu thị qua truy vấn, hệ thống sẽ tìm kiếm và trả lời bằng một tập các tài liệu phù hợp Yêu cầu đó không có thuật toán cụ thể, nhưng được đảm bảo chiến lược xếp hạng luôn ưu tiên cho những tài liệu hữu ích, tài liệu được coi là “gần” với truy vấn hơn sẽ được xếp lên trên tài liệu khác trong danh sách tài liệu trả lời Trên thực tế, thuật toán xếp hạng trong hệ thống IR phần lớn dựa trên mô hình không gian vector các tài liệu Một cách tiếp cận cổ điển để so sánh các truy vấn với các tài liệu:

Trang 29

Biểu diễn các truy vấn như các vector thuật ngữ, thành phần vector nhận giá trị 1 nếu thuật ngữ xuất hiện trong truy vấn và 0 trong trường hợp ngược lại

Biểu diễn vector thuật ngữ với các tài liệu sử dụng trọng số TF-IDF cho các thành phần trong vector

Sử dụng thước đo khoảng cách cosin để xếp hạng các tài liệu theo khoảng cách thuật ngữ với truy vấn

Mô hình trọng số TF-IDF được chứng minh rất hữu ích trong thực tế

Trong đó, TF (Term Frequency) là tần số xuất hiện thuật ngữ, nghĩa là mỗi

thành phần trong một vector thuật ngữ được tính bởi số lần thuật ngữ đó xuất

hiện trong tài liệu; IDF (Inverse Document Frequency) được tính bằng công

thức IDF = log(N/ni), với N là toàn bộ tài liệu trong tập hợp và ni là số các tài liệu chứa thuật ngữ i Với chỉ TF, nếu một thuật ngữ xuất hiện thường xuyên trong các tài liệu thì nó không phải là lựa chọn tốt làm thuật ngữ chỉ mục, vì nó không giúp phân biệt các tài liệu người sử dụng quan tâm với các tài liệu khác, tức là số lượng tài liệu được truy hồi lớn nhưng độ chính xác không cao IDF giúp cải thiện vấn đề này, trọng số của thuật ngữ sẽ rất cao nếu nó xuất hiện thường xuyên chỉ trong một vài tài liệu, tức là giúp tăng cường sự phân biệt

Cho D = (di1, di2, …, diM) là tập các tài liệu, với truy vấn Q biểu diễn như một tài liệu Trong đó, dij là trọng số thuật ngữ j trong tài liệu i, Qj biểu thị trọng số của thuật ngữ j trong truy vấn Q (i =1, 2 , N; j = 1, 2, , M) Các trọng số dij và Qj có thể là 1 (nếu chứa thuật ngữ) hay 0 (nếu không chứa thuật ngữ) trong đại số quan hệ; hoặc tính bằng TF-IDF hoặc có thể bằng nhiều cách khác Tài liệu Di được đánh giá là “gần” với truy vấn Q dựa vào thước

Trang 30

Khoảng cách cosin (cosin distance): Thước đo này được sử dụng khá

phổ biến trong các mô hình thực tế và được mô tả như sau:

Xét ví dụ, với 10 tài liệu (ký hiệu: d1, d2, , d10); và 6 thuật ngữ (ký hiệu: t1, t2, , t6) Trong đó:

t1 = cơ sở dữ liệu t2 = SQL t3 = chỉ mục

t4 = hồi quy t5 = khả năng t6 = đường kẻ

Ta sẽ lập được một ma trận tần số tài liệu - thuật ngữ M (106), trong

đó mỗi phần tử ij (hàng i, cột j) chứa số lần xuất hiện của thuật ngữ j trong tài liệu i

Bảng 1.1 Ma trận tài liệu - thuật ngữ

Trang 31

d 7 0 0 1 32 12 0

Giả sử, với một câu truy vấn Q chứa các thuật ngữ cơ sở dữ liệu và chỉ

mục, ta có thể biểu diễn truy vấn dưới dạng vector Q = (1, 0, 1, 0, 0, 0), tức là

thuật ngữ t1 và t3 xuất hiện trong truy vấn nên có giá trị là 1, còn lại nhận giá trị

là 0

Dựa vào ma trận tài liệu - thuật ngữ (bảng 1.1), ta tính được ma trận thuật ngữ - tài liệu với các thành phần trọng số TF-IDF, được biểu diễn trong

bảng sau: Giả sử trong ví dụ này, thuật ngữ cơ sở dữ liệu có trọng số thấp hơn

các thuật ngữ khác và ít có ý nghĩa vì nó xuất hiện trong hầu hết các tài liệu

Bảng 1.2 Ma trận kết quả tài liệu - thuật ngữ TF-IDF

Trang 32

quan hệ, đây là đại lượng đo khoảng cách mang lại sự xếp hạng cho mọi tài liệu, gồm ít nhất có một thuật ngữ phù hợp Dựa vào bảng 1.1 và 1.2 tính khoảng cách tương ứng theo TF và TF-IDF

Bảng 1.3 Kết quả khoảng cách từ truy vấn Q với các tài liệu

Document khoảng cách TF Khoảng cách TF-IDF

1.2 Bài toán tìm kiếm văn bản

Dữ liệu trong máy tính được lưu trữ dưới rất nhiều dạng khác nhau, nhưng sử dụng chuỗi vẫn là một trong những cách rất phổ biến Trên chuỗi các đơn vị dữ liệu không có ý nghĩa quan trọng bằng cách sắp xếp của chúng

Trang 33

Ta có thể thấy các dạng khác nhau của chuỗi như ở các file dữ liệu, hay chính văn bản chúng ta đang đọc

Kỹ thuật truy vấn tài liệu văn bản được gọi chung là kỹ thuật truy tìm

thông tin (IR) Các hệ thống IR cổ điển chủ yếu là làm việc trên văn bản (text)

và kỹ thuật IR trong hệ thống đa phương tiện rất quan trọng vì hai lý do chính sau đây:

- Đang tồn tại số lượng lớn tài liệu văn bản trong các thư viện Văn bản

là tài nguyên rất quan trọng đối với các cơ quan tổ chức Cần có IR đủ tốt để

sử dụng có hiệu quả các thông tin lưu trữ trong các tài liệu

- Văn bản được sử dụng để mô tả các phương tiện khác như video, audio, ảnh để có thể sử dụng các kỹ thuật IR qui ước vào việc truy vấn các thông tin đa phương tiện

Một hệ thống truy tìm thông tin tiêu biểu

Một hệ thống IR tiêu biểu được minh hoạ bằng phương pháp hộp đen Gồm ba thành phần: input, bộ xử lý và output

Bắt đầu với đầu vào (input), vấn đề chính ở đây là có được biểu diễn

của tài liệu và truy vấn thích hợp bằng máy tính Có thể nói các hệ thống truy tìm hầu hết dựa trên máy tính chỉ lưu trữ biểu diễn của tài liệu (hoặc truy vấn), có nghĩa là một tài liệu văn bản không sử dụng nữa khi nó đã được xử lý

để đưa ra các đặc trưng Ví dụ, một biểu diễn tài liệu có thể là một danh sách các từ được xem là quan trọng được trích ra

Khi một hệ thống truy tìm trực tuyến (online), người sử dụng có khả

năng thay đổi yêu cầu trong một phiên tìm kiếm ở trạng thái truy tìm mẫu, do

đó hy vọng cải thiện được quá trình truy tìm xảy ra sau Một thủ tục như vậy

thông thường cho phép phản hồi (Feedback)

Trang 34

Hình 1.5 Hệ thống IR tiêu biểu

Hơn nữa, bộ xử lý, một phần của hệ thống truy tìm có liên quan tới quá trình truy tìm Bộ xử lý có thể bao gồm cấu trúc thông tin theo cách thích hợp nào đó, giống như phân loại Trên thực tế, nó cũng bao gồm cả việc biểu diễn chức năng truy tìm, đó là thực hiện chiến lược tìm kiếm câu trả lời cho một truy vấn Trong biểu đồ, các tài liệu được đặt vào một ô riêng biệt để nhấn mạnh thực tế là không có đầu vào rõ ràng nhưng có thể sử dụng trong suốt quá trình truy tìm

Cuối cùng, chúng ta xét đến đầu ra thường là một tập trích dẫn hoặc các tài liệu Trong một hệ thống hoạt động đây là phần còn lại Tuy nhiên, một hệ thống thực nghiệm có thể cho phép thực hiện việc đánh giá

Processor

Documents

Queries

Output Input

Feedback

Trang 35

CHƯƠNG II MỘT SỐ VẤN ĐỀ VỀ TÌM KIẾM VĂN BẢN THEO NỘI DUNG 2.1 Mô hình Boolean [4][6][9]

Mô hình Boolean là mô hình cổ điển và đơn giản đã được sử dụng trước đây và cho đến nay vẫn còn được sử dụng trong các hệ thống IR Mô

hình Boolean dựa trên lý thuyết tập hợp (set theory) và đại số Boolean (Boolean algebra) Mô hình Boolean phổ biến bởi vì cả lý thuyết tập hợp và

đại số Boolean có mối quan hệ đơn giản và dễ hiểu, vì vậy các hệ IR được xây dựng trên mô hình này, người dùng dễ dàng sử dụng

Với mô hình Boolean văn bản được biểu diễn bởi một vector nhị phân,

tức là các vector có các phần tử thuộc {0, 1} Từ chỉ mục thứ k i xuất hiện

trong văn bản d j thì trọng số w ij = 1, ngược lại w ij = 0

Tất cả các truy vấn được biểu diễn bởi các biểu thức Boolean, sử dụng

ba phép toán cơ bản: not, and, or

Văn bản truy vấn sử dụng mô hình này được xem như: hoặc liên quan đến nội dung truy vấn hoặc không, ở đây không có cách để để tìm các văn bản

chỉ liên quan cục bộ hay còn gọi là liên quan một phần (partially relevant)

của câu truy vấn

Trang 36

Ưu điểm của mô hình Boolean:

 Là mô hình rất đơn giản trên cơ sở lý thuyết tập hợp

 Dễ hiểu và dễ cài đặt

 Được sử dụng trong hầu hết các hệ thống thương mại

Nhược điểm của mô hình Boolean:

 Vì dựa trên phép toán logic nhị phân nên một văn bản được tìm kiếm chỉ xác định hai trạng thái: liên quan hoặc không với câu truy vấn

 Việc chuyển một câu truy vấn của người dùng sang dạng biểu thức Boolean không đơn giản

 Kết quả truy vấn rất phụ thuộc vào biểu thức truy vấn

 Các tài liệu trả về không được sắp xếp (ranking)

2.2 Mô hình ti ̀m kiếm không gian vector [2][4][9]

Khái niệm mô hình truy tìm Bool đơn giản và được sử dụng trong hầu hết các hệ thống thương mại Tuy nhiên tương đối khó hình thành các câu truy vấn Bool và kết quả truy vấn rất nhạy cảm với công thức truy vấn Trọng

số thuật ngữ truy vấn thường không được sử dụng vì các câu truy vấn thường rất ngắn Để tránh vấn đề này, các mô hình truy tìm khác như không gian

vector, thống kê và trên cơ sở cụm (cluster) được sử dụng thay thế

Trang 37

Mô hình không gian vector giả sử rằng tồn tại tập cố định các thuật ngữ chỉ mục để đại diện tài liệu và câu truy vấn Tài liệu Di và câu truy vấn Qjđược biểu diễn như hai vector:

Di = [Ti1, Ti2, , Tik, , TiN]

Qj = [Qj1, Qj2, , Qjk, , QjN]

trong đó, Tik là trọng số của thuật ngữ k trong tài liệu i, Qjk là trọng số của thuật ngữ k trong truy vấn j, và N là tổng số thuật ngữ sử dụng trong các tài liệu và truy vấn

Các trọng số thuật ngữ Tik và Qjk có thể là nhị phân (1 hoặc 0) hay TF.IDF hay trọng số có được từ các cách khác

Việc truy tìm trong mô hình không gian vector được thực hiện dựa trên

cơ sở tính tương đồng giữa câu truy vấn và các tài liệu Độ tương đồng giữa tài liệu Di và câu truy vấn Qj được tính như sau:

D S

1 )

, (

Để bù vào độ chênh lệch giữa kích thước tài liệu và kích thước câu truy vấn, tính tương đồng nói trên có thể chuẩn hóa với  là góc của hai vector

(gọi là khoảng cách cosin) và được biểu diễn như sau:

k ik

N

k

jk ik

j i

j i j

i

Q T

Q T Q

D

Q D Q

D S

1 2 1

2 1

) ,

Trang 38

Hệ thống sẽ cho lại danh sách tài liệu theo thứ tự D2, D5, D4, D1 và D3 Nếu M là tổng số tài liệu, cần O(M) so sánh trong trường hợp tồi nhất Nếu có N thuật ngữ, cần O(N) thời gian so sánh Vậy tổng số thời gian đòi hỏi tính toán sẽ là O(N×M) Thông thường N×M là một số rất lớn, do vậy, người

ta phải phát triển các kỹ thuật khác để tìm kiếm thuật ngữ trong tập tài liệu

Ưu điểm của mô hình không gian vector:

 Đơn giản, dễ hiểu

 Cài đặt đơn giản

 Khắc phục các hạn chế trên mô hình Boolean

Nhược điểm mô hình không gian vector:

 Coi các thuật ngữ không có quan hệ với nhau

Trang 39

 Số chiều biểu diễn cho tập văn bản có thể rất lớn nên tốn nhiều không gian lưu trữ

2.3 Mô hình ti ̀m kiếm theo xác suất [1][4]

Mô hình truy tìm theo xác suất xem xét các phụ thuộc và quan hệ của các thuật ngữ Nó dựa trên bốn tham số sau đây:

P(rel): Xác suất tính phù hợp của tài liệu

P(nonrel): Xác suất tính không phù hợp của tài liệu

a1 : Giá kết hợp với việc truy tìm tài liệu không liên quan

a2 : Giá kết hợp với việc không truy tìm tài liệu liên quan

Vì việc truy tìm tài liệu không phù hợp hết a1P(nonrel) và loại bỏ các tài liệu phù hợp hết a2P(rel), tổng số thời gian truy tìm sẽ tối ưu nếu:

a2P(rel)  a1P(nonrel) Nhiệm vụ chính của mô hình truy tìm xác suất là dự báo P(rel) và

P(nonrel) như thế nào Điều này thông thường được thực hiện với giả sử rằng

sự phân bổ xuất hiện một số thuật ngữ trong các tài liệu

Ưu điểm của mô hình xác suất:

 Văn bản được sắp xếp dựa vào xác suất liên quan đến câu truy vấn

Nhược điểm mô hình xác suất:

 Mô hình không quan tâm đến số lần xuất hiện của từ chỉ mục trong văn bản

 Việc tính toán xác suất khá phức tạp, tốn nhiều chi phí

 Rất khó khăn để có được P(rel) và P(nonrel)

2.4 Mô hình tìm kiếm dựa trên cơ sở cụm [4][7]

Trong các mô hình truy tìm thông tin đã khảo sát trên đây, các tài liệu tương tự có thể không gần kề trong hệ thống tệp Với loại tổ chức tệp này, rất

Trang 40

khó cài đặt khả năng duyệt (browsing) Hiệu quả của truy tìm sẽ thấp vì

không thể tìm ra mọi mục phù hợp và phải tìm kiếm trên toàn bộ không gian tài liệu Để vượt qua bất lợi này, hãy cụm (nhóm) các tài liệu tương đồng vào

các cụm (cluster)

Các cụm được biểu diễn bởi một vài thuộc tính nào đó, được gọi đại diện cụm Đại diện cho một cụm giống như một truy vấn đầu vào, sẽ được phán đoán bên trong cụm chứa những tài liệu phù hợp với truy vấn Nói cách khác, chúng ta hy vọng đại diện cụm để phân biệt những tài liệu phù hợp với những tài liệu không phù hợp khi đối sánh với bất kỳ truy vấn nào

Sinh cụm

Hai tiệm cận tổng quát khi sinh cụm là:

- Tiệm cận thứ nhất: Trên cơ sở tính tương tự mọi cặp (pairwise) tài

liệu, hãy nhóm các mục tương tự vào cụm chung Trong tiệm cận trên cơ sở tính tương tự từng cặp, mỗi tài liệu được đại diện như “vector tài liệu” trong

mô hình không gian vector Sau đó mức độ tương đồng giữa cặp tài liệu được tính toán Trong tiến trình cụm, mỗi tài liệu được khởi đầu trong một lớp

(class) và sau đó hai tài liệu tương tự nhau nhất trên cơ sở tính tương tự của

cặp được tổ hợp trong một cụm Tính tương đồng giữa cụm mới hình thành và các tài liệu khác được tính toán, sau đó tài liệu tương đồng nhất (kể cả cụm) được tổ hợp vào cụm mới Tiến trình tổ hợp tiếp tục cho mọi tài liệu được nhóm vào cụm cao hơn Đó là tiến trình cụm phân cấp

Các phương pháp cụm phân cấp trên cơ sở tính tương đồng giữa các tài liệu là khá đắt khi thực hiện Nhưng phương pháp này sinh ra tập duy nhất các cụm cho mỗi tập tài liệu

- Tiệm cận thứ hai: Sử dụng phương pháp heuristic không đòi hỏi tính toán tính tương tự cặp tài liệu

Định dạng
Số trang	80
Dung lượng	0,9 MB