Mô hình Boolean dựa trên lý thuyết tập hợp và đại số logic Câu truy vấn được phân tích thành các từ khóa truy vấn. Các tài liệu được đánhgiá bởi việc có chứa hoặc không chứa các từ khóa truy vấn. Mô hình không gian vector được phát triển bởi Gerard Salton, trong đó tài liệuvà câu truy vấn được biểu diễn dưới dạng các vector. Mỗi chiều của vector tươngứng với một mục từ (term). Term – viết tắt của terminology nghĩa là thuật ngữ,là một từ hay cụm từ biểu thị một khái niệm khoa học. Nếu term này xuất hiệntrong tài liệu thì giá trị của nó trong vector đặc trưng là khác 0. Một văn bản dđược biểu diễn như một vector của các từ chỉ mục
Trang 1ĐẠI HỌC GIAO THÔNG VẬN TẢI – HCMC
BỘ MÔN CÔNG NGHỆ THÔNG TIN
BÁO CÁO
Môn học: chuyên đề công nghệ thông tin
Đề tài: Tìm hiểu về Information Retrieval
Nhóm sinh viên thực hiện: Mã sinh viên:
1 Bùi Văn Hiệp (nhóm trưởng) 5451074036
Trang 2Trường đại học giao thông vận tải - HCMC
Mục lục
Mục lục 1
Chương 1 Giới thiệu về Information Retrieval 2
1.1.Khái niệm Information Retrieval (truy hồi thông tin): 2
1.2.Khái niệm Documents 2
1.3.Khái niệm Query 2
1.4.Best-Match Retrieval 3
Chương 2 Lịch sử hình thành và phát triển của IR 4
2.1.Trước năm 1900: 4
2.2.Năm 1920 năm 1930 4
2.3.Năm 1940 năm 1950 4
2.4.Giữa những năm 1960 : 7
2.5.Những năm 1970 7
2.6.Những năm 1980 8
2.7.Những năm 1990 8
Chương 3 Cấu trúc hệ thống IR 9
3.1.Các thành phần trong hệ thống IR: 9
3.2.Mô tả chi tiết một số thành phần trong hệ thống IR 9
Chương 4 Phân loại hệ thống truy hồi thông tin 13
4.1.Phân loại hệ thống tìm kiếm thông tin 13
4.2.Hệ thống tìm kiếm dựa trên khái niệm (sematic search) 15
Chương 5 Một số kỹ thuật tìm kiếm 19
5.1.Mô hình Boolean 19
5.2.Mô hình Boolean mở rộng (lập chỉ mục ngược) 21
5.3.Mô hình không gian vector 23
Trang 3Chương 1: Giới thiệu về Information Retrieval Chương 1 Giới thiệu về Information Retrieval
1.1 Khái niệm Information Retrieval (truy hồi thông tin):
- Là tìm kiếm thông tin (thường là các tài liệu) ở một dạng phi cấu trúc (thông
thường là văn bản) thỏa mãn nhu cầu tìm kiếm thông tin từ trong những nguồn thông tin lớn (được lưu trữ trên máy tính)
1.2 Khái niệm Documents
Hình 1.1 Các loại của document
Bài báo, tạp chí
Hình ảnh
Âm thanh Video
Văn bản, chuỗi các kí tự
Document
Trang 4Chương 1: Giới thiệu về Information Retrieval
Hình 1.2 Phân loại query
1.4 Best-Match Retrieval
- So sánh thuật ngữ trong một document và query
- Tính độ tương quan giữa mỗi document trong kho tài liệu và query dựa trên thuật
ngữ mà chúng có điểm chung
- Sắp xếp các documents theo thứ tự giảm dần độ tương quan với query
- Kết quả đầu ra là một danh sách sắp xếp các documents và hiển thị đến người
dùng mà các documents có độ liên quan cao được đánh giá bởi hệ thống
Hình 1.3 Information retrieval process
Query
Cụm từ truy vấn EX: information technology, social organization, proffessional environment…
Bao gồm 2, 3 từ thậm chí là nhiều các từ khóa EX: dress, computer, telephone…
Dạng truy vấn logic
có giá trị đúng hoặc sai
EX: She is beautiful,
It is sunny and warm
Trang 5Chương 2: Lịch sử hình thành và phát triển của IR Chương 2 Lịch sử hình thành và phát triển của IR
- Emanuel Goldberg nộp bằng sáng chế cho "Máy thống kê" của mình một công
cụ tìm kiếm tài liệu được sử dụng tế bào quang điện và nhận dạng mẫu để tìm kiếm siêu dữ liệu trên cuộn văn bản microfilmed
2.3 Năm 1940 năm 1950
- Cuối những năm 40 : Quân đội Mỹ phải đối mặt các vấn đề về lập chỉ mục và tìm kiếm các tài liệu nghiên cứu khoa học trong chiến tranh bị bắt từ Đức
- 1945 : As We May Think của Vannevar Bush xuất hiện trong Atlantic Monthly
- 1947 : Hans Peter Luhn (kỹ sư nghiên cứu tại IBM kể từ năm 1941) bắt đầu làm việc trên một hệ thống đấm thẻ dựa trên cơ cho việc tìm kiếm các hợp chất hóa học
- Năm 1950 : Trồng quan tâm tại Hoa Kỳ trong một "khoảng cách khoa học" với Liên Xô thúc đẩy, khuyến khích tài trợ và cung cấp một bối cảnh cho các hệ thống tìm kiếm tài liệu cơ ( Allen Kent) Và việc phát minh ra dẫn lập chỉ mục ( Eugene Garfield)
- 1950 : Thuật ngữ "thu hồi thông tin" được đặt ra bởi Calvin Mooers
- 1951 : Philip Bagley tiến hành các thí nghiệm đầu tiên trong thu hồi tài liệu trên máy vi tính trong một luận án thạc sĩ tại MIT
- 1955 : Allen Kent gia nhập Case Western Reserve University , và cuối cùng trở thành phó giám đốc của Trung tâm Tư liệu và Nghiên cứu Truyền thông Cùng năm đó, Kent và các đồng nghiệp công bố một bài báo trong tài liệu của Mỹ mô
Trang 6Chương 2: Lịch sử hình thành và phát triển của IR
đánh giá một hệ thống IR bao gồm các phương pháp lấy mẫu thống kê để xác định số lượng các tài liệu liên quan không được lấy
- 1958 : Hội nghị quốc tế về Thông tin Khoa học Washington DC bao gồm việc
xem xét các hệ thống hồng ngoại như một giải pháp cho vấn đề xác định Xem: Kỷ
yếu của Hội nghị quốc tế về thông tin khoa học, 1958 (National Academy of
- Kent xuất bản Information Analysis và Retrieval
- 1963 :
- Báo cáo Weinberg "Khoa học, Chính phủ và Thông tin" đã đưa ra một phát âm đầy đủ các ý tưởng về một "cuộc khủng hoảng thông tin khoa học." Báo cáo này được đặt theo tên của Tiến sĩ Alvin Weinberg
- Joseph Becker và Robert M Hayes công bố văn bản về thông tin Becker,
Joseph; Hayes, Robert Mayo: Thông tin lưu trữ và truy xuất: công cụ, các yếu
tố, các lý thuyết New York, Wiley (1963)
- 1964 :
- Karen Spärck Jones hoàn thành luận án của mình tại Cambridge, đồng nghĩa và
phân loại ngữ nghĩa, và tiếp tục công việc về ngôn ngữ học tính toán khi áp dụng
cho IR
- Các Cục Tiêu chuẩn Quốc gia tài trợ cho một hội thảo mang tên "Hiệp hội thống
kê Phương pháp Tài liệu cơ giới." Một số bài báo rất quan trọng, bao gồm cả tài
Trang 7Chương 2: Lịch sử hình thành và phát triển của IR
liệu tham khảo được xuất bản đầu tiên của G Salton (we believe) cho hệ thống thông minh
Trang 8Chương 2: Lịch sử hình thành và phát triển của IR 2.4 Giữa những năm 1960 :
- Thư viện Y khoa Quốc gia phát triển: MEDLARS y tế Phân tích Văn học và hệ thống Retrieval, cơ sở dữ liệu máy tính có thể đọc được và truy hồi hệ thống lớn đầu tiên
- Dự án Intrex tại MIT
- 1965 : JCR Licklider xuất bản Libraries of the Future
- 1966 : Don Swanson đã tham gia vào nghiên cứu tại Đại học Chicago về yêu cầu cho Catalogs tương lai
- Cuối những năm 60 : F Wilfrid Lancaster hoàn thành nghiên cứu đánh giá hệ thống MEDLARS và xuất bản các ấn bản đầu tiên của văn bản của mình về thông tin
- 1975 : Ba ấn phẩm có ảnh hưởng lớn bởi Salton hoàn toàn khớp khuôn khổ và phân biệt đối xử hạn mô hình xử lý vector của mình:
A Theory of Indexing (Society for Industrial and Applied Mathematics)
Trang 9Chương 2: Lịch sử hình thành và phát triển của IR
A Theory of Term Importance in Automatic Text Analysis
A Vector Space Model for Automatic Indexing
- 1978 : Hội nghị ACM SIGIR đầu tiên
- 1979 : CJ Van Rijsbergen xuất bản Information Retrieval (Butterworths) Nhấn
mạnh vào mô hình xác suất
- 1979 : Tamas Doszkocs thực hiện các CITE giao diện người dùng ngôn ngữ tự nhiên cho MEDLINE tại Thư viện Y khoa Quốc gia Hệ thống CITE hỗ trợ đầu vào truy vấn hình thức miễn phí, sản lượng xếp và thông tin phản hồi liên quan
- 1983 : Salton (và Michael J McGill) xuất bản Introduction to Modern Information Retrieval (McGraw-Hill), với nhấn mạnh vào mô hình vector
- 1985 : David Blair và Bill Maron xuất bản: An Evaluation of Retrieval Effectiveness for a Full-Text Document-Retrieval System
- Giữa những năm 1980 : Nỗ lực để phát triển các phiên bản của người dùng cuối của hệ thống IR thương mại
2.7 Những năm 1990
- 1992 : Hội nghị TREC diễn ra đầu tiên
- 1997 : Công bố của Korfhage Information Storage and Retrieval với sự nhấn
mạnh vào hệ thống trực quan và đa điểm tham khảo
- Cuối những năm 1990 : Công cụ tìm kiếm web thực hiện nhiều tính năng trước đây chỉ được tìm thấy trong các hệ thống IR nghiệm Công cụ tìm kiếm trở thành instantiation phổ biến nhất và có lẽ tốt nhất của các mô hình IR
Trang 10Chương 3: Cấu trúc hệ thống IR Chương 3 Cấu trúc hệ thống IR
Hình 3.1 Cấu trúc hệ thống IR
3.1 Các thành phần trong hệ thống IR:
- User interface: là giao diện người dùng nhằm mục đích giúp cho người dùng tìm kiếm thông tin và nhận kết quả tìm kiếm thông tin
- Text operations: Là nơi tiếp nhận thông tin tìm kiếm của người dùng, sau đó xử
lý thông tin đó nhằm giúp cho hệ thống hiểu được thông tin mà người dùng hướng tới
- Query operation: các thao tác truy vấn dữ liệu nhằm tạo ra câu truy vấn sau đó truy xuất thông tin trong hệ thống
- Searching: Sau khi truy vấn được xử lý thì hệ thống sẽ bắt đầu tìm kiếm thông tin có trong hệ thống
- Ranking: Xếp hạng các tài liệu theo mức độ liên quan của thông tin, tài liệu nào
có mức độ liên quan càng cao thì sẽ nằm ở top
- Indexing: Xây dựng chỉ mục cho tài liệu nhằm tăng tốc độ truy xuất thông tin, giúp hệ thống trả về kết quả nào tốt nhất cho người dùng
- Database manager: Là nơi chứa dữ liệu các tài liệu trong hệ thống, khi người dùng truy vấn đến hệ thống thì sẽ truy xuất thông tin từ đây để trả về kết quả hiển thị cho người dùng
3.2 Mô tả chi tiết một số thành phần trong hệ thống IR
Trang 11Chương 3: Cấu trúc hệ thống IR 3.2.1 Giai đoạn tiền xử lý
Loại bỏ từ dừng
Ví dụ: Ta có đoạn tài liệu sau
Kết quả sau khi dùng phương pháp loại bỏ từ dừng:
Việc loại bỏ từ dừng có ý nghĩa làm giảm kích cỡ của tài liệu, đồng thời loại bỏ những từ có tần xuất xuất hiện cao trong hầu hết các tài liệu mà những từ này lại
không mang nội dung có nghĩa Một số từ dừng thông dụng như: a, the, it, of…
Lấy gốc từ
Lấy gốc từ là quá trình thu gọn một từ về dạng ngữ pháp gốc của nó
Ví dụ:
Computes, computting, computer có gốc từ là compute
Việc lấy gốc từ trước khi xây dựng chỉ mục có ưu điểm là làm giảm kích thước chỉ mục và cho phép truy vấn tài liệu một cách dễ dàng hơn
Indexing (lập chỉ mục)
Sử dụng phương pháp inverted file
Sẽ giúp hệ thống đọc được tài liệu, sau đó phân tích các từ trong tài liệu và gán chỉ mục cho tài liệu đó, tài liệu nào có số chỉ mục càng cao thì tầm quan trọng của tài liệu
đó càng lớn
Ví dụ: Ta có 2 tài liệu cần được phân tích như sau:
Trang 12Kết quả cuối cùng của việc lập chỉ mục cho tài liệu, tần số xuất hiện của từ chính
là chỉ mục của tài liệu:
Trang 13Chương 3: Cấu trúc hệ thống IR
3.1.2 Giai đoạn thu thập thông tin
Query operation: Nhu cầu truy xuất thông tin của người dùng thường được phát
biểu ở dạng ngôn ngữ tự nhiên, tập các từ khóa, đây là bước quan trọng vì nó giúp cho
hệ thống hiểu được cái mà người dùng đang cần là gì, từ đó đáp ứng được nhu cầu đó
Để hiểu được yêu cầu của người dùng, thì hệ thống sẽ phân tích yêu cầu của người dùng tương tự như trong quá trình tiền xử lý
Searching: Tìm kiếm là quá trình tìm kiếm các từ trong tài liệu và các từ trong
truy vấn để đánh giá độ liên quan giữa tài liệu với nhu cầu của người dùng Kết quả của quá trình tìm kiếm có thể phù hợp tuyệt đối hoặc một phần
Ranking: Các tài liệu thu thập được sẽ được đánh giá theo độ liên quan tương đối
của truy vấn, tài liệu nào có độ liên quan cao thì có số ranking càng bé, nhờ vậy mà
Trang 14Chương 4: Phân loại hệ thống truy hồi thông tin Chương 4 Phân loại hệ thống truy hồi thông tin
4.1 Phân loại hệ thống tìm kiếm thông tin
- Phân loại theo cách xây dựng từ chỉ mục: có 2 cách:
Cách thứ nhất: là dùng tập chỉ mục được xây dựng từ tập từ hay cụm từ được rút trích từ chính nội dung của tài liệu, cách lập chỉ mục này gọi là lập chỉ mục free-text Các mô hình như Boolean, mô hình không gian vector(Vector Space Model), các mô hình xác suất đều lập chỉ mục theo cách này
Cách thứ hai: là dựa vào một cấu trúc phân lớp có sẵn, phân loại tài liệu theo một danh mục tiêu đề đề mục có sẵn Tập chỉ mục trong cách làm này là tồn tại trước và độc lập với tài liệu, cách lập chỉ mục này gọi là controlled vocabulary
- Phân loại theo đơn vị thông tin: có 2 cách:
Hệ thống tìm kiếm thông tin dựa trên từ khóa: sử dụng từ khóa biểu diễn tài liệu và câu truy vấn Đây là cách làm phổ biến của các hệ thống tìm kiếm trước đây Tiêu biểu là mô hình Boolean, mô hình không gian vector,
mô hình xác xuất và LSI
Hệ thống tìm kiếm thông tin dựa trên khái niệm (sematic search): sử dụng khái niệm biểu diễn tài liệu và câu truy vấn
Trang 15Chương 4: Phân loại hệ thống truy hồi thông tin 4.1 Hệ thống tìm kiếm thông tin dựa trên từ khóa:
- Một hệ thống tìm kiếm trên web có 3 thành phần chính: bộ thu nhập thông tin,
bộ lập chỉ mục và bộ truy vấn
4.1.1 Bộ thu nhập thông tin – Robot
- Robot là một chương trình tự động duyệt qua các cấu trúc siêu liên kết để thu thập tài liệu và nó nhận về tất cả các tài liệu có liên lết với tài liệu này Về bản chất robot chỉ là một chương trình duyệt và thu thập thông tin từ các site theo đúng giao thức web Những trình duyệt thông thường không được xem là robot
do thiếu tính chủ động, chúng chỉ duyệt web khi có sự tác động của con người
ở trnag nào, địa chỉ nào
Trang 16Chương 4: Phân loại hệ thống truy hồi thông tin
- Bộ phận tìm kiếm có nhiệm vụ so khớp câu truy vấn của người dùng với tập chỉ mục đã lập của các tài liệu để đánh giá độ liên quan của các tài liệu với câu truy vấn và trả về các tài liệu liên quan, được sắp xếp theo độ liên quan của nó với câu truy vấn
- Đối với những động cơ tìm kiếm theo từ khóa, tìm kiếm từ là tìm kiếm các trang
mà những từ trong câu truy vấn (query) xuất hiện nhiều nhất, ngoại từ stopword
( như các mạo từ, giới từ…) Một từ các xuất hiện nhiều trong một trang thì trang
đó càng được chọn để trả về cho người dùng Và một trang chứa tất cả các từ trong câu truy vấn thì tốt hơn là một trang không chứa hoặc chứa một số từ Ngày nay, hầu hết các động cơ tìm kiếm đều hỗ trợ chức năng tìm cơ bản và nâng cao, tìm từ đơn, từ ghép, cụm từ, danh từ riêng, hay giới hạn phạm vi tìm kiếm như trên đề mục, tiêu đề, đoạn văn bản giới thiệu về trang web,…
4.2 Hệ thống tìm kiếm dựa trên khái niệm (sematic search)
- Trong mô hình tìm kiếm thông tin dựa trên khái niệm, nội dung của một đối tượng thông tin được mô tả bởi một tập các khái niệm Hệ thống tìm kiếm dựa trên khái niệm cũng có chức năng, nguyên lý hoạt động và các bộ phận cấu thành như hệ thống tìm kiếm tổng quát Tuy nhiên, khác biệt lớn nhất giữa hệ tìm kiếm dựa trên khái niệm và hệ tìm kiếm dựa trên từ khóa ở hai điểm sau:
Hệ tìm kiếm dựa trên từ khóa sẽ sử dụng từ khóa để lập chỉ mục, trong khi
hệ tìm kiếm dựa trên khái niệm sử dụng khái niệm để lập chỉ mục
Để rút trích khái niệm, hệ tìm kiếm dựa trên khái niệm cần sử dụng đến nguồn tri thức về lĩnh vực nhất định nào đó
Trang 17Chương 4: Phân loại hệ thống truy hồi thông tin
Hình: Hệ thống tìm kiếm dựa trên khái niệm
- Kiến trúc hệ thống tìm kiếm dựa trên khái niệm được cấu thành từ 3 bộ phận chính đó là bộ thu thập thông tin, bộ lập chỉ mục khái niệm và bộ truy vấn
4.2.1 Bộ thu thập thông tin
- Giống bộ thu thập thông tin trong một hệ thống tìm kiếm dựa trên từ khóa Nó có chức năng thu thập các trang web trên Internet và lưu trữ lại trong cơ sở dữ liệu Chức năng này được thực hiện lặp đi lặp lại thường xuyên để cập nhật những trang Web mới vào trong bộ cơ sở dữ liệu
Trang 18Chương 4: Phân loại hệ thống truy hồi thông tin
- Điều khác biệt cơ bản nhất giữa một động cơ tìm kiếm theo khái niệm và động
cơ tìm kiếm theo từ khóa nằm ở bộ phận lập chỉ mục Đây cũng là bộ phận quan trọng nhất trong toàn bộ hệ thống Với những động cơ tìm kiếm dựa trên từ khóa,
hệ thống sẽ lập chỉ mục theo từ khóa, với những động cơ tìm kiếm dựa trên khái niệm, hệ thống sẽ lập chỉ mục theo khái niệm
- Để có bộ khái niệm, hệ thống cần thực hiện công việc rút trích toàn bộ các khái niệm trong cơ sở dữ liệu để phục vụ cho quá trình lập chỉ mục.Như vậy, trong bộ
lập chỉ mục sẽ có 2 nhiệm vụ rất quan trọng là rút trích các khái niệm từ tập cơ
sở dữ liệu và lập chỉ mục cho các tài liệu dựa trên các khái niệm đó
- Quy trình chung của rút trích khái niệm:
Rút trích khái niệm là nhiệm vụ khó khăn nhất của một hệ thống tìm kiếm dựa trên khái niệm Quá trình này gồm hai giai đoạn chính là: rút trích các
từ chỉ mục trong tài liệu và so khớp các cụm từ này với nguồn tri thức
Giai đoạn rút trích các cụm từ trong tài liệu:
o Đầu tiên, một tài liệu sẽ được đưa vào để tách thành các thành phần khác nhau như danh từ, cụm danh từ, động từ, cụm động từ, tính từ, cụm tính từ,
o Tiếp theo, hệ thống bắt đầu tạo ra các biến thể từ các thành phần đó
Giai đoạn so khớp các cụm từ này với nguồn tri thức:
o Sau khi đã có tập các biến thể, hệ thống sẽ xem xét xem những biến thể nào có trong cơ sở tri thức chứa các khái niệm thì sẽ đưa vào thành tập ứng viên
o Sau đó, tập ứng viên này sẽ được đánh giá và cho điểm theo những tiêu chí nhất định nào đó và sắp xếp lại theo điểm số
o Cuối cùng là việc chọn lựa các ứng viên để đưa vào tập khái niệm.Hệ thống
sẽ tìm ra những ứng viên phù họrp nhất để tạo thành khái niệm, gọi là tập các khái niệm được rút trích từ tài liệu
4.2.3 Bộ truy vấn
- Cũng giống như bộ truy vấn của hệ tìm kiểm dựa trên từ khóa Bộ truy vấn của
hệ thống dựa trên khái niệm có chức năng lấy nội dung câu truy vấn do người