XÂY DỰNG HỆ THỐNG TÌM KIẾM TÀI LIỆU DỰA TRÊN VỊ TRÍ

Những thiết bị này không đơn thuần chỉ là một công cụ để liên lạc nữa, mà khi được kết nối internet, nó đã mở ra nhiều tiềm năng phát triển cho các dịch vụ có sử dụng vị trí của người dù

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

* _

ĐỒ ÁN

TỐT NGHIỆP ĐẠI HỌC

NGÀNH CÔNG NGHỆ THÔNG TIN

XÂY DỰNG HỆ THỐNG TÌM KIẾM TÀI

LIỆU DỰA TRÊN VỊ TRÍ

Trang 2

PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP

1 Thông tin về sinh viên:

Họ và tên sinh viên: Vũ Hà Dũng

Điện thoại liên lạc: 01679704032 Email: vuhadung.vn90@gmail.com Lớp: Tin Pháp K53 Hệ đào tạo: Chính quy

Đồ án tốt nghiệp được thực hiện tại: Phòng 702 tòa nhà B1, Viện Công nghệ Thông tin và Truyền thông, Đại học Bách Khoa Hà Nội

Thời gian làm ĐATN: Từ ngày 28/02/2013 đến ngày 15/05/2013

2 Mục đích nội dung của ĐATN: Tìm hiểu và triển khai kỹ thuật tìm kiếm thông tin văn bản và thông tin vị trí Xây dựng và cài đặt thử nghiệm một hệ thống tìm kiếm tài liệu dựa trên vị trí

3 Các nhiệm vụ cụ thể của ĐATN:

 Tìm hiểu cơ sở lý thuyết của tìm kiếm thông tin văn bản và tìm kiếm dựa trên vị trí

 Đề xuất thuật toán đánh giá xếp hạng văn bản dựa trên cả từ khóa lẫn vị trí

 Cài đặt, đánh giá hệ thống thử nghiệm

4 Lời cam đoan của sinh viên:

Tôi – Vũ Hà Dũng – cam kết ĐATN là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của TS Vũ Tuyết Trinh

Các kết quả nêu trong ĐATN là trung thực, không phải là sao chép toàn văn của bất kỳ công trình nào khác

Hà Nội, ngày 15 tháng 05 năm 2013

Hà Nội, ngày tháng năm 2013

Giáo viên hướng dẫn

TS Vũ Tuyết Trinh

Trang 3

TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP

Ngày nay, cùng với sự phát triển của công nghệ thông tin, số lượng các tài liệu điện tử cũng gia tăng từng ngày Đến nay, số lượng các tài liệu được lưu trữ lên đến hàng tỷ trang Trong khi đó, nhu cầu khai thác trong kho tài liệu khổng lồ này để tìm kiếm những thông tin cần thiết đang là nhu cầu thường ngày và thiết thực của người sử dụng Vấn đề đặt ra là làm thế nào khai thác được khối thông tin đó để nó trở nên có ích đối với người dùng Bên cạnh đó, vài năm gần đây, các thiết bị di động đã phát triển mạnh mẽ và trở nên phổ biến với tất cả mọi người Những thiết bị này không đơn thuần chỉ là một công cụ để liên lạc nữa, mà khi được kết nối internet, nó đã mở ra nhiều tiềm năng phát triển cho các dịch vụ

có sử dụng vị trí của người dùng, trong đó có dịch vụ tìm kiếm dựa trên vị trí Vì vậy, tôi

đã chọn đề tài “Xây dựng hệ thống tìm kiếm tài liệu dựa trên vị trí” để làm đồ án tốt nghiệp

Mục đích của chúng tôi là tìm hiểu và triển khai kỹ thuật tìm kiếm thông tin văn bản và thông tin vị trí Chúng tôi sử dụng cấu trúc chỉ mục có thể kết hợp lập chỉ mục cả từ khóa lẫn vị trí, đồng thời đưa ra giải thuật để có thể đánh giá xếp hạng các văn bản dựa trên cả hai tiêu chí này

Chúng tôi xây dựng một hệ thống tìm kiếm các tài liệu về lĩnh vực du lịch dựa trên thư viện mã nguồn mở Lucene[7] Trong phạm vi của đề tài này, chúng tôi giả sử các tài liệu

đó đã được gán nhãn địa điểm từ trước Chúng tôi đưa ra ba mô hình tìm kiếm và cài đặt hệ thống dựa trên cấu trúc chỉ mục cũng như thuật toán đề xuất, sau đó đánh giá so sánh kết quả tìm kiếm dựa trên ba mô hình này

Trang 4

MỤC LỤC

PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP

TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP

1

2 Chương 1: Đặt vấn đề 7 1.1 Tìm kiếm thông tin là gì?

1.2 Tại sao vị trí lại quan trọng trong tìm kiếm thông tin?

2.2 Tìm kiếm văn bản dựa trên từ khóa

3.2 Định hướng giải pháp

3.3 Kết hợp điểm từ khóa và điểm không gian

3.4 Các mô hình tìm kiếm văn bản dựa trên vị trí

3.4.1 Tìm kiếm vị trí rồi tìm kiếm từ khóa:

3.4.2 Tìm kiếm từ khóa và tìm kiếm vị trí:

3.4.3 Tìm kiếm từ khóa rồi tìm kiếm không gian:

5.2 Hướng phát triển của đồ án

28

28 Tài liệu tham khảo 29

Trang 5

DANH MỤC CÁC HÌNH VẼ

Hình 2-1: Kiến trúc tổng quan của một hệ thống IR 9 Hình 2-2: Mô tả một Inverted File 11 Hình 2-3: Hệ thống các tầng liên tiếp chia bề mặt trái đất thành các vùng

với kích thước nhỏ dần

14

Hình 2-4: Ô có tọa độ (57, 34) ở lớp thứ 8 15 Hình 2-5: Biểu diễn truy vấn q và các đối tượng d 16 Hình 3-1: Cấu trúc chỉ mục lai R*-tree-Inverted file [3] 18 Hình 3-2: Trộn hai danh sách với  = 0.5 và lấy k = 3 tài liệu có điểm cao

nhất

20

Hình 3-3: Minh họa quá trình tìm kiếm vị trí rồi tìm kiếm từ khóa 20 Hình 3-4: Minh họa quá trình tìm kiếm vị trí và tìm kiếm từ khóa 21 Hình 3-5: Minh họa quá trình tìm kiếm từ khóa rồi tìm kiếm vị trí 22 Hình 4-1: Mô tả quá trình tìm kiếm của hệ thống 25 Hình 4-2: Giao diện chính của hệ thống tìm kiếm 26 Hình 4-3: Kết quả tìm kiếm của một truy vấn 26

Trang 7

DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ

1 IR Truy xuất thông tin

2 Document Tài liệu (văn bản)

3 Query Truy vấn

4 tf-idf Con số thể hiện độ tương tự giữa truy vấn và văn bản về

mặt từ khóa

5 Lucene Thư viện mã nguồn mở cho phép tìm kiếm trên văn bản

6 Inverted Files Cấu trúc để lập chỉ mục theo từ khóa

Trang 8

Chương 1: Đặt vấn đề 1.1 Tìm kiếm thông tin là gì?

Cùng với sự phát triển của công nghệ thông tin, số lượng các tài liệu điện tử cũng gia tăng từng ngày Đến nay, số lượng các tài liệu được lưu trữ lên đến hàng tỷ trang Trong khi đó, nhu cầu khai thác trong kho tài liệu khổng lồ này để tìm kiếm những thông tin cần thiết đang là nhu cầu thường ngày và thiết thực của người sử dụng Tuy nhiên, một trong những khó khăn con người gặp phải trong việc khai thác thông tin là khả năng tìm chính xác thông tin họ cần trong kho tài liệu Để trợ giúp công việc này, các hệ thống tìm kiếm đã lần lượt được phát triển nhằm phục vụ cho nhu cầu tìm kiếm của người sử dụng Có thể lấy một vài ví dụ điển hình về những hệ thống tìm kiếm theo từ khóa nổi tiếng như là Google, Bing, Yahoo!, … Tuy nhiên, phần lớn các công cụ tìm kiếm này là những sản phẩm thương mại và

mã nguồn được giữ bí mật Một vài hệ thống tìm kiếm trên máy tính cá nhân như Windows Search, Google Desktop, … đã đáp ứng phần nào nhu cầu của người sử dụng, miễn phí cho cá nhân, song cũng chỉ đáp ứng được trên phạm vi nhỏ Điều này dẫn tới kết quả là nhiều nhà phát triển riêng biệt hoặc các tổ chức sử dụng sẽ phải tự mình xây dựng từ đầu một công cụ tìm kiếm nếu hệ thống của họ cần chức năng tìm kiếm này Một cách tiếp cận hiệu quả để giải quyết vấn đề này là sử dụng các thư viện mã nguồn mở để xây dựng hệ thống tìm kiếm

Tìm kiếm thông tin (Information Retrieval - IR) là tìm kiếm tài nguyên (thường là các tài liệu) trên một tập lớn các dữ liệu phi cấu trúc (thường là văn bản) được lưu trữ trên các máy tính nhằm thỏa mãn một nhu cầu về thông tin nào đó Mục đích của IR là trả lại cho người dùng một tập các thông tin thỏa mãn nhu cầu của họ

Một hệ thống IR là một chương trình phần mềm lưu trữ và quản lý thông tin

về các tài liệu Hệ thống trợ giúp người dùng tìm kiếm thông tin họ cần Chúng ta định nghĩa rằng thông tin cần thiết là “câu truy vấn” (query) và các thông tin được chọn là “tài liệu” (documents) Mục đích của một hệ thống IR là cho biết về sự tồn tại và vị trí của các tài liệu có thể chứa thông tin cần thiết Có thể một số tài liệu được đề xuất sẽ thoả mãn nhu cầu thông tin của người dùng Những tài liệu đó được gọi là các tài liệu có liên quan Một hệ thống IR hoàn hảo sẽ chỉ thu thập những tài liệu có liên quan và bỏ qua những tài liệu không liên quan Tuy nhiên, sẽ không thể tồn tại những hệ thống như vậy bởi các câu lệnh tìm kiếm thường không đầy đủ và

độ liên quan (relevance) phụ thuộc vào ý kiến chủ quan của người dùng Hai người dùng có thể đưa ra cùng truy vấn giống nhau cho một hệ thống IR nhưng lại có cách đánh giá độ liên quan khác nhau đối với các tài liệu được thu thập Thực tế, mục tiêu chính của một hệ thống IR là thu thập tất cả các tài liệu có liên quan tới một truy vấn của người dùng đồng thời thu thập ít nhất có thể các tài liệu không liên quan

Trang 9

1.2 Tại sao vị trí lại quan trọng trong tìm kiếm thông tin?

Vài năm gần đây, các thiết bị di động đã phát triển mạnh mẽ và trở nên phổ biến với tất cả mọi người Những thiết bị này không đơn thuần chỉ là một công cụ

để liên lạc nữa, mà khi được kết nối internet, nó đã mở ra nhiều tiềm năng phát triển cho các dịch vụ có sử dụng vị trí của người dùng, trong đó có dịch vụ tìm kiếm dựa trên vị trí Lấy ví dụ, bạn là một du khách nước ngoài tới Hà Nội, bạn muốn tìm kiếm các tài liệu giới thiệu những quán ăn trong phạm vi thủ đô Hà Nội Chỉ với một thiết bị di động có kết nối internet, bạn sẽ nhập một truy vấn với nội dung là

“quán ăn” để tìm những tài liệu liên quan tới địa điểm bạn cần tìm Nếu như với một hệ thống IR bình thường, thì nó sẽ trả về tất cả các quán ăn không chỉ riêng ở

Hà Nội, mà có thể của nhiều tỉnh thành khác Điều này là không cần thiết, và do đó bạn sẽ phải mất thời gian để sàng lọc lại các kết quả được trả về Tuy nhiên, với một

hệ thống IR dựa trên vị trí, nó sẽ nhận biết được vị trí hiện tại của bạn để có thể tìm các địa điểm chính xác và phù hợp với yêu cầu hơn Hệ thống sẽ ngầm hiểu ý định của người dùng, và người dùng cũng không phải mất thời gian để nhập những dữ liệu hiển nhiên về vị trí xung quanh họ, vì vị trí đã nói lên yêu cầu thông tin của bạn

1.3 Mục đích và phạm vi của đề tài:

Mục đích của đề tài này là tìm hiểu và triển khai kỹ thuật tìm kiếm thông tin văn bản và thông tin vị trí trên tập tài liệu đã được gán nhãn trước Trên cơ sở đó xây dựng một hệ thống tìm kiếm tài liệu về lĩnh vực du lịch Hệ thống sẽ nhận đầu vào là một câu truy vấn của người dùng (bao gồm cả từ khóa và vị trí), rồi sử dụng thông tin vị trí để đưa ra các tài liệu có độ liên quan cao hơn cho người dùng Hệ thống sẽ kết hợp độ liên quan về từ khóa với độ liên quan về vị trí để trả về các tài liệu với độ liên quan cao nhất với truy vấn của người dùng

1.4 Bố cục của đồ án:

Phần còn lại của đồ án bao gồm 4 chương, với nội dung như sau:

Chương 2 trình bày cơ sở lý thuyết của tìm kiếm văn bản dựa trên từ khóa và không

gian

Chương 3 trình bày kỹ thuật tìm kiếm văn bản dựa trên vị trí

Chương 4 xây dựng hệ thống tìm kiếm và trình bày các kết quả thực nghiệm

Chương 5 kết luận và hướng phát triển tiếp theo của đồ án

Trang 10

Chương 2: Cơ sở lý thuyết

Trong chương này, chúng tôi sẽ trình bày cơ sở lý thuyết của quá trình tìm kiếm văn bản dựa trên từ khóa và dựa trên vị trí Quá trình tìm kiếm bao gồm hai quá trình chính là lập chỉ mục và xếp hạng các các tài liệu trả về

2.1 Kiến trúc tổng quan của một hệ thống tìm kiếm thông tin:

Hình 2-1: Kiến trúc tổng quan của một hệ thống IR

Một hệ thống IR bao gồm ba thành phần chính:

 Thu thập tài liệu (Crawling): hệ thống sẽ thu thập tài liệu từ nhiều nguồn khác nhau Việc thu thập này có thể được thực hiện thủ công hoặc tự động (nhờ một chương trình gọi là “web crawler”)

 Lập chỉ mục (Indexing): hệ thống sẽ phân tích và lập chỉ mục các tài liệu thu thập được nhằm tăng tốc độ truy xuất trong quá trình tìm kiếm

 Tìm kiếm (Searching): người dùng nhập vào câu truy vấn Truy vấn này sẽ được phân tích, xử lý và biểu diễn lại để tạo nên truy vấn thật sự mà hệ thống

có thể “hiểu” được Sau đó, truy vấn đã được xử lý được sử dụng để thu thập các tài liệu có chứa truy vấn Các tài liệu này sẽ được xếp hạng (ranking) theo

mức độ liên quan và trả về cho người dùng

Documents

Indexing Crawling User query

Trang 11

Trong phạm vi của đồ án, chúng tôi giả sử các tài liệu đã được thu thập và gán nhãn từ trước Do đó, chúng tôi sẽ tập trung chính vào phần lập chỉ mục và tìm kiếm

2.2 Tìm kiếm văn bản dựa trên từ khóa:

để chọn làm từ chỉ mục bằng cách xử lý các chữ số, dấu nối, các ký hiệu chấm câu

và chữ viết hoa viết thường Văn bản cần được chia thành các token sử dụng khoảng trắng phân tách và các ký tự kết thúc câu Loại bỏ từ dừng nhằm loại bỏ những từ

có tần suất xuất hiện cao trong hầu hết các tài liệu mà lại không mang nội dung có ý nghĩa Như vậy, quá trình tiền xử lý nhằm mục đích chắt lọc tập tài liệu để nhận được tập các từ (term)

Tiếp theo là quá trình xây dựng chỉ mục (indexing) cho văn bản nhằm tăng tốc

độ truy nhập trong giai đoạn tìm kiếm Có nhiều loại cấu trúc chỉ mục nhưng phổ biến nhất là Inverted Files, trong đó tập tài liệu được biến đổi thành một tập các term kèm theo một danh sách tương ứng các tài liệu chứa chúng và trọng số của chúng trong mỗi tài liệu Trọng số của một term trong một tài liệu là số lần xuất hiện của chúng trong tài liệu Tần số càng lớn thì tầm quan trọng của nó càng lớn Điều này được gọi là gán trọng số theo tần số từ (term frequency – tf)

Cấu trúc của Inverted File thường gồm một tệp từ điển (dictionary file) và một tệp các posting (postings file) Một tệp từ điển chứa một tập các term, tổng số các tài liệu mà nó xuất hiện và một con trỏ trỏ tới bản ghi các posting của nó Tệp các posting chứa thông tin về một term trong từng tài liệu mà nó xuất hiện Thông tin trong một bản ghi posting thường gồm: mã tài liệu, tần số của term trong tài liệu đó,

và một con trỏ trỏ tới posting tiếp theo của từ đó

Hình vẽ dưới đây miêu tả quá trình tạo một Inverted File

Trang 12

là biểu diễn bên trong của yêu cầu thông tin từ người dùng Mỗi term thu được từ thao tác xử lý văn bản được dùng để xác định, thông qua tập chỉ mục, một danh sách các tài liệu mà trong đó nó xuất hiện Nếu có nhiều từ xuất hiện trong truy vấn thì bước tìm kiếm sẽ trả về hợp của các tài liệu thu thập được theo tất cả các từ hoặc một số từ, tùy theo kiểu truy vấn Tóm lại, tìm kiếm là quá trình đối sánh (matching) các term trong các tài liệu với các term trong truy vấn

Trang 13

 Tính điểm và xếp hạng tài liệu: Mọi tài liệu thu thập được sẽ được đánh giá theo độ liên quan của chúng đối với truy vấn Thông thường, đánh giá này phụ thuộc vào một giải thuật xếp hạng, giải thuật này tính toán ra kết quả là một con số thực cho từng tài liệu Tài liệu ứng với một số giá trị càng lớn thì càng được xem là

có độ liên quan nhiều hơn Tiếp theo, các tài liệu được thu thập sẽ được trả về theo thứ tự giảm dần theo kết quả của giải thuật xếp hạng Nhờ vậy, người dùng có cơ hội để xem xét kỹ hơn các tài liệu liên quan nhất, nằm ở phần trên trong thứ tự sắp xếp, so với các tài liệu không liên quan Do đó, giải thuật xếp hạng được xem là phần cốt yếu của một hệ thống IR

Để đánh giá độ liên quan của các tài liệu với truy vấn, người ta sử dụng trọng

số tf-idf

Tần số từ khóa - tf: Mỗi từ khóa trong một tài liệu được gán một trọng số, phụ

thuộc vào số lượng các thể hiện của từ khóa đó trong tài liệu Phương pháp đơn giản nhất là gán trọng số bằng với số lần xuất hiện của từ khóa t trong tài liệu d Lược đồ gán trọng số này được gọi là tần số xuất hiện từ khóa và ký hiệu là tft,d, với phần chỉ

số dưới biểu thị cho từ khóa và tài liệu Tuy nhiên, nếu có n thể hiện của một term trong một tài liệu thì cũng không thực sự có nghĩa là tài liệu đó có tầm quan trọng gấp n lần so với một tài liệu khác chỉ chứa một thể hiện của term đó Do vậy, đã có những nghiên cứu đáng chú ý tập trung vào các hàm trọng số thay vì dựa vào số lượng các thể hiện của một term Trong đó, hàm loga khá phổ biến, hàm này gán trọng số theo công thức:

Tần số tài liệu nghịch đảo - idf: Tần số từ khóa dạng thô nêu trên có nhược

điểm là tất cả các từ khóa đều được xem là quan trọng ngang nhau khi đánh giá độ liên quan đối với một truy vấn Mà thực tế thì có những từ khóa có ít hoặc không có vai trò gì trong việc đánh giá này Để giải quyết vấn đề này cần có một cơ chế để làm giảm ảnh hưởng của một từ khóa, nếu nó xuất hiện quá nhiều lần trong bất kỳ tài liệu nào, đối với quyết định về độ liên quan Ý tưởng là sử dụng tần số tài liệu dft, được định nghĩa là số lượng các tài liệu có chứa từ khóa t trong tập tài liệu Tần số tài liệu df của một từ khóa được sử dụng để tính trọng số của từ khóa đó Ký hiệu tổng số tài liệu trong một tập hợp là N, tần số idf (inverse document frequency) của một từ khóa t được định nghĩa như sau: Do đó, tần số từ khóa của một term ít xuất hiện thì cao trong khi tần số idf của một từ khóa xuất hiện nhiều sẽ thấp

Gán trọng số tf – idf:

Kết hợp các biểu thức tần số tf và idf để sinh ra trọng số kết hợp cho từng từ khóa trong mỗi tài liệu Lược đồ gán trọng số tf-idf gán cho từ khóa t một trọng số

Trang 14

trong tài liệu d theo công thức sau:  Như vậy, trọng số idft,d gán cho từ khóa t một trọng số trong tài liệu d có giá trị:

tf- lớn nhất khi t xuất hiện nhiều lần trong một số lượng nhỏ tài liệu

 thấp hơn khi t xuất hiện ít trong một tài liệu hoặc xuất hiện trong nhiều tài liệu

 thấp nhất nếu t xuất hiện trong gần như tất cả các tài liệu

Độ tương tự về từ khóa giữa truy vấn q và tài liệu d được đánh giá bởi công thức sau:

Trên thực tế, trong quá trình tính toán, người ta có thể qua bỏ thành phần

vì với một truy vấn q cho trước, giá trị của nó là như nhau đối với mọi tài liệu d

Ví dụ, với truy vấn “quán ăn ngon” trên tập dữ liệu với N = 1000000 tài liệu, tần số xuất hiện của ba mục từ “quán”, “ăn”, “ngon” như sau:

Term Truy vấn q Tài liệu d

dft idft tft, dquán 50000 1.3 1

2.3 Tìm kiếm dựa trên vị trí:

Mục đích của việc tìm kiếm theo không gian là tìm tất cả đối tượng người dùng quan tâm (chẳng hạn chùa chiền, công viên, rạp chiếu phim, …) gần khu vực nơi mà truy cập đề cập đến, ví dụ như “tìm các quán ăn gần trường Đại học Bách Khoa Hà Nội”

Để có thể làm được điều này, giả sử mỗi một đối tượng đã được gắn với một tọa độ duy nhất trên bề mặt trái đất, chính là vĩ độ (latitude) và kinh độ (longitude) Bước đầu tiên, chúng ta “trải phẳng” địa cầu bằng cách sử dụng phép chiếu trong toán học Đây là công việc cần thiết để chúng ta có thể biểu diễn bất kỳ một địa điểm nào trên bề mặt trái đất thành một điểm xác định trong hệ tọa độ hai chiều Quá trình này tương tự như việc chúng ta chiếu sáng vào trái đất và thu được hình chiếu của nó trên mặt phẳng Ta sẽ sử dụng phép chiếu sin (sinusoidal projection)

để làm điều này Công thức của nó như sau:

Trang 15

với  là vĩ độ, là kinh độ, 0 là kinh tuyến gốc Như vậy, ứng với một vị trí trên bề mặt trái đất (vĩ độ, kinh độ) sẽ tương ứng với một tọa độ (hoành độ, tung độ) trong hệ tọa độ hai chiều

Bước tiếp theo, chúng ta sẽ tạo hệ thống lớp theo cấu trúc phân cấp cho hình chiếu của bề mặt trái đất, được gọi là các lớp Đề-các (Cartesian tiers); mỗi lớp có số lượng ô tăng lên Số lượng ô của mỗi lớp là 2ID lớp x 2ID lớp Hình vẽ dưới đây miêu tả cho các lớp này Ở lớp 0 (tier = 0) có 20 x20 = 1 ô, lớp 1 (tier = 1) có 21 x 21 = 4 ô, lớp 2 (tier = 2) có 22 x 22 = 16 ô, …

Hình 2-3: Hệ thống các tầng liên tiếp chia bề mặt trái đất thành các vùng với kích thước

nhỏ dần

Mỗi ô trong mỗi một tầng sẽ được gán với một ID duy nhất Giả sử ở lớp thứ 8 (tier ID = 8) với 256 x 256 ô, và một ô có tọa độ (57, 34), sẽ được biểu diễn bởi một

số duy nhất là 57,034 gọi là ID của ô Tổng quát, tại mỗi một lớp, cứ mỗi ô có tọa

độ (x, y) sẽ được biểu diễn thành một số thập phân có giá trị bằng (x + y.10-n) với n

là số nguyên dương nhỏ nhất thỏa mãn 10n lớn hơn 2ID lớp Trong ví dụ trên, n = 3 thỏa mãn điều kiện vì 103 = 1000 > 28 = 256 Do đó, ô ở vị trí (57, 34) sẽ có ID là 57,034

Định dạng
Số trang	30
Dung lượng	1,09 MB

Tài liệu tham khảo	Loại	Chi tiết
4. Local Lucene Geographical Search: http://www.nsshutdown.com/projects/lucene/whitepaper/locallucene_v2.html last visited May 2013	Link
5. Lucene.NET tutorials and examples: http://www.dotlucene.net/30648/lucene-net-api-search-demo last visited May 2013	Link
7. Thư viện mã nguồn mở Lucene.NET: http://lucenenet.apache.org/ last visited May 2013	Link
1. Christopher D, Manning, Prabhakar Raghavan, Hinrich Schütze (2009), An Introduction to Information Retrieval, Cambridge University Press, Cambridge, England	Khác
2. Michael McCandless, Erik Hatcher, Otis Gospodnetić (2009), Lucene in Action Second Edition, Manning Publications Co	Khác
3. Zhou, Yinghua, Hybrid index structures for location-based web search, CIKM, 2005	Khác
6. Huỳnh Đức Việt, Võ Duy Thanh, Võ Trung Hùng, Nghiên cứu ứng dụng mã nguồn mở Lucene để xây dựng phần mềm tìm kiếm thông tin trên văn bản, Tạp chí khoa học và công nghệ, Đại học Đà Nẵng – Số 4(39).2010	Khác