Người sử dụng chỉ cần đặt câu hỏi truy vấn về vấn đề cần quan tâm là có được tập kết quả liên quan đến câu hỏi truy vấn đó.Hiện nay Google1, Altavista2, HotBot3, Lycos4, AllTheWeb5 là nh
Trang 1Tiểu luận
Phân cụm tập kết quả tìm kiếm web dựa vào
tập thô dung sai
Trang 2LỜI MỞ ĐẦU
Ngày nay với sự bùng nổ thông tin , Word Wide Web(www) trở thành nguồn tài nguyên khổng lồ và quý giá Nó cung cấp cho chúng ta thông tin về mọi lĩnh vực đời sống xã hội, khoa học v.v… Tuy nhiên đi đôi với sự thuận lợi ấy có một vấn đề được đặt ra là chúng ta làm thế nào để truy cập và khai phá được nguồn tài nguyên ấy hiệu quả nhất
Từ vấn đề trên người ta đã nghiên cứu và tạo ra Máy truy tìm web(Web search engine) Máy này có khả năng tìm kiếm thông tin linh hoạt , nhanh chóng
và rất dễ sử dụng Người sử dụng chỉ cần đặt câu hỏi truy vấn về vấn đề cần quan tâm là có được tập kết quả liên quan đến câu hỏi truy vấn đó.Hiện nay Google1, Altavista2, HotBot3, Lycos4, AllTheWeb5 là những máy truy tìm hiệu quả và đang được sử dụng rộng rãi
Ngoài ra, người ta cũng đã tạo ra các thư mục Web , chẳng hạn như Yahoo6,Open Directory Project7 Theo kiểu này thì các tài liệu Web được sắp xếp thành các thư có phân cấp, người sử dụng có thể tìm thông tin bắng cách duyệt các cây thư mục và xác định tài liệu mình cần tìm
Thế nhưng việc tìm kiếm thông tin theo những kiểu trên vẫn không hiệu quả , chiếm nhiều thời gian vì:
-Khối lượng dữ liệu khổng lồ và tính động của các trang Web, nên máy truy tìm chỉ có thể sắp xếp một phần các chỉ mục của Web
-Người sử dụng đặt câu hỏi truy vấn quá ngắn, không thể hiện được hết ý định của họ , do vậy mà tập kết quả tìm kiếm Web là chung chung
Từ ảnh hưởng hai nhân tố trên tập kết quả tìm kiếm Web có thể từ hàng nghìn đến hang triệu tài liệu, do đó tìm được đúng tài liệu mình cần là công việc
Trang 3CHƯƠNG I VẤN ĐỀ TÌM KIẾM THÔNG TIN TRÊN WEB
Như chúng ta đều biết www như là từ điển bách khoa toàn thư , là thư viện khổng lồ sẵn sàng phục vụ bất cứ ai quan tâm thông qua việc truy cập internet Đối với chúng ta nó là một trong những nguồn tài nguyên thông tin có giá trị nhất, nếu không có nó thì mọi hoạt động hang ngày sẽ kém hiệu quả Nhưng vấn đề đặt ra là chúng ta phải truy cập và sử dụng nguồn tài nguyên ấy nhhư thế nào để có hiệu quả nhất Để tìm được đúng thông tin cần tìm trong nguồn tài nguyên khổng lồ là một thách thức lớn Chính vì vậy mà hiện nay đã và đang có rất nhiều hướng nghiên cứu để giải quyết vấn đề này
1.1 Máy truy tìm Web
Một trong những thành công nhất trong nghiên cứu và giải quyết vấn đề trên là việc tạo ra được máy truy tìm Web Máy này có nhiệm vụ giúp người sử dụng tìm tài liệu mình quan tâm Các tài liệu chủ yếu có dạng HTML, PDF, PS,
MS Word và MS PowerPoint
Giao diện máy truy tìm thân thiện và rất dễ sử dụng , người sử dụng chỉ cần đặt câu hỏi truy vấnvà ra lệnh tìm Máy sẽ trả về tập kết quả tìm kiếm(được gọi là các sinppet) liên quan đến câu hỏi truy vấn đó Snippet miêu tả ngắn gọn nội dung của tài liệu Web(trang Web), nó thường bao gồm tựa đề , địa chỉ web của tài liệu (được gọi là URL)và một đoạn text trình bày nội dung liên quan đến câu hỏi truy vấn
Cấu trúc và phương thức hoạt động của máy truy tìm Web như sau:
Trang 41.1.1 Web Crawler
Web Crawler là một trong hai thành phần trực tiếp tương tác với internet,
nó còn được gọi là web spider hoặc robot Công việc chính của Web Crawler là phát hiện những nguồn tài nguyên mới trên Web Nó giải quyết vấn đề này bằng cách thực hiện tìm kiếm đệ quy theo các đường link từ tất cả các trang đã được duyệt
Trong khi khai phá các nguồn tài nguyên mới trên Internet, Web Crawler còn có nhiệm vụ kiểm tra xem các trang có còn hợp lệ không và chúng ta đã được cập nhật hay chưa Mục đích của công việc này là giúp cho máy truy tìm cập nhật được tất cả tài liệu của Web(kể cả các tài liệu cũ và mới)
1.1.2 Document Index (lập chỉ mục tài liệu)
Mục đích chính của việc lập chỉ mục tài liệu là hỗ trợ tìm kiếm Tìm tài liệu
có chứa những từ trong câu hỏi truy vấn?Để thực hiện công việc này thì đa số các
máy truy tìm sử dụng biến dữ liệu có cấu trúc inverted index Inverted index
giống như danh sách chỉ mục ở phần cuối của cuốn sách – trong đó với mỗi một từ
là một danh sách liên kết các tài liệu có từ đó xuất hiện Biến này có khả năng giúp máy truy tìm xác định chính xác tài liệu có chứa các từ trong câu hỏi truy vấn Với
Trang 5bảng chỉ mục như vậy , máy truy tìm có thể thực hiện tìm kiếm theo nhóm từ hoặc tìm kiếm từ lân cận
1.1.3 Document Cache(lưu trữ tài liệu)
Nhiều máy phục vụ tìm kiếm vừa lưu trữ bảng chỉ mục tài liệu theo từ (document index), vừa lưu trữ bảng chỉ mục tài liệu gốc Mục đích của việc lưu trữ bảng chỉ mục các tài liệu gốc (tài liệu đầy đủ) là tạo ra các sippet và phục vụ cho việc lưu trữ các phiên bản của tài liệu
1.1.4 Document Ranking
Chắc chắn rằng trong môi trường www, thậm chí đối với cả những câu hỏi truy vấn hoàn thiện và chính xác , thì tập kết quả trả tìm kiếm vẫn là hang ngàn hoặc hàng triệu tài liệu Do vậy , cần phải có công nghệ thực hiện sắp xếp tập kết quả thu về theo mức độ liên quan và mức độ quan tâm Và đây chính là công việc của Document Ranking
1.1.5 Query Processor(bộ xử lý truy vấn)
Vai trò của Query Processor là phối hợp với các bộ trên để thực hiện trả lời câu hỏi truy vấn của người sử dụng Cụ thể , trong quá trình thực hiện Query Processor kết hợp các thành phần document index, document cache, document ranking để tạo ra tập kết quả tìm kiếm liên quan đến câu hỏi truy vấn
1.1.6 Presentation interface(giao diện trình bày)
Trang 6Kết quả tìm kiếm Web được đưa đến người sử dụng thông qua giao diện này Do vậy presentation interface đóng vai trò vô cùng quan trọng, nó ảnh hưởng toàn bộ chất lượng của máy truy tìm Bởi vì người sử dụng chỉ cần quan tâm kết quả nhận được thông qua giao diện mà không quan tâm máy hoạt động xử lý tìm kiếm web như thế nào
2.1 Trình bày kết quả tìm kiếm của máy truy tìm Web
Cách biểu diễn tập kết quả tìm kiếm đến người sử dụng đóng vai trò vô cùng quan trọng Nó giúp người sử dụng xác định được tài lệu họ cần tìm
Giao diện trình bày kết quả tìm kiếm được đánh giá tốt nếu không để người
sử dụng gặp ngay những tài liệu được cho là không liên quan đến vấn đề cần tìm ở ngay đầu danh sách kết quả tìm kiếm Tuy nhiên , tiêu chuẩn này quá khắt khe vì
- Hầu hết người sử dụng thường đặt câu hỏi ngắn và chung chung cho máy truy tìm
- Trong khi đặt câu hỏi cho máy truy tìm ,người sử dụng không đặt được câu hỏi đúng như ý định , bởi vì: khi người sử dụng muốn tìm một thông tin trên Web , nghĩa là trong suy nghĩ của họ đã hình thành khái niệm về cái mình muốn tìm Khái niệm này được chuyển thành tập từ.Tập từ này được sử dụng để đặt câu hỏi truy vấn Thế nhưng tính chính xác của việc chuyển đổi giữa khái niệm và tập từ lại phụ thuộc vào nhiều yếu tố, chẳng hạn như kinh nghiệm tìm kiếm , kiến thức cơ bản liên quan đến khái niệm đó , hoặc sự thành thạo về ngôn ngữ Do đó
đã tạo nên sự không cân xứng giữa khái niệm và câu hỏi truy vấn Vì thế máy truy tìm không thể biết được chủ đề người sử dụng thực sự quan tâm
Hiện nay các máy truy tìm vẫn chưa đáp ứng được tiêu chuẩn trên, vì sử dụng phương thức trình bày kết quả Ranked list Theo phương thức này tập kết
Trang 7quả thu về từ cõu hỏi truy vấn được sắp xếp theo mối liờn quan đến cõu hỏi truy vấn - những tài liệu liờn quan nhất được xếp đầu danh sỏch
Tự a đề
sn ippet
Mô t ả
u r l
Mặc dự vậy cỏch sắp xếp này vẫn cũn nhiều nhược điểm :
-Vỡ Ranked list trỡnh bày kết quả theo mối quan hệ với cõu hỏi truy vấn
Do vậy cú nhiều hơn 24 kết quả tỡm kiếm thỡ ranked list trở thành khụng thực tế đối với việc duyệt kết quả
-Phương thức ranked list yờu cầu khắt khe về thứ tự giữa cỏc kết quả tỡm kiếm với giả thuyết rằng cỏc snippet luụn cú thể so sỏnh được với nhau Tuy nhiờn với cõu hỏi truy vấn chung chung, sẽ cú những kết quả trả về mà nú chỉ chứa chủ
đề con , do vậy việc so sỏnh giữa cỏc kết quả khụng cõn xứng
Trang 8Lý do trên đã tạo động lực cho người ta nghiên cứu và xây dựng phương thức trình bày kết quả mới khắc phục tất cả những nhược điểm của phương thức
cũ Phân cụm tập kết quả tìm kiếm Web là một trong những phương thức mới đang được nhiều người quan tâm nghiên cứu
Trang 9CHƯƠNG II PHÂN CỤM TẬP KẾT QUẢ TÌM KIẾM WEB DỰA
VÀO TẬP THÔ DUNG SAI
2.1 Khái niệm phân cụm
Phân cụm là nhóm các đối tượng lại thành các cụm sao cho thoả mãn : -Các đối tượng trong mỗi cụm là giống nhau hoặc gần nhau được xác định bằng độ tương tự Hay nói cách khác, các đối tượng trong mỗi cụm là tương tự nhau
-Những đối tượng không cùng một cụm là không tương tự nhau
Cần phân biệt giữa phân lớp với phân cụm:
Phân lớp còn được gọi học có giám sát Là quá trình xếp một đối tượng vào trong những lớp đã biết trước Ví dụ phân lớp các bệnh nhân theo dữ liệu hồ
2.2 Phân cụm tập kết quả tìm kiếm Web
2.2.1 Khái niệm
Phân cụm tập kết quả Web là tổ chức sắp xếp tập kết quả tìm kiếm thành một số nhóm chủ đề riêng theo cách bố cục tổng thể đến chi tiết, giống như các thư mục Ví dụ đối với câu hỏi truy vấn “Clinton” thì kết quả được trình bày theo các chủ đề như:”Bill Clinton”, “Hillary Clinton”, “George Clinton”, v.v…
Theo cách trình bày này cả những người sử dụng không có kinh nghiệm trong việc đặt câu hỏi truy vấn cũng có thể dễ dàng xác định nhanh chóng và chính xác tài liệu quan tâm Mặt khác, đối với những người sử dụng đặt câu hỏi chung
Trang 10chung với mục đích biết thêm những chủ đề con sẽ không phải mất nhiều thời gian Thay vào đó , họ chỉ cần duyệt theo từng nhóm chủ đề
2.2.2 Phép đo độ tương tự
Bản chất công việc phân cụm là nhóm những đối tượng tương tự với nhau vào cùng một nhóm Vậy cần phải có phép đo để đo độ tương tự giữa các đối tượng
Đối với các đối tượng là tài liệu thì người ta thường hay sử dụng phép đo
hệ số góc cosin để đo độ tương tự giữa hai tài liệu (mỗi tài liệu được biểu diễn dưới dạng một vector) Công thức đo độ tương tự như sau:
t i
t i i i i
i
t i i i
y x y
x
y x
2 2
1
Trong đó
-X (x1 ,x2 ,… ,xt) và Y(y1 ,y2 ,… ,yt) là vector biểu diễn hai tài liệu -xi ,yi là trọng số thành phần thứ I của vector X,Y tương ứng Chú ý:
-Khi hệ số góc cosin =1 nghĩa là hai snippet đó hoàn toàn tương tự nhau(trùng nhau)
-Khi hệ số góc cosin =0 nghĩa là hai snippet đó không hoàn toàn tương tự nhau(trùng nhau)
-Các tài liệu có thể được biểu diễn dưới dạng vector, điểm trong không gian nhiều chiều
Ví dụ: 2 tài liệu doc1 và doc2, sau khi trích chọn các thuộc tính đặc trưng của snippet
Trong doc1:từ computer xuất hiện 3 lần, và từ finace xuất hiện 1 lần
Trong doc2:từ computer xuất hiện 2 lần, và từ finace xuất hiện 4 lần
Biểu diễn dưới dạng vector, doc1 được biểu diễn (3i+1j) và doc2 được biểu diễn (2i+4j)
Trang 11Biểu diễn dưới dạng một điểm trong khụng gian nhiều chiều, doc1 được biểu diễn (3,1) và doc2 được biểu diễn (2,4)
Hình1: Các đối t-ợng đ-ợc biểu diễn d-ới dạng
vector
Hình2: Các đối t-ợng đ-ợc biểu diễn d-ới dạng điểm
2.2.3 Đặc điểm
Trang 12-Phân cụm tập kết quả có tính phụ thuộc vào câu hỏi truy vấn của người sử dụng do tạo ra các nhóm chủ đề không thể dự tính được mà hoàn toàn phụ thuộc -Kết quả phân cụm là giao diện của máy truy tìm
2.2.4 Hiệu quả
Việc phân các tài liệu thành từng nhóm cơ bản đã được chứng minh là có hiệu quả trong quá trình duyệt một tập lớn các tài liệu Do đó việc phân cụm tập kết quả cũng có những ưu điểm sau:
-Việc tổ chức tập kết quả tìm kiếm thành các chủ đề tạo điều kiện thuận lợi khi duyệt tập lớn các kết quả tìm kiếm
-Tên của các chủ đề giúp người sử dụng phát hiện được chủ đề chính và do
đó có thể xác định nhanh chóng chủ đề mình quan tâm
-Việc phân chia tập kết quả thành các chủ đề giúp người sử dụng có thể nghiên cứu thêm tài liệu liên quan đến các chủ đề khác mà họ thường bỏ qua khi duyệt danh sách kết quả tìm kiếm được trình bày theo phương thức truyền thống ranked list, vì những tài liệu này ở rất xa trang đầu
2.2.5 Yêu cầu
a.Liên quan
Phân cụm phải tạo ra được các nhóm chủ đề khác biệt từ tập kết quả tìm kiếm Web, những kết quả có liên quan với nhau được sắp xếp vào cùng 1 nhóm và không liên quan thì ở nhóm khác
b.Tính tổng thể
Nhãn của mỗi chủ đề phải ngắn gọn và chính xác.Như vậy mới giúp người
sử dụng xác định nhanh chóng chủ đề quan tâm và tránh phải duyệt rải rác trên toàn tập kết quả
c.Nạp chồng
Vì mỗi một tài liệu (snippet) có thể thuộc về nhiều chủ đề do vậy một tài liệu có thuộc vào nhiều nhóm khác nhau
d.Snippet tolerance
Trang 13Giải thụât cần phải tạo được các chủ đề có chất lượng cao thậm chí khi nó chỉ được thực hiện trên tập kết quả tìm kiếm web
e.Tốc độ
Vì giải thuật được sử dụng trong hệ thống online, do vậy một yêu cầu về tốc độ xử lý phân cụm là vô cùng quan trọng để không làm chậm quá trình xử lý truy vấn
Triết lý của tập thô dựa trên giả sử rằng mọi đối tượng trong vũ trụ đều gắn một thông tin nào đó (như dữ liệu, tri thức) Ví dụ, nếu các đối tượng là các bệnh nhân bị một bệnh nhất định , các triệu chứng của bệnh nhân tạo thành thông tin về bệnh nhân Các đối tượng được đặc trưng bởi cùng thông tin thì không thể phân
biệt (indiscermible) được với nhau Quan hệ tương đương là cơ sơ toán học của
lý thuyết tập thô
Một tập bất kỳ các đối tượng không thể phân biệt (các đối tượng tương tự) được gọi là tập cơ bản (elementary) và tạo thành nguyên tử (atom hay granule) của tri thức vũ trụ Hợp bất kỳ các tập cơ bản được gọi là tập rõ (crisp) hay tập chính xác (precise), ngược lại là tập thô(rough) hay không chính xác(imprecise)
Trang 14Trong lý thuyết tập thô , bất cứ một khái niệm không rõ ràng nào đều được thay bằng một cặp khái niệm không chính xác gọi là xấp xỉ dưới và xấp
xỉ trên của khái niệm không rõ ràng Xấp xỉ dưới bao gồm tất cả các đối tượng
chắc chắn thuộc về khái niệm và xấp xỉ trên gồm tất cả các đối tượng có thể thuộc
về khái niệm Hiệu của xấp xỉ trên và xấp xỉ dưới tạo thành khoảng ranh giới của khái niệm không rõ ràng
Các phép toán cơ bản của lý thuyết tập thô được sử dụng để phát hện các mẫu cơ sở trong dữ liệu Do đó, với một ý nghĩa nhất định phương pháp luận tập thô cũng chính là học máy , phát hiện tri thức , suy diễn thống kê và suy diễn quy nạp
Lý thuyết tập thô ở một mức độ nhất định giao với nhiều công cụ toán học khác được dung để xử lý tri thức không đầy đủ Trong lý thuyết tập thô khái niệm không rõ ràng dựa trên các xấp xỉ và sự không phân biệt được
2.3.2 Quan hệ không thể phân biệt
Để có thể định nghĩa được xấp xỉ trên và xấp xỉ dưới trước hết chúng ta cần tìm hiểu về quan hệ không thể phân biệt
Định nghĩa: Quan hệ R(R ⊆ UxU) được gọi là quan hệ không thể phân
biệt khi nó là một quan hệ tương đương
Hay nói cách khác, quan hệ không thể phân biệt R là một quan hệ tương đương và chia vũ trụ thành một họ các lớp tương đương Họ này được gọi là sự phân loại và ký hiệu U\R Các đối tượng trong cùng một lớp tương đương là không phân biệt được , ngược lại là phân biệt được đối với R Với ∀x∈U , lớp tương đương của x trong quan hệ R được biểu diễn là [x]R
Trong không gian xấp xỉ A=(U,R) xấp xỉ dưới và xấp xỉ trên của tập X được định nghĩa tương ứng như sau:
LR(X) = {x ∈ U : [x]R ⊆ X }
UR(X) = {x ∈ U : [x]R ∩ X ≠ ∅ }
Trang 15Tập LR(X) là tập các đối tượng trong U mà theo quan hệ R thì chắc chắn chúng là các đối tượng của X
Tập UR(X) là tập các đối tượng của U mà theo quan hệ R thì ta chỉ có nói rằng chúng có thể là các đối tượng của X
Sự thật là LR ⊆ X ⊆ do vậy tập BNR = UR - LR được gọi là vùng biên của xấp xỉ hay là vùng không chắc chắn Rõ rang , BNR là tập các đối tượng mà theo quan hệ R ta không thể xác định được chúng có thuộc vào X hay không
Kết hợp cặp (LR, UR) tạo thành xấp xỉ thô hoặc tập thô của khái niệm X
2.3.3 Hàm thuộc thô
Ta cũng có thể định nghĩa các xấp xỉ thông qua khái niêm hàm thuộc thô Cho hàm thuộc thô μX : X → [0,1] của tập X ⊆ U, tập thô được định nghĩa như sau:
Lμ(X) = {x ∈ U : μ(x, X) =1 }
Uμ(X) = {x ∈ U : μ(x, X) >0 } Trong đó
μ(x, X) =
R
R x
U x X x
] [
] [ ) ,
=
μ
2.3.4 Định nghĩa Hệ thông tin
Trong thực tế các đối tượng thường là
Thông thường hệ thông tin được mô tả bởi một cặp I=<U, A>
trong đó:
U={x1 ,x2, …,x n} là một tập không rỗng hữu hạn các đối tượng gọi là vũ trụ
A là một tập không rỗng hữu hạn các thuộc tính Với mỗi thuộc tính a ∈ A thì có tương ứng một hàm giá trị fa : U → Va với Va là tập giá trị của thuộc tính a Vậy rõ ràng rằng bất kỳ một tập hữu hạn các đối tượng , mỗi đối tượng được mô tả bởi một tập các thuộc tính có thể xem là một hệ thông tin Ví dụ như, một nhóm người , với mỗi người được mô tả bởi giới tính,tuổi, nghề nghiệp
Trang 16Hình thức đơn giản của hệ thông tin chính là bảng thông tin , trong đó dòng
là thể hịên đối tượng và cột là thể hiện thuộc tính của đối tượng Với mỗi đối tượng x ∈U, việc nắm bắt thông tin về x thông qua tập thuộc tính B⊆A được gọi
là vector thông tin
infB(x)= { (a, fa(x)) : a ∈ B }
Thông thường bảng thông tin được cho dưới dạng mở rộng , bằng cách thêm vào cột chứa thuộc tính quyết định vào bảng thông tin được goi là bảng quyết định
Trang 17Vớ dụ : Gọi U là tập cỏc bờnh nhõn , U=(p1,p2,p3,p4,p5,p6,p7,p8)cỏc bệnh
nhõn được miờu tả thụng qua cỏc triệu chứng ốm
Bảng biểu diễn hệ thụng tin sau
R là một quan hệ tương đương , được định nghĩa thụng qua đẳng thức của
hai thuộc tớnh Đau đầu và Nhức mỏi
Vớ dụ: xRy cú nghĩa là fĐau đầu(x) = fĐau đầu(y) ∧ fNhiệt đo(x) =
fNhiệt độ(y)
Quan hệ tương đương này phõn tập U thành cỏc lớp {p1}, { p2}, { p3},{ p4},
{ p5, p7}, { p6, p8}.Như vậy theo mối quan hệ R thỡ ta khụng thể phõn biệt bệnh
nhõn p5 với p7 , bệnh nhõn p6 với p8
Gọi khỏi niệm X là bệnh nhõn bị cảm , như vậyX={ p2 ,p3 ,p6 ,p7}
Trang 18Lúc này , xấp xỉ của X theo mối quan hệ R được xác định như sau
2.3.5 Không gian xấp xỉ tổng quát (Generalized approximation spaces)
Như trên đã trình bày, lý thuyết tập thô kinh điển là dựa trên quan hệ tương đương để chia vũ trụ thành các lớp rời nhau Theo định nghĩa, quan hệ tương R ⊆ UxU phải thỏa các tính chất sau:
• Tính phản xạ: xRx, với bất kỳ x ∈ U
• Tính đối xứng: xRy ⇔ yRx, với bất kỳ x,y∈ U
• Tính bắc cầu: xRy ∧ yRz ⇒ xRz, với bất kỳ x,y,z∈ U
Tuy nhiên trong thực tế, đối với một vài ứng dụng thì yêu cầu của quan hệ tương được chỉ ra là quá khắt khe Vì trong nhiều lĩnh vực có rất nhiều khái niệm
là không rõ ràng và có thể chồng lên nhau
Trang 19Ví dụ: Chúng ta xét một tập các tài liệu khoa học Mỗi tài liệu được mô tả thông qua tập các từ khóa Dễ dàng nhận thấy rằng mỗi tài liệu có thể có nhiều từ khóa và một từ khóa có thể xuất hiện trong nhiều tài liệu Vì vậy khi phân chia vũ trụ các tài liệu thành các lớp thì các lớp này có thể chồng lên nhau (nghĩa là một tài liệu có thể cùng thuộc vào nhiều lớp khác nhau)
Do vậy, để phù hợp với thực tế cần phải giảm yêu cầu của quan hệ tương đương R bằng cách loại bỏ tính bắc cầu, tạo nên quan hệ mới được gọi là quan hệ Tolerance
2.3.5.1 Định nghĩa không gian xấp xỉ tổng quát
Không gian xấp xỉ tổng quát là một bộ bốn A=(U, I, v, P)
⋅ y ∈ I(x) ⇔ x ∈ I(y), ∀x,y∈U
Vậy quan hệ xRy ⇔ y ∈ I(x) là một quan hệ tolerance vì nó thỏa mãn điều kiện phản xạ, đối xứng và I(x) là lớp tolerance của x Như vậy, nếu chúng ta xét các đối tượng x∈U theo R thì I(x) là tập các đối tượng tương tự với x
• ν : P(U) x P(U) → [0,1] là hàm thuộc mờ
Hàm thuộc mờ v hầu như giống hàm thuộc (được định nghĩa ở phần 3), tuy nhiên nó được mở rộng trên P(U) x P(U) để đo mức thuộc của hai tập
Hàm ν : P(U) x P(U) → [0,1] được gọi là hàm thuộc mờ nếu thỏa:
Trang 20Y ⊆ Z ⇒ ν (X, Y) < ν (X, Z) với X, Y, Z ⊆ U, tính đơn điệu
Kết hợp hàm không chắc chắn I và hàm thuộc mờ v, hàm thuộc thô được định nghĩa như sau:
Với x ∈ U, X ⊆ U, ta có hàm thuộc thô μI,ν (x, X) = ν (I(x), X)
1 P: I(U)→{0,1} là hàm cấu trúc
Trong đó, I(U) = { I(x) : x ∈U)}
Hàm này dùng làm điều kiện ràng buộc toàn cục trên các tập I(x) Trong khi sinh các xấp xỉ, chỉ những tập X ∈ I(U) có P(X) = 1 mới được xem xét, nghĩa
là chỉ xét những đối tượng trong U
2.4 Mô hình tập thô dung sai (TRSM)
Với khả năng giải quyết linh hoạt tính gần đúng và tính mờ, tập thô dung sai được đánh giá là một công cụ đầy hứa hẹn để xác định mối quan hệ giữa từ và tài liệu Bất cứ vấn đề nào trong lĩnh vực thu thập thông tin, đặc biệt trong việc phân cụm tài liệu thì việc định nghĩa mối quan hệ tương tự giữa tài liệu – tài liệu,
từ – từ, từ – tài liệu là không thể thiếu được Vì bản chất của bài toán phân cụm là tìm những đối tượng tương tự nhóm lại thành một nhóm
2.4.1 Không gian tolerance của các từ
Gọi D là tập các tài liệu, D={d1,d2,….,dN } và T là tập các từ có trong D, T={t1, t1,… , tM}
Trang 21Thông qua mô hình không gian vectơ, mỗi tài liệu di được biểu diễn bởi một vectơ có trọng số [wi1, wi2, …., wiM], với wij là trọng số của từ j trong tài liệu
di Trong mô hình tập thô dung sai, không gian tolerance được định nghĩa dựa trên toàn bộ các từ trong D
U= T = {t1, t1,… , tM} Mục đích đặt ra là căn cứ vào mối quan hệ giữa các từ để thực hiện phân lớp các tài liệu Với mục đích này, quan hệ tolerance R được xác định thông qua
số lần cùng xuất hiện của các từ trong tập tài liệu D Sở dĩ ở đây chọn số lần cùng xuất hiện của các từ để định nghĩa quan hệ tolerance là vì: theo các tài liệu hiện nay người ta xác định rằng giữa hai từ có 2 loại quan hệ tương tự:
Tương tự ngữ nghĩa, hai từ tương tự ngữ nghĩa có thể thay thế cho nhau
trong một ngữ cảnh riêng Ví dụ, trong ngữ cảnh: “I read the book” từ book có thể được thay thế bởi từ magazine mà không làm thay đổi nghĩa của câu, và do vậy 2
từ này được gọi là tương tự ngữ nghĩa
Tương tự theo ngữ đoạn, hai từ tương tự theo ngữ đoạn có nghĩa là chúng
cùng xuất hiện với nhau trong một đoạn text Ví dụ, hai từ cut và knife là tương tự
trong ngữ đoạn vì chúng có đặc điểm là thường cùng xuất hiện với nhau trong cùng đoạn text
Như vậy, việc xác định quan hệ tương tự giữa hai từ theo loại 2 là đơn giản, phù hợp với yêu cầu về thời gian đối với giải thuật phân cụm (không chọn tương
tự ngữ nghĩa vì phải mất thời gian học từ)
Lớp tolerance của từ
* Hàm không chắc chắn I với ngưỡng θ được định nghĩa như sau:
Iθ(t i ) = { t j | f D (t i ,t j ) > θ } ∪ {t i }
trong đó, fD(ti, tj) là số snippet trong tập D có cả hai từ ti và tj cùng xuất hiện
Rõ ràng rằng hàm trên thỏa điều kiện: