ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Kim Chi GIẢI PHÁP TÌM KIẾM NGƯỜI THEO TÊN TRÊN WEB DỰA TRÊN PHÂN CỤM PHÂN CẤP VÀ XẾP HẠNG CẶP THỨ TỰ VÀ THỬ NGHIỆM VÀO HỆ T
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thị Kim Chi
GIẢI PHÁP TÌM KIẾM NGƯỜI THEO TÊN TRÊN WEB DỰA TRÊN PHÂN CỤM PHÂN CẤP VÀ XẾP HẠNG CẶP THỨ TỰ VÀ THỬ NGHIỆM VÀO HỆ THỐNG TÌM KIẾM THỰC THỂ NGƯỜI TIẾNG
VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin
HÀ NỘI - 2011
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thị Kim Chi
GIẢI PHÁP TÌM KIẾM NGƯỜI THEO TÊN TRÊN
WEB DỰA TRÊN PHÂN CỤM PHÂN CẤP VÀ XẾP
HẠNG CẶP THỨ TỰ VÀ THỬ NGHIỆM VÀO HỆ
THỐNG TÌM KIẾM THỰC THỂ NGƯỜI TIẾNG
VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
Cán bộ hướng dẫn: ThS.Nguyễn Cm Tú
HÀ NỘI - 2011
Trang 3i
Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo
sư Tiến sĩ Hà Quang Thụy và Thạc sĩ Nguyễn CNm Tú, những người đã tận tình chỉ bảo và hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp
Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi học tập và nghiên cứu tại trường Đại học Công nghệ
Tôi cũng xin gửi lời cảm ơn tới các anh chị, các bạn và các em sinh viên trong phòng nghiên cứu SIS-KTLab đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khoá luận Khóa luận này nhận được sự hỗ trợ từ đề tài QG.10.38
Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp
Tôi xin chân thành cảm ơn!
Sinh viên Nguyễn Thị Kim Chi
Trang 4
ii
Tóm tắt
Qua máy tìm kiếm thông dụng, người dùng đưa truy vấn về thực thể quan tâm dưới dạng một từ khóa hoặc một cụm từ khóa và nhận kết quả trả về là một danh sách địa chỉ các trang Web chứa từ khóa/cụm từ khóa đó Sự phát triển không ngừng của kỹ thuật trích chọn thông tin dẫn tới sự ra đời của máy tìm kiếm thực thể
mà kết quả trả về của nó là thực thể mà không là địa chỉ Do thực thể người thuộc loại được tìm kiếm nhiều nhất, vì vậy tìm kiếm thực thể người là một nội dung nghiên cứu nhận được sự quan tâm đặc biệt hiện nay
Khóa luận nghiên cứu các giải pháp tìm kiếm người theo tên trên Web, tập trung vào hai vấn đề chính là phân biệt nhập nhằng tên người và xếp hạng thực thể người cùng tên trên miền dữ liệu giáo dục tiếng Việt dựa trên các thông tin về thực thể người Trên cơ sở đó, khóa luận đề xuất một mô hình hệ thống tìm kiếm thực thể người tiếng Việt thực nghiệm
Thực nghiệm ban đầu với tập tên người Việt Nam phổ biến cho thấy mô hình tìm kiếm người theo tên trên Web có độ chính xác tương đối cao và đạt độ đo phân cụm ở mức 0.86 và xếp hạng thực thể ở mức 0.8 Kết quả này cho thấy mô hình tìm kiếm người theo tên tiếng Việt trên Web dược đề xuất và triển khai là có tính khả quan
Trang 5iii
Lời cam đoan
Tôi cam đoan giải pháp tìm kiếm người trên Web dựa trên thuật toán phân cụm phân cấp và xếp hạng cặp thứ tự và thực nghiệm được trình bày trong khóa luận là do tôi thực hiện dưới sự hướng dẫn của PGS.TS Hà Quang Thụy và ThS Nguyễn CNm Tú
Trong toàn bộ nội dung của khóa luận, những điều được trình bày hoặc là của
cá nhân hoặc là được tổng hợp từ nhiều nguồn tài liệu Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp
Trang 6iv
MỤC LỤC
MỞ ĐẦU 1
Chương 1 Khái quát bài toán tìm kiếm người trên Web 3
1.1 Hệ thống tìm kiếm thực thể 3
1.1.1 Dữ liệu Web và vấn đề tìm kiếm thông tin trên Web 3
1.1.2 Hệ thống tìm kiếm thực thể 4
1.2 Bài toán tìm kiếm người trên Web 9
1.2.1 Đặt vấn đề 9
1.2.2 Phát biểu bài toán 9
1.2.3 Một số nội dung chính 9
1.2.4 Phương pháp đánh giá 10
Chương 2: Vấn đề phân biệt nhập nhằng tên người và xếp hạng kết quả tìm kiếm người cùng tên 14
2.1 Vấn đề phân biệt nhập nhằng tên người 14
2.1.1 Phát biểu bài toán phân biệt nhập nhằng tên nguời 14
2.1.2 Một số phương pháp tiếp cận giải quyết vấn đề nhập nhằng tên người trên Web 14
2.1.2.1 Hướng tiếp cận dựa trên phân cụm bán giám sát 14
2.1.2.2 Các tiếp cận dựa trên kỹ thuật phân cụm hai trạng thái 17
2.1.2.3 Các hướng tiếp cận khác 19
2.4 Một số hướng tiếp cận giải quyết vấn đề xếp hạng thực thể 20
2.4.1 Phát biểu bài toán xếp hạng thực thể 20
2.4.2 Một số hướng tiếp cận giải quyết bài toán xếp hạng thực thể 21
2.4.2.1 Hướng tiếp cận dựa trên điểm số tương đồng và liên kết 21
2.4.2.2 Hướng tiếp cận dựa trên Mô hình Impression 23
Chương 3 Mô hình giải quyết bài toán tìm kiếm người trên Web 28
3.1 Cơ sở lý thuyết 28
3.1.1 Thuật toán phân cụm HAC 28
3.1.2 Độ tương đồng cosin 31
Trang 7v
3.1.3 Phương pháp PageRank 31
3.1.4 Phương pháp xếp hạng cặp thứ tự (Pairwise) 32
3.2 Mô hình giải quyết bài toán tìm kiếm người trên Web 32
3.3 Áp dụng bài toán tìm kiếm người theo tên trên Web vào hệ thống tìm kiếm thực thể người 38
Chương 4 Thực Nghiệm và đánh giá 39
4.1 Mô tả thực nghiệm 39
4.2 Môi trường và công cụ sử dụng thực nghiệm 39
4.3 Xây dựng tập dữ liệu thực nghiệm 40
4.5 Thực nghiệm và Kết quả 41
Kết luận 48
Trang 8vi
Danh sách các bảng
Bảng 1 Danh sách các thuộc tính được đề xuất trong hội nghị WebPS-3 34
Bảng 2 Các thuộc tính được sử dụng trong khóa luận 35
Bảng 3 Một số đặc trưng sử dụng để trích chọn 36
Bảng 3 Tập tên người thực nghiệm 41
Bảng 4 Kết quả phân cụm 43
Bảng 5 Một số kết quả xếp hạng 43
Bảng 6 Đánh giá kết quả phân cụm 45
Bảng 7 Đánh giá kết quả xếp hạng 46
Trang 9vii
Danh Sách hình vẽ
Hình 1 Kết quả trả về từ google với truy vấn ” Sony VaiO FZ150F 5
Hình 2 Mô hình tìm kiếm truyền thống và tìm kiếm thực thể 5
Hình 3 Kiến trúc cơ bản hệ thống tìm kiếm thực thể 6
Hình 4 Hệ thống tìm kiếm thực thể dựa trên kỹ thuật trích rút thông tin 7
Hình 5 Hệ thống tìm kiếm người iSearch 8
Hình 6 Mô hình hệ thống xếp hạng thực thể 21
Hình 7 Mô hình Impression 25
Hình 8 Sơ đồ thuật toán phân cụm HAC 28
Hình 9 Phân cụm với độ đo single-link 30
Hình 10 Phân cụm với độ đo complete-link 30
Hình 11 Mô hình giải quyết bài toán 33
Hình 12 Mô hình đề xuất xây dựng hệ thống tìm kiếm 338
Hình 13 Ví dụ các thuộc tính sau khi trích chọn 42
Trang 10viii
Danh Sách các từ viết tắt
Trang 111
Sự ra đời của máy tìm kiếm đã giúp cho người dùng khai thác thông tin một cách thuận tiện hơn Tuy nhiên, các kết quả trả về từ máy tìm kiếm vẫn còn nhiều hạn chế, đặc biệt là khi người dùng muốn tìm kiếm thông tin về một đối tượng cụ thể thì các kết quả trả về chỉ là tập địa chỉ các trang Web chứ không phải là các bản ghi về đối tượng cần tìm Một trong những loại tìm kiếm đối tượng phổ biến nhất là tìm kiếm người nhưng thực thể người lại là một trong những loại thực thể
có độ nhập nhằng cao nhất, các kết quả trả về từ máy tìm kiếm sẽ bao gồm tập địa chỉ các trang web liên quan tới nhiều người chia sẻ cùng một tên Hơn thế nữa, các thực thể người tìm kiếm được không chỉ được lấy ra từ một trang độc lập mà có thể được tổng hợp từ nhiều trang khác nhau Vì vậy, cần thiết một hệ thống có khả năng gom cụm kết quả sao cho những trang Web thuộc cùng một cụm sẽ cùng trỏ tới một người đồng thời có khả năng xếp hạng các thực thể người được trích rút từ các cụm
Vấn đề tìm kiếm người trên Web ngày càng nhận được sự quan tâm nghiên cứu trên thế giới Đặc biệt là các hội nghị khoa học về tìm kiếm người trên Web [16]
Khóa luận tốt nghiệp với đề tài Giải pháp tìm kiếm người theo tên trên
Web dựa trên phân cụm phân cấp và xếp hạng cặp thứ tự và thử nghiệm vào hệ thống tìm kiếm thực thể người tiếng Việt nhằm khảo sát, phân tích một số phương pháp phân cụm và xếp hạng thực thể đang được quan tâm hiện nay Từ đó, đưa ra
mô hình phân cụm và xếp hạng thực thể người trong hệ thống tìm kiếm thực thể người tiếng Việt
Khóa luận gồm các nội dung chính cơ bản sau:
Chương 1: Khái quát bài toán tìm kiếm người trên Web trình bày khái
quát nhu cầu tìm kiếm thông tin trên Web, hệ thống tìm kiếm thực thể người Đồng thời, khóa luận cũng trình bày khái quát và một số nội dung liên quan chính tới bài toán tìm kiếm người trên Web, bao gồm phương pháp đánh giá giải pháp tìm kiếm người trên Web
Trang 12Chương 3: Mô hình giải quyết bài toán tìm kiếm người trên Web trình
bày mô hình đề xuất nhằm giải quyết phân biệt người cùng tên và xếp hạng trong
hệ thống tìm kiếm người trên Web Khóa luận sử dụng kỹ thuật trích xuất đặc trưng và thuật toán phân cụm phân cấp HAC để giải quyết vấn đề phân biệt nhập nhằng tên người và dựa trên hàm tính điểm số để xếp hạng thực thể
Chương 4: Thực nghiệm và đánh giá trình bày quá trình thử nghiệm việc
phân cụm và xếp hạng thực thể người với tập dữ liệu kiểm thử là những tên người phổ biến, đưa ra kết quả thực nghiệm và các đánh giá sơ bộ
Kết luận: Tóm lược các kết quả đã đạt được của khóa luận và các định
hướng phát triển trong tương lai
Trang 133
Chương 1 Khái quát bài toán tìm kiếm người trên Web
Nhu cầu tìm kiếm thông tin là một nhu cầu cần thiết và tất yếu trong cuộc sống con người Internet là một kho thông tin khổng lồ được coi là không giới hạn Tuy nhiên, việc khai thác thông tin trên Internet gặp phải nhiều khó khăn và thách thức vì tính đa dạng và phi cấu trúc Với các máy tìm kiếm thông dụng hiện nay như Google, Yahoo, MSN…., truy vấn người dùng đưa vào là tập các từ khóa và kết quả trả về chỉ là các địa chỉ tới các trang web trong khi người dùng mong muốn nhận được các bản ghi về đối tượng cần tìm Một trong những đối tượng được tìm kiếm nhiều nhất là thực thể người Chương này sẽ trình bày một số vấn đề và nội dung liên quan tới bài tóan tìm kiếm người trên Web
1.1 Hệ thống tìm kiếm thực thể
1.1.1 Dữ liệu Web và vấn đề tìm kiếm thông tin trên Web
Hiện nay, người dùng có thể truy cập nguồn tài nguyên Web mọi lúc, mọi nơi
và tìm kiếm, tổng hợp các thông tin cần thiết Cùng với sự thay đổi và phát triển hàng ngày hàng giờ về nội dung cũng như số lượng của các trang Web trên Internet thì vấn đề tìm kiếm thông tin đối người dùng ngày càng trở lên khó khăn Dữ liệu Web mang một vài đặc điểm sau[1]:
phá dữ liệu
Tuy nhiên, cùng với sự đa dạng và số lượng lớn thông tin như vậy đã nảy sinh vấn đề quá tải thông tin Người ta không thể tìm tự kiếm địa chỉ trang Web chứa thông tin mà mình cần, do vậy đòi hỏi cần phải có một trình tiện ích thực hiện việc quản lý nội dung trang Web, tiếp nhận yêu cầu tìm kiếm của người dùng, cập nhật thông tin từ WWW phù hợp để cung cấp cho họ các trang Web có nội dung đáp ứng yêu cầu tìm kiếm
Trang 144
Máy tìm kiếm ra đời giúp cho việc tìm kiếm thông tin thuận lợi hơn, đáp ứng phần nào nhu cầu tìm kiếm của người dùng Kết quả trả về từ máy tìm kiếm là danh sách các trang Web(tài liệu) có chứa từ khóa nói trên và được liệt kê theo thứ tự về
độ quan trọng hay “hạng” của chúng Tuy nhiên, trong quá trình tìm kiếm thông tin gặp một số khó khăn như danh sách kết quả quá dài bao gồm cả thông tin người dùng quan tâm và cả thông tin mà họ không quan tâm Do đó, người dùng phải mất thời gian duyệt qua từng trang để tìm thông tin mà mình mong muốn Ngoài ra, số lượng từ khóa trong câu hỏi ít và đặc biệt là có ngữ nghĩa không rõ ràng cũng là một vấn đề khó khăn trong quá trình tìm kiếm thông tin
Tìm kiếm hướng thực thể là một trong những hướng đang ngày càng được quan tâm nhằm giải quyết những hạn chế của các hệ thống tìm kiếm thông tin hiện tại như google, yahoo…, đem lại chất lượng khai thác thông tin tốt hơn tới người dùng Hướng tìm kiếm thực thể này sẽ được trình bày ở phần tiếp theo của khóa luận
1.1.2 Hệ thống tìm kiếm thực thể
Người dùng thường tìm kiếm thông tin về đối tượng nào đó Với các máy tìm kiếm hiện nay (Google, Yahoo, MSN ) bằng cách so sánh văn bản trên từng trên Web với truy vấn và trả về cho người dùng địa chỉ các trang mà có chứa từ khóa trong truy vấn Như vậy, mức độ chọn lọc thông tin phù hợp với yêu cầu người dùng của các máy tìm kiếm thông thường vẫn chưa cao
Ví dụ: Người dùng muốn tìm kiếm thông tin như giá cả, kích thước màn hình, dung lượng ổ đĩa, tốc độ… của dòng máy tính xác tay Sony VaiO FZ150F Với máy tìm kiếm thông thường như Google, người dùng nhập từ khóa “Sony VaiO FZ150F” Kết quả nhận được như sau:
Trang 15
5
Hình 1 Kết quả trả về từ google với truy vấn ” Sony VaiO FZ150F”
Khác với máy tìm kiếm thông thường, kết quả trả về của máy tìm kiếm thực thể là các thực thể của đối tượng cần tìm, mỗi thực thể được xác định không chỉ xét trên một trang độc lập mà có thể được tổng hợp qua nhiều trang Web Hệ thống tìm kiếm thực thể sẽ cung cấp thông tin lọc ở mức cao hơn cho người dùng
Sau đây là một hình ảnh minh họa hai mô hình tìm kiếm truyền thống và mô hình tìm kiếm thực thể được đưa ra bởi nhóm tác giả Kevin Chen –Chuan ChangTao Cheng và Kim Cuong Pham [17]
Trang 16Bộ phận xử lý ngoại tuyến gồm hai pha chính là trích chọn thực thể và đánh chỉ mục thực thể, từ khóa
thể từ các trang Web Việc trích chọn có thể sử dụng biểu thức chính quy
để trích chọn ra địa chỉ mail hoặc sử dụng phân lớp thống kê để trích chọn ra địa chỉ địa điểm
chỉ mục ngược cho các thực thể được trích chọn từ module trích chọn thực thể trên
Trang 177
Bộ phân xử lý trực tuyến thực hiện xếp hạng thực thể gồm hai pha chính là
xử lý truy vấn toàn cục (global) và xử lý truy vấn cục bộ (local)
thực hiện phép ánh xạ vào tài liệu để tìm ra các tài liệu chứa các thực thể
và từ khóa thỏa mãn Trọng số cục bộ được xác định dựa vào độ tin cậy của thực thể đó với mối quan hệ ngữ cảnh giữa các thực thể với các từ khóa trong từng tài liệu
đNy truy vấn cho module xử lý truy vấn cục bộ và nhận kết quả trả về từ module này Sau khi nhận được các trọng số cục bộ, module tiến hành tổng hợp trọng số cho từng bộ thực thể , kết hợp trọng số cục bộ và trọng
số xác định cho thực thể đó trên toàn tập tài liệu để đạt giá trị điểm cuối cùng cho xếp hạng thực thể
Dưới đây là kiến trúc một hệ thống tìm kiếm thực thể tiêu biểu dựa trên kỹ thuật trích xuất thông tin[3]
Hình 4 Hệ thống tìm kiếm thực thể dựa trên kỹ thuật trích rút thông tin [3]
Mô hình hệ thống tìm kiếm thực thể dựa trên kỹ thuật trích xuất thông tin gồm các phần chính sau[3]:
Trang 188
quan đến thực thể này từ tất cả các trang Web chứa loại thực thể
đối tượng thế giới thực và lưu trữ vào trong kho dữ liệu Web Việc tổng hợp thực thể cần hợp nhất các thông tin liên quan tới cùng một thực thể
và phân biệt các thực thể khác nhau
hợp thực thể, hệ thống cung cấp các thông tin cần thiết cho người dùng Ngoài ra, để đạt hiệu quả tốt hơn trong kết quả tìm kiếm, hệ thống cần một mô hình xếp hạng hiệu quả
Một số hệ thống tìm kiếm thực thể tiêu biểu như hệ thống Hệ thống Cazoodle tại Việt Nam được sự hỗ trợ phát triển của nhóm nghiên cứu của Kevin Chen-Chuan
(Spock.com) và Zoominfor (Zoominfo.com)
Hình 5 Hệ thống tìm kiếm người iSearch
Trang 19Với sự phát triển của các kỹ thuật rút trích thông tin IR (Information Retrieval ) cụ thể là rút trích các thực thể, kết quả trả về cho người dùng thay vì chỉ
là các địa chỉ web, người dùng còn nhận được các thông tin cụ thể về đối tượng mình mong muốn tìm kiếm Tìm kiếm người là một trong những lĩnh vực được tìm kiếm nhiều nhất [7]: 11% đến 17% trong một truy vấn chứa một tên người, 4% truy vấn là một tên người Tuy nhiên, vấn đề tìm kiếm người trên Web sử dụng máy tìm kiếm gặp phải khó khăn bởi có rất nhiều phép ánh xạ giữa các tên người với những người riêng biệt, đặc biệt trong trường những người khác nhau có cùng tên mà người chúng ta muốn tìm chỉ là một trong số những người cùng tên đó Vấn đề đặt ra là làm thế nào để phân biệt những người khác nhau có cùng tên Ngoài ra, các thông tin nhận được về người cần tìm không chỉ được xét trên một trang độc lập mà có thể được tổng hợp qua nhiều trang Web Vì vậy, một vấn đề quan trọng nữa đặt ra trong quá trình tìm kiếm người là đưa các thực thể phù hợp với truy vấn nhất lên đầu tiên trong danh sách trả về cho người dùng
1.2.2 Phát biểu bài toán
Bài toán tìm kiếm người trên Web với mục đích là với mỗi tên người cho trước, cần phải phân biệt những người khác nhau có cùng tên và đưa ra danh sách
đã được xếp hạng các thực thể người cùng tên đó trên tập các trang Web
Miền dữ liệu của bài toán là tập các trang Web edu hoặc edu.vn
Trang 2010
Với truy vấn của người dùng là một tên người, máy tìm kiếm sẽ trả lại danh sách các trang Web chứa tên người đó Tuy nhiên, không phải tất cả các trang Web nhận được cùng trỏ tới một người mà sẽ trỏ tới nhiều người khác nhau chia sẻ cùng tên đó Theo thống kê điều tra dân số của Mỹ và được báo cáo tại hội nghị WebPS-3, 2010 , tên người có độ nhập nhằng cao[7]: với 90.000 tên người khác nhau đã được chia sẻ cho hơn 100.000.000 người Ví dụ, với truy vấn là “Nguyễn Hữu Đức” thì trong hàng trăm kết quả trả về từ máy tìm kiếm Google, bên cạnh PGS.TS Nguyễn Hữu Đức-Giám đốc Đại Học Quốc gia còn có một Nguyễn Hữu Đức, một cố Hiệu trưởng trường Đại Học Đà Lạt hoặc là một du khách hoặc một trưởng phòng Giáo Dục và Đào Tạo tỉnh An Giang Vì vậy, vấn đề đặt ra là gom cụm những người có cùng tên Mỗi cụm chứa thông tin về một người, các cụm khác nhau sẽ trỏ tới những người khác nhau
Nội dung chính thứ hai: Vấn đề xếp hạng kết quả tìm kiếm người cùng
tên
Kết quả nhận được sau bước phân biệt nhập nhằng tên người là tập các cụm trang Web chứa tên người cho trước Mỗi cụm sẽ trỏ tới một người Với kỹ thuật trích rút thực thể, thay vì tập các trang Web chứa tên người, kết quả nhận được sẽ
là danh sách các thực thể người cùng tên từ các cụm Không chỉ tìm được thực thể người mà vấn đề trong các máy tìm kiếm là những thực thể phù hợp nhất được đưa lên từ những kết quả đầu tiên trả về cho người dùng Cũng như máy tìm kiếm thông thường xếp hạng là vấn đề quan trọng, xếp hạng thực thể là vấn đề cốt lõi trong máy tìm kiếm thực thể
1.2.4 Phương pháp đánh giá
Phương pháp đánh giá kết quả tìm kiếm người dựa trên hai phương pháp đánh giá phân cụm và phương pháp đánh giá xếp hạng thực thể
Một phương pháp đánh giá điển hình được Javier Artiles và cộng sự [8] trình bày tại hội nghị WebPS-1 (2007) dựa trên độ tinh khiết (purity), độ nghịch đảo tinh khiết (inverse purity) và độ đo F
Trang 2111
Các ký hiệu chung:
C = {C1, C2, … } là tập các cụm cần đánh giá
L = {L1, L2, … }là tập các mục được đánh giá bằng tay
n là số lượng văn bản được phân cụm
Công thức độ tinh khiết
Độ tinh khiết được tính bằng phương pháp lấy trung bình có trọng số
độ chính xác của việc phân cụm
i
j i
i
L C precision n
C precison ( , ) = ∩ /
Công thức độ nghịch đảo tinh khiết
i
j i i
C L precision n
L purity
Công thức độ đo F:
purity inv
purity
F
.
1 )
1 ( 1
Các độ đo chính xác xếp hạng thường được sử dụng:
Độ chính xác mức K: P@K
Trang 2212
Độ chính xác xếp hạng ở mức K (Precisio@K) viết tắt P@K là độ chính xác của K đối tượng đầu tiên trong bảng xếp hạng Xác định số đối tượng đúng ở
K vị trí đầu tiên của xếp hạng Match@K Độ chính xác mức K được tính như sau:
K
K Match K
K I K P AP
1
1
)(
)(
@
Trong đó, I(K) là hàm xác định đối tượng ở vị trí hạng K
nếu đúng I(K)=1 và ngược lại I(K) = 0
n là số đối tượng được xét
Giá trị trung bình của AP trên các truy vấn
m
AP MAP
m
RR MRR
Trong chương một, khóa luận trình bày khái quát về hệ thống tìm kiếm thực
thể người và bài toán tìm kiếm người trên Web Đồng thời, khóa luận cũng trình
Trang 24đã được quan tâm nghiên cứu từ lâu và đã đạt được những kết quả khá tốt, điển hình
là phương pháp phân cụm dữ liệu Bên cạnh đó, vấn đề xếp hạng thực thể cũng tồn tại một số hướng giải quyết được đề xuất bởi một số nhóm tác giả Trong phần này, khoá luận sẽ trình bày một số hướng tiếp cận tiêu biểu dựa trên phương pháp phân cụm dữ liệu để giải quyết vấn đề nhập nhằng tên người và các hướng tiếp cận cũng như mô hình giải quyết tiêu biểu vấn đề xếp hạng thực thể
2.1 Vấn đề phân biệt nhập nhằng tên người
2.1.1 Phát biểu bài toán phân biệt nhập nhằng tên nguời
Bài toán phân biệt nhập nhằng tên người với mục đích là phân chia các trang Web chứa tên người cho trước thành các nhóm, sao cho các trang trong cùng một nhóm cùng chỉ đến một người và các trang thuộc các nhóm khác nhau thì chỉ đến những người khác nhau
Đầu vào: tập các trang Web chứa tên người cho trước
Đầu ra: cụm các trang Web chứa trên người đó sao cho các trang Web trong cùng một cụm sẽ cùng trỏ tới một người, các trang trong các cụm khác nhau trỏ tới các người khác nhau
2.1.2 Một số phương pháp tiếp cận giải quyết vấn đề nhập nhằng tên người trên Web
2.1.2.1 Hướng tiếp cận dựa trên phân cụm bán giám sát
Năm 2007, Kazunari Sugiyama và Manabu Okumura [10] đã trình bày một phương pháp phân cụm bán giám sát dựa trên trang “seed” để phân cụm các trang kết quả chưa được gán nhãn
Bước 1: xác định trang “seed”
Trang 2515
Trong hệ thống này, nhóm tác giả xác định hai loại trang “seed”.(a) bài báo trên mỗi thực thể người trong Wikipedia, (b) là trang Web được xếp hạng đầu tiên trong tập kết quả các trang Web tìm kiếm Trước hết, nếu một tên người được đề cập trên Wikipedia thì nhóm tác giả sử dụng trang đó là trang seed Nếu không, trang seed được lấy là trang được xếp hạng đầu tiên trong tập kết quả các trang Web Bước 2: Biểu diễn trang Web
Với mỗi trang Web p trong tập kết quả tìm kiếm, tiến hành loại bỏ các từ dừng dựa trên danh sách các từ dừng và các từ gốc sử dụng thuật toán porter[11] Sau đó, biểu diễn dưới dạng vecto đặc trưng
t
p t
p t p
m
ω ω
ω
2 1
t f N
α
Trong đó αf( )t k là tần số tài liệu của từ khóa t k
N là số lượng các trang Web kết quả
Ngoài ra, hệ thống xác định vecto trọng tâm của một cụm G
G , , ,
2 1
=
Bước 3: Áp dụng thuật toán phân cụm bán giám sát
Thuật toán phân cụm bán giám sát được mô tả như sau:
Đầu vào: tập các trang Web kết quả tìm kiếm p i(i= 1 , 2 , ,n)và một trang seed
seed
p , P = {p1,p2, , p n,p seed }
Trang 2616
Đầu ra: các cụm chứa các trang Web sao cho các trang trong một cụm cùng trỏ tới một người
Thuật toán:
2 Lặp lại các bước sau với tất cả các trang p i(i= 1 , 2 , ,n)trong P
2.1 Tính toán độ tương đồng giữa p i và p seed
Nếu độ tương đồng lớn hơn giá trị ngưỡng thì gom p ivào
p G
p
G mhl
p n
G
G p
ω ω
Với p( )G
ω
n là số lượng các trang Web trong cụm trọng tâm
3 Lặp lại các bước dưới với tất cả p j(j = 1 , 2 , ,m)(m<n)trong Oth cho tới khi tất cả độ đô tương tự giữa hai cụm nhỏ hơn một giá trị ngưỡng nào đó
3.1 Tính toán độ đo tương tự giữa p j và p j+1
1 +
j
sử dụng phương tình sau:
Trang 2717
( )
( )
1 +
p n
G
G p
ω ω
ω
3.2 Tính toán tất cả độ đô tương đồng giữa hai cụm
Nhóm tác giả sử dụng miền dữ liệu là các trang Wikipedia và theo thống kê điều ra dân số Mỹ
2.1.2.2 Các tiếp cận dựa trên kỹ thuật phân cụm hai trạng thái
Masaki Ikeda và Shingo Onossei Sato, 2009 [12] đề xuất mô hình phân biệt nhập nhằng tên người trên Web bằng phương pháp phân cụm hai trạng thái Mô hình
đề xuất của nhóm tác giả gồm ba bước chính:
Bước 1: Trích chọn đặc trưng
Ở bước này, nhóm tác giả trích chọn một số đặc trưng sau:
Đặc trưng kích thước cửa sổ
Một tài liệu không chỉ chứa chủ đề về người cần phân biệt mà còn chứa các chủ đề khác Vì vậy, để giải quyết vấn đề này, họ chỉ lấy các từ trong cửa sổ độ dài
55 từ xung quanh mỗi tham chiếu đến thực thể nhập nhằng và gộp chúng lại thành một snippet cho mỗi tài liệu
Đặc trưng thực thể tên
Nhóm tác giả đề xuất trích chọn các thực thể tên liên quan tới một người từ các tài văn bản gồm: tên người, tên tổ chức, tên địa điểm Đây là những đặc trưng hữu ích cho việc phân biệt nhập nhằng tên người
Đặc trưng từ khóa ghép
Nhóm tác giả chỉ trích chọn đặc trưng danh từ ghép liên quan tới người cần phân biệt sử dụng sự phân tích hình thái dựa trên phương pháp đề xuất bởi Nakagawa như sau:
Một danh từ W là một danh từ ghép nếu W={w1,w2, ,w L}
Độ quan trọng từ LR(w) được tính toán theo công thức:
LR(w)= (LF(w)+1).(RF(w)+1)
Trang 28w LR W
F
1
) ( ).
Dựa vào độ quan trọng của danh từ ghép Score(W) để trích chọn Các danh
từ ghép được trích chọn sẽ có độ quan trọng lớn hơn một ngưỡng nào đó
Đặc trưng liên kết
Các liên kết được trích chọn từ thẻ <a href=”URL”> chứa trong văn bản và URL của chính văn bản đó
Bước 2: Tính toán độ tương đồng
Để tính toán độ tương đồng giữa các đặc trưng, hệ thống sử dụng một hệ số nạp chồng Giá trị của hệ số này được xác định theo công thức sau
f f d
d Overlap
y x
y x y
x
, , min max )
T là giá trị nhỏ nhất giới hạn mẫu số(T=4)
Độ tương đồng của đặc trưng thực thể tên
sim NE(d x,d y)=αp sim P(d x,d y)+αL sim L(d x,d y)+αO sim O(d x,d y)
Độ tương đồng của các thực thể tên được tính toán bằng tổng độ tương đồng của đặc trưng tên người(P), địa điểm(L) và tổ chức(O) Trong đó,
O
L
Trang 29Độ tương đồng đặc trưng liên kết
Nếu văn bản dx có URL trỏ tới văn bản dy thì độ tương đồng
simmax( dx, dy) = max ( simNE( dx, dy) , simCKW( dx, dy) , simURL( dx, dy) )
Bước 3: Phân cụm dữ liệu
Hệ hống sử dụng phương pháp phân cụm phân cấp HAC (Hierarchical agglomerative clustering) để phân cụm các văn bản chứa tên xuất hiện Đây là phương pháp phân cụm phân cấp từ dưới lên Ban đầu, mỗi văn bản được coi như
là một cụm Hai cụm có độ tương đồng cao nhất sẽ được nhóm vào thành một cụm mới Độ tương đồng giữa hai cụm được đo theo phương pháp nhóm trung bình
i j
C C C
C
||
1 ,
Trong đó, C i,C jlà cụm thứ i và thứ j
Kết quả phân cụm trong trạng thái đầu của hệ thống cho độ chính xác cao, nhưng độ hồi tưởng thấp Trạng thái thứ hai, nhóm tác giả thực hiện phân cụm cứng và phân cụm mềm dựa trên kết quả phân cụm ở trạng thái đầu tiên Phân cụm được thực hiện dựa trên các cụm danh từ ghép Mục đích của trạng thái phân cụm thứ hai nhằm nâng cao giá trị độ hồi tưởng của hệ thống Hệ thống kiểm thử trên
dữ liệu test của hội nghị WS-1 và WS-2 và cho kết quả độ đo F = 0.78
2.1.2.3 Các hướng tiếp cận khác
Năm 2009, Juan Martinez-Romo và Lourdes Araujo [9] đã đề xuất một phương pháp phân biệt nhập nhằng tên người sử dụng kỹ thuật mô hình ngôn ngữ
Trang 3020
Hướng tiếp cận này sử dụng mô hình ngôn ngữ để trích chọn ra các thuật ngữ từ văn bản và dựa trên một phương pháp kinh nghiệm để tìm ra số lượng đặc tính của một người Phương pháp này được đề xuất gồm hai pha Pha thứ nhất, tất cả các văn bản được đánh chỉ mục bởi quá trình lọc các từ dừng và thực hiện một vài thống kê như số lượng các văn bản và tổng tần số xuất hiện , sau đó sử dụng thống
kê này để xác định mô hình ngôn ngữ Từ tập hợp này, nhóm tác giả sẽ trích chọn
ra một từ vựng phù hợp nhất với từ khóa bằng cách sử dụng mô hình ngôn ngữ đã được xác định Pha thứ hai sẽ áp dụng một thuật toán phân cụm cổ điển dựa trên
độ tương đồng cosin giữa các đặc trưng
Một hướng tiếp cận khác nhằm giải quyết vấn đề phân biệt nhập nhằng tên người trên Web là phương pháp sử dụng cấu trúc đồ thị Web được đề xuất bởinhóm nghiên cứu Elena Smirnova và cộng sự, 2010 [6] Ý tưởng của phương pháp này là sử dụng liên kết giữa các trang Web với giả thiết rằng các trang Web xuất hiện trong kết quả trả về từ máy tìm kiếm khi đưa một tên người như một truy vấn
là độc lập với nhau Bước đầu tiên trong ý tưởng là tìm ra các trang liên kết từ các trang nhận được từ máy tìm kiếm sử dụng phương pháp đồ thị đường đi ngẫu nhiên và dựa vào các trang liên kết để phân cụm các trang Web nhận được từ máy tìm kiếm Tiếp theo, họ xây dựng một tập hợp tích trọng số cho tất cả các trang Web, kể cả các liên kết Sau đó, Họ đánh lại trọng số cho tập hợp tích mỗi trang nhận được theo tập hợp tích của các trang liên kết của nó Cuối cùng, họ sử dụng thuật toán phân cụm phân cấp để phân cụm tập hợp các trang Web
2.4 Một số hướng tiếp cận giải quyết vấn đề xếp hạng thực thể
2.4.1 Phát biểu bài toán xếp hạng thực thể
Bài toán xếp hạng thực thể được phát biểu như sau [2]:
e e
e
E = 1 , 2 , , là tập các thực thể được trích ra từ các trang Web Mỗi thực thể i
P ID e
i i
v a v
a
P = 1 , 1 , , , là tập các cặp (<thuộc tính>, <giá trị>) Với truy vấn q={ (a1 ,v1 ), , (a n,v n) } là một tập các cặp