Nhưng trong một trang web, không thể thực hiện được bởi vì kỹ thuật suy diễn chậm trên một bộ xử lý duy nhất, đặc biệt là khi giao dịch với Web với tập dữ liệu RDF và OWL... NHÓM 4 – CAO
Trang 1SONG TRONG WEB NGỮ NGHĨA
Giáo viên hướng dẫn:
TS Hoàng Hữu Hạnh
Trang 2NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)
Nhóm thực hiện:
1 Nguyễn Thị Thanh Tâm
2 Lê Bá Minh Phong
3 Trần Thị Thành
4 Trần Như Đăng Tuyên
5 Nguyễn Vũ Cát Tường
Trang 33 XỬ LÝ SONG SONG TRÊN WEB NGỮ NGHĨA
5 REASEARCH VÀ SONG SONG HÓA
6 KẾT LUẬN
Trang 4NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)
1.Giới thiệu
Web có ngữ nghĩa là sự mở rộng của Web hiện tại mà trong
đó thông tin được định nghĩa rõ ràng sao cho con người và máy tính có thể cùng làm việc với nhau một cách hiệu quả hơn.
Web ngữ nghĩa cung cấp dịch vụ để trao đổi và sử dụng dữ liệu, thông tin và kiến thức trong các hình thức khác nhau trên Web
Với dữ liệu nhỏ suy diễn trên Web ngữ nghĩa có thể triển khai trên một PC Nhưng trong một trang web, không thể thực hiện được bởi vì kỹ thuật suy diễn chậm trên một bộ xử lý duy nhất, đặc biệt là khi giao dịch với Web với tập dữ liệu RDF và OWL.
Trang 5NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)
Trên Web với trang dữ liệu lớn chứa dữ liệu giàu ngữ nghĩa được tìm thấy, đặt ra những
thách thức mới cho các kỹ thuật xử lý
Trên Web dữ liệu phát triển rất nhanh và động
Các quy tắc có thể được thể hiện dưới các
hình thức khác nhau
Đối mặt với những yêu cầu trên, những
phương pháp xử lý tồn tại trước đó mất hiệu lực.
Giải pháp: song song hóa quá trình xử lý
Trang 6Sự khác biệt giữa xử lý tuần tự và xử lý song song:
+ Kiến trúc thượng tầng
+ Thuật toán
Trang 7+ SIMD (đơn luồng lệnh, đa luồng dữ liệu)
+ MISD (đa luồng lệnh, đơn luồng dữ liệu)
+ MIMD (đa luồng lệnh, đa luồng dữ liệu).
Đối với bộ nhớ, ba loại kiến trúc được xem xét: + SMP (đa xử lý đối xứng)
+ DMP (song song hóa bộ nhớ phân tán)
+ HMS (hệ thống bộ nhớ phân cấp).
Trang 8Tuy nhiên khi số lượng máy tăng tốc độ
xử lý tăng tuyến tính nhưng không sử dụng hết công suất tối đa
Vì vậy vấn đề quan trọng tìm ra thuật toán xử
lý song song để giảm chi phí truyền thông
vẫn duy trì trọng tải.
Trang 9NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)
3.Xử lý song song trên Web ngữ nghĩa
Hai mục tiêu quan trọng trong xử lý của Web ngữ nghĩa:
+ kiểm tra sự thống nhất của các trang web
dữ liệu để các dữ liệu từ các nguồn khác
nhau cũng được tích hợp
+ Tìm thông tin mới dựa trên những sự kiện
và các quy định hiện hành.
Trang 10NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)
So với xử lý song song truyền thống, Web ngữ nghĩa
có một số mối quan tâm mới:
Có quá nhiều nút trong một tập dữ liệu RDF Web quy
mô, và mỗi nút có thể có các vị từ nhiều liên kết với nó
Dữ liệu phụ thuộc phức tạp và phân vùng dữ liệu
Cuối cùng, cân bằng tải trên mỗi máy vẫn là một vấn
đề khó giải quyết, do tính chất rất sai lệch về Web ngữ nghĩa
Trang 11NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)
Trong xử lý song song Web ngữ nghĩa, hai
xu hướng chính trong quá trình xử lý song song:
phương pháp tiếp cận phân vùng
phương pháp phân vùng quy tắc
Trang 12NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)
4 Một số giải pháp
12
LarKC là kiến trúc mở và là một nền tảng chung cho
xử lý phân phối lớn Hoạt động như một quy trình có thể
mở rộng cho các xử lý Trong mỗi quy trình, một số thành phần (plug-in) có nhiệm vụ xử lý đa dạng Quy trình này được giám sát bởi một plug-in quyết định Khi một số plug-
in được gọi trong quy trình chúng có thể được phân phối giữa các nút và làm việc song song
4 1 LarKC
Trang 13NHÓM 4 – CAO HỌC KHMT B (2010 - 2012) 13
LarKC song song thực hiện theo những cách sau:
+ Hiển thị các plug-in để thực hiện song song
+ Hiển thị các plug-in riêng biệt song song
+ Thực hiện một số quy trình song song, hoặc thực hiện các quy trình cùng đầu vào khác nhau song song
Trang 14NHÓM 4 – CAO HỌC KHMT B (2010 - 2012) 14
Là một phần của dự án LarKC, là nền tảng song song
và phân phối để xử lý số lượng lớn dữ liệu RDF
4 2 MaRVIN (Massive RDF Versatile Inference
Network)
Mục đích làm việc của MaRVIN là việc quan sát những các vấn đề khó khăn của Web ngữ nghĩa thông qua chiến lược divide-and-conquer truyền thống khi dữ liệu của Web ngữ nghĩa là khó phân vùng
Trang 15Thứ hai, mỗi nút tính toán tính việc đóng cửa của phân vùng của nó bằng cách sử dụng một reasoner thông thường Sau đó, dữ liệu cũ và mới là hỗn hợp và phân vùng mới được tạo ra trong một cách phân tán Quá trình này được lặp đi lặp lại cho đến khi không có bộ ba mới được suy ra
Trang 16NHÓM 4 – CAO HỌC KHMT B (2010 - 2012) 16
Reasoning-Hadoop là một hệ thống suy diễn RDFS/OWL dựa trên nguyên tắc song song được xây dựng trên của chương trình khung Hadoop Hadoop là một chương trình khung mã nguồn mở sử dụng chủ yếu cho các
dữ liệu lớn song song với xử lý ban đầu được phát triển bởi Yahoo!
4 3 Reasoning-Hadoop
Trang 17NHÓM 4 – CAO HỌC KHMT B (2010 - 2012) 17
Hadoop thực hiện các mô hình lập trình MapReduce Mô hình lập trình MapReduce được phát triển bởi Google và nó đòi hỏi tất cả các thông tin được mã hoá như một tập hợp các cặp hình thức <Key, Value>
Một thuật toán MapReduce điển hình như đầu vào một tập hợp các cặp, xử lý chúng bằng cách sử dụng hai chức năng bản đồ và rút gọn, trả về một số cặp mới như đầu ra Việc thực hiện chương trình được xử lý bởi các chương trình khung là chia tách các đầu vào trong các tập con và phân chia tính toán cho các nút trong mạng
Trang 18NHÓM 4 – CAO HỌC KHMT B (2010 - 2012) 18
Reasoning-Hadoop đã chỉ ra rằng có một số lợi thế trong việc sử dụng MapReduce cho suy diễn trong Web
ngữ nhĩa:
• Suy diễn có thể được thực hiện có hiệu quả trên bộ dữ
liệu lớn bởi vì chương trình khung Hadoop có thể được
triển khai trong các mạng với hàng ngàn các nút
• Thực hiện được xử lý hoàn toàn bởi các chương trình khung và những người lập trình có thể tập trung vào logic của chương trình mà không cần lo lắng về các vấn đề kỹ thuật được phổ biến trong hệ thống phân phối
• Tuy nhiên phương pháp này giải quyết với logic phức tạp hơn
Trang 19NHÓM 4 – CAO HỌC KHMT B (2010 - 2012) 19
5 ReaSearch và sự song song hóa của nó
5.1 Sự cần thiết song song hóa Reasearch
ReaSearch là viết tắt hợp nhất của suy diễn ( Reasoning ) và tìm kiếm ( Search ) trên bề rộng Web Thể hiện một quá trình
chéo nhau của sự tìm kiếm một tập hợp con quan trọng từ
dữ liệu trang Web và suy diễn trên đó Quá trình chéo nhau sẽ kết thúc khi người sử dụng thỏa mãn với kết quả suy diễn (hình(a)).
Trang 20NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)
Trên Semantic Web, cả tiến trình tìm kiếm và suy diễn cần phải xử lý dữ liệu rất lớn.
Quá trình Reasearch cần được song song
hóa và chiến lược cụ thể làm thế nào để thực hiện khung công việc này được phát triển
thông qua các chiến lược khác nhau.
Tập hợp các chiến lược bao gồm: hợp nhất tìm kiếm và suy diễn thông qua đa mức đầy
đủ, đa mức đặc biệt, đa quan điểm…
20
5.1 Sự cần thiết song song hóa Reasearch
Trang 21NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)
• Đối với chiến lược đa mức đầy đủ tiến
trình tìm kiếm cần hai tham số cho việc lựa
chọn số liệu phụ quan trọng.
– Tính toán bậc của nút.
– Thống kê số nút cho toàn bộ các tập dữ liệu.
Nhiệm vụ tính toán số lượng nút cho chiến lược
đa mức đầy đủ có thể được song song hóa để tiết kiệm thời gian
21
5.1 Sự cần thiết song song hóa Reasearch (tt)
Trang 22NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)
• Đối với chiến lược đa mức đặc biệt các nút được phân
phối ở các cấp độ khác nhau, đặc biệt có thể được giao cho nhiều nút để tiết kiệm thời gian thực thi
• Đối với chiến lược đa quan điểm thống nhất tìm kiếm
và suy diễn thực hiện từ nhiều quan điểm để đáp ứng nhu cầu đa dạng, quan điểm khác nhau của người sử
dụng có thể được xử lý song song để có được kết quả suy diễn từ tất cả các quan điểm gần như cùng một lúc
22
5.1 Sự cần thiết song song hóa Reasearch (tt)
Trang 23NHÓM 4 – CAO HỌC KHMT B (2010 - 2012) 23
Đối với tất cả các chiến lược, tất cả
các phần suy diễn có thể và nên được
song song hóa.
5.1 Sự cần thiết song song hóa Reasearch (tt)
Trang 24NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)
5.2 Một thiết kế sơ bộ cho kiến trúc song song hóa Reasearch
Cho một kiến trúc song song hóa Reasearch, các nút với các chức năng khác nhau được phân phối vật lý, nhưng thống nhất một cách hợp lý
24
Trang 25NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)
5.2 Một thiết kế sơ bộ cho kiến trúc song song hóa Reasearch (tt)
• Đối với phần tìm kiếm bổ trợ tìm kiếm song song (hình (b), (c)).
25
Trang 26NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)
5.2 Một thiết kế sơ bộ cho kiến trúc song song hóa Reasearch (tt)
Thống nhất tìm kiếm và suy diễn được thực hiện trong một quy trình làm việc quá trình tìm kiếm có thể được thực hiện trong một nút và quá trình suy diễn có thể được thực hiện trong một nút khác
26
Trang 27NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)
5.2 Một thiết kế sơ bộ cho kiến trúc song song hóa Reasearch (tt)
• Các nhiệm vụ tìm kiếm song song: Chia các tập dữ liệu vào nhiều bộ dữ liệu phụ và mỗi nhóm được xử lý bởi một trong các bổ trợ tìm kiếm kết quả tìm kiếm từ bổ trợ tìm kiếm khác nhau là độc lập được gửi đến cho quy trình làm việc ReaSearch (Hình (b))
27
Trang 28NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)
• Siêu tìm kiếm bổ trợ tất cả các bộ dữ liệu RDF/OWL
đi qua các loại hình bổ trợ tìm kiếm khác nhau (Type A,
B, C, vv…), và một loại bổ trợ tìm kiếm tích hợp được
sử dụng để tích hợp tất cả các kết quả tìm kiếm trên
bổ trợ tìm kiếm và chọn ra tập hợp con quan trọng
nhất của dữ liệu RDF / OWL suy diễn (Hình (c))
28
5.2 Một thiết kế sơ bộ cho kiến trúc song song hóa
Reasearch (tt)
Trang 29NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)
các kết quả tìm kiếm từ các bổ trợ tìm kiếm khác nhau thì nó được coi như tập con quan trọng nhất và được phân phối thông qua các quy trình làm việc ReaSearch cho nhiệm vụ suy diễn
kiếm thì nó được coi như là một tập con ít quan trọng hơn
Trang 31NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)
cả hai trong số chúng có kiến trúc tập trung.
tương tự như trên Các tập dữ liệu được chia
thành nhiều phần để được xử lý trên Reasoners
khác nhau (dữ liệu phân vùng) Mục đích là để cải thiện tốc độ suy diễn.
31
Trang 32NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)
• Kiến trúc này đề cập đến suy diễn dàn
(Ensemble) dựa trên ý tưởng của lĩnh vực học máy.
32
5.2 Một thiết kế sơ bộ cho kiến trúc song song hóa
Reasearch (tt)
Trang 33NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)
• Kỹ thuật này không nhằm mục đích đẩy nhanh
quá trình suy diễn
• Các động cơ đằng sau cách tiếp cận này:
– (1) Suy diễn dựa trên dữ liệu bề rộng Web có thể sản
xuất quá nhiều kết quả chỉ có một số bộ phận có thể có ích nhất định với người sử dụng Nếu một số kết quả xuất hiện trong kết quả bộ từ tất cả các
reasoners, chúng có thể được coi là quan trọng hơn những cái khác Các nút tích hợp có thể cung cấp kết quả suy diễn quan trọng nhất bằng cách chọn ra
những nút xuất hiện trong tất cả hoặc hầu hết các bộ kết quả phụ.
33
Trang 34NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)
Các động cơ đằng sau cách tiếp cận này:
– (2) Với sự bổ sung suy diễn khác nhau có thể
có được kết quả có ý nghĩa hơn nút tích hợp chịu trách nhiệm sáp nhập tất cả các kết quả suy diễn lại với nhau Theo định hướng người
dùng, mỗi loại Reasoner sẽ có một trọng lượng trên toàn bộ kiến trúc Khi các trọng lượng thay đổi, kết quả suy diễn cũng có thể khác nhau để đáp ứng nhu cầu khác nhau của người sử dụng.
34
5.2 Một thiết kế sơ bộ cho kiến trúc song song hóa Reasearch (tt)
Trang 35NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)
6 Kết luận
sắc về lĩnh vực xử lý song song Các kiến trúc mới và
thuật toán cần phải được phát triển để phù hợp với bối cảnh của suy diễn bề rộng Web
đã hướng vào lĩnh vực này và có hiệu quả cao.
cho việc thống nhất suy diễn và tìm kiếm trong môi trường song song vẫn chưa khám phá hết
tốc độ xử lý sản xuất các kết quả suy diễn hiệu quả hơn
để đáp ứng đa dạng nhu cầu của người sử dụng Chủ đề này cần nghiên cứu thêm!
35
Trang 36NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)
• Trong bài báo này, tác giả đã cung cấp một
số cuộc thảo luận sơ bộ để truyền cảm hứng cho nhiều kết quả nghiên cứu lĩnh vực này Đặc biệt, tập hợp các phương pháp song
song USeR-G Công việc trong tương lai,
chúng ta sẽ đi vào thảo luận sâu hơn và triển khai cụ thể.
36
6 Kết luận