ĐỀ TÀI : CÁC GIẢI PHÁP XỬ LÝ SONG SONG TRONG WEB NGỮ NGHĨA. TS. Hoàng Hữu Hạnh

Nhưng trong một trang web, không thể thực hiện được bởi vì kỹ thuật suy diễn chậm trên một bộ xử lý duy nhất, đặc biệt là khi giao dịch với Web với tập dữ liệu RDF và OWL... NHÓM 4 – CAO

Trang 1

SONG TRONG WEB NGỮ NGHĨA

Giáo viên hướng dẫn:

TS Hoàng Hữu Hạnh

Trang 2

NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)

Nhóm thực hiện:

1 Nguyễn Thị Thanh Tâm

2 Lê Bá Minh Phong

3 Trần Thị Thành

4 Trần Như Đăng Tuyên

5 Nguyễn Vũ Cát Tường

Trang 3

3 XỬ LÝ SONG SONG TRÊN WEB NGỮ NGHĨA

5 REASEARCH VÀ SONG SONG HÓA

6 KẾT LUẬN

Trang 4

1.Giới thiệu

 Web có ngữ nghĩa là sự mở rộng của Web hiện tại mà trong

đó thông tin được định nghĩa rõ ràng sao cho con người và máy tính có thể cùng làm việc với nhau một cách hiệu quả hơn.

 Web ngữ nghĩa cung cấp dịch vụ để trao đổi và sử dụng dữ liệu, thông tin và kiến thức trong các hình thức khác nhau trên Web

 Với dữ liệu nhỏ suy diễn trên Web ngữ nghĩa có thể triển khai trên một PC Nhưng trong một trang web, không thể thực hiện được bởi vì kỹ thuật suy diễn chậm trên một bộ xử lý duy nhất, đặc biệt là khi giao dịch với Web với tập dữ liệu RDF và OWL.

Trang 5

Trên Web với trang dữ liệu lớn chứa dữ liệu giàu ngữ nghĩa được tìm thấy, đặt ra những

thách thức mới cho các kỹ thuật xử lý

Trên Web dữ liệu phát triển rất nhanh và động

Các quy tắc có thể được thể hiện dưới các

hình thức khác nhau

 Đối mặt với những yêu cầu trên, những

phương pháp xử lý tồn tại trước đó mất hiệu lực.

Giải pháp: song song hóa quá trình xử lý

Trang 6

Sự khác biệt giữa xử lý tuần tự và xử lý song song:

+ Kiến trúc thượng tầng

+ Thuật toán

Trang 7

+ SIMD (đơn luồng lệnh, đa luồng dữ liệu)

+ MISD (đa luồng lệnh, đơn luồng dữ liệu)

+ MIMD (đa luồng lệnh, đa luồng dữ liệu).

Đối với bộ nhớ, ba loại kiến trúc được xem xét: + SMP (đa xử lý đối xứng)

+ DMP (song song hóa bộ nhớ phân tán)

+ HMS (hệ thống bộ nhớ phân cấp).

Trang 8

Tuy nhiên khi số lượng máy tăng  tốc độ

xử lý tăng tuyến tính nhưng không sử dụng hết công suất tối đa

Vì vậy vấn đề quan trọng tìm ra thuật toán xử

lý song song để giảm chi phí truyền thông

vẫn duy trì trọng tải.

Trang 9

3.Xử lý song song trên Web ngữ nghĩa

Hai mục tiêu quan trọng trong xử lý của Web ngữ nghĩa:

+ kiểm tra sự thống nhất của các trang web

dữ liệu để các dữ liệu từ các nguồn khác

nhau cũng được tích hợp

+ Tìm thông tin mới dựa trên những sự kiện

và các quy định hiện hành.

Trang 10

So với xử lý song song truyền thống, Web ngữ nghĩa

có một số mối quan tâm mới:

Có quá nhiều nút trong một tập dữ liệu RDF Web quy

mô, và mỗi nút có thể có các vị từ nhiều liên kết với nó

 Dữ liệu phụ thuộc phức tạp và phân vùng dữ liệu

 Cuối cùng, cân bằng tải trên mỗi máy vẫn là một vấn

đề khó giải quyết, do tính chất rất sai lệch về Web ngữ nghĩa

Trang 11

Trong xử lý song song Web ngữ nghĩa, hai

xu hướng chính trong quá trình xử lý song song:

 phương pháp tiếp cận phân vùng

 phương pháp phân vùng quy tắc

Trang 12

4 Một số giải pháp

12

LarKC là kiến trúc mở và là một nền tảng chung cho

xử lý phân phối lớn Hoạt động như một quy trình có thể

mở rộng cho các xử lý Trong mỗi quy trình, một số thành phần (plug-in) có nhiệm vụ xử lý đa dạng Quy trình này được giám sát bởi một plug-in quyết định Khi một số plug-

in được gọi trong quy trình chúng có thể được phân phối giữa các nút và làm việc song song

4 1 LarKC

Trang 13

NHÓM 4 – CAO HỌC KHMT B (2010 - 2012) 13

 LarKC song song thực hiện theo những cách sau:

+ Hiển thị các plug-in để thực hiện song song

+ Hiển thị các plug-in riêng biệt song song

+ Thực hiện một số quy trình song song, hoặc thực hiện các quy trình cùng đầu vào khác nhau song song

Trang 14

Là một phần của dự án LarKC, là nền tảng song song

và phân phối để xử lý số lượng lớn dữ liệu RDF

4 2 MaRVIN (Massive RDF Versatile Inference

Network)

Mục đích làm việc của MaRVIN là việc quan sát những các vấn đề khó khăn của Web ngữ nghĩa thông qua chiến lược divide-and-conquer truyền thống khi dữ liệu của Web ngữ nghĩa là khó phân vùng

Trang 15

Thứ hai, mỗi nút tính toán tính việc đóng cửa của phân vùng của nó bằng cách sử dụng một reasoner thông thường Sau đó, dữ liệu cũ và mới là hỗn hợp và phân vùng mới được tạo ra trong một cách phân tán Quá trình này được lặp đi lặp lại cho đến khi không có bộ ba mới được suy ra

Trang 16

Reasoning-Hadoop là một hệ thống suy diễn RDFS/OWL dựa trên nguyên tắc song song được xây dựng trên của chương trình khung Hadoop Hadoop là một chương trình khung mã nguồn mở sử dụng chủ yếu cho các

dữ liệu lớn song song với xử lý ban đầu được phát triển bởi Yahoo!

4 3 Reasoning-Hadoop

Trang 17

Hadoop thực hiện các mô hình lập trình MapReduce Mô hình lập trình MapReduce được phát triển bởi Google và nó đòi hỏi tất cả các thông tin được mã hoá như một tập hợp các cặp hình thức <Key, Value>

Một thuật toán MapReduce điển hình như đầu vào một tập hợp các cặp, xử lý chúng bằng cách sử dụng hai chức năng bản đồ và rút gọn, trả về một số cặp mới như đầu ra Việc thực hiện chương trình được xử lý bởi các chương trình khung là chia tách các đầu vào trong các tập con và phân chia tính toán cho các nút trong mạng

Trang 18

Reasoning-Hadoop đã chỉ ra rằng có một số lợi thế trong việc sử dụng MapReduce cho suy diễn trong Web

ngữ nhĩa:

• Suy diễn có thể được thực hiện có hiệu quả trên bộ dữ

liệu lớn bởi vì chương trình khung Hadoop có thể được

triển khai trong các mạng với hàng ngàn các nút

• Thực hiện được xử lý hoàn toàn bởi các chương trình khung và những người lập trình có thể tập trung vào logic của chương trình mà không cần lo lắng về các vấn đề kỹ thuật được phổ biến trong hệ thống phân phối

• Tuy nhiên phương pháp này giải quyết với logic phức tạp hơn

Trang 19

5 ReaSearch và sự song song hóa của nó

5.1 Sự cần thiết song song hóa Reasearch

ReaSearch là viết tắt hợp nhất của suy diễn ( Reasoning ) và tìm kiếm ( Search ) trên bề rộng Web Thể hiện một quá trình

chéo nhau của sự tìm kiếm một tập hợp con quan trọng từ

dữ liệu trang Web và suy diễn trên đó Quá trình chéo nhau sẽ kết thúc khi người sử dụng thỏa mãn với kết quả suy diễn (hình(a)).

Trang 20

Trên Semantic Web, cả tiến trình tìm kiếm và suy diễn cần phải xử lý dữ liệu rất lớn.

Quá trình Reasearch cần được song song

hóa và chiến lược cụ thể làm thế nào để thực hiện khung công việc này được phát triển

thông qua các chiến lược khác nhau.

Tập hợp các chiến lược bao gồm: hợp nhất tìm kiếm và suy diễn thông qua đa mức đầy

đủ, đa mức đặc biệt, đa quan điểm…

20

5.1 Sự cần thiết song song hóa Reasearch

Trang 21

• Đối với chiến lược đa mức đầy đủ  tiến

trình tìm kiếm cần hai tham số cho việc lựa

chọn số liệu phụ quan trọng.

– Tính toán bậc của nút.

– Thống kê số nút cho toàn bộ các tập dữ liệu.

 Nhiệm vụ tính toán số lượng nút cho chiến lược

đa mức đầy đủ có thể được song song hóa để tiết kiệm thời gian

21

5.1 Sự cần thiết song song hóa Reasearch (tt)

Trang 22

• Đối với chiến lược đa mức đặc biệt các nút được phân

phối ở các cấp độ khác nhau, đặc biệt có thể được giao cho nhiều nút để tiết kiệm thời gian thực thi

• Đối với chiến lược đa quan điểm thống nhất tìm kiếm

và suy diễn  thực hiện từ nhiều quan điểm để đáp ứng nhu cầu đa dạng, quan điểm khác nhau của người sử

dụng có thể được xử lý song song để có được kết quả suy diễn từ tất cả các quan điểm gần như cùng một lúc

22

Trang 23

 Đối với tất cả các chiến lược, tất cả

các phần suy diễn có thể và nên được

song song hóa.

Trang 24

5.2 Một thiết kế sơ bộ cho kiến trúc song song hóa Reasearch

 Cho một kiến trúc song song hóa Reasearch, các nút với các chức năng khác nhau được phân phối vật lý, nhưng thống nhất một cách hợp lý

24

Trang 25

5.2 Một thiết kế sơ bộ cho kiến trúc song song hóa Reasearch (tt)

• Đối với phần tìm kiếm bổ trợ tìm kiếm song song (hình (b), (c)).

25

Trang 26

Thống nhất tìm kiếm và suy diễn được thực hiện trong một quy trình làm việc quá trình tìm kiếm có thể được thực hiện trong một nút và quá trình suy diễn có thể được thực hiện trong một nút khác

26

Trang 27

• Các nhiệm vụ tìm kiếm song song: Chia các tập dữ liệu vào nhiều bộ dữ liệu phụ và mỗi nhóm được xử lý bởi một trong các bổ trợ tìm kiếm  kết quả tìm kiếm từ bổ trợ tìm kiếm khác nhau là độc lập  được gửi đến cho quy trình làm việc ReaSearch (Hình (b))

27

Trang 28

• Siêu tìm kiếm bổ trợ  tất cả các bộ dữ liệu RDF/OWL

đi qua các loại hình bổ trợ tìm kiếm khác nhau (Type A,

B, C, vv…), và một loại bổ trợ tìm kiếm tích hợp được

sử dụng để tích hợp tất cả các kết quả tìm kiếm trên 

bổ trợ tìm kiếm và chọn ra tập hợp con quan trọng

nhất của dữ liệu RDF / OWL suy diễn (Hình (c))

28

5.2 Một thiết kế sơ bộ cho kiến trúc song song hóa

Reasearch (tt)

Trang 29

các kết quả tìm kiếm từ các bổ trợ tìm kiếm khác nhau thì nó được coi như tập con quan trọng nhất và được phân phối thông qua các quy trình làm việc ReaSearch cho nhiệm vụ suy diễn

kiếm thì nó được coi như là một tập con ít quan trọng hơn

Trang 31

cả hai trong số chúng có kiến trúc tập trung.

tương tự như trên  Các tập dữ liệu được chia

thành nhiều phần để được xử lý trên Reasoners

khác nhau (dữ liệu phân vùng) Mục đích là để cải thiện tốc độ suy diễn.

31

Trang 32

• Kiến trúc này đề cập đến suy diễn dàn

(Ensemble) dựa trên ý tưởng của lĩnh vực học máy.

32

5.2 Một thiết kế sơ bộ cho kiến trúc song song hóa

Reasearch (tt)

Trang 33

• Kỹ thuật này không nhằm mục đích đẩy nhanh

quá trình suy diễn

• Các động cơ đằng sau cách tiếp cận này:

– (1) Suy diễn dựa trên dữ liệu bề rộng Web có thể sản

xuất quá nhiều kết quả chỉ có một số bộ phận có thể có ích nhất định với người sử dụng Nếu một số kết quả xuất hiện trong kết quả bộ từ tất cả các

reasoners, chúng có thể được coi là quan trọng hơn những cái khác Các nút tích hợp có thể cung cấp kết quả suy diễn quan trọng nhất bằng cách chọn ra

những nút xuất hiện trong tất cả hoặc hầu hết các bộ kết quả phụ.

33

Trang 34

Các động cơ đằng sau cách tiếp cận này:

– (2) Với sự bổ sung suy diễn khác nhau  có thể

có được kết quả có ý nghĩa hơn  nút tích hợp chịu trách nhiệm sáp nhập tất cả các kết quả suy diễn lại với nhau  Theo định hướng người

dùng, mỗi loại Reasoner sẽ có một trọng lượng trên toàn bộ kiến trúc Khi các trọng lượng thay đổi, kết quả suy diễn cũng có thể khác nhau để đáp ứng nhu cầu khác nhau của người sử dụng.

34

Trang 35

6 Kết luận

sắc về lĩnh vực xử lý song song Các kiến trúc mới và

thuật toán cần phải được phát triển để phù hợp với bối cảnh của suy diễn bề rộng Web

đã hướng vào lĩnh vực này và có hiệu quả cao.

cho việc thống nhất suy diễn và tìm kiếm trong môi trường song song vẫn chưa khám phá hết

tốc độ xử lý sản xuất các kết quả suy diễn hiệu quả hơn

để đáp ứng đa dạng nhu cầu của người sử dụng Chủ đề này cần nghiên cứu thêm!

35

Trang 36

• Trong bài báo này, tác giả đã cung cấp một

số cuộc thảo luận sơ bộ để truyền cảm hứng cho nhiều kết quả nghiên cứu lĩnh vực này Đặc biệt, tập hợp các phương pháp song

song USeR-G Công việc trong tương lai,

chúng ta sẽ đi vào thảo luận sâu hơn và triển khai cụ thể.

36

6 Kết luận

Tiêu đề	Các Giải Pháp Xử Lý Song Song Trong Web Ngữ Nghĩa
Tác giả	Nguyễn Thị Thanh Tâm, Lê Bá Minh Phong, Trần Thị Thành, Trần Như Đăng Tuyên, Nguyễn Vũ Cát Tường
Người hướng dẫn	TS. Hoàng Hữu Hạnh
Trường học	Đại Học Huế
Chuyên ngành	Cao Học KHMT B
Thể loại	Đề Tài
Năm xuất bản	2010 - 2012
Thành phố	Huế

Định dạng
Số trang	37
Dung lượng	600,5 KB