Các chiến lược thu thập dữ liệu - TÌM HIỂU VỀ CÁCH- 123docz.net

CHƯƠNG II TÌM HIỂU VỀ CÁCH THỨC THU THẬP DỮ LIỆU WEBSITE. 26

2.3 Các chiến lược thu thập dữ liệu

Phần này chúng ta sẽ thảo luận về một số chiến lược thu thập dữ liệu bao gồm:

- Chiến lược thu thập dữ liệu theo chiều sâu - Chiến lược thu thập dữ liệu theo chiều rộng - Chiến lược thu thập dữ liệu theo ngẫu nhiên

- Chiến lược thu thập dữ liệu theo lựa chọn tốt nhất ngây thơ.

Như đã nói ở phần trước về bản chất, quá trình thu thập web chính là quá trình duyệt đệ quy một đồ thị. Các web được xem như một đồ thị với các trang là các đỉnh (node) và các siêu liên kết là các cạnh. Chính vì thế các chiến thuật thu thập dữ liệu cũng được xây dựng dựa trên các thuật toán tìm kiếm trên đồ thị. Các

- Tìm kiếm theo chiều sâu (Depth - First Search): Là thuật toán tìm kiếm bằng cách mở rộng nút đồ thị theo chiều sâu.

- Tìm kiếm theo chiều rộng (Breath - First Search): Là thuật toán tìm kiếm bằng cách mở rộng nút đồ thị theo chiều rộng.

- Tìm kiếm theo lựa chọn tốt nhất (Best - First Search): Là một thuật toán tìm kiếm tối ưu bằng cách mở rộng nút hứa hẹn nhất theo một quy tắc nào đó.

2.3.1 Chiến lược thu thập dữ liệu theo chiều sâu Quá trình thực hiện

Bước 1: Lấy URL đầu tiên trong danh sách (frotier) để thu thập - Nếu có qua bước 2

- Nước không có qua bước 5

Bước 2: Lấy trang tương ứng với URL qua HTTP - Nếu có qua bước 3

- Nếu không có quay lại bước 1

Bước 3: Kiểm tra xem trang này đã được thăm chưa?

- Nếu chưa qua bước 4

- Nếu đã được thăm rồi quay lại bước 1

Bước 4: Đánh dấu trang này đã được thăm. Bóc tách trang và tìm các liên kết có trong trang này

- Nếu có, thêm các liên kết vào danh sách frontier. Quay lại bước 3 - Nếu không, quay lại bước 1.

Bước 5: Kết thúc

2.3.2 Chiến lược thu thập dữ liệu theo chiều rộng Quá trình thực hiện:

Bước 1: Lấy URL đầu tiên trong danh sách để thu thập.

- Nếu có qua bước 2

- Nếu không có qua bước 5

Bước 2: Lấy trang tương ứng với URL qua HTTP - Nếu có qua bước 3

- Nếu không có quay lại bước 1

Bước 3: Kiểm tra xem trang này đã được thăm chưa?

- Nếu chưa qua bước 4 - Nếu rồi quay lại bước 1

Bước 4: Đánh dấu trang này đã được thăm. Bóc tách trang và tìm kiếm liên kết có trong trang này.

- Nếu có, thêm các liên kết vào cuối danh sách. Quay lại bước 3 - Nếu không, quay lại bước 1

Bước 5: Kết thúc

2.3.3 Chiến lược thu thập dữ liệu theo ngẫu nhiên Quá trình thực hiện:

Bước 1: Lấy URL ngẫu nhiên trong danh sách để thu thập - Nếu có qua bước 2

- Nếu không có qua bước 5

Bước 2: Lấy trang tương ứng với URL qua HTTP - Nếu có qua bước 3

- Nếu không quay lại bước 1

Bước 3: Kiểm tra xem trang này đã được thăm chưa?

- Nếu chưa qua bước 4 - Nếu rồi quay lại bước 1

Bước 4: Đánh dấu trang này đã được thăm. Bóc tách trang và tìm các liên kết có trong trang này.

- Nếu có, thêm các liên kết vào cuối danh sách. Quay lại bước 3 - Nếu không có quay lại bước 1.

Bước 5: Kết thúc

2.3.4 Chiến lược thu thập dữ liệu theo lựa chọn tốt nhất ngây thơ

Chiến lược thu thập dữ liệu theo lựa chọn tốt nhất ngây thơ sử dụng thuật toán tìm kiếm theo lựa chọn tốt nhất theo quy tắc tính điểm số cho các URL. Điểm

tương ứng và truy vấn mà người dùng đưa ra. Độ tương đồng cosin là phương pháp tính giá trị tương đồng giữa 2 vecto n chiều bằng cách tìm cosin góc giữa chúng, phương pháp độ tương đồng cosin thường được dùng để so sánh một truy vấn với một trang văn bản. Độ tương đồng cosin của trang p và truy vấn q được tính bằng công thức:

Độ tương đồng (p,q) = cos(vp, vq) = vp∗vq

| |vp| |∗| |vq| |

Trong đó vp, vq là các vecto đại diện được tính dựa trên tần số phát sinh. Tần số phát sinh có thể hiểu là số lần xuất hiện của các từ truy vấn q trong trang p.

vp∗vq là tích vô hướng của 2 vecto; ||v|| là giá trị độ dài Euclid của vecto v.

Nếu độ tương đồng (p,q) = -1 tức là khác nhau tuyệt đối Nếu độ tương đồng (p,q) = 0 tức là độc lập với nhau Nếu độ tương đồng (p,q) = 1 tức là chính xác tuyệt đối

0< độ tương đồng (p,q) <1 tức là trang p có liên quan đến truy vấn q

-1< độ tương đồng (p,q) <0 tức là trang p không có liên quan đến truy vấn q Quá trình thu thập dữ liệu dùng trong trình thu thập tuần tự được thực hiện như sau:

Bước 1: Sắp xếp các URL theo thứ tự giảm dần điểm số. Lấy ra URL đầu tiên trong danh sách.

- Nếu có qua bước 2 - Nếu không qua 5

Bước 2: Lấy trang tương ứng với URL qua HTTP - Nếu có qua bước 3

- Nếu không quay lại bước 1

Bước 3: Kiểm tra xem trang này đã được thăm chưa?

- Nếu chưa qua bước 4 - Nếu rồi quay lại bước 1

Bước 4: Đánh dấu trang này đã được thăm. Bóc tách trang và tìm các liên kết có trong trang này

- Nếu có, thêm liên kết vào cuối danh sách. Quay lại bước 3 - Nếu không, quay lại bước 1

Bước 5: Kết thúc

Ngoài ra chiến lược thu thập dữ liệu theo lựa chọn tốt nhất ngây thơ cũng có thể dùng cho tình thu thập đa luồng nhưng độ ưu tiên được tính theo N trong đó N là hàm của số lượng các luồng đang chạy đồng thời. Các bước trong quá trình thu thập dữ liệu cũng giống như trên chỉ khác là URL được sắp xếp theo giá trị N giảm dần.

Ngoài chiến lược thu thập dữ liệu theo ta chọn tốt nhất ngây thơ còn có nhiều cách thu thập dữ liệu khác sử dụng thuật toán theo lựa chọn tốt nhất. Chúng khác nhau quy tắc tính điểm số cho URL. Có thể kể đến một số trình thu thập như tim kiếm tham ăn (Shark Search), nhện thông tin (InfoSpidlers).