Bài tiểu luận môn Công nghệ tri thức Web mining – khai mỏ thông tin web

Em cũng sẽ trình bày một số vấn đề quan trọng, độc đáo trong mô hình Web, một mô hình với nhiều dữ liệu phức tạp mà máy chủ có thể thu nhập để phục vụ cho quá trình phân tích sau này.. B

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG

BÁO CÁO THU HOẠCH CHUYÊN ĐỀ

Công nghệ tri thức

Đề tài: Web mining – khai mỏ thông tin web.

Giáo viên hướng dẫn: GS.TSKH Hoàng Kiếm

Sinh viên: Trần Hoài Phong MSSV: CH1101027

Trang 2

MỤC LỤC

LỜI MỞ ĐẦU: 3

I PHÂN LOẠI WEB MINING: 4

1 Web content mining – khai mỏ nội dung trang web 4

2 Web usage mining – khai mỏ quá trình sử dụng web: 5

II WEB USAGE MINING: 6

1 Các giai đoạn trong web usage mining: 6

2 Một kiến trúc tiêu biểu – webminer: 10

III KẾT LUẬN: 15

1 Đối với dữ liệu trong giai đoạn tiền xử lý: 15

2 Đối với quá trình khai mỏ dữ liệu: 16

3 Đối với quá trình phân tích dữ liệu: 16

Tài liệu tham khảo : 17

Trang 3

Lời mở đầu:

Với sự tăng trưởng bùng nổ của các nguồn thông tin trên World Wide Web, nhu cầu về những công cụ tự động tìm các nguồn tài nguyên thông tin mong muốn, cũng như việc theo dõi và phân tích hành vi người dùng đang ngày càng trở nên cần thiết Những yếu tố này làm phát sinh mong muốn tạo ra một hệ thống thông minh, hiệu quả để có thể khai thác kho kiến thức vô cùng phong phú này Web mining có thể được định nghĩa là khám phá và phân tích các thông tin hữu ích từ World Wide Web Là quá trình tự động tìm kiếm các nguồn tài nguyên

thông tin có sẵn trên mạng như nội dung trang web – web content mining, và phân tích hành vi sử dụng của người dùng – web usage mining.

Trong bài tiểu luận này, em sẽ trình bày một cái nhìn tổng quan về các công

cụ, kỹ thuật, và các vấn đề liên quan đến cả hai nội dung này Em cũng sẽ trình bày một số vấn đề quan trọng, độc đáo trong mô hình Web, một mô hình với nhiều

dữ liệu phức tạp mà máy chủ có thể thu nhập để phục vụ cho quá trình phân tích sau này Bao gồm các nguồn dữ liệu khác nhau như nhật kí truy cập máy chủ, thông tin người dùng, các thông tin cần thiết trong phiên sử dụng của người dùng cũng như các thao tác trong quá trình sử dụng Em cũng giành một phần chính của bài tiểu luận này tập trung để thảo luận các vấn đề và các khó khăn đặc trưng khi phân tích quá trình sử dụng Web của người dùng Ngoài ra, em cũng sẽ đưa ra một số các công cụ và kỹ thuật đang nổi lên, và một số hướng nghiên cứu trong tương lai

Tuy nhiên mặc dù đã ra sức tìm hiểu cũng như với sự hướng dẫn cơ bản về công nghệ tri thứ và ứng dụng từ thầy nhưng với kinh nghiệm ít ỏi nên nội dung bài tiểu luận này không thể tránh được những sai sót Mong thầy thông cảm và cuối cùng e xin cám ơn thầy đã giành thời gian đọc bài tiểu luận này

Trang 4

I Phân loại web mining :

1 Web content mining – khai mỏ nội dung trang web

Việc tìm kiếm các thông tin hữu ích từ các nội dung trên web là quá trình ứng dụng các kỹ thuật khai mỏ dữ liệu đối với các nội dung trên Internet Web chứa rất nhiều loại dữ liệu Về cơ bản, nội dung trang web bao gồm một số loại dữ liệu như văn bản đơn giản (không có cấu trúc), hình ảnh, âm thanh, video, cũng như HTML (bán cấu trúc), hoặc XML (văn bản có cấu trúc), tài liệu đa phương tiện Do sự phức tạp trong cấu trúc của các nội dung trên web khiến cho việc khai thác thông tin một cách tự động là tương đối khó khăn Trong những năm gần đây đã có một số nghiên cứu để phát triển ngày càng nhiều kĩ thuật giúp cho việc khai thác dữ liệu, nội dung trên trang web ngày một hiệu quả hơn Dưới đây là một vài nỗ lực trong những năm gần đây

1.1 Agent-based approach – tiếp cận theo hướng agent:

Agent là một hệ thống sẽ đảm nhận trách nhiệm khai thác nội dung của trang web Bao gồm:

- Intelligent search agents: phục vụ cho quá trình tìm kiếm thông minh, nó

sử dụng một vài kĩ thuật dựa vào thông tin của người dùng hoặc các domain đặc trưng để tăng hiệu quả cho việc tìm kiếm các thông tin thích hợp

- Information filtering/Categorization: kĩ thuật nhúng những thông tin ngữ nghĩa trong các liên kết và nội dung của các tài liệu đễ phân loại tài liệu

- Personalize web agents: dựa vào sở thích của người dùng và dùng nó để tìm kiếm nội dung thích hợp của trang web

1.2 Database based approach – tiếp cận theo hướng cơ sở dữ liệu:

Trang 5

Sử dụng các kĩ thuật truy vấn cơ sở dữ liệu kết hợp với các kĩ thuật khai thác mõ dữ liệu để tăng khả năng khai thác các nội dung trang web

- Multilevel Databases: Ý tưởng chính đằng sau phương pháp này là mức thấp nhất của cơ sở dữ liệu sẽ chứa dữ liệu bán cấu trúc, như tài liệu siêu văn bản, được lưu trữ tại nhiều Web khác nhau.Ở mức cao hơn các siêu dữ liệu hoặc các dữ liệu tổng quát sẽ được chiết xuất từ các dữ liệu bán cấu trúc ở mức thấp hơn và được tổ chức thành các bộ cơ sỡ dữ liệu có cấu trúc

- Web query systems: Nhiều hệ thống truy vấn web và ngôn ngữ đang được phát triển gần đây dùng các ngôn ngữ truy cập cơ sở dữ liệu tương tự như sql hoặc các thông tin cấu trúc trong tài liệu web và thậm chí ngôn ngữ tự nhiên để truy vấn

và tìm kiếm thông tin trên thế giới web Ví dụ: W3QL, WebLog, UnQL, …

2 Web usage mining – khai mỏ quá trình sử dụng web:

Khai mỏ sử dụng Web là quá trình khám phá cách thức truy cập của người dùng từ các máy chủ Web Tập hợp 1 số lượng lớn các dữ liệu trong hoạt động hàng ngày của họ sẽ được ghi bằng nhật ký truy cập máy chủ Các nguồn thông tin người dùng khác còn bao gồm thông tin đăng ký của người sử dụng, thông tin khảo sát …

Phân tích các dữ liệu đó có thể giúp các tổ chức xác định chu kì thời gian hoạt động của khách hàng, hiệu quả của các chiến lược tiếp thị và quảng cáo sản phẩm Nó cũng có thể cung cấp thông tin giúp cho doanh nghiệp có thể cơ cấu lại một trang web sao cho nó hoạt động hiệu quả hơn Đặc biệt là đối với quảng cáo trên World Wide Web, phân tích quá trình truy cập của người sử dụng là một công cụ rất quan trọng giúp xác định được mục tiêu quảng cáo cho từng nhóm người sử dụng cụ thể

Hiện tại hầu hết các công cụ phân tích Web đều có cung cấp cơ chế để báo cáo hoạt động của người dùng trên máy chủ với nhiều hình thức lọc dữ liệu khác

Trang 6

nhau Sử dụng các công cụ như vậy có thể giúp chúng ta xác định số lượng truy cập đến máy chủ, các tập tin cá nhân, các tên miền và URL mà người dùng truy cập nhiều nhất Tuy nhiên, những công cụ này hầu hết chỉ được thiết kế để đảm nhiệm từ thấp đến trung bình lưu lượng truy cập máy chủ, và thường không có hoặc cung cấp rất ít các phân tích về sự tương tác giữa các dữ liệu trong quá trình truy cập Web Dưới đây là 1 số kĩ thuật đã được phát triển

2.1 Pattern discovery tool – các công cụ tìm ra các mẫu dữ liệu:

Các công cụ tìm ra các mẫu dữ liệu sẽ dựa trên một số phương pháp và thuật toán được phát triển từ các lĩnh vực như thống kê, khai mõ dữ liệu, máy học,

và nhận dạng mẫu để tìm ra các kiến thức cần thiết từ một tập hợp dữ liệu Ví dụ

hệ thống webminer đã giới thiệu một kiến trúc tổng quát cho Web usage mining WEBMINER sẽ tự động tìm kiếm các luật kết hợp và một số mô hình tuần tự từ nhật ký truy cập máy chủ

2.2 Pattern analysis tool – các công cụ phân tích mẫu tìm được:

Một khi mẫu đã được phát hiện, các nhà phân tích cần những công cụ và kỹ thuật thích hợp để hiểu, và giải thích các mẫu này Ví dụ về các công cụ như vậy bao gồm các hệ thống WebViz , WEBMINER đề xuất một cơ chế truy vấn giống như SQL để truy vấn các kiến thức phát hiện được từ mẫu

II Web usage mining :

1 Các giai đoạn trong web usage mining:

Như đã thảo luận trong phần 1.2, việc phân tích quá trình sử dụng của người dùng là rất quan trọng để xác định chiến lược tiếp thị hiệu quả và tối ưu hóa

cơ cấu của các trang web Đây là quá trình phân tích giúp chúng ta khám phá ra những dữ liệu có ý nghĩa trong một tập hợp dữ liệu vô cùng lớn mà máy chủ thu

Trang 7

nhập mỗi ngày Đối với web, những dữ liệu được thu nhập tự động tại máy chủ thông qua việc ghi logs (nhật kí) Phân tích các dữ liệu này sẽ cho chúng ta rất nhiều thông tin để tái cấu trúc lại website qua đó nâng cao tính hiệu quả, tăng cường khả năng quản lý giữa các chức năng, phân tích hành vi của người dùng qua

đó hướng quảng cáo tới các nhóm người dùng riêng biệt…

Hầu hết các hệ thống phân tích web đều cung cấp những cơ chế cơ bản để báo cáo về hành vi người dùng Nó có thể cho ta biết được số lượng truy cập một file nào đó, thời gian truy cập, và url mà người dùng truy cập

Do tính chất đặc biệt của mô hình client-server trong World Wide Web, sự khó khăn trong việc nhận dạng của người dùng cũng như phiên hoạt động của người dùng, sự khác biệt giữa đường dẫn và kho chứa trang web… do đó cần phải phát triển một hệ thống mới hổ trợ tốt hơn quá trình khai thác mỏ dữ liệu Cụ thể, cần có một quá trình tiền xử lý dữ liệu trước khi các thuật toán khai thác mỏ có thể được chạy Bao gồm phát triển một mô hình cho các dữ liệu về nhật ký truy cập, phát triển kỹ thuật để làm sạch /lọc các dữ liệu thô nhằm loại bỏ các giá trị ngoại lai và các mục không liên quan, nhóm quá trình truy cập của các cá nhân vào các đơn vị ngữ nghĩa (là giao tác), tích hợp các nguồn dữ liệu khác nhau vào thông tin đăng ký người dùng , và chuyên môn hoá các thuật toán khai thác dữ liệu để tận dụng tối đa dữ liệu về nhật ký truy cập

1.1 Giai đoạn tiền xử lý :

Đầu tiên làm sạch dữ liệu Kỹ thuật này để làm sạch nhật ký máy chủ nhằm loại bỏ các mục không liên quan Đây là kỹ thuật quan trọng không chỉ hổ trợ cho quá trình khai mõ dữ liệu mà còn giúp phân tích thông tin nhật ký Web Các thống

kê báo cáo chỉ hữu ích nếu các dữ liệu trong nhật ký máy chủ cho một bức tranh chính xác quá trình truy cập của người sử dụng truy cập của trang web Loại bỏ các mục không liên quan có thể được thực hiện bằng cách kiểm tra các hậu tố của địa chỉ URL Ví dụ: tất cả các mục nhật ký với hậu tố như: gif, jpeg, GIF, JPEG, jpg, JPG… có thể được gỡ bỏ

Trang 8

Một vấn đề khó khăn hơn là xác định những truy cập quan trọng mà bị bỏ

lỡ không được ghi lại trong nhật ký truy cập Cơ chế cache ở máy người dùng và proxy ở máy chủ có thể làm móp méo bức tranh về quá trình truy cập của người dùng với một trang Web Các phương pháp hiện nay để cố gắng khắc phục vấn đề này bao gồm việc sử dụng cookie, cache busting, và bắt buộc phải đăng ký người dùng Những phương pháp này đều có hạn chế Cookie có thể bị xóa bởi người sử dụng, bộ nhớ cache Busting có ưu điểm là cache được tạo ra riêng biệt để tránh việc browser của người dùng sử dụng lại cache cũ gây ra sự không đồng bộ nhưng chức năng này có thể bị vô hiệu hóa, và việc không cần phải đăng kí người dùng

có thể thường xuyên gây ra thông tin sai lệch Các phương pháp để đối phó với vấn đề bộ nhớ đệm bao gồm sử dụng referrer logs, cùng với một số biến lưu thông tin tạm thời để suy ra những dữ liệu nào đã không được đồng nhất

Một vấn đề khác liên quan với các máy chủ proxy là nhận dạng người sử dụng Sử dụng một tên máy để xác định người sử dụng có thể dẫn đến tình trạng nhiều người dùng được hiểu như là một người sử dụng Một thuật toán được dùng kiểm tra với mỗi yêu cầu gửi đến máy chủ xem có phải là truy cập từ các trang đã truy cập trước đó hay không Nếu một trang được yêu cầu không phải trực tiếp từ các trang trước thì ta biết được rằng có nhiều người dùng được giả định tồn tại trên cùng một máy Một số cách khác liên quan đến việc sử dụng kết hợp địa chỉ IP, tên máy, trình duyệt, và một số thông tin tạm thời để xác định người sử dụng

Bước tiền xử lý lớn thứ hai là đồng nhất giao tác Trước khi tiến hành khai thác mỏ bất kỳ dữ liệu truy cập web, trình tự các trang liên quan mà người dùng truy cập phải được nhóm lại thành các đơn vị có cấu trúc là đại diện cho các giao tác web hoặc phiên sử dụng của người dùng Một phiên sử dụng của người dùng là tất cả các trang liên quan đến một người dùng trong một lần truy cập trang web

1.2 Tìm ra các mẫu dữ liệu :

Trang 9

Một khi phiên sử dụng của người dùng được xác định, có nhiều kiểu khai

mỏ mẫu truy cập tùy thuộc vào nhu cầu của các nhà phân tích, chẳng hạn như phân tích đường dẫn, khám phá các luật kết hợp và các mẫu tuần tự, và phân nhóm

và phân loại

Phân tích đường dẫn được dùng để xác định được đường dẫn mà người dùng thường xuyên truy cập

Kĩ thuật mẫu tuần tự dùng các thông tin lưu được để đoán được mẫu truy cập tuần tự mà người dùng thường xuyên sử dụng ví dụ người dùng truy cập trang web này phần nhiều từ đâu, từ thông tin đó chúng ta sẽ đặt quảng cáo sao cho hợp lý;

Phân tích nhóm người dùng có những đặc tính tương tự nhau từ đó có thể thiết kế web thay đổi tuỳ theo đặc điểm của nhóm đó hoặc có những chính sách marketing hiệu quả hơn tuỳ vào nhóm người dùng cụ thể

Phân tích luật kết hợp cho ta thấy được sự tương quan trong quá trình truy cập tập tin khác nhau trên một máy chủ của một khác hàng nhất định Ví dụ: 60% người dùng truy cập trang sản phẩm thì cũng sẽ truy cập trang sản phầm a

1.3 Phân tích mẫu vừa phát hiệ n :

Việc phát hiện mẫu nghiên cứu sẽ không có tác dụng gì nếu không có các công cụ hoặc cơ chế hổ trợ cho quá trình phân tích giúp chúng ta hiểu rõ hơn về mẫu vừa phát hiện Do đó ngoài việc phát triển các kĩ thuật để tìm ra các mẫu nghiên cứu từ nhật kí web, chúng ta phải phát triển thêm các kĩ thuật để phân tích các mẫu tìm được Các kĩ thuật phát triển này thường được rút ra từ nhiều lĩnh vực như thống kê, đồ hoạ, mô hình, phân tích khả dụng, truy vấn cơ sở dữ liệu …

Mô hình là một trong những công cụ được sử dụng rất thành công để giúp mọi người hiểu thêm về các hiện tượng khác nhau cả hiện thực lẫn trừu tượng Do

đó nó là một lựa chọn tự nhiên để giúp chúng ta hiểu thêm về hành vi của con

Trang 10

người Pitkov đã phát triển hệ thống WebViz để mô hình hoá quá trình truy cập www WebViz giúp mô hình hoá các đường dẫn trong trang web WebViz cũng giúp chúng ta loại bỏ những nhánh không liên quan Web sẽ được xem như là một

đồ thị trong đó đỉnh sẽ là các trang và nhánh sẽ là các liên kết (hyperlink)

Một trong những thành công của cơ sở dữ liệu quan hệ là nó cho phép người dùng đưa ra điều kiện lọc để tìm ra dữ liệu cần dùng, những dữ liệu phải thoả các điều kiện đó, mà không cần phải chỉ rõ dữ liệu nào cần dùng Với 1 số lượng lớn các mẫu dữ liệu từ web, cần một cơ chế giúp ta xác định trọng tâm cần phân tích Đầu tiên cơ sở dữ liệu sẽ chịu trách nhiệm hạn chế một phần những dữ liệu được khai mõ sau đó dùng các ngôn ngữ truy vấn giúp lọc ra những kiến thức

mà ta cần hơn là chỉ những dữ liệu đơn thuần Ví dụ trong WEBMINER, nó sẽ lọc

ra những gì liên quan đến domain edu có url bắt đầu bằng a, tiếp theo là b và c…

SELECT association-rules(A*B*C*) FROM log.data

WHERE …

2 Một kiến trúc tiêu biểu – webminer:

WEBMINER là một hệ thống đã thực hiện được một phần kiến trúc đã nghiên cứu trên Kiến trúc này gồm hai phần Phần đầu bao gồm các quá trình chuyển đổi dữ liệu web thành các dạng phù hợp Bao gồm tiền xử lý, đồng nhất giao tác, tích hợp dữ liệu Phần thứ hai bao gồm các ứng dụng lớn độc lập với nhau hỗ trợ việc phát hiện các mô hình từ dữ liệu và phân tích các mô hình đó

Trang 11

Nhật kí truy cập máy chủ là tập hợp đầy đủ các dữ liệu chứa đầy đủ lịch sử truy cập một file bất kì của người dùng Phần lớn nhật kí truy cập máy chủ đều tuân theo tiêu chuẩn về cấu trúc như là một phần của giao thức HTTP được qui định bởi CERN và NCSA Một mục theo tiêu chuẩn sẽ chứa địa chỉ IP của người dùng, mã người dùng, thời gian truy cập, phương thức truy cập, url truy cập, giao thức truyền dữ liệu, mã lỗi, kích thước dữ liệu truyền

Mục tiêu quan trọng nhất của khai mỏ dữ liệu web là tìm ra được mẫu đáng chú ý trong toàn bộ dữ liệu truy cập máy chủ Để đạt được mục tiêu trên dữ liệu phải được chuyển hoá thành dạng thích hợp Do đó quá trình khai mỏ dữ liệu sẽ chia ra làm hai phần: phần đầu bao gồm các quá trình chuyển đổi dữ liệu web thành các dạng phù hợp, bao gồm tiền xử lý, đồng nhất giao tác, tích hợp dữ liệu ;

Định dạng
Số trang	17
Dung lượng	472,5 KB