Phân cụm người sử dụng WEB dựa trên mẫu truy cập

Nói cách khác, khai phá Web là việc thăm dò những thông tin quan trọng và những mẫu tiềm năng từ nội dung Web, từ thông tin truy cập Web, từ liên kết trang,… bằng việc sử dụng các kỹ thu

Trang 2

MỞ ĐẦU

Khai phá Web là việc sử dụng các kỹ thuật khai phá dữ liệu để khám phá và trích rút những thông tin hữu ích từ các tài liệu, các dịch vụ và cấu trúc Web Nói cách khác, khai phá Web là việc thăm

dò những thông tin quan trọng và những mẫu tiềm năng từ nội dung Web, từ thông tin truy cập Web, từ liên kết trang,… bằng việc sử dụng các kỹ thuật khai phá dữ liệu, nó có thể giúp con người rút ra những tri thức, cải tiến việc thiết kế các Web site và phát triển thương mại điện tử tốt hơn[12]

Khai phá Web được phân loại thành 3 lĩnh vực chính [12]: Khai phá nội dung Web (Web Content Mining); Khai phá cấu trúc Web (Web Structure Mining); Khai phá sử dụng Web (Web Usage Mining)

Khai phá sử dụng Web là một trong những lĩnh vực nghiên cứu chính trong khai phá Web tập trung vào việc xem xét người sử dụng Web và tương tác của họ với các trang Web Động lực của khai phá

sử dụng Web là tìm những mô hình truy cập của người sử dụng từ khối lượng lớn dữ liệu đăng nhập Web, chẳng hạn như: đường dẫn truy cập thường xuyên, tần xuất truy cập nhóm trang và phân nhóm người dùng Thông qua khai phá sử dụng Web, thông tin đăng nhập máy chủ, đăng ký thông tin và thông tin liên quan khác của người

Trang 3

truy cập sẽ cung cấp nền tảng cho việc ra quyết định đối với việc tổ chức không gian Web, tối ưu Web site [9][11]

Phân cụm người sử dụng Web là việc tạo các nhóm người sử dụng có các mẫu truy cập Web tương tự nhau, cung cấp tri thức cho việc cá nhân hóa các dịch vụ Web [10]

Việc nghiên cứu các mô hình phân cụm và áp dụng các phương pháp phân cụm người dùng Web trong khai phá sử dụng Web là một

xu thế tất yếu vừa có ý nghĩa khoa học vừa mang ý nghĩa thực tiễn Luận văn tập trung nghiên cứu về ứng dụng của kỹ thuật phân cụm người sử dụng Web dựa trên mẫu truy cập Web Dựa trên những tiêu chuẩn khác nhau, người dùng Web có thể được phân cụm

và tri thức hữu ích có thể được lấy ra từ các mẫu truy cập của họ Nội dung bao gồm:

 Tìm hiểu về bài toán phân cụm người sử dụng Web dựa trên mẫu truy cập và các ứng dụng

 Nghiên cứu, cài đặt các thuật toán sử dụng trong quá trình tiền

xử lý dữ liệu, bao gồm các giải thuật trong các pha:

- Làm sạch dữ liệu

- Xác định người sử dụng

- Xác định phiên của người sử dụng

- Xác định phiên giao dịch với đường dẫn đầy đủ

- Biểu diễn dữ liệu theo mô hình không gian vector

Trang 4

 Tiến hành thực nghiệm với nguồn dữ liệu thực tế: Từ nguồn dữ liệu thực tế, sau các pha tiền xử lý, dữ liệu được biểu diễn theo

mô hình không gian vector, phù hợp với định dạng mà bộ công

cụ WEKA chấp nhận, tiến hành thực nghiệm phân cụm

 Dựa trên các kết quả thử nghiệm, phân tích và đánh giá, hỗ trợ đưa ra khuyến cáo giúp cho việc phát triển các chiến lược tiếp cận người sử dụng phù hợp, xây dựng và tổ chức một cách tốt nhất không gian Web

Luận văn được chia thành 3 chương chính như sau:

Chương 1 – Tổng quan về khai phá Web: Chương này trình

bày tổng quan về lĩnh vực khai phá Web, những vấn đề trong khai phá sử dụng Web cũng như các ứng dụng của bài toán Giới thiệu các đặc trưng và một số kỹ thuật phân cụm, một số phương pháp,

thuật toán tiêu biểu

Chương 2 – Phân cụm người sử dụng Web dựa trên mẫu

truy cập: Chương này giới thiệu về phân cụm người sử dụng Web,

mẫu truy cập, phân cụm người sử dụng Web dựa trên mẫu truy cập Chương này cũng đi sâu trình bày về kỹ thuật và các thuật toán liên qua đến quá trình tiền xử lý dữ liệu và chuẩn bị dữ liệu để thực nghiệm phân cụm

Chương 3 – Cài đặt và thử nghiệm: Chương này sẽ mô tả chi

tiết về các công cụ, dữ liệu, phương pháp, kỹ thuật lựa chọn thực nghiệm và toàn bộ quá trình tiến hành thực nghiệm Kết quả thực nghiệm sẽ được phân tích, so sánh và đánh giá

Trang 6

Chương 1 TỔNG QUAN VỀ KHAI PHÁ WEB

1.1 Khai phá Web

Khai phá Web là việc sử dụng các kỹ thuật khai phá dữ liệu để

tự động hóa quá trình khám phá và trích rút những thông tin hữu ích

từ các tài liệu, các dịch vụ và cấu trúc Web

Có thể phân các hướng nghiên cứu khai phá Web thành 3 lĩnh vực chính, bao gồm:

 Khai phá nội dung Web (Web Content Mining): Khai phá nội

dung web là các quá trình xử lý để lấy ra các tri thức từ nội dung các trang văn bản hoặc mô tả của chúng

 Khai phá cấu trúc Web (Web Structure Mining): Nhờ vào

các kết nối giữa các văn bản siêu liên kết, World Wide Web có thể chứa đựng nhiều thông tin hơn nhiều so với các thông tin ở bên trong văn bản Nội dung của khai phá cấu trúc Web là các quá trình xử lý nhằm rút ra các tri thức từ cách tổ chức và liên kết giữa các tham chiếu của các trang Web

 Khai phá sử dụng Web (Web Usage Mining): Phân tích các

nhật ký truy cập (Web log) để khám phá ra các mẫu truy cập của người dùng truy cập vào trang Web

1.2 Khai phá sử dụng Web

Khai phá sử dụng Web là việc xử lý để lấy ra các thông tin hữu ích trong các log file truy cập Web đã được ghi lại và tích luỹ về các tương tác người dùng mỗi khi máy chủ nhận được yêu cầu truy cập

Trang 7

Việc phân tích các log truy cập Web của các Web site khác nhau sẽ

dự đoán các tương tác của người dùng khi họ tương tác với Web cũng như tìm hiểu cấu trúc của Web

Thông thường các máy chủ Web (Web Server) ghi lại và tích lũy các dữ liệu về các tương tác của người dùng mỗi khi nó nhận được một yêu cầu truy cập Có hai xu hướng chính trong khai phá sử dụng Web:

 Theo dõi Mẫu truy cập Web (General Access Pattern Tracking): phân tích các hồ sơ Web để biết được các mẫu và

các xu hướng truy cập

 Theo dõi Sử dụng cá nhân (Customizied Usage Tracking):

phân tích các xu hướng cá nhân Mục đích là để chuyên biệt hóa các Web site cho các lớp đối tượng người dùng Các thông tin được hiển thị, độ sâu của cấu trúc site và định dạng của các tài nguyên, tất cả đều có thể chuyên biệt hóa một cách tự động cho mỗi người dùng theo thời gian dựa trên các mẫu truy cập của họ

Mục tiêu của khai phá việc sử dụng Web là thu thập, mô hình hóa và phân tích các mẫu hành vi của người dùng Công việc này bao gồm các giai đoạn được trình bày chi tiết lần lượt theo các đầu mục: 1.1.2.1 Thu thập dữ liệu

1.1.2.2 Tiền xử lý dữ liệu

1.1.2.3 Khám phá mẫu

1.1.2.4 Phân tích mẫu

Trang 8

Trong khai phá sử dụng Web, người ta thường sử dụng các kỹ

thuật:

 Luật kết hợp: để tìm ra những trang Web thường được truy

cập cùng nhau của người dùng, những lựa chọn cùng nhau của

người dùng

 Kỹ thuật phân cụm: Phân cụm người dùng dựa trên các mẫu

duyệt để tìm ra sự liên quan giữa những người dùng Web và các hành vi của họ

Có rất nhiều định nghĩa khác nhau về kỹ thuật phân cụm, nhưng

về bản chất ta có thể hiểu phân cụm là các qui trình tìm cách nhóm các đối tượng đã cho vào các cụm (clusters), sao cho các đối tượng trong cùng 1 cụm tương tự (similar) nhau và các đối tượng khác cụm thì không tương tự (dissimilar) nhau Mục đích của phân cụm là tìm

ra bản chất bên trong các nhóm của dữ liệu

1.3 Các kỹ thuật phân cụm

Các kỹ thuật phân cụm dữ liệu được chia làm một số loại: Phương pháp dựa vào phân hoạch ( Partition Based Data Clustering Method), phương pháp phân cấp (Hierarchical Based Data Clustering Method), phương pháp dựa trên mật độ (Density Based Data Clustering Method), phương pháp dựa trên lưới (Grid Based Data Clustering Method)

Trang 9

Các đặc trưng

Phân cụm dữ liệu là kỹ thuật tổ chức dữ liệu bằng cách nhóm các đối tượng có độ tương đồng cao để khám phá cấu trúc của dữ liệu Mục tiêu của phương pháp phân cụm dữ liệu chỉ đơn giản là tìm kiếm cách tổ chức hợp lệ và tiện lợi của dữ liệu Các thuật toán phân cụm hướng tới việc tìm kiếm cấu trúc trong dữ liệu Phương pháp này còn được gọi là “học không có giám sát” (Unsupervised Learning) trong lĩnh vực nhận dạng mẫu (Pattern Recognition) nói riêng và trong trí tuệ nhân tạo (Artificial Intelligence) nói chung [6] Một cụm sẽ bao gồm một tập các đối tượng có độ tương đồng cao Hiện nay, có một số định nghĩa về cụm đang được phát biểu như sau [6]:

1 Một cụm là một tập các thực thể (các đối tượng) giống nhau,

và các thực thể ở các cụm khác nhau thì không giống nhau

2 Một cụm là sự kết hợp của các điểm trong không gian thỏa mãn điều kiền là khoảng cách giữa hai điểm bất kỳ trong một cụm bé hơn khoảng cách giữa một điểm bất kỳ trong cụm đó với một điểm bất kỳ không không thuộc cụm

3 Các cụm có thể được mô tả như là các vùng chứa các đối tượng có mật độ cao trong không gian nhiều chiều, được tách với các vùng chứa các đối tượng có mật độ thấp hơn

Một tập các đối tượng bao gồm dữ liệu thô cho quá trình phân cụm và có thể được biểu diễn dưới hai dạng chuẩn [6]: Ma trận dữ liệu, và ma trận không tương đồng

Trang 10

Các hàm khoảng cách

Có rất nhiều hàm được dùng để biểu diễn độ tương đồng giữa các đối tượng Ở đây, chúng tôi chỉ trình bày một số các hàm đo tương đồng phổ biến hay còn gọi là các hàm khoảng cách Khoảng

cách tương đồng giữa hai mẫu thứ i và mẫu thứ k ký hiệu là d(i,k)

phải thỏa mãn các tính chất sau:

1 d(i,i)=0 với mọi i

2 d(i,k)=d(k,i) với mọi cặp (i,k)

3 d(i,k)>=0 với mọi cặp (i,k)

Một số cách xác định hàm đánh giá độ tương đồng: Giả sử rằng chúng ta có một ma trận mẫu [xij] với xij là giá trị của đặc trưng thứ j của mẫu i tất cả các đặc trưng là liên tục và được ước lượng theo tỷ xích tỷ lệ Hàm khoảng cách phổ biến là khoảng cách Minkowski [3] dùng để ước lượng độ bất tương đồng Mẫu thứ i tương ứng với dòng thứ i của ma trận mẫu được ký hiệu là một vector cột xi

Trang 11

4 d(i,k)=0 nếu và chỉ nếu xi=xk

5 d(i,k)d ( i,m) +d ( m,k ) với mọi (i,m,k) Bất đẳng

max ( ) ,

d j k

1.3.2 Phân cụm dựa vào phân hoạch

Phương pháp phân cụm phân hoạch dựa trên ý tưởng ban đầu tạo ra k phân hoạch, sau đó lặp lại nhiều lần để phân bố lại các đối tượng dữ liệu giữa các cụm nhằm cải thiện chất lượng phân cụm

Trang 12

1.3.3 Phân cụm dựa vào phân cấp

Phương pháp phân cụm phân cấp dựa trên ý tưởng cây phân cấp

để phân cụm dữ liệu Có hai cách tiếp cận đó là phân cụm dưới lên (Bottom up) và phân cụm trên xuống (Top down)

1.3.4 Phân cụm dựa trên mật độ

Phương pháp phân cụm dựa trên mật độ, căn cứ vào hàm mật

độ của các đối tượng dữ liệu để xác định cụm cho các đối tượng

1.3.5 Phân cụm dựa trên lưới

Phương pháp phân cụm dựa trên lưới, ý tưởng của nó là đầu tiên lượng hoá không gian đối tượng vào một số hữu hạn các ô theo một cấu trúc dưới dạng lưới, sau đó thực hiện phân cụm dựa trên cấu trúc lưới đó

1.3.6 Phân cụm dựa trên mô hình

Ý tưởng chính của phương pháp phân cụm dựa trên mô hình là giả thuyết một mô hình cho mỗi cụm và tìm kiếm sự thích hợp nhất của đối tượng dữ liệu với mô hình đó, các mô hình tiếp cận theo thống kê và mạng Nơron

1.4 Một số phương pháp, thuật toán tiêu biểu

Phần này, chúng tôi trình bày một số thuật toán tiêu biểu đại diện cho các kỹ thuật phân cụm phổ biến, tương đương với các mục, bao gồm:

Trang 13

1.4.1 Thuật toán K-means

1.4.2 Thuật toán phân cụm K-medoids

1.4.3 Thuật toán EM (Expectation Maximization)

1.4.4 Thuật toán BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)

1.4.5 Thuật toán CURE( Clustering Using Representatives) 1.4.6 Thuật toán CHAMELEON

Trang 14

Chương 2 PHÂN CỤM NGƯỜI SỬ DỤNG WEB

DỰA TRÊN MẪU TRUY CẬP

2.1 Phân cụm người sử dụng Web

Sử dụng các kỹ thuật tiền xử lý dữ liệu, phân cụm để khám phá những mô hình truy cập của người sử dụng từ khối lượng lớn dữ liệu đăng nhập Web như để tạo ra các nhóm người sử dụng có các mẫu truy cập Web tương tự nhau, cung cấp tri thức cho việc cá nhân hóa các dịch vụ Web, phát hiện các hành vi xâm nhập bất hợp lệ, dự báo những hành vi của người dùng

Việc nghiên cứu các giải pháp xử lý dữ liệu, cài đặt và ứng dụng các mô hình phân cụm và áp dụng các phương pháp phân cụm người dùng Web trong khai phá sử dụng Web là một xu thế tất yếu vừa có ý nghĩa khoa học vừa mang ý nghĩa thực tiễn cao

2.2 Phân cụm người sử người sử dụng Web dựa trên mẫu

truy cập

Từ bộ dữ liệu thô, để có thể trích chọn các tri thức hữu ích, dữ liệu cần qua quá trình tiền xử lý, tổ chức dữ liệu và biểu diễn phù hợp với định dạng để có thể tiến hành thực nghiệm phân cụm Tiếp theo đó, dữ liệu phù hợp sẽ được sử dụng cho công cụ phân cụm và tiên hành thực nghiệm Quá trình này có thể chia thành 02 bước, trong mỗi bước sẽ bao gồm các pha như sau:

Trang 15

Bước 1: Tiền xử lý dữ liệu, bao gồm các pha:

 Pha làm sạch dữ liệu (Data Clearning)

 Pha xác định người sử dụng (User Identification)

 Xác định phiên của người sử dụng (Session Indentification)

 Hoàn thiện đường dẫn (Path Completion)

 Biểu diễn dữ liệu ( Biểu diễn các mẫu dữ liệu phù hợp với chuẩn của công cụ thực nghiệm)

Bước 2: Phân cụm người sử dụng dựa trên mẫu truy cập:

 Sử dụng công cụ WEKA, áp dụng một số kỹ thuật phân cụm tập dữ liệu

 So sánh, đánh giá kết quả

Mẫu truy cập của người sử dụng Web được chiết xuất từ các file nhật ký trên máy chủ Web, sau đó tổ chức vào các phiên đại diện cho các giai đoạn của sự tương tác giữa người sử dụng Web và máy chủ Web Mẫu này bao gồm các trang mà họ đã đến thăm, và thời gian

họ đã dành trên mỗi trang Mỗi người sử dụng sau đó có thể được đại diện bởi một tập hợp gồm cặp thuộc tính ( URL truy cập, Thời gian truy cập) Từ mỗi cặp thuộc tính này, chúng ta xác định một mẫu người sử dụng

Mục tiêu chính của phân cụm người sử dụng Web là để tìm ra các tri thức, mô hình hóa, qua đó khám phá các mô hình truy cập vào các trang Web khác nhau của người sử dụng trong không gian Web liên kết với một máy chủ cụ thể

Trang 16

Chương 3 THỰC NGHIỆM VÀ KẾT QUẢ

3.1 Bộ dữ liệu

Dữ liệu thực nghiệm được sử dụng trong luận văn này là các tệp tin nhật ký sử dụng (log file) trên máy chủ Web của hệ thống Cổng thông tin điện tử Đại học Quốc gia Hà Nội tại địa chỉ http://www.vnu.edu.vn

Bộ dữ liệu Weblog ngày 31/05/2012 (lựa chọn ngẫu nhiên) trên máy chủ Web, dung lượng file là: 50,207 KB, bao gồm 253.435 yêu cầu từ máy khách

 Đọc file nhật ký, loại bỏ các thông tin dư thừa: làm sạch dữ liệu, loại bỏ các trang sai sót và không hợp lệ ;

 Xác định và lập danh sách người sử dụng dựa trên các thông tin và đặc điểm sau:

- Mỗi một địa chỉ IP gửi yêu cầu tới máy chủ Web đại diện cho một người sử dụng,

Trang 17

- Nếu từ một địa chỉ IP có nhiều yêu cầu với các mã trình duyệt Web khác nhau thì mỗi trình duyệt Web sẽ gắn với 1 người sử dụng (trường hợp qua Proxy),

- Cùng 1 địa chỉ IP, nếu khoảng thời gian giữa 2 lần yêu cầu lớn hơn 30 phút thì coi như xuất hiện một người sử dụng mới

- Sử dụng nhật ký truy cập với các liên kết và cấu trúc liên kết site để xác định tiến trình duyệt Web của người dùng

 Xác định phiên của người sử dụng: Phiên giao dịch người dùng

là một tập giới hạn của các click người dùng theo một hoặc nhiều máy chủ Web Sau đây là các quy tắc được sử dụng để xác định phiên người sử dụng:

- Nếu có một người dùng mới, có một phiên làm việc mới;

- Trong một phiên giao dịch người sử dụng, nếu trang tiếp mong muốn là rỗng, thì có một phiên giao dịch mới;

- Nếu thời gian các yêu cầu trang vượt quá một giới hạn xác định (25 đến 30 phút), thì giả sử rằng người dùng sẽ bắt đầu một phiên mới

 Hoàn thiện đường dẫn: Do sự tồn tại của bộ nhớ đệm cục bộ và

máy chủ Proxy, có nhiều truy cập quan trọng không được lưu trong nhật ký truy cập Nhiêm vụ của pha hoàn thiện đường dẫn là điền vào những trang bị thiếu

 Với mỗi người sử dụng, xác định danh sách các trang Web (URL) mà người đó truy cập Để tránh dư thừa dữ liệu, các

Tiêu đề	Phân cụm người sử dụng web dựa trên mẫu truy cập
Tác giả	Hoàng Vũ
Người hướng dẫn	Pgs. Ts Trần Đình Quế
Trường học	Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn thạc sỹ
Năm xuất bản	2012
Thành phố	Hà Nội

Định dạng
Số trang	25
Dung lượng	791,67 KB