1. Trang chủ
  2. » Luận Văn - Báo Cáo

Một số phương pháp phân cụm dữ liệu web

83 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Một số phương pháp phân cụm dữ liệu web
Tác giả Nguyễn Thị Thu
Người hướng dẫn GS.TS. Vũ Đức Thi
Trường học Đại học Thái Nguyên
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2011
Thành phố Thái Nguyên
Định dạng
Số trang 83
Dung lượng 1,61 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • CHƯƠNG I. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU (9)
    • 1.1. Khai phá dữ liệu và phát hiện tri thức (9)
      • 1.1.1. Khai phá dữ liệu (9)
      • 1.1.2. Quá trình khám phá tri thức (10)
      • 1.1.3. Khai phá dữ liệu và các lĩnh vực liên quan (11)
      • 1.1.4. Các phương pháp áp dụng trong Khai phá dữ liệu (12)
      • 1.1.5. Những chức năng chính của KPDL (13)
      • 1.1.6. Các ứng dụng của Khai phá dữ liệu (15)
    • 1.2. Phương pháp phân cụm trong Khai phá dữ liệu (16)
      • 1.2.1. Khái quát về phân cụm dữ liệu (16)
      • 1.2.2. Ứng dụng của phân cụm dữ liệu (19)
      • 1.2.3. Các yêu cầu đối với phương pháp phân cụm dữ liệu (20)
    • 1.3. Khai phá Web (21)
      • 1.3.1. Khai phá Web (21)
      • 1.3.2. Khái niệm khai phá Web (22)
      • 1.3.3. Đặc trưng của khai phá Web (0)
      • 1.3.4. Các đối tượng khai phá Web (0)
  • CHƯƠNG II. MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU (26)
    • 2.1. Phân cụm phân hoạch (27)
      • 2.1.1. Thuật toán K-means (27)
      • 2.1.2. Thuật toán K-medoids (30)
    • 2.2. Phân cụm phân cấp (32)
      • 2.2.1. Thuật toán BIRCH (33)
      • 2.2.2. Thuật toán CURE (36)
    • 2.3. Phương pháp phân cụm dữ liệu dựa vào mật độ (38)
      • 2.3.1. Thuật toán DBSCAN (38)
      • 2.3.2. Thuật toán OPTICS (42)
    • 2.4. Thuật toán phân cụm dữ liệu dựa trên lưới (43)
      • 2.4.1. Thuật toán STING (43)
      • 2.4.2. Thuật toán CLIQUE (46)
    • 2.5. Phân cụm dữ liệu dựa trên mô hình (47)
      • 2.5.1. Thuật toán EM (47)
      • 2.5.2. Thuật toán COBWEB (48)
    • 2.6. Phân cụm dữ liệu mờ (49)
      • 2.6.1. Hàm mục tiêu (50)
      • 2.6.2. Thuật toán FCM (53)
  • CHƯƠNG III. KHAI PHÁ DỮ LIỆU WEB (56)
    • 3.1. Khai phá nội dung Web (56)
      • 3.1.1. Khai phá kết quả tìm kiếm (57)
      • 3.1.2. Khai phá văn bản Web (57)
    • 3.2. Khai phá theo sử dụng Web (60)
      • 3.2.1. Ứng dụng của khai phá theo sử dụng Web (61)
      • 3.2.2. Các phương pháp được sử dụng trong khai phá dữ liệu Web (62)
      • 3.2.3. Những vấn đề trong khai phá theo sử dụng Web (62)
      • 3.2.4. Quá trình khai phá theo sử dụng Web (62)
    • 3.3. Khai phá cấu trúc Web (64)
      • 3.3.1. Tiêu chuẩn đánh giá độ tương tự (65)
      • 3.3.2. Khai phá và quản lý cộng đồng Web (66)
    • 3.4. Áp dụng thuật toán phân cụm dữ liệu trong tìm kiếm và phân cụm tài liệu Web (70)
      • 3.4.1. Hướng tiếp cận bằng phương pháp phân cụm dữ liệu (70)
      • 3.4.2. Quá trình tìm kiếm và phân cụm tài liệu (72)
  • KẾT LUẬN (80)
  • TÀI LIỆU THAM KHẢO (82)

Nội dung

TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

Khai phá dữ liệu và phát hiện tri thức

Trong những thập kỷ qua, sự phát triển của các cơ sở dữ liệu đã dẫn đến bùng nổ thông tin toàn cầu, gây ra khủng hoảng trong phân tích dữ liệu tác nghiệp để đáp ứng yêu cầu chất lượng cao trong các tổ chức chính phủ, tài chính, thương mại và khoa học Như John Naisbett đã cảnh báo, "Chúng ta đang chìm ngập trong dữ liệu mà vẫn đói trí thức." Dữ liệu khổng lồ thực sự là nguồn tài nguyên quý giá, vì thông tin là yếu tố then chốt cho mọi hoạt động quản lý, kinh doanh và phát triển dịch vụ Nó cung cấp hiểu biết về môi trường và tiến trình hoạt động trong các lĩnh vực kinh doanh, từ đó giúp người điều hành đưa ra quyết định hiệu quả và bền vững để đạt được các mục tiêu.

KPDL là lĩnh vực nghiên cứu tự động khai thác thông tin và tri thức hữu ích từ cơ sở dữ liệu lớn, nhằm nâng cao khả năng sản xuất, kinh doanh và cạnh tranh trong xã hội hiện đại Các nghiên cứu và ứng dụng thành công trong KDD chứng minh rằng KPDL không chỉ bền vững mà còn mang lại nhiều lợi ích và triển vọng hơn so với các công cụ tìm kiếm dữ liệu truyền thống Hiện nay, KPDL đang được áp dụng rộng rãi trong các lĩnh vực như thương mại, tài chính, y học, viễn thông, và tin sinh học Các phương pháp trong KPDL chủ yếu kế thừa từ cơ sở dữ liệu, học máy, trí tuệ nhân tạo, lý thuyết thông tin, xác suất thống kê và tính toán nâng cao.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn

Như vậy KPDL là một quá trình tìm kiếm, phát hiện tri thức mới, tiềm ẩn, hữu dụng trong CSDL lớn

KDD là mục tiêu chính của KPDL, vì vậy khái niệm KPDL và KDD thường được coi là tương đương Tuy nhiên, thực tế cho thấy KPDL là một bước quan trọng trong quá trình KDD.

1.1.2 Quá trình khám phá tri thức

Quá trình KDD có thể phân thành các giai đoạn sau:

Quá trình khám phá tri thức bắt đầu bằng bước trích chọn dữ liệu, trong đó các tập dữ liệu cần khai phá được lựa chọn từ các tập dữ liệu lớn ban đầu dựa trên những tiêu chí cụ thể.

Tiền xử lý dữ liệu là bước quan trọng trong quá trình làm sạch dữ liệu, bao gồm việc xử lý các dữ liệu không đầy đủ, nhiễu và không nhất quán Quá trình này còn bao gồm việc rút gọn dữ liệu thông qua các hàm nhóm, tính tổng, và các phương pháp nén như histogram và lấy mẫu Ngoài ra, dữ liệu cũng được rời rạc hoá dựa trên histogram, entropy và phân khoảng Sau khi hoàn tất, dữ liệu sẽ trở nên nhất quán, đầy đủ, rút gọn và rời rạc hoá, sẵn sàng cho các bước phân tích tiếp theo.

Dữ liệu tiền xử lý

Dữ liệu biến đổi các mẫu

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn

Biến đổi dữ liệu: Đây là bước chuẩn hoá và làm mịn dữ liệu về dạng thuận lợi nhất nhằm phục vụ quá trình khai phá ở bước sau

Khai phá dữ liệu: Đây là bước áp dụng các phương pháp phân tích

Các phương pháp học máy được sử dụng để khai thác dữ liệu, giúp trích chọn các mẫu thông tin và mối liên hệ đặc biệt trong dữ liệu, là bước quan trọng và tốn nhiều thời gian nhất trong quá trình KDD Sau đó, các mẫu thông tin và mối liên hệ đã khám phá sẽ được biến đổi và biểu diễn dưới dạng đồ thị, cây, bảng biểu hoặc luật, đồng thời đánh giá tri thức khám phá theo các tiêu chí nhất định.

1.1.3 Khai phá dữ liệu và các lĩnh vực liên quan

KPDL là lĩnh vực kết hợp giữa thống kê, học máy, cơ sở dữ liệu, thuật toán, tính toán song song và thu nhận tri thức từ hệ chuyên gia cùng dữ liệu trừu tượng Hệ thống khám phá tri thức nổi bật nhờ áp dụng các phương pháp và thuật toán đa dạng từ nhiều lĩnh vực khác nhau để nâng cao hiệu quả của KPDL.

Lĩnh vực học máy và nhận dạng mẫu trong KDD nghiên cứu các lý thuyết và thuật toán để trích xuất mẫu và mô hình từ dữ liệu lớn KDD chủ yếu tập trung vào việc phát triển các lý thuyết và thuật toán nhằm tìm ra các mẫu đặc biệt, có giá trị và có thể rút ra tri thức quan trọng từ cơ sở dữ liệu lớn.

KDD chia sẻ nhiều điểm tương đồng với thống kê, đặc biệt trong phân tích dữ liệu thăm dò (EDA) Hệ thống KDD thường áp dụng các thủ tục thống kê vào mô hình dữ liệu và quản lý nhiễu trong quá trình khám phá tri thức.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn

Một lĩnh vực quan trọng trong phân tích dữ liệu là phân tích kho dữ liệu, với phương pháp phổ biến là OLAP (On-line Analytical Processing) Các công cụ OLAP được thiết kế để thực hiện phân tích dữ liệu đa chiều, giúp người dùng khai thác thông tin hiệu quả hơn.

1.1.4 Các phương pháp áp dụng trong Khai phá dữ liệu

KDD là một lĩnh vực liên ngành, kết hợp tổ chức dữ liệu, học máy, trí tuệ nhân tạo và nhiều khoa học khác Từ góc độ học máy, các phương pháp trong KDD đóng vai trò quan trọng trong việc phân tích và khai thác dữ liệu.

Học có giám sát: là quá trình gán nhãn lớp cho các phần tử trong

CSDL dựa trên một tập các ví dụ huấn luyện và các thông tin về nhãn lớp đã biết

Học không có giám sát là quá trình phân loại một tập dữ liệu thành các lớp hoặc cụm dữ liệu tương đồng mà không cần thông tin trước về các lớp hay tập ví dụ huấn luyện.

Học nửa giám sát là phương pháp phân loại dữ liệu, trong đó một tập dữ liệu lớn được chia thành các lớp dựa trên một số lượng nhỏ ví dụ huấn luyện và thông tin về nhãn lớp đã biết trước.

Nếu căn cứ vào lớp các bài toán cần giải quyết, thì KPDL bao gồm các phương pháp áp dụng sau:

Phân lớp và dự báo là quá trình xếp một đối tượng vào các lớp đã biết trước, ví dụ như phân loại dữ liệu bệnh nhân trong hồ sơ bệnh án Phương pháp này thường áp dụng các kỹ thuật học máy như cây quyết định và mạng nơron nhân tạo, và được gọi là học có giám sát.

Luật kết hợp: Là luật biểu diễn tri thức ở dạng khá đơn giản Ví dụ:

“60% nam giới vào quán bia thì có tới 90% trong số họ sẽ uống bia” Luật kết

Số hóa đang ngày càng trở nên quan trọng và được áp dụng rộng rãi trong nhiều lĩnh vực như kinh doanh, y học, tin sinh, tài chính và thị trường chứng khoán Việc ứng dụng công nghệ số không chỉ giúp nâng cao hiệu quả hoạt động mà còn tối ưu hóa quy trình làm việc và quản lý thông tin.

Phương pháp phân cụm trong Khai phá dữ liệu

1.2.1 Khái quát về phân cụm dữ liệu

Phân cụm (Clustering) là quá trình nhóm các đối tượng thành các cụm tương tự nhau, với mỗi cụm (cluster) chứa những đối tượng có đặc điểm giống nhau hơn so với các đối tượng trong các cụm khác Khác với phân loại, trong phân cụm, chúng ta không biết trước các đặc điểm của từng cụm mà phải dựa vào mối quan hệ giữa các đối tượng để xác định sự tương đồng, sử dụng các độ đo đặc trưng cho từng cụm.

Phân cụm không hoạt động độc lập mà thường kết hợp với các phương pháp khác Mỗi phương pháp phân cụm được áp dụng cần có sự hỗ trợ từ những kỹ thuật bổ sung để đạt hiệu quả tối ưu.

Số hóa được thực hiện bởi Trung tâm Học liệu – ĐHTN, nhằm áp dụng các phương pháp trên các lớp học để làm rõ ý nghĩa của các cụm từ **Lợi ích của việc số hóa**Việc số hóa không chỉ giúp nâng cao chất lượng giáo dục mà còn tạo điều kiện thuận lợi cho việc truy cập tài liệu học tập một cách dễ dàng và hiệu quả hơn **Tầm quan trọng của phương pháp áp dụng**Các phương pháp này đóng vai trò quan trọng trong việc truyền đạt kiến thức và nâng cao khả năng hiểu biết của học sinh, từ đó thúc đẩy sự phát triển của giáo dục trong thời đại số.

Ta có thể khái quát hóa khái niệm PCDL như sau [6][10]:

PCDL là một phương pháp trong lĩnh vực khai thác dữ liệu (DATA MINING), được sử dụng để phát hiện và tìm kiếm các cụm, mẫu dữ liệu tự nhiên tiềm ẩn trong tập dữ liệu lớn Phương pháp này giúp cung cấp thông tin và tri thức hữu ích cho người sử dụng.

Hiện nay, phân cụm đang được nghiên cứu rộng rãi trong nhiều lĩnh vực như KPDL, thống kê, học máy, công nghệ dữ liệu không gian và sinh học Sự gia tăng nhanh chóng về kích thước của các cơ sở dữ liệu đã khiến phân cụm trở thành một vấn đề thu hút sự chú ý lớn từ các nhà khoa học toàn cầu.

Trong thống kê, phân cụm đã được nghiên cứu và phát triển lâu dài, tập trung vào phân tích các lớp dựa trên khoảng cách Các công cụ phân tích lớp như k-means và k-medoids đã được ứng dụng rộng rãi trong nhiều hệ thống phần mềm thống kê, bao gồm S-Plus, SPSS và SAS.

Trong học máy, PCDL được coi là một vấn đề học không giám sát, nhằm tìm kiếm cấu trúc trong tập dữ liệu chưa biết Khi phân lớp được xem là vấn đề học có giám sát, PCDL đóng vai trò quan trọng trong việc khởi tạo các lớp phân loại bằng cách xác định nhãn cho các nhóm dữ liệu.

Trong khai thác dữ liệu, nghiên cứu về phân cụm chủ yếu tập trung vào việc phát triển các phương pháp phân cụm hiệu quả và đáng tin cậy cho các cơ sở dữ liệu lớn.

Trong lĩnh vực KPDL Web, phân cụm giúp phát hiện các nhóm tài liệu quan trọng và có ý nghĩa trong môi trường trực tuyến, từ đó hỗ trợ việc khám phá tri thức từ các cơ sở dữ liệu.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn

Một vấn đề phổ biến trong phân tích dữ liệu lớn (PCDL) là sự hiện diện của dữ liệu "nhiễu", thường do quá trình thu thập không chính xác hoặc không đầy đủ Để cải thiện chất lượng phân cụm, cần thiết phải xây dựng chiến lược tiền xử lý dữ liệu nhằm loại bỏ "nhiễu" này trước khi tiến hành phân tích Dữ liệu "nhiễu" có thể bao gồm các đối tượng không chính xác hoặc thiếu thông tin về một số thuộc tính quan trọng.

"Nhiễu" thường được hiểu là quá trình thay thế giá trị của các thuộc tính của đối tượng "nhiễu" bằng giá trị thuộc tính tương ứng của đối tượng dữ liệu gần nhất.

Dò tìm phần tử ngoại lai là một hướng nghiên cứu quan trọng trong PCDL, với chức năng xác định các đối tượng dữ liệu "khác thường" so với phần còn lại trong CSDL Những đối tượng này không tuân theo các hành vi hoặc mô hình dữ liệu thông thường, do đó cần được phát hiện để tránh ảnh hưởng tiêu cực đến quá trình và kết quả của PCDL Công nghệ này đã được phát triển và ứng dụng rộng rãi trong nhiều lĩnh vực như viễn thông và dò tìm gian lận thương mại.

Tóm lại, PCDL là một vấn đề khó vì người ta phải đi giải quyết các vấn đề cơ bản như sau:

- Xây dựng hàm tính độ tương tự

- Xây dựng các tiêu chuẩn phân cụm

- Xây dựng mô hình cho cấu trúc cụm dữ liệu

- Xây dựng thuật toán phân cụm và xác lập các điều kiện khởi tạo

- Xây dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm

Theo các nghiên cứu, hiện chưa có phương pháp phân cụm tổng quát nào có thể giải quyết hoàn toàn mọi loại cấu trúc cụm dữ liệu Ngoài ra, các phương pháp phân cụm cần phải có cách thức biểu diễn khác nhau cho từng cấu trúc cụm dữ liệu, và mỗi cách thức biểu diễn sẽ tương ứng với một thuật toán cụ thể.

Phân cụm dữ liệu là một vấn đề phức tạp trong lĩnh vực PCDL, yêu cầu giải quyết nhiều vấn đề cơ bản một cách toàn diện và phù hợp với nhiều loại dữ liệu khác nhau Đặc biệt, dữ liệu hỗn hợp đang phát triển mạnh mẽ trong hệ quản trị dữ liệu, tạo ra thách thức lớn cho lĩnh vực KPDL trong những thập kỷ tới, đặc biệt là trong KPDL Web.

1.2.2 Ứng dụng của phân cụm dữ liệu

PCDL là công cụ quan trọng trong KPDL, với các phương pháp PCDL đã được áp dụng thành công trong nhiều lĩnh vực khác nhau.

Khai phá Web

Sự phát triển nhanh chóng của Internet đã tạo ra một lượng lớn dữ liệu siêu văn bản, khiến việc khai phá dữ liệu Web trở nên ngày càng quan trọng trong lĩnh vực KPDL Mục tiêu của việc này là tìm kiếm, phân tích và tổng hợp tri thức mới, từ đó giúp xây dựng các website hiệu quả hơn, phục vụ nhu cầu của con người tốt hơn.

Khai thác và phân tích thông tin hữu ích trên Internet thông qua phương pháp KPDL đã trở thành một xu hướng nghiên cứu quan trọng trong lĩnh vực khám phá tri thức Quá trình khai thác Web bao gồm việc phân tích cấu trúc Web, nội dung Web và các mẫu truy cập Web.

Nội dung của các trang web có sự phức tạp và không đồng nhất so với các tài liệu văn bản truyền thống Thông tin trên web thay đổi nhanh chóng, không chỉ về nội dung mà còn về cấu trúc trang Ví dụ, các lĩnh vực như tin tức, thị trường chứng khoán, quảng cáo và dịch vụ mạng đều có sự biến động liên tục.

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn

Web phát triển qua từng giai đoạn với sự thay đổi liên tục về các liên kết và đường dẫn truy cập Số lượng người dùng tăng lên và sự quan tâm đến Web cũng biến đổi, với động cơ sử dụng rất đa dạng Để tìm kiếm thông tin cần thiết và sở hữu những trang Web chất lượng, cần có chiến lược tối ưu hóa hiệu quả.

Nghiên cứu các phương pháp KPDL trong môi trường Web sẽ giúp giải quyết hiệu quả các vấn đề như quản lý Web site, khai thác nội dung hấp dẫn cho người dùng và phân tích mẫu hành vi sử dụng Web.

Dựa vào những vấn đề cơ bản đã nêu, chúng ta có thể áp dụng các phương pháp hiệu quả để cung cấp thông tin hữu ích cho người dùng Web, từ đó giúp họ sử dụng nguồn tài nguyên trên Internet một cách tối ưu.

1.3.2 Khái niệm khai phá Web

Có nhiều khái niệm khác nhau về khai phá Web nhưng có thể tổng quát hoá như sau [4][14]:

Khai phá Web là quá trình sử dụng các phương pháp KPDL để tự động hóa việc khám phá và trích xuất thông tin hữu ích từ tài liệu, dịch vụ và cấu trúc Web Nó giúp rút ra các thành phần quan trọng và thông tin tiềm năng từ các tài nguyên trên World Wide Web, từ đó hỗ trợ con người trong việc phát hiện tri thức mới, cải thiện thiết kế website và phát triển thương mại điện tử Quá trình này được chia thành nhiều giai đoạn khác nhau.

1 Tìm kiếm nguồn tài nguyên: Thực hiện việc tìm kiếm và lấy các tài liệu Web phục vụ cho việc KPDL

2 Lựa chọn và tiền xử lý dữ liệu: Lựa chọn và tiền xử lý tự động các loại thông tin từ nguồn tài nguyên Web đã lấy về

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn

3 Tổng hợp: Tự động khám phá các mẫu chung từ các Web site riêng lẻ cũng như nhiều Web site liên kết với nhau

4 Phân tích: Đánh giá, giải thích, biểu diễn các mẫu khai phá được

1.3.3 Đặc trƣng của khai phá Web

Kể từ đầu những năm 2000, sự bùng nổ của Internet đã tạo ra một lượng dữ liệu khổng lồ dưới dạng siêu văn bản Điều này mang lại cả thách thức và cơ hội cho quá trình khai thác thông tin từ Web.

* Web quá lớn để tổ chức thành kho dữ liệu:

CSDL truyền thống thường có kích thước nhỏ và được lưu trữ tập trung, trong khi dữ liệu trên Web rất lớn, lên tới hàng terabytes và liên tục thay đổi Hơn nữa, dữ liệu Web còn được phân tán trên nhiều máy tính trên toàn cầu Theo thống kê năm 2009, có gần 236 triệu Website tồn tại trên Internet.

* Độ phức tạp của các trang Web là rất lớn

Dữ liệu trong CSDL truyền thống thường đồng nhất về ngôn ngữ, trong khi dữ liệu Web lại đa dạng và không đồng nhất Dữ liệu Web bao gồm nhiều loại ngôn ngữ, định dạng và từ vựng khác nhau, tạo nên một "thư viện kỹ thuật số rộng lớn" Sự đa dạng này đặt ra thách thức lớn cho việc tìm kiếm thông tin cần thiết trong một không gian khổng lồ như vậy.

* Web là nguồn tài nguyên thông tin có độ thay đổi cao:

Web không chỉ gia tăng về quy mô mà còn có sự thay đổi liên tục về nội dung Theo nghiên cứu hơn 500.000 trang web trong hơn bốn tháng, có tới 23% các trang thay đổi hàng ngày Bên cạnh đó, sự kết nối thông tin và việc truy cập các bản ghi cũng được cập nhật thường xuyên.

* Đối tượng phục vụ của Web là rộng lớn và đa dạng:

Đối tượng sử dụng Web rất đa dạng với nhiều kiến thức và sở thích khác nhau Tuy nhiên, nhiều người dùng không có hiểu biết sâu về cấu trúc mạng thông tin, dẫn đến việc họ cảm thấy nhàm chán khi tìm kiếm thông tin và thường chỉ nhận được những thông tin không hữu ích.

Chỉ một phần nhỏ thông tin trên web thực sự hữu ích, khiến người dùng gặp khó khăn trong việc tìm kiếm trang web chất lượng Nhiều trang web không đáng quan tâm vẫn xuất hiện trong kết quả tìm kiếm, do đó cần có giải pháp khai phá web hiệu quả để giúp người dùng tiếp cận những trang web chất lượng cao theo tiêu chuẩn của họ.

1.3.4 Các đối tƣợng khai phá Web

Các đối tượng khai phá Web bao gồm [10]: Web logs, Web pages, Web hyperlink structures, dữ liệu thị trường trực tuyến và các thông tin khác

Web logs là dữ liệu được phân loại thành ba loại chính khi người dùng duyệt Web: Server logs, error logs và cookie logs Phân tích các tài liệu đăng nhập này giúp khám phá thông tin về hành vi truy cập của người dùng.

Web pages: Hầu hết các phương pháp KPDL Web được sử dụng trong Web pages là theo chuẩn HTML

Cấu trúc siêu liên kết web: Các trang web được kết nối qua các siêu liên kết, điều này rất quan trọng cho việc khai thác thông tin Siêu liên kết web đóng vai trò là nguồn tài nguyên đáng tin cậy.

Dữ liệu thị trường trực tuyến: Như lưu trữ thông tin thương mại điện tử trong các site thương mại điện tử

Các thông tin khác: Chủ yếu bao gồm các đăng ký người dùng, nó có thể giúp cho việc khai phá tốt hơn

Trong chương này trình bày những kiến thức cơ bản về khai phá dữ liệu,

MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU

Phân cụm phân hoạch

Phương pháp phân cụm phân hoạch nhằm chia một tập dữ liệu n phần tử thành k nhóm, với mỗi phần tử chỉ thuộc về một nhóm và mỗi nhóm có ít nhất một phần tử Do độ phức tạp cao trong việc tìm kiếm nghiệm tối ưu toàn cục, các thuật toán thường tìm giải pháp tối ưu cục bộ bằng cách sử dụng hàm tiêu chuẩn để đánh giá và hướng dẫn quá trình phân hoạch Thường thì, một phân hoạch ban đầu được khởi tạo ngẫu nhiên hoặc theo heuristic, sau đó được tinh chỉnh liên tục cho đến khi đạt yêu cầu Các thuật toán này cải tiến tiêu chuẩn phân cụm bằng cách tính toán độ tương tự giữa các đối tượng dữ liệu, từ đó lựa chọn giá trị tối ưu sao cho hàm tiêu chuẩn đạt giá trị tối thiểu Ý tưởng chính là áp dụng chiến lược ăn tham (Greedy) để tìm kiếm nghiệm tối ưu cục bộ.

Lớp bài toán phân cụm phân hoạch bao gồm nhiều thuật toán quan trọng như K-means, K-medoids, CLARA, và CLARANS, được áp dụng rộng rãi trong Khoa học Dữ liệu Bài viết này sẽ trình bày một số thuật toán phân cụm phân hoạch đã được nghiên cứu và đề xuất trong khuôn khổ luận văn.

Thuật toán K-means do MacQueen đề xuất trong lĩnh vực thống kê năm 1967

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn

K-means là một trong số những phương pháp học không có giám sát cơ bản nhất thường được áp dụng trong việc giải các bài toán về phân cụm dữ liệu Mục đích của thuật toán k-means là sinh ra k cụm dữ liệu {C1, C2,

…,Ck} từ một tập dữ liệu chứa n đối tượng trong không gian d chiều Xi

=(xi1, xi2,… xid)  i  1 , n , sao cho hàm tiêu chuẩn

2 Đạt giá trị tối thiểu Trong đó: m i là trọng tâm của cụm Ci, D là khoảng cách giữa hai đối tượng

Trọng tâm của một cụm là véc tơ, với giá trị mỗi phần tử là trung bình cộng các phần tử tương ứng của các đối tượng trong cụm Thuật toán yêu cầu tham số đầu vào là số cụm k, và đầu ra là các trọng tâm của các cụm dữ liệu Khoảng cách D giữa các đối tượng thường được đo bằng khoảng cách Euclide, vì đây là mô hình dễ dàng lấy đạo hàm và xác định cực trị tối thiểu Hàm tiêu chuẩn E và độ đo khoảng cách D có thể được điều chỉnh tùy theo từng ứng dụng cụ thể.

Các bước cơ bản của thuật toán K-Means:

Input: Một CSDL gồm n đối tượng và số cụm k

Output: Một tập gồm k cụm sao cho cực tiểu về tổng sai-số vuông

Bước 1: Chọn ngẫu nhiên k mẫu vào k cụm Coi tâm của cụm chính là mẫu có trong cụm

Bước 2: Tìm tâm mới của cụm

Bước 3: Gán các mẫu vào từng cụm sao cho khoảng cách từ mẫu đó đến tâm của cụm là nhỏ nhất

Bước 4: Nếu các cụm không có sự thay đổi nào sau khi thực hiện

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn bước 3 thì chuyển sang bước 5, ngược lại sang bước 2

Thuật toán K-means có độ phức tạp tính toán là O((n.k.d).τ.T flop), trong đó n là số đối tượng dữ liệu, k là số cụm, d là số chiều, τ là số vòng lặp, và T flop là thời gian thực hiện phép tính cơ sở Nhờ vào việc phân tích phân cụm đơn giản, K-means có thể được áp dụng cho các tập dữ liệu lớn Tuy nhiên, thuật toán này chỉ phù hợp với dữ liệu có thuộc tính số và có khả năng phát hiện các cụm hình cầu, đồng thời cũng rất nhạy cảm với các phần tử ngoại lai và nhiễu.

Hình sau đây mô phỏng các bước của thuật toán K-means

Hình 2.2 Mô phỏng thuật toán K-means

Chất lượng phân cụm của thuật toán K-means phụ thuộc vào các tham số đầu vào, đặc biệt là số cụm k và các trọng tâm khởi tạo Nếu các trọng tâm khởi tạo quá khác biệt so với các trọng tâm tự nhiên, kết quả phân cụm sẽ không chính xác, dẫn đến việc các cụm dữ liệu khám phá được không phản ánh đúng thực tế Hiện tại, vẫn chưa có giải pháp tối ưu để lựa chọn các tham số này.

Cập nhật lại trọng tâm

Số hóa bởi Trung tâm Học liệu – ĐHTN, giải pháp thường được áp dụng ban đầu là thử nghiệm với các giá trị đầu vào k khác nhau để chọn giải pháp tối ưu Hiện nay, nhiều thuật toán kế thừa tư tưởng của K-means đã được phát triển và áp dụng hiệu quả trong KPDL để xử lý các tập dữ liệu lớn, như K-medoids và ClARA.

Thuật toán K-medoids là phiên bản mở rộng của K-means, được thiết kế để xử lý hiệu quả dữ liệu nhiễu và các phần tử ngoại lai Khác với K-means, K-medoids sử dụng các đối tượng medoid làm đại diện cho các cụm dữ liệu, với medoid là đối tượng nằm ở vị trí trung tâm nhất trong mỗi cụm Điều này giúp các đối tượng medoid ít bị ảnh hưởng bởi các điểm dữ liệu xa trung tâm hơn.

Thuật toán k-medoids được sử dụng để phân nhóm k cụm với n đối tượng bằng cách chọn ngẫu nhiên k đối tượng làm tâm của các cụm Các đối tượng còn lại sẽ được phân bổ vào cụm dựa trên khoảng cách gần nhất với tâm cụm Quá trình này lặp lại với việc điều chỉnh tâm của mỗi cụm để cải thiện chất lượng, được đánh giá qua hàm đo sự khác biệt giữa đối tượng và tâm cụm Quá trình tiếp tục cho đến khi không còn thay đổi nào về cấu trúc và hình dạng của các cụm Để thay thế một đối tượng tâm Oj bằng một đối tượng không phải là tâm, mỗi đối tượng p sẽ được xem xét qua 4 trường hợp khác nhau.

Trường hợp 1 : p đang thuộc vào cụm có tâm là O j (gọi là cụm O j ) Nếu Oj được thay thế bởi Orandom và p gần nhất với Oi (i#j) thì p được gán lại vào

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn

Trường hợp 2 : p đang thuộc vào cụm Oj Nếu Oj được thay thế bởi

Orandom và p gần nhất với Orandom thì p được gán lại vào Orandom

Trường hợp 3 : p đang thuộc vào O i (i#j) Nếu O j được thay thế bởi

Orandom và p vẫn gần nhất với Oi thì không thay đổi gì cả Tức là p vẫn thuộc

Trường hợp 4 : p đang thuộc vào Oi (i#j) Nếu Oj được thay thế bởi

O random và p gần nhất với O random thì p được gán lại vào O random

Hình 2.3 Các trường hợp đối với điểm P

Input: Số nguyên k và CSDL gồm n đối tượng cần phân cụm

Output: Một tập gồm k cụm mà tổng giá trị của tất cả các đối tượng đến đối tượng tâm của nhóm chứa nó là nhỏ nhất

Bước 1: Chọn k đối tượng bất kỳ vào k cụm Coi mỗi đối tượng này là tâm của nhóm

Bước 3: Gán mỗi đối tượng còn lại vào một cụm mà nó gần với đối tượng tâm của cụm nhất

Bước 4: Chọn ngẫu nhiên một đối tượng không là đối tượng tâm, Orandom

Bước 5: Tính lại giá trị S đối với việc đổi Oj với Orandom

Bước 6: Nếu S

Ngày đăng: 13/06/2021, 07:25

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2] Phạm Việt Bình, Nguyễn Văn Huân, Vũ Xuân Nam, Trương Mạnh Hà (2009), "Cải tiến thuật toán K-Means và ứng dụng phân cụm dữ liệu tự động", Báo cáo Hội thảo Khoa học tại ĐH Lạc Hồng, Đồng Nai Sách, tạp chí
Tiêu đề: Cải tiến thuật toán K-Means và ứng dụng phân cụm dữ liệu tự động
Tác giả: Phạm Việt Bình, Nguyễn Văn Huân, Vũ Xuân Nam, Trương Mạnh Hà
Năm: 2009
[3] Lê Thu Trang (2008), "Khai phá dữ liệu bằng phương pháp phân cụm", Luận văn thạc sĩ Công nghệ thông tin, Khoa Công nghệ thông tin - Đại học Thái Nguyên Sách, tạp chí
Tiêu đề: Khai phá dữ liệu bằng phương pháp phân cụm
Tác giả: Lê Thu Trang
Năm: 2008
[4] Hà Quang Thụy (2009), "Giáo trình khai phá dữ liệu Web", Nxb Giáo dục Việt Nam.Tài liệu tiếng Anh Sách, tạp chí
Tiêu đề: Giáo trình khai phá dữ liệu Web
Tác giả: Hà Quang Thụy
Nhà XB: Nxb Giáo dục Việt Nam. Tài liệu tiếng Anh
Năm: 2009
[6] Ho Tu Bao, (2000), Knowledge Discovery and Data Mining Khác
[7] Lizhen liu, junjie Chen, Hantao Song, (2002), The reseach of Web Mining, IEEE Khác
[9] Miguel Gomes da Costa Júnior, Zhiguo Gong, (2005), Web Structure Mining: An Introduction, IEEE Khác
[10] Oren Zamir and Oren Etzioni, (1998), Web document Clustering: A Feasibility Demonstration, University of Washington, USA, ACM Khác
[11] Pawan Lingras, (2002), Rough Set Clustering for Web mining, IEEE Khác
[12] Perikis Andritsos, (2002) Data Clusting Tichniques, University Toronto Khác
[13] R.Cooley, B.Mobasher and J.Srivastava, (1998), Web mining: Information and Pattern Discovery on the Wor ld Wide Web, University of Minnesota, USA Khác
[14] WangBin, LiuZhijing, (2003), WebMining Research, IEEE Khác
[15] Yitong Wang, Masaru Kitsuregawa (2002), Evaluating ContentsLink Coupled Web Page Clustering for Web Search Results, ACM Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w