1. Trang chủ
  2. » Tất cả

KHAI PHÁ dữ LIỆU đề tài tìm HIỂU về RAPIDMINER và THUẬT TOÁN KMEANS áp DỤNG TRÊN dữ LIỆU THỰC tế

44 83 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tìm hiểu về RapidMiner và thuật toán KMeans áp dụng trên dữ liệu thực tế
Tác giả Nguyễn Tiến Đạt, Đỗ Thị Hương, Nguyễn Thị Thanh Thanh Nhàn, Bùi Thị Phương Thảo
Người hướng dẫn Nguyễn Thị Phương Bắc
Trường học Trường Đại học Mỏ - Địa chất
Chuyên ngành Công nghệ Thông tin
Thể loại Báo cáo bài tập lớn
Thành phố Hà Nội
Định dạng
Số trang 44
Dung lượng 1,94 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • Phần I: Mở đầu (8)
    • 1. Lý do chọn đề tài (8)
    • 2. Mục tiêu nghiên cứu (9)
    • 3. Đối tượng và phạm vi nghiên cứu (9)
    • 4. Phương pháp nghiên cứu (9)
    • 5. Kết cấu của đề tài (10)
  • Phần II: Nội Dung (11)
    • I: Tổng quan về khám phá tri thức và khai phá dữ liệu (11)
      • 1.1. Khám phá tri thức tri thức (11)
        • 1.1.1. Khái niệm (11)
        • 1.1.2. Vai trò của khám phá tri thức (12)
        • 1.1.3. Tiến trình khai phá tri thức (13)
      • 1.2. Khai phá dữ liệu (15)
        • 1.2.1. Khái niệm (15)
        • 1.2.2. Các phương pháp chính trong khai phá dữ liệu (16)
        • 1.2.3. Một số khó khăn và thách thức trong khai phá dữ liệu (17)
        • 1.2.4. Quá trình khai phá dữ liệu (17)
        • 1.2.5. Những ứng dụng của khai phá dữ liệu (19)
  • Chương II: Khai phá dữ liệu với thuật toán phân cụm (20)
    • 2.1. Phân cụm dữ liệu (20)
      • 2.1.1. Khái niệm (20)
      • 2.1.2. Các yêu cầu về thuật toán phân cụm dữ liệu (20)
      • 2.1.3. Ý nghĩa thực tiễn của phân cụm (21)
      • 2.1.4. Thuật toán K-means trong phân cụm dữ liệu (21)
    • III: Ứng dụng phần mềm khai phá dữ liệu Rapidminer vào quản lý khách hàng mua hàng của Công ty (26)
      • 3.1. Tổng quan về Công ty (26)
        • 3.1.1. Giới thiệu (26)
        • 3.1.2. Cơ cấu tổ chức (27)
        • 3.1.3. Định hướng phát triển (27)
      • 3.2. Phần mềm khai phá dữ liệu Rapid miner (28)
        • 3.2.4. Phân cụm với Rapid Miner (28)
      • 3.3. Ứng dụng phân cụm dữ liệuvào quản lý khách hàng mua hàng (31)
        • 3.3.1 Xác định nội dung cần khai phá (31)
        • 3.3.2 Lựa chọn dữ liệu (31)
        • 3.3.3. Tiền xử lý dữ liệu bài toán (31)
        • 3.3.5. Khai phá dữ liệu bằng thuật toán K-mean (0)
      • 3.4. Một số giải pháp đưa ra trong việc quản lý khách hàng mua hàng (41)
  • Phần III: Kết Luận (43)
    • 3.1. Kết Luận (43)
      • 3.1.1. Kết quả đạt được (43)
      • 3.1.2. Hạn chế của đề tài (43)
    • 3.2. Hướng phát triển của đề tài (43)
  • Tài liệu tham khảo (44)

Nội dung

TRƯỜNG ĐẠI HỌC MỎ ĐỊA CHẤT KHOA CÔNG NGHỆ THÔNG TIN HỌC PHẦN KHAI PHÁ DỮ LIỆU ĐỀ TÀI TÌM HIỂU VỀ RAPIDMINER VÀ THUẬT TOÁN KMEANS ÁP DỤNG TRÊN DỮ LIỆU THỰC TẾ BÁO CÁO BÀI TẬP LỚN GIÁO VIÊN HƯỚNG DẪN NG[.]

Trang 1

TRƯỜNG ĐẠI HỌC MỎ - ĐỊA CHẤT KHOA CÔNG NGHỆ THÔNG TIN

HỌC PHẦN : KHAI PHÁ DỮ LIỆU

ĐỀ TÀI: TÌM HIỂU VỀ RAPIDMINER VÀ THUẬT TOÁN KMEANS ÁP

DỤNG TRÊN DỮ LIỆU THỰC TẾ BÁO CÁO BÀI TẬP LỚN GIÁO VIÊN HƯỚNG DẪN: NGUYỄN THỊ PHƯƠNG BẮC

NHÓM SINH VIÊN THỰC HIỆN:

Nguyễn Thị Thanh Thanh Nhàn - 1821050676

Trang 2

Mục lục

Phần I: Mở đầu 1

1 Lý do chọn đề tài 1

2 Mục tiêu nghiên cứu 2

3 Đối tượng và phạm vi nghiên cứu 2

4 Phương pháp nghiên cứu 2

5 Kết cấu của đề tài 3

Phần II: Nội Dung 4

I: Tổng quan về khám phá tri thức và khai phá dữ liệu 4

1.1 Khám phá tri thức tri thức 4

1.1.1 Khái niệm 4

1.1.2 Vai trò của khám phá tri thức 5

1.1.3 Tiến trình khai phá tri thức 6

1.2 Khai phá dữ liệu 8

1.2.1 Khái niệm 8

1.2.2 Các phương pháp chính trong khai phá dữ liệu 9

1.2.3 Một số khó khăn và thách thức trong khai phá dữ liệu 10

1.2.4 Quá trình khai phá dữ liệu 10

1.2.5 Những ứng dụng của khai phá dữ liệu 12

Chương II: Khai phá dữ liệu với thuật toán phân cụm 13

2.1 Phân cụm dữ liệu 13

2.1.1 Khái niệm 13

2.1.2 Các yêu cầu về thuật toán phân cụm dữ liệu 13

2.1.3 Ý nghĩa thực tiễn của phân cụm 14

2.1.4 Thuật toán K-means trong phân cụm dữ liệu 14

III: Ứng dụng phần mềm khai phá dữ liệu Rapidminer vào quản lý khách hàng mua hàng của Công ty TNHH Máy Tính Phong Vũ 19

3.1 Tổng quan về Công ty 19

3.1.1 Giới thiệu 19

3.1.2 Cơ cấu tổ chức 20

3.1.3 Định hướng phát triển 20

3.2 Phần mềm khai phá dữ liệu Rapid miner 21

Trang 3

3.2.4 Phân cụm với Rapid Miner 21

3.3 Ứng dụng phân cụm dữ liệuvào quản lý khách hàng mua hàng 24

3.3.1 Xác định nội dung cần khai phá 24

3.3.2 Lựa chọn dữ liệu 24

3.3.3 Tiền xử lý dữ liệu bài toán 24

3.3.5 Khai phá dữ liệu bằng thuật toán K-mean 32

3.4 Một số giải pháp đưa ra trong việc quản lý khách hàng mua hàng 34

Phần III: Kết Luận 36

3.1 Kết Luận 36

3.1.1 Kết quả đạt được 36

3.1.2 Hạn chế của đề tài 36

3.2 Hướng phát triển của đề tài 36

Tài liệu tham khảo 37

Trang 4

Các từ viết tắt trong bài báo cáo

Các kí hiệu được sử dụng trong bài

Không thuộc Nhỏ hơn hoặc bằng Lớn hơn hoặc bằng Khác

Phép lấy hợp của tập hợp Phép lấy giao của tập hợp

Trang 5

Danh mục các hình vẽ

Hình 1.1: Các bước trong quá trình khai phá tri thức 6

Hình 1.2: Các bước của quá trình khai phá dữ liệu 11

(Hình 2.1: Các bước của thuật toán K-mean) 19

Hình 2.2: Khởi tạo trọng tâm 20

Hình 2.3: Cập nhật vị trí trọng tâm 21

Hình 2.4: Lặp lại bước 3, Cập nhật trọng tâm 21

Hình 2.5: Kết quả sau khi phân cụm 22

Hình 3.1: Logo công ty 23

Hình 3.2: Cơ cấu tổ chức của công ty 24

Hình 3.3: Giao diện tổng quan của RapidMiner 25

Hình 3.4: Bổ sung WEKA cho RapidMiner 26

Hình 3.5: Tìm kiếm W-Apriori 26

Hình 3.6: Các tham số của W-Apriori 26

Hình 3.7: Thực hiện Phân Cụm với K-Means 27

Hình 3.8: Lựa chọn tham số cho K-Means 28

Hình 3.9: Kết quả chạy K-Means tìm được 28

Hình 3.10: Tạo nơi lưu trữ dữ liệu 30

Hình 3.11: Chọn nơi lưu trữ dữ liệu 30

Hình 3.12: Biểu tượng để đưa dữ liệu vào 31

Hình 3.13: Chọn file cần đưa vào 31

Hình 3.14: Thiết lập cột cho các thuộc tính 31

Hình 3.15: Chú thích các thuộc tính 32

Hình 3.16: Xác định các loại dữ liệu thuộc tính 32

Hình 3.17: Lưu tên cho kho dữ liệu 33

Hình 3.18: Cơ sở dữ liệu khách hàng 33

Hình 3.19: Đưa dữ liệu khách hàng vào chương trình chính 34

Hình 3.20: Thực hiện câu lệnh if để chia miền giá trị cho Giá thành và Số lượng 34

Hình 3.21: Kết quả dữ liệu sau khi thực hiện chia miền dữ liệu 34

Hình 3.22: Kết quả sau khi thay đổi dữ liệu 35

Hình 3.23: Thay thế thuộc tính đánh giá khách hàng 35

Trang 6

Hình 3.24: Thay thế thuộc tính phân loại số lượng 36

Hình 3.25: Lựa chọn các thuộc tính cần trong mô hình 36

Hình 3.26: Dữ liệu tiền xử lý 37

Hình 3.27: Chạy Filter Example 42

Hình 3.28: Kết quả cụm 0 42

Hình 3.29: Kết quả cụm 1 43

Hình 3.30: Kết quả cụm 2 43

Danh mục các bảng biểu Bảng 1: Các đối tượng để phân cụm 20

Trang 7

Tóm tắt nội dung nghiên cứu

Trong tình hình hiện nay, khi thông tin đang trở thành yếu tố quyết định trongkinh doanh thì vấn đề tìm ra các thông tin hữu ích trong các cơ sở dữ liệu khổng lồngày càng trở thành mục tiêu quan trọng của các công ty Khai phá dữ liệu dần trởthành công cụ chính để thực thi nhiệm vụ đó, từ cơ sở dữ liệu sẵn có phải tìm ra nhữngthông tin tiềm ẩn một cách nhanh chóng có giá trị Công ty TNHH Máy tính Phong Vũchuyên cung cấp các loại mặt hàng điện tử nhằm phục vụ nhu cầu cho khách hàng trênthị trường, muốn lưu trữ và khai thác những thông tin hữu ích từ CSDL khách hàng đó

để công ty hiểu hơn về khách hàng nhằm có những chính sách chăm sóc khách hàng

Từ lý do đó, đề tài: “Sử dụng phần mềm Rapidminer nhằm phân loại khách hàng trongquản lý khách hàng mua hàng tại công ty TNHH Máy Tính Phong Vũ” được chọntriển khai thực hiện

Chuyên đề đã trình bày các kiến thức cơ bản nhất của lý thuyết khai phá dữliệu, lý thuyết về luật kết hợp; thuật toán Apriori trong khai phá luật kết hợp và lýthuyết về phân cụm dữ liệu; Thuật toán K-means trong phân cụm dữ liệu Chuyên đềlấy thông tin của khách hàng tại Công ty TNHH Máy tình Phong Vũ để giải quyết bàitoán Sử dụng phần mềm khai phá dữ liệu RipidMiner để tiền xử lý dữ liệu khách hàng

và vận dụng thuật toán Apriori, thuật toán K-means nhằm đưa ra mối liên hệ giữa cácgiá trị dữ liệu Qua kết quả thu được từ luật kết hợp và phân cụm dữ liệu, rút ra một sốnhận xét chung về thông tin thu được Từ đó đưa ra một số giải pháp hỗ trợ chăm sóckhách hàng của công ty

Trang 8

Phần I: Mở đầu

1 Lý do chọn đề tài

Ngày nay, khi xã hội ngày càng phát triển thì lượng thông tin càng tăng lên vớitốc độ bùng nổ Lượng dữ liệu khổng lồ ấy là một nguồn tài nguyên vô giá nếu nhưchúng ta biết cách phát hiện và khai thác những thông tin hữu ích có trong đó Nhưvậy vấn đề đặt ra với dữ liệu của chúng ta là việc lưu trữ và khai thác chúng Cácphương pháp khai thác dữ liệu truyền thống ngày càng không đáp ứng được nhu cầuthực tế Một khuynh hướng kĩ thuật mới hiện nay là kĩ thuật khai phá dữ liệu và khámphá trí thức Công nghệ khai phá dữ liệu ra đời đã cho phép ta khai thác được những trithức hữu dụng bằng việc trích xuất những thông tin có mối quan hệ và mối tương quannhất định từ một kho dữ liệu lớn mà bình thường không thể nhận diện được từ đó giảiquyết các bài toán tìm kiếm, phân loại, dự báo các xu thế, các hành vi trong tương lai

và những tính năng thông minh khác Ngày nay, các công nghệ khai thác dữ liệu đượcứng dụng rộng rãi trong hầu hết các lĩnh vực: truyền thông, y học, phân tích dữ liệu…

Đặc biệt trong lĩnh vực kinh doanh, việc ứng dụng công nghệ khai phá dữ liệuvào trong việc quản lý là một trong những yếu tố quan trọng góp phần vào việc thànhcông của công ty Trong quá trình hoạt động kinh doanh, các dữ liệu của công ty phátsinh ngày càng nhiều Để tận dụng nguồn dữ liệu này sử dụng cho mục đích kinhdoanh của công ty đòi hỏi phải phát triển khai phá dữ liệu để có thể thống kê, báo cáo,

hổ trợ ra các quyết định hay phân tích số liệu nhằm phân loại, chăm sóc khách hàng…Khai phá dữ liệu là lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích đồng thời có

ưu thế hơn hẵn so với các công cụ phân tích truyền thống

Với lượng khách hàng đã, đang và sẽ đến với cửa hàng Phong Vũ luôn cónhững chính sách đối với từng loại khách hàng khác nhau Để có thể phân loại kháchhàng và áp dụng những chính sách phù hợp với loại khác hàng đó, cửa hàng cần sửdụng một phần mềm phân tích , thống kê, lưu trữ các loại khách hàng này

Từ các phân tích trên, tôi lựa chọn đề tài : “Sử dụng phần mềm Rapidminer nhằm phân loại khách hàng trong quản lý khách hàng mua hàng tại Công ty TNHH Máy Tính Phong Vũ” nhằm góp phần hổ trợ cửa hàng quản lý tốt hơn trong khâu quản

Trang 9

2 Mục tiêu nghiên cứu

- Mục tiêu tổng quát:

Xác định nhóm khách hàng (khách hàng tiềm năng, khách hàng truyềnthống…) tới mua hàng tại Công ty TNHH Máy Tính Phong Vũ Hiều được nhu cầucũng như hành vi mua hàng của từng nhóm khách hàng giúp công ty có chiến lượckinh doanh, những chính sách và giải pháp nâng cao hiệu quả chăm sóc từng nhómkhách hàng

3 Đối tượng và phạm vi nghiên cứu

 Đối tượng nghiên cứu:

- Lý thuyết khai phá dữ liệu

- Phần mềm Rapid Miner

- Thuật toán phân cụm, kết hợp

- Thông tin khách hàng của Công ty TNHH Máy Tính Phong Vũ

 Phạm vi nghiên cứu:

- Về nội dung: Sử dụng phần mềm Rapidminer trong quản lý khách hàng mua hàng tạiCông ty TNHH Máy tính Phong Vũ

4 Phương pháp nghiên cứu

Đề tài sử dụng các phương pháp nghiên cứu :

- Phương pháp nghiên cứu lý luận: thu thập, đọc hiểu, phân tích dữ liệu, thông tin từcác tài liệu, giáo trình, tạp chí, báo cáo khoa học,…liên quan đến khai phá dữ liệu, các

kỹ thuật khai phá dữ liệu

- Phương pháp thu thập số liệu: sử dụng số liệu thứ cấp (từ phòng ban của Công tyTNHH Máy tínhThừa Thiên Huế)

- Phương pháp phân tích số liệu: vận dụng luật kết hợp và kỹ thuật phân cụm trongphần mềm KPDL RapidMiner, trong đó CSDL bao gồm thông tin khách hàng, doanhthu bán hàng

Trang 10

5 Kết cấu của đề tài

Ngoài phần mở đầu và phần kết luận, nội dung của khóa luận bao gồm cácchương được tổ chức như sau:

Chương I: Tổng quan về khám phá tri thức và khai phá dữ liệu

Chương II: Khai phá dữ liệu với thuật kết hợp và phân cụm

Chương III: Ứng dụng phần mềm khai phá dữ liệu Rapidminer vào quản lýkhách hàng mua hàng ở cửa hàng điện máy Phong Vũ

Trang 11

Phần II: Nội Dung I: Tổng quan về khám phá tri thức và khai phá dữ liệu 1.1 Khám phá tri thức tri thức

có những kiến thức cơ bản về lĩnh vực cần khám phá để có thể chọn được tập con từ

dữ liệu tốt, từ đó phát hiện các mẫu phù hợp với mục tiêu đề ra Đó chính là tri thứcđược rút ra từ CSDL, thường để phục vụ cho việc giải quyết một loạt nhiệm vụ nhấtđịnh trong một lĩnh vực nhất định Tuy vậy, quá trình khám phá tri thức mang tính chấthướng nhiệm vụ vì không phải là mọi tri thức tìm được đều áp dụng vào thực tế được

Để có được những thông tin quý báu chúng ta phải tìm ra các mẫu có trong tậpCSDL trước Việc đánh giá các mẫu được tìm thấy cũng là một điều thú vị và tất yếu

có tính chất quyết định đến sự sử dụng hay không sử dụng chúng Đầu ra của mộtchương trình là khám phá những mẫu có ích được gọi là tri thức Tri thức được khámphá có những đặc điểm chính:

- Kiến thức cao cấp: Ngày càng nhiều câu hỏi mang tính chất định tính cần phải trả lờidựa trên một khối lượng dữ liệu khổng lồ đã có Quá trình để tìm ra những kiến thứcnhư vậy không phải từ những phương pháp thống kê cổ điền mà nó được đúc kết từcác kinh nghiệm đã có, được thể hiện trong dữ liệu, những kết quả đó có thể lĩnh hộiđược

- Độ chính xác: Dù cho những mẫu khai phá thật sự có trong CSDL hay không thì việc

đo lường giá trị của chúng là bắt buộc phải có Chúng ta sẽ chỉ sử dụng những mẫunào có độ chính xác càng cao thì hiệu quả công việc đạt được càng lớn, những mẫu có

độ chính xác chưa được xác định rõ ràng hoặc không cao thì không nên sử dụng chúng

- Tính hấp dẫn: Khám phá tri thức được coi là lý thú vì nó có thể vạch ra các xu hướngmột cách hoàn thiện Đó là những điều mới lạ hay những quy trình tiềm năng, hữu ích

ẩn chứa trong dữ liệu trước đó

Trang 12

- Tính hiệu quả: thời gian chạy của thuật toán khám phá tri thức trên CSDL lớn có thể

dự tính và chấp nhận được

Khám phá tri thức trong CSDL là một quá trình của việc xác định giá trị, cáimới lạ, tri thức tiềm ẩn và tri thức cuối cùng của các khuôn mẫu/ mô hình trong dữliệu

1.1.2 Vai trò của khám phá tri thức

Có rất nhiều lý do để giải thích sự cần thiết của việc khám phá tri thức – khaiphá dữ liệu, điển hình là:

- Có rất nhiều tổ chức tập hợp quá nhiều dữ liệu, vậy họ phải làm gì với chúng

- Con người lưu trữ dữ liệu bởi vì họ cho rằng một số giá trị hữu ích được mã hóa hoàntoàn trong dữ liệu

- Trong kinh doanh, cần thu thập thông tin về thị trường, về các đối thủ và về kháchhàng Trong sản xuất, cần thu thập các dữ liệu về thời điểm hiệu quả và tối ưu nhấtphục vụ cho mục đích cải tiến quy trình và giải quyết sự cố

- Chỉ có một phần nhỏ dữ liệu (khoảng 5% - 10%) là luôn được phân tích

- Sự gia tăng của dữ liệu cản trở các phương pháp phân tích truyền thống

- Giá trị dữ liệu là quá lớn đối với cách thức phân tích cổ điển Chúng ta có thể khôngbao giờ nhìn thấy chúng một cách trọn vẹn hoặc không thể lưu trữ trong bộ nhớ

- Dự liệu cần tìm kiếm không tồn tại dưới dạng tường minh mà dưới dạng phi cấu trúc,trong các quy luật tiềm ẩn

- Sự phát triển của mạng máy tính đã gia tăng khả năng truy nhập vào dữ liệu

- Người sử dụng cuối không phải là nhà thống kê đơn thuần, họ cần biết tri thức CSDL

mà họ đang lưu trữ

- Sự cần thiết phải nhanh chóng ra quyết định và phản ứng lại những cơ hội xuất hiệntrước các đối thủ của mình

- Cùng với việc lớn lên của CSDL, khả năng để đưa ra quyết định và hổ trợ phân tích

là không thể thực hiện được với truy vấn khách hàng truyền thống

- Rất nhiều kiểu câu truy vấn mà con người quan tâm là rất khó thực hiện hay miêu tảtrong ngôn ngữ vấn tin

Trang 13

1.1.3 Tiến trình khai phá tri thức

Mục đích của quá trình khai phá tri thức: Từ những cơ sở dữ liệu ngoài cuộcsống thực tế sau một hoặc một số bước của quá trình sẽ rút ra được những tri thức mới.Các bước trong quá trình này có thể lặp đi lặp lại nhiều lần và được mô tả theo hìnhsau:

Hình 1.1: Các bước trong quá trình khai phá tri thức

Quá trình có thể lặp lại nhiều lần một hay nhiều giai đoạn dựa trên phản hồi từkết quả của các giai đoạn sau:

(1) Xác định chính xác vấn đề cần giải quyết sau đó nghiên cứu kiến thức về lĩnh vực

sẽ áp dụng, bao gồm cả tri thức, cấu trúc về hệ thống và tri thức, các nguồn dữ liệu phùhợp, ý nghĩa, vai trò và tầm quan trọng của các thực thể dữ liệu Xác định các nhiệm

vụ cần phải hoàn thành

Trang 14

(2) Chuẩn bị dữ liệu và thu thập dữ liệu phù hợp với mục đích đề ra.

(3) Tiền xử lý dữ liệu là thu thập và xử lý thô(đơn giản) dữ liệu Gồm các bước sau:

Làm sạch dữ liệu: Loại bỏ DL nhiễu, DL dư thừa không phù hợp

Làm giàu dữ liệu: Các DL bị thiếu/mất sẽ được thay thế bởi các giá trị thíchhợp

Làm giảm chiều: Các thuộc tính chứa ít thông tin sẽ được loại bỏ bớt

Biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết: bước này thường chiếm nhiềuthời gian nhất trong toàn bộ quy trình phát hiện tri thức Do DL được lấy từ nhiềunguồn khác nhau, không đồng nhất, có thể gây ra các nhầm lẫn Sau bước này, DL sẽnhất quán, đầy đủ, được rút gọn và rời rạt hóa

(4) Lựa chọn chức năng khai phá dữ liệu gồm tóm tắt hóa, phân lớp/phân loại, hồiquy/dự đoán, kết hợp, phân cụm

(5) Lựa chọn giải thuật khai phá dữ liệu: Đây là một công việc khá quan trọng Mộtứng dụng chạy tốt, có kết quả chính xác là nhờ thuật toán hiệu quả

(6) Tiến hành khai phá dữ liệu: bao gồm các công đoạn: chức năng, nhiệm vụ, mụcđích của KPDL, dùng phương pháp khai phá nào? Tùy theo bài toán xác định được mà

ta lựa chọn các phương pháp KPDL cho phù hợp

(7) Hậu xử lý và đánh giá mô hình: là hiển thị hóa, chuyển đổi, bỏ đi các mẫu dư thừa.Trong bước này có thể tư vấn các chuyên gia để loại bỏ những mô hình dư thừa, khôngphù hợp với ứng dụng

(8) Triển khai tri thức là sử dụng các tri thức phát hiện được làm sang tỏ các mô tả và

dự đoán

Các quy trình trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể lấytrung bình trên tất cả các lần thực hiện Các kết quả của quá trình phát triển tri thức cóthể được đưa vào ứng dụng trong các lĩnh vực khác nhau Do các kết quả có thể là các

dự đoán hoặc các mô tả nên chúng có thể được đưa vào các hệ thống hổ trợ ra quyếtđịnh nhằm tự động hóa quá trình này Tham gia chính trong quá trình KPDL là các nhà

tư vấn và nhà phát triển chuyên nghiệp trong lĩnh vực KPDL

Trang 15

1.2 Khai phá dữ liệu

1.2.1 Khái niệm

Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối thập kỉ 80 (1980)

Nó bao hàm một loạt các kĩ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩntrong các dữ liệu lớn (các kho dữ liệu) Về bản chất, khai phá dữ liệu liên quan đếnviệc phân tích các dữ liệu và sử dụng các kĩ thuật để tìm ra các mẫu hình có tính chínhquy trong tập dữ liệu

Ở một mức độ trừu tượng nhất định có thể định nghĩa: Khai phá dữ liệu là mộtquá trình tìm kiếm, phát hiện các tri thức mới, tiềm ẩn, hữu dụng trong CSDL lớn

Khai phá tri thức là mục tiêu chính của khai phá dữ liệu, do vậy hai khái niệm

đó được xem như hai lĩnh vực tương đương nhau Nhưng nếu phân chia một các táchbạch thì khai phá dữ liệu là một bước chính trong quá trình khai phá tri thức

Một số định nghĩa về khai phá dữ liệu:

Theo Giáo sư Tom Mitchell: “khai phá dữ liệu là việc sử dụng dữ liệu lịch sử

để khám phá những quy tắc và cải thiện những quyết định trong tương lai”.

Theo Ferruzza: “khai phá dữ liệu là tập hợp các phương pháp được dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ và các mẫu chưa biết bên trong dữ liệu”.

Theo Parsaye: “khai phá dữ liệu là quá trình trợ giúp các quyết định, trong đó chúng ta tìm kiếm các mẫu thông tin chưa biết và bất ngờ trong CSDL lớn”.

Theo Tiến sĩ Fayyad: “khai phá dữ liệu thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng các quy luật, ràng buộc, quy tắc trong cơ

sở dữ liệu”.

Theo các nhà Thống kê: “khai phá dữ liệu là một quá trình phân tích được thiết

kế thăm dò một lượng cực lớn các dữ liệu nhằm phát hiện ra các mẫu thích hợp và/hoặc các mối quan hệ mang tính hệ thống giữa các biến và sau đó sẽ hợp thức hóa các kết quả tìm được bằng cách áp dụng các mẫu đã phát hiện được cho tập con mới của dữ liệu”.

Trang 16

1.2.2 Các phương pháp chính trong khai phá dữ liệu

Khai phá dữ liệu là lĩnh vực mà con người luôn tìm cách đạt được mục đích sửdụng thông tin của mình Quá trình KPDL là quá trình phát hiện mẫu, trong đó phươngpháp KPDL để tìm kiếm các mẫu đáng quan tâm theo dạng xác định Có thể kể ra đâymột vài phương pháp như: sử dụng công cụ truy vấn, xây dựng cây quyết định, dựatheo khoảng cách, giá trị trung bình, phát hiện luật kết hợp… Các phương pháp trên cóthể được phỏng theo và được tích hợp vào các hệ thống lai để KPDL theo thống kêtrong nhiều năm nghiên cứu

Tuy nhiên, với dữ liệu rất lớn trong kho dữ liệu thì các phương pháp này cũngđối diện với thách thức về mặt hiệu quả và quy mô

-Phân lớp và dự đoán: Xếp một đối tượng vào trong những lớp đã biết Ví dụ: Phân lớpvùng địa lý theo dữ liệu thời tiết Đối với hướng tiếp cận này thường áp dụng một số

kỹ thuật như học máy, cây quyết định, mạng noron nhân tạo

-Phân cụm và phân đoạn: sắp xếp các đối tượng theo cụm Các đối tượng được gomcụm sao cho mức độ tương tự giữa các đối tượng trong một cụm là lớn nhất và mức độtương tự giữa các đối tượng nằm trong các cụm khác nhau là nhỏ nhất Lớp bài toánphân cụm còn được gọi là học không giám sát hay học không thầy

-Luật kết hợp: Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thànhphần dữ liệu của CSDL Mẫu đầu ra của giải thuật KPDL là tập luật kết hợp tìm được

Ta có thể lấy một ví dụ đơn giản về luật kết hợp như sau: sự kết hợp giữa hai thànhphần A và B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuất hiện của Btrong cùng bản ghi đó: A => B

- Khai phá chuỗi theo thời gian: Cũng tương tự như khai phá dữ liệu bằng luật kết hợpnhững có thêm tính thứ tự và tính thời gian Hướng tiếp cận này được ứng dụng nhiềutrong lĩnh vực tài chính và thị trường chứng khoán bởi vì chúng có tính dự báo

- Mô hình khái niệm và tổng hợp hóa: Liên quan đến các phương pháp tìm kiếm một

mô tả cho một tập con dữ liệu Các kỹ thuật toán tắt thường được áp dụng cho cácphân tích dữ liệu tương tác có tính thăm dò và tạo báo cáo tự động

Trang 17

1.2.3 Một số khó khăn và thách thức trong khai phá dữ liệu

Tuy đã có rất nhiều các giải pháp và phương pháp được ứng dụng trong khaiphá dữ liệu nhưng trên thực tế quá trình này vẫn gặp không ít khó khăn và thách thứcnhư sau:

- Cơ sở dữ liệu lớn

- Số chiều các thuộc tính lớn

- Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện không còn phù hợp

- Dữ liệu bị thiếu hoặc bị nhiễu

- Quan hệ giữa các trường phức tạp

- Giao tiếp với người sử dụng và kết hợp với các tri thức đã có

- Tích hợp với các hệ thống khác

1.2.4 Quá trình khai phá dữ liệu

Quá trình khai phá dữ liệu được tiến hành qua 6 bước Theo đó bắt đầu của quátrình là kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra Về lý thuyết thì có

vẻ rất đơn giản nhưng thực sự đây là một quá trình rất khó khan và gặp rất nhiềuvướng mắc như: quản lý các tập dữ liệu, phải lặp đi lặp lại toàn bộ quá trình…

- Bước 1: Gom dữ liệu (Gathering)

Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu Đây là bướcđược khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ cácnguồn ứng dụng Web

- Bước 2: Trích lọc dữ liệu (Selection)

Trang 18

Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩnnào đó, ví dụ chọn tất cả những người có giới tính là Nữ…

- Bước 3: Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu (Cleansing, Preprocessing and Preparation)

Giai đoạn thứ 3 này gọi là giai đoạn hay bị lãng quên nhưng thực tế nó là mộtbước rất quan trọng trong quá trình KPDL Một số lỗi thường mắc phải trong khi gom

dữ liệu là tính không đủ chắc chẽ, logic Vì vậy, dữ liệu thường chứa các giá trị vônghĩa và không có khả năng kết nối dữ liệu Giai đoạn này sẽ tiền hành xử lý nhữngdạng dữ liệu không chặc chẽ nói trên Những dữ liệu dạng này được xem như thông tin

dư thừa, không có giá trị Bởi vậy, đây là một quá trình rất quan trọng vì dữ liệu nàynếu không được “làm sạch – tiền xử lý – chuẩn bị trước” thì sẽ gây nên những kết quảsai lệch nghiêm trọng

- Bước 4: Chuyển đổi dữ liệu (Transformation)

Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra có thể sử dụng và điềukiển bởi việc tổ chức lại nó, dữ liệu đã được chuyển đổi phù hợp với mục đích khaithác

Hình 1.2: Các bước của quá trình khai phá dữ liệu

- Bước 5: Phát hiện và trích mẫu dữ liệu (Pattern Extraction and Discovery)

Đây là bước mang tính tư duy trong KPDL Ở giai đoạn này nhiều thuật toánkhác nhau được sử dụng để trích ra các mẫu từ dữ liệu Thuật toán thường dùng làphân loại, kết hợp hoặc các mô hình dữ liệu tuần từ…

- Bước 6: Đáng giá kết quả mẫu (Evaluation of Result)

Đây là giai đoạn cuối trong quá trình KPDL Ở giai đoạn này, các mẫu dữ liệuđược chiếc xuất ra bởi phần mềm KPDL Không phải bất cứ mẫu dữ liệu nào cũng đềuhữu ích, đôi khi nó còn bị sai lệch Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giáđược chiết xuất ra các tri thức cần chiết xuất ra

Trong 6 giai đoạn trên, giai đoạn 5 được quan tâm nhiều nhất cũng là giai đoạnquan trọng nhất

Trang 19

1.2.5 Những ứng dụng của khai phá dữ liệu

Khai phá dữ liệu được vận dụng để giải quyết các vấn đề thuộc nhiều lĩnh vựckhác nhau Chẳng hạn như giải quyết các vấn đề phức tạp trong các ngành đòi hỏi kĩthuật cao như: tìm kiếm mỏ dầu, cảnh cáo hỏng hóc trong các hệ thống sản xuất Đượcứng dụng cho việc quy hoạch và phát triển các hệ thống quản lý và sản xuất trong thực

tế như: dự đoán tái sử dụng điện, mức độ tiêu thụ sản phẩm, tăng cường an ninh, chuẩnđoán bệnh trong y khoa… Một số ứng dụng cụ thể như sau:

- Khai phá dữ liệu được sử dụng để phân tích DL, hổ trợ ra quyết định

- Khoa học:

+ Thiên văn học: dự đoán đường đi quỹ đạo các thiên thể, hành tính…

+ Chiêm tinh học: tiên đoán, giải đáp giấc mơ,…

+ Trong sinh học: tìm ra các giống mới, giải mã gen, nó dùng để tìm kiếm, sosánh với các hệ gen và chuẩn đoán một số bệnh di truyền

+ Trong y học: KPDL giúp tìm ra mối liên hệ giữa các triệu chứng lâm sang,chuẩn đoán bệnh…

- Tài chính và thị trường chứng khoán: KPDL để phân tích tình hình tài chính, phântích đầu tư, phân tích cổ phiếu…

- Sản xuất và chế biến: qui trình và phương pháp chế biến và xử lý sự cố…

- Thống kê, phân tích dữ liệu và hổ trợ ra quyết đinh: dựa vào dữ liệu có sẳn, phân tích

dữ liệu để đưa ra những quyết định đúng lúc và có lợi nhất

- Text mining & Web mining: phân lớp văn bản và các trang web, tóm tắt văn bản…

- Trong thông tin kỹ thuật: KPDL dùng để phân tích các sai hỏng, điều kiển và lập lịchtrình làm việc

- Trong thông tin thương mại: dùng để phân tích dữ liệu người dùng, phân tích dữ lieumaketing, phân tích đầu tư, phát hiện các gian lận

- Trong thể thao: Phát hiện sử dụng chất kích thích…

Trang 20

Chương II: Khai phá dữ liệu với thuật toán phân cụm 2.1 Phân cụm dữ liệu

2.1.1 Khái niệm

Phân cụm dữ liệu là một kỹ thuật phát triển mạnh mẽ trong nhiều năm trở lạiđây do các ứng dụng và lợi ích của nó trong các lĩnh vực thực tế Ở một mức cơ bảnnhất người ta định nghĩa phân cụm dữ liệu như sau: “Phân cụm dữ liệu là kỹ thuậttrong khai phá dữ liệu, nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiêntiềm ẩn, quan trọng trong tập dữ liệu lớn, từ đó cung cấp thông tin, tri thức hữu ích choviệc ra quyết định”

Như vậy phân cụm dữ liệu là quá trình chia một tập dữ liệu ban đầu thành cáccụm dữ liệu sao cho các phần tử trong một cụm “tương tự” với nhau và các phần tửtrong các cụm khác nhau sẽ “phi tương tự” với nhau Số các cụm dữ liệu được phânchia ở đây có thể xác định theo kinh nghiệm hoặc có thể tự động xác định

Phân cụm nhìn từ góc độ tự nhiên là một việc hết sức bình thường mà chúng tavẫn làm và thực hiện hằng ngày ví dụ như phân loại học sinh khá giỏi trong lớp, phânloại đất đai, phân loại tài sản, phân loại sách trong thư viện… Để thực hiện phân loạicác đối tượng nào đó, chúng ta bao giờ cũng đặt những câu hỏi: Phân nhóm dựa trênyếu tố nào? Phân thành bao nhiêu nhóm?

2.1.2 Các yêu cầu về thuật toán phân cụm dữ liệu

Do đặc thù của cơ sở dữ liệu là lớn, phức tạp và có dữ liệu nhiễu nên nhữngthuật toán phân cụm được áp dụng phải thỏa mãn những yêu cầu sau:

- Thuật toán phải hiệu quả và thời gian chạy phải là tăng tuyến tính theo kích thướccủa dữ liệu

- Thuật toán phải xử lý và áp dụng được với cơ sở dữ liệu nhiều nhiễu, phức tạp gồm

cả dữ liệu không gian, phi không gian, dữ liệu số, phi số, kiểu nhị phân, dữ liệu địnhdanh, hạng mục, thích nghi với kiểu dữ liệu hỗn hợp

- Thuật toán phải có khả năng xác định được những cụm với hình dáng bất kì bao gồm

cả những cụm có hình dáng lồng nhau, cụm có hình dáng lõm, hình cầu, hình que,…

- Tối thiểu lượng tri thức cần cho xác định các tham số đầu vào Do các giá trị đầu vào

Trang 21

- Thuật toán phải được thực hiện với mọi thứ tự đầu vào dữ liệu Nói cách khác kếtquả thuật toán nên độc lập với dữ liệu đầu vào.

- Thuật toán không đòi hỏi tri thức về cơ sở dữ liệu người dùng

- Thuật toán phải làm việc được với cơ sở dữ liệu chứa nhiều lớp đối tượng dữ liệuphức tạp và có tính chất khác nhau

- Thuật toán phải thích nghi với dữ liệu đa chiều: Thuật toán có khả năng áp dụnghiệu quả cho dữ liệu có số khác chiều nhau

- Thuật toán dễ hiểu, dễ cài đặt và khả thi: Người sử dụng có thể chờ đợi những kếtquả phân cụm dễ hiểu, dễ lý giải và dễ sử dụng Nghĩa là, sự phân cụm có thể cầnđược giải thích ý nghĩa và ứng dụng rõ ràng Việc nghiên cứu cách để một ứng dụngđạt mục tiêu rất quan trọng có thể gây ảnh hưởng tới sự lựa chọn các phương phápphân cụm

2.1.3 Ý nghĩa thực tiễn của phân cụm

- Khám phá ra các vị trí địa lý thuận lợi cho việc xây dựng các kho hàng phục vụ muahàng của một công ty Thương Mại

- Xác định các cụm ảnh như ảnh của các loại động vật như chim, thú,… trong tậpCSDL về ảnh của động vật nhằm phục vụ cho việc tìm kiếm hình ảnh

- Xác định các nhóm người bệnh nhằm cung cấp thông tin cho việc phân phối cácthuốc điều trị trong y tế

- Xác định các nhóm khách hàng trong CSDL ngân hàng có vốn các đầu tư vào bấtđộng sản cao…

=> Như vậy, phâm cụm dữ liệu là một phương pháp xử lý thông tin quan trọng và phổbiến, nó nhằm khai phá mối liên hệ giữa các mẫu dữ liệu bằng cách tổ chức chúngthành các cụm tương tự

2.1.4 Thuật toán K-means trong phân cụm dữ liệu

Phát biểu bài toán:

Thuật toán phân cụm K-means được phát triển bởi J.MacQueen (1967) và sau

đó là J.A.Hatigan và M.A.Wong trong khoảng những năm 1975

Thuật toán K-means dùng để phân loại hay phân nhóm các đối tượng dựa trêncác thuộc tính hoặc đặc điểm riêng thành K nhóm các đối tượng

Trang 22

Việc phân nhóm dựa trên nguyên tắc tiểu hóa tổng bình phương khoảng cáchgiữa dữ liệu và trọng tâm của các nhóm tương ứng Do đó, mục đích của việc phânnhóm K-means chính là phân loại dữ liệu.

Thuật toán K-means:

Phát biểu bài toán:

- Dữ liệu vào:

+ Tập các đối tượng: X = {xi|I = 1, 2, 3, …, N}, xi € Rd

+ Số cụm: K dữ liệu ra

+ Các cụm Ci (I = 1 ÷ K) tách rời và hàm tiêu chuẩn E đạt giá trị tối thiếu

- Thuật toán: Thuật toán hoạt động trên 1 tập vector d chiều, tập dữ liệu X baogồm N phần tử: X = {xi|I = 1, 2, 3, …, N}

- K-means lặp lại nhiều lần quá trình:

Ngày đăng: 25/11/2022, 17:48

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w