Mục tiêu tổng thể của quá trình khai thác dữ liệu là trích xuất thông tin từ một bộ dữ liệu và chuyển nó thành một cấu trúc dễ hiểu để sử dụng tiếp.. Khai thác dữ liệu là bước phân tích
Trang 1KHOA CÔNG NGHỆ THÔNG TIN
ĐỒ ÁN MÔN HỌC KHAI PHÁ DỮ LIỆU
Đề tài:
ỨNG DỤNG JMP TRONG KHAI PHÁ DỮ LIỆU SỬ DỤNG
DỊCH VỤ SỬA NHÀ Ở MELBOURNE (ÚC)
Giảng viên hướng dẫn: ThS Nguyễn Thị Trần Lộc
Danh sách nhóm sinh viên thực hiện:
1 Nguyễn Trần Tuyết Nhi– MSSV: 1921006780 - Mã lớp HP: 2111112005903
2 Ngô Thị Kim Oanh – MSSV: 1921006796 - Mã lớp HP: 2111112005903
TP HCM, THÁNG 9 NĂM 2021
Trang 2KHOA CÔNG NGHỆ THÔNG TIN
ĐỒ ÁN MÔN HỌC KHAI PHÁ DỮ LIỆU
Đề tài:
ỨNG DỤNG JMP TRONG KHAI PHÁ DỮ LIỆU SỬ DỤNG
DỊCH VỤ SỬA NHÀ Ở MELBOURNE (ÚC)
Giảng viên hướng dẫn: ThS Nguyễn Thị Trần Lộc
Danh sách nhóm sinh viên thực hiện:
1 Nguyễn Trần Tuyết Nhi– MSSV: 1921006780 - Mã lớp HP: 2111112005903
2 Ngô Thị Kim Oanh – MSSV: 1921006796 - Mã lớp HP: 2111112005903
TP HCM, THÁNG 9 NĂM 2021
Trang 3
- Điểm số:
- Điểm chữ:
Hồ Chí Minh, ngày ……tháng … năm 20…
Giảng viên (Ký và ghi rõ họ tên)
Nguyễn Thị Trần Lộc
Trang 4
- Điểm số:
- Điểm chữ:
Hồ Chí Minh, ngày ……tháng … năm 20…
Giảng viên (Ký và ghi rõ họ tên)
Trang 5TRÍCH YẾU
Khai phá dữ liệu (data mining) là quá trình tính toán để tìm ra các mẫu trong các bộ
dữ liệu lớn liên quan đến các phương pháp tại giao điểm của máy học, thống kê và các hệ thống cơ sở dữ liệu đây là một lĩnh vực liên ngành của khoa học máy tính Mục tiêu tổng thể của quá trình khai thác dữ liệu là trích xuất thông tin từ một bộ dữ liệu và chuyển nó thành một cấu trúc dễ hiểu để sử dụng tiếp Khai thác dữ liệu là bước phân tích của quá trình "khám phá kiến thức trong cơ sở dữ liệu"
Nhằm nghiên cứu nhu cầu các sử dụng các dịch vụ sửa nhà của khách hàng, nhóm chúng em đã tìm bộ dữ liệu thô nhà ở Melbourne (Úc) qua quá trình tiền xử lý dữ liệu
để có được bộ dữ liệu hoàn chỉnh gồm 15 thuộc tính và 2500 khảo sát.
Phân tích, khai phá dữ liệu là điều cần thiết và thực sự quan trọng trong thời đại kỷ nguyên số Điều đó giúp chúng ta đưa ra những quyết định đúng đắn, dự đoán trước những quyết định ở hiện tại và tương lai.
Trang 62.1.2 Vai trò của khai phá dữ liệu trong kinh doanh 2
2.2.2 Kho dữ liệu và khai phá dữ liệu trong BI 6
Trang 72.4.2.1 Giới thiệu giao diện- Cài đặt 152.4.2.2 Cách thức tiến hành các thuật toán 20
Trang 8LỜI CẢM ƠN
Để hoàn thành báo cáo đồ án môn học Phân tích và thiết kế hệ thống thông tin nàychúng em xin tỏ lòng cám ơn sâu sắc đến giảng viên bộ môn _ cô Nguyễn Thị TrầnLộc đã đồng hành cùng chúng em xuyên suốt môn học
Nhờ những kiến thức bổ ích mà cô truyền đạt đã giúp ích rất nhiều trong quá trìnhhoàn thiện báo cáo đồ án môn học Khai phá dữ liệu của nhóm chúng em Với sự giảngdạy tận tụy, truyền đầy cảm hứng, chỉn chu trong từng buổi học của cô đã giúp nhóm
em có thêm nhiều kiến thức bổ ích
Một lần nữa em xin gửi lời cảm ơn chân thành đến cô Nguyễn Thị Trần Lộc đã tạođiều kiện học tập cho chúng em Kính chúc quý thầy cô luôn dồi dào sức khỏe vàthành công trên con đường sự nghiệp cao quý
TP.HCM, Tháng 9 Năm 2021Sinh viên thực hiệnNgô Thị Kim OanhNguyễn Trần Tuyết Nhi
Trang 10DANH MỤC THUẬT NGỮ ANH – VIỆT
4 Knowledge Discovery in
Databases
Khám phá kiến thức trong cơ sở dữliệu
Trang 12DANH MỤC CÁC HÌNH ẢNH
Hình 2 2 Dạng cụm dữ liệu được khám phá bởi k-means 12
Hình 2 9 Hoàn thành quá trình cài đặt chương trình 20
Hình 2 13 Giao diện chọn thuộc tính chạy cây quyết định 23Hình 2 14 Cho thuộc tính vào tạo cây ra quyết định 24Hình 2 15 Kết quả thô khi chạy cây quyết định 25
Hình 2 17 Hộp add các thuộc tính cần khai phá 26
Hình 2 19 Kết quả chạy chưa có biểu đồ gom cụm 28
Hình 2 21 Cách thực hiện phương pháp luật kết hợp 30Hình 2 22 Giao diện chọn thuộc tính chạy luật kết hợp 31
Hình 3 8 Dạng đơn lẻ và dạng kết hợp của vector 35
Trang 13DANH MỤC CÁC BẢNG BIỂU
Trang 14● Thực hiện gom cụm với thuật toán K-means.
● Sử dụng luật kết hợp để biết khách hàng sẽ sử dụng dịch vụ đi kèm nào
● Có cơ hội làm việc với bạn mới, biết cách làm việc nhóm
● Có cơ hội tiếp xúc và học tập trên phần mềm mới
1.2 Phân công công việc
1 Ngô Thị Kim Oanh Tìm hiểu cách cài phần
Trang 154 Tìm hiểu thông tin về phần
mềm JMP
Ngô Thị KimOanh
Bảng 2 Kế hoạch thực hiện đề án
Trang 16CHƯƠNG 1: TỔNG QUAN
1.1. Lý do hình thành đồ án
Để giúp các nhà đầu tư có thêm thông tin để phát triển các dịch vụ sửa chữa nhà vàmua bán xe thì nhóm chúng em dùng JMP khai phá bộ dữ liệu dùng dịch vụ sửa nhà vàmua xe để đưa ra các quyết định cho doanh nghiệp Khai phá dữ liệu đồng thời cũnggiúp doanh nghiệp phát hiện ra những sai sót, hỗ trợ phát triển các dự đoán trongtương lai, tìm thấy những điểm mạnh và yếu để từ đó sửa chữa và phát triển
- Khai thác có hiệu quả với bộ dữ liệu mà nhóm đã tiền xử lý
- Giúp doanh nghiệp đưa ra các quyết định nhanh chóng, cũng như khả năng thấu hiểukhối lượng dữ liệu khổng lồ
- Hỗ trợ phân tích trực tuyến một cách thực tế
1.3. Dự kiến kết quả đạt được
● Biết cách tiền xử lý dữ liệu
● Dùng phần mềm JMP thực hiện các phương pháp khai phá đã học để khai phá
dữ liệu
● Ứng dụng kiến thức đã học tiến hành làm cây ra quyết định, gom cụm, luật kếthợp
Trang 17CHƯƠNG 2: CƠ SỞ LÝ THUYẾT2.1 Giới thiệu về khai phá dữ liệu
2.1.1 Khái niệm
Khai phá dữ liệu như là một quy trình phân tích được thiết kế để thăm dò một lượngcực lớn các dữ liệu nhằm phát hiện ra các mẫu thích hợp hoặc các mối quan hệ mangtính hệ thống giữa các biến và sau đó sẽ hợp thức hoá các kết quả tìm được bằng cách
áp dụng các mẫu đã phát hiện được cho các tập con mới của dữ liệu
Quy trình này bao gồm ba giai đoạn cơ bản: thăm dò, xây dựng mô hình hoặc địnhnghĩa mẫu, hợp thức/kiểm chứng
2.1.2 Vai trò của khai phá dữ liệu trong kinh doanh
Vai trò của khai phá dữ liệu:
● Phân tích và quản lý thị trường
● Phân tích doanh nghiệp và quản lý rủi ro
● Phát hiện gian lận
● Phát hiện xâm nhập bất hợp pháp
Khi các kho dữ liệu lần đầu tiên xuất hiện vào cuối những năm 1980, mục đích củachúng là giúp dữ liệu chuyển từ các hệ thống vận hành sang các hệ thống hỗ trợ quyếtđịnh DSS Những kho dữ liệu ban đầu này đòi hỏi một lượng lớn dự phòng Hầu hếtcác tổ chức có nhiều môi trường DSS phục vụ những người dùng khác nhau Mặc dùcác môi trường DSS sử dụng nhiều dữ liệu giống nhau, việc thu thập, làm sạch và tíchhợp dữ liệu thường được sao chép cho từng môi trường
Khi các kho dữ liệu trở nên hiệu quả hơn, chúng đã phát triển từ các kho thông tin hỗtrợ nền tảng BI truyền thống thành các cơ sở hạ tầng phân tích rộng rãi hỗ trợ nhiềuloại ứng dụng, chẳng hạn như phân tích hoạt động và quản lý hiệu suất Việc lặp lạikho dữ liệu đã tiến triển theo thời gian để mang lại giá trị gia tăng gia tăng cho doanhnghiệp
Trang 18Ngày nay, AI và máy học đang biến đổi hầu hết mọi ngành, dịch vụ và tài sản doanhnghiệp và Data Warehouse cũng không ngoại lệ Việc mở rộng dữ liệu lớn và ứngdụng các công nghệ kỹ thuật số mới đang thúc đẩy sự thay đổi về các yêu cầu và khảnăng của kho dữ liệu.
Các kho dữ liệu độc lập là bước đi mới nhất trong quá trình nâng cấp này, cung cấpcác doanh nghiệp khả năng trích xuất giá trị lớn hơn từ dữ liệu trong khi giảm chi phí
và cải thiện độ tin cậy và hiệu suất kho dữ liệu
2.1.3 Quy trình khai phá dữ liệu
Quy trình khai phá dữ liệu thông thường gồm 10 bước:
Bước 1: Nghiên cứu lĩnh vực
Ta cần nghiên cứu lĩnh vực cần sử dụng Data mining để xác định được những tri thức
ta cần chắt lọc, từ đó định hướng để tránh tốn thời gian cho những tri thức không cầnthiết
Bước 2: Tạo tập tin dữ liệu đầu vào
Ta xây dựng tập tin để lưu trữ các dữ liệu đầu vào để máy tính có thể lưu trữ và xử lý.Bước 3: Tiền xử lý
Ở bước này ta tiến hành bỏ bớt những dữ liệu rườm rà, không cần thiết, tinh chỉnh lạicấu trúc của dữ liệu và mã hóa chúng để tiện cho quá trình xử lý
Bước 4: Rút gọn chiều
Thông thường một tập dữ liệu có chiều khá lớn sẽ sinh ra một lượng dữ liệu khổng lồ,
ví dụ với n chiều ta sẽ có 2^n tổ hợp Do đó, đây là một bước quan trọng giúp giảmđáng kể hao tổn về tài nguyên trong quá trình xử lý tri thức
Bước 5: Chọn tác vụ khai thác dữ liệu
Để đạt được mục đích ta cần, ta cần chọn được tác vụ khai thác dữ liệu sao cho phùhợp Thông thường có các tác vụ sau:
* Đặc trưng (feature)
Trang 19* Phân biệt (discrimination)
Bước 6: Chọn các thuật giải khai thác dữ liệu
Bước 7: Khai thác dữ liệu: Tìm kiếm tri thức
Sau khi tiến hành các bước trên thì đây là bước chính của cả quá trình, ta sẽ tiến hànhkhai thác và tìm kiếm tri thức
Bước 8: Đánh giá mẫu tìm được
Ta cần đánh giá lại xem trong các tri thức tìm được, ta sẽ sử dụng được những tri thứcnào, những tri thức nào dư thừa, không cần thiết
Bước 9: Biểu diễn tri thức
Ta biểu diễn tri thức vừa thu thập được dưới dạng ngôn ngữ tự nhiên và hình thức saocho người dùng có thể hiểu được những tri thức đó
Bước 10: Sử dụng các tri thức vừa khám phá
Ta có thể tham khảo tiến trình KDD (Knowledge Discovery in Databases) để hiểu rõhơn về Khai thác dữ liệu:
2.2 Kho dữ liệu
2.2.1 Kiến trúc luồng dữ liệu
Đơn giản nhất: gồm một kho dữ liệu đầu cuối
Trang 20Rất phức tạp: gồm nhiều kho dữ liệu trung gian, được sử dụng trong những hệ thốnglớn
Tuy nhiên, hầu hết các kiến trúc được sử dụng phổ biến gồm 3 kiến trúc sau:
là một kho dữ liệu trung tâm, là
kiến trúc đơn giản nhất của kho
- Không hỗ trợ việc tạo ra
nhiều kho dữ liệu phục vụ cho
nhiều mục đích khác nhau dựa
trên dữ liệu sẵn có
- Kiến trúc đơn giản, ít công
đoạn xử lý, thuận lợi khi xây
dựng những kho dữ liệu nhỏ
- Kiến trúc khá phổbiến, tương tự vớikiến trúc DDS đơn,nhưng có thêm mộtvùng chứa dữ liệutrung gian là vùngchứa dữ liệu chuẩnhoá NDS
- Là kiến trúc baogồm vùng xử lý, vùng
dữ liệu chuẩn hoá, vàkho dữ liệu đầu cuối
- Dữ liệu có thể tái sửdụng
- Thời gian thực hiệnmột chu kì nạp dữ liệulâu hơn so với kiếntrúc DDS đơn - Kiếntrúc phức tạp, tốnthêm không gian lưu
- Tương tự như kiếntrúc NDS+DDS vùng
dữ liệu hoạt động nàycũng là một cơ sởdạng chuẩn hoá cao
- Nó không lưu dữliệu lịch sử
- Vùng dữ liệu hoạtđộng có cấu trúcnghiêng về dạng cơ sở
dữ liệu phục vụ giaotác(OLTP) nhiều hơn.-Đóng vai trò như làmột csdl tập trung mà
ở đó, ứng dụng đầucuối cho phép khaithác trên nó
- Không thể tái sử
Trang 21trữ, vùng chứa dữ liệutrung gian khôngđược tận dụng vàomục đích khác.
dụng dữ liệu
- Tận dụng làm cơ sở
dữ liệu tập trung phục
vụ giao tác cho ứngdụng đầu cuối
- Các gói ETL để đưa
dữ liệu từ vùng dữliệu hoạt động vàokho dữ liệu đầu cuốiphức tạp hơn Vùng
dữ liệu hoạt động cóthể bị gián đoạn khinạp kho dữ liệu
2.2.2 Kho dữ liệu và khai phá dữ liệu trong BI
Có 3 loại kho dữ liệu:
-Xử lý thông tin: hỗ trợ truy vấn, phân tích thống kê cơ bản và báo cáo sử dụngcrosstab, bảng, biểu đồ hoặc đồ thị
- Xử lý phân tích: hoạt động trên dữ liệu lịch sử, phân tích số liệu dữ liệu kho dữ liệutheo chiều sâu
- Khai thác dữ liệu: hỗ trợ khám phá kiến thức bằng cách tìm kiếm các mẫu ẩn và cáchiệp hội, xây dựng các mô hình phân tích, thực hiện phân loại và dự đoán, trình bàycác kết quả khai thác bằng các công cụ trực quan
2.3 Các phương pháp trong khai phá dữ liệu
Trang 222.3.1 Phương pháp phân lớp
Phân lớp là một hình thức học được giám sát tức là: tập dữ liệu huấn luyện (quan sát,thẩm định) đi đôi với những nhãn chỉ định lớp quan sát , những dữ liệu mới được phânlớp dựa trên tập huấn luyện
Kỹ thuật phân lớp được tiến hành bao gồm 2 bước: Xây dựng mô hình và sử dụng môhình
Xây dựng mô hình: là mô tả một tập những lớp được định nghĩa trước trong đó : mỗi
bộ hoặc mẫu được gán thuộc về một lớp được định nghĩa trước như là được xác địnhbởi thuộc tính nhãn lớp , tập hợp của những bộ được sử dụng trong việc sử dụng môhình được gọi là tập huấn luyện Mô hình được biểu diễn là những luật phân lớp, câyquyết định và những công thức toán học
Sử dụng mô hình : Việc sử dụng mô hình phục vụ cho mục đích phân lớp dữ liệu trongtương lai hoặc phân lớp cho những đối tượng chưa biết đến Trước khi sử dụng môhình người ta thường phải đánh giá tính chính xác của mô hình trong đó : nhãn đượcbiết của mẫu kiểm tra được so sánh với kết quả phân lớp của mô hình , độ chính xác làphần trăm của tập hợp mẫu kiểm tra mà phân loại đúng bởi mô hình , tập kiểm tra làđộc lập với tập huấn luyện
● Phân lớp với cây quyết định
Cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từcác quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sựvật/hiện tượng
o Mỗi một nút trong (internal node) tương ứng với một biến
o Đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó
o Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trịcủa các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó Một câyquyết định có thể được học bằng cách chia tập hợp nguồn thành các tập con dựatheo một kiểm tra giá trị thuộc tính
Trang 23o Quá trình này được lặp lại một cách đệ quy cho mỗi tập con dẫn xuất.
o Quá trình đệ quy hoàn thành khi không thể tiếp tục thực hiện việc chia táchđược nữa, hay khi một phân loại đơn có thể áp dụng cho từng phần tử của tậpcon dẫn xuất
o Một bộ phân loại rừng ngẫu nhiên (random forest) sử dụng một số cây quyếtđịnh để có thể cải thiện tỉ lệ phân loại
o Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được dùng đểphân lớp các đối tượng dựa vào dãy các luật (series of rules)
o Các thuộc tính của đối tượng (ngoại trừ thuộc tính phân lớp – Categoryattribute) có thể thuộc các kiểu dữ liệu khác nhau (Binary, Nominal, ordinal,quantitative values) trong khi đó thuộc tính phân lớp phải có kiểu dữ liệu làBinary hoặc Ordinal
o Tóm lại, cho dữ liệu về các đối tượng gồm các thuộc tính cùng với lớp (classes)của nó, cây quyết định sẽ sinh ra các luật để dự đoán lớp của các đối tượngchưa biết (unseen data)
▪ Đặc điểm của cây quyết định: là một cây có cấu trúc, trong đó:
▪ Root (Gốc): Là nút trên cùng của cây
▪ Node nội (trong): nút trung gian trên một thuộc tính đơn (hình Oval)
▪ Nhánh: Biểu diễn các kết quả của kiểm tra trên nút
▪ Node lá: Biểu diễn lớp hay sự phân phối lớp (hình vuông hoặc chữ nhật)
o Đặc điểm của cây quyết định:
Trang 24Hình 2 1 Đặc điểm cây quyết định
o Phân loại cây quyết định:
● Cây hồi quy (Regression tree) ước lượng các hàm giá có giá trị là số thựcthay vì được sử dụng cho các nhiệm vụ phân loại (ví dụ: ước tính giá mộtngôi nhà hoặc khoảng thời gian một bệnh nhân nằm viện)
● Cây phân loại (Classification tree), nếu y là một biến phân loại như: giớitính (nam hay nữ), kết quả của một trận đấu (thắng hay thua)
2.3.2 Phương pháp gom cụm
Phân tích cụm là quá trình phân vùng một tập hợp các đối tượng dữ liệu thành các tậpcon Mỗi tập hợp con là 1 cụm, sao cho các đối tượng trong một cụm tương tự vớinhau, nhưng không giống với các đối tượng trong các cụm khác Tập hợp các cụm kếtquả từ phân tích cụm có thể được gọi là kết hợp Trong trường hợp này, các phươngpháp phân cụm khác nhau có thể tạo ra các nhóm khác nhau trên cùng một tập dữ liệu
Là một chức năng khai thác dữ liệu, phân tích cụm có thể được sử dụng như một công
cụ độc lập để quan sát việc phân phối dữ liệu, quan sát các đặc điểm của từng cụm vàtập trung vào một nhóm cụ thể để phân tích thêm Ngoài ra, nó có thể phục vụ như một
Trang 25bước tiền xử lý cho các thuật toán khác, chẳng hạn như mô tả đặc tính, chọn tập conthuộc tính và phân loại, sau đó sẽ hoạt động trên các cụm được phát hiện và các thuộctính hoặc tính năng đã chọn Bởi vì một cụm là tập hợp các đối tượng dữ liệu tương tựvới một một cụm khác và không giống với các đối tượng trong các cụm khác, một cụmđối tượng dữ liệu có thể được thiết kế lại như một lớp ngầm định.
● Các yêu cầu tiêu biểu về việc gom cụm dữ liệu
o Khả năng co giãn về tập dữ liệu (scalability)
o Khả năng xử lý nhiều kiểu thuộc tính khác nhau (different types ofattributes)
o Khả năng khám phá các cụm với hình dạng tùy ý (clusters with arbitraryshape)
o Tối thiểu hóa yêu cầu về tri thức miền trong việc xác định các thông sốnhập (domain knowledge for input parameters)
o Khả năng xử lý dữ liệu có nhiễu (noisy data)
o Khả năng gom cụm tăng dần và độc lập với thứ tự của dữ liệu nhập(incremental clustering and insensitivity to the order of input records)
o Khả năng xử lý dữ liệu đa chiều (high dimensionality)
o Khả năng gom cụm dựa trên ràng buộc (constraintbased clustering)
o Khả diễn và khả dụng (interpretability and usability)
● Phân loại các phương pháp gom cụm dữ liệu cơ bản:
o Phân hoạch (partitioning): các phân hoạch được tạo ra và đánh giá theomột tiêu chí nào đó
o Phân cấp (hierarchical): phân rã tập dữ liệu/đối tượng có thứ tự phân cấptheo một tiêu chí nào đó
Trang 26o Dựa trên mật độ (density-based): dựa trên connectivity and densityfunctions.
o Dựa trên lưới (grid-based): dựa trên a multiple-level granularitystructure
o Dựa trên mô hình (model-based): một mô hình giả thuyết được đưa racho mỗi cụm; sau đó hiệu chỉnh các thông số để mô hình phù hợp vớicụm dữ liệu/đối tượng nhất
● Các phương pháp đánh giá gom cụm dữ liệu
✔ Đánh giá ngoại (external validation)
▪ Đánh giá kết quả gom cụm dựa vào cấu trúc được chỉ định trước chotập dữ liệu
▪ Độ đo: Rand statistic, Jaccard coefficient, Folkes and Mallows index,
…
✔ Đánh giá nội (internal validation)
▪ Đánh giá kết quả gom cụm theo số lượng các vector của chính tập dữliệu (ma trận gần – proximity matrix)
▪ Độ đo: Hubert’s Γ statistic, Silhouette index, Dunn’s, index, …
✔ Đánh giá tương đối (relative validation)
▪ Đánh giá kết quả gom cụm bằng việc so sánh các kết quả gom cụmkhác ứng với các bộ trị thông số khác nhau
🡺Tiêu chí cho việc đánh giá và chọn kết quả gom cụm tối ưu
- Độ nén (compactness): các đối tượng trong cụm nên gần nhau
- Độ phân tách (separation): các cụm nên xa nhau
● Thuật toán k-means:
Trang 27o phụ thuộc nhiều vào các tham số đầu vào như: số cụm k và k trọng tâmkhởi tạo ban đầu Trong trường hợp, các trọng tâm khởi tạo ban đầu màquá lệch so với các trọng tâm cụm tự nhiên thì kết quả phân cụm của k-means là rất thấp, cụm dữ liệu được khám phá rất lệch so với các cụmtrong thực tế
o Tư tưởng chính của thuật toán K-Means là tìm cách phân nhóm các đốitượng (objects) đã cho vào K cụm (K là số các cụm được xác định trước,
K nguyên dương) sao cho tổng bình phương khoảng cách giữa các đốitượng đến tâm nhóm (centroid ) là nhỏ nhất
=>thuật toán K-Means chỉ đảm bảo được quá trình này sẽ đưa hàm tổng khoảng cáchhội tụ tới điểm cực tiểu địa phương, chứ KHÔNG chắc chắn đó là giá trị nhỏ nhất củatoàn bộ hàm số
Hình 2 2 Dạng cụm dữ liệu được khám phá bởi k-means
- Ưu điểm của thuật toán K-Means
▪ Độ phức tạp: O( ) với l: số lần lặp
▪ Có khả năng mở rộng, có thể dễ dàng sửa đổi với những dữ liệu mới
▪ Bảo đảm hội tụ sau 1 số bước lặp hữu hạn
Trang 28▪ Luôn có K cụm dữ liệu
▪ Luôn có ít nhất 1 điểm dữ liệu trong 1 cụm dữ liệu
▪ Các cụm không phân cấp và không bị chồng chéo dữ liệu lên nhau
▪ Mọi thành viên của 1 cụm là gần với chính cụm đó hơn bất cứ 1 cụm nào khác
- Nhược điểm của thuật toán K-Means
▪ Không có khả năng tìm ra các cụm không lồi hoặc các cụm có hình dạng phứctạp
▪ Khó khăn trong việc xác định các trọng tâm cụm ban đầu – Chọn ngẫu nhiêncác trung tâm cụm lúc khởi tạo – Độ hội tụ của thuật toán phụ thuộc vào việckhởi tạo các vector trung tâm cụm
▪ Khó để chọn ra được số lượng cụm tối ưu ngay từ đầu, mà phải qua nhiều lầnthử để tìm ra được số lượng cụm tối ưu
▪ Rất nhạy cảm với nhiễu và các phần tử ngoại lai trong dữ liệu
▪ Không phải lúc nào mỗi đối tượng cũng chỉ thuộc về 1 cụm,chỉ phù hợp vớiđường biên giữa các cụm rõ
2.3.3 Phương pháp luật kết hợp
Các phần tử cùng xuất hiện với nhau trong một hay nhiều giao dịch thể hiện mối liên
hệ giữa các phần tử/ các tập phần tử
VD:
{bánh mì, bơ, mứt dâu} -> {sữa tươi} (phổ biến:3%, tin cậy:80%)
{tuổi >45, gia đình có lịch sử tiểu đường, huyết áp cao} -> {mắc bệnh tiểu đường}(phổ biến:1.5%, tin cậy: 76%)
2.4 Giới thiệu về phần mềm sử dụng (JMP pro)
Trang 29▪ JMP là một bộ chương trình máy tính để phân tích thống kê được phát triển bởiđơn vị kinh doanh JMP của Viện SAS Nó được ra mắt vào năm 1989 để tậndụng lợi thế của giao diện người dùng đồ họa được giới thiệu bởi hệ điều hànhMacintosh Kể từ đó, nó đã được viết lại đáng kể và cũng có sẵn cho hệ điềuhành Windows, MAC.
▪ JMP được phát triển vào giữa đến cuối những năm 1980 bởi John Sall và mộtnhóm các nhà phát triển để sử dụng giao diện người dùng đồ họa được giớithiệu bởi Apple Macintosh
▪ Đồ họa tương tác và các tính năng khác đã được thêm vào năm 1991 với phiênbản 2.0 Phiên bản 2 có kích thước gấp đôi so với phiên bản gốc, mặc dù nó vẫnđược phân phối trên đĩa mềm Nó yêu cầu bộ nhớ 2MB và đi kèm với 700 trangtài liệu
▪ Hiện tại jmp có 16 phiên bản, phiên bản mới nhất được ra mắt 3/2021
▪ JMP bao gồm JMP, JMP Pro, JMP Clinical và JMP Genomics, và JMP Live.Trước đây nó bao gồm Ứng dụng iPad Trình tạo đồ thị JMP Clinical và JMPGenomics kết hợp JMP với phần mềm SAS
▪ Phần mềm JMP tập trung một phần vào phân tích và trực quan hóa dữ liệu khaiphá Nó được thiết kế để người dùng phân tích dữ liệu để tìm hiểu điều gì đóbất ngờ, trái ngược với việc xác nhận một giả thuyết JMP liên kết dữ liệu thống
kê với đồ họa đại diện cho chúng, vì vậy người dùng có thể đi sâu hoặc chi tiết
để khai phá dữ liệu và các hình ảnh đại diện khác nhau của nó Các ứng dụngchính của nó là cho các thí nghiệm được thiết kế và phân tích dữ liệu thống kê
từ các quy trình công nghiệp JMP có thể được sử dụng cùng với ngôn ngữ lậptrình mã nguồn mở R và Python để truy cập các tính năng không có sẵn trongchính JMP
▪ Các chức năng:
+Phân tích và quản lý dữ liệu