1. Trang chủ
  2. » Giáo Dục - Đào Tạo

HỌC PHẦN KHAI PHÁ dữ LIỆU đề tài tìm HIỂU về RAPIDMINER và THUẬT TOÁN KMEANS áp DỤNG TRÊN dữ LIỆU THỰC tế

45 20 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Học phần Khai phá dữ liệu đề tài Tìm hiểu về RapidMiner và Thuật toán KMeans áp dụng trên dữ liệu thực tế
Tác giả Nguyễn Thị Phương Bắc, Nguyễn Tiến Đạt, Đỗ Thị Hương, Nguyễn Thị Thanh Thanh Nhàn, Bùi Thị Phương Thảo
Người hướng dẫn PTS. Nguyễn Thị Phương Bắc
Trường học Trường Đại học Mỏ - Địa Chất
Chuyên ngành Khoa học Máy tính
Thể loại Báo cáo khoa học
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 45
Dung lượng 2,14 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trong tình hình hiện nay, khi thông tin đang trở thành yếu tố quyết địnhtrongkinhdoanhthìvấnđềtìmracácthôngtinhữuíchtrongcáccơsởdữliệukhổnglồngàycàngtrởthànhmụctiêuquantrọngcủacáccôngty.

Trang 1

TRƯỜNG ĐẠI HỌC MỎ - ĐỊA CHẤTKHOA CÔNGNGHỆ THÔNGTIN

HỌCPHẦN : KHAIPHÁDỮ LIỆU ĐỀTÀI:TÌMHIỂUVỀRAPIDMINERVÀTHUẬTTOÁNKME ANS ÁPDỤNGTRÊN DỮLIỆU THỰC TẾ

BÁOCÁOBÀITẬPLỚN GIÁOVIÊNHƯỚNGDẪN:NGUYỄNTHỊPHƯƠNG

Trang 3

3.2.4.PhâncụmvớiRapidMiner 21 3.3 Ứngdụngphâncụmdữliệuvàoquảnlýkháchhàngmuahàng 24

3.3.5.KhaiphádữliệubằngthuậttoánK-mean. 32 3.4 Mộtsốgiảiphápđưa ratrongviệcquảnlýkháchhàngmuahàng 34

Trang 4

Phép lấy hợp của tậphợpPhéplấygiaocủatậphợp

Trang 7

Trong tình hình hiện nay, khi thông tin đang trở thành yếu tố quyết địnhtrongkinhdoanhthìvấnđềtìmracácthôngtinhữuíchtrongcáccơsởdữliệukhổnglồngàycàngtrởthànhmụctiêuquantrọngcủacáccôngty.Khaiphádữliệudầntrởthànhcôngcụ chính để thực thi nhiệm vụ đó, từ cơ sở dữ liệu sẵn có phải tìm ra những thôngtintiềm ẩn một cách nhanh chóng có giá trị Công ty TNHH Máy tính Phong Vũ chuyêncung cấp cácloại mặt hàng điện tử nhằm phục vụ nhu cầu cho khách hàng trên thịtrường, muốn lưu trữ và khaithác những thông tin hữu ích từ CSDL khách hàng đóđểcôngtyhiểuhơnvềkháchhàngnhằmcónhữngchínhsáchchămsóckháchhàng.Từlýdo đó, đề tài: “Sử dụng phần mềmRapidminer nhằm phân loại khách hàng trong quảnlý khách hàng mua hàng tại công ty TNHH Máy Tính Phong Vũ”được chọn triển khaithựchiện

Chuyênđề đã trìnhbày cáckiếnthứccơbảnnhấtcủalýthuyếtkhaiphá dữliệu,lý thuyết về luật kết hợp; thuật toánApriori trong khai phá luật kết hợp và lý thuyết vềphân cụm dữ liệu; Thuật toán K-means trong phân cụm dữ liệu.Chuyên đề lấy thôngtin của khách hàng tại Công ty TNHH Máy tình Phong Vũ để giải quyết bàitoán Sửdụng phần mềm khai phá dữ liệu RipidMiner để tiền xử lý dữ liệu khách hàng vàvậndụngthuậttoánApriori,thuậttoánK-meansnhằmđưaramốiliênhệgiữacácgiátrịdữliệu Qua kết quả thu được từ luật kết

xétchungvềthôngtinthuđược.Từđóđưaramộtsốgiảipháphỗtrợchămsóckháchhàngcủacôngty

Trang 8

Phần I: Mở đầu

1 Lýdochọnđềtài

Ngày nay, khi xã hội ngày càng phát triển thì lượng thông tin càng tăng lên vớitốc độ bùng

nổ Lượng dữ liệu khổng lồ ấy là một nguồn tài nguyên vô giá nếu nhưchúngtabiếtcách pháthiệnvàkhaithác nhữngthôngtinhữuíchcó trongđó.Nhưvậyvấn đề đặt ra với dữ liệu của chúng ta là việc lưu trữ và khai thác chúng Cácphươngpháp khai thác dữ liệu truyền thống ngày càng không đáp ứng được nhu cầu thực tế.Mộtkhuynh hướng kĩ thuật mới hiện nay là kĩ thuật khai phá dữ liệu và khám phá tríthức Công nghệkhai phá dữ liệu ra đời đã cho phép ta khai thác được những tri thứchữu dụng bằng việc trích xuấtnhững thông tin có mối quan hệ và mối tương quan nhấtđịnh từ một kho dữ liệu lớn mà bình thường không thể nhận diện được

từ đó giải quyếtcácbàitoántìmkiếm,phânloại,dựbáocácxuthế,cáchànhvitrongtươnglaivànhữngtính năng thông minh khác.Ngày nay, các công nghệ khai thác dữ liệu được ứng dụngrộngrãitronghầuhết cáclĩnh vực:truyềnthông,y học,phântíchdữliệu…

Đặc biệt trong lĩnh vực kinh doanh, việc ứng dụng công nghệ khai phá dữ liệuvào trong việcquản lý là một trong những yếu tố quan trọng góp phần vào việc thànhcông của công ty Trong quátrình hoạt động kinh doanh, các dữ liệu của công typhátsinhngàycàngnhiều.Đểtậndụngnguồndữliệunàysửdụngcho mụcđíchkinhdoanhcủa công ty đòi hỏi phải phát triểnkhai phá dữ liệu để có thể thống kê, báo cáo, hổ trợra các quyết định hay phân tích số liệu nhằm phân loại, chăm sóckhách hàng… Khaiphá dữ liệu là lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích đồng thời có

ưu thếhơn hẵnso vớicáccôngcụphântíchtruyềnthống

Vớilượngkháchhàngđã,đangvàsẽđếnvớicửahàngPhongVũluôncónhữngchính sách đối với từng loại khách hàngkhác nhau Để có thể phân loại khách hàng vàáp dụng những chính sách phù hợp với loại khác hàng đó, cửa hàng cần sử dụngmộtphầnmềmphântích ,thốngkê,lưu trữ cácloại kháchhàngnày

Từcácphântíchtrên,tôilựachọnđềtài:“SửdụngphầnmềmRapidminernhằmphânloạikhác hhàngtrongquảnlýkháchhàngmuahàngtạiCôngtyTNHHMáyTínhPhong Vũ” nhằm góp phần

hổ trợ cửa hàng quản lý tốt hơn trong khâu quản lý kháchhàng muahàng,có thể gópphầnnhỏtrongquátrình pháttriểncủacửahàng

Trang 9

2 Mụctiêunghiêncứu

- Mục tiêutổngquát:

Xácđịnhnhómkhách hàng(khách hàngtiềmnăng,kháchhàngtruyềnthống…)tới mua hàng tại Công ty TNHHMáy Tính Phong Vũ Hiều được nhu cầu cũng nhưhành vi mua hàng của từng nhóm khách hàng giúp công ty có chiếnlược kinh doanh,nhữngchínhsách vàgiảipháp nângcaohiệuquả chămsóc từngnhómkháchhàng

Đề tàisửdụngcác phươngpháp nghiêncứu:

- Phươngphápnghiêncứulýluận:thuthập,đọchiểu,phântíchdữliệu,thôngtintừcáctài liệu, giáo trình, tạpchí, báo cáo khoa học,…liên quan đến khai phá dữ liệu, các kỹthuật khaiphádữ liệu

- Phương pháp thu thập số liệu: sử dụng số liệu thứ cấp (từ phòng ban của CôngtyTNHHMáytínhThừaThiênHuế)

- Phươngphápphântíchsốliệu:vậndụngluậtkếthợpvàkỹthuậtphâncụmtrongphầnmềmKPDLRapidMiner,trongđóCSDLbaogồmthôngtinkháchhàng,doanhthubánhàng

Trang 10

5 Kếtcấucủađềtài

Ngoàiphầnmở đầuvàphầnkếtluận,nộidungcủakhóaluậnbaogồmcácchươngđượctổchứcnhư sau:

ChươngI:Tổngquanvềkhámphátrithứcvàkhaiphá dữliệuChươngII:Khaiphá dữliệuvớithuậtkếthợpvàphân cụmChươngIII:ỨngdụngphầnmềmkhaiphádữliệuRapidminervàoquản

lýkháchhàngmuahàngởcửahàngđiệnmáyPhongVũ

Trang 11

Phần II: NộiDung I:Tổngquanvềkhámphátrithứcvàkhaiphádữliệu 1.1 Khámphátrithứctrithức

Để có được những thông tin quý báu chúng ta phải tìm ra các mẫu có trongtậpCSDLtrước.Việcđánhgiácác mẫuđượctìmthấycũnglàmộtđiềuthúvịvàtấtyếucótính chất quyết định đến sự sử dụng haykhông sử dụng chúng Đầu ra của một chươngtrình là khám phá những mẫu có ích được gọi là tri thức Tri thức được khám phá cónhữngđặcđiểmchính:

- Kiến thức cao cấp: Ngày càng nhiều câu hỏi mang tính chất định tính cần phải trảlờidựa trên một khối lượng dữ liệu khổng lồ đã có Quá trình để tìm ra những kiến

kếttừcáckinhnghiệmđã có,được thểhiệntrongdữliệu,nhữngkếtquả đócó thể lĩnhhộiđược

- Độ chính xác: Dù cho những mẫu khai phá thật sự có trong CSDL hay không thìviệcđolườnggiátrịcủa chúnglàbắtbuộc phảicó.Chúngtasẽ chỉsửdụngnhữngmẫunàocó độchính xác càng cao thì hiệu quả công việc đạt được càng lớn, những mẫu có độchính xácchưađượcxácđịnhrõrànghoặc khôngcaothì khôngnênsửdụngchúng

- Tính hấp dẫn: Khám phá tri thức được coi là lý thú vì nó có thể vạch ra các xuhướngmột cách hoàn thiện Đó là những điều mới lạ hay những quy trình tiềm năng, hữu íchẩnchứatrongdữ liệutrướcđó

Trang 12

- Tính hiệu quả: thời gian chạy của thuật toán khám phá tri thức trên CSDL lớn cóthểdựtínhvàchấpnhậnđược.

KhámphátrithứctrongCSDLlàmộtquátrìnhcủaviệcxácđịnhgiátrị,cáimớilạ,trithức tiềmẩn vàtrithứccuốicùngcủacác khuônmẫu/mô hìnhtrongdữliệu

- Chỉcó mộtphần nhỏdữliệu(khoảng5%- 10%) làluônđượcphân tích

- Sựgiatăngcủadữliệucảntrởcác phươngphápphân tíchtruyềnthống

- Giátrịdữliệulàquálớnđốivớicáchthứcphântíchcổđiển.Chúngtacóthểkhôngbao giờnhìn thấy chúngmộtcáchtrọn vẹnhoặckhôngthểlưu trữtrongbộ nhớ

- Dự liệu cần tìm kiếm không tồn tại dưới dạng tường minh mà dưới dạng phi cấu trúc,trongcácquyluậttiềmẩn

- Sựpháttriển của mạngmáy tínhđã gia tăng khả năngtruynhập vào dữliệu

- Ngườisửdụngcuối khôngphải lànhàthốngkêđơnthuần,họcầnbiếttri thức CSDLmàhọđanglưutrữ

- Sựcần thiếtphải nhanh chóngraquyếtđịnhvà phảnứnglạinhữngcơhộixuất hiệntrướccácđốithủcủamình

- Cùngvớiviệclớnlêncủa CSDL, khả năngđể đưara quyếtđịnhvà hổtrợphântíchlà khôngthể thựchiện đượcvới truy vấnkhách hàngtruyềnthống

- Rấtnhiềukiểucâutruyvấnmàconngườiquantâmlàrấtkhóthựchiệnhaymiêutảtrongngônngữvấntin

Trang 13

1.1.3 Tiếntrìnhkhaiphátrithức

Mụcđíchcủaquátrìnhkhaiphátrithức:Từnhữngcơsởdữliệungoàicuộcsốngthực tế sau một hoặc một số bước của quátrình sẽ rút ra được những tri thức mới Cácbước trongquátrìnhnày có thể lặpđilặplạinhiều lầnvà được mô tảtheohìnhsau:

Trang 14

(2) Chuẩnbịdữliệuvà thuthậpdữliệu phùhợpvớimục đíchđề ra.

(3) Tiền xửlýdữliệulàthuthậpvà xửlý thô(đơngiản) dữliệu.Gồmcác

(6) Tiếnhànhkhaiphádữliệu:baogồmcáccôngđoạn:chứcnăng,nhiệmvụ,mụcđíchcủaKPDL,dùngphươngphápkhaiphánào?

TùytheobàitoánxácđịnhđượcmàtalựachọncácphươngphápKPDLchophùhợp

(7) Hậu xử lý và đánh giá mô hình: là hiển thị hóa, chuyển đổi, bỏ đi các mẫu dưthừa.Trong bước này có thể tư vấn các chuyên gia để loại bỏ những mô hình dư thừa,khôngphù hợpvớiứngdụng

(8) Triển khai tri thức là sử dụng các tri thức phát hiện được làm sang tỏ các mô tảvàdựđoán

Các quy trình trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể lấytrung bình trêntất cả các lần thực hiện Các kết quả của quá trình phát triển tri thức cóthể được đưa vào ứng dụngtrong các lĩnh vực khác nhau Do các kết quả có thể là cácdự đoán hoặc các mô tả nên chúng có thểđược đưa vào các hệ thống hổ trợ ra quyếtđịnh nhằm tự động hóa quá trình này Tham gia chínhtrong quá trình KPDL là các nhàtưvấnvànhàpháttriểnchuyênnghiệp tronglĩnh vựcKPDL

Trang 15

1.2 Khai phá dữliệu

1.2.1 Kháiniệm

Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối thập kỉ 80(1980).Nóbaohàmmộtloạtcáckĩthuậtnhằmpháthiệnracácthôngtincógiátrịtiềmẩntrongcácdữliệulớn(cáckhodữliệu).Vềbản chất,khaiphádữliệuliênquanđến việc phântích các dữ liệu và sử dụng các kĩ thuật để tìm ra các mẫu hình có tính chính quytrongtập dữ liệu

Ở một mức độ trừu tượng nhất định có thể định nghĩa: Khai phá dữ liệu là mộtquá trìnhtìmkiếm,pháthiện cáctri thức mới,tiềmẩn,hữudụngtrongCSDLlớn

Khaiphátrithứclàmụctiêuchínhcủakhaiphádữliệu,dovậyhaikháiniệmđóđượcxemnhưhailĩnhvựctươngđươngnhau.Nhưngnếu phânchia mộtcác tách bạchthì khai phádữliệu là mộtbướcchính trongquátrìnhkhaiphátri thức

Theo Parsaye: “khai phá dữ liệu là quá trình trợ giúp các quyết định, trong đóchúng ta tìm kiếmcácmẫu thôngtin chưa biếtvàbất ngờtrong CSDL lớn”.

Theo Tiến sĩ Fayyad: “khai phá dữ liệu thường được xem là việc khám phá trithức trong các cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đâychưa biết và có khả năng hữu ích, dưới dạng các quy luật, ràng buộc, quy tắc trong cơsởdữliệu”.

Theo các nhà Thống kê: “khai phá dữ liệu là một quá trình phân tích được thiếtkếthămdòmộtlượngcựclớncácdữliệunhằmpháthiệnracácmẫuthíchhợpvà/hoặccác mối quan

hệ mang tính hệ thống giữa các biến và sau đó sẽ hợp thức hóa các kếtquả tìm được bằng cách áp dụng các mẫu

đã phát hiện được cho tập con mới của dữliệu”.

Trang 16

1.2.2 Cácphươngphápchínhtrongkhaiphádữliệu

Khai phá dữ liệu là lĩnh vực mà con người luôn tìm cách đạt được mục đích sửdụng thông tincủa mình Quá trình KPDL là quá trình phát hiện mẫu, trong đó phươngpháp KPDL để tìm kiếm các mẫu đáng

đâymộtvàiphươngphápnhư:sửdụngcôngcụtruyvấn,xâydựngcâyquyếtđịnh,dựatheokhoảng cách, giá trị trung bình, pháthiện luật kết hợp… Các phương pháp trên có thểđược phỏng theo và được tích hợp vào các hệ thống lai để KPDL theothống kê trongnhiều nămnghiêncứu

Tuy nhiên, với dữ liệu rất lớn trong kho dữ liệu thì các phương pháp này cũngđối diệnvớitháchthứcvềmặthiệu quảvàquymô

-Luậtkếthợp:Phươngphápnàynhằmpháthiệnracácluậtkếthợpgiữacácthànhphầndữ liệu của CSDL Mẫu đầu ra của giải

cóthểlấymộtvídụđơngiảnvềluậtkếthợpnhưsau:sựkếthợpgiữahaithànhphầnAvàB có nghĩa là sự xuất hiện của A trong bảnghi kéo theo sự xuất hiện của B trong cùngbảnghiđó:A=>B

- Khai phá chuỗi theo thời gian: Cũng tương tự như khai phá dữ liệu bằng luật kếthợpnhững có thêm tính thứ tự và tính thời gian Hướng tiếp cận này được ứng dụngnhiềutronglĩnhvựctài chínhvàthị trườngchứng khoánbởivì chúngcótính dựbáo

- Mô hình khái niệm và tổng hợp hóa: Liên quan đến các phương pháp tìm kiếmmộtmôtảchomộttậpcondữliệu.Các kỹthuậttoántắtthườngđượcápdụngcho cácphântíchdữliệutươngtáccótínhthămdòvàtạobáocáotựđộng

Trang 17

- Thay đổidữliệu và trithức cóthểlàmcho cácmẫu đã pháthiệnkhôngcòn phùhợp.

- Dữliệu bị thiếuhoặcbị nhiễu

- Quanhệ giữacác trườngphức tạp

- Bước1: Gomdữliệu(Gathering)

Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu Đây là bướcđược khai tháctrong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ cácnguồn ứngdụngWeb

- Bước2: Tríchlọcdữliệu(Selection)

Trang 18

- Bước4: Chuyển đổidữliệu(Transformation)

Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra có thể sử dụng vàđiềukiểnbởiviệctổchứclạinó,dữliệuđãđượcchuyểnđổiphùhợpvớimụcđíchkhaithác

Hình1.2: Cácbước của quátrìnhkhaiphádữliệu

- Bước5:Pháthiệnvàtríchmẫudữliệu(PatternExtractionandDiscovery)

Đây là bước mang tính tư duy trong KPDL Ở giai đoạn này nhiều thuậttoánkhácnhauđượcsửdụngđểtríchracácmẫutừdữliệu.Thuậttoánthườngdùnglàphânloại,kếthợp

hoặccácmôhìnhdữliệutuần từ…

- Bước6: Đánggiákết quảmẫu(EvaluationofResult)

Đây là giai đoạn cuối trong quá trình KPDL Ở giai đoạn này, các mẫu dữ liệuđược chiếcxuất ra bởi phần mềm KPDL Không phải bất cứ mẫu dữ liệu nào cũng đềuhữu ích, đôi khi nó còn bị sai lệch Vì vậy,cần phải ưu tiên những tiêu chuẩn đánh giáđượcchiếtxuấtracáctrithứccầnchiếtxuấtra

Trong 6 giai đoạn trên, giai đoạn 5 được quan tâm nhiều nhất cũng là giaiđoạnquantrọngnhất

Trang 19

1.2.5 Nhữngứngdụngcủakhaiphádữliệu

Khai phá dữ liệu được vận dụng để giải quyết các vấn đề thuộc nhiều lĩnh vựckhác nhau.Chẳng hạn như giải quyết các vấn đề phức tạp trong các ngành đòi hỏi kĩthuật cao như: tìm kiếm

mỏ dầu, cảnh cáo hỏng hóc trong các hệ thống sản xuất Đượcứng dụng cho việc quy hoạch và phát triển các hệ thống quản

lý và sản xuất trong thựctế như: dự đoán tái sử dụng điện, mức độ tiêu thụ sản phẩm, tăng cường an ninh,chuẩnđoánbệnhtrongykhoa….Mộtsốứngdụngcụthểnhư sau:

- Khaiphá dữliệuđược sửdụngđểphân tíchDL,hổtrợ ra quyếtđịnh

- Sảnxuấtvà chếbiến:quitrìnhvà phươngphápchế biếnvà xửlýsựcố…

- Thống kê, phân tích dữ liệu và hổ trợ ra quyết đinh: dựa vào dữ liệu có sẳn, phân tíchdữliệuđểđưaranhữngquyếtđịnh đúnglúcvàcólợinhất

- Textmining&Webmining:phân lớpvănbản và cáctrangweb,tómtắtvăn bản…

- Trongthôngtinkỹthuật:KPDLdùngđểphân tíchcácsaihỏng,điềukiểnvà lậplịchtrình làmviệc

- Trongthôngtinthươngmại:dùngđể phântíchdữliệungườidùng,phân tíchdữlieumaketing,phântích đầutư,pháthiện cácgianlận

- Trongthểthao:Pháthiệnsửdụngchấtkíchthích…

Trang 20

ChươngII:Khaiphádữliệuvớithuậttoánphâncụm 2.1 Phâncụm dữliệu

Phân cụm nhìn từ góc độ tự nhiên là một việc hết sức bình thường mà chúng tavẫn làm vàthực hiện hằng ngày ví dụ như phân loại học sinh khá giỏi trong lớp, phânloại đất đai, phân loại tàisản, phân loại sách trong thư viện… Để thực hiện phân loạicác đối tượng nào đó, chúng ta bao giờcũng đặt những câu hỏi: Phân nhóm dựa trênyếutốnào?Phânthành baonhiêunhóm?

- Thuật toán phải có khả năng xác định được những cụm với hình dáng bất kì baogồmcả nhữngcụmcóhình dánglồngnhau,cụmcóhình dánglõm,hình cầu,hình que,…

- Tối thiểu lượng tri thức cần cho xác định các tham số đầu vào Do các giá trị đầuvàothường ảnh hưởng rất lớn đến thuật toán phân cụm và rất phức tạp để xác định các giátrị vàothíchhợpvớicácCSDLlớn

Trang 21

- Thuậttoánphảiđượcthựchiệnvớimọithứtựđầuvàodữliệu.Nóicáchkháckếtquảthuậttoánnênđộclậpvớidữ liệu đầuvào.

- Thuậttoánkhôngđòihỏitrithứcvềcơ sởdữliệungườidùng

- Thuậttoánphảilàmviệcđượcvớicơsởdữliệuchứanhiềulớpđốitượngdữliệuphứctạpvàcótínhchấtkhácnhau

- Thuậttoánphảithíchnghivớidữliệuđachiều:Thuậttoáncókhảnăngá p dụnghiệuquảchodữliệucósố khácchiềunhau

- Thuậttoándễhiểu,dễcàiđặtvàkhảthi:Ngườisửdụngcóthểchờđợinhữngkếtquảphâncụmdễ

ứngdụngrõràng Việc nghiêncứucáchđểmộtứngdụngđạtmụctiêurất quantrọngcóthể gâyảnhhưởngtớisựlựachọn cácphươngpháp phâncụm

2.1.3 Ýnghĩathực tiễncủaphâncụm

- Khám pháracácvịtríđịalýthuậnlợichoviệcxâydựngcáckhohàng phụcvụmuahàngcủamộtcôngtyThươngMại

- Xácđịnhcáccụmảnhnhưảnhcủacácloạiđộngvậtnhưchim,thú,…

trongtậpCSDLvềảnhcủađộng vật nhằmphụcvụchoviệctìmkiếmhìnhảnh

- Xácđịnhcácnhómngườibệnhnhằmcungcấpthôngtinchoviệcphânphốicácthuốcđiều trịtrongytế

Trang 22

Việc phân nhóm dựa trên nguyên tắc tiểu hóa tổng bình phương khoảngcáchgiữadữliệuvàtrọngtâmcủacácnhómtươngứng.Dođó,mụcđíchcủaviệcphânnhómK-means chínhlàphânloạidữliệu.

+CáccụmCi( I=1÷K)táchrờivà hàmtiêuchuẩnE đạt giátrị tối thiếu

- Thuật toán: Thuật toán hoạt động trên 1 tập vector d chiều, tập dữ liệu X baogồmNphầntử:X ={xi|I=1,2,3,…,N}

- K-meanslặplại nhiềulần quá trình:

+Gándữliệu

+Cậpnhậtlạivịtrítrọngtâm.Quá trìnhlặpdừnglạikhi trọngtâmhộitụvàmỗi đốitượnglà1

bộphậncủa1cụm

- Các bước củathuậttoán:

Hình2.1: Cácbước của thuậttoánK-mean

Bước1: Khởi tạo: ChọnK trọngtâm{ci}(I=1 ÷K)

Ngày đăng: 08/12/2022, 16:42

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w