Tuy nhiên, khi lượng dữ liệu tăng lên theo cấp số nhân, nhiều phương pháp thống kê và phân tích khác đã được phát triển để xác định mối quan hệ giữa các bi n trong t p d liệế ậ ữ u lớn v
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN NG D NG VÀ TIN H C Ứ Ụ Ọ
BÁO CÁO MÔN H C Ọ
TECHNICAL WRITING AND PRESENTATION
Đề tài: INTRODUCTION TO DATA MINING
Giáo viên hướng dẫn: Ts.Lê Chí Ng c ọNhóm thực hiện : Nhóm 10
Hà Văn Học 20180264 Phạm Đức Anh 20180262 Nguyễn Thị Ngọc Huy n ề 20173533
Hà N i, 06/01/22 ộ
Trang 22
MỤC L C Ụ
Mục tiêu h c t p ọ ậ 4
Phạm vi khai thác d ữ liệu 6
Khám phá và gi m thi u d u ả ể ữ liệ 8
Lấy ẫu m 8
Ví d 1 S dụ ử ụng XLMiner để lấy m u t trang tính ẫ ừ 8
Trực quan hóa d li u 10 ữ ệ Ví d 2 M t Boxplot cho D ụ ộ ữ liệu r i ro tín d ng (Credit Risk Data) ủ ụ 11
Ví d 3 M t biụ ộ ểu đồ ọa độ t song song cho D u r i ro tín dữ liệ ủ ụng 13
Ví d 4 Ma tr n phân tán cho d u r i ro tín dụ ậ ữ liệ ủ ụng 14
Ví d 5 M t biụ ộ ểu đồ biến đổi của Dữ liệu rủi ro tín dụng 14
Dữ u bliệ ẩn 16
Phân tích cluster 16
Ví d D ụ 6 ữ liệu nhóm các trường đạ ọc và cao đẳi h ng trong 20
Phân lo i ạ 25
Một gi i thích trả ực quan v phân lo i ề ạ 26
Ví d 7 Phân lo i các quyụ ạ ết định phê duy t tín d ng mệ ụ ột cách tr c quan ự 26
Ví d 8.T p d u phân vùng trong XLMiner ụ ậ ữ liệ 28
Phân lo i d u mạ ữ liệ ới 31
Ví d 9 Phân lo i d u mụ ạ ữ liệ ới cho các quyết định tín d ng b ng cách s d ng ụ ằ ử ụ điểm tín dụng và năm lịch sử tín dụng 32
Kỹ thuật phân loại 32
Ví d 10 Phân ụ loại các quyết định tín d ng b ng thu t toán k-ụ ằ ậ NN 34
Ví d 11.Phân lo i d u mụ ạ ữ liệ ới bằng k-NN 37
Phân tích phân bi t (Discriminant Analysis ) ệ 38
Ví d 12.Phân lo i các quyụ ạ ết định tín d ng b ng cách s d ng phân tích phân ụ ằ ử ụ biệt 39
Ví d 13.S d ng phân tích phân bi t phân lo i d u m i ụ ử ụ ệ để ạ ữ liệ ớ 43
Trang 3Hồi quy logistic 44
Ví d 14.Phân lo i các quyụ ạ ết định phê duy t tín d ng s d ng h i quy logisticệ ụ ử ụ ồ .46
KỸ THUẬT PHÂN LOẠI TRONG KHAI PHÁ D Ữ LIỆ 52 U Phân lo i là gì? ạ 52
Các vấn đề quan tâm c a phân lo i ủ ạ 55
Phân chia đệ quy này d ng khi mừ ột trong nh ng ữ điều kiện sau là đúng: 58
Phân c m phân cụ ấp: 63
Trang 44
Mục tiêu h c t ọ ập
Sau khi học chương này, chúng ta có thể:
• Xác định khai thác dữ liệu và mộ ốt s cách ti p c n phế ậ ổ biến được sử dụng trong khai thác d ữ liệu
• Giải thích cách phân tích cụm đượ ử ụng đểc s d khám phá và gi m d ả ữ liệu
• Áp dụng các kỹ thuật phân tích c m b ng XLMiner ụ ằ
• Giải thích mục đích của các phương pháp phân loại, cách đo lường hiệu suất phân loại và vi c s d ng d ệ ử ụ ữ liệu đào tạo và xác nhận
• Áp dụng k-Hàng xóm gần nhất, phân tích phân biệt đối xử, và hồi quy logistic đểphân lo i b ng cách s d ng XLMiner ạ ằ ử ụ
• Mô tả khai thác quy t c k t hắ ế ợp và vi c s d ng nó trong phân tích r ệ ử ụ ổ thị trường
• Sử ụng XLMiner để d phát triển các quy t c k t hắ ế ợp
• Sử ụng phân tích tương quan cho nguyên nhân và kế d t quả làm mẫu
Trong m t bài báo trên t p chí Analytics, Talha Omer nh n th y r ng vi c s ộ ạ ậ ấ ằ ệ ửdụng điện thoại di động để thực hi n cu c g i thoệ ộ ọ ại để ạ l i một lượng dữ liệu đáng
kể " Nhà cung cấp điện thoại di động biết mọi ngườ ạn đã gọi b i, bạn đã nói chuyện trong bao lâu , bạn đã gọi lúc m y gi và li u cu c g i c a b n có thành công hay ấ ờ ệ ộ ọ ủ ạkhông hay đã bị ngắt quãng Nó cũng biết bạn đang ở đâu, bạn thực hi n h u hệ ầ ết các cuộc g i tọ ừ đâu, quảng cáo nào b n ạ đang phản h i, bồ ạn đã mua bao nhiêu lần trước
đó, v.v ” Nó cũng biế ạn đang ởt b đâu, bạn thực hiện hầu hết các cuộc gọi từ đâu, bạn đang phản hồi chương trình khuyến mãi nào, bạn đã mua bao nhiêu lần trước đó , v.v Xét đến th c tự ế là đại đa số ọi người ngày nay s d m ử ụng điện thoại di động,
Trang 5một lượng dữ liệu khổng lồ về hành vi của người tiêu dùng luôn có sẵn Tương tự, nhiều cửa hàng hiện nay s d ng th ử ụ ẻ tích điểm cho phép người tiêu dùng t n d ng ậ ụlợi th cế ủa giá ưu đãi chỉ dành cho những người sử dụng th Tuy nhiên, khi h làm ẻ ọnhư vậy, thẻ để lại hậu quả ữd liệu kỹ thuật số về các mô hình mua hàng Làm th ếnào m t doanh nghi p có th khai thác nh ng dộ ệ ể ữ ữ liệu này? N u h có thế ọ ể hiểu rõ hơn về các mẫu và mối quan h n trong d ệ ẩ ữ liệu, họ không ch có th ỉ ể hiểu thói quen mua hàng mà còn có th tùy ch nh qu ng cáo , khuy n mể ỉ ả ế ại, phiếu giảm giá, v.v cho từng khách hàng và g i tin nhử ắn văn bản và ưu đãi qua email được nhắm mục tiêu (chúng tôi ' không nói chuy n spam ệ ở đây, nhưng người dùng đã đăng ký chọn tham gia các tin nhắn như vậy)
Khai thác dữ liệu là một lĩnh vực phân tích kinh doanh đang phát triển nhanh chóng, t p trung vào vi c hiậ ệ ểu rõ hơn các đặc điểm và mô hình gi a các bi n nói ữ ếchung cơ sở d ữ liệu sử d ng nhi u công c ụ ề ụ thống kê và phân tích Nhi u công c mà ề ụchúng ta đã nghiên cứu trong các chương trước, chẳng hạn như trực quan hóa dữ
liệu, tóm tắt d ệu, PivotTables, phân tích tương quan và hồi quy, và các kỹ ữli thuật khác, được sử dụng rộng rãi trong khai thác dữ liệu Tuy nhiên, khi lượng dữ liệu tăng lên theo cấp số nhân, nhiều phương pháp thống kê và phân tích khác đã được phát triển để xác định mối quan hệ giữa các bi n trong t p d liệế ậ ữ u lớn và hi u các ểmẫu ẩn mà chúng có th ể chứa
Trong chương này, chúng tôi giới thiệu một số phương pháp phổ ến hơn và sử bidụng ph n mầ ềm XLMiner để triển khai chúng trong môi trường bảng tính Nhiều thủ t c d ụ ữ liệu yêu c u kiầ ến thức thống kê nâng cao để hiểu lý thuyết cơ bản Do đó, chúng tôi t p trung vào các ng dậ ứ ụng đơn giản và hi u mể ục đích và ứng dụng của các k ỹ thuật hơn là cơ sở lý thuy t c a chúng.ế ủ Ngoài ra, chúng tôi lưu ý rằng chương
Trang 66
này không nh m mằ ục đích đề cập đếntất c cáckhía c nh c a khai thác d ả ạ ủ ữ liệu Nhiều
kỹ thuật khác có sẵn trong XLMinerkhông được mô tả trong chương này
Phạm vi khai thác d u ữ liệ
Khai thác d ữ liệu có th ể được coi là phân tích mô t m t ph n và mô t mả ộ ầ ả ột phần Trong phân tích mô t , các công c khai thác d ả ụ ữ liệu giúp các nhà phân tích xác định các m u trong dẫ ữ liệu Ví d : biụ ểu đồ Excel và PivotTables là nh ng công c hữ ụ ữu ích để mô t các mả ẫu và phân tích t p d ậ ữ liệu; tuy nhiên, chúng yêu c u s can thiầ ự ệp thủ công Các mô hình phân tích và d báo h i quy giúp chúng ta dự ồ ự đoán các mối quan hệ hoặc giá tr ị tương lai của các bi n quan tâm Theo quan sát c a m t s nhà ế ủ ộ ốnghiên cứu, “ranh giới gi a dữ ự đoán và mô tả không rõ ràng (m t s mô hình d ộ ố ựđoán có thể mang tính mô tả, ở mức độ dễ hiểu và ngượ ại).” c l Trong hầu hết các
ứng d ng kinh doanh, mụ ục đích của phân tích mô tả là để giúp các nhà qu n lý d ả ựđoán tương lai hoặc đưa ra các quyết định tốt hơn sẽ ảnh hưởng đến hiệu suất trong tương lai, vì vậy, chúng ta có thể nói chung rằng khai thác dữ liệu chủ yếu là một phương pháp phân tích dự đoán
Một s cách ti p c n ph ố ế ậ ổ biến trong khai thác d ữ liệu bao gồm:
Thăm dò (khám phá) và giảm thiểu dữ liệu: Điều này thường liên quan đến
việc xác định các nhóm trong đó các yếu tố của các nhóm giống nhau về mặt nào
đó Cách tiếp cận này thường được s dử ụng để tìm hiểu sự khác bi t gi a các khách ệ ữhàng và phân khúc h ọ thành các nhóm đồng nhất Ví d : các c a hàng bách hóa cụ ử ủa Macy đã xác định được 4 phong cách s ng c a khách ố ủ hàng: “Katherine”, một người
ăn mặc truyền thống, cổ điển, không chịu nhiều rủi ro và thích chất lượng; “Julie”, tân cổ điển và s c sắ ảo hơn một chút nhưng vẫn cổ điển; “Erin”, một khách hàng đương đại yêu thích s m i m và mua sự ớ ẻ ắm theo thương hiệu; và “Alex”, khách hàng
Trang 7thời trang chỉ muốn nh ng th m i nh t và tuy t v i nh t (hữ ứ ớ ấ ệ ờ ấ ọ cũng có phiên bản dành cho nam) 4 Việc phân khúc như vậ ấ ữy r t h u ích trong các hoạt động thi t k ế ế
và ti p thế ị để nhắm m c tiêu tụ ốt hơn đến vi c cung c p s n ph m Các kệ ấ ả ẩ ỹ thuật này cũng đã được sử dụng để xác định các đặc điểm c a nh ng nhân viên thành công và ủ ữcải thiện các phương thức tuyển dụng và tuy n d ng ể ụ
Phân loại: Phân lo i là quá trình phân tích dạ ữ liệu để dự đoán cách phân loại một phần tử dữ liệu m i M t ví d v phân ớ ộ ụ ề loại là lọc thư rác trong ứng dụng e-mail B ng cách kiằ ểm tra các đặc điểm văn bản c a mủ ột thư (tiêu đề chủ đề, các t ừkhóa, v.v.), thư có được phân loại là rác hay không Các phương pháp phân loại có thể giúp dự đoán liệu một giao dịch thẻ tín d ng có thụ ể gian lận hay không, người xin vay có r i ro cao hay không ho c liủ ặ ệu người tiêu dùng có phản ứng v i mớ ột quảng cáo hay không
Sự liên kết: Liên kết là quá trình phân tích cơ sở ữ liệu để xác đị d nh các liên kết t nhiên gi a các bi n và t o ra các quy t c cho các khuy n ngh mua ho c tiự ữ ế ạ ắ ế ị ặ ếp thị m c tiêu Ví d : Netflix s dụ ụ ử ụng liên kết để hiểu khách hàng thích lo i phim nào ạ
và đưa ra các đề xuất dựa trên dữ liệu Amazon.com cũng đưa ra các đề xuất dựa trên các giao d ch mua trong quá kh Th khách hàng thân tị ứ ẻ hiế ủt c a siêu th thu thị ập
dữ liệu v thói quen mua hàng c a khách hàng và in phi u gi m giá t i thề ủ ế ả ạ ời điểm mua hàng d a trên nh ng gì hiự ữ ện đã mua
Mô hình nhân quả: Mô hình nhân qu là quá trình phát tri n các mô hình phân ả ểtích để mô t mả ối quan hệ giữa các chỉ s thúc đẩy hi u suất kinh doanh — ví dụ: ố ệlợi nhu n, s hài lòng c a khách hàng ho c s hài lòng c a nhân viên Hiậ ự ủ ặ ự ủ ểu được các yếu tố thúc đẩy hiệu su t có th dấ ể ẫn đến các quyết định tốt hơn để cải thi n hiệ ệu suất Ví dụ, nhóm kiểm soát của Johnson Controls, Inc., đã xem xét mối quan hệgiữa s hài lòng và t l gia h n hự ỷ ệ ạ ợp đồng H phát hi n ra rọ ệ ằng 91% các trường hợp gia h n hạ ợp đồng đến từ những khách hàng hài lòng ho c r t hài lòng, và nhặ ấ ững khách hàng không hài lòng có t l b ỷ ệ ỏ trốn cao hơn nhiều Mô hình c a h d ủ ọ ự đoán
Trang 88
rằng s ự gia tăng một điểm phần trăm trong điểm hài lòng tổng th có giá tr 13 triể ị ệu
đô la khi gia hạn hợp đồng dịch vụ hàng năm Kết quả là, họ đã xác định được các quyết định sẽ c i thi n s hài lòng c a khách hàng Phân tích hả ệ ự ủ ồi quy và tương quan
là các công c ụ chính để lập mô hình nguyên nhân và k t qu ế ả
Khám phá và gi m thi u d u ả ể ữ liệ
Một s kố ỹ thuật cơ bản trong khai thác dữ liệu liên quan đến việc khám phá dữ
liệu và "giảm d ệu" - ữli nghĩa là, chia nhỏ các b dộ ữ ệ ớli u l n thành các nhóm ho c ặphân đoạn d ễ quản lý hơn cung c p cái nhìn sâu sấ ắc hơn Chúng tôi đã thấy nhi u k ề ỹthuật trước đó trong cuốn sách này để khám phá d u và gi m d ữ liệ ả ữ liệu Ví d : biụ ểu
đồ, phân bố tần số và biểu đồ, và thống kê tóm tắt cung cấp thông tin cơ b n về các ả
đặc tính của d liệu Đặc biệt, PivotTables r t h u ích trong vi c khám phá dữ ấ ữ ệ ữ liệu
từ các khía c nh khác nhau và ạ giảm d ữ liệu XLMiner cung c p nhi u công cấ ề ụ và kỹ thuật để khám phá d ữ liệu b sung ho c m r ng các khái ni m và công c mà chúng ổ ặ ở ộ ệ ụ
ta đã nghiên cứu trong các chương trước đó là được tìm th y trong nhóm Phân tích ấ
Dữ u c a dliệ ủ ải băng XLMiner, được hiển thị trong Hình 1.1
Lấy m u ẫ
Khi x lý t p d u l n và "dử ậ ữ liệ ớ ữ liệ ớu l n", có th t n kém ho c m t thể ố ặ ấ ời gian để
xử lý t t c d ấ ả ữ liệu Thay vào đó, chúng tôi có thể phải sử dụng một mẫu Chúng tôi
đã giới thiệu quy trình lấy mẫu trong Chương 6 XLMiner có thể lấy mẫu t trang ừtính Excel ho c t Microsoft Truy cặ ừ ập cơ sở ữ liệu d
Ví d 1 S dụ ử ụng XLMiner để lấy mẫu t trang tính ừ
Trang 9Hình 1.1 Ruy băng XLMiner
Hình 1.2 Ph n d ầ ữ liệ u r i ro tín d ng trên t p Excel ủ ụ ệHình 1.2 cho th y m t ph n cấ ộ ầ ủa Bảng tính Dữ liệu cơ sở ệ t p Excel dữ liệu r i ro ủtín dụng M c dù ch c ch n không ph i là "dặ ắ ắ ả ữ liệ ớu l n", nó bao g m 425 b n ghi ồ ả
Từ dữ liệu nhóm phân tích (Data Analysis) trong ruy-băng XLMiner, nhấp vào nút mẫu (Sample) và ch n mọ ẫu (Sample) t trang tính (ừ Worksheet).Đảm b o rả ằng vi d ữliệu là chính xác và bao gồm các tiêu đề
n t t c các bi a s bên trái và di chuy n chúng sangbên
bằng cách s d ng nút ử ụ ≤(nút này thay đổi thành n u t≤ ế ất c các biả ến được chuyển
Trang 10Hình 1.3 D ữ liệ u r i ro tín dủ ụng
Hình 1.4 cho th y h p tho i ấ ộ ạ đã hoàn thành và hình 1.5 hiển thị kết quả
Trự c quan hóa d liệu ữ
Hình 1.4 K t qu l y m u XLMiner ế ả ấ ẫ
Trang 11XLMiner cung c p nhi u biấ ề ểu đồ để trực quan hóa d ữ liệu Chúng tôi đã thấy nhiều trong s này, ch ng hố ẳ ạn như biểu đồ thanh, đường và phân tán và biểu đồ Tuy nhiên, XLMiner cũng có khả năng tạo các ô h p, biộ ểu đồ tọa độ song song, biểu đồ ma trận phân tán,và các biểu đồ biến đổi Chúng được tìm th y t nút Khám phá trong nhóm ấ ừPhân tích d ữ liệu.
Hình 1.5 Boxplot cho các tháng có việc làm theo tình trạng hôn nhân
Ví d M ụ 2 ột Boxplot cho D u r i ro tín d ng (Credit Risk Data) ữ liệ ủ ụ
Chúng tôi s xây d ng mẽ ự ột ô vuông cho số tháng được tuy n d ng cho mể ụ ỗi giá trị tình tr ng hôn nhân t D ạ ừ ữ liệu r i ro tín dủ ụng (Credit Risk Data) Đầu tiên, chọn trình hướng d n biẫ ểu đồ (Chart Wizard) t nút khám phá (Explore) trong nhóm phân ừtích dữ liệu (Data Analysis) trong tab XLMiner Ch n Boxplot,trong h p tho i th ọ ộ ạ ứhai, ch n Tháng (Months Employed s dọ ) ử ụng làm biến để ẽ biểu đồ v trên tr c tung ụ
Trang 1212
Trong h p tho i ti p theo, ch n tình tr ng hôn nhân (Marital Status) làm bi n v ộ ạ ế ọ ạ ế để ẽtrên tr c hoành Nh p vào k t thúc (Finish) ụ ấ ế
Hình 1.5 Boxplot cho các tháng có việc làm theo tình trạng hôn nhân
Kết qu ả được thể hiện trong hình 1.5 Ph m vi h p hi n th ạ ộ ể ị thứ 25 và 75 phần trăm (phạm vi liên ph n phân vầ ị, IQR) , đường li n nét trong h p là trung về ộ ị và đường chấm trong hộp là giá tr trung bình ị
Boxplots (đôi khi được gọi là đồ thị hình h p và râu) hi n th bộ ể ị ằng đồ thị năm thống
kê chính c a t p d ủ ậ ữ liệu — t i thi u, phố ể ần tư thứ nhất, trung v , phị ần tư thứ ba và tối
đa - và rất hữu ích trong việc xác định hình dạng của phân phối và các giá trị ngoại lai trong d ữ liệu
Biểu đồ tọa độ song song (parallel coordinates chart ) bao g m m t t p h p các ồ ộ ậ ợtrục tung, một tr c cho mỗi biụ ến được chọn Đối với m i quan sát, mỗ ột đường thẳng được vẽ nối các trục thẳng đứng Điểm tại đó đường th ng cẳ ắt qua tr c bi u thị giá ụ ểtrị cho biến đó Biểu đồ tọa độ song song t o ra "cạ ấu hình đa biến " và giúp nhà phân tích khám phá d u và rút ra k t luữ liệ ế ận cơ bản
Trang 13Ví d 3 M t biụ ộ ểu đồ ọa độ t song song cho D u r ữ liệ ủi ro tín d ụng
Đầu tiên, ch n tọ rình hướng d n biẫ ểu đồ (Chart Wizard) t nút Khám phá ừ(Explore)trong nhóm phân tích Dữ liệu (Data Analysis) trong tab XLMiner Ch n ọtọa độ Song song (Parallel Coordinates) Trong h p tho i th hai, ch n kiộ ạ ứ ọ ểm tra(Checking), Tiết ki m(Savings) , S tháng làm vi c(Months Employed) và ệ ố ệTuổi(Age) tác làm các biến để bao gồm
Hình 1.6 cho th y k t qu Trong h p thấ ế ả ộ ả xuống nhỏ ở trên cùng, b n có th ạ ểchọn tô màu các đường theo một trong các biến
Hình 1.6 Ex ample of a Parallel Coordinates Plot
Trong trường hợp này chúng tôi đã chọn để tô màu theo r i ro tín d ng Màu ủ ụvàng th ể hiện r i ro tín d ng thủ ụ ấp và màu xanh lam tượng trưng cho mức cao Chúng tôi thấyrằngnhững cá nhâncó s tháng làm vi c thố ệ ấp và độ tuổi thấp hơn có xu hướng
Trang 1414
có r i ro tín d ng cao , th ủ ụ ể hiện qua mật độ của các đường màu xanh lam Giống như với ô h p, b n có th d dàng l c d ộ ạ ể ễ ọ ữ liệu để khám phá các k t h p khác c a các biế ợ ủ ến hoặc t p h p con c a d ậ ợ ủ ữ liệu
Ma tr n biậ ểu đồ phân tán (scatterplot matrix ) kết h p m t s ợ ộ ố biểu đồ phân tán vào m t bộ ảng điều khi n, ể cho phép người dùng trực quan hóa các mối quan hệ theo cặp gi a các biữ ến
Ví d 4 Ma tr n phân tán cho d ụ ậ ữ liệ u r i ro tín dủ ụng
Chọn Trình hướng dẫn Biểu đồ từ nút Khám phá trong nhóm Phân tích Dữ liệu trong tab XLMiner Ch n Ma tr n Scatterplot Trong h p tho i ti p theo, hãy chọ ậ ộ ạ ế ọn các h p cho Tháng Khách hàng, S tháng Làm viộ ố ệc và Độ tuổi và nh p vào Kấ ết thúc Hình 1.7 cho th y k t qu Dấ ế ả ọc theo đường chéo là biểu đồ ủ c a các bi n riêng ế
lẻ Ngoài đường chéo là biểu đồ phân tán c a các c p bi n Ví d : ủ ặ ế ụ biểu đồ ở hàng thứ ba và c t th hai c a hình cho th y biộ ứ ủ ấ ểu đồ phân tán c a các tháng có vi c làm so ủ ệvới Tuổi Lưu ý rằng số tháng được sử dụng nằm trên trục x và tuổi trên trục y Dữ liệu dường như có xu hướng tuyến tính đi lên một chút , cho th y rấ ằng những người lớn tuổi đã làm việc trong một thời gian dài hơn Lưu ý rằng có hai biểu đồ cho mỗi cặp bi n v i các trế ớ ục được l t Ví d : biậ ụ ểu đồ ở hàng th hai và c t th ba giứ ộ ứ ống như biểu đồ chúng ta đã thảo luận, nhưng có độ tuổi trên trục x Như trước đây, b n có ạthể d dàng l c d ễ ọ ữ liệu để ạ t o các ch xem khác nhau ế độ
i cùng, m
Cuố ột biểu đồ biến ch c n v mỉ ầ ẽ ột ma trận biểu đồ cho các biến đã chọn
Ví d 5 M t biụ ộ ểu đồ biến đổ ủ i c a Dữ ệ li u r i ro tín dủ ụng
Trang 15Chọn Trình hướng dẫn Biểu đồ từ nút Khám phá trong nhóm Phân tích Dữ liệu trong tab XLMiner Ch n Bi n Trong h p tho i ti p theo, hãy ch n h p cho các ọ ế ộ ạ ế ọ ộbiến mà bạn muốn đưa vào (chúng tôi đã giữ tất cả chúng) và nh p vào Kấ ết thúc Hình 1.8 cho th y k t qu Công c này d s dấ ế ả ụ ễ ử ụng hơn nhiều so v công c ới ụBiểu đồ ủa Excel , đặ c c biệt là đối với nhiều biến trong tập dữ liệu và bạn có thể dễ dàng l c d ọ ữ liệu để ạo ra các quan điểm khác nhau t
Hình 1.8 Ví d v Ma tr n Scatterplot ụ ề ậ
Hình 1.9 Ví dụ về một lô biến
Trang 1616
Không có gì l khi tìm th y các t p dạ ấ ậ ữ liệu th c b thi u các giá trự ị ế ị hoặ ỗc l i Các tập dữ liệu như vậy được gọi là "bẩn" và cần được "làm sạch" trước khi phân tích chúng M t s cách ti p c n ộ ố ế ậ được s dử ụng để xử lý d ữ liệu b thi u Ví d , chúng tôi ị ế ụ
có th ể đơn giản loại bỏ các b n ghi có ch a d u b thiả ứ ữ liệ ị ếu; ước tính các giá tr hị ợp
lý cho các quan sát b thi u, ch ng hị ế ẳ ạn nhưgiá trị trung bình ho c giá tr trung vặ ị ị, hoặc s d ng quy trình khai thác dử ụ ữ liệu để đối phó v i chúng XLMiner có ớ khảnăng xử lý dữ liệu bị thiếu trong menu Chuyển đổi trong nhóm Phân tích dữ liệu Chúng tôi khuyên b n nên tham khạ ảo Hướng d n s d ng XLMiner t menu Tr ẫ ử ụ ừ ợgiúp đểbiết thêmthông tin Trong bất kỳ trường hợp nào, bạn nên cố gắng hiểuxem
dữ liệu b thiị ếuchỉ làsự kiện ngẫu nhiên hay có lý do h p lý khi n chúng b thi u ợ ế ị ếLoại b d u mỏ ữ liệ ẫumột cách b a bãicó th dừ ể ẫn đến thông tin và k t lu n sai l ch v ế ậ ệ ề
dữ liệu
Các l i dỗ ữ liệu thường có thể được xác định từ các ngoại lệ Một cách tiếp cận điển hình là đánh giá dữ liệu có và không có ngoại lệ và xác định xem liệutác động của chúng s ẽ thay đổi đáng kể các k t lu n và li u có nên dành nhi u n lế ậ ệ ề ỗ ực hơn để
cố g ng hi u và gi i thích chúng hay không ắ ể ả
Phân tích cluster
Phân tích theo cụm, còn được gọi là phân đoạn d ữ liệu, là m t t p h p các k thuộ ậ ợ ỹ ật tìm cách nhóm hoặc phân đoạn m t t p hộ ậ ợp các đối tượng (t c là các quan sát hoứ ặc bản ghi) thành các t p h p con ho c cậ ợ ặ ụm, sao cho các đối tượng trong mỗi cụm có liên quan ch t ch ặ ẽ hơn với nhau hơncác đối tượng được gán cho các c m khác nhau ụ
Trang 17Các đối tượng trong các c m nên th ụ ể hiện mức độ giống nhau cao, trong khi các đối tượng trong các c m khác nhau s không gi ng nhau ụ ẽ ố
Phân tích c m là mụ ột kỹ thuật gi m thi u d ả ể ữ liệu theo nghĩa là nó có thể thực hiện một số lượng lớn các quan sát, chẳng hạn như khảo sát khách hàng ho c b ng câu ặ ảhỏi và gi m thông tin thành các nhóm nhả ỏ hơn, đồng nh t có thấ ể được gi i thích d ả ễdàng hơn Ví dụ: việc phân đoạn khách hàng thành các nhóm nhỏ hơn có thể được
sử dụng để tùy ch nh qu ng cáo ho c khuy n mỉ ả ặ ế ại Trái ngược v i nhi u kớ ề ỹ thuật khai thác dữ liệu khác, phân tích c m ch y u mang tính mô t và chúng tôi không ụ ủ ế ảthể rút ra các suy lu n thống kê về một mẫu b ng cách s d ng nó Ngoài ra, các ậ ằ ử ụcụm được xác định không phải là duy nhất và phụ thuộc vào quy trình cụ thể được
sử d ng, ụ do đó, nó không dẫn đến một câu trả lời ch c ch n mà ch cung c p nhắ ắ ỉ ấ ững cách mới để xem xét d u Tuy nhiên, nó là mữ liệ ột k thuỹ ật được s d ng r ng rãi ử ụ ộ
Có hai phương pháp phân cụm chính - phân c m phân c p và phân c m k-mean ụ ấ ụTrong phân c m phân c p, d ụ ấ ữ liệu không được phân chia thành m t c m c ộ ụ ụ thể trong một bước duy nhất Thay vào đó, một lo t các phân vùng di n ra, có th ạ ễ ể chạy t mừ ột cụm duy nh t ch a t t c ấ ứ ấ ả các đối tượng đến n c m, m i c m ch a mụ ỗ ụ ứ ột đối tượng duy nhất Phân c m phân cụ ấp được chia thành các phương pháp phân cụm tích tụ, phương pháp này ti n hành b ng mế ằ ột loạt các h p nhợ ất của n đối tượng thành các nhóm và các phương pháp phân nhóm chia nhỏ, tách n đối tượng liên ti p thành nhóm tế ốt hơn Hình 1.9 minh h a s khác bi t gi a hai loọ ự ệ ữ ại phương pháp này
Các k thu t t ng hỹ ậ ổ ợp đượ ử ục s d ng ph ổ biến hơn và đây là phương pháp được thực hi n trong XLMiner Phân c m phân c p có thệ ụ ấ ể được bi u di n b ng m t ể ễ ằ ộ sơ
đồ được g i là biọ ểu đồ dendrogram , minh họ ự ợa s h p nhất hoặc s phân chia được ựthực hiện ở mỗi
Trang 1818
Hình 1.9 Phân c m tích h p so vụ ợ ới phân chia
M t quy trình phân c m phân c p tích t t o ra mộ ụ ấ ụ ạ ột loạt các phân vùng d u, ữ liệ
Pn, Pn - 1, …, P P bao g1 n ồm n ụm đối tượng đơn lẻ c , và P bao g m m1 ồ ột nhóm đơn chứa t t c ấ ả n quan sát Ở mỗi giai đoạn c ụ thể, phương thức này k t h p hai cế ợ ụm gần nhau nh t (ấ giống nhau nhất) Ở giai đoạn đầu, điều này chỉ đơn giản là nối hai đối tượng gần nhau nhất l i vạ ới nhau Các phương pháp khác nhau sử dụng những cách khác nhau để xác định khoảng cách (hoặc độ giống nhau) gi a các cữ ụm
Thước đo khoảng cách giữa các vật thể được sử dụng phổ biến nhất là khoảng cách Euclide Đây là phần mở rộng c a cách thủ ức mà trong đó khoảng cách gi a hai ữđiểm trên làn đường ap được tính là cạnh huy n c a m t tam giác vuông (xem Hình ề ủ ộ10.10) Phép đo phương vị Euclide d giữa hai điểm (x 1 , x 2 , , X n) và (y 1 , y , , Y 2 n)
là M t sộ ố phương pháp phân cụm s d ng khoử ụ ảng cách Euclide bình phương (tức
là không có căn bậc hai) vì nó tăng tốc độ tính toán
Trang 19M t trong nhộ ững phương pháp phân cụm phân cấp tích tụ đơn giản nhất là liên kết đơn clustering, còn được gọi là kỹ thuật lân cận gần nhất Đặc điểm xác định của phương pháp là kho ng cách giả ữa các nhóm được định nghĩa là khoảng cách giữa các c p ặ đối tượng ần nhau nh g ất, trong đó chỉ các cặp bao gồm một đối tượng
từ mỗi nhóm được xem xét Trong k t ế đơn, khoảng cách gi a hai c m, và , ữ ụ r s D (r,
s), được xác định là kho ng cách t i thi u gi a b t k ả ố ể ữ ấ ỳ đối tượng nào trong c m r và ụbất kỳ đối tượng nào trong cụm s.Nói cách khác, kho ng cách gi a hai cả ữ ụm được cho b i giá tr c a liên k t ng n nh t gi a các cở ị ủ ế ắ ấ ữ ụm Ở mỗi giai đoạn của phân cụm phân c p, chúng tôi tìm th y hai c m có kho ng cách nhấ ấ ụ ả ỏ nhất gi a chúng và hữ ợp nhất chúng l i v i nhau ạ ớ
Một phương pháp khác về cơ bản đối lập với phân cụm liên kết đơn được gọi là phân c m liên kụ ết hoàn chỉnh Trong phương pháp này, khoảng cách gi a các nhóm ữđược xác định là khoảng cách giữa các cặp vật ở xa nh t, cách m i nhóm m t v ấ ỗ ộ ật
Hình 1.10 Tính kho ng cách Euclide giả ữa hai điể m
Trang 2020
Phương pháp thứ ba là phân cụm liên kết trung bình Ở đây khoảng cách giữa hai cụm được xác định là trung bình c a kho ng cách gi a t t c các củ ả ữ ấ ả ặp đối tượng, trong đó mỗ ặp đượi c c tạo thành từ một đối tượng từ mỗi nhóm Các phương pháp khác là phân c m liên k t nhóm trung bình, s dụ ế ử ụng giá tr trung bình cho m i biị ỗ ến
để tính toán khoảng cách gi a các cụm và phương pháp phân nhóm phân cấp của ữWard, s d ng tiêu chí tử ụ ổng bình phương Các phương pháp khác nhau thường mang lại k t qu khác nhau, vì v y t t nh t b n nên th nghi m và so sánh k t qu ế ả ậ ố ấ ạ ử ệ ế ả
Ví d D ụ 6 ữ liệu nhóm các trường đạ ọc và cao đẳ i h ng trong
Hình 1.11 cho thấy một phần của các trường Cao đẳng và Đại học trong tệp Excel Các đặc điểm của các tổ chức này khác nhau khá rộng rãi Giả sử rằng chúng tôi muốn tập hợp chúng thành các nhóm đồng nhất hơn dựa trên SAT trung bình, tỷ
lệ chấp nhận, chỉ tiêu / học sinh, tỷ lệ học sinh trong 10% học sinh giỏi nhất trường trung học của họ và tỷ lệ tốt nghiệp
Trong XLMiner, chọn Phân cụm phân cấp từ menu Cụm trong nhóm Phân tích
dữ liệu
Hình 1.12 Phân c m phân c p H p thoụ ấ ộ ại, Bước 1
Trang 21Trong hộp thoại hình 1.12, chỉ định phạm vi dữ liệu và di chuyển các biến quan tâm vào danh sách Biến đã Chọn Lưu ý rằng chúng tôi đang nhóm các biến số, vì vậy Trường và Loại không được bao gồm Sau khi nhấp vào Tiếp theo, danh mục Bước 2 xuất hiện (xem Hình 1.13)
Hình 1.13 Hộp thoại phân cụm phân cấp , Bước 2
ô Đánh dấu vào Chuẩn hóa dữ liệu đầu vào của tôi điều này rất quan trọng để , đảm bảo rằng thước đo khoảng cách có trọng số bằng nhau đối với mỗi biến, không
có chuẩn hóa, biến có tỷ lệ lớn nhất sẽ chiếm ưu thế Phân cụm phân cấp sử dụng khoảng cách Euclide làm thước đo độ tương tự cho dữ liệu số Các tùy chọn khác chỉ áp dụng cho dữ liệu nhị phân (0 hoặc 1) Chọn phương pháp lọc mà bạn muốn
sử dụng
Hình 1.14 H p tho i phân c m phân cộ ạ ụ ấp , Bước 3
Trang 2222
TrTrong trường hợp này, chúng tôi chọn Liên kết trung bình nhóm ong hộp thoại cuối cùng (Hình 1.14), chọn số lượng cụm Phương pháp kết tụ ở đây tức là phân cụm liên tục tạo thành các cụm cho đến khi chỉ còn lại một cụm Tùy chọn này cho phép bạn dừng quá trình ở một số cụm Chúng tôi đã chọn bốn cụm
Chúng ta có thể thấy rằng các trường trong cụm 3 có hồ sơ khá giống nhau, trong khi Cal Tech nổi bật hơn hẳn từ những người khác
Đầu ra được lưu trên nhiều trang tính Hình 1.15 tóm tắt các đầu vào như thế nào Bạn có thể sử dụng thanh Điều hướng đầu ra ở đầu trang tính để hiển thị các phần khác nhau của kết quả thay vì cố gắng tự mình điều hướng qua các trang tính
M ột phần của các trường đạ ọc và cao đẳi h ng v ề tệp Excel
Trang 23Hình 1.15 K t qu phân c m phân cế ả ụ ấp : Đầu vào
u ra Clustering Stages trình bày chi ti t l ch s hình thành c m, cho bi t cách
các cụm được hình thành trong mỗi giai đoạn c a thu t toán ủ ậ Ở các giai đoạn khác nhau c a quá trình l c, có sủ ọ ố lượng các c m khác nhau Hình nh dendrogram cho ụ ảphép bạn hình dung điều này Điều này được thể hiện trong Hình 1.16
Hình 1.16 K t qu phân c m: Biế ả ụ ểu đồ hình và Chú gi i c m m t ph n ả ụ ộ ầ
Trang 2424
Trục y đo khoảng cách gi a các lữ ớp Do quy mô c a vủ ấn đề, mỗi quan sát riêng
lẻ không được hiển thị và một số quan sát trong số chúng đã được nhóm lại trong
"các c m con" ID cụ ụm con được li t kê dài theo trệ ục x, v i chú giớ ải bên dưới Ví dụ, trong th t c phân c m, các b n ghi 20 và 25, và các bủ ụ ụ ả ản ghi 14 và 16 đã được hợp nhất, các cụm con này sau đó đã được hợp nhất cùng với nhau Ở trên cùng của sơ
đồ, chúng ta thấy tất cả các cụm được hợp nh t thành m t c m duy nh t N u bấ ộ ụ ấ ế ạn
vẽ một đường thẳng nằm ngang qua đồ thị ở bất k giá tr ỳ ị nào đối với trục y ạn có , bthể xác định số lượng các cụm và s ố lượng quan sát được trong mỗi cụm đó Ví dụ,
vẽ đường th ng ẳ ở giá tr kho ng cách là 3, b n có th ị ả ạ ể thấy r ng chúng ta có b n c m, ằ ố ụchỉ c n theo dõi các c m con ầ ụ ở cuối các nhánh để xác định các quan sát riêng l ẻtrong mỗi nhóm đó
Các cụm được d ự đoán cho thấy vi c ch ệ ỉ định các quan sát cho s ố lượng các cụm
mà chúng tôi đã chỉ định trong hộp thoại đầu vào, trong trường hợp này là bốn
Hình 1.1 Phần k t qu phân c p theo th b c : Các cế ả ấ ứ ậ ụm được d ự đoán
Điều này được thể hiện trong Hình 1.17.Ch ng h n, c m 3 ch gẳ ạ ụ ỉ ồm ba trường là h ồ
sơ 4, 28, 29, và cụm 4 chỉ bao g m mồ ột quan sát, bản ghi 6
Trang 25Phân lo i ạ
Các phương pháp phân loại tìm cách phân loại một kết quả phân loại thành một trong hai hoặc nhiều loại dựa trên các thuộc tính dữ liệu khác nhau Đối với mỗi bản ghi trong cơ sở dữ liệu, chúng tôi có một biến phân loại quan tâm (ví dụ: mua hoặc không mua, rủi ro cao hoặc không rủi ro), dải một số biến dự báo bổ sung (tuổi, thu nhập, giới tính, giáo dục, tài sản, v.v.) Đối với một tập hợp các biến dự báo nhất định, chúng tôi muốn chỉ định giá trị tốt nhất của biến phân loại Chúng tôi sẽ minh họa các kỹ thuật phân loại khác nhau bằng cách sử dụng Cơ sở dữ liệu Excel Quyết định Phê duyệt Tín dụng
Một phần của cơ sở dữ liệu này được thể hiện trong Hình 1.18 Trong cơ sở dữ liệu này, biến số quan tâm là quyết định phê duyệt hoặc từ chối đơn đăng ký tín dụng Các biến còn lại là các biến dự báo Tuy nhiên, vì chúng tôi đang làm việc với dữ liệu số , chúng tôi cần phải mã hóa các trường Chủ nhà và Quyết định bằng số Chúng tôi mã thuộc tính Chủ nhà là "Y" là 1 và "N" là 0,tương tự, chúng tôi mã thuộc tính Quyết định
Hình 1.18 Tệp Excel đượ ửa đổc s i v ới các biến được mã hóa b ng s ằ ố
"Phê duy t" là 1 và "T ệ ừ chối" là 0 Hình 10.19 cho th y m t ph n cấ ộ ầ ủa cơ sở ữ d liệu đã được sửa đổi ( t p Excel Quyệ ết định Phê duy t Tín dệ ụng được Mã hóa)
Trang 2626
Một giải thích tr ực quan v phân lo i ề ạ
Để phát triển sự hiểu biết trực quan về phân loại, chúng tôi chỉ xem xét điểm tín dụng và lịch sử tín dụng nhiều năm làm biến dự báo
Mặc dù điều này dễ thực hiện một cách trực quan đối với chỉ hai biến dự báo, nhưng nó nhiều hơn khó thực hiện khi chúng ta có nhiều biến dự báo hơn Do đó, tinh vi hơn các thủ tục cần thiết như chúng ta sẽ thảo luận
Ví d 7 Phân lo i các quyụ ạ ết định phê duy t tín d ng m t cách tr c quan ệ ụ ộ ự
Hình 1.20 cho th y biấ ểu đồ ề điể v m tín d ng và sụ ố năm lịch s tín d ng trong ử ụ
dữ liệu Quyết định Phê duy t Tín d ng Biệ ụ ểu đồ v ẽ biểu đồ điểm tín d ng cụ ủa những người xin vay trên trục x và các năm lịch s tín d ng trên tr c y Các bong bóng lử ụ ụ ớn
đại di n cho nhệ ững ngườ ộp đơn có đơn đăng ký tín dụng đã bị chối; các bong i n từbóng nh ỏ đại di n cho nhệ ững bong bóng đã được phê duy t V i mệ ớ ột vài trường hợp ngoại l ệ (các điểm ở phía dưới bên phải tương ứng với điểm tín d ng cao ch v i vài ụ ỉ ớnăm lịch sử tín dụng đã bị t ừ chối), dường như có sự tách bi t rõ ràng giệ ữa các điểm Khi điểm tín d ng là lụ ớn hơn 640, các ứng dụng đã được ch p thuấ ận, nhưng hầu hết các ứng dụng có điểm tín d ng t 640 trụ ừ ở xuống đều bị t ừ chối Do đó, chúng tôi có thể đề xuất m t quy t c phân loộ ắ ại đơn giản: ch p thuấ ận đơn đăng ký có điểm tín d ng ụlớn hơn 640
Trang 27Hình 1.20 Biểu đồ Phê duy t Tín d ng Quyệ ụ ết định
Một cách khác để phân loại các nhóm là s d ng cử ụ ả điểm tín d ng và sụ ố năm lịch s tín d ng b ng cách v mử ụ ằ ẽ ột đường thẳng để tách các nhóm m t cách tr c quanộ ự , như thể hiện trong Hình 1.21 Đường thẳng này đi qua các điểm (763, 2) và (595, 18) S d ng mử ụ ột chút đạ ối s , chúng ta có th tính toán ể phương trình của đường thẳng là
Năm = - 0,095 × điểm tín dụng + 74,66
Do đó, chúng tôi có thể đề xuất một quy tắc phân loại khác: bất cứ khi nào năm + 0,095 × điểm tín d ng " 74,66, ụ đơn bị t ừ chối, nếu không, nó được ch p thuấ ận Nơi đây Tuy nhiên, một lần n a, chúng tôi th y m t s phân lo i sai ữ ấ ộ ố ạ
Trang 2828
Hình 1.21 Phê duy ệt Tín d ng Thay th ụ ế Sơ đồ phân lo i ạ
Ví d 8.T p d ụ ậ ữ liệu phân vùng trong XLMiner
Để phân vùng d li u thành các bộ đào tạo và xác nh n trong XLMiner, hãy ữ ệ ậchọn Phân vùng t nhóm Khai thác dừ ữ liệu và sau đó chọn Phân vùng chu n Hẩ ộp thoại Phân vùng Dữ liệu Chu n nhẩ ắc bạn về thông tin cơ bản, Hình 1.22 cho thấy hộp thoại đã hoàn thành Trước tiên, h p tho i cho phép b n chộ ạ ạ ỉ định phạm vi d ữliệu và li u nó có chệ ứa các tiêu đề trong tệp Excel cũng như các biến để đưa vào phân vùng hay không Để chọn một biến cho phân vùng, hãy nhấp vào nó và sau đó nhấp vào nút # (nút này sẽ thay đổi thành nút "n u t t c các biế ấ ả ến đã được chuyển sang ngăn bên phải) B n có th s dạ ể ử ụng phím Ctrl để chọn nhi u bi n s ề ế ố ngẫu nhiên hạt gi ng mố ặc định là 12345, nhưng điều này có thể được thay đổi XLMiner cung cấp ba tùy chọn:
Trang 291 T l ỷ ệ phần trăm tự động: N u b n ch n m c này, 60% t ng s b n ghi trong ế ạ ọ ụ ổ ố ảtập dữ liệu được chỉ định ng u nhiên cho tẫ ập hu n luyấ ện và ph n còn l i cho t p xác ầ ạ ậ
thực Nếu t p d ệu lớn, thì 60% có thể sẽ vượậ ữli t quá gi i h n vớ ạ ề số lư ng b n ghi ợ ảtrong phân vùng hu n luy n Tronấ ệ g trường hợp đó, XLMiner sẽ phân b t lổ ỷ ệ phần trăm tối đa cho tập hu n luy n s ấ ệ ẽ chỉ n m trong gi i hằ ớ ạn Sau đó, nó sẽ chỉ định phần trăm còn lại cho t p h p xác thậ ợ ực
2 Chỉ định t lỷ ệ phần trăm: Bạn có thể chỉ định t lỷ ệ phần trăm phân vùng được yêu cầu Trong trường h p t p d ợ ậ ữ liệu l n, XLMiner s ớ ẽ đề xuất t l ỷ ệ phần trăm tối đa có thể cho t p hu n luyậ ấ ện, để phân vùng hu n luy n n m trong gi i hấ ệ ằ ớ ạn đã chỉ định Sau đó, nó sẽ phân b các b n ghi còn l i cho các b xác nh n và ki m tra theo ổ ả ạ ộ ậ ể
tỷ l 60:40 B n có th ệ ạ ể thay đổi những điều này và ch ỉđịnh t l ỷ ệ phần trăm XLMiner
sẽ thực hi n các thông s k thu t c a b n mi n là các gi i hệ ố ỹ ậ ủ ạ ễ ớ ạn được đáp ứng
3 T lỷ ệ phần trăm bằng nhau: XLMiner sẽ chia đều các bản ghi trong các bộ đào tạo, xác nhận và kiểm tra Nếu tập dữ liệu lớn, nó sẽ gán các bản ghi tối đa có thể cho vi c hu n luy n sao cho sệ ấ ệ ố lượng n m trong gi i hằ ớ ạn đã chỉ định cho phân vùng hu n luyấ ện và chỉ định cùng một t lỷ ệ phần trăm cho các tập xác thực và thử nghiệm Điều này có nghĩa là tất cả các hồ sơ có thể không được cung cấp Vì vậy, trong trường hợp t p d u l n, hãy ch ậ ữ liệ ớ ỉ định t lệ ỷ phần trăm nếu được yêu cầu
Trang 3030
Hình 1.23 cho th y m t ph n k t qu c a ví d v các Quyấ ộ ầ ế ả ủ ụ ề ết định Phê duyệt Tín d ng Bụ ạn có th ể hiển th d ị ữ liệu đào tạo và d u xác th c b ng cách s d ng ữ liệ ự ằ ử ụcác liên k t B ế ộ điều hướng đầu ra ở đầu trang tính
Hình 1.22 H p tho i phân vùng d ộ ạ ữ liệ u
Hình 1.23 Phần đầu ra c a phân vùng d ủ ữ liệ u
XLMiner cung c p hai cách phân vùng tiêu chuấ ẩn:
Trang 31+ Phân vùng do người dùng xác định
Phân lo i d u m i ạ ữ liệ ớ
Mục đích của việc phát triển mô hình phân loại là để có thể phân loại dữ liệu mới Sau khi một sơ đồ phân loại được chọn và mô hình t t nhố ất được phát tri n dể ựa trên d ữ liệu hi n có, chúng tôi s dệ ử ụng các bi n d ế ự báo làm đầu vào cho mô hình để
dự đoán đầu ra
Trang 32có s ố điểm hơn 640 để phê duyệt đơn đăng ký, thì chúng tôi sẽ phân lo i quyạ ết định cho các bản ghi đầu tiên, th ba và th sáu là 1 và ph n còn l i là 0 N u chúng tôi ứ ứ ầ ạ ế
sử d ng quy tụ ắc được phát tri n trong ể
Ví d 10.7, bao g m c ụ ồ ả điểm tín d ng và s ụ ố năm lịch sử tín d ng ụ — nghĩa là,
từ chối đơn đăng ký nếu s ố năm + 0,095 × điểm tín d ng "74,66ụ — thì các quyết định
sẽ như sau:
Chúng tôi s mô t ba cách ti p c n khai thác d ẽ ả ế ậ ữ liệu khác nhau được sử dụng
để phân lo i: ạ
+ k-Hàng xóm g n nh t ầ ấ
+ Phân tích phân bi ệt
Trang 33+ H i quy logistic ồ
Thuật toán k-Nearest Neighbors (k-NN) là một lược đồ phân loại c g ng tìm ố ắcác bản ghi trong cơ sở dữ liệu tương tự như bản ghi mà chúng ta mu n phân lo i ố ạ
Sự giống nhau dựa trên “mức độ ần gũi” của một bản ghi với các yếu tố dự đoán g
số trong các bản ghi khác Trong cơ sở d ữ liệu Quyết định phê duyệt tín d ng, chúng ụtôi có các y u t dế ố ự đoán Chủ ở ữu nhà, Điể s h m tín d ng, L ch s tín d ng, Sụ ị ử ụ ố dư luân chuy n và M c s d ng quay vòng Chúng tôi tìm cách phân lo i quyể ứ ử ụ ạ ết định chấp thuận ho c t ặ ừ chối đơn đăng ký tín dụng
Giả s r ng giá tr c a các y u t dử ằ ị ủ ế ố ự đoán của hai bản ghi X và Y được gắn nhãn 1x1, x2, c, xn2 và 1y1, y2, c, xn2 Chúng tôi đo khoảng cách giữa hai bản ghi bằng kho ng cách Euclide trong công th c (10.1) B i vì các y u t dả ứ ở ế ố ự báo thường
có các thang đo khác nhau, chúng thường được tiêu chuẩn hóa trước khi tính toán khoảng cách
Giả s chúng ta có m t b n ghi X mà chúng ta mu n phân loử ộ ả ố ại Người hàng xóm g n nh t v i bầ ấ ớ ản ghi đó trong tập dữ liệu hu n luyấ ện là người có kho ng cách ảnhỏ nhất với nó Sau đó, quy tắc 1-NN s phân lo i b n ghi X vào cùng lo i v i hàng ẽ ạ ả ạ ớxóm g n nh t c a nó Chúng ta có th m rầ ấ ủ ể ở ộng ý tưởng này thành quy t c k-NN b ng ắ ằcách tìm k lân c n g n nh t trong t p d u hu n luy n cho m i b n ghi mà chúng ậ ầ ấ ậ ữ liệ ấ ệ ỗ ả
ta mu n phân loố ại và sau đó gán phân loại như phân loạ ủa đa sối c k lân c n gậ ần
Trang 3434
nhất Vi c l a chệ ự ọn k hơi tùy tiện N u k quá nh , vi c phân lo i b n ghi r t nhế ỏ ệ ạ ả ấ ạy cảm v i viớ ệc phân lo i bạ ản ghi đơn lẻ mà nó g n nh t K lầ ấ ớn hơn làm giảm sự biến thiên này, nhưng k quá lớn sẽ dẫn đến sự sai l ch trong các quyệ ết định phân lo i Ví ạ
dụ, n u k là sế ố lượng c a toàn b t p dủ ộ ậ ữ liệu hu n luy n, t t c các b n ghi sấ ệ ấ ả ả ẽ được phân lo i theo cùng m t cách Giạ ộ ống như các hằng s làm m n cho d báo làm mố ị ự ịn trung bình di động hoặc theo hàm mũ, cần một số thử nghiệm để tìm giá tr t t nhị ố ất của k nh m gi m thi u tằ ả ể ỷ l phân lo i sai trong d ệ ạ ữ liệu xác th c XLMiner cung cự ấp khả năng chọn giá trị lớn nhất cho k và đánh giá hiệu suất của thuật toán trên tất cả các giá tr cị ủa k cho đến giá tr l n nhị ớ ất được ch ỉđịnh Thông thường, các giá tr cị ủa
k từ 1 đến 20 được s d ng, tùy thuử ụ ộc vào kích thước c a t p dủ ậ ữ liệu và các s l ố ẻthường được sử dụng để tránh ràng buộc trong tính toán phân loại đa số các láng giềng g n nh ầ ất
Ví d .Phân lo i các quy ụ 10 ạ ết định tín dụng b ng thuật toán k-ằ NN
Đầu tiên, hãy phân vùng d ữ liệu trong tệp Excel được Mã hóa Quyết định Phê duyệt Tín d ng thành các t p d ụ ậ ữ liệu đào tạo và xác nhận, như được mô t trong Ví ả
dụ 8 Ti p theo, ch n Phân lo i t nhóm Khai thác dế ọ ạ ừ ữ liệu XLMiner và ch n k-ọNearest Neighbors Trong h p thoộ ại như hình 1.25, hãy đảm b o r ng trang tính ả ằNguồn d ữ liệu kh p v i tên c a trang tính v i phân vùng d ớ ớ ủ ớ ữ liệu, không ph i d ả ữ liệu gốc Di chuy n các biể ến đầu vào (bi n d báo) và biế ự ến đầu ra (biến đang được phân