Một thách thức nữa đối với bài tốn phân lớp dữ liệu giáo dục là, các tập dữ liệugiáo dục thường là loại tập dữ liệu khơng cân đối, bởi vì số sinh viên kém thường ít hơnnhiều so với số si
Trang 1TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN
- -ĐỀ CƯƠNG NGHIÊN CỨU KHOA HỌC
GIẢI BÀI TOÁN PHÂN LỚP KHÔNG CÂN ĐỐI TRÊN DỮ LIỆU ĐIỂM CỦA SINH VIÊN CNTT
Trang 2TĨM TẮT
Một trong những bài tốn khai phá dữ liệu hữu ích nhất trong lĩnh vực giáo dục làbài tốn phân lớp (classification) áp dụng trên dữ liệu giáo dục để dự đốn kết quả cuốicùng của sinh viên và giúp cải thiện kết quả của họ Yêu cầu đối với một giải thuật phânlớp tốt là mơ hình phân lớp thu được phải cĩ độ chính xác dự đốn cao, cĩ tính dễ hiểuđối với người dùng khơng chuyên về khai phá dữ liệu
Một thách thức nữa đối với bài tốn phân lớp dữ liệu giáo dục là, các tập dữ liệugiáo dục thường là loại tập dữ liệu khơng cân đối, bởi vì số sinh viên kém thường ít hơnnhiều so với số sinh viên khá giỏi Nhiều giải thuật phân lớp cổ điển thu được kết quảkhơng tốt đối với các tập dữ liệu khơng cân đối, bởi vì chúng cĩ khuynh hướng khơngchú ý đến các lớp thiểu số, chỉ chú ý đến các lớp đa số Hậu quả là mơ hình phân lớp thuđược sẽ khơng phân loại đúng đắn những trường hợp dữ liệu tương ứng với các lớp cĩ ítđại diện
Trong số các giải thuật thường dùng cho bài tốn phân lớp, giải thuật NeuralNetwork cĩ độ chính xác cao nhưng mơ hình khĩ hiểu đối với người dùng và thời gianchạy thường lớn; giải thuật C4.5 cĩ độ chính xác khá cao, chạy nhanh và dễ hiểu đối vớingười dùng, nhưng nếu tập dữ liệu cĩ nhiều thuộc tính thì cây quyết định thu được cũng
sẽ khĩ hiểu; giải thuật Nạve Bayes vừa cĩ độ chính xác khơng cao vừa khĩ hiểu Khi áp
dụng kết hợp các biện pháp tiền xử lý lấy mẫu dư (oversampling) đối với lớp thiểu số và
lấy mẫu thiếu (undersampling) đối với lớp đa số, kết quả phân lớp sẽ tốt hơn, nhưng việc
tiền xử lý này địi hỏi phải cĩ kiến thức sâu, khơng phù hợp với người dùng khơngchuyên
Đề tài này đề xuất một cách tiếp cận phân lớp dữ liệu giáo dục khơng cân đối dựatrên quy hoạch di truyền (GP), cho ra mơ hình phân lớp là một tập luật dưới dạng cây rấtđơn giản và dễ hiểu, cĩ độ chính xác khá cao và thời gian chạy chấp nhận được
Trang 3One of the most useful data mining tasks in education is the problem of classification oneducational data to predict final results of students and help them to improve their results.The requirement for a good classification algorithm is that the discovered classificationmodel must have a great prediction accuracy and it must be comprehensive to users whoare not specialists in data mining
Another challenge to the classification problem in education is that educational data setsusually are imbalanced ones, since the number of failed students is usually less than that
of good/excellent students Many traditional classification algorithms obtained badresults on imbalance datasets, because they are more likely do not pay attention tominority classes and favour majority ones instead Consequently, resulting classificationmodels discovered will not appropriately classify new data instances corresponding to theclasses having few representations
Among the mostly used algorithms for the classification task, Neural Networks have highclassification accuracy but cannot produce easy to understand classification models forusers and its running time is usually very long; C4.5 can provide decision trees which beeasy to interpret, yet their interpretability may diminish the more they become complex;Nạve Bayes networks are both low accuracy and difficult to understand When wecombine oversampling the rare classes and undersampling the majority ones,classification performance will be better, but this preprocessing technique requiresthorough knowledge, not suitable to non-professional users
This project proposes a classification approach to imbalance educational data based on genetic programming (GP) whose resulting classification models are sets of classificationrules in the form of trees which are very simple and easy to understand, with pretty high accuracy and acceptable running time
Trang 4Mở đầu
A Tính cấp thiết của đề tài
Trong những năm gần đây, sự phát triển mạnh mẽ của công nghệ thông tin cũngnhư phần cứng máy tính đã làm cho khả năng thu thập và lưu trữ thông tin của các hệthống thông tin tăng nhanh đáng kể Bên cạnh đó, việc ứng dụng công nghệ thông tin vàomọi lĩnh vực sản xuất, kinh doanh, quản lý, … đã tạo ra một lượng dữ liệu lưu trữ khổng
lồ Bên cạnh việc tổ chức lưu trữ và quản lý dữ liệu, nảy sinh nhu cầu cấp thiết là cần cónhững kỹ thuật và công cụ mới để chuyển đổi lượng dữ liệu khổng lồ trên thành các tri
thức có ích Nhu cầu này đã dẫn đến một khuynh hướng kỹ thuật mới là Khai phá dữ liệu (Data Mining), đôi khi còn được gọi là Khám phá Tri thức trong các Cơ sở dữ liệu
(Knowledge Discovery in Databases – KDD), với nhiều phương pháp, giải thuật và mức
độ hiệu quả khác nhau Khai phá dữ liệu (KPDL) là lĩnh vực khám phá những thông tinhữu ích và tiềm tàng từ những lượng dữ liệu lớn
KPDL đã được ứng dụng trong rất nhiều lĩnh vực, bao gồm cả những lĩnh vực như
bán lẻ (retail sales), sinh tin học (bioinformatics), và chống khủng bố (counter-terrorism).
Trong những năm gần đây, ngày càng nhiều người quan tâm đến việc sử dụng KPDL đểgiải đáp các vấn đề khoa học bên trong việc nghiên cứu về giáo dục, một lĩnh vực nghiên
cứu gọi là Khai phá Dữ liệu Giáo dục (Educational Data Mining – EDM) EDM là quá
trình chuyển đổi dữ liệu thô được sưu tập bởi các hệ thống giáo dục ra thành những thôngtin hữu ích, có thể được dùng để trợ giúp việc đưa ra những quyết định sáng suốt và giảiđáp một số vấn đề nghiên cứu trong lĩnh vực giáo dục Trào lưu nghiên cứu EDM này lên
đến đỉnh điểm vào năm 2008, với sự thành lập Tổ công tác về Khai phá Dữ liệu Giáo dục
Trang 5Quốc tế (International Working Group on Educational Data Mining1), và Tạp chí Khai
phá Dữ liệu Giáo dục (Journal of Educational Data Mining – JEDM).
Một trong những bài toán KPDL hữu ích nhất (và có lẽ được nghiên cứu nhiều nhất)
trong lĩnh vực giáo dục là phân lớp hay phân loại (classification) [1] Nhiều mục đích
giáo dục khác nhau cần sử dụng phân lớp, chẳng hạn như: để khám phá những nhóm sinhviên tiềm năng, có những đặc điểm và phản ứng tương tự như nhau đối với một chiếnlược sư phạm đặc biệt nào đó, để phát hiện việc sử dụng sai mục đích hoặc lạm dụng hệthống học trực tuyến, để gom nhóm những sinh viên nào cần khuyên bảo hay có khuynhhướng bị điểm kém và tìm xem sinh viên đó có những nhận thức sai gì về các môn học,
để nhận diện những học viên có ít động lực học tập và tìm kiếm những biện pháp khắcphục để hạ thấp tỷ lệ buộc thôi học, để dự đoán hay phân loại sinh viên khi sử dụng các
hệ thống trợ giáo thông minh, v.v… Hiện nay, các kỹ thuật khai phá dữ liệu giáo dục
(KPDLGD) đang được sử dụng trong các nghiên cứu về Hệ thống Trợ giáo Thông minh (Intelligent Tutoring System – ITS) và Trí tuệ Nhân tạo trong Giáo dục (Artificial
Intelligence in Education – AIED) trên khắp thế giới [6] Ví dụ, các nhà nghiên cứu đã sửdụng KPDLGD để:
Tìm ra những yếu tố ảnh hưởng đến việc bỏ học của học sinh
Phát hiện những toan tính nghịch phá hoặc lạm dụng hệ thống học trực tuyến
Định hướng học tập cho sinh viên
Xây dựng hoặc điều chỉnh các mô hình sinh viên
Ước lượng ảnh hưởng của những can thiệp cá nhân vào quá trình học tập
Dự đoán kết quả học tập và cách hoạt động của sinh viên, v.v…
Hiện tại, nhiều loại phương pháp để phân lớp sinh viên cùng với những giải thuật trítuệ nhân tạo khác nhau đã được áp dụng để dự đoán kết quả học tập, điểm số hoặc xếphạng của sinh viên Một số công trình ví dụ là: dự đoán kết quả cuối khóa bằng giải thuật
cây quyết định (decision tree) ID3 đơn thuần [4], hoặc bằng giải thuật C4.5 rồi so sánh
với ID3 [3]; phân tích dữ liệu năm học trước rồi dự đoán kết quả học tập của sinh viên
1 Tổ công tác này tổ chức các Hội nghị Quốc tế về Khai phá Dữ liệu Giáo dục (International Conference
on Educational Data Mining) hàng năm tại những quốc gia khác nhau, thành lập Hội Khai phá Dữ liệu
Giáo dục Quốc tế (International Educational Data Mining Society, là hội có Web site tại
Trang 6năm học mới bằng giải thuật mạng Bayes (Bayesian network), phân thành hai lớp
performer và underperformer [7]; dự đoán điểm số sinh viên (hai lớp: pass và fail) dùng
các kỹ thuật hồi quy (regression) trong dữ liệu của trường Hellenic Open University [8];
dự đoán điểm xếp hạng (grade) của sinh viên (phân thành các lớp low risk, medium risk
và high risk) bằng cách dùng các phương pháp phân loại khác nhau [7]; phân loại sinhviên bằng các giải thuật di truyền để dự đoán điểm xếp hạng cuối khóa dựa trên dữ liệucủa hệ thống quản học qua Web [10]
Một trong những vấn đề thường gặp đối với bài toán phân lớp dữ liệu là, nhiều giảithuật phân lớp cổ điển thu được kết quả không tốt (độ chính xác phân lớp không cao) đối
với những tập dữ liệu không cân đối (imbalance data set) Vấn đề đối với dữ liệu không
cân đối nảy sinh bởi vì các giải thuật học có khuynh hướng không chú ý đến các lớp ít
phổ biến (gọi là lớp thiểu số – minority class), chỉ chú ý đến các lớp phổ biến nhất (gọi là
lớp đa số – majority class) Hậu quả là mô hình phân lớp thu được sẽ không phân loại
đúng đắn được những trường hợp dữ liệu tương ứng với các lớp có ít đại diện Dữ liệukết quả xếp hạng cuối khóa, cuối năm, v.v… của sinh viên cũng thuộc loại dữ liệu khôngcân đối, bởi vì số sinh viên bị đánh rớt (fail) thường ít hơn nhiều so với số sinh viên đượcchấm đậu (pass), mà ta lại quan tâm đến các trường hợp bị đánh rớt hơn
Với quốc sách tập trung cho giáo dục, số lượng cơ sở giáo dục bậc cao (từ cao đẳngtrở lên) và lượng sinh viên ở nước ta trong những năm gần đây đang gia tăng nhanhchóng Nhu cầu về những giải pháp KPDLGD nói chung và bài toán phân lớp dữ liệu nóiriêng ngày càng trở nên cấp bách Nhưng phân lớp trên dữ liệu điểm của sinh viên ắt phảigiải quyết vấn đề dữ liệu không cân đối, sao cho mô hình phân lớp thu được ít bị ảnhhưởng bởi tính chất không cân đối của dữ liệu Mong muốn của chúng tôi khi thực hiện
đề tài này là góp một phần công sức nhỏ nhoi vào lĩnh vực cấp thiết và quan trọng ấy
B Mục tiêu nghiên cứu, giả thuyết khoa học, đối tượng nghiên cứu, và phạm vi ứng dụng của đề tài
B.1 Mục tiêu nghiên cứu
Trang 7Đề tài nghiên cứu ảnh hưởng của các kỹ thuật tái cân đối dữ liệu trên tập dữ liệukhông cân đối, sau đó xây dựng một giải pháp khả thi để giải quyết bài toán phân lớp đốivới dữ liệu giáo dục, có độ chính xác và tính dễ hiểu so sánh được với các giải pháp phânlớp giáo dục đã được thực hiện trong các công trình đã nêu bên trên.
B.2 Giả thuyết khoa học
Giải pháp được xây dựng sẽ áp dụng phương pháp lập trình di truyền (genetic
programming – GP) Lý do chọn loại giải thuật này là: nhiều công trình nghiên cứu đã
chứng tỏ rằng áp dụng các giải thuật tiến hóa (evolutionary algorithm – EA) bao gồm
giải thuật di truyền (genetic algorithm – GA) và GP trong bài toán phân lớp sẽ thu được
mô hình có độ chính xác phân lớp cao (trên dưới 90%) và các luật phân lớp dạng IF–THEN dễ hiểu đối với người dùng, và mô hình thu được hầu như không bị ảnh hưởng bởitính không cân đối của dữ liệu
Thời gian chạy của giải thuật không quá lâu để có thể chấp nhận được
B.3 Đối tượng nghiên cứu
Việc nghiên cứu sẽ được tiến hành trên một tập dữ liệu cụ thể là tập dữ liệu kết quảhọc tập các môn học của các lớp sinh viên đại học thuộc khoa Khoa học và Kỹ thuật Máytính Đại học Bách Khoa TpHCM trong 5 năm học từ 2005 đến 2009 Giải thuật sẽ đượctích hợp vào công cụ phổ biến WEKA để thuận tiện cho việc so sánh kết quả với các giảithuật phân lớp khác và việc lưu trữ mô hình thu được Mô hình thu được sau khi áp dụnggiải thuật nói trên sẽ được cho chạy thử trên một số bản ghi dữ liệu mới, không có trongtập dữ liệu đã nghiên cứu, để đánh giá hiệu quả thực tiễn của giải thuật
Trang 8học một số môn học giống nhau nên dữ liệu điểm đơn giản hơn nhiều; nếu giải pháp đềxuất áp dụng được cho dữ liệu điểm phức tạp của hệ tín chỉ thì nó cũng hoàn toàn có thể
áp dụng được cho dữ liệu điểm đơn giản của niên chế
B.5 Ý nghĩa của đề tài
B.5.1 Ý nghĩa khoa học
Đề tài đóng góp một biện pháp dễ thực hiện (với sự trợ giúp của máy tính) để dựđoán kết quả học tập của các sinh viên đại học theo hệ tín chỉ Kết quả, kinh nghiệm thuđược khi thực hiện đề tài này sẽ giúp các tổ chức giáo dục, những người làm công tácgiáo dục (trước hết là ở Việt Nam) đoán trước được những sinh viên nào có nhiều khảnăng sẽ không đạt kết quả cuối cùng hoặc bị buộc thôi học Vấn đề dự đoán kết quả nàykhông thể đạt được bằng việc phân tích dữ liệu hoặc truy vấn dữ liệu đơn giản
Kết quả thu được của đề tài này áp dụng được cho các tập dữ liệu kết quả học tậpcủa các cơ sở giáo dục đại học và cao đẳng, cả các trường đã áp dụng hệ tín chỉ lẫn cáctrường còn duy trì hệ niên chế
B.5.2 Ý nghĩa thực tiễn
Học đại học là một quá trình dài và khó khăn, đòi hỏi sinh viên phải đầu tư nhiềucông sức, tiền bạc của cá nhân cũng như của gia đình; nếu thất bại có thể sẽ dẫn đếnnhững tổn thất lớn về cả tinh thần lẫn vật chất cho sinh viên và gia đình họ Việc pháthiện sớm khả năng thất bại trong ngành học hoặc bậc học đang theo đuổi có thể giúp sinhviên đưa ra những quyết định điều chỉnh thích hợp, ví dụ như: tăng thêm quyết tâm họctập và nỗ lực hơn nhằm đạt kết quả tốt, hoặc chuyển sang một hướng đi khác phù hợphơn với năng lực của mình (học nghề, học ngành khác, trường khác, hoặc cấp học khác).Việc phát hiện sớm những sinh viên có khả năng thất bại trong ngành học mình phụtrách có thể giúp các giáo viên đưa ra những quyết định nhằm ngăn ngừa chuyện đó xảy
ra, ví dụ như tăng cường nhắc nhở, khuyến khích sinh viên, hoặc tìm tòi những cáchtruyền đạt hay hơn, giúp sinh viên dễ tiếp thu hơn và đạt kết quả học tập cao hơn
Biết trước những sinh viên có nguy cơ thất bại trong học tập, các tổ chức giáo dục
có thể đề ra những biện pháp thích hợp để tránh chuyện đó xảy ra, ví dụ như đề nghị
Trang 9những lộ trình học mà sinh viên nên theo, những môn học mà sinh viên nên chọn (đối với
hệ tín chỉ) để có thể đạt kết quả tốt hơn
Việc học của các sinh viên đại học cũng cần sự đầu tư rất lớn của xã hội, cụ thể làcủa bộ giáo dục và của các cơ quan cử tuyển (nếu có) Khả năng phát hiện những sinhviên học kém để điều chỉnh sớm sẽ giúp xã hội đầu tư có hiệu quả hơn cho giáo dục
Trang 10Chương 1: Cơ sở lý thuyết
1.1 Bài toán phân lớp trong KPDL
Phân lớp là một hình thức phân tích dữ liệu nhằm rút ra những mô hình mô tả
những lớp dữ liệu quan trọng Những mô hình này, gọi là mô hình phân lớp (classifier hoặc classification model), được dùng để dự đoán những nhãn lớp có tính phân loại
(categorical), rời rạc và không có thứ tự cho những đối tượng dữ liệu mới Ví dụ, ta cóthể xây dựng một mô hình phân lớp để phân loại những đơn xin vay tiền của ngân hàng
là an toàn hay rủi ro Việc phân tích như thế giúp ta hiểu rõ hơn về hầu hết dữ liệu Các
nhà nghiên cứu đã đề xuất nhiều phương pháp phân lớp trong học máy (machine learning), nhận dạng mẫu (pattern recognition), và thống kê học (statistics) Phân lớp có nhiều ứng dụng, bao gồm cả phát hiện lừa đảo, tiếp thị theo khách hàng mục tiêu (target marketing), dự đoán hiệu năng làm việc (performance prediction), sản xuất, và chẩn đoán
bệnh trong y khoa, …
1.1.1 Các khái niệm cơ bản
Chúng tôi giới thiệu khái niệm về phân lớp trong tiểu mục 1.1.1.1 Tiểu mục 1.1.1.2
mô tả cách tiếp cận chung để phân lớp như một quy trình gồm hai bước: ở bước 1, ta xâydựng một mô hình phân lớp dựa trên những dữ liệu đã có từ trước; ở bước 2, ta xác địnhxem độ chính xác của mô hình có chấp nhận được hay không, và nếu chấp nhận được thì
ta sẽ dùng mô hình ấy để phân lớp dữ liệu mới
1.1.1.1 Phân lớp là gì?
Một viên chức ngân hàng phụ trách cho vay cần phân tích dữ liệu của khách hàng
để tìm hiểu xem những người xin vay nào là “an toàn” (safe) hoặc “rủi ro” (risk) chongân hàng Một giám đốc tiếp thị tại công ty AllElectronics cần xử lý dữ liệu để dự đoánmột khách hàng với tiểu sử sơ lược cho trước sẽ mua máy tính mới hay không Một nhà
Trang 11nghiên cứu y học muốn phân tích dữ liệu bệnh ung thư vú để dự đoán là nên áp dụngcách nào trong số ba cách điều trị cụ thể cho một bệnh nhân Trong mỗi ví dụ này, công
việc phân tích dữ liệu là phân lớp, trong đó một mô hình phân lớp được xây dựng để dự
đoán các nhãn lớp (có tính phân loại), như “safe” hoặc “risk” đối với dữ liệu xin vay tiền;
“yes” hoặc “no” đối với dữ liệu tiếp thị; hoặc “treatment A”, “treatment B”, hay
“treatment C” đối với dữ liệu y học Các nhãn lớp này có thể được biểu diễn bằngnhững giá trị rời rạc, trong đó thứ tự giữa các giá trị không có ý nghĩa Ví dụ, các giá trị
1, 2, và 3 có thể được dùng để biểu diễn các cách điều trị A, B, và C, ở đó không có hàm
ý gì về thứ tự trong nhóm các cách điều trị này
Giả sử người giám đốc tiếp thị ở trên muốn dự đoán rằng một khách hàng cho trước
sẽ tiêu bao nhiêu tiền trong một lần mua hàng tại công ty AllElectronics Công việc phân
tích dữ liệu này là một ví dụ về dự đoán số (numeric prediction), ở đó mô hình xây dựng
được dùng để dự đoán một hàm có trị liên tục hay giá trị có thứ tự, trái ngược với các
nhãn lớp Mô hình này là một mô hình dự đoán (predictor) Phân tích hồi quy
(regression analysis) là một phương pháp thống kê, thường được dùng cho dự đoán số; vìthế hai thuật ngữ này thường được xem là đồng nghĩa với nhau, mặc dù vẫn có những
phương pháp dự đoán số khác Phân lớp và dự đoán số là hai loại chính trong số các bài toán dự đoán Ở đây ta chỉ tập trung vào bài toán phân lớp.
1.1.1.2 Cách tiếp cận chung đối với bài toán phân lớp
Phân lớp dữ liệu là một quá trình gồm hai bước: một bước học (trong đó xây dựng
nên một mô hình phân lớp) và một bước phân lớp (trong đó mô hình vừa xây dựng được
sử dụng để dự đoán các nhãn lớp cho những dữ liệu nào đó) Hình 1.1 minh họa quá trìnhnày cho trường hợp dữ liệu xin vay tiền Dữ liệu ấy đã được đơn giản hóa để dễ minhhọa Trong thực tế, có thể ta cần xem xét nhiều thuộc tính hơn
Ở bước thứ nhất, ta xây dựng một mô hình phân lớp mô tả một bộ xác định trước
các lớp dữ liệu hay khái niệm Đây là bước học (hay giai đoạn huấn luyện), ở đó một giải
thuật phân lớp xây dựng nên mô hình phân lớp bằng cách phân tích hoặc “học hỏi từ”
một tập huấn luyện (training set) hình thành từ các bản ghi trong cơ sở dữ liệu và các nhãn lớp liên kết với chúng Mỗi bản ghi X được biểu diễn bởi một vector thuộc tính
Trang 12(attribute vector) gồm n-chiều, X = (x 1 , x 2 , …, x n ), mô tả n giá trị đo đã thực hiện trên bản ghi đó từ n thuộc tính tương ứng của cơ sở dữ liệu A1, A2, …, An Mỗi bản ghi X được giả
định là thuộc về một lớp được quy định trước, như được xác định bởi một thuộc tính khác
của cơ sở dữ liệu gọi là thuộc tính nhãn lớp (class label attribute) Thuộc tính nhãn lớp
này có trị rời rạc và không có thứ tự Nó có tính phân loại (categorical hay nominal) ở chỗ mỗi giá trị của nó đóng vai trò một loại (category) hoặc lớp (class) Các bản ghi riêng
rẽ tạo thành tập huấn luyện được gọi là các bản ghi huấn luyện (training tuple) và được
lấy mẫu ngẫu nhiên từ cơ sở dữ liệu đang phân tích Trong ngữ cảnh phân lớp, các bản
ghi của cơ sở dữ liệu có thể được các tài liệu khác nhau gọi là mẫu (sample), ví dụ (example), thể hiện (instance), điểm dữ liệu (data point), hoặc đối tượng (object)3
Hình 1.1a: Bước học/huấn luyện trong quá trình phân lớp hai bước [5].
Do nhãn lớp của mỗi bản ghi huấn luyện đều được cung cấp sẵn, nên bước này còn
được gọi là học có giám sát (supervised learning, tức là việc học của mô hình phân lớp là
“có giám sát” ở chỗ nó được cho biết là mỗi bản ghi huấn luyện thuộc về lớp nào) Nó
2 Mỗi thuộc tính đại diện cho một “đặc điểm” (feature) của X Do đó các tài liệu về nhận dạng mẫu dùng
thuật ngữ vector đặc điểm thay cho vector thuộc tính Trong đề tài này, chúng tôi dùng thuật ngữ vector
thuộc tính, và trong cách ký hiệu của chúng tôi, bất kỳ biến nào đại diện cho một vector đều được trình bày bằng kiểu chữ đậm và nghiêng, các giá trị đo mô tả vector đó được trình bày bằng kiểu chữ nghiêng
(ví dụ: X = (x1, x2, x3 )).
3 Trong các tài liệu về học máy, các bản ghi huấn luyện thường được gọi là mẫu huấn luyện (training sample) hoặc ví dụ huấn luyện (training example).
Trang 13trái với học không giám sát (unsupervised learning, hay còn gọi là gom cụm –
clustering), trong đó ta không biết nhãn lớp của mỗi bản ghi huấn luyện và có thể cả sốlượng hoặc tập hợp các lớp cần học nữa Ví dụ, nếu như ta không có dữ liệu
loan_decision (tức quyết định cho vay) cho tập huấn luyện, ta có thể dùng kỹ thuật gom
cụm để cố gắng xác định các “nhóm các bản ghi giống nhau”, các nhóm này có thể tươngứng với các nhóm nguy cơ bên trong dữ liệu xin vay tiền
Bước thứ nhất của quá trình phân lớp còn có thể được xem như là việc học (hay tìm
kiếm) một ánh xạ hay hàm y = f(X) mà có thể dự đoán được nhãn lớp y liên kết với một bản ghi X cho trước Theo cách quan sát này, chúng ta muốn tìm ra một ánh xạ hay hàm
mà chia tách các lớp dữ liệu Thông thường, ánh xạ này được biểu diễn dưới dạng cácluật phân lớp, các cây quyết định, hoặc các công thức toán học Trong ví dụ dữ liệu xinvay ngân hàng bên trên, ánh xạ này được biểu diễn dưới dạng các luật phân lớp giúp nhậndiện những đơn xin vay tiền nào là an toàn hoặc rủi ro (Hình 1.1a) Các luật này có thểđược dùng để phân loại các bản ghi dữ liệu trong tương lai cũng như giúp ta hiểu biết sâuhơn về những gì hàm súc trong dữ liệu Chúng cũng cung cấp một cách biểu diễn dữ liệungắn gọn, cô đọng
Hình 1.1b: Bước phân lớp trong quá trình phân lớp hai bước [5].
Ở bước thứ hai (Hình 1.1b), mô hình tìm được ở bước thứ nhất sẽ được dùng cho
việc phân loại những dữ liệu mới Trước hết, ta đánh giá độ chính xác dự đoán
(predictive accuracy) của mô hình phân loại ấy Nếu như ta dùng tập huấn luyện để đánh
Trang 14giá độ chính xác của mơ hình phân lớp thì việc đánh giá này nhiều khả năng là quá lạc
quan, bởi vì mơ hình ấy cĩ khuynh hướng quá khớp (overfit) dữ liệu (tức là trong quá
trình học, nĩ cĩ thể sáp nhập luơn một số trường hợp bất thường của dữ liệu huấn luyện,
vốn khơng hiện diện trong tổng thể tập dữ liệu nĩi chung) Vì thế, ta dùng một tập kiểm
tra (test set), bao gồm các bản ghi kiểm tra (test tuple) và các nhãn lớp liên kết với
chúng, để thực hiện việc đánh giá này Các bản ghi kiểm tra này độc lập với các bản ghihuấn luyện, nghĩa là chúng khơng được dùng để xây dựng mơ hình phân lớp
Độ chính xác (accuracy) của một mơ hình phân lớp trên một tập kiểm tra xác định
là tỷ lệ các bản ghi của tập kiểm tra được phân loại đúng đắn bởi mơ hình phân lớp ấy.Nhãn lớp liên kết của mỗi bản ghi kiểm tra được so sánh với sự dự đốn lớp của mơ hìnhphân lớp học ứng với bản ghi đĩ Mục 1.3.1 bên dưới mơ tả vài phương pháp để đánh giá
độ chính xác của mơ hình phân lớp Nếu độ chính xác của mơ hình phân lớp được xem làchấp nhận được, thì mơ hình phân lớp cĩ thể được dùng để phân loại những bản ghi dữliệu trong tương lai mà nhãn lớp chưa biết (Trong các tài liệu học máy, loại dữ liệu nhưvậy cịn được gọi là dữ liệu “unknown” hoặc “previously unseen”) Ví dụ, các luật phânlớp học được trong Hình 1.1a từ việc phân tích dữ liệu của những đơn xin vay tiền lúctrước, nếu cĩ độ chính xác cao khi phân lớp tập kiểm tra, thì cĩ thể được dùng để chuẩnthuận hoặc bác những đơn xin vay tiền mới hoặc sẽ cĩ trong tương lai, như được minhhọa trong Hình 1.1b
Sau đây là vài phương pháp thơng dụng nhất để xây dựng mơ hình phân lớp: quynạp cây quyết định, mạng Nạve Bayes, và mạng nơ-rơn (Neural Network)
1.1.2 Phân lớp bằng cách quy nạp cây quyết định
1.1.2.1 Các giải thuật quy nạp cây quyết định