Khai phá dữ liệu trong Giáo dục và Đào tạo thật sự là một việc làm có ý nghĩa, nó sẽ cung cấp những thông tin dựa trên những cơ sở khoa học đáng tin cậy, và đây cũng chính là những thông
Trang 1ỨNG DỤNG KHAI PHÁ DỮ LIỆU VÀ TẬP MỜ TRONG VIỆC PHÂN LOẠI HỌC SINH
HỌ TÊN: TRẦN MINH HÙNG
1 GIỚI THIỆU
Khai phá dữ liệu (data mining), hiện nay đang được rất nhiều người
chú ý Nó thực sự đã đem lại những lợi ích đáng kể trong việc cung cấp những thông tin tiềm ẩn trong các cơ sở dữ liệu lớn Ngày nay đang trong tình trạng bùng nổ thông tin, lượng thông tin càng trở nên phong phú, đa dạng và khổng lồ Thế nhưng để có được những thông tin quí giá, đáng quan tâm, chúng ta lại phải tốn rất nhiều công sức để tìm kiếm nó trong một khối lượng thông tin khổng lồ ấy Xét về lĩnh vực này thì khối lượng thông tin càng lớn công việc càng trở nên khó khăn hơn Những phương pháp thống
kê truyền thống, phần lớn đều đã được định trước mục đích của công việc,
và sau đó chỉ việc sử dụng những phương pháp thích hợp để có được những thông tin mà chúng ta cần Đối với khai phá dữ liệu đúng nghĩa như tên gọi của nó, chúng ta đi tìm “mỏ”, không biết “có mỏ hay không?” nếu có thì
“mỏ đó là vàng hay bạc, hay chì ?” Khai phá dữ liệu như là một công cụ, giúp chúng ta tìm ra “mỏ” trong những “dãy núi khổng lồ”, núi càng lớn, càng dài thì hy vọng tìm ra mỏ càng cao nhưng cũng hết sức khó khăn phức tạp
Tất nhiên khi tìm ra được những thông tin cuối cùng thì việc ứng dụng những thông tin đó vào trong thực tế lại đòi hỏi cả một quá trình vận dụng từ
Trang 2lý thuyết vào thực tiễn Những luật kết hợp, những mẫu thông tin chưa từng gặp sẽ là tiền đề cho những dự đoán, để từ đó có được những hoạch định đúng cho hướng phát triển trong tương lai, đây chính là những yếu tố mà cơ quan đơn vị nào cũng cần tới nó, dù ở mức qui mô lớn hay nhỏ
Khai phá dữ liệu trong Giáo dục và Đào tạo thật sự là một việc làm có
ý nghĩa, nó sẽ cung cấp những thông tin dựa trên những cơ sở khoa học đáng tin cậy, và đây cũng chính là những thông tin quí giá hỗ trợ rất nhiều trong công tác quản lý giáo dục
Hiện nay khai phá dữ liệu đã được ứng dụng rất nhiều trong thực tế, nhất là trong lĩnh vực kinh doanh, công nghệ sinh học Tuy nhiên trong lĩnh vực Giáo dục và Đào tạo, quả thật còn rất ít
Dữ liệu trong giáo dục có những đặc điểm riêng của nó, đòi hỏi chúng
ta phải có những phương pháp khám phá phù hợp thì mới phát huy được tốc
độ, cũng như không gian bộ nhớ Mặt khác để có được những thông tin mang tính xã hội và thực tế cao thì việc đưa khái niệm tập mờ để đánh giá phân loại học sinh sẽ có tính thuyết phục hơn
Trong báo cáo này, tác giả muốn giới thiệu phương pháp khai phá luật kết hợp mờ trong cơ sở dữ liệu là kết quả thi tốt nghiệp THPT
2 LUẬT KẾT HỢP MỜ
GIỚI THIỆU
Khai phá những luật kết hợp là một trong những vấn đề nghiên cứu quan trọng trong khai phá dữ liệu Một ví dụ của một luật kết hợp xét trên các thuộc tính tuyệt đối như sau:
(1)_Nếu Sử 7 thì Kết_quả Đậu , sup: 1126 (16.9%), conf: 80.8 %
Trang 3(2)_Nếu Sử 9 thì Kết_quả Đậu , sup: 1240 (18.6%), conf: 94.1 % (3)_Nếu Sử 8 thì Kết_quả Đậu , sup: 1532 (23.0%), conf: 88.4 % Với thuộc tính định lượng thông thường giá trị của nó thay đổi một cách liện tục, và có rất nhiều giá trị khác nhau Vì vậy chúng ta phải dùng các kỷ thuật để phân chia miền thuộc tính
Sử dụng tập mờ để phân chia miền thuộc tính, theo các hàm thành viên sẽ có dạng như sau:
Vối hàm thành viên có dạng như sau:
Thì luật kết hợp mờ có dạng:
(1)_Nếu Sử Khá thì Kết_quả Đậu , sup: 4632 (69.5%), conf: 85.0 % vớiự: Sử Khá (0.7) [5451 = 81.8%] trong đó 0.7 là giá trị mờ được xác định bởi hàm thành viên đã cho
Như vậy luật kết hợp mờ mang tính tổng quát hơn, theo đó độ hỗ trợ (sup) và độ tin cậy (conf) cao hơn nhiều so với luật kết hợp chỉ xét trên các thuộc tính tuyệt đối
Với những tập hợp mờ, một học sinh có thể là cả hai, một là thành viên của “sử khá” với 80% tham gia, và một là thành viên của “sử trung bình” với 20% tham gia Hàm thành viên xác định bao nhiêu đối tượng dữ
Trang 4liệu thuộc về mỗi tập mờ xác định đặc điểm cho những thuộc tính số Những tập hợp mờ cung cấp một sự chuyển tiếp mịn giữa thành viên và không thành viên của một tập hợp Luật kết hợp mờ cũng có thể hiểu được dễ dàng bởi vì thuật ngữ ngôn ngữ liên quan đến những tập hợp mờ
MÃ HÓA DỮ LIỆU
Để nâng cao hiệu suất khai phá dữ liệu chúng ta tiến hành mã hoá dữ liệu như sau:
Sau bước chuẩn bị dữ liệu (đã số hoá các items) là đọc dữ liệu để xử
lý Tuy nhiên, sẽ có hiện tượng giá trị số trong mỗi cột giống nhau nhưng
thực tế nó lại là các items khác nhau Ví dụ, cột TOAN có số điểm là 5, cột
LY cũng có số điểm là 5, hai số 5 này có ý nghĩa hoàn toàn khác nhau và
chúng là 2 items khác nhau Như vậy chúng ta phải phân biệt được chúng.
Dùng số integer 16 bit để lưu giữ, trong đó 8 bit đầu để lưu số cột (tổng số cột không quá 256), dùng 8 bit sau để lưu giữ giá trị của cột tương ứng (giá trị không quá 255) Ví dụ TOAN ở cột 3, điểm là 5; LY ở cột 4,
điểm là 5, hai items này sẽ được lưu vào hai số tương ứng là:
0000001100000101, 0000010000000101
Với cách mã hoá trên thì dữ liệu của chúng ta có tổng số cột không quá 256 cột, giá trị của các ô sau khi đã số hoá phải nằm trong khoảng từ 0 đến 255 Với yêu cầu này thì dữ liệu thực tế hiện nay trong các chương trình quản lý thi đều không bị vi phạm
Cách mã hoá này sẽ giúp chúng ta không cần phải biến đổi hình thức thể hiện của dữ liệu Chúng ta vẫn giữ nguyên hình thức thể hiện theo chiều ngang giống như hình thức chuẩn thường có của nó Điều này cũng sẽ tiết kiệm được khá nhiều thời gian chuyển đổi và xử lý
Trang 5Ví dụ
TOAN LY
Một số chương trình đã thực hiện chuyển sang dạng sau:
T0 T1 T5 T10 L0 L1 L5 L10
Việc chuyển dữ liệu theo cách thức này sẽ tiêu tốn một thời gian đáng
kể nhất là đối với dữ liệu khổng lồ, với cách mã hoá trên chúng ta sẽ tránh được công việc này
TÌM CÁC ITEMSETS THƯỜNG XUYÊN
Cấu trúc lưu giữ các items, itemsets
Như trên chúng ta đã trình bày, tuỳ vào điều kiện thực tế của cơ sở dữ liệu mà chúng ta tìm chọn một phương pháp phù hợp Cụ thể trong cơ sở dữ liệu thi tốt nghiệp của ngành Giáo Dục Đào Tạo tại một tỉnh, chúng ta có thể
có ước định như sau:
Trang 6Giới tính
Mã trường
Học lực
Hạnh kiểm
Điểm các môn thi
Kết quả
Tổng items
Số lượng
items
Với tổng số items vào khoảng gần 200, chúng ta sẽ thực hiện cấu trúc lưu giữ item như sau:
Chúng ta xem item là trường hợp đặc biệt của itemset (itemset mà chỉ
có duy nhất một phần tử), do đó cấu trúc của item và itemset là như nhau Chúng ta sẽ gắn vào mỗi item một mảng có giá trị BOOLEAN một chiều để lưu giữ vị trí (mảng ghi vị trí) của item trong cơ sở dữ liệu Độ dài của mảng này chính bằng tổng các transaction trong cơ sở dữ liệu Giả sử cơ sở dữ liệu
có max transaction Như vậy số bytes cần để lưu giữ vị trí của một item là (max DIV 8) + IF(max MOD 8 <> 0, 1, 0) bytes.
Cụ thể như sau:
Giả sử chúng ta có bảng dữ liệu:
TID (Transaction ID) TOAN LY HOA
Chúng ta có các items:
0000000000000100 (TOAN – 4)
Trang 7Chỉ số mảng 0 1 2 3 4
0000000000000101 (TOAN – 5)
0000000100000101 (LY – 5)
0000000100000110 (LY – 6)
0000001000000111 (HOA – 7)
0000001000001000 (HOA – 8)
Trang 8Chỉ số mảng 0 1 2 3 4
Một vài itemsets:
{0000000100000110,0000001000001000} (LY – 6, HOA – 8)
{0000000000000100,0000000100000110
}
(TOAN – 4,
LY – 6)
Với cấu trúc này chúng ta chỉ cần duyệt qua cơ sở dữ liệu duy nhất chỉ
có một lần, khi duyệt chúng ta sẽ ghi vị trí của các item vào mảng một chiều bằng cách truy cập trực tiếp (không dùng vòng lặp), cụ thể số định danh transaction của item là chỉ số mảng mà tại đó giá trị của mảng sẽ là 1 Còn việc đếm support chính là tổng giá trị của mảng
Cách thức kết hợp các items thành itemset.
Sự kết hợp giữ các items để trở thành itemset cũng như giữa các itemsets với nhau cũng sẽ được xét trên các mảng ghi vị trí đã có trước đó của chúng Căn cứ vào đặc điểm dữ liệu để có thể chúng ta hạn chế những mối kết hợp không thể có Ví dụ như các items trong cùng một cột (8 bits
Trang 9đầu bằng nhau) không kết hợp được với nhau, nếu chúng ta xét các items theo một thứ tự của cột (8 bits đầu) thì chỉ có những item đứng trước mới kết hợp với item đứng sau (không có trường hợp ngược lại) Có thể hình thức hoá như sau:
IF((x1 >> 8) > (x2 >> 8), có thể kết hợp, không thể kết hợp).
Trong đó x1, x2 là giá trị các items sau khi đã mã hoá thành số integer
16 bits Với qui định này cũng sẽ giảm được thời gian thực hiện trong việc tìm các itemsets thường xuyên
Chọn và đưa các items vào tập mờ
Phương thức đưa các items vào tập mờ, chủ yếu thực hiện trên các thuộc tính điểm số của học sinh Cụ thể như sau: Chúng ta sẽ phân điểm số của học sinh vào 3 tập mờ gọi là tập 0 (“YếU”), tập 5 (“TRUNG BìNH”), tập 10 (“KHá”), với hàm thành viên có thể thay đổi được trong lúc chạy chương trình (trong giới hạn cho phép) Hàm thành viên được sử dụng có dạng hình thang “Hình 2.1”
Sau đây là một vài dạng cụ thể cho bởi “Hình vẽ 2.1”
Hình 2.1: Dạng cụ thể của hàm hình thang
Như vậy chúng ta sẽ có ba tập mờ cho một cột điểm Sau khi một item được đưa vào tập mờ thì giá trị của tập mờ nó sẽ bị thay đổi, đó là giá trị mờ,
Trang 10và mảng vị trí Với giá trị mờ sẽ được tính theo công thức
p 1
i i
fuzzy item p
1
,
(itemi.fuzzy sẽ được xác định bằng hàm thành viên), còn mảng vị trí của tập
mờ sẽ được đánh dấu tại vị trí của chính vị trí của item Một item có thể được đưa vào hai tập mờ khác nhau với hai giá trị mờ có thể khác nhau như
“Hình vẽ 2.2” (tuỳ thuộc vào hàm thành viên)
Hình 2.2: Minh hoạ về tập mờ Đối với mốt kết hợp mờ được hình hoá bằng “Hình vẽ 2.3” như sau: Giả sử cơ sở dữ liệu là:
Hình 2.3: Minh hoạ về mối kết hợp mờ
Trang 11Xử lý mảng vị trí của tập mờ, chúng ta thực hiện bằng cách hội các giá trị tương ứng của hai mảng lại với nhau Kết quả của mảng ghi vị trí của các tập mờ như sau:
Chỉ số mảng 0 1 2 3 Chỉ số mảng 0 1 2 3
Chỉ số
mảng 0 1 2 3
Chỉ số
Chỉ số
Giá trị 1 0 0 0 Giá trị 0 1 1 1 Giá trị 0 0 0 1 Với cách xử lý này chúng ta thấy rằng, với tập cổ điển ta có bốn mối kết hợp 2 – 4, 4 – 5, 5 – 6, 6 – 7 Với tập mờ ta có tất cả bảy mối kết hợp, đó
là YếU – YếU (1), YếU – TB (2), TB – TB (3), TB – KHá (1)
Qua đây chúng ta nhận xét rằng: Sử dụng tập mờ có thể cho chúng ta những luật tổng quát hơn và dễ tìm ra luật hơn Những khái niệm mờ cũng phù hợp với ý nghĩa thực tế hơn so với khái niệm tập cổ điển Tập mờ đã làm giảm thiểu đáng kể các ứng viên trong danh sách các ứng viên thường xuyên và đây là một đặc điểm quan trọng để chúng ta có thể lưu giữ các ứng viên trên bộ nhớ trong làm cho tốc độ chương trình tăng nhanh một cách đáng kể Tuy nhiên chúng ta phải trả giá lại cho việc tính toán các giá trị mờ, thế nhưng những giá trị mờ này lại cung cấp cho ta thêm những thông tin về chính nó
Trang 12Tìm các itemset thường xuyên Sau lần duyệt duy mhất đầu tiên chúng
ta có được danh sách các items trong cơ sở dữ liệu, đếm support và chỉ giữ lại những items thường xuyên (support ³ minsup) Với cách lưu lại các vị trí của item vào mảng ghi vị trí như đã nói ở trên, chúng ta có thể tìm được tất
cả các itemsets thường xuyên trên danh sách này (không cần duyệt thêm một lần nào nữa trên cơ sở dữ liệu) Chúng ta sẽ thực hiện phép giao (tuyển) các itemset với những items đã có lúc ban đầu thì chúng ta sẽ có được một itemset mới có số items tăng lên một, sau đó đếm support nếu itemset mới này là thường xuyên thì lưu lại
TÌM LUẬT KẾT HỢP
Công việc đòi hỏi nhiều công sức là tìm ra được các itemsets thường xuyên Sau đó từ những itemsets này chúng ta sẽ đưa những luật kết hợp có
độ tin cậy cao Thông thường giai đoạn này có ít người chú tâm tới, bởi vì
nó không phải là một vấn đề khó Tuy nhiên như chúng ta đã đề cập ở trên, việc đưa ra quá nhiều luật mà trong đó có nhiều luật không cần phải quan tâm là một công việc không đưa lại hiệu quả cao Riêng trong trường hợp dữ liệu của ngành Giáo Dục, hiện nay còn nhiều điều mới mẻ, các qui luật chưa được thể hiện rõ do có quá nhiều sự thay đổi về chủ trương chính sách cũng như chương trình, sách giáo khoa… trong thời gian qua Vì vậy chúng ta chưa thể đưa ra những bộ luật mà không cần quan tâm Với lý do đó, trong báo cáo chưa đề cập đến vấn đề này
Với đặc tính của cơ sở dữ liệu để có được luật có độ tin cậy 100% là
vô cùng ít và hầu như đa phần là luật có độ tin cậy nhỏ hơn 100% Với
Trang 13những luật có độ tin cậy nhỏ hơn 100%, vấn đề luật thừa cũng cần phải được xem lại Lấy ví dụ, chúng ta đã có luật A B như vậy luật (A,C) B là luật thừa Nhưng trong thực tế thì (A,C) B phần lớn có độ tin cậy cao hơn, và chính những luật có độ tin cậy cao là những luật chúng ta cần quan tâm và tin tưởng hơn Những luật mà vế trái càng nhiều items thì càng quí, cũng giống như công việc điều tra mà có càng nhiều chứng cứ càng tốt
Chúng ta có thể thực hiện tìm luật theo từng bước, ngay tại mỗi k-itemsets chúng ta có thể xem luật ứng với mức này, hoặc chúng ta có thể thực hiện ngay tại mức cuối cùng (itemsets có nhiều items nhất) Tại mỗi mức chúng ta có thể thay đổi giá trị minsup và mincof để số luật ra chúng ta
có thể kiểm tra được Cùng với việc thay đổi hàm thành viên chúng ta sẽ có thể có được những luật phong phú hơn, còn việc phân tích luật là công việc của người dùng
Theo nguyên tắc từ một itemset thường xuyên chúng ta có thể tìm ra được nhiều luật trên đó Trong danh sách các itemsets thường xuyên sẽ không có hiện tượng trùng lặp, như vậy về hình thức của các luật khi được đưa ra cũng sẽ không bị trùng lặp
3 KẾT LUẬN
Khai phá dữ liệu mở ra một hướng nghiên cứu mới trong công tác giáo dục và đào tạo Trước đây những báo cáo mang tính thống kê đơn thuần, chưa có thể nói hết được những nhận định mang tính tiềm ẩn Những qui luật rút ra được từ chương trình trong thực tế chưa thể khẳng định ngay được, bởi vì đây là những vấn đề mang tính nhạy cảm Tuy nhiên nó mở cho
ta một cách nhìn mới, một phương pháp mới trong việc thống kê báo cáo,
Trang 14cũng như những tư liệu quí để làm căn cứ cho những quyết định mang tính đột phá sau này Mặc dù phương pháp này quá mới mẻ, nhưng những kết luận rút ra từ các luật kết hợp thực sự là những vấn đề đáng quan tâm như vấn đề chất lượng học tập, đề thi, chấm thi, đạo đức học sinh
Khái niệm mờ thật sự đã đưa lại nhiều điều thú vị Nó không chỉ phù hợp với thực tế, bởi vì trong thực tế hầu như những vấn đề được đưa ra đều
có tính chất mờ, mà nó còn mang tính yển chuyển, linh hoạt từ đó dễ khám phá ra các luật kết hợp, phân loại học sinh mang tính thuyết phục hơn
Từ những luật kết hợp có được chúng ta sẽ có thêm một phương pháp phân loại học sinh mới dựa trên các luật này Chẳng hạn như có 82% học sinh thi khá môn Sử và học lực TB thì đậu tốt nghiệp THPT với độ tin cậy 91%