ỨNG DỤNG KHAI PHÁ DỮ LIỆU VÀ TẬP MỜ TRONG VIỆC PHÂN LOẠI HỌC SINH

Khai phá dữ liệu trong Giáo dục và Đào tạo thật sự là một việc làm có ý nghĩa, nó sẽ cung cấp những thông tin dựa trên những cơ sở khoa học đáng tin cậy, và đây cũng chính là những thông

Trang 1

ỨNG DỤNG KHAI PHÁ DỮ LIỆU VÀ TẬP MỜ TRONG VIỆC PHÂN LOẠI HỌC SINH

HỌ TÊN: TRẦN MINH HÙNG

1 GIỚI THIỆU

Khai phá dữ liệu (data mining), hiện nay đang được rất nhiều người

chú ý Nó thực sự đã đem lại những lợi ích đáng kể trong việc cung cấp những thông tin tiềm ẩn trong các cơ sở dữ liệu lớn Ngày nay đang trong tình trạng bùng nổ thông tin, lượng thông tin càng trở nên phong phú, đa dạng và khổng lồ Thế nhưng để có được những thông tin quí giá, đáng quan tâm, chúng ta lại phải tốn rất nhiều công sức để tìm kiếm nó trong một khối lượng thông tin khổng lồ ấy Xét về lĩnh vực này thì khối lượng thông tin càng lớn công việc càng trở nên khó khăn hơn Những phương pháp thống

kê truyền thống, phần lớn đều đã được định trước mục đích của công việc,

và sau đó chỉ việc sử dụng những phương pháp thích hợp để có được những thông tin mà chúng ta cần Đối với khai phá dữ liệu đúng nghĩa như tên gọi của nó, chúng ta đi tìm “mỏ”, không biết “có mỏ hay không?” nếu có thì

“mỏ đó là vàng hay bạc, hay chì ?” Khai phá dữ liệu như là một công cụ, giúp chúng ta tìm ra “mỏ” trong những “dãy núi khổng lồ”, núi càng lớn, càng dài thì hy vọng tìm ra mỏ càng cao nhưng cũng hết sức khó khăn phức tạp

Tất nhiên khi tìm ra được những thông tin cuối cùng thì việc ứng dụng những thông tin đó vào trong thực tế lại đòi hỏi cả một quá trình vận dụng từ

Trang 2

lý thuyết vào thực tiễn Những luật kết hợp, những mẫu thông tin chưa từng gặp sẽ là tiền đề cho những dự đoán, để từ đó có được những hoạch định đúng cho hướng phát triển trong tương lai, đây chính là những yếu tố mà cơ quan đơn vị nào cũng cần tới nó, dù ở mức qui mô lớn hay nhỏ

Khai phá dữ liệu trong Giáo dục và Đào tạo thật sự là một việc làm có

ý nghĩa, nó sẽ cung cấp những thông tin dựa trên những cơ sở khoa học đáng tin cậy, và đây cũng chính là những thông tin quí giá hỗ trợ rất nhiều trong công tác quản lý giáo dục

Hiện nay khai phá dữ liệu đã được ứng dụng rất nhiều trong thực tế, nhất là trong lĩnh vực kinh doanh, công nghệ sinh học Tuy nhiên trong lĩnh vực Giáo dục và Đào tạo, quả thật còn rất ít

Dữ liệu trong giáo dục có những đặc điểm riêng của nó, đòi hỏi chúng

ta phải có những phương pháp khám phá phù hợp thì mới phát huy được tốc

độ, cũng như không gian bộ nhớ Mặt khác để có được những thông tin mang tính xã hội và thực tế cao thì việc đưa khái niệm tập mờ để đánh giá phân loại học sinh sẽ có tính thuyết phục hơn

Trong báo cáo này, tác giả muốn giới thiệu phương pháp khai phá luật kết hợp mờ trong cơ sở dữ liệu là kết quả thi tốt nghiệp THPT

2 LUẬT KẾT HỢP MỜ

GIỚI THIỆU

Khai phá những luật kết hợp là một trong những vấn đề nghiên cứu quan trọng trong khai phá dữ liệu Một ví dụ của một luật kết hợp xét trên các thuộc tính tuyệt đối như sau:

(1)_Nếu Sử 7 thì Kết_quả Đậu , sup: 1126 (16.9%), conf: 80.8 %

Trang 3

(2)_Nếu Sử 9 thì Kết_quả Đậu , sup: 1240 (18.6%), conf: 94.1 % (3)_Nếu Sử 8 thì Kết_quả Đậu , sup: 1532 (23.0%), conf: 88.4 % Với thuộc tính định lượng thông thường giá trị của nó thay đổi một cách liện tục, và có rất nhiều giá trị khác nhau Vì vậy chúng ta phải dùng các kỷ thuật để phân chia miền thuộc tính

Sử dụng tập mờ để phân chia miền thuộc tính, theo các hàm thành viên sẽ có dạng như sau:

Vối hàm thành viên có dạng như sau:

Thì luật kết hợp mờ có dạng:

(1)_Nếu Sử Khá thì Kết_quả Đậu , sup: 4632 (69.5%), conf: 85.0 % vớiự: Sử Khá (0.7) [5451 = 81.8%] trong đó 0.7 là giá trị mờ được xác định bởi hàm thành viên đã cho

Như vậy luật kết hợp mờ mang tính tổng quát hơn, theo đó độ hỗ trợ (sup) và độ tin cậy (conf) cao hơn nhiều so với luật kết hợp chỉ xét trên các thuộc tính tuyệt đối

Với những tập hợp mờ, một học sinh có thể là cả hai, một là thành viên của “sử khá” với 80% tham gia, và một là thành viên của “sử trung bình” với 20% tham gia Hàm thành viên xác định bao nhiêu đối tượng dữ

Trang 4

liệu thuộc về mỗi tập mờ xác định đặc điểm cho những thuộc tính số Những tập hợp mờ cung cấp một sự chuyển tiếp mịn giữa thành viên và không thành viên của một tập hợp Luật kết hợp mờ cũng có thể hiểu được dễ dàng bởi vì thuật ngữ ngôn ngữ liên quan đến những tập hợp mờ

MÃ HÓA DỮ LIỆU

Để nâng cao hiệu suất khai phá dữ liệu chúng ta tiến hành mã hoá dữ liệu như sau:

Sau bước chuẩn bị dữ liệu (đã số hoá các items) là đọc dữ liệu để xử

lý Tuy nhiên, sẽ có hiện tượng giá trị số trong mỗi cột giống nhau nhưng

thực tế nó lại là các items khác nhau Ví dụ, cột TOAN có số điểm là 5, cột

LY cũng có số điểm là 5, hai số 5 này có ý nghĩa hoàn toàn khác nhau và

chúng là 2 items khác nhau Như vậy chúng ta phải phân biệt được chúng.

Dùng số integer 16 bit để lưu giữ, trong đó 8 bit đầu để lưu số cột (tổng số cột không quá 256), dùng 8 bit sau để lưu giữ giá trị của cột tương ứng (giá trị không quá 255) Ví dụ TOAN ở cột 3, điểm là 5; LY ở cột 4,

điểm là 5, hai items này sẽ được lưu vào hai số tương ứng là:

0000001100000101, 0000010000000101

Với cách mã hoá trên thì dữ liệu của chúng ta có tổng số cột không quá 256 cột, giá trị của các ô sau khi đã số hoá phải nằm trong khoảng từ 0 đến 255 Với yêu cầu này thì dữ liệu thực tế hiện nay trong các chương trình quản lý thi đều không bị vi phạm

Cách mã hoá này sẽ giúp chúng ta không cần phải biến đổi hình thức thể hiện của dữ liệu Chúng ta vẫn giữ nguyên hình thức thể hiện theo chiều ngang giống như hình thức chuẩn thường có của nó Điều này cũng sẽ tiết kiệm được khá nhiều thời gian chuyển đổi và xử lý

Trang 5

Ví dụ

TOAN LY

Một số chương trình đã thực hiện chuyển sang dạng sau:

T0 T1 T5 T10 L0 L1 L5 L10

Việc chuyển dữ liệu theo cách thức này sẽ tiêu tốn một thời gian đáng

kể nhất là đối với dữ liệu khổng lồ, với cách mã hoá trên chúng ta sẽ tránh được công việc này

TÌM CÁC ITEMSETS THƯỜNG XUYÊN

Cấu trúc lưu giữ các items, itemsets

Như trên chúng ta đã trình bày, tuỳ vào điều kiện thực tế của cơ sở dữ liệu mà chúng ta tìm chọn một phương pháp phù hợp Cụ thể trong cơ sở dữ liệu thi tốt nghiệp của ngành Giáo Dục Đào Tạo tại một tỉnh, chúng ta có thể

có ước định như sau:

Trang 6

Giới tính

Mã trường

Học lực

Hạnh kiểm

Điểm các môn thi

Kết quả

Tổng items

Số lượng

items

Với tổng số items vào khoảng gần 200, chúng ta sẽ thực hiện cấu trúc lưu giữ item như sau:

Chúng ta xem item là trường hợp đặc biệt của itemset (itemset mà chỉ

có duy nhất một phần tử), do đó cấu trúc của item và itemset là như nhau Chúng ta sẽ gắn vào mỗi item một mảng có giá trị BOOLEAN một chiều để lưu giữ vị trí (mảng ghi vị trí) của item trong cơ sở dữ liệu Độ dài của mảng này chính bằng tổng các transaction trong cơ sở dữ liệu Giả sử cơ sở dữ liệu

có max transaction Như vậy số bytes cần để lưu giữ vị trí của một item là (max DIV 8) + IF(max MOD 8 <> 0, 1, 0) bytes.

Cụ thể như sau:

Giả sử chúng ta có bảng dữ liệu:

TID (Transaction ID) TOAN LY HOA

Chúng ta có các items:

0000000000000100 (TOAN – 4)

Trang 7

Chỉ số mảng 0 1 2 3 4

0000000000000101 (TOAN – 5)

0000000100000101 (LY – 5)

0000000100000110 (LY – 6)

0000001000000111 (HOA – 7)

0000001000001000 (HOA – 8)

Trang 8

Chỉ số mảng 0 1 2 3 4

Một vài itemsets:

{0000000100000110,0000001000001000} (LY – 6, HOA – 8)

{0000000000000100,0000000100000110

}

(TOAN – 4,

LY – 6)

Với cấu trúc này chúng ta chỉ cần duyệt qua cơ sở dữ liệu duy nhất chỉ

có một lần, khi duyệt chúng ta sẽ ghi vị trí của các item vào mảng một chiều bằng cách truy cập trực tiếp (không dùng vòng lặp), cụ thể số định danh transaction của item là chỉ số mảng mà tại đó giá trị của mảng sẽ là 1 Còn việc đếm support chính là tổng giá trị của mảng

Cách thức kết hợp các items thành itemset.

Sự kết hợp giữ các items để trở thành itemset cũng như giữa các itemsets với nhau cũng sẽ được xét trên các mảng ghi vị trí đã có trước đó của chúng Căn cứ vào đặc điểm dữ liệu để có thể chúng ta hạn chế những mối kết hợp không thể có Ví dụ như các items trong cùng một cột (8 bits

Trang 9

đầu bằng nhau) không kết hợp được với nhau, nếu chúng ta xét các items theo một thứ tự của cột (8 bits đầu) thì chỉ có những item đứng trước mới kết hợp với item đứng sau (không có trường hợp ngược lại) Có thể hình thức hoá như sau:

IF((x1 >> 8) > (x2 >> 8), có thể kết hợp, không thể kết hợp).

Trong đó x1, x2 là giá trị các items sau khi đã mã hoá thành số integer

16 bits Với qui định này cũng sẽ giảm được thời gian thực hiện trong việc tìm các itemsets thường xuyên

Chọn và đưa các items vào tập mờ

Phương thức đưa các items vào tập mờ, chủ yếu thực hiện trên các thuộc tính điểm số của học sinh Cụ thể như sau: Chúng ta sẽ phân điểm số của học sinh vào 3 tập mờ gọi là tập 0 (“YếU”), tập 5 (“TRUNG BìNH”), tập 10 (“KHá”), với hàm thành viên có thể thay đổi được trong lúc chạy chương trình (trong giới hạn cho phép) Hàm thành viên được sử dụng có dạng hình thang “Hình 2.1”

Sau đây là một vài dạng cụ thể cho bởi “Hình vẽ 2.1”

Hình 2.1: Dạng cụ thể của hàm hình thang

Như vậy chúng ta sẽ có ba tập mờ cho một cột điểm Sau khi một item được đưa vào tập mờ thì giá trị của tập mờ nó sẽ bị thay đổi, đó là giá trị mờ,

Trang 10

và mảng vị trí Với giá trị mờ sẽ được tính theo công thức   



p 1

i i

fuzzy item p

1

,

(itemi.fuzzy sẽ được xác định bằng hàm thành viên), còn mảng vị trí của tập

mờ sẽ được đánh dấu tại vị trí của chính vị trí của item Một item có thể được đưa vào hai tập mờ khác nhau với hai giá trị mờ có thể khác nhau như

“Hình vẽ 2.2” (tuỳ thuộc vào hàm thành viên)

Hình 2.2: Minh hoạ về tập mờ Đối với mốt kết hợp mờ được hình hoá bằng “Hình vẽ 2.3” như sau: Giả sử cơ sở dữ liệu là:

Hình 2.3: Minh hoạ về mối kết hợp mờ

Trang 11

Xử lý mảng vị trí của tập mờ, chúng ta thực hiện bằng cách hội các giá trị tương ứng của hai mảng lại với nhau Kết quả của mảng ghi vị trí của các tập mờ như sau:

Chỉ số mảng 0 1 2 3 Chỉ số mảng 0 1 2 3

Chỉ số

mảng 0 1 2 3

Chỉ số

Giá trị 1 0 0 0 Giá trị 0 1 1 1 Giá trị 0 0 0 1 Với cách xử lý này chúng ta thấy rằng, với tập cổ điển ta có bốn mối kết hợp 2 – 4, 4 – 5, 5 – 6, 6 – 7 Với tập mờ ta có tất cả bảy mối kết hợp, đó

là YếU – YếU (1), YếU – TB (2), TB – TB (3), TB – KHá (1)

Qua đây chúng ta nhận xét rằng: Sử dụng tập mờ có thể cho chúng ta những luật tổng quát hơn và dễ tìm ra luật hơn Những khái niệm mờ cũng phù hợp với ý nghĩa thực tế hơn so với khái niệm tập cổ điển Tập mờ đã làm giảm thiểu đáng kể các ứng viên trong danh sách các ứng viên thường xuyên và đây là một đặc điểm quan trọng để chúng ta có thể lưu giữ các ứng viên trên bộ nhớ trong làm cho tốc độ chương trình tăng nhanh một cách đáng kể Tuy nhiên chúng ta phải trả giá lại cho việc tính toán các giá trị mờ, thế nhưng những giá trị mờ này lại cung cấp cho ta thêm những thông tin về chính nó

Trang 12

Tìm các itemset thường xuyên Sau lần duyệt duy mhất đầu tiên chúng

ta có được danh sách các items trong cơ sở dữ liệu, đếm support và chỉ giữ lại những items thường xuyên (support ³ minsup) Với cách lưu lại các vị trí của item vào mảng ghi vị trí như đã nói ở trên, chúng ta có thể tìm được tất

cả các itemsets thường xuyên trên danh sách này (không cần duyệt thêm một lần nào nữa trên cơ sở dữ liệu) Chúng ta sẽ thực hiện phép giao (tuyển) các itemset với những items đã có lúc ban đầu thì chúng ta sẽ có được một itemset mới có số items tăng lên một, sau đó đếm support nếu itemset mới này là thường xuyên thì lưu lại

TÌM LUẬT KẾT HỢP

Công việc đòi hỏi nhiều công sức là tìm ra được các itemsets thường xuyên Sau đó từ những itemsets này chúng ta sẽ đưa những luật kết hợp có

độ tin cậy cao Thông thường giai đoạn này có ít người chú tâm tới, bởi vì

nó không phải là một vấn đề khó Tuy nhiên như chúng ta đã đề cập ở trên, việc đưa ra quá nhiều luật mà trong đó có nhiều luật không cần phải quan tâm là một công việc không đưa lại hiệu quả cao Riêng trong trường hợp dữ liệu của ngành Giáo Dục, hiện nay còn nhiều điều mới mẻ, các qui luật chưa được thể hiện rõ do có quá nhiều sự thay đổi về chủ trương chính sách cũng như chương trình, sách giáo khoa… trong thời gian qua Vì vậy chúng ta chưa thể đưa ra những bộ luật mà không cần quan tâm Với lý do đó, trong báo cáo chưa đề cập đến vấn đề này

Với đặc tính của cơ sở dữ liệu để có được luật có độ tin cậy 100% là

vô cùng ít và hầu như đa phần là luật có độ tin cậy nhỏ hơn 100% Với

Trang 13

những luật có độ tin cậy nhỏ hơn 100%, vấn đề luật thừa cũng cần phải được xem lại Lấy ví dụ, chúng ta đã có luật A B như vậy luật (A,C) B là luật thừa Nhưng trong thực tế thì (A,C) B phần lớn có độ tin cậy cao hơn, và chính những luật có độ tin cậy cao là những luật chúng ta cần quan tâm và tin tưởng hơn Những luật mà vế trái càng nhiều items thì càng quí, cũng giống như công việc điều tra mà có càng nhiều chứng cứ càng tốt

Chúng ta có thể thực hiện tìm luật theo từng bước, ngay tại mỗi k-itemsets chúng ta có thể xem luật ứng với mức này, hoặc chúng ta có thể thực hiện ngay tại mức cuối cùng (itemsets có nhiều items nhất) Tại mỗi mức chúng ta có thể thay đổi giá trị minsup và mincof để số luật ra chúng ta

có thể kiểm tra được Cùng với việc thay đổi hàm thành viên chúng ta sẽ có thể có được những luật phong phú hơn, còn việc phân tích luật là công việc của người dùng

Theo nguyên tắc từ một itemset thường xuyên chúng ta có thể tìm ra được nhiều luật trên đó Trong danh sách các itemsets thường xuyên sẽ không có hiện tượng trùng lặp, như vậy về hình thức của các luật khi được đưa ra cũng sẽ không bị trùng lặp

3 KẾT LUẬN

Khai phá dữ liệu mở ra một hướng nghiên cứu mới trong công tác giáo dục và đào tạo Trước đây những báo cáo mang tính thống kê đơn thuần, chưa có thể nói hết được những nhận định mang tính tiềm ẩn Những qui luật rút ra được từ chương trình trong thực tế chưa thể khẳng định ngay được, bởi vì đây là những vấn đề mang tính nhạy cảm Tuy nhiên nó mở cho

ta một cách nhìn mới, một phương pháp mới trong việc thống kê báo cáo,

Trang 14

cũng như những tư liệu quí để làm căn cứ cho những quyết định mang tính đột phá sau này Mặc dù phương pháp này quá mới mẻ, nhưng những kết luận rút ra từ các luật kết hợp thực sự là những vấn đề đáng quan tâm như vấn đề chất lượng học tập, đề thi, chấm thi, đạo đức học sinh

Khái niệm mờ thật sự đã đưa lại nhiều điều thú vị Nó không chỉ phù hợp với thực tế, bởi vì trong thực tế hầu như những vấn đề được đưa ra đều

có tính chất mờ, mà nó còn mang tính yển chuyển, linh hoạt từ đó dễ khám phá ra các luật kết hợp, phân loại học sinh mang tính thuyết phục hơn

Từ những luật kết hợp có được chúng ta sẽ có thêm một phương pháp phân loại học sinh mới dựa trên các luật này Chẳng hạn như có 82% học sinh thi khá môn Sử và học lực TB thì đậu tốt nghiệp THPT với độ tin cậy 91%

Định dạng
Số trang	14
Dung lượng	133,5 KB