TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀ
Khái quát chung về phát hiện tri thức và khai phá dữ liệu
Trong vài thập kỷ qua, khả năng tạo ra và lưu trữ dữ liệu của con người đã tăng nhanh chóng, dẫn đến việc lưu trữ một lượng lớn dữ liệu Điều này tạo ra nhu cầu cấp bách về các kỹ thuật và công cụ tự động mới để hỗ trợ con người trong việc chuyển đổi dữ liệu thành thông tin hữu ích và tri thức Do đó, kỹ thuật khám phá tri thức (Knowledge Discovery) trở nên ngày càng quan trọng.
Discovery) đã ra đời và ngày càng phát triển để đáp ứng nhu cầu của con người trong việc xử lý các kho dữ liệu lớn
Tri thức là gì? Thông thường, dữ liệu được coi là một chuỗi các bit, số và ký hiệu, hoặc các "đối tượng" được gửi cho chương trình dưới định dạng nhất định Bit là đơn vị đặc trưng cho dữ liệu, được sử dụng để đo lường thông tin, giúp loại bỏ sự dư thừa và rút gọn dữ liệu tới mức tối thiểu Tri thức có thể được xem là thông tin tích hợp, bao gồm các sự kiện và mối quan hệ giữa chúng, những mối quan hệ này có thể được hiểu, phát hiện hoặc học hỏi Nói cách khác, tri thức là dữ liệu có độ trừu tượng và tổ chức cao.
Khám phá tri thức đang phát triển mạnh mẽ trong nhiều lĩnh vực học thuật, kết hợp với quản lý cơ sở dữ liệu, khoa học thống kê và học máy Việc nghiên cứu mối quan hệ giữa các lĩnh vực giúp rút ra tri thức hữu ích từ tập hợp lớn dữ liệu.
Khám phá tri thức là quá trình nhận diện các yếu tố logic và mới mẻ, khai thác tri thức tiềm ẩn từ cơ sở dữ liệu, và cuối cùng là hiểu rõ các mẫu và mô hình có trong dữ liệu.
Còn thuật ngữ KPDL (Khai phá dữ liệu) ra đời vào những năm cuối của thập kỷ
1980 Có rất nhiều định nghĩa khác nhau về "KPDL" đã đƣợc đƣa ra Giáo sƣ Tom
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
KPDL, theo Mitchell, là việc sử dụng dữ liệu lịch sử để khám phá quy tắc và cải thiện quyết định trong tương lai Tiến sĩ Fayyad mô tả KPDL như một quá trình khám phá tri thức trong cơ sở dữ liệu, nơi thông tin ẩn được trích xuất và có thể hữu ích dưới dạng quy luật và ràng buộc Các nhà thống kê cũng có cách nhìn nhận riêng về KPDL.
KPDL là quá trình phân tích dữ liệu lớn nhằm phát hiện các mẫu và mối quan hệ hệ thống giữa các biến Nó là cốt lõi của việc khám phá tri thức, sử dụng các thuật toán chuyên dụng với hiệu quả tính toán chấp nhận được Mục tiêu của KPDL là tìm ra những mẫu mới, thông tin tiềm ẩn và dự đoán chưa được biết đến, có khả năng mang lại lợi ích.
Mục đích chính của việc khám phá tri thức và khai thác dữ liệu là xác định các mẫu và mô hình quan trọng trong cơ sở dữ liệu, mặc dù chúng thường bị ẩn giấu trong khối lượng dữ liệu lớn.
Quá trình khám phá tri thức
Quá trình khám phá tri thức được tiến hành qua 5 bước sau:
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Hình 1.1 Quá trình khám phá tri thức
1.2.1 Hình thành và định nghĩa bài toán Đây là bước tìm hiểu lĩnh vực ứng dụng và hình thành bài toán, bước này quyết định cần rút ra những tri thức dạng như thế nào, đồng thời lựa chọn các phương pháp KPDL thích hợp với mục đích ứng dụng và bản chất của dữ liệu
1.2.2 Thu thập và tiền xử lý dữ liệu
Trong bước này, dữ liệu được thu thập dưới dạng thô từ các kho dữ liệu hoặc nguồn thông tin trên internet Đồng thời, dữ liệu cũng trải qua quá trình tiền xử lý nhằm biến đổi và nâng cao chất lượng, đảm bảo phù hợp với phương pháp KPDL đã được chọn trong bước đầu tiên.
Bước này thường chiếm nhiều thời gian nhất trong quá trình khám phá tri thức Các công việc tiền xử lý dữ liệu bao gồm :
1 Xử lý dữ liệu bị mất/ thiếu: Các dữ liệu bị thiếu sẽ đƣợc thay thế bởi các giá trị thích hợp
2 Khử sự trùng lặp: các đối tƣợng dữ liệu trùng lặp sẽ bị loại bỏ Kỹ thuật này không đƣợc sử dụng cho các tác vụ có quan tâm đến phân bố dữ liệu
3 Giảm nhiễu: dữ liệu nhiễu và các đối tƣợng tách rời khỏi phân bố chung sẽ bị loại bỏ khỏi tập dữ liệu
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
4 Chuẩn hoá: thông thường là chuẩn hoá miền giá trị của dữ liệu cho phù hợp
5 Rời rạc hoá: chính là việc biến đổi các dữ liệu dạng số về dữ liệu với các giá trị rời rạc
6 Rút trích và xây dựng đặc trƣng mới từ các thuộc tính đã có
7 Giảm chiều: là loại bỏ bớt các thuộc tính chứa ít thông tin
1.2.3 KPDL và rút ra các tri thức Đây là bước quan trọng nhất trong tiến trình khám phá tri thức Kết quả của bước này là trích ra được các mẫu và/hoặc các mô hình ẩn dưới một khối lượng lớn dữ liệu Một mô hình có thể là một biểu diễn cấu trúc tổng thể một thành phần của hệ thống hay cả hệ thống trong cơ sở dữ liệu, hoặc miêu tả cách dữ liệu đƣợc nảy sinh Còn một mẫu là một cấu trúc cục bộ có liên quan đến vài biến và vài trường hợp trong cơ sở dữ liệu
1.2.4 Phân tích và kiểm định kết quả
Bước thứ tư là hiểu rõ các tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả và dự đoán Kết quả tìm được sẽ được chuyển đổi thành dạng phù hợp với lĩnh vực ứng dụng, giúp người dùng dễ dàng tiếp cận và hiểu rõ hơn.
1.2.5 Sử dụng các tri thức phát hiện đƣợc
Trong giai đoạn này, các kiến thức được khám phá sẽ được củng cố và kết hợp thành một hệ thống thống nhất, đồng thời giải quyết các xung đột tiềm ẩn giữa các kiến thức đó Các mô hình rút ra sẽ được tích hợp vào hệ thống thông tin thực tế dưới dạng các mô-đun hỗ trợ quyết định.
Các giai đoạn của quá trình khám phá tri thức có mối quan hệ chặt chẽ và ảnh hưởng lẫn nhau trong hệ thống Kỹ thuật áp dụng ở giai đoạn trước có thể tác động đến hiệu quả của các thuật toán trong giai đoạn tiếp theo Quá trình khám phá tri thức có thể được lặp lại để tối ưu hóa kết quả.
Số hóa được thực hiện bởi Trung tâm Học liệu – Đại học Thái Nguyên cho phép thu thập kết quả qua nhiều lần thực hiện Những kết quả này có thể được tính trung bình để đảm bảo tính chính xác và nhất quán trong quá trình đánh giá.
Quá trình KPDL
KPDL, hay khám phá tri thức trong cơ sở dữ liệu, là hoạt động cốt lõi trong việc khám phá tri thức, được định nghĩa bởi Fayyad, Smyth và Piatestky-Shapiro vào năm 1989 Quá trình KPDL bao gồm 6 bước chính.
Quá trình KPDL bắt đầu với kho dữ liệu thô và kết thúc với tri thức đƣợc chiết xuất ra Các bước của quá trình như sau:
Tập hợp dữ liệu là bước khởi đầu quan trọng trong quy trình KPDL, nơi dữ liệu được thu thập từ các cơ sở dữ liệu, kho dữ liệu, và cả từ các nguồn cung cấp trên web.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
1.3.2 Trích lọc dữ liệu ( selection ) Ở giai đoạn này dữ liệu đƣợc lựa chọn và phân chia theo một số tiêu chuẩn nào đó
1.3.3 Làm sạch và tiền xử lý dữ liệu ( cleansing preprocessing preparation )
Giai đoạn thứ ba trong quá trình KPDL thường bị sao lãng, nhưng thực sự là rất quan trọng Nhiều lỗi thường gặp trong việc gom dữ liệu bao gồm dữ liệu không đầy đủ, không thống nhất và thiếu chặt chẽ, dẫn đến việc dữ liệu chứa các giá trị vô nghĩa và không thể kết nối với nhau.
Giai đoạn thứ ba trong xử lý dữ liệu là rất quan trọng, đặc biệt đối với sinh viên có tuổi 0 Việc làm sạch và tiền xử lý dữ liệu là cần thiết để loại bỏ thông tin dư thừa và không có giá trị Nếu không thực hiện đúng quy trình này, kết quả cuối cùng có thể bị sai lệch nghiêm trọng.
1.3.4 Chuyển đổi dữ liệu ( transformation )
Trong giai đoạn này, việc tổ chức và tái sử dụng dữ liệu là rất quan trọng Mục tiêu của việc chuyển đổi dữ liệu là để tối ưu hóa dữ liệu cho các mục đích của KPDL.
1.3.5 Phát hiện và trích mẫu dữ liệu ( pattern extraction and discovery) Đây là bước tư duy trong KPDL Ở trong giai đoạn này nhiều thuật toán khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu Thuật toán thường dùng để trích mẫu dữ liệu là thuật toán phân loại dữ liệu, kết hợp dữ liệu, thuật toán mô hình hoá dữ liệu tuần tự
1.3.6 Đánh giá kết quả ( evaluation of result ) Đây là giai đoạn cuối cùng trong quá trình KPDL, ở giai đoạn này các mẫu dữ liệu đƣợc chiết xuất ra bởi phần mềm KPDL Không phải mẫu dữ liệu nào cũng hữu ích, đôi khi nó còn bị sai lệch Vì vậy cần phải đƣa ra những tiêu chuẩn đánh giá độ ƣu tiên cho các mẫu dữ liệu để rút ra đƣợc những tri thức cần thiết
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Chức năng của KPDL
KPDL có hai chức năng chính là mô tả và dự đoán Chức năng mô tả của KPDL tập trung vào việc phân tích và mô tả các tính chất chung của dữ liệu trong cơ sở dữ liệu, nhằm cung cấp cái nhìn sâu sắc hơn về một tập mẫu đã biết, giúp con người hiểu rõ và sâu hơn về dữ liệu.
Công việc của KPDL sẽ tập trung vào việc sử dụng dữ liệu hiện hành để thực hiện suy luận và đưa ra dự đoán Điều này bao gồm việc phân tích tập dữ liệu huấn luyện và xây dựng một hoặc nhiều mô hình nhằm dự đoán các mẫu mới chưa được biết đến.
Các kỹ thuật KPDL
Có nhiều kỹ thuật khác nhau trong KPDL được sử dụng để thực hiện hai chức năng chính là mô tả và dự đoán Mỗi chức năng đều có những kỹ thuật KPDL tương ứng phù hợp.
Kỹ thuật KPDL (Khai phá dữ liệu) có nhiệm vụ mô tả các tính chất và đặc điểm chung của dữ liệu trong cơ sở dữ liệu hiện có Một số kỹ thuật khai phá dữ liệu phổ biến trong nhóm này bao gồm phân cụm dữ liệu (Clustering), tổng hợp (Summarisation), trực quan hóa (Visualization), cũng như phân tích sự phát triển và độ lệch (Evolution and deviation analysis).
Kỹ thuật KPDL dự đoán đóng vai trò quan trọng trong việc đưa ra các dự đoán dựa trên dữ liệu hiện có Một số kỹ thuật khai phá dữ liệu phổ biến trong nhóm này bao gồm phân lớp, hồi quy, cây quyết định, thống kê, mạng nơron và luật kết hợp Những phương pháp này giúp cải thiện khả năng phân tích và dự đoán trong nhiều lĩnh vực khác nhau.
Một số kỹ thuật phổ biến thường được sử dụng để KPDL hiện nay là :
Mục tiêu của phân lớp dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu thông qua hai bước chính: đầu tiên là xây dựng mô hình, sau đó là sử dụng mô hình đó để phân lớp dữ liệu hiệu quả.
Số hóa từ Trung tâm Học liệu – Đại học Thái Nguyên được sử dụng để dự đoán nhãn lớp, với điều kiện độ chính xác của mô hình đạt yêu cầu.
Mục tiêu của phân cụm dữ liệu là nhóm các đối tượng tương đồng trong tập dữ liệu thành các cụm, đảm bảo rằng các đối tượng trong cùng một lớp có sự tương đồng cao với nhau.
1.5.3 Khai phá luật kết hợp:
Phương pháp khai phá luật kết hợp nhằm phát hiện và xác định mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu Kết quả của thuật toán này là tập hợp các luật kết hợp được tìm ra Quy trình khai phá luật kết hợp bao gồm hai bước chính.
Để tìm ra các tập mục phổ biến, bước đầu tiên là xác định chúng thông qua việc tính toán độ hỗ trợ và đảm bảo rằng chúng đáp ứng tiêu chí về độ hỗ trợ tối thiểu.
- Bước 2: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, luật phải thoả mãn độ hỗ trợ và độ tin cậy cực tiểu
Phương pháp hồi quy tương tự như phân lớp dữ liệu, nhưng khác biệt ở chỗ hồi quy được sử dụng để dự đoán các giá trị liên tục, trong khi phân lớp dữ liệu dùng để dự đoán các giá trị rời rạc.
Giải thuật di truyền là một quá trình mô phỏng tiến hóa tự nhiên, dựa trên các quy luật di truyền, sự biến đổi và chọn lọc tự nhiên trong sinh học.
1.5.6 Mạng nơron: Đây là một trong những kỹ thuật KPDL đƣợc ứng dụng phổ biến hiện nay Kỹ thuật này phát triển dựa trên một nền tảng toán học vững vàng, khả năng huấn luyện trong kỹ thuật này dựa trên mô hình thần kinh trung ương của con người
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Mạng nơron học có khả năng tạo ra các mô hình dự báo với độ chính xác và tin cậy cao, đồng thời phát hiện các xu hướng phức tạp mà các kỹ thuật thông thường khó có thể nhận diện Tuy nhiên, phương pháp này rất phức tạp và đòi hỏi nhiều thời gian, dữ liệu và quá trình kiểm tra thử nghiệm tỉ mỉ.
Kỹ thuật cây quyết định là một công cụ mạnh mẽ và hiệu quả trong việc phân lớp và dự báo dữ liệu Phương pháp này giúp phân loại các đối tượng dữ liệu thành các lớp khác nhau, từ đó dự đoán giá trị của những đối tượng chưa biết Tri thức rút ra từ kỹ thuật này thường được thể hiện một cách tường minh, đơn giản và trực quan, dễ hiểu cho người sử dụng.
Các dạng dữ liệu có thể khai phá đƣợc
- CSDL quan hệ - đối tƣợng
- CSDL không gian và thời gian
Các lĩnh vực liên quan và ứng dụng của KPDL
1.7.1 Các lĩnh vực liên quan đến khám phá tri thức và KPDL
Khám phá tri thức và KPDL được ứng dụng rộng rãi trong nhiều lĩnh vực như tài chính ngân hàng, thương mại, y tế, giáo dục, thống kê, máy học và trí tuệ nhân tạo KPDL đặc biệt liên quan đến thống kê, sử dụng các phương pháp để phát hiện mẫu và luật trong dữ liệu Ngoài ra, kho dữ liệu và các công cụ phân tích trực tuyến cũng đóng vai trò quan trọng trong việc khám phá tri thức và KPDL.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Hình 1.3 Các lĩnh vực liên quan đến KPDL
KPDL được áp dụng rộng rãi trong nhiều lĩnh vực để khai thác nguồn dữ liệu phong phú từ các hệ thống thông tin Tùy thuộc vào đặc thù của từng lĩnh vực, các phương pháp tiếp cận KPDL cũng sẽ có sự khác biệt.
KPDL được áp dụng hiệu quả trong việc giải quyết các vấn đề phức tạp trong các lĩnh vực kỹ thuật cao, bao gồm tìm kiếm mỏ dầu từ ảnh viễn thám, xác định vùng gãy trong ảnh địa chất để dự đoán thiên tai, và cảnh báo hỏng hóc trong các hệ thống sản xuất.
Phân nhóm và dự đoán là công cụ thiết yếu trong quy hoạch và phát triển hệ thống quản lý sản xuất, như dự đoán tải điện cho công ty điện, lưu lượng viễn thông cho nhà mạng, mức tiêu thụ sản phẩm cho nhà sản xuất, giá trị sản phẩm trên thị trường cho công ty tài chính, và phân nhóm khách hàng tiềm năng.
KPDL được áp dụng hiệu quả trong việc giải quyết các vấn đề xã hội, bao gồm phát hiện tội phạm và tăng cường an ninh xã hội, từ đó mang lại những lợi ích thiết thực cho các hoạt động hàng ngày trong đời sống.
Máy học, trí tuệ nhân tạo
Thông tin học Thương mại
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Một số ứng dụng cụ thể nhƣ sau :
- KPDL đƣợc sử dụng để phân tích dữ liệu, hỗ trợ ra quyết định
Trong lĩnh vực sinh học, việc sử dụng công nghệ gen giúp tìm kiếm và so sánh các hệ gen cũng như thông tin di truyền Nó cho phép xác định mối liên hệ giữa các hệ gen, đồng thời hỗ trợ trong việc chẩn đoán một số bệnh di truyền.
- Trong y học: KPDL giúp tìm ra mối liên hệ giữa các triệu chứng, chuẩn đoán bệnh
- Tài chính và thị trường chứng khoán: KPDL dùng để phân tích tình hình tài chính, phân tích đầu tƣ, phân tích cổ phiếu
- Khai thác dữ liệu web
- Trong thông tin kỹ thuật: KPDL dùng để phân tích các sai hỏng, điều khiển và lập lịch trình
- Trong thông tin thương mại: dùng để phân tích dữ liệu người dùng, phân tích dữ liệu marketing, phân tích đầu tƣ, phát hiện các gian lận.
Các thách thức và hướng phát triển của KPDL
Khám phá tri thức và KPDL đang phát triển mạnh mẽ và đạt nhiều thành tựu quan trọng trong một số lĩnh vực Tuy nhiên, quá trình này vẫn gặp phải một số khó khăn cần được giải quyết.
Đối với các cơ sở dữ liệu khổng lồ với hơn 10^12 bản ghi và hơn 10^2 thuộc tính, việc xác định mối quan hệ giữa các thuộc tính và tổng quát hóa dữ liệu trở nên rất khó khăn.
- Một vấn đề khó khăn nữa là theo thời gian thì một số kết quả tri thức rút ra từ tập mẫu dữ liệu không còn phù hợp nữa
- Dữ liệu bị thiếu hoặc bị nhiễu
- Quan hệ giữa các trường thuộc tính phức tạp
Việc ứng dụng kết quả của data mining vào thực tiễn gặp nhiều khó khăn, đặc biệt là trong việc kết hợp tri thức thu được thành một hệ thống hoàn chỉnh và chuyển đổi chúng thành dạng thích hợp để sử dụng hiệu quả.
Trung tâm Học liệu – Đại học Thái Nguyên đã số hóa nội dung, giúp người dùng dễ dàng hiểu và đánh giá Đồng thời, việc tích hợp kết quả khai phá dữ liệu với các hệ thống khác cũng được thực hiện, mặc dù gặp một số khó khăn.
Hướng phát triển của khám phá tri thức và KPDL là vượt qua thách thức, mở rộng ứng dụng trong mọi lĩnh vực xã hội, và tăng tính hữu ích trong các lĩnh vực hiện tại Cần phát triển các phương pháp KPDL linh động để xử lý dữ liệu lớn hiệu quả, đồng thời tạo ra tương tác người dùng tốt, giúp họ tham gia vào quá trình KPDL và định hướng hệ thống phát hiện các mẫu quan trọng Việc tích hợp KPDL vào hệ cơ sở dữ liệu và ứng dụng KPDL cho web trực tuyến cũng là điều cần thiết Một yếu tố quan trọng trong phát triển khám phá tri thức và KPDL là đảm bảo an toàn và bảo mật thông tin.
CÂY QUYẾT ĐỊNH VÀ CÁC THUẬT TOÁN KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH
Cây quyết định
Cây quyết định là một công cụ phân lớp dữ liệu với cấu trúc dạng cây, đại diện cho quyết định của một lớp dữ liệu cụ thể Mỗi nút trong cây thể hiện tên một lớp hoặc phép thử thuộc tính, giúp phân chia không gian trạng thái dữ liệu thành các kết quả khả thi Mỗi tập con được phân chia từ phép thử tương ứng với một vấn đề con trong quá trình phân lớp.
2.1.2 Định nghĩa cây quyết định
Trong lý thuyết quyết định, cây quyết định là một đồ thị thể hiện các quyết định cùng với những hậu quả có thể xảy ra, bao gồm rủi ro và tổn thất tài nguyên Cây quyết định được áp dụng để phát triển kế hoạch nhằm đạt được mục tiêu nhất định.
Cây quyết định là một công cụ quan trọng trong quá trình ra quyết định, giúp hỗ trợ đạt được mục tiêu mong muốn Đây là một dạng đặc biệt của cấu trúc cây, được sử dụng rộng rãi trong các lĩnh vực khác nhau để phân tích và đưa ra lựa chọn hợp lý.
Cây quyết định là một mô hình dự báo trong lĩnh vực học máy, giúp ánh xạ các quan sát về sự vật hoặc hiện tượng tới các kết luận về giá trị mục tiêu Mỗi nút trong cây quyết định tương ứng với một biến, và các đường nối giữa nút và nút con thể hiện giá trị cụ thể của biến đó Các nút lá đại diện cho giá trị dự đoán của biến mục tiêu, dựa trên các giá trị của biến được biểu diễn qua đường đi từ nút gốc tới nút lá Kỹ thuật học máy áp dụng trong cây quyết định được gọi là học bằng cây quyết định.
Cây quyết định là một phương pháp kết hợp các kỹ thuật toán học và tính toán, giúp mô tả, phân loại và tổng quát hóa dữ liệu một cách hiệu quả.
Cây quyết định có 2 tên khác:
Cây hồi quy : ƣớc lƣợng các hàm giá có giá trị là số thực thay vì đƣợc sử dụng cho các nhiệm vụ phân loại
Cây phân loại: có chứa các biến phân loại nhƣ: giới tính ( nam hay nữ), kết quả của một trận đấu (thắng hay thua)
Ví dụ: Cây quyết định phân lớp mức lương có các dữ kiện sau:
ID ( Định danh ), age (tuổi), salary (lương)
Phân lớp mức lương có 2 lớp: good, bad
Tập dữ liệu nhƣ sau:
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Bảng 2.1 : Tập dữ liệu huấn luyện quyết định phân lớp mức lương
Cây quyết định phân lớp mức lương có dạng như sau:
Hình 2.1 Cây quyết đinh phân lớp mức lương
2.1.3 Ƣu điểm của cây quyết định
So với các phương pháp KPDL khác, cây quyết định có một số ưu điểm sau:
- Cây quyết định tương đối dễ hiểu Người ta có thể hiểu được mô hình của cây quyết định chỉ cần sau khi đƣợc giải thích ngắn gọn
Kỹ thuật KPDL bằng cây quyết định yêu cầu chuẩn bị dữ liệu ở mức cơ bản, thậm chí có thể không cần xử lý dữ liệu trước khi khai phá Ngược lại, các kỹ thuật khác thường cần thực hiện nhiều thao tác xử lý dữ liệu trước khi tiến hành.
Số hóa tài liệu tại Trung tâm Học liệu – Đại học Thái Nguyên bao gồm các quy trình phức tạp như chuẩn hóa dữ liệu, tạo ra các biến phụ và loại bỏ các giá trị rỗng để đảm bảo chất lượng thông tin.
Cây quyết định có khả năng xử lý cả dữ liệu số liên tục và dữ liệu phân loại rời rạc, trong khi nhiều kỹ thuật khác thường chỉ chuyên về một loại dữ liệu duy nhất Ví dụ, các luật quan hệ chỉ áp dụng cho biến loại rời rạc, trong khi mạng nơron chỉ làm việc với biến có giá trị số.
Cây quyết định là một mô hình hộp trắng, cho phép người dùng dễ dàng giải thích các điều kiện của một tình huống cụ thể thông qua logic boolean.
Việc thẩm định mô hình cây quyết định thông qua các kiểm tra thống kê giúp tăng cường độ tin cậy vào kết quả của mô hình.
Cây quyết định có khả năng xử lý lượng lớn dữ liệu và đưa ra kết quả phân tích nhanh chóng, giúp các nhà chiến lược đưa ra quyết định kịp thời Trong thời đại công nghệ thông tin, việc nắm bắt thông tin và ra quyết định sớm là yếu tố quyết định thành công trong kinh doanh.
2.1.4 Vấn đề xây dựng cây quyết định
Xây dựng cây quyết định là bước quan trọng trong việc áp dụng cây quyết định cho KPDL, với nhiều thuật toán khác nhau như CLS, ID3, C4.5, SLIQ, SPRINT, EC4.5, và C5.0 Dù sử dụng thuật toán nào, quá trình xây dựng cây quyết định thường được chia thành ba giai đoạn cơ bản.
Trong giai đoạn này, tập dữ liệu huấn luyện được chia nhỏ theo cách đệ quy cho đến khi các mẫu ở mỗi nút lá thuộc cùng một lớp, tạo ra các nút lá thuần khiết Các nút không phải là nút lá sẽ không được coi là thuần khiết.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên, các thuộc tính được kiểm tra nhằm xác định thuộc tính "chiến thắng" cho quá trình phân tách tiếp theo Nhãn của nút trong phép tách này sẽ là nhãn của thuộc tính đã được chọn.
"chiến thắng" đồng thời tập dữ liệu tại nút này đƣợc phân tách ra làm các tập con theo các giá trị của thuộc tính đó b Cắt tỉa cây
Cây thường hoạt động hiệu quả trên tập dữ liệu huấn luyện, nhưng có thể không chính xác khi đối mặt với dữ liệu bị nhiễu hoặc thiếu Do đó, cần thực hiện giai đoạn cắt tỉa cây để tối ưu hóa kích thước và độ chính xác trong việc phân loại mẫu dữ liệu Việc đánh giá cây là bước quan trọng trong quá trình này.
Các thuật toán KPDL bằng cây quyết định
Kỹ thuật khai phá dữ liệu bằng cây quyết định là kỹ thuật thuật đƣợc trình bày trọng tâm trong luận văn này
Từ lâu, việc phân loại dữ liệu bằng cây quyết định đã thu hút sự chú ý Mỗi phương pháp phân loại được ghi chép và công bố như một kỹ thuật KPDL Qua thời gian, các kỹ thuật này đã bộc lộ những ưu điểm và nhược điểm, đồng thời không ngừng được cải tiến để đáp ứng nhu cầu sử dụng trong KPDL.
Cây quyết định, lần đầu tiên được giới thiệu bởi Hoveland và Hint trong hệ thống học tập khái niệm (Concept Learning System - CLS) vào cuối những năm 50 của thế kỷ 20, còn được gọi tắt là thuật toán CLS Thuật toán này được thiết kế theo chiến lược chia để trị từ trên xuống và bao gồm nhiều bước thực hiện.
1) Tạo một nút T, nút này gồm tất cả các mẫu của tập huấn luyện
2) Nếu tất cả các mẫu trong T có thuộc tính quyết định mang giá trị "yes" (hay thuộc cùng một lớp), thì gán nhãn cho nút T là "yes" và dừng lại T lúc này là nút lá
3) Nếu tất cả các mẫu trong T có thuộc tính quyết định mang giá trị
"no" (hay thuộc cùng một lớp), thì gán nhãn cho nút T là "no" và dừng lại T lúc này là nút lá
4) Trường hợp ngược lại các mẫu của tập huấn luyện thuộc cả hai lớp
"yes" và "no" thì: i Chọn một thuộc tính X trong tập thuộc tính của tập mẫu dữ liệu, X có các giá trị v 1 ,v 2 , …v n
Chia tập mẫu T thành các tập con T1, T2,…, Tn dựa trên giá trị của X Tạo n nút con Ti (i=1,2,…,n) với nút cha là nút T Thiết lập các nhánh kết nối từ nút T đến các nút Ti (i=1,2,…,n).
5) Thực hiện lặp cho các nút con T i (i =1,2 n) và quay lại bước 2
Ví dụ: Cho tập dữ liệu huấn luyện thể hiện trong bảng dữ liệu 2.2, xây dựng cây quyết định đi chơi tennis
D1 Sunny Hot High Weak No
D2 Sunny Hot High Strong No
D3 Overcast Hot High Weak Yes
D4 Rain Mild High Weak Yes
D5 Rain Cool Normal Weak Yes
D6 Rain Cool Normal Strong No
D7 Overcast Cool Normal Strong Yes
D8 Sunny Mild High Weak No
D9 Sunny Cool Normal Weak Yes
D10 Rain Mild Normal Weak Yes
D11 Sunny Mild Normal Strong Yes
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
D12 Overcast Mild High Strong Yes
D13 Overcast Hot Normal Weak Yes
D14 Rain Mild High Strong No
Bảng 2.2 tập dữ liệu huấn luyện quyết định chơi tennis
Bảng dữ liệu trên chứa các mẫu mô tả quyết định chơi tennis, với thuộc tính Day được sử dụng để định danh Các thuộc tính outlook đóng vai trò quan trọng trong việc phân tích và đưa ra quyết định.
Các thuộc tính như quang cảnh bầu trời, nhiệt độ, độ ẩm và gió được sử dụng để đánh giá, trong khi thuộc tính "play tennis" là thuộc tính khẳng định dùng để phân loại các mẫu dữ liệu Cây quyết định được xây dựng theo thuật toán CLS dựa trên tập dữ liệu trong bảng 2.2.
- Chọn thuộc tính outlook = {sunny, overcast, rain} ta có cây nhƣ sau:
Hình 2.2 Với giá trị thuộc tính Outlook ="overcast" các giá trị thuộc tính play tennis của
{D3,D7,D12,D13} đếu có giá trị là yes, chúng thuộc cùng một lớp "yes", đây là nút lá có nhãn là "yes"
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
- Tiếp theo chọn thuộc tính Humidity = {High, normal} để mở rộng cho nhánh bên trái của cây, chúng ta được cây như hình bên dưới
- Chọn thuộc tính wind ={weak, strong} để mở rộng cho nhánh bên phải, chúng ta đƣợc cây con sau:
High normal no yes humidity
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Khi áp dụng thuật toán CLS cho tập dữ liệu huấn luyện trong bảng 2.2 với thứ tự các thuộc tính là outlook, humidity và wind, hình 2.4 thể hiện cây kết quả thu được Nếu thay đổi thứ tự các thuộc tính, cây kết quả sẽ có hình dạng khác.
For instance, when applying the CLS algorithm to construct a tree with the selected attribute order of Outlook, Temperature, Wind, and Humidity, the resulting tree will have a specific structure.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Hai cây quyết định trong hình 2.4 và 2.5 khác nhau, cho thấy rằng khi áp dụng thuật toán CLS để xây dựng cây trên cùng một tập mẫu huấn luyện, kết quả thu được phụ thuộc vào việc lựa chọn thuộc tính để mở rộng cây ở bước 4.
Việc lựa chọn thứ tự thuộc tính để mở rộng cây ảnh hưởng đáng kể đến hình dạng của cây, bao gồm độ rộng và độ sâu, từ đó tác động đến độ phức tạp của cây Câu hỏi đặt ra là thứ tự thuộc tính nào là tối ưu để mở rộng cây, nhằm giảm thiểu độ phức tạp và tối ưu hóa độ chính xác trong phân lớp Vấn đề này sẽ được giải quyết thông qua thuật toán ID3.
Thuật toán ID3 được phát biểu bởi Quinlan (trường đại học Syney,
Australia) và đƣợc công bố vào cuối thập niên 70 của thế kỷ 20 Sau đó, thuật toán
High normal no yes cool
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
ID3, được giới thiệu trong mục Induction on Decision Trees, Machine Learning năm 1986, là một thuật toán đơn giản nhưng hiệu quả trong nhiều lĩnh vực Nó biểu diễn các khái niệm dưới dạng cây quyết định, cho phép xác định phân loại của đối tượng qua việc kiểm tra giá trị của các thuộc tính Thuật toán ID3 học cây quyết định từ một tập dữ liệu rèn luyện, với đầu vào là các mẫu dữ liệu chứa thuộc tính và giá trị phân loại, và đầu ra là cây quyết định có khả năng phân loại chính xác các ví dụ trong tập dữ liệu rèn luyện cũng như những ví dụ chưa gặp ID3 xây dựng cây quyết định theo phương pháp từ trên xuống (top-down), bắt đầu từ một tập hợp đối tượng và thuộc tính, kiểm tra các thuộc tính tại mỗi nút để tìm thuộc tính tốt nhất cho việc phân chia Quá trình này diễn ra đệ quy cho đến khi tất cả đối tượng trong phân vùng thuộc cùng một lớp, lớp đó trở thành nút lá của cây Để thực hiện điều này, thuật toán ID3 sử dụng hai hàm Entropy và Gian.
Hàm Entropy được sử dụng để đo tính thuần nhất của một tập mẫu dữ liệu, với khái niệm Entropy trong Lý thuyết thông tin thể hiện số lượng bit kỳ vọng cần thiết để mã hóa thông tin về lớp của một thành viên ngẫu nhiên trong tập dữ liệu S Mã tối ưu có độ dài ngắn nhất được định nghĩa là mã gán -log 2 p bits cho thông điệp có xác suất p.
Trong trường hợp S là một tập mẫu rèn luyện thì mỗi thành viên của S là một mẫu Mỗi mẫu thuộc một lớp hay có một giá trị phân loại
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trong trường hợp đơn giản, giả sử các mẫu của S chỉ thuộc 2 lớp có giá trị "yes" (hoặc "dương", "+", "true", "positive","High") và giá trị "no" (hoặc "âm", "-",
"false", "negitive", "Low") Để đơn giản chúng ta thống nhất sử dụng hai giá trị
Ký hiệu p+ đại diện cho tỷ lệ mẫu có giá trị thuộc tính quyết định là "có", trong khi p- biểu thị tỷ lệ mẫu có giá trị thuộc tính quyết định là "không" trong tập S.
Trường hợp tổng quát, đối với tập con S có n phân lớp thì ta có công thức sau: n i 2 i=1
Trong đó P i là tỷ lệ các mẫu thuộc lớp i trên tập hợp S các mẫu kiểm tra
Trong tập dữ liệu học S với 14 mẫu thời tiết (bảng 2.2), có 9 mẫu có giá trị "yes" và 5 mẫu có giá trị "no", ký hiệu là [9 +, 5 -] Entropy của tập S được tính dựa trên các giá trị này.
Các trường hợp đặc biệt:
Nếu tất cả các mẫu trong tập S thuộc cùng một lớp, thì Entropy(S) sẽ bằng 0 Ví dụ, trong trường hợp có hai lớp "yes" và "no", nếu tất cả các mẫu dữ liệu trong S đều thuộc lớp "yes", thì xác suất P- sẽ bằng 0.
Còn nếu tất cả các mẫu trong S đều thuộc vào lớp "no" thì P + =0 và P - =1 khi đó: Entropy(S) =-0*log (0) 1* log (1)2 2 0