1. Trang chủ
  2. » Giáo Dục - Đào Tạo

sử dụng thuật toán phân lớp cây quyết định để tư vấn định hướng nghề nghiệp cho học sinh thpt

40 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Sử dụng thuật toán phân lớp cây quyết định để tư vấn định hướng nghề nghiệp cho học sinh thpt
Tác giả Trần Thị Hiền
Trường học Trường THPT Tây Hiếu
Chuyên ngành Tin học
Thể loại Sáng kiến kinh nghiệm
Năm xuất bản 2021
Thành phố Nghệ An
Định dạng
Số trang 40
Dung lượng 1,94 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • PHẦN I: MỞ ĐẦU (6)
    • 1. Đặt vấn đề (6)
    • 2. Mục tiêu nghiên cứu (7)
    • 3. Đối tượng và phạm vi nghiên cứu (7)
      • 3.1. Đối tượng nghiên cứu (7)
      • 3.2. Phạm vi nghiên cứu (7)
      • 3.3. Nhiệm vụ nghiên cứu (7)
    • 4. Nội dung nghiên cứu (7)
    • 5. Điểm mới của đề tài (8)
  • PHẦN II. NỘI DUNG (9)
  • CHƯƠNG I: CƠ SỞ LÍ LUẬN VÀ THỰC TIỄN CỦA ĐỀ TÀI (9)
    • 1.1. Cơ sở lí luận (9)
      • 1.1.1. Phân lớp dữ liệu (9)
      • 1.1.2. Thuật toán phân lớp cây quyết định (11)
    • 1.2. Cơ sở thực tiễn (14)
      • 1.2.1. Thực trạng tình hình vấn đề (14)
      • 1.2.2. Biện pháp giải quyết vấn đề (14)
      • 1.2.3. Hiệu quả của đề tài (15)
  • CHƯƠNG II. XÂY DỰNG HỆ THỐNG ĐỊNH HƯỚNG NGHỀ NGHIỆP SỬ DỤNG THUẬT TOÁN PHÂN LỚP CÂY QUYẾT ĐỊNH (0)
    • 2.1. Xây dựng bộ dữ liệu (16)
    • 2.2. Xác định đầu vào và đầu ra của hệ thống (16)
      • 2.2.1. Lựa chọn đặc trưng (16)
      • 2.2.2. Xác định nhóm ngành nghề (16)
      • 2.2.3. Sơ đồ của hệ thống (17)
    • 2.3. Mô hình phân lớp cho hệ thống định hướng nghề nghiệp (17)
  • CHƯƠNG III. THỰC NGHIỆM SƯ PHẠM (22)
    • 3.1. Môi trường thực nghiệm WEKA (22)
    • 3.2. Phương pháp thực nghiệm (23)
    • 3.3. Kết quả thử nghiệm và đánh giá (27)
  • PHẦN III. KẾT LUẬN (24)
    • 1. Kết luận (24)
    • 2. Kiến nghị và hướng phát triển (24)
  • TÀI LIỆU THAM KHẢO (36)

Nội dung

NỘI DUNG

Trong quá trình hoạt động, con người tạo ra nhiều tập dữ liệu lớn chứa thông tin và quy luật chưa được khám phá Do đó, cần thiết phải trích lọc các luật từ những tập dữ liệu này PLDL là quá trình khám phá các luật đặc trưng và phân loại cho các tập dữ liệu đã được xếp lớp Tập dữ liệu học bao gồm các đối tượng đã xác định lớp, từ đó tạo ra mô hình phân lớp dựa trên đặc trưng của chúng Các luật phân lớp được sử dụng để xây dựng bộ PLDL, đóng vai trò quan trọng trong việc dự đoán khuynh hướng và quy luật phát triển cho hoạt động thực tiễn, đồng thời hỗ trợ quá trình nghiên cứu khoa học.

PLDL là một quá trình gồm:

- Bước học (Xây dựng trên một mô hình phân lớp)

- Bước phân lớp (mô hình vừa xây dựng được sử dụng để dự đoán nhãn cho những lớp dữ liệu nào đó)

Hình 1.2 (a): Bước học/ huấn luyện trong quá trình phân lớp hai bước [7]

CƠ SỞ LÍ LUẬN VÀ THỰC TIỄN CỦA ĐỀ TÀI

Cơ sở lí luận

Trong quá trình hoạt động, con người tạo ra nhiều tập dữ liệu lớn chứa thông tin và quy luật chưa được khám phá Do đó, cần tìm cách trích lọc các luật từ những tập dữ liệu này PLDL là tiến trình khám phá các luật đặc trưng và phân loại cho các tập dữ liệu đã được xếp lớp, sử dụng các đối tượng đã xác định lớp để tạo mô hình phân lớp Các luật phân lớp này giúp xây dựng bộ PLDL, công nghệ này đang phát triển mạnh mẽ để đáp ứng nhu cầu tri thức của con người, đóng vai trò quan trọng trong dự đoán xu hướng và quy luật phát triển trong thực tiễn, cũng như hỗ trợ quá trình nghiên cứu khoa học.

PLDL là một quá trình gồm:

- Bước học (Xây dựng trên một mô hình phân lớp)

- Bước phân lớp (mô hình vừa xây dựng được sử dụng để dự đoán nhãn cho những lớp dữ liệu nào đó)

Hình 1.2 (a): Bước học/ huấn luyện trong quá trình phân lớp hai bước [7]

Trong bước học/huấn luyện, chúng ta xây dựng mô hình phân lớp để xác định các lớp dữ liệu hoặc khái niệm Thuật toán phân lớp sẽ phân tích một tập huấn luyện từ bản ghi trong cơ sở dữ liệu (CSDL) và các nhãn lớp tương ứng Mỗi bản ghi X được biểu diễn dưới dạng một vector thuộc tính n chiều, X=(x1, x2, …, xn), mô tả các giá trị đo từ n thuộc tính của CSDL A1, A2, …, An Mỗi bản ghi X được giả định thuộc về một lớp đã được quy định trước, theo thuộc tính nhãn lớp trong CSDL.

Thuộc tính nhãn lớp là giá trị rời rạc và không có thứ tự, đóng vai trò phân loại với mỗi giá trị tương ứng với một loại hoặc lớp Các bản ghi riêng lẻ tạo thành tập huấn luyện, được gọi là bản ghi huấn luyện, được lấy mẫu ngẫu nhiên từ cơ sở dữ liệu đang phân tích Trong ngữ cảnh phân lớp, các bản ghi có thể được gọi là ví dụ, thể hiện, điểm dữ liệu, mẫu hoặc đối tượng tùy theo tài liệu.

Học có giám sát là quá trình mà mô hình phân lớp được đào tạo với các bản ghi huấn luyện đã có nhãn lớp sẵn, giúp nó nhận biết được thuộc tính của từng lớp Điều này khác biệt với học không giám sát, trong đó không có thông tin về nhãn lớp của các bản ghi, cũng như không xác định được số lượng hoặc tập hợp các lớp cần phân loại.

Mỗi thuộc tính biểu thị một “đặc điểm” của X, do đó trong tài liệu về nhận dạng mẫu, thuật ngữ vector đặc điểm được sử dụng thay cho vector thuộc tính.

Hình 1.2 (b): Bước phân lớp trong quá trình phân lớp hai bước

Thuật ngữ "vector thuộc tính" đề cập đến bất kỳ biến nào đại diện cho một vector, được định dạng bằng kiểu chữ đậm và nghiêng Các giá trị đo mô tả vector đó được trình bày bằng kiểu chữ nghiêng, ví dụ như X = (x₁, x₂, x₃).

Trong các tài liệu về máy học, các bản ghi huấn luyện thường được gọi là mẫu huấn luyện hoặc ví dụ huấn luyện

Bước đầu tiên trong quá trình phân lớp là học một ánh xạ y=f(X) để dự đoán nhãn lớp y cho một bản ghi X Mục tiêu là tìm ra một hàm phân tách các lớp dữ liệu, thường được biểu diễn qua các luật phân lớp, cây quyết định hoặc công thức toán học Để đánh giá độ chính xác của mô hình phân loại, cần sử dụng một tập kiểm tra độc lập với tập huấn luyện, nhằm tránh việc mô hình quá khớp dữ liệu Độ chính xác của mô hình trên tập kiểm tra được xác định bởi tỷ lệ bản ghi được phân loại đúng, so sánh nhãn lớp thực tế với dự đoán của mô hình.

1.1.2 Thuật toán phân lớp cây quyết định

Cây quyết định là quá trình tìm kiếm các cấu trúc cây từ các bản ghi huấn luyện đã được gán nhãn lớp Mỗi cây quyết định bao gồm các nút kiểm tra thuộc tính, với nhánh biểu thị kết quả kiểm tra và nút lá chứa nhãn lớp Nút gốc ở đầu cây đại diện cho thuộc tính cần kiểm tra Hình 1.3 minh họa một cây quyết định tiêu biểu, trong đó các nút được biểu diễn bằng hình chữ nhật và các nút lá bằng hình bầu dục Một số thuật toán chỉ tạo ra cây nhị phân, trong khi những thuật toán khác có thể tạo ra cây không nhị phân.

Các cây quyết định được dùng cho phân lớp như thế nào? Cho một bản ghi

Khi một bản ghi với nhãn lớp chưa biết được kiểm tra, các giá trị thuộc tính của nó sẽ được so sánh với cây quyết định Qua các cuộc kiểm tra này, ta có thể xác định được đường đi từ gốc đến nút lá, nơi chứa kết quả dự đoán lớp cho bản ghi Cây quyết định có thể được chuyển đổi thành các luật phân lớp, tạo ra hình thức phân loại đơn giản và dễ hiểu cho con người.

* Thuật toán phân lớp cây quyết định

Thuật toán ID3, do Quinlan phát triển và công bố vào cuối thập niên 70, được coi là một cải tiến của CLS, với khả năng chọn lựa thuộc tính tối ưu để xây dựng cây quyết định ở từng bước Mô hình hóa thuật toán ID3 (I, O, S) giúp nâng cao hiệu quả trong việc phân loại dữ liệu.

Input: Tập dữ liệu huấn luyện S với I là tập đặc trưng và O là thuộc tính phân lớp Ouput: Cây phân lớp – Tập luật phân lớp

Bước 1 Nếu S rỗng thì Return “Cây rỗng”;

Bước 2: Nếu các bản ghi trong tập S có giá trị giống nhau trên thuộc tính O, thì trả về một nút với giá trị đó Bước 3.1: Tính toán Gain của từng thuộc tính trong tập I, giả sử X là thuộc tính trong I có Gain lớn nhất.

Bước 3.2 Đặt {x_j : j=1, 2, , m} là các giá trị của X;

Bước 3.3 Đặt {S_j : j=1, 2, , m} là các tập con của S khi S bị phân hoạch theo các giá trị của X;

Bước 3.3.1 Return nút gốc với nhãn X và các nhánh là x_1, x_2, , x_m;

- Entropy của một tập S được tính theo công thức (2.1) Entropy được dùng để đo

Hình 1.3: Một ví dụ về cây quyết định

8 tính thuần nhất của một tập dữ liệu

+ Trong trường hợp các mẫu dữ liệu có 2 thuộc tính phân lớp thì “Yes” (+), “No” (−)

Kí hiệu P + đại diện cho tỷ lệ mẫu có giá trị thuộc tính quyết định là “Yes”, trong khi ký hiệu P − biểu thị tỷ lệ mẫu có giá trị thuộc tính quyết định là “No” trong tập dữ liệu.

+ Trường hợp tổng quát, đối với tập con S có n phân lớp thì ta có công thức sau:

Trong đó Pi là tỷ lệ các mẫu thuộc lớp i trên tập S các mẫu kiểm tra

+ Các trường hợp đặc biệt:

- Nếu tất cả các mẫu thành viên trong tập S đều thuộc cùng một lớp thì Entropy=0

- Nếu trong tập S có số mẫu phân bố đều nhau vào các lớp thì Entropy(S)=1

- Các trường hợp còn lại 0 < Entropy(S)

Ngày đăng: 21/05/2021, 22:06

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w