1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng công nghệ trí tuệ nhân tạo trong đánh giá chất lượng đào tạo trực tuyến tại trường đại học mở hà nội

77 11 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng công nghệ trí tuệ nhân tạo trong đánh giá chất lượng đào tạo trực tuyến tại trường đại học mở hà nội
Tác giả Nguyễn Mạnh Hùng
Người hướng dẫn TS. Đinh Tuấn Long
Trường học Trường Đại Học Mở Hà Nội
Chuyên ngành Công nghệ thông tin
Thể loại Luận văn thạc sĩ
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 77
Dung lượng 2,35 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • Chương 1..........................................................................................................................0 (0)
    • 1.1. Đào tạo trực tuyến (7)
      • 1.1.1. Bối cảnh cùa giáo dục và ứng dụng công nghệ trong giáo dục hiện nay (0)
      • 1.1.2. Vai trò của công nghệ thông tin và sự hỉnh thành cúa đào tạo trực tuyến (0)
      • 1.1.3. Giáo dục đại học trong cuộc cách mạng công nghiệp 4.0 (12)
    • 1.2. Trí tuệ nhân tạo (13)
      • 1.2.1. Khái niệm (13)
      • 1.2.2. Quá trình phát hiện tri thức từ cơ sở dữ liệu (0)
    • 1.3. Học máy (16)
    • 1.4. Các thuật toán học máy (18)
      • 1.4.1. Thuật toán phân loại (18)
      • 1.4.2. Thuật toán hồi quy (25)
      • 1.4.3. Hồi quy tuyến tính (31)
      • 1.4.4. Thuật toán phân cụm (32)
      • 1.4.5. Thuật toán học tập đồng bộ (34)
  • Chương 2....................................................................................................................... 30 (0)
    • 2.1. Thuật toán Naive Bayes trong trí tuệ nhân tạo (36)
      • 2.1.1. Khái niệm (36)
      • 2.1.2. Định lý Bayes (36)
      • 2.1.3. Mô hình Phân lớp Naive Bayes (0)
    • 2.2. Các bước thực hiện thuật toán Naive Bayes (39)
    • 2.3. Thuật toán phân loại KQHT Naive Bayes (0)
    • 2.4. Uu điểm thuật toán (45)
  • Chương 3....................................................................................................................... 41 (0)
    • 3.1. Bài toán (47)
    • 3.2. Đồ xuất tham số sử dụng thuật toán Naive Bayes dự đoán kết quă học tập của sinh viên (0)
    • 3.3. Xây dựng chirơng trình demo (0)
    • 3.4. Đánh giá kết quả thực nghiệm (74)
  • TÀI LIỆU THAM KHẢO (77)

Nội dung

Đào tạo trực tuyến

1.1.1 Bối cảnh của giáo dục và ứng dụng công nghệ trong giáo dục hiện nay

Tổ chức Giáo dục, Khoa học và Văn hóa Liên hợp quốc UNESCO dự báo rằng công nghệ thông tin sẽ làm thay đổi căn bản và toàn diện nền giáo dục Sự phát triển của công nghệ giáo dục sẽ tạo ra các phương thức giáo dục phi truyền thống, thúc đẩy sự phát triển của một nền giáo dục chuyển đổi sâu sắc cho con người Điều này bao gồm việc dạy mọi người, nâng cao kiến thức và nhu cầu chia sẻ, cũng như tập trung vào việc chuyển dịch năng lực bền vững trong không gian giáo dục Do đó, việc ứng dụng công nghệ để tạo ra sự thay đổi trong quá trình giáo dục trở nên cần thiết hơn bao giờ hết.

Báo cáo tại Diễn đàn Kinh tế Thế giới 2016 ở Davos cho thấy 65% người học vẫn theo đuổi những kiến thức liên quan đến các công việc sẽ biến mất trong tương lai Hơn nữa, 47% ngành nghề hiện tại sẽ bị tự động hóa trong vòng hai thập kỷ tới Đến năm 2020, hơn 50% nội dung giảng dạy ở các cấp học sẽ trở nên không còn hữu ích trong 5 năm tiếp theo (Klaus Schwab, 2016).

Những sự thay đổi toàn cầu hiện nay chịu ảnh hưởng bởi bốn nhóm yếu tố chính: tác động xã hội, hành động chiến lược, tài năng và lực lượng lao động, cùng với tác động của công nghệ (Bcrsin, Deloitte Consulting LLP, 2018) Theo báo cáo của Deloitte Consulting, bảy yếu tố gây ra sự thay đổi trong tương lai sẽ bao gồm sự phổ biến của công nghệ, dữ liệu lớn, sự đa dạng và thay đổi nhanh chóng của thế hệ trẻ, sự biến đổi nhanh chóng trong nghề nghiệp, trí tuệ nhân tạo và robot, tự động hóa trong công việc, cùng với sự gia tăng đội ngũ lao động trong các công việc bình thường (Deloitte Consulting, 2018) Do đó, sự can thiệp của công nghệ thông tin là cần thiết để giải quyết những mâu thuẫn ngày càng sâu sắc trong xã hội.

Sự gia tăng dân số và di chuyển lao động đòi hỏi năng lực nghề nghiệp mới và khả năng thích ứng nhanh chóng trước sự thay đổi công việc Với số lượng việc làm mất đi và xuất hiện liên tục trong thời gian ngắn, giáo dục cho mọi người và việc học tập suốt đời trở nên quan trọng hơn bao giờ hết.

- Sự công bàng trong tiếp cận và nhu cầu đa dạng, không giới hạn về giáo dục, tiếp cận tri thức mới;

- Tính cạnh tranh ve so lượng và chất lượng cùa nguồn nhân lực (công dân số);

Quá trình sản xuất tri thức và sự "sán sinh" của nó đang diễn ra mạnh mẽ trong thế kỷ 21, đòi hỏi người học phải phát triển những năng lực mới phù hợp Các thiết chế giáo dục và đào tạo cần đáp ứng kịp thời với những yêu cầu này, nhằm trang bị cho học sinh, sinh viên những kỹ năng cần thiết để thành công trong môi trường thay đổi nhanh chóng.

Trong bối cảnh hiện nay, Đảng và Nhà nước xác định rằng "giáo dục là quốc sách hàng đầu" và đầu tư cho giáo dục là đầu tư cho sự phát triển Để phù hợp với xu hướng phát triển xã hội trong thời kỳ công nghiệp hóa, cần phải đổi mới căn bản các quá trình giáo dục, ứng dụng công nghệ mới và phát huy tính tích cực của người học nhằm nâng cao chất lượng giáo dục Tinh thần này được thể hiện rõ trong 7 quan điểm chỉ đạo về đổi mới toàn diện giáo dục và đào tạo trong Nghị quyết TW 8, khóa XI của BCH TƯ Đảng (Nghị quyết 29).

1.1.2 Vai trò cua công nghệ thông tin và sự hình thành của đào tạo trực tuyến

Giáo dục đào tạo luôn tìm kiếm sự đổi mới, và sự xuất hiện của công nghệ thông tin đã thúc đẩy việc ứng dụng công nghệ vào giáo dục, được nghiên cứu và triển khai rộng rãi ở nhiều nơi.

Năm 1960, chương trình đào tạo dựa trên máy tính (CBT) đầu tiên được phát triển tại Đại học Illinois và nhanh chóng được áp dụng tại nhiều trường đại học Đến năm 1980, sự xuất hiện của máy tính cá nhân (PC) đã mở rộng khả năng ứng dụng công nghệ này trong việc học các môn học và kỹ năng cụ thể, mang lại nhiều cơ hội học tập hơn cho sinh viên.

Sự phát triển của máy tính, đặc biệt trong lĩnh vực đồ họa và âm thanh, đã mở ra nhiều ứng dụng trong giáo dục như phần mềm học tập trên máy cá nhân, đĩa CD/DVD ghi bài giảng cho sinh viên, và việc trình chiếu nội dung minh họa Đặc biệt, sự phổ biến của Internet đã không chỉ thay thế các bài giảng truyền thống mà còn tạo ra môi trường học tập mới, hình thành phương thức đào tạo trực tuyến hiệu quả.

Theo các nghiên cứu trên thực tế hiện nay, đào tạo trực tuyến được phân chia thành ba mô hình đào tạo trực tuyến:

Đào tạo trực tuyến đồng bộ về thời gian (synchronous learning) là mô hình học trực tuyến cho phép người học và người dạy kết nối và tương tác cùng một lúc thông qua các nền tảng công nghệ như Zoom, Google Meet Mô hình này mang bản chất của lớp học truyền thống nhưng được chuyển đổi lên môi trường trực tuyến, mặc dù bị giới hạn bởi các tính năng của hệ thống sử dụng Ưu điểm của phương thức này là

Mô hình học trực tuyến tại Việt Nam mang lại lợi ích lớn với không gian không giới hạn, giúp người học tiết kiệm chi phí di chuyển Tuy nhiên, chất lượng lớp học phụ thuộc vào kỹ năng của giảng viên và khả năng của hệ thống phần mềm kết nối Hiện nay, nhiều trường học đã áp dụng mô hình này kết hợp với việc gửi bài qua mạng xã hội và email để tổ chức đào tạo hiệu quả.

Đào tạo trực tuyến không đồng bộ về thời gian (asynchronous learning) là mô hình mà người học và người dạy không cần kết nối cùng một thời điểm, cho phép người học tự hoàn thành khóa học với tài liệu đã được cung cấp Mô hình này yêu cầu nội dung đào tạo được chuẩn bị công phu, hỗ trợ người học tự học và người dạy chỉ đóng vai trò hỗ trợ khi cần thiết Ưu điểm nổi bật của mô hình này là người học có thể linh hoạt về không gian và thời gian, phát huy tính tự giác và giảm thiểu chi phí cơ hội cũng như thời gian so với các lớp học truyền thống Một ví dụ điển hình cho mô hình này là các khóa học mở trực tuyến (MOOCs - Massive Open Online Courses).

Đào tạo trực tuyến kết hợp (blended elearning) là mô hình kết hợp giữa học trực tuyến không đồng bộ và lớp học trực tuyến đồng bộ, giúp cung cấp toàn bộ nội dung học tập một cách linh hoạt Mô hình này cho phép người học tham gia vào các lớp học theo thời gian thực cho những nội dung quan trọng và thảo luận, từ đó nâng cao khả năng nắm vững kiến thức Nhờ vào việc khắc phục hầu hết các nhược điểm của hai mô hình học trước đó, blended elearning đã trở thành một trong những phương pháp đào tạo hiệu quả được nhiều trường đại học áp dụng.

Với đào tạo trực tuyến, công nghệ là một yeu tố cần thiết và đóng vai trò hết sức quan trọng nhẳm:

Xây dựng môi trường kết nối trực tuyến nhờ vào sự phát triển của công nghệ thông tin và truyền thông, tạo ra một không gian kết nối đa dạng không bị giới hạn Điều này giúp người học, trường học, gia đình và xã hội dễ dàng tương tác và kết nối một cách hiệu quả và đơn giản.

Công nghệ đã mở ra khả năng xây dựng nội dung học tập đa dạng, không còn bị giới hạn trong sách giáo trình truyền thống Thay vào đó, các loại nội dung số được kết hợp từ nhiều định dạng như âm thanh, hình ảnh, video và công nghệ thực tại ảo Những nội dung này không chỉ mang tính minh họa cao mà còn có khả năng tương tác tốt, giúp người học dễ dàng tiếp cận và nắm bắt kiến thức cần thiết hơn.

Trí tuệ nhân tạo

Các thuật toán trí tuệ nhân tạo là tập hợp hướng dẫn cho phép máy học và phân tích dữ liệu, từ đó đưa ra quyết định Chúng có khả năng thực hiện các tác vụ mà thường cần đến trí thông minh của con người, như nhận dạng màu sắc, hiểu ngôn ngữ tự nhiên, giải quyết vấn đề và ra quyết định.

Lượng thông tin trên thế giới tăng gấp đôi sau mỗi 20 tháng, dẫn đến khối lượng dữ liệu khổng lồ mà con người thu thập và lưu trữ, đôi khi vượt quá khả năng quản lý Trong bối cảnh này, phân tích khủng hoảng dữ liệu hoạt động đã trở thành một công cụ quan trọng, cung cấp thông tin cần thiết cho các nhà ra quyết định trong lĩnh vực tài chính và kinh doanh Như John Nesbeth đã cảnh báo, "Chúng ta đang chìm trong dữ liệu, nhưng vẫn khao khát tri thức" Đối mặt với sự gia tăng nhanh chóng của dữ liệu, các phương pháp truyền thống để phân tích dữ liệu trở nên kém hiệu quả, tốn kém và dễ xảy ra lỗi Do đó, việc khai thác hiệu quả các cơ sở dữ liệu lớn đòi hỏi phải áp dụng các công nghệ mới, đặc biệt là công nghệ khai thác dữ liệu.

Khai thác dữ liệu là một lĩnh vực khoa học mới, giúp tự động phát triển thông tin và tri thức ẩn trong cơ sở dữ liệu cho tổ chức và doanh nghiệp, từ đó nâng cao sản xuất, vận hành và khả năng cạnh tranh Các ứng dụng thành công trong khai phá dữ liệu chứng tỏ đây là lĩnh vực tiềm năng, mang lại nhiều lợi ích so với công cụ phân tích dữ liệu truyền thống Hiện nay, khai thác dữ liệu được áp dụng rộng rãi trong nhiều lĩnh vực như hỗ trợ ra quyết định, điều trị y tế, tin sinh học, kinh doanh, tài chính, bão hiếm, khai thác văn bản và phân tích dữ liệu khác.

1.2.2 Quá trình phát hiện tri thức từ CO' sở dữ liệu

Quá trình này sử dụng đa dạng phương pháp và công cụ công nghệ thông tin, nhưng vẫn tập trung vào con người Nó không chỉ là một hệ thống phân tích tự động, mà còn là một hệ thống dựa trên sự tương tác liên tục giữa nhiều người và cơ sở dữ liệu, với sự hỗ trợ của các công cụ nghiên cứu.

Hình 1.1 Quá trình phát hiện tri thức tù' CO' sở dũ' liệu

Bước 1: Xác định bài toán

NÓ là một chương trình nhằm xác định lĩnh vực phát triển kiến thức và xây dựng vấn đề chung Cơ sở dữ liệu được chuyên môn hóa và phân chia thành các lĩnh vực như sản phẩm, kinh doanh, tài chính, v.v Mỗi kiến thức khám phá có giá trị trong lĩnh vực cụ thể nhưng không nhiều ở lĩnh vực khác Do đó, việc xác định tên miền và vấn đề sẽ định hướng cho giai đoạn tiếp theo trong quá trình thu thập và xử lý dữ liệu.

Bước 2: Thu thập và tiền xử lý

Cơ sở dữ liệu thường chứa nhiều thuộc tính không đầy đủ và không đồng nhất, dẫn đến việc có nhiều lồi và giá trị đặc biệt Vì vậy, giai đoạn thu thập và tiền xử lý dữ liệu đóng vai trò quan trọng trong việc phát triển tri thức từ cơ sở dữ liệu, chiếm tới 70%-80% tổng chi phí trong toàn bộ quá trình.

Các giai đoạn xử lý dữ liệu và tiền xử lý bao gồm: thu thập dữ liệu, lựa chọn dữ liệu, làm sạch dữ liệu, mã hóa dữ liệu, làm giàu dữ liệu, đánh giá và tiến hóa dữ liệu.

Bước 3: Khai phá dữ liệu và rút ra các tri thức

Giai đoạn trích xuất mẫu trong khai thác dữ liệu rất quan trọng, bao gồm việc xác định chức năng, nhiệm vụ và mục đích của quá trình này Các phương pháp khai thác dữ liệu thường được áp dụng bao gồm bài toán mô tả, nhằm đưa ra các thuộc tính chung của dữ liệu, và bài toán dự báo, tập trung vào việc phát triển các suy luận dựa trên dữ liệu hiện có.

Bước 4: Phát biểu và đánh giá kết quá

Kiến thức phát triền từ cơ sở dữ liệu cần được tống hợp dưới dạng báo cáo cho các mục đích hỗ trợ quyết định khác nhau.

Việc áp dụng nhiều phương pháp khai thác dữ liệu dẫn đến kết quả với mức độ tốt xấu khác nhau Do đó, cần đánh giá các kết quả thu được và tổng hợp kiến thức khám phá từ cơ sở dữ liệu dưới dạng báo cáo, nhằm hỗ trợ cho các quyết định khác nhau.

Việc áp dụng nhiều phương pháp khai thác dẫn đến kết quả có chất lượng khác nhau, do đó, đánh giá kết quả là rất quan trọng Điều này không chỉ giúp hình thành cơ sở cho các quyết định chiến lược mà còn cho phép so sánh và thử nghiệm thông qua biểu đồ.

Bước 5: Sứ dụng tri thức đã phát hiện

Cúng cố và chắt lọc kiến thức đã học là bước quan trọng để hệ thống hóa thông tin Việc giải quyết xung đột tiềm ẩn trong kiến thức giúp khai thác tối đa giá trị của chúng Cuối cùng, kiến thức cần được chuẩn bị sẵn sàng để áp dụng hiệu quả trong thực tiễn.

Kết quả của quá trình phát triển tri thức có thể được áp dụng trong nhiều lĩnh vực khác nhau Những kết quả này, bao gồm các dự báo và mô hình, có thể được tích hợp vào các hệ thống hỗ trợ ra quyết định nhằm tự động hóa quy trình này.

Học máy

Học máy, một nhánh của Trí tuệ nhân tạo, cho phép máy móc theo dõi và áp dụng nhiều phương pháp khác nhau để hiểu và giải quyết vấn đề dựa trên tập dữ liệu Bài viết dưới đây sẽ khám phá các phương thức mà máy móc có thể học hỏi.

Trong học có giám sát, thuật toán học từ tập dữ liệu được gán nhãn, liên kết dữ liệu đầu vào với đầu ra chính xác Phương pháp này thường được áp dụng cho các nhiệm vụ phân loại và hồi quy, bao gồm hồi quy tuyến tính, hồi quy chuỗi thời gian và hồi quy logistic Học có giám sát được ứng dụng rộng rãi trong nhiều lĩnh vực như phân loại hình ảnh, nhận diện giọng nói và phân tích tình cảm Một số thuật toán tiêu biểu trong học có giám sát là cây quyết định và mạng nơ ron.

- Học tập không giám sát

Học tập không giám sát đang phát triển nhanh chóng nhờ vào các kỹ thuật AI thế hệ mới, cho phép phân tích dữ liệu chưa được gán nhãn bằng cách xác định các mẫu, mối tương quan và cụm trong dữ liệu Phương pháp này thường được áp dụng cho các nhiệm vụ như phân cụm, giám sát kích thước và phát hiện bất thường Học tập không giám sát có nhiều ứng dụng, bao gồm phân khúc khách hàng, nén hình ảnh và trích xuất tính năng Một số thuật toán tiêu biểu trong học tập không giám sát là phân cụm k-means, phân tích thành phần chính (PCA) và bộ mã hóa tự động.

Học tăng cường là một lớp thứ ba quan trọng trong lĩnh vực học máy, tương tự như cách trẻ em được củng cố ý tưởng thông qua phần thưởng hoặc hình phạt Trong học tăng cường, các thuật toán nhận phần thưởng khi đưa ra dự đoán chính xác, từ đó nâng cao độ chính xác của mô hình Phương pháp này thường được áp dụng trong các tác vụ như chơi trò chơi, chế tạo robot và xe tự lái Một số thuật toán tiêu biểu trong học tăng cường bao gồm Q-learning và SARSA (state-action-reward-state-action).

Mặc dù ba lớp trên đã bao quát hầu hết các lĩnh vực, nhưng đôi khi chúng ta cần cải thiện hiệu suất của mô hình Trong những tình huống này, việc kết hợp hợp lý các phương pháp sẽ giúp đạt được kết quả tốt hơn.

Khi áp dụng các phương pháp kết hợp để đạt hiệu quả cao hơn, việc kết hợp hai hoặc ba phương pháp là khả thi Tuy nhiên, việc sử dụng nhiều phương pháp đồng nghĩa với việc gia tăng chi phí và thời gian Do đó, lựa chọn phương pháp phù hợp với quy mô, dữ liệu và tài nguyên sẽ mang lại hiệu quả tốt hơn so với việc sử dụng một phương pháp phức tạp nhưng không phù hợp.

Các thuật toán học máy

Phân loại là quá trình nhận diện và nhóm các ý tưởng, đối tượng vào các danh mục hoặc nhóm phụ đã được xác định Các chương trình máy học áp dụng nhiều thuật toán khác nhau để phân loại dữ liệu, sử dụng các bộ dữ liệu đào tạo đã được phân loại trước đó nhằm phân loại các dữ liệu trong tương lai vào các danh mục tương ứng.

Các thuật toán phân loại trong học máy sử dụng dữ liệu đào tạo đầu vào để dự đoán khả năng dữ liệu tiếp theo sẽ thuộc về một trong các danh mục đã xác định trước Một ví dụ phổ biến là lọc email thành “thư rác” hoặc “không phải thư rác” Phân loại là một hình thức “nhận dạng mẫu”, với các thuật toán áp dụng cho dữ liệu huấn luyện để tìm ra các mẫu tương tự trong các tập dữ liệu tương lai Hành động này chia biến phụ thuộc thành các lớp và dự đoán lớp cho một đầu vào nhất định Phân loại thuộc danh mục học máy giám sát, trong đó tập dữ liệu cần có các lớp để bắt đầu.

Phân loại có tác dụng ở bất kỳ nơi nào mà chúng ta có thể dự đoán kết quả từ những kết quả cố định đã được xác định trước.

Phân loại sử dụng một máng các thuật toán, một vài trong số chúng được liệt kê dưới đây:

Thuật toán Naive Bayes dựa trên định lý Bayes và áp dụng cách tiếp cận xác suất, khác với các thuật toán khác Điều này có nghĩa là thay vì trực tiếp xử lý dữ liệu, thuật toán này sử dụng một tập hợp các xác suất trước cho từng lớp mục tiêu.

Sau khi chúng ta cung cấp dữ liệu, thuật toán sẽ cập nhật các xác suất trước đó để tạo thành một thứ được gọi là xác suất sau.

Việc dự đoán xem đầu vào có thuộc danh sách n lớp đã cho hay không rất hữu ích, đặc biệt khi đầu vào không thuộc bất kỳ lớp nào Phương pháp xác suất là cách tiếp cận chính để thực hiện điều này, do xác suất cho tất cả n lớp thường khá thấp.

Ví dụ về một người chơi gòn, phụ thuộc vào các yếu tố như thời tiết bên ngoài.

Để xác định tần suất xảy ra các sự kiện cụ thể, chúng ta cần tìm hiểu tần suất của người chơi gôn dưới các điều kiện thời tiết khác nhau, chẳng hạn như khi trời nắng hay mưa.

Hình 1 2 Naive Bayes - Thuật toán trí tuệ nhân tạo - Edureka

Việc sử dụng các tần số này sẽ tạo ra xác suất tiên nghiệm hoặc ban đầu, chẳng hạn như xác suất trời u ám là 0,29, trong khi xác suất chơi chung đạt 0,64.

Để tạo ra các xác suất hậu nghiệm, cần xác định các yếu tố như xác suất trời nắng bên ngoài và khả năng người đó sẽ chơi golf Công thức Bayes được sử dụng để tính toán các xác suất này.

P(CÓ I Nắng) = P( Nắng I Có) * P(CÓ) / p (Nắng) Ở đây chúng ta có p (Nắng \CÓ) = 3/9 = 0,33, P(Nắng) = 5/14 = 0,36, P(CÓ)= 9/14 = 0,64

Cây quyết định là một cấu trúc giống như sơ đồ, trong đó các nút bên ngoài thể hiện các thử nghiệm trên thuộc tính và mỗi nhánh biểu thị kết quả của các thử nghiệm đó Các nút lá chứa nhãn dự đoán thực tế Quá trình bắt đầu từ gốc cây và tiếp tục so sánh các giá trị thuộc tính cho đến khi đạt đến nút lá.

Hình 1 3 Cây quyết định - Thuật toán trí tuệ nhân tạo - Edure

Bộ phân loại này thích hợp cho việc xử lý dữ liệu nhiều chiều và tiết kiệm thời gian chuẩn bị dữ liệu Tuy nhiên, chúng dễ bị quá tải và có thể thay đổi mạnh mẽ với những biến động nhỏ trong dữ liệu huấn luyện.

- Rừng ngẫu nhiên (random forest)

Nhóm cây quyết định hoạt động bằng cách sử dụng một tập hợp con các thuộc tính của dữ liệu để đưa ra dự đoán Kết quả cuối cùng được xác định dựa trên trung bình phiếu bầu của tất cả các cây quyết định trong nhóm.

Sử dụng Rừng ngẫu nhiên mang lại lợi ích lớn bằng cách giảm thiểu hiện tượng van đè trang bị quá mức mà các cây quyết định độc lập thường gặp phải, từ đó tạo ra một bộ phân loại chính xác và mạnh mẽ hơn.

Hình 1 4 Rùng ngẫu nhiên - Thuật toán trí tuệ nhân tạo - Edureka

Trong hình trên, có năm cây quyết định đang phân loại một màu sắc Ba trong số năm cây này dự đoán màu xanh lam, trong khi hai cây còn lại đưa ra hai kết quả khác nhau là màu xanh lá cây và màu đỏ.

15 hợp này, tôi lấy giá trị trung bình cùa tất cả các đầu ra, cho màu xanh dương là trọng số cao nhất.

Hồi quy logistic là một phương pháp chủ yếu cho các nhiệm vụ phân loại nhị phân, với thuật ngữ 'hậu can' bắt nguồn từ chức năng logit được sử dụng trong phương pháp này Hàm logistic, hay còn gọi là hàm sigmoid, là một đường cong hình chữ S có khả năng ánh xạ bất kỳ giá trị thực nào vào khoảng từ 0 đến 1, nhưng không bao giờ đạt chính xác tại các giới hạn đó.

Hình 1 5 Hồi quy logistic - Thuật toán trí tuệ nhân tạo - Edurcka

Trong bối cảnh một người chuẩn bị thi vào trường cao học, việc dự đoán khả năng đỗ đạt của họ có thể được thực hiện Dựa vào chỉ số CGPA của ứng viên và dữ liệu lịch sử, phương pháp hồi quy logistic có thể được áp dụng để dự đoán kết quả thi.

30

Thuật toán Naive Bayes trong trí tuệ nhân tạo

Naive Bayes là một trình phân loại xác suất, xác định xác suất của một điểm kiểm tra thuộc về một lớp thay vì nhãn của điểm đó Đây là một trong những mô hình mạng Bayes cơ bản nhất, và khi kết hợp với ước tính mật độ hạt nhân, nó có thể đạt được độ chính xác cao hơn Thuật toán này chủ yếu được áp dụng cho các tác vụ phân loại, khác với nhiều thuật toán máy học khác có thể thực hiện cả hồi quy và phân loại.

Thuật toán Naive Bayes được gọi là "ngây thơ" do các giả định của nó thường không phản ánh thực tế trong dữ liệu Thuật toán này dựa vào xác suất có điều kiện để tính toán tích của các xác suất riêng lẻ của các thành phần Điều này có nghĩa là nó giả định rằng sự hiện diện hoặc vắng mặt của một tính năng cụ thể trong một lớp không liên quan đến sự hiện diện hoặc vắng mặt của bất kỳ tính năng nào khác, thể hiện sự độc lập tuyệt đối giữa các tính năng.

Bộ phân lớp Bayes là một thuật toán thống kê có khả năng dự đoán xác suất của một phần tử dữ liệu thuộc về một lớp cụ thể Thuật toán này dựa trên định lý Bayes, được đặt theo tên của nhà toán học Thomas Bayes.

2.1.2 Định lý Bayes Định lý Bayes [1],[3] cho phép tính xác suất xảy ra của một sự kiện ngầu nhiên

Xác suất có điều kiện P(A|B) thể hiện xác suất của sự kiện A xảy ra khi đã biết sự kiện B đã xảy ra Đại lượng này được gọi là xác suất có điều kiện vì nó được xác định dựa trên thông tin đã cho của B hoặc phụ thuộc vào giá trị của B.

Theo định li Bayes, xác suất xày ra A khi biết B sẽ phụ thuộc vào 3 yếu tố:

Xác suất xảy ra của sự kiện A, được ký hiệu là P(A), là xác suất biên duyên hay xác suất tiên nghiệm Nó thể hiện xác suất của A mà không phụ thuộc vào bất kỳ thông tin nào liên quan đến sự kiện B.

Xác suất xáy ra B cùa riêng nó, không quan tâm đến A, kí hiệu là P(B) và đọc là

"xác suất cũa B" Đại lượng này còn gọi là hằng số chuẩn hóa (normalising constant), vì nó luôn giống nhau, không phụ thuộc vào sự kiện A đang muốn biết.

■ Xác suất xảy ra B khi biết A xây ra, kí hiệu là P(B|A) và đọc là "xác suất cùa

Khả năng xảy ra B khi biết A được gọi là likelihood Cần lưu ý phân biệt giữa khả năng xảy ra A khi biết B và xác suất xảy ra A khi biết B.

Khi biết ba đại lượng trên, xác suất cùa A khi biết B cho bời công thức:

Từ đó dẫn tới: p(A\B)P(B) = P(A n B) = P(A)P(JB\A)

Khi có n giả thuyết thì:

2.1.3 Mô hình Phân lóp Naive Bayes

Mô hình phân lớp Bayes [1],[3] được áp dụng nhiều nhất trong thực tế là mô hình phân lớp Naive Bayes.

Phân lớp Naive Bayes được phát triển dựa trên lý thuyết Bayes, giúp đơn giản hóa quá trình tính toán xác suất Phương pháp này giả định rằng các thuộc tính là độc lập với nhau, từ đó cải thiện hiệu quả trong việc phân loại dữ liệu.

Cho {C1, C2, , Cn} là phân hoạch của không gian mẫu c, với các lớp Ci Không gian thể hiện X bao gồm tất cả các thể hiện được mô tả trên tập thuộc tính (a1, a2, , an) và hàm đích f(x) có thể nhận bất kỳ giá trị nào trong c (f(x) = Ci với i = 1, ,n) Không gian thể hiện X được coi là các ví dụ học Khi có một thể hiện mới với bộ giá trị , bộ phân lớp sẽ dự đoán giá trị hàm đích f(x) hoặc lớp cho thể hiện mới này (f(x) ∈ {C1, C2, , Cn}).

Cách tiếp cận Bayes trong phân lớp sử dụng giá trị đích có xác suất cao nhất, gọi là Cmax Điều này có nghĩa là định lý Bayes được áp dụng để chọn giả thuyết có xác suất cao nhất từ tập mẫu huấn luyện, được biết đến với tên gọi giả thuyết cực đại xác suất hậu nghiệm (MAP - Maximum A Posterior).

Cmap = max P(ứí I ai,02, an) (2)

Sừ dụng định lý Bayes- Công thức (1) - Áp dụng vào (2), ta có:

C map max P(.Ci)P(a 1.a2, a„\Cl) c, e C P(.ai.a2.-an) maxP

(Cùng mẫu số P(.ai> a2’ an)ncn ta bò qua so sánh mẫu)

Các P(ci) được xác định bằng cách đếm số lần xuất hiện của giá trị mục tiêu Ci trong tập dữ liệu Để tính toán các xác suất như P(a1 > a2 > an), bộ phân lớp Naive Bayes dựa vào giả định đơn giản rằng các thuộc tính là độc lập điều kiện với giá trị mục tiêu đã cho.

Xác suất của một thể hiện quan sát được trên mỗi lớp Ci được tính bằng cách nhân các khả năng của từng thuộc tính riêng lẻ trên lớp Ci.

P(al,a2, an I Ci) = rti P(al I cl)

Công thức (3) được viết lại:

Bộ phân lớp Naive Bayes liên quan đến một bước học mà trong đó

P(Q) và p(ai' a2> — an) được ước lượng dựa trên tần suất xuất hiện của chúng trong toàn bộ tập dữ liệu học Tập dự đoán này phản ánh kết luận học được, với kết quả từ bộ phân lớp trong công thức (4) được áp dụng để phân loại các thể hiện mới.

Các bước thực hiện thuật toán Naive Bayes

□ nBước 1: Huan luyện Naive Bayes (dựa vào tập dữ liệu), tính P(G) và P(ailCi).

Để phân lớp, chúng ta cần tính xác suất thuộc từng phân lớp đã biết trước Anew sẽ được gán vào lớp có xác suất lớn nhất, theo công thức: max P(Ci) * P(ai|Ci).

Báng 2.1: Minh họa tập dữ liệu mẫu áp dụng phân biệt thư rác/thư tin cậy

TT Loại email riêng/dùng chung (TT1) Độ tin cậy tên miền (TT2)

1 Dùng chung Trung bình Cao Không có Thư rác

2 Miền riêng Cao Trung bình Có Thư tin cậy

3 Dùng chung Thấp Trung bình Có Thư rác

4 Miền riêng Trung binh Trung bỉnh Có Thư tin cậy

5 Miền riêng Trung binh Thấp Có Thư tin cậy

6 Dùng chung Cao Cao Có Thư tin cậy

7 Dùng chung Trung binh Thấp Có Thư tin cậy

Áp dụng phân lớp Naive Bayes vào tập dữ liệu mẫu giúp phân loại các miền riêng thấp cao mà không có thư rác Phương pháp này mang lại một cách tiếp cận hiệu quả cho việc phân lớp, đảm bảo tính chính xác trong việc xác định các đặc điểm của các miền khác nhau.

(có kết quá là Thư rác hay kết quà Thư tin cậy).

Bước 1: Ta có 2 lớp R=“Thư rác”, Đ= “Thư tin cậy”, tống so mẫu =8

Số mẫu được phàn lớp Đ là 5 nxác suất Thư tin cậy: P(Đ)=5/8

Số mẫu được phân lớp R là 3 LI Xác suất Thư rác: P(R)=3/8

Theo công thức (4) ta tính xác suất phân bố trên từng lớp cho the hiện mới

bang cách sử dụng công thức Bayes và sau đó lựa chọn lớp có xác suất cao nhất.

(6) Đặt Xl(lớp Đ) = P(Đ) LỊ, P(a,|D) và X2 (lớp R) =P(R) Ui P(aiIR)

XI = P(Đ).P(TT1 = Miền riêng|Đ).P(TT2 = Trung binh|Đ).P(TT3=Thấp|Đ) P(TT4=Không CÓ|Đ)

X2 = P(R).P(TT1 = Dùng chung|R).P(TT2 = Trung bình|R).P(TT3|R) P(TT4=Không CÓ|R)

Ta lần lượt tính xác suất của các thuộc tính sau:

Loại email riêng/dùng chung (TT1)

P(Dùng chungl Đ) =2/5 P(Dùng chung 1 R) =2/3 Độ tin cậy tên miền (TT2)

Bước 2: Phân lớp cho mầu mới

X

CNB = max (Xl(lớp Đ) ;X2(lớp R)) =X2(lớp Đ)

Email thuộc lớp Đ được xác định khi sử dụng tên miền riêng với độ tin cậy trung bình, số lượng người nhận và tiêu đề thư ở mức trung bình, cho thấy đó là thư tin cậy Để tránh tình trạng giá trị P(Xk|Ci) = 0 do thiếu mẫu trong dữ liệu huấn luyện, chúng ta áp dụng phương pháp làm trơn bằng cách thêm một số mẫu áo, qua đó công thức tính ^(G) được điều chỉnh theo phương pháp làm trơn Laplace.

* |Cì,d|: số mẫu huấn luyện thuộc phân lớp i.

■ |D|: số mầu trong tập huấn luyện.

Công thức tính ^ơklG)đã làm trơn Laplace:

■ iIG.dPớíH số mẫu thuộc phân lớp i có đặc trưng thứ k.

* IQd|: số mẫu của tập huấn luyện thuộc phân lớp i.

■ r: Số giá trị có thể có của đặc trưng thứ k

Ví dụ: Làm trơn Laplacc

Cl=“Thư tin cậy”; C2=“Thư rác” Theo công thức làm trơn

, 5+1 6 3 Y' c áf ThK lò P(ThưtinCặy} = 8^2= ìo= 5

Xác suât lớp Thư tin cậy là:

Xác suất lớp Thư rác là:

Ta lần lượt tính xác suất của các thuộc tính sau:

Loại email riêng/dùng chung (TT1)

P(Miền riêng 1 R) =2/5 P(Dùng chung 1 R) =3/5 Độ tin cậy tên miền (TT2)

X

CNB = max (XI(lớp Đ); X2(lớp R)) = X2(lớp R)

Email X được phân loại là Thư rác do sử dụng tên miền chung và có độ tin cậy thấp Nếu số lượng người nhận ở mức trung bình và tiêu đề thư không thu hút, email sẽ bị xếp vào nhóm Thư rác.

2.3 Thuật toán phân loại Naive Bayes

Kỹ thuật phân loại Naive Bayes dựa trên định lý Bayes và đặc biệt hiệu quả với các tập dữ liệu lớn Mặc dù có cấu trúc đơn giản, Naive Bayes thường cho kết quả phân loại tốt hơn nhiều phương pháp phức tạp khác Thuật toán này tính toán xác suất cho mỗi lớp, giúp xác định khả năng mà dữ liệu cần phân loại thuộc về lớp đó.

Dữ liệu đó sẽ được gán cho lớp nào có xác suất cao nhất.

Xác suất P(ck| ai) gọi là xác suất mà dữ liệu ai có khá năng thuộc vào lớp K.QHT Ck được tính toán như sau:

Dữ liệu ai sẽ được gán cho loại nào có xác suất hậu nghiệm cao nhất nên được biểu diễn bằng công thức: class of ai = arg max {PCcJfli)}

= arg max - ' " - s 1 trong đó N là tống số lớp.

Phương pháp học Naive Bayes ước lượng xác suất dựa trên việc đếm tần suất của các kết hợp dữ liệu trong tập huấn luyện, giúp tính toán xác suất cho các giả định một cách rõ ràng.

Mỗi mẫu học quan sát có khả năng điều chỉnh xác suất dự đoán giá trị đúng, từ đó giúp thiết kế hệ thống học linh hoạt hơn so với các hệ thống khác Điều này cho phép loại trừ những giả định khi phát hiện sự không nhất quán trong bất kỳ mẫu đơn lẻ nào.

Kiến thức biết trước có thể kết hợp với dữ liệu quan sát để xác định khả năng của một giả định Kiến thức này được thu thập thông qua việc phân phối xác suất trên toàn bộ dữ liệu quan sát.

Phương pháp Naive Bayes cung cấp xác suất dự đoán Mỗi thể hiện mới được phân lớp bang cách kết hợp nhiều dự đoán của nhiều giả định.

Phương pháp Naive Bayes phù hợp các bài toán có yêu càu về chi phí xuất hiện cùa các giá trị thuộc tính.

Thiết kế hệ thống phân lớp thường đơn giản hơn so với các phương pháp khác, vì các thuộc tính trong tập mẫu học cần phải độc lập với điều kiện Độ chính xác của thuật toán phân lớp chủ yếu phụ thuộc vào chất lượng của tập dữ liệu học ban đầu.

Uu điểm thuật toán

Phương pháp học Naive Bayes xác định xác suất thông qua việc đếm tần suất các kết hợp dữ liệu trong tập huấn luyện, từ đó tính toán xác suất cho các giả định.

Mỗi mẫu học quan sát có khả năng điều chỉnh xác suất dự đoán giá trị đúng đắn, từ đó cung cấp một phương pháp thiết kế hệ thống học linh hoạt hơn so với các hệ thống khác Hệ thống này có thể loại trừ những giả định khi phát hiện sự không nhất quán trong bất kỳ mẫu đơn lẻ nào.

Kiến thức biết trước có thể kết hợp với dữ liệu quan sát để xác định khả năng của một giả định Kiến thức này được thu thập thông qua việc phân phối xác suất trên toàn bộ dữ liệu quan sát được.

Phương pháp Naive Bayes cung cấp xác suất dự đoán Mỗi thể hiện mới được phân lớp bang cách kết hợp nhiều dự đoán của nhiều giả định.

Phương pháp Naive Bayes phù hợp các bài toán có yêu càu về chi phí xuất hiện cùa các giá trị thuộc tính.

Thiết kế hệ thống phân lớp thường đơn giản hơn so với các phương pháp khác Để đạt được độ chính xác cao, các thuộc tính trong tập mẫu học cần phải độc lập với điều kiện Độ chính xác của thuật toán phân lớp chủ yếu phụ thuộc vào chất lượng của tập dữ liệu học ban đầu.

41

Ngày đăng: 03/10/2023, 19:01

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Bazett, Trefor. 2017. "Bayes' Theorem - The Simplest Case." Trefor Bazett, on YouTube, November 19. Accessed 2022-02-23 Sách, tạp chí
Tiêu đề: Bayes' Theorem - The Simplest Case
[2] Berrar, Daniel. 2018. "Bayes’ Theorem and Naive Bayes Classifier." Encyclopedia of Bioinformatics and Computational Biology, vol. 1, Elsevier, pp. 403- 412. Accessed 2022-02-07 Sách, tạp chí
Tiêu đề: Bayes’ Theorem and Naive Bayes Classifier
[3] Chauhan, Nagesh Singh. 2020. "Introduction to the Naive Bayes Algorithm." KDnuggets, June 8. Accessed 2022-01-22 Sách, tạp chí
Tiêu đề: Introduction to the Naive Bayes Algorithm
[4] Domingos, p., and M. Pazzani. 1997. "On the Optimality of the Simple Bayesian Classifier under Zero-One Loss." Machine Learning, vol. 29, pp. 103-130.doi: 10.1023/A: 1007413511361. Accessed 2022-03-30 Sách, tạp chí
Tiêu đề: On the Optimality of the Simple Bayesian Classifier under Zero-One Loss
[5] Encyclopaedia Britannica. 2022. "Thomas Bayes." Encyclopedia Britannica, January 1. Accessed 2022-03-29 Sách, tạp chí
Tiêu đề: Thomas Bayes

HÌNH ẢNH LIÊN QUAN

Hình 1.1. Quá trình phát hiện tri thức tù' CO' sở dũ' liệu - Ứng dụng công nghệ trí tuệ nhân tạo trong đánh giá chất lượng đào tạo trực tuyến tại trường đại học mở hà nội
Hình 1.1. Quá trình phát hiện tri thức tù' CO' sở dũ' liệu (Trang 14)
Hình 1. 2. Naive Bayes - Thuật toán trí tuệ nhân tạo - Edureka - Ứng dụng công nghệ trí tuệ nhân tạo trong đánh giá chất lượng đào tạo trực tuyến tại trường đại học mở hà nội
Hình 1. 2. Naive Bayes - Thuật toán trí tuệ nhân tạo - Edureka (Trang 19)
Hình 1. 3. Cây quyết định - Thuật toán trí tuệ nhân tạo - Edure - Ứng dụng công nghệ trí tuệ nhân tạo trong đánh giá chất lượng đào tạo trực tuyến tại trường đại học mở hà nội
Hình 1. 3. Cây quyết định - Thuật toán trí tuệ nhân tạo - Edure (Trang 20)
Hình 1. 4. Rùng ngẫu nhiên - Thuật toán trí tuệ nhân tạo - Edureka - Ứng dụng công nghệ trí tuệ nhân tạo trong đánh giá chất lượng đào tạo trực tuyến tại trường đại học mở hà nội
Hình 1. 4. Rùng ngẫu nhiên - Thuật toán trí tuệ nhân tạo - Edureka (Trang 21)
Hình 1. 5. Hồi quy logistic - Thuật toán trí tuệ nhân tạo - Edurcka - Ứng dụng công nghệ trí tuệ nhân tạo trong đánh giá chất lượng đào tạo trực tuyến tại trường đại học mở hà nội
Hình 1. 5. Hồi quy logistic - Thuật toán trí tuệ nhân tạo - Edurcka (Trang 22)
Hình I. 6. Thuật toán vec-tơ hỗ trọ' - Ứng dụng công nghệ trí tuệ nhân tạo trong đánh giá chất lượng đào tạo trực tuyến tại trường đại học mở hà nội
nh I. 6. Thuật toán vec-tơ hỗ trọ' (Trang 23)
Hình 1. 7. Hồi quy tuyến tính - Thuật toán trí tuệ nhân tạo - Edureka - Ứng dụng công nghệ trí tuệ nhân tạo trong đánh giá chất lượng đào tạo trực tuyến tại trường đại học mở hà nội
Hình 1. 7. Hồi quy tuyến tính - Thuật toán trí tuệ nhân tạo - Edureka (Trang 31)
Hình 1. 8. K-mean - Thuật toán trí tuệ nhân tạo - Edureka - Ứng dụng công nghệ trí tuệ nhân tạo trong đánh giá chất lượng đào tạo trực tuyến tại trường đại học mở hà nội
Hình 1. 8. K-mean - Thuật toán trí tuệ nhân tạo - Edureka (Trang 33)
Hình 1. 9. Thuật toán trí tuệ nhân tạo - Ứng dụng công nghệ trí tuệ nhân tạo trong đánh giá chất lượng đào tạo trực tuyến tại trường đại học mở hà nội
Hình 1. 9. Thuật toán trí tuệ nhân tạo (Trang 34)
Hình 3. 1. Giao diện đăng nhập của hệ thống demo - Ứng dụng công nghệ trí tuệ nhân tạo trong đánh giá chất lượng đào tạo trực tuyến tại trường đại học mở hà nội
Hình 3. 1. Giao diện đăng nhập của hệ thống demo (Trang 72)
Hình 3. 2. Giao diện nhập thông tin lóp học phần để dự báo kết quả - Ứng dụng công nghệ trí tuệ nhân tạo trong đánh giá chất lượng đào tạo trực tuyến tại trường đại học mở hà nội
Hình 3. 2. Giao diện nhập thông tin lóp học phần để dự báo kết quả (Trang 73)
Hình 3. 3. Giao diện Kết quă dự báo - Ứng dụng công nghệ trí tuệ nhân tạo trong đánh giá chất lượng đào tạo trực tuyến tại trường đại học mở hà nội
Hình 3. 3. Giao diện Kết quă dự báo (Trang 74)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm