1. Trang chủ
  2. » Luận Văn - Báo Cáo

ỨNG DỤNG NAIVE BAYESIAN TRONG KHAI PHÁ DỮ LIỆU – PHÂN LỚP EMAIL

27 611 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 293,17 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nội dung của bài thu hoạch em xin trình bày gồm bốn chương: Chương 1: giới thiệu chung về lĩnh vực “khám phá tri thức”, các khái niệm cơ bản, các phương pháp được áp dụng để khai phá dữ

Trang 1

KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU

KHAI PHÁ DỮ LIỆU – PHÂN LỚP EMAIL

GVHD : PGS TS Đỗ Phúc Thực hiện: Vưu Văn Tòng - CH1101146

Trang 2

Thành phố Hồ Chí Minh - Tháng 10 Năm 2012LỜI MỞ ĐẦU Trong thời đại ngày nay, nhân tố quan trọng quyết định sự thành cơng chính là

kỷ năng phân tích đánh giá, tìm ra cái mới từ những dữ liệu tưởng chừng như vơ nghĩa Hay nĩi chính xác hơn đĩ là kỷ năng nắm bắt và khai thác thơng tin hiệu quả từ những dữ liệu cĩ sẵn

Tuy nhiên, vấn đề đặt ra là: làm cách nào để khai thác thơng tin một cách hiệu quả nhất ? Làm cách nào để đảm bảo độ chính xác của thơng tin đã khai phá được ? Làm cách nào cĩ thể áp dụng quá trình khai phá đĩ vào một lĩnh vực cụ thể ?

Để giải quyết các vấn đề trên, lĩnh vực nghiên cứu mới “khám phá tri thức” được

ra đời Nhiệm vụ cơ bản của “khám phá tri thức” là tìm ra những tri thức, những thơng tin hữu ích trong cơ sở dữ liệu “Khám phá tri thức” khơng cĩ nghĩa là một quá trình tự động hồn tồn mà là sự tương tác giữa người dung và cơ sở dữ liệu bằng cách sử dụng các cơng cụ trong tốn học và tin học.

Nội dung của bài thu hoạch em xin trình bày gồm bốn chương:

Chương 1: giới thiệu chung về lĩnh vực “khám phá tri thức”, các khái niệm cơ bản, các phương pháp được áp dụng để khai phá dữ liệu – một bước quan trọng trong khám phá tri thức

Chương 2: tìm hiểu về bộ phân lớp Nạve Bayesian

Chương 3: ứng dụng bộ phân lớp Nạve Bayesian để phân lớp email

Chương 4: những hạn chế và hướng phát triển

Em xin bày tỏ lịng biết ơn sâu sắc đến PGS TS Đỗ Phúc – người đã hướng dẫn trực tiếp, chỉ bảo tận tình và cung cấp tài liệu về “khám phá tri thức” để em cĩ nền tảng thực hiện bài thu hoạch này.

Trong suốt quá trình nghiên cứu, mặc dù đã cố gắng hết sức nhưng chắc chắn bài thu hoạch khơng tránh khỏi những thiếu sĩt Rất mong nhận được những ý kiến đĩng gĩp quý báu từ thầy để bài thu hoạch được hồn chỉnh hơn.

Trang 3

NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN

Trang 4

NỘI DUNG

Trang 5

DANH SÁCH HÌNH

Trang 6

DANH SÁCH BẢNG

Trang 7

Định nghĩ

a v

ấn đ ề

Bước

5

Sử dụng tri thứ c

1 GIỚI THIỆU CHUNG VỀ KHÁM PHÁ TRI THỨC

1.1 Khám phá tri thức là gì ?

Khai phá dữ liệu (data mining) và khám phá tri thức (knowledge discovery) làmột khái niệm ra đời vào cuối thập kỷ 80 Nó là sự kết hợp của các lĩnh vực: hệ quảntrị cơ sở dữ liệu, thống kê, máy học và các lĩnh vực khác có liên quan nhằm mục đíchkhám phá, chiết xuất ra những kiến thức hữu ích từ bộ sưu tập cơ sở dữ liệu lớn

Khai phá dữ liệu là một bước con trong quá trình khám phá tri thức Là một bước

mà trong đó các giải thuật cụ thể được thực thi dưới một số điều kiện về tính hiệu quảnhằm tìm ra các “mẫu” (pattern) hoặc “mô hình” (model) của dữ liệu đang được khaiphá

Trang 8

dữ liệu Mà nhiệt độ lại có miền giá trị liên tục nên ta phải lựa chọn giải thuật phù hợpcho dạng giá trị liên tục này.

Bước 2: đây là bước để thu thập dữ liệu Bước này bao gồm: chọn nguồn dữ liệu,thu thập, khử bỏ dữ liệu bị nhiễu, lựa chọn biện pháp đối với dữ liệu bị thiếu, mất…Bước này chiếm nhiều thời gian nhất trong toàn bộ tiến trình Và là bước có thể xácđịnh được sự hơn thua của cả tiến trình…Với dữ liệu càng nhiều (và tất nhiên là đúng)thì tri thức được khám phá ra sẽ càng nhiều và càng chính xác

Bước 3: trong bước này, chúng ta sẽ trích xuất ra những “mẫu” hay “mô hình”vốn được ẩn giấu trong dữ liệu bằng cách phương pháp như: phân lớp, gom cụm, mạngnơ-ron… Một mô hình có thể được xem là “một sự biểu diễn tóm tắt các thành phần

ẩn giấu trong dữ liệu một cách có hệ thống” Thật vậy, sau khi khám phá ra “mô hình”trong dữ liệu thì chúng ta có thể dùng nó kết hợp với một số dữ liệu đầu vào để sinh ra

dữ liệu gần như nguyên gốc (mức độ tùy thuộc vào độ tin cậy của mô hình) Một môhình có thể là một cấu trúc “nếu…thì…” đơn giản Ví dụ: xét cơ sở dữ liệu lưu lạithông tin của những nhà khoa học (cá nhân) đã đoạt giải Nobel thì người ta rút ra quyluật rằng: nếu là nam, đã kết hôn, khoảng 61 tuổi và sinh vào mùa xuân, đã từng họcđại học Harvard và không mang kính thì tỷ lệ đoạt giải Nobel là cao nhất (nguồn: http://www.nobelprize.org )

Bước 4: làm rõ và đánh giá tri thức Việc làm rõ tri thức nghĩa là chuyển những

“mẫu” hay “mô hình” đã tìm được ở bước 3 sang dạng “mô tả được và dự đoán được”– 2 mục tiêu quan trọng của tiến trình khám phá tri thức Trong khi đánh giá tri thứcnhằm kiểm tra mức độ chính xác của tri thức Thông thường, người ta chia tập dữ liệuban đầu thành hai phần: tập huấn luyện và tập kiểm tra Sau đó, thực hiện quá trìnhđánh giá nhiều lần dựa trên mức độ chia khác nhau và lấy trung bình kết quả của nhữnglần chia đó Ví dụ: lần đầu, ta chia theo tỷ lệ huấn luyện/kiểm tra là 60/40, lần hai, chiatheo 70/30…

Bước 5: sử dụng những tri thức được khám phá vào thực tế Thực tế ở đây không

có nghĩa là phải liên quan đến máy vi tính Vì có một số người sử dụng những tri thứcnày vào cuộc sống và một số người lại đặt những tri thức này vào máy tính để dung cácchương trình khám phá Bước này là đích đến lớn nhất của tất cả tiến trình khám phátri thức

Trang 9

1.3 Các phương pháp khai phá dữ liệu

Hình dưới đây thể hiện một mảng 2 chiều của dữ liệu chứa 23 mẫu Mỗi chấm thểhiện một người nào đó đã từng được ngân hàng cho vay trong quá khứ Màu khác nhaucủa mỗi chấm là một sự phân lớp thể hiện khoản vay của người đó trong tình trạng tốthay xấu (nợ khó đòi)

Debt

Income

have defaulted

on their loans

good status with the bank

Hình 2: Tập dữ liệu đơn giản mô phỏng phân lớp

Như đã nói lúc đầu, hai mục đích chính của khai phá dữ liệu là mô tả được và dựđoán được Dự đoán được nghĩa là việc sử dụng một số biến trong cơ sở dữ liệu để dựđoán một giá trị chưa biết Mô tả được là việc đi tìm một mẫu lời giải thích rõ ràng, dễhiểu để mô tả dữ liệu

Dưới đây là các phương pháp khai phá dữ liệu thường được sử dụng:

Phân lớp: là việc gắn các đối tượng (có các thuộc tính) và những lớp đã được

định nghĩa Giống như việc gán nhãn cho đối tượng Hình dưới đây thể hiện việc phânlớp các đối tượng có tình trạng vay tốt và xấu (dữ liệu lấy từ hình 2)

Trang 10

Income Debt

Hình 3: Mô phỏng phương pháp phân lớp

Các kỹ thuật phân lớp được sử dụng là:

1. Cây quyết định:

- Một dạng biểu đồ hình cây

- Mỗi nút bên trong cây là một sự kiểm tra dựa trên thuộc tính

- Mỗi nhánh là một kết quả của sự kiểm tra đó

- Nút là biểu thị nhãn của lớp

- Mục đích chính là có thể phân lớp một mẫu chưa biết bằng cách kiểmtra sự trùng khớp thuộc tính của mẫu dựa trên cây quyết định Dướiđây là một ví dụ về cây quyết định đối với việc một người nào đó có

là khách hang tiềm năng sẽ mua máy tính hay không ?

Hình 4: Ví dụ về cây quyết định

Trang 11

3. Giải thuật di truyền

- Dựa trên sự tương tự của tiến hóa trong sinh học

- Mỗi luật được thể hiện bằng một chuổi các bit

- Một quần thể ban đầu được tạo dựa trên những luật ngẫu nhiên Vídụ: nếu A1 và không phải là A2 thì C2 có thể được thể hiện bằngchuỗi 100 (trong đó A1, A2 là các mệnh đề)

- Dựa trên quan niệm về sự tồn tại, một quần thể mới được tạo thành từcác con của quần thể ban đầu và các quy tắc thích hợp nhất

4. Tập thô

- Tập thô dùng để định nghĩa lớp một cách gần đúng

- Một tập thô cho một lớp C nào đó được xấp xỉ bởi hai tập hợp: xấp xỉdưới (chắc chắn thuộc C) và xấp xỉ trên (không thể nói là không thuộcC)

- Ma trận phân biệt được xử dụng để tìm tập tối tiểu các thuộc tính(dung để rút gọn thuộc tính)

Ngoài ra, còn có các kỹ thuật khác như: tập mờ, mạng Bayes, mạng nơ-ron…được dung trong phương pháp phân lớp

Gom cụm: trong khi phân lớp dữ liệu là tìm lớp mà đối tượng đó thuộc về, gom

cụm dữ liệu lại gom các đối tượng có đặc tính gần như nhau vào cùng một nhóm Cáccụm có thể riêng biệt nhau hoặc chồng lên nhau, điều này dẫn tới một đối tượng có thểthuộc về một hay nhiều cụm Hình bên dưới thể hiện sự khác biệt giữa gom cụm vàphân lớp:

Trang 12

Một phương pháp gom cụm được gọi là tốt khi tạo ra được những cụm có chấtlượng cao: mức độ tương tự cao cho trong lớp (intra-class) và tương tự thấp cho ngoàilớp (inter-class)

Luật kết hợp: đây là phương pháp được dùng để tìm những mối liên kết giữa các

thành phần dữ liệu trong tập dữ liệu Mối liên kết đó được gọi là kết hợp và ký hiệu: A

=> B nghĩa là khi có A trong một mẫu dữ liệu (một bộ trong cơ sở dữ liệu) thì B sẽxuất hiện trong mẫu đó Đầu ra của phương pháp này chính là tập các mối kết hợp nhưvậy (gọi tắt là luật kết hợp)

Một định nghĩa cho luật kết hợp: cho một lược đồ cơ sở dữ liệu D={A1,A2,

…,An} (Ai: là các thuộc tính có miền giá trị 0 hoặc 1) Và một quan hệ r trên D Mộtluật kết hợp được mô tả là A=>B với A và Một ví dụ đơn giản là cơ sở dữ liệu hànghóa với các cột là mã hóa đơn và hàng hóa, còn các dòng là danh sách hàng hóa trongmột hóa đơn:

Trang 13

Ta thấy rằng, hễ có bánh mì xuất hiện trong một hóa đơn nào đó thì bơ cũng xuấthiện trong hóa đơn đó Điều này dẫn tới một luật kết hợp đơn giản: “Bánh mì”  “bơ”.Trong tìm luật kết hợp có hai đại lượng cần chú ý là độ hỗ trợ (ký hiệu:support(AB)) và độ tin cậy (ký hiệu: confidence(AB)) Giả sử, ta xét luật: “Bánhmì”  “bơ” thì độ hỗ trợ là số dòng chứa cả “bánh mì” và “bơ” trên tổng số dòngtrong cơ sở dữ liệu (2/3 = 66.6%) còn độ tin cậy là số dòng chứa cả “bánh mì” và “bơ”trên tổng số dòng có chứa bánh mì (2/2 = 100%)

Một luật kết hợp là hợp lệ khi thỏa mãn cả minsupport (độ hỗ trợ nhỏ nhất) vàminconfidence (độ tin cậy nhỏ nhất) minsupport và minconfidence được cung cấp bởingười dùng tùy vào lĩnh vực và kinh nghiệm

Trang 14

2 BỘ PHÂN LỚP NẠVE BAYESIAN

2.1 Cơ sở lý thuyết về xác suất

Gọi P(F1) là xác suất xảy ra sự kiện F1, P(~F1) là xác suất khơng xảy ra F1

Tương tự, P(F2) là xác suất xảy ra sự kiện F2, P(~F2) là xác suất khơng xảy ra F2

Và P(F2|F1) là xác suất xảy ra F2 khi đã biết F1 Ta cĩ các cơng thức:

Hai sự kiện được gọi là độc lập với nhau khi xác suất xảy ra một sự kiện luơnkhơng đổi cho dù sự kiện cịn lại cĩ xảy ra, khơng xảy ra hay thậm chỉ khơng biết rõ.Xác suất cĩ điều kiện

Trang 15

F2

Ta có thể xem hình sau về sự liên quan giữa hai sự kiện:

Hình 6: Mối liên hệ giữa 2 sự kiện

Công thức tính như sau:

P(A|B) = Xác suất xảy ra A khi B đã xảy ra

Một số hệ quả:

2.2 Lý thuyết Bayes

Suy diễn Bayes được áp dụng trong việc ra quyết định và thống kê suy luận dựatrên xác suất

Suy diễn Bayes sử dụng kiến thức của các sự kiện trước đó để đưa ra dự đoán cho

sự kiện tương lai

Ví dụ, ta có bảng dữ liệu mẫu như sau:

ID Tuoi Thu_Nhap La_sinh_vie

n

Hang_tin_dung

Mua_May_Tinh

Trang 16

3 40 Thap Co G Khong

4 35 Trung binh Khong F Co

7 35 Trung binh Khong G Khong

10 35 Trung binh Co A Co

Bảng 1: Dữ liệu mẫu cho suy diễn Bayes

Giả sử, chúng ta biết được thông tin của một người như sau: “người đó 35 tuổi và

có mức thu nhập trung bình” Hỏi rằng, ông ta có mua máy tính hay không ?

Áp dụng lý thuyết về Bayes, ta có công thức như sau:

Trong đó:

D: tập các điều kiện giả thuyếth: một giá trị của tập kết quảP(h): xác suất xảy ra sự kiện hP(D): xác suất các sự kiện điều kiện xảy ra cùng lúcP(D|h): xác suất các sự kiện điều kiện xảy ra khi h xảy raP(h|D): xác xuất h xảy ra khi các điều kiện D đã xảy ra  kết quảGiả sử h có hai giá trị như trong ví dụ trên h1=“Co” hoặc h2=“Khong” Tínhxác suất xảy ra cho hai trường hợp của kết quả như sau:

Trang 17

P(D) = xác suất một người 35 tuổi có mức thu nhập trung bình = 4/10 (người số1,4,7 và 10)

P(D|h1) = xác suất một người 35 tuổi, mức thu nhập trung bình CÓ mua máytính = 3/5

P(h1) = xác suất để một người nào đó (không quan tâm tới tuổi, thu nhập…) CÓmua máy tính = 5/10 (số lượng ô “Co” trong cột Mua_May_Tinh)

P(D|h2) = xác suất một người 35 tuổi, mức thu nhập trung bình KHÔNG muamáy tính = 1/5

P(h2) = xác suất để một người nào đó (không quan tâm tới tuổi, thu nhập…)KHÔNG mua máy tính = 5/10 (số lượng ô “Khong” trong cột Mua_May_Tinh)

Trang 18

Tuy nhiên, ta khơng áp dụng được cách này trong trường hợp một giá trị của mộtthuộc tính nào đĩ trong mẫu khơng thuộc vào miền giá trị của thuộc tính đĩ (mà xử lývăn bản là phần lớn xảy ra trường hợp này) Vì lúc đĩ P(D|h) sẽ luơn bằng 0, cho dùcác giá trị của các thuộc tính cịn lại vẫn trong miền giá trị.

2.3 Bộ phân lớp Nạve Bayesian

Bộ phân lớp Nạve Bayesian sử dụng lý thuyết về Bayes làm cơ sở Điểm mạnhcủa nĩ là cĩ thể áp dụng cho những mẫu cĩ số lượng thuộc tính nhiều bằng một cáchkhá đơn giản với hiệu quả cao

Lý thuyết của bộ phân lớp Nạve Bayesian như sau:

Cho D là một tập hợp các mẫu mà mỗi mẫu là một vector thuộc tính cĩ n chiềuCho X là một mẫu là một vector thuộc tính cũng cĩ n chiều

Giả sử: số lượng lớp sẵn cĩ là m lớp Ký hiệu: Ci với i=1…m

Bộ phân lớp Nạve Bayesian sẽ dự đốn mẫu X thuộc về lớp Ck nếu:

P(Ci|X) > P(Cj|X) với

Trang 19

3 ỨNG DỤNG NẠVE BAYESIAN TRONG PHÂN LỚP EMAIL

3.1 Giới thiệu ứng dụng

Trong thời đại ngày nay, email và internet là cơng cụ trao đổi chính, nĩ giúpchúng ta cĩ thể trao đổi, giao dịch với những người cách xa chúng ta cả vịng trái đất.Tuy nhiên, trong cái lợi cũng cĩ cái hại đĩ là với lượng email khổng lồ mà mộtngười nhận được hàng ngày cĩ bao nhiêu email là mong muốn và thực sự cĩ giá trị?

Cĩ bao nhiêu email là cơng việc gấp? Những con số này chỉ được biết khi người dùngđọc từng email và phân loại bằng tay

Rõ ràng, việc phân loại thực hiện trên một số lượng khổng lồ email khơng phải làviệc dễ dàng, vừa tốn thời gian, cơng sức…

Do đĩ, một số cơng cụ tự động đã được ra đời để giúp người dùng phân loạiemail nhận được, giúp giảm đi những phiền tối mà quá trình phân lớp bằng tay gây ra.Cơng cụ phân loại như vậy trong ngữ cảnh của khai phá dữ liệu được gọi là một bộphân lớp và Nạve Bayesian là một bộ phân lớp tiêu biểu như vậy

Chúng ta cĩ thể để ý rằng, thật ra việc phân lớp email cĩ thể dựa vào tiêu đề hoặcnội dung email Cĩ nghĩa là, bộ phân lớp hoạt động dựa trên việc phân tích tiêu đề, nộidung của email để biết được một email thuộc loại gì: cơng việc, spam, du lịch…Màtiêu đề hay nội dung email lại là những đoạn văn bản Như vậy, cơng việc phân lớpemail lại đưa về bản chất của một loại khai phá dữ liệu đĩ là khai phá văn bản (textmining)

Trong phạm vi bài thu hoạch này, em xin trình bày quá trình cài đặt bộ phân lớpNạve Bayesian đơn giản để phân lớp văn bản (email)

3.2 Mơi trường và tài nguyên

- Nền tảng: ứng dụng web

- Ngơn ngữ lập trình: PHP

- Hệ điều hành: Window 7

- Web server: EASYPHP

- Cơ sở dữ liệu: file hệ thống

3.3 Tiến trình thực hiện

Trang 20

3.3.1 Sơ lược về phân lớp văn bản

Phân lớp văn bản gồm các bước chính như sau:

- Làm sạch văn bản: loại bỏ những quảng cáo trong văn bản, cách hành

xử đối với những dạng không phải là thuần văn bản: bảng, hình…

- Tách văn bản: thành các cụm hoặc từ

- Phân loại dựa vào từ loại (part of speech)

- Giải quyết vấn đề mập mờ về nghĩa của từ

- Mô tả văn bản: túi từ (bag of words) hoặc không gian vectorTuy nhiên, trong bài thu hoạch này thì em chỉ đề cập đến túi từ Còn các phầnnhư: nghĩa, part of speech không được đề cập ở đây vì phạm vi khá rộng

3.3.2 Các thành phần của ứng dụng

3.3.2.1 Thành phần dùng để huấn luyện

Trước khi thực hiện việc phân loại thật thì hệ thống phải được huấn luyện bằngmột tập các dữ liệu huấn luyện Tập dữ liệu huấn luyện này được lấy từ thực tế (quátrình phân lớp bằng tay) Tập dữ liệu huấn luyện càng lớn, thì khả năng phân lớp càngchính xác vì bộ phân lớp dựa trên cơ sở về xác suất

Các bước huấn luyện cho hệ thống như sau:

- Người dùng cung cấp training data vào giao diện trên web

- Hệ thống nhận training data và thực hiện:

o Loại bỏ những stop word (những từ không có ý nghĩa trongvăn bản cần phân tích như: the, a, an, is…)

o Tách thành các từ riêng biệt để tạo thành túi từ (tokenization)

o Mã hóa mỗi mẫu trong training data thành một vector có giá trịnhị phân dựa trên túi từ Ví dụ: túi từ có 5 từ thì vector có 5chiều, mỗi chiều nhận các giá trị 0 (từ tương ứng trong túi từkhông xuất hiện trong mẫu) hoặc 1 (từ tương ứng trong túi từxuất hiện trong mẫu)

o Tạo thành file trong thư mục models để lưu lại cấu trúc đã họcđược

Một số yêu cầu về training data cung cấp cho hệ thống:

Ngày đăng: 10/04/2015, 00:25

HÌNH ẢNH LIÊN QUAN

Hình 1: Tiến trình khám phá tri thức - ỨNG DỤNG NAIVE BAYESIAN TRONG KHAI PHÁ DỮ LIỆU – PHÂN LỚP EMAIL
Hình 1 Tiến trình khám phá tri thức (Trang 7)
Hình dưới đây thể hiện một mảng 2 chiều của dữ liệu chứa 23 mẫu. Mỗi chấm thể hiện một người nào đó đã từng được ngân hàng cho vay trong quá khứ - ỨNG DỤNG NAIVE BAYESIAN TRONG KHAI PHÁ DỮ LIỆU – PHÂN LỚP EMAIL
Hình d ưới đây thể hiện một mảng 2 chiều của dữ liệu chứa 23 mẫu. Mỗi chấm thể hiện một người nào đó đã từng được ngân hàng cho vay trong quá khứ (Trang 9)
Hình 3: Mô phỏng phương pháp phân lớp - ỨNG DỤNG NAIVE BAYESIAN TRONG KHAI PHÁ DỮ LIỆU – PHÂN LỚP EMAIL
Hình 3 Mô phỏng phương pháp phân lớp (Trang 10)
Hình 4: Ví dụ về cây quyết định - ỨNG DỤNG NAIVE BAYESIAN TRONG KHAI PHÁ DỮ LIỆU – PHÂN LỚP EMAIL
Hình 4 Ví dụ về cây quyết định (Trang 10)
Hình 5: Gom cụm và phân lớp - ỨNG DỤNG NAIVE BAYESIAN TRONG KHAI PHÁ DỮ LIỆU – PHÂN LỚP EMAIL
Hình 5 Gom cụm và phân lớp (Trang 12)
Bảng 1: Dữ liệu mẫu cho suy diễn Bayes - ỨNG DỤNG NAIVE BAYESIAN TRONG KHAI PHÁ DỮ LIỆU – PHÂN LỚP EMAIL
Bảng 1 Dữ liệu mẫu cho suy diễn Bayes (Trang 16)
Hình 6: Giao diện huấn luyện - ỨNG DỤNG NAIVE BAYESIAN TRONG KHAI PHÁ DỮ LIỆU – PHÂN LỚP EMAIL
Hình 6 Giao diện huấn luyện (Trang 21)
Hình 7: Giao diện thực hiện phân lớp - ỨNG DỤNG NAIVE BAYESIAN TRONG KHAI PHÁ DỮ LIỆU – PHÂN LỚP EMAIL
Hình 7 Giao diện thực hiện phân lớp (Trang 23)
Hình 9: Kết quả phân lớp - ỨNG DỤNG NAIVE BAYESIAN TRONG KHAI PHÁ DỮ LIỆU – PHÂN LỚP EMAIL
Hình 9 Kết quả phân lớp (Trang 25)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w