Tài liệu phân lớp bayer

Phân lớp Bayer Nĩ dùng học xác suất bằng cách tính tốn xác suất hiện cho từng giả thuyết  Bộ phân lớp nạve Bayesian, giả sử các thuộc tính hồn tồn độc lập, được sử dụng phổ biến với tậ

Trang 1

Phân lớp Bayer

 Nĩ dùng học xác suất bằng cách tính tốn xác suất hiện cho từng giả thuyết

 Bộ phân lớp nạve Bayesian, giả sử các thuộc tính hồn tồn độc lập, được sử dụng phổ biến với tập dữ liêu lớn

 Mơ hình gia tăng theo nghĩa từng mẫu huấn luyện cĩ thể tăng hoặc giảm dần xác suất một giả thuyết là đúng Kiến thức biết trước cĩ thể kết hợp với dữ liệu quan sát được.

 Cho dữ liệu mẫu X với một nhãn lớp chưa biết, H là giải thuyết rằng X thuộc về một lớp xác định C

 Xác suất cĩ điều kiện H cho biết trước X, Pr(H|X), theo đĩnh lý Bayes:

suất, chi phí tính tốn cao

Pr( | ) Pr( ) Pr( | )

Pr( )

H X

X

Trang 2

Phân lớp nạve Bayesian

 Cho rằng chúng ta cĩ n lớp C1 , C2 ,…,Cn Cho một mẫu chưa

biết X, bộ phân lớp sẽ dự đốn rằngX=(x1 ,x2 ,…,xn) thuộc về

lớp với xác suất cĩ điều kiện cao nhất:

Trang 3

Phân lớp nạve Bayesian – Ví dụ

 Ở đây, chúng ta cĩ hai lớp C1=“cĩ” ( P ositive) and C2=“khơng” ( N egative)

 Pr(“cĩ”) = thể hiện với “cĩ” (s1) / tất cả thể hiện (s) = 9/14

 Nếu một thể hiện X mới cĩ quan sát=“nắng” , sau đĩ Pr(quan sát=“nắng” | “cĩ”) = 2/9

(bởi vì cĩ 9 thể hiện với “cĩ” (hay P) trong số 2 quan sát = “nắng”)

 Tương tự, độ ẩm =“cao”, Pr(độ ẩm=“cao” | “khơng”) = 4/5

 Và tiếp tục

Trang 4

Nạve Bayes (Ví dụ tiếp theo)

 Bây giờ, cho tập huấn luyện, chúng ta cĩ thể tính tốn tất cả xác suất

 Cho rằng chúng ta cĩ thể hiện mới X = <nắng, ấm áp, cao, cĩ> Nên được

phân loại như thế nào?

X = < nắng, ấm, cao, cĩ>

Pr(X | “khơng”) = 3/5 2/5 4/5 3/5

Trang 5

Nạve Bayes (Ví dụ tiếp theo)

 Để tìm ra X thuộc về lớp này chúng ta cần tối đa hố: Pr(X | C i ).Pr(C i), cho

từng lớp C i (ở đây là “cĩ” và “khơng”)

 Để chuyển hố những xác suất này, chúng ta cần chuẩn hố bằng cách

chia từng cái cho tổng của hai:

Trang 6

Phân lớp dựa trên kết hợp

 Nhớ rằng luật kết hợp “định lượng”

 Nếu phần bên phải của luật bị giới hạn thành thuộc tính lớp cần dự

đoán, luật có thể được sử dụng trực tiếp để phân loại

 Nó khám phá ra những luật có độ tin cậy và hộ trợ cao dưới dạng

“cond_set => Y”

trong đó Y là nhãn lớp.

Trang 7

Đo lường hiệu năng của

mô hình phân lớp

 Khi trường kết quả là có thứ tự hay rời rạc (VD: dự đoán hai lớp), chúng ta có thể sử dụng bản phân loại, gọi là , confusion matrix để đánh giá mô hình kết quả

Trang 8

 Thường dùng để phân lớp, nhưng có thể thay đổi cho các phương

pháp khác

 Đo lường mức độ thay đổi trong xác suất có điều kiện của một lớp mục tiêu khi đi từ một tập phổ biến (tập kiểm tra đầy đủ) đến mẫu điều chỉnh:

 Ví dụ:

 Cho rằng tỉ lệ phản hồi mong đợi cho chiến dịch gửi thư trực tiếp là 5% trong tập huấn luyện

 Sử dụng bộ phân lớp để gán giá trị “có”,“không” cho lớp mục tiêu “được dự đoán phản hồi”

 Nhóm có sẽ chứa một tỷ lệ cao hơn của những phản hồi thực sự hơn tập kiểm tra

 Cho rằng nhóm có chứa 50% phản hồi thực sự

 Giá trị lift = 10 = 0.5 / 0.05

 Điều gì nếu mẫu lift quả nhỏ

 Cần tăng cường kích thước mẫu

 Sự cân bằng giữa lift và kích thước mẫu

Đo lường hiệu quả: bản đồ Lift

lift Pr(class sample t| ) / Pr(class population t| )

Số lượng phản hổi

Trang 9

Thế nào là dự đoán

 Dự đoán tương tự như phân lớp

 Đầu tiên, xây dựng mô hình

 Tiếp theo, sử dụng mô hình để dự đoán giá trị chưa biết

 Dự đoán khác biệt với phân lớp

 Phân lớp đề cập đến dự đoán nhãn lớp rời rạc (VD: “yes”, “no”)

 Mô hình dự đoán được sử dụng để dự đoán giá trị của thuộc tính số mục tiêu

 Chúng có thể được xem như hàm giá trị - liên tục

 Hồi quy tuyến tính và hồi quy đa biến

 Hồi quy phi tuyến

 K-Nearest-Neighbor

 Hệ thống tư vấn, gán điểm tính dụng, giá trị đời sống khách hàng

Trang 10

Dự đoán: Phân tích hồi quy

 Hướng tiếp cận phổ biến là hồi quy: Hồi quy tuyến tính hay đa biến.

 Hồi quy tuyến tính: Y = + X

 Mô hình là đường thẳng phản ánh phân phối dữ liệu tốt nhất, đường thẳng cho phép dự đoán giá trị thuộc tính Y dựa trên một thuộc tính X.

 Hai tham số, và xác định đường thẳng và được ước lượng bằng cách sử dụng dữ liệu

 Hồi quy đa biến: Y = b0 + b1 X1 + b2 X2

 Cần thiết khi dự đoán được thực hiện dựa trên đa thuộc tính

 VD: dự đoán Customer LTV dựa trên: tuổi, thu nhập, chi tiêu, mua sắm

 Nhiều hàm phi tuyến có thể được chuyển hoá thành dạng trên

Trang 11

Đo lượng độ chính xác cho dự đoán

 Mô hình dự đoán được đánh giá dưa trên độ chính xác của chúng khi dự đoán trên dữ liện chưa biết

 Độ chính xác được đo lường dựa trên tỉ lệ lỗi (thường là % số bản ghi bị phân loại sai)

 Tỷ lể lỗi trên tập đánh giá tiền phân lớp ước lượng tỉ lệ lỗi thực sự

 Độ chính xác dự đoán

 Sự khác biệt giữa điểm số dự đoán và kết quả thực sự (từ tập đánh giá)

 Độ chính xác của mô hình được đo lường bằng phương sai (trung bình của bình phương sai khác)

 VD: Root Mean Squared Error: tính toán độ lệch chuẩn (căn bận hai của hiệp

phương sai giữa dự đoán và kết quả thực sự)

n

a p a

p

2 2

1

Trang 12

Ví dụ: Hệ thống tư vấn

 Công thức chung cho bài toán dự đoán

 Hồ sơ P u chứa điểm số quan tâm của u trên các item khác {i 1 , …, i k } khác với từ i t

 Điểm số quan tâm trên i1, …, ik có thể đạt được một cách hiện (VD: đánh giá phim) hay ẩn (thời gian xem một trang sản phẩn hay bài báo)

Cho hồ sơ Pu của người dùng u, và tập target item it, dự

đoán điểm số quan tâm f của người dùng u trên item it

Trang 13

 Dự đoán items chưa biết bằng cách tính toán dựa trên độ tương tự (theo nội dung) với những item trong hồ sơ của họ

 VD: Hồ sơ ngừơi dùng Pu chứa

lời khuyên nặng ký : và lời khuyên bình thường:

Trang 14

Hệ thống

khuyên dựa

trên nội dung

Trang 15

 Dự đoán những mục chưa biết dựa trên người dùng khác với điểm số quan tâm

tương tự trên những món hàng trong hồ sơ ngườ u’

 VD: người dùng với sở thích giống nhau (láng giếng gấn nhất)

 Đòi hỏi tính toán độ tương quan giữa người dùng u và những người dùng khác tương ứng với điểm số quan tâm hay đánh giá

Star Wars Jurassic Park Terminator 2 Indep Day Average Pearson

Trang 16

 Dự đoán những mục chưa biết dựa trên người dùng khác với điểm số quan tâm

tương tự trên những món hàng trong hồ sơ ngườ u’

 VD: người dùng với sở thích giống nhau (nearest neighbors)

 Đòi hỏi tính toán độ tương quan giữa người dùng u và những người dùng khác tương ứng với điểm số quan tâm hay đánh giá

Star Wars Jurassic Park Terminator 2 Indep Day Average Pearson

Trang 17

Các ý tưởng thú vị

 Phim(ví dụ trước)

 Truyện (đòi hỏi quá trình xử lý và chỉ mục văn bản)

 Nhạc (dựa trên đặc trưng như thể loại, nghệ sỹ)

 Xây dựng hệ thống cộng tác cho

 Phim (sử dụng đánh giá phim), VD: movielens.org

 Nhạc, VD: pandora.com

Tư vấn nhạc, album dựa trên đánh giá cộng tác

Hay tư vấn toàn bộ danh sách nhạc dựa trên danh sách từ người khác (đây là ứng dụng tốt cho khai thác luật kết hợp – tại sao?)

Trang 18

Các dạng khác của lọc cộng tác và xã hội

 Mọi người gán thẻ chữ vào nội dung của mình

 Nơi mọi người thường sử dụng chung thuật ngữ cho nội

dung được liên kết của mình

 Thường sử dụng những thuật ngữ như tạo nên loại phản hồi tích cực cho các thẻ phổ biến

 Del.icio.us

 Flickr

Trang 19

Gán thẻ xã hội

Không duyệt các định hướng phân loại có chủ đề hay tìm kiếm những thuật ngữ hiện

Thay vì sử dụng một ngôn ngữ, tôi định nghĩa thế giới của mình (tagging)

đồng

Gán thể tạo ra cộng đồng thông qua sự chồng chéo của cảnh

Điều này tạo nên mạng xã hộih có thể phát triển và tiến hoá cao hơn nữa

những kiến thức và khái niệm phức tạp? Kiến thức chắp vá?

Trang 20

Gom nhóm và lọc cộng tác

:: gom nhóm dựa trên đánh giá: movielens

Trang 21

Gom nhóm và lọc cộng tác

:: ví dụ về gom nhóm thẻ

Trang 22

Ví dụ phân lớp – Dữ liệu ngân hàng

 Muốn xác định phản hồi của chiến dịch gủi thư trực tiếp

 Một sản phẩm mới, "Personal Equity Plan" (PEP)

 Dữ liệu huấn luyện bao gồm những bản ghi gồm thông tin về các phản hồi

trước đây của khác hàng và mua sản phẩm

 Trong trường hợp này, lớp mục tiêu là “pep” với giá trị nhị phân

 Muốn xây dựng một mô hình và áp dụng nó vào dữ liệu mới (một danh sách

khách hàng) trong đó giá trị của thuộc tính lớp là chưa biết

Trang 23

Chuẩn bị dữ liệu

 Những bước chuẩn bị dữ liệu cho Weka và See5

 Mở tập huấn luyện bằng Excel, xoá cột “id”, lưu kết quả (VD: “bank.csv”)

 Làm tương tự cho dữ liệu khách hàng mới, nhưng thêm cột mới “pep” vào cột cuối cùng, giá trị của cột này nên là “?” cho tất cả các bản ghi

 Weka

 Phải chuyển dữ liệu thành định dạng ARFF

 Thuộc tính đặc tả và dữ liệu thuộc cùng một file

 Phần dữ liệu là file định giới bằng dấu phẩy không có dòng nhãn

 Tạo ra file “tên” và file “dữ liệu”

 File “tên” chứa thuộc tính đặc tả, file “dữ liệu” chứa như trên

 Dòng đầu tiên của file “tên” phải là tên của lớp mục tiêu – trong trường hợp này là “pep”

Trang 24

File định dạng dữ liệu cho Weka

@relation ’train-bank-data'

@attribute 'age' real

@attribute 'sex' {'MALE','FEMALE'}

@attribute 'region' {'INNER_CITY','RURAL','TOWN','SUBURBAN'}

@attribute 'income' real

@attribute 'married' {'YES','NO'}

@attribute 'children' real

@attribute 'car' {'YES','NO'}

@attribute 'save_act' {'YES','NO'}

@attribute 'current_act' {'YES','NO'}

@attribute 'mortgage' {'YES','NO'}

@attribute 'pep' {'YES','NO'}

@data 48,FEMALE,INNER_CITY,17546,NO,1,NO,NO,NO,NO,YES 40,MALE,TOWN,30085.1,YES,3,YES,NO,YES,YES,NO

@relation 'new-bank-data'

@attribute 'age' real

@attribute 'region' {'INNER_CITY','RURAL','TOWN','SUBURBAN'}

.

Dữ liêu huấn luyện

Trường hợp mới

Trang 25

Thực thi C4.5 trong Weka

 Để xây dựng mô hình (cây quyết

| | | | save_act = NO: YES (3.0)

| | | mortgage = NO: YES (29.0/2.0)

| income <= 43228.2: NO (30.0/2.0)

| income > 43228.2: YES (5.0)

Cây quyết định đầu ra (đã tỉa)

Trang 26

Thực thi C4.5 trong Weka

Mô hình có thể được lưu để

lần sau có thể áp dụng vào

dữ liêu mới

=== Error on training data ===

Correctly Classified Instances 281 93.6667 % Incorrectly Classified Instances 19 6.3333 % Mean absolute error 0.1163

Root mean squared error 0.2412 Relative absolute error 23.496 % Root relative squared error 48.4742 % Total Number of Instances 300

Root mean squared error 0.291 Relative absolute error 28.9615 % Root relative squared error 58.4922 % Total Number of Instances 300

Phần còn lại của đầu ra

chứa thông tin thống kê về

mô hình, bao gồm,

confusion matrix, tỉ lệ lỗi

…

Định dạng
Số trang	40
Dung lượng	1,71 MB