Phân lớp Bayer Nĩ dùng học xác suất bằng cách tính tốn xác suất hiện cho từng giả thuyết Bộ phân lớp nạve Bayesian, giả sử các thuộc tính hồn tồn độc lập, được sử dụng phổ biến với tậ
Trang 1Phân lớp Bayer
Nĩ dùng học xác suất bằng cách tính tốn xác suất hiện cho từng giả thuyết
Bộ phân lớp nạve Bayesian, giả sử các thuộc tính hồn tồn độc lập, được sử dụng phổ biến với tập dữ liêu lớn
Mơ hình gia tăng theo nghĩa từng mẫu huấn luyện cĩ thể tăng hoặc giảm dần xác suất một giả thuyết là đúng Kiến thức biết trước cĩ thể kết hợp với dữ liệu quan sát được.
Cho dữ liệu mẫu X với một nhãn lớp chưa biết, H là giải thuyết rằng X thuộc về một lớp xác định C
Xác suất cĩ điều kiện H cho biết trước X, Pr(H|X), theo đĩnh lý Bayes:
suất, chi phí tính tốn cao
Pr( | ) Pr( ) Pr( | )
Pr( )
H X
X
Trang 2Phân lớp nạve Bayesian
Cho rằng chúng ta cĩ n lớp C1 , C2 ,…,Cn Cho một mẫu chưa
biết X, bộ phân lớp sẽ dự đốn rằngX=(x1 ,x2 ,…,xn) thuộc về
lớp với xác suất cĩ điều kiện cao nhất:
Trang 3Phân lớp nạve Bayesian – Ví dụ
Ở đây, chúng ta cĩ hai lớp C1=“cĩ” ( P ositive) and C2=“khơng” ( N egative)
Pr(“cĩ”) = thể hiện với “cĩ” (s1) / tất cả thể hiện (s) = 9/14
Nếu một thể hiện X mới cĩ quan sát=“nắng” , sau đĩ Pr(quan sát=“nắng” | “cĩ”) = 2/9
(bởi vì cĩ 9 thể hiện với “cĩ” (hay P) trong số 2 quan sát = “nắng”)
Tương tự, độ ẩm =“cao”, Pr(độ ẩm=“cao” | “khơng”) = 4/5
Và tiếp tục
Trang 4Nạve Bayes (Ví dụ tiếp theo)
Bây giờ, cho tập huấn luyện, chúng ta cĩ thể tính tốn tất cả xác suất
Cho rằng chúng ta cĩ thể hiện mới X = <nắng, ấm áp, cao, cĩ> Nên được
phân loại như thế nào?
X = < nắng, ấm, cao, cĩ>
Pr(X | “khơng”) = 3/5 2/5 4/5 3/5
Trang 5Nạve Bayes (Ví dụ tiếp theo)
Để tìm ra X thuộc về lớp này chúng ta cần tối đa hố: Pr(X | C i ).Pr(C i), cho
từng lớp C i (ở đây là “cĩ” và “khơng”)
Để chuyển hố những xác suất này, chúng ta cần chuẩn hố bằng cách
chia từng cái cho tổng của hai:
Trang 6Phân lớp dựa trên kết hợp
Nhớ rằng luật kết hợp “định lượng”
Nếu phần bên phải của luật bị giới hạn thành thuộc tính lớp cần dự
đoán, luật có thể được sử dụng trực tiếp để phân loại
Nó khám phá ra những luật có độ tin cậy và hộ trợ cao dưới dạng
“cond_set => Y”
trong đó Y là nhãn lớp.
Trang 7Đo lường hiệu năng của
mô hình phân lớp
Khi trường kết quả là có thứ tự hay rời rạc (VD: dự đoán hai lớp), chúng ta có thể sử dụng bản phân loại, gọi là , confusion matrix để đánh giá mô hình kết quả
Trang 8 Thường dùng để phân lớp, nhưng có thể thay đổi cho các phương
pháp khác
Đo lường mức độ thay đổi trong xác suất có điều kiện của một lớp mục tiêu khi đi từ một tập phổ biến (tập kiểm tra đầy đủ) đến mẫu điều chỉnh:
Ví dụ:
Cho rằng tỉ lệ phản hồi mong đợi cho chiến dịch gửi thư trực tiếp là 5% trong tập huấn luyện
Sử dụng bộ phân lớp để gán giá trị “có”,“không” cho lớp mục tiêu “được dự đoán phản hồi”
Nhóm có sẽ chứa một tỷ lệ cao hơn của những phản hồi thực sự hơn tập kiểm tra
Cho rằng nhóm có chứa 50% phản hồi thực sự
Giá trị lift = 10 = 0.5 / 0.05
Điều gì nếu mẫu lift quả nhỏ
Cần tăng cường kích thước mẫu
Sự cân bằng giữa lift và kích thước mẫu
Đo lường hiệu quả: bản đồ Lift
lift Pr(class sample t| ) / Pr(class population t| )
Số lượng phản hổi
Trang 9Thế nào là dự đoán
Dự đoán tương tự như phân lớp
Đầu tiên, xây dựng mô hình
Tiếp theo, sử dụng mô hình để dự đoán giá trị chưa biết
Dự đoán khác biệt với phân lớp
Phân lớp đề cập đến dự đoán nhãn lớp rời rạc (VD: “yes”, “no”)
Mô hình dự đoán được sử dụng để dự đoán giá trị của thuộc tính số mục tiêu
Chúng có thể được xem như hàm giá trị - liên tục
Hồi quy tuyến tính và hồi quy đa biến
Hồi quy phi tuyến
K-Nearest-Neighbor
Hệ thống tư vấn, gán điểm tính dụng, giá trị đời sống khách hàng
Trang 10Dự đoán: Phân tích hồi quy
Hướng tiếp cận phổ biến là hồi quy: Hồi quy tuyến tính hay đa biến.
Hồi quy tuyến tính: Y = + X
Mô hình là đường thẳng phản ánh phân phối dữ liệu tốt nhất, đường thẳng cho phép dự đoán giá trị thuộc tính Y dựa trên một thuộc tính X.
Hai tham số, và xác định đường thẳng và được ước lượng bằng cách sử dụng dữ liệu
Hồi quy đa biến: Y = b0 + b1 X1 + b2 X2
Cần thiết khi dự đoán được thực hiện dựa trên đa thuộc tính
VD: dự đoán Customer LTV dựa trên: tuổi, thu nhập, chi tiêu, mua sắm
Nhiều hàm phi tuyến có thể được chuyển hoá thành dạng trên
Trang 11Đo lượng độ chính xác cho dự đoán
Mô hình dự đoán được đánh giá dưa trên độ chính xác của chúng khi dự đoán trên dữ liện chưa biết
Độ chính xác được đo lường dựa trên tỉ lệ lỗi (thường là % số bản ghi bị phân loại sai)
Tỷ lể lỗi trên tập đánh giá tiền phân lớp ước lượng tỉ lệ lỗi thực sự
Độ chính xác dự đoán
Sự khác biệt giữa điểm số dự đoán và kết quả thực sự (từ tập đánh giá)
Độ chính xác của mô hình được đo lường bằng phương sai (trung bình của bình phương sai khác)
VD: Root Mean Squared Error: tính toán độ lệch chuẩn (căn bận hai của hiệp
phương sai giữa dự đoán và kết quả thực sự)
n
a p a
p
2 2
1
Trang 12Ví dụ: Hệ thống tư vấn
Công thức chung cho bài toán dự đoán
Hồ sơ P u chứa điểm số quan tâm của u trên các item khác {i 1 , …, i k } khác với từ i t
Điểm số quan tâm trên i1, …, ik có thể đạt được một cách hiện (VD: đánh giá phim) hay ẩn (thời gian xem một trang sản phẩn hay bài báo)
Cho hồ sơ Pu của người dùng u, và tập target item it, dự
đoán điểm số quan tâm f của người dùng u trên item it
Trang 13Ví dụ: Hệ thống tư vấn
Dự đoán items chưa biết bằng cách tính toán dựa trên độ tương tự (theo nội dung) với những item trong hồ sơ của họ
VD: Hồ sơ ngừơi dùng Pu chứa
lời khuyên nặng ký : và lời khuyên bình thường:
Trang 14Hệ thống
khuyên dựa
trên nội dung
Trang 15Ví dụ: Hệ thống tư vấn
Dự đoán những mục chưa biết dựa trên người dùng khác với điểm số quan tâm
tương tự trên những món hàng trong hồ sơ ngườ u’
VD: người dùng với sở thích giống nhau (láng giếng gấn nhất)
Đòi hỏi tính toán độ tương quan giữa người dùng u và những người dùng khác tương ứng với điểm số quan tâm hay đánh giá
Star Wars Jurassic Park Terminator 2 Indep Day Average Pearson
Trang 16Ví dụ: Hệ thống tư vấn
Dự đoán những mục chưa biết dựa trên người dùng khác với điểm số quan tâm
tương tự trên những món hàng trong hồ sơ ngườ u’
VD: người dùng với sở thích giống nhau (nearest neighbors)
Đòi hỏi tính toán độ tương quan giữa người dùng u và những người dùng khác tương ứng với điểm số quan tâm hay đánh giá
Star Wars Jurassic Park Terminator 2 Indep Day Average Pearson
Trang 17Các ý tưởng thú vị
Phim(ví dụ trước)
Truyện (đòi hỏi quá trình xử lý và chỉ mục văn bản)
Nhạc (dựa trên đặc trưng như thể loại, nghệ sỹ)
Xây dựng hệ thống cộng tác cho
Phim (sử dụng đánh giá phim), VD: movielens.org
Nhạc, VD: pandora.com
Tư vấn nhạc, album dựa trên đánh giá cộng tác
Hay tư vấn toàn bộ danh sách nhạc dựa trên danh sách từ người khác (đây là ứng dụng tốt cho khai thác luật kết hợp – tại sao?)
Trang 18Các dạng khác của lọc cộng tác và xã hội
Mọi người gán thẻ chữ vào nội dung của mình
Nơi mọi người thường sử dụng chung thuật ngữ cho nội
dung được liên kết của mình
Thường sử dụng những thuật ngữ như tạo nên loại phản hồi tích cực cho các thẻ phổ biến
Del.icio.us
Flickr
Trang 19Gán thẻ xã hội
Không duyệt các định hướng phân loại có chủ đề hay tìm kiếm những thuật ngữ hiện
Thay vì sử dụng một ngôn ngữ, tôi định nghĩa thế giới của mình (tagging)
đồng
Gán thể tạo ra cộng đồng thông qua sự chồng chéo của cảnh
Điều này tạo nên mạng xã hộih có thể phát triển và tiến hoá cao hơn nữa
những kiến thức và khái niệm phức tạp? Kiến thức chắp vá?
Trang 20Gom nhóm và lọc cộng tác
:: gom nhóm dựa trên đánh giá: movielens
Trang 21Gom nhóm và lọc cộng tác
:: ví dụ về gom nhóm thẻ
Trang 22Ví dụ phân lớp – Dữ liệu ngân hàng
Muốn xác định phản hồi của chiến dịch gủi thư trực tiếp
Một sản phẩm mới, "Personal Equity Plan" (PEP)
Dữ liệu huấn luyện bao gồm những bản ghi gồm thông tin về các phản hồi
trước đây của khác hàng và mua sản phẩm
Trong trường hợp này, lớp mục tiêu là “pep” với giá trị nhị phân
Muốn xây dựng một mô hình và áp dụng nó vào dữ liệu mới (một danh sách
khách hàng) trong đó giá trị của thuộc tính lớp là chưa biết
Trang 23Chuẩn bị dữ liệu
Những bước chuẩn bị dữ liệu cho Weka và See5
Mở tập huấn luyện bằng Excel, xoá cột “id”, lưu kết quả (VD: “bank.csv”)
Làm tương tự cho dữ liệu khách hàng mới, nhưng thêm cột mới “pep” vào cột cuối cùng, giá trị của cột này nên là “?” cho tất cả các bản ghi
Weka
Phải chuyển dữ liệu thành định dạng ARFF
Thuộc tính đặc tả và dữ liệu thuộc cùng một file
Phần dữ liệu là file định giới bằng dấu phẩy không có dòng nhãn
Tạo ra file “tên” và file “dữ liệu”
File “tên” chứa thuộc tính đặc tả, file “dữ liệu” chứa như trên
Dòng đầu tiên của file “tên” phải là tên của lớp mục tiêu – trong trường hợp này là “pep”
Trang 24File định dạng dữ liệu cho Weka
@relation ’train-bank-data'
@attribute 'age' real
@attribute 'sex' {'MALE','FEMALE'}
@attribute 'region' {'INNER_CITY','RURAL','TOWN','SUBURBAN'}
@attribute 'income' real
@attribute 'married' {'YES','NO'}
@attribute 'children' real
@attribute 'car' {'YES','NO'}
@attribute 'save_act' {'YES','NO'}
@attribute 'current_act' {'YES','NO'}
@attribute 'mortgage' {'YES','NO'}
@attribute 'pep' {'YES','NO'}
@data 48,FEMALE,INNER_CITY,17546,NO,1,NO,NO,NO,NO,YES 40,MALE,TOWN,30085.1,YES,3,YES,NO,YES,YES,NO
@relation 'new-bank-data'
@attribute 'age' real
@attribute 'region' {'INNER_CITY','RURAL','TOWN','SUBURBAN'}
.
Dữ liêu huấn luyện
Trường hợp mới
Trang 25Thực thi C4.5 trong Weka
Để xây dựng mô hình (cây quyết
| | | | save_act = NO: YES (3.0)
| | | mortgage = NO: YES (29.0/2.0)
| income <= 43228.2: NO (30.0/2.0)
| income > 43228.2: YES (5.0)
Cây quyết định đầu ra (đã tỉa)
Trang 26Thực thi C4.5 trong Weka
Mô hình có thể được lưu để
lần sau có thể áp dụng vào
dữ liêu mới
=== Error on training data ===
Correctly Classified Instances 281 93.6667 % Incorrectly Classified Instances 19 6.3333 % Mean absolute error 0.1163
Root mean squared error 0.2412 Relative absolute error 23.496 % Root relative squared error 48.4742 % Total Number of Instances 300
Root mean squared error 0.291 Relative absolute error 28.9615 % Root relative squared error 58.4922 % Total Number of Instances 300
Phần còn lại của đầu ra
chứa thông tin thống kê về
mô hình, bao gồm,
confusion matrix, tỉ lệ lỗi
…