tìm hiểu phần mềm weka
Trang 1TÌM HIӆU PHҪN MӄM
WEKA
GVHD: THҪY NGUYӈN VĂN CHӬC
THӴC HIӊN: NHÓM 15
Trang 2NӜI DUNG TRÌNH BÀY
Giӟi thiӋu chӭc năng phân lӟp
Mӝt sӕ bӝ phân lӟp phә biӃn
Cây quyӃt đӏnh ID3
NaiveBayes
Tәng kӃt
Trang 3NӜI DUNG TRÌNH BÀY
Giӟi thiӋu chӭc năng phân lӟp
Mӝt sӕ bӝ phân lӟp phә biӃn
Cây quyӃt đӏnh ID3
NaiveBayes
Tәng kӃt
Trang 4PHÂN LӞP LÀ GÌ?
ahân lӟp (classify) là mӝt nhiӋm vө khai thác dӳ liӋu, trong đó: chotrưӟc mӝt tұp hӧp các lӟp, tìm cách gán mӝt mүu mӟi vào phân lӟpsao cho có đӝ chính xác cao nhҩt có thӇ
Ví dө:
Dӵ đoán khӕi u là u lành hay u ác
ahân loҥi văn bҧn theo chӫ đӅ tin tӭc, thӇ thao, giáo dөc
Weka hӛ trӧ phân lӟp trong phҫn chӭc năng Explorer cӫa nhómchӭc năng Applications
Trang 5PHÂN LӞP VӞI WEKA
Trang 6PHÂN LӞP VӞI WEKA
þây là chӭc năng cho phép ngưӡi
dùng chӑn lӵa mӝt trong các thuұt toán
phân lӟp đã cài đһt sҹn đӇ áp dөng lên
dӳ liӋu
Bưӟc 1: nhҩn nút O đӇ mӣ
hӝp thoҥi chӑn thuұt toán
Trang 7PHÂN LӞP VӞI WEKA
þây là chӭc năng cho phép ngưӡi
dùng chӑn lӵa mӝt trong các thuұt
toán phân lӟp đã cài đһt sҹn đӇ áp
dөng lên dӳ liӋu
Bưӟc 2: nhҩn vào ô chӳ hiӇn
thӏ thuұt toán đӇ mӣ hӝp thoҥi
chӑn tham sӕ
Trang 8PHÂN LӞP VӞI WEKA
þây là chӭc năng cho phép ngưӡi dùng chӑn lӵa mӝt trong cácthuұt toán phân lӟp đã cài đһt sҹn đӇ áp dөng lên dӳ liӋu
Bưӟc 1: nhҩn nút O đӇ mӣ hӝp thoҥi chӑn thuұt toán
Bưӟc 2: nhҩn vào ô chӳ hiӇn thӏ thuұt toán đӇ mӣ hӝp thoҥichӑn tham sӕ
Bưӟc 3: nhҩn nút đӇ chҥy thuұt toán vӟi dӳ liӋu hiӋn có
Trang 9PHÂN LӞP VӞI WEKA
þây là dӳ liӋu thu đưӧc sau khi thӵc hiӋn thành công, gӗm
, (cây quyӃt đӏnh, giá trӏ xác suҩt«),
trên tұp dӳ liӋu kiӇm thӱ và
Trang 10PHÂN LӞP VӞI WEKA
þây là bҧng lưu lҥi thông tin các lҫn chҥy Ta có thӇ ghi lҥi kӃt quҧchҥy thuұt toán sang tұp tin đӇ lưu trӳ
Trang 11PHÂN LӞP VӞI WEKA
þây là bҧng chӑn lӵa chӃ đӝ kiӇm thӱ đӇ đánh giá hiӋu quҧ cӫa bӝphân lӟp đã đưӧc xây dӵng
Use training set: sӱ dөng tұp
huҩn luyӋn làm tұp kiӇm thӱ
Trang 12PHÂN LӞP VӞI WEKA
þây là bҧng chӑn lӵa chӃ đӝ kiӇm thӱ đӇ đánh giá hiӋu quҧ cӫa bӝphân lӟp đã đưӧc xây dӵng
Supplied test set: chӍ đӏnh tұp dӳ
liӋu mӟi làm tұp kiӇm thӱ
Trang 13PHÂN LӞP VӞI WEKA
þây là bҧng chӑn lӵa chӃ đӝ kiӇm thӱ đӇ đánh giá hiӋu quҧ cӫa bӝphân lӟp đã đưӧc xây dӵng
Cross-validation: kiӇm thӱ bҵng
phương pháp cross-validation
Trang 14PHÂN LӞP VӞI WEKA
þây là bҧng chӑn lӵa chӃ đӝ kiӇm thӱ đӇ đánh giá hiӋu quҧ cӫa bӝphân lӟp đã đưӧc xây dӵng
aercentage split: chia tұp dӳ liӋu
ban đҫu thành tұp huҩn luyӋn và
tұp kiӇm thӱ theo tӍ lӋ %
Trang 15PHÂN LӞP VӞI WEKA
Các lӵa chӑn tiӋn ích khác
ӵa chӑn xuҩt kӃt quҧ
ӵa chӑn thuӝc tính phân lӟp
Trang 16NӜI DUNG TRÌNH BÀY
Giӟi thiӋu chӭc năng phân lӟp
Mӝt sӕ bӝ phân lӟp phә biӃn
Cây quyӃt đӏnh ID3
NaiveBayes
Tәng kӃt
Trang 17CÁC THUҰT TOÁN PHÂN LӞP
Weka hӛ trӧ tương đӕi đa dҥng các thuұt toán phân lӟp
Các thuұt toán đưӧc chia thành nhiӅu nhóm dӵa theo tính chҩt hoҥtđӝng, có thӇ kӇ đӃn mӝt sӕ đҥi diӋn như:
Bayes: mҥng Bayes, NaiveBayes«
Functions: SVM, hàm hӗi qui«
Trees: ID3, J48«
Rules: các phương pháp khai thác dӵa trên luұt
Trang 18CÂY QUYӂT ĐӎNH
à mô hình phân lӟp dҥng cây sao cho bҳt đҫu tӯ mӝt sӕ thuӝc tínhnào đó (nút trung gian) có thӇ đi đӃn quyӃt đӏnh phân lӟp cho mӝtmүu (nút lá)
Ví dө: ID3, J48«
Trang 19CÁC BƯӞC THӴC HIӊN
Trang 20Tên thuұt toán Tham sӕ đi kèm
Thông tin tóm tҳt vӅ lưӧt chҥy: thuұt toán sӱ dөng, dӳ liӋu đҫu vào(tên, các thuӝc tính«), kiӇu test
Trang 21| humidity = normal : yes
outlook = overcast : yes
outlook = rainy
| windy = TRUE : no
| windy = FALSE : yes
Time taken to build model: 0 seconds
Cây quyӃt đӏnh đưӧc xây dӵng tӯ thuұt toán ID3 và dӳ liӋu weather
Trang 22PHÂN TÍCH KӂT QUҦ
=== Predictions on test data ===
inst#, thӵc sӵ dӵ báo error probability distribution
Trang 23Mean absolute error 0.1429
Root mean squared error 0.378
Relative absolute error 30 %
Root relative squared error 76.6097 %
Total Number of Instances 14
Thӕng kê vӅ tӍ lӋ phân lӟp đúng/sai, kèm theo mӝt sӕ thông sӕ vӅnhӳng đӝ đo lӛi phә biӃn
Trang 24Ví dө: Cӝt a có 9 mүu Weka phân lӟp 9 mүu thuӝc lӟp a, nhưng
9 mүu này thuӝc hai dòng a = yes (8) và b = no (1) Weka phânlӟp sai 1 mүu
Trang 26PHÂN TÍCH KӂT QUҦ
=== Classifier model (full training set) ===
Naive Bayes (simple)
Trang 27NӜI DUNG TRÌNH BÀY
Giӟi thiӋu chӭc năng phân lӟp
Mӝt sӕ bӝ phân lӟp phә biӃn
Cây quyӃt đӏnh ID3
NaiveBayes
Tәng kӃt
Trang 28TӘNG KӂT
ahân lӟp (classify) đưӧc hӛ trӧ trong chӭc năng Explorer cӫaWeka þây là chӭc năng giúp ngưӡi dùng phân lӟp dӳ liӋu dӵa trênquá trình gӗm 2 bưӟc:
Huҩn luyӋn: xây dӵng bӝ phân lӟp dӵa trên dӳ liӋu huҩn luyӋn