động vật thì chính là lớp bò sát, động vật có vú,… là bậc cao nhất sau khi đượcphân ra giữa động vật và thực vật.Tóm lại, với dự án này, chúng tôi sẽ “Phân các loài động vật vào các lớp
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM
LOÀI ĐỘNG VẬT THUỘC CÁC LỚP ĐỘNG VẬT
DỰA TRÊN THUỘC TÍNH CỦA CHÚNG.
Giảng viên hướng dẫn : Võ Thành Đức
Nhóm thực hiện : 2
Tên sinh viên : 1 Phạm Thị Mỹ Duyên
2 Lê Văn Giác
Trang 2Mục lục
PHẦN I: GIỚI THIỆU 1
1 Mục đích chọn đề tài 1
2 Bức tranh tổng quát về động vật trong tự nhiên 2
PHẦN II: THU THẬP VÀ LÀM SẠCH DỮ LIỆU 3
1.Mô tả tổng quát dữ liệu 3
2 Các thuộc tính đưa vào mô hình 4
3.Xác định biến mục tiêu: Type (Chủng loại) 4
4.Các bước làm sạch dữ liệu 4
PHẦN III: KIỂM ĐỊNH MÔ HÌNH 6
1 Màn hình thể hiện: (phần mềm orange) 6
2 Kết quả với tập dữ liệu testing: 6
3 Kết quả với tập dữ liệu dự báo: 7
PHẦN IV: ĐÁNH GIÁ VÀ LỰA CHỌN MÔ HÌNH 14
1 Dựa vào các chỉ số đánh giá lựa chọn mô hình phù hợp 14
2 Sử dụng ma trận nhầm lẫn để đánh giá trường hợp xảy ra sự nhầm lẫn 15
PHẦN V: TRIỂN KHAI MÔ HÌNH 18
1 Mục đích, ý nghĩa của việc triển khai mô hình 18
2.Phân tích đánh giá hiệu quả kinh tế khi triển khai mô hình 18
PHẦN VI: ĐÁNH GIÁ ĐÓNG GÓP CỦA CÁC THÀNH VIÊN THAM GIA DỰ ÁN 19
Trang 3PHẦN I: GIỚI THIỆU
1 Mục đích chọn đề tài
Ở mỗi gia đình hiện đại ngày nay gần như luôn có thể chọn một loài độngvật làm thú cưng như chó, mèo, cá , chuột, và một số loài động vật khác ítngười dám nuôi chúng trong nhà như rắn, cá sấu, heo như loài thú cưng Tuynhiên sẽ như thế nào nếu như vô tình bạn nhận nuôi một loài thú lạ mà bạn chưatừng gặp bao giờ nhưng lúc bạn thấy chúng bạn lại muốn mang về nhà nuôi Và
sẽ có một điều hiếm gặp có thể xảy ra là chúng lại thuộc vào loài động vật quýhiếm và bạn không biết phải chăm sóc chúng như thế nào Và dự án này sẽ mộtphần nào đó hỗ trợ bạn tìm cách chăm sóc cho chúng
Trong dự án này, chúng tôi không khuyến khích bạn bắt giữ và nuôi độngvật quý hiếm, chúng tôi làm dự án này với một mục đích lớn khác đó là bảo tồn,gìn giữ các loài động vật quý hiếm, góp phần bảo vệ hệ sinh thái, môi trườngsống xung quanh
Tại khu bảo tồn động vật hoang dã Barrington ở bang New South Wales(Úc) đã có 26 cá thể động vật Tasmania được sinh sống từ tháng 9/2020 Đây làloài động vật đã biên mất khỏi lục địa Úc từ khi loài cho hoang Dingo xuất hiện
vì bệnh u mặt quỷ hoành hành, khoảng 90% cá thể của loài này đã chết Tuynhiên nhờ vào sự yêu quý loài động vật của nhóm bảo tồn Aussia Ark, các cá thểcủa loài động vật này được mang về chăm sóc và nuôi dưỡng, giúp chúng pháttriển để có thể hòa nhập lại với môi trường tự nhiên (nguồn:
Trang 4động vật thì chính là lớp bò sát, động vật có vú,… là bậc cao nhất sau khi đượcphân ra giữa động vật và thực vật.
Tóm lại, với dự án này, chúng tôi sẽ “Phân các loài động vật vào các lớp động vật dựa trên các thuộc tính của chúng” (bằng công cụ hỗ trợ orange).
Mục đích chính của đề tài là khi phát hiện ra các loài động vật mới hoặc để bảotồn các loài động vật quý hiếm, mọi người có thể biết cách chăm sóc tốt chochúng, để chúng phát triển tốt trong môi trường ngày nay
2 Bức tranh tổng quát về động vật trong tự nhiên
Trên thực tế, chúng ta sẽ quan sát được cách sinh hoạt của các loài độngvật thông qua quá trình tiếp xúc bên ngoài Ví dụ như những loài động vật nhưkhỉ, chó, mèo, bò, sư tử,… là những loài động vật có 4 chi, có bộ lông bao phủbên ngoài, chúng đẻ con và nuôi con bằng sữa, chúng thuộc lớp động vật có vú,tuy nhiên trong lớp động vật có vú này thì có những loài động vật thuộc bộ thúđơn huyệt, chúng là các loài động vật thuộc lớp động vật có vú nhưng đẻ trứng(đơn cử như thú mỏ vịt)
Chuyển sang ví dụ đối với các lớp động vật khác như chim, cá và các loài
bò sát thì chúng có những đặc điểm thể hiện các thuộc tính khác như chim làloài động vật có lông vũ, có 2 chân, 2 cánh, đa phần các loài chim thường có thểbay trên bầu trời và chúng đẻ trứng Đối với loài cá thì chúng sống dưới nước,không có chi, có đuôi,… và còn nhiều thuộc tính khác để chúng tôi phân rathành các lớp động vật thuộc các loài
Mặc dù vậy, trên thực tế vẫn có những đặc điểm đặc biệt của các loàiđộng vật khiến cho chúng được phân loại các với các đặc điểm thông thường
Chúng tôi sẽ nêu 03 ví dụ nổi bậc (còn nhiều điểm đặc biệt của các loàiđộng vật khác mà nếu như đi sâu vào chúng sẽ mang lại nhiều điều bất ngờ).:
+ Cá sấu: Đây là loài động vật thuộc lớp bò sát, chúng ta thường gọichúng là cá sấu vì chúng hay sống dưới nước, di chuyển nhanh, linh hoạt nhưmột loài cá thật thụ Tuy nhiên chúng thuộc lớp bò sát vì chúng có 04 chi, thởbằng phổi, đẻ ít trứng (số lượng thường ít hơn 10 trứng), có thể nói rằng chúngmang những đặc điểm giống với các loài động vật thuộc lớp bò sát hơn nênchúng được phân vào lớp bò sát
+ Cá heo: Nếu chỉ dựa vào thuộc tính là chúng sống ở dưới nước thì rất dễhiểu nhầm đây là loài động vật thuộc lớp cá Tuy nhiên, khoa học đã khẳng địnhrằng loài động vật này thuộc lớp động vật có vú Những đặc điểm nổi bật củachúng thuộc lớp động vật có vú vì chúng đẻ con, nuôi con bằng sữa
+ Cá chuồn: Đây là động vật thuộc lớp cá, tuy nhiên chúng có khả năngbay lượn của loài chim Điểm nổi bật nhất trên cơ thể của cá chuồn chính làphần vây Chúng có phần vây ức khá lớn và cứng, chúng có thể mở rộng nhưcánh chim Đây chính là đặc điểm giúp chúng có thể bay ra khỏi mặt nước
pg 2
Trang 5Với các lớp động vật khác nhau, chúng sẽ có những thuộc tính khác nhau.
Sẽ có những loài động vật thuộc lớp động vật này nhưng chúng có mang nhữngthuộc tính của lớp động vật khác Vì thế khi phân loài các thuộc tính, nhóm đãlựa chọn để một vài đặc tính nổi trội về loài làm thuộc tính chứ không gộpchung (như để riêng về việc loài đó có sống dưới nước và loài đó ở trên cân, trênkhông chứ không để gộp thuộc tính là môi trường sống)
PHẦN II: THU THẬP VÀ LÀM SẠCH DỮ LIỆU
1.Mô tả tổng quát dữ liệu.
- Thu thập dữ liệu từ Orange ( file dữ liệu zoo)
- Đây là tập dự liệu mô tả các thuộc tinh của các loài động vật Dựa vào các đặc tính này để phân loại các loài thuộc lớp nào trong 7 lớp động vật
- Data set Characteristic(đặc điểm của tập dữ liệu): Đa biến
- Số lượng mẫu:Tập dữ liệu mẫu testing:89
Tập traning :10
Số lượng thuộc tính : 17
- Attribute Chacteristics(đặc điểm thuộc tính) :categorical, interger
- Missing value( giá trị bị thiếu ) : bằng không
Trang 62 Các thuộc tính đưa vào mô hình.
Mô tả các thuộc tính :
- Hair(Loài có râu hay không):
- Feathers( Lông của loài)
Attribute Information(thông tin về thuộc tính)
1.animal name: Unique for each instance
- Các bước và giải pháp làm sạch dữ liệu:
Làm sạch dữ liệu (data cleaning/cleansing): loại bỏ nhiễu (remove noise), hiệuchỉnh những phần dữ liệu không nhất quán (correct data inconsistencies)
pg 4
Trang 7Bao gồm:
Tóm tắt hoá dữ liệu
- Xác định các thuộc tính (properties) tiêu biểu của dữ liệu về xu hướngchính (central tendency) và sự phân tán (dispersion) của dữ liệu
Các độ đo về xu hướng chính: mean, median, mode, midrange…
Các độ đo về sự phân tán: quartiles, interquartile range (IQR), variance
- Nhận diện dữ liệu nổi bật/hiếm: nhiễu (noise) hoặc phần tử biên (outliers),cung cấp cái nhìn tổng quan về dữ liệu
Xử lý dữ liệu bị thiếu (missing data)
- Là dữ liệu không có sẵn, không đủ khi cần sử dụng
- Nguyên nhân:
Khách quan (không tồn tại lúc được nhập liệu, sự cố, …)
Chủ quan (tác nhân con người)
- Giải pháp cho dữ liệu bị thiếu
Xử lý dữ liệu bị nhiễu (noisy data)
- Bao gồm: nhận diện phần tử biên (outliers) và giảm thiểu nhiễu (noisy data)
+ Chủ quan (tác nhân con người)
- Giải pháp nhận diện phần tử biên
+ Dựa trên phân bố thống kê (statistical distribution-based)
+ Dựa trên khoảng cách (distance-based)
+ Dựa trên mật độ (density-based)
+ Dựa trên độ lệch (deviation-based)
- Giải pháp giảm thiểu nhiễu
+ Phân giỏ (binning)
+ Hồi quy (regression)
+ Phân tích cụm (cluster analysis)
Trang 8Với dự án của nhóm: do dữ liệu bị thiếu không có nên sẽ chọn làm sạch dữ liệu
bằng cách xử lý dữ liệu bị nhiễu Trong đó nhóm sẽ chọn giải pháp giảm thiểu nhiễu bằng phương pháp hồi quy (regression) để làm sạch dữ liệu
Lý do chọn vì:
+ Sẽ đạt được kết quả ước lượng tốt nhất chân thực giữa các biến số
+ Nhằm xây dựng và gắn kết các mối quan hệ giữa loài và thuộc tính
+ Chỉ rõ sự tác động của thuộc tính này lên thuộc tính khác
PHẦN III: KIỂM ĐỊNH MÔ HÌNH
1 Màn hình thể hiện: (phần mềm orange)
(Nhóm dùng thuật toán phân lớp để xây dựng mô hình)
2 Kết quả với tập dữ liệu testing:
Test and score: Sử dụng phương pháp K-fold cross validation với
k = 5.
pg 6
Trang 9 Đường cong ROC:
3 Kết quả với tập dữ liệu dự báo:
a Sử dụng Neural Network:
Trang 10pg 8
Downloaded by vu ga (vuchinhhp2@gmail.com)
Trang 11Bảng dữ liệu được xuất dưới dạng file excel:
b Sử dụng SVM:
pg 9
Trang 12Bảng dữ liệu được xuất dưới dạng file excel:
pg 10
Downloaded by vu ga (vuchinhhp2@gmail.com)
Trang 13c Sử dụng Logistic Regression:
pg 11
Trang 14Bảng dữ liệu được xuất dưới dạng file excel:
d Sử dụng mô hình Tree:
pg 12
Downloaded by vu ga (vuchinhhp2@gmail.com)
Trang 15pg 13
Trang 16Bảng dữ liệu được xuất dưới dạng file excel:
PHẦN IV: ĐÁNH GIÁ VÀ LỰA CHỌN MÔ HÌNH
1 Dựa vào các chỉ số đánh giá lựa chọn mô hình phù hợp.
Kết quả với tập dữ liệu testing:
Test and score: Sử dụng phương pháp K-fold cross validation với k = 5
pg 14
Downloaded by vu ga (vuchinhhp2@gmail.com)
Trang 17 Dựa trên chỉ số AUC (tính chính xác), Recall (độ phủ) và Precision (độchính xác) và giá trị trung bình điều hòa (harmonic mean) của hai
đo Precision và Recall F1 ta có thể thấy mô hình Logistic Regression có
số liệu đo được là tốt nhất trong các mô hình
Đường cong ROC:
pg 15
Trang 18 Đường cong này được tạo ra bằng cách biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa trên tỷ lệ dự báo false positive rate (FPR) tại các ngưỡng khácnhau.
Qua quan sát đường ROC có thể thấy được mô hình Logistic Regression là đường có tỷ lệ báo true positive rate (TPR) cao nhất và tỷ lệ false positive rate (FPR) thấp nhất
Thông qua việc đánh giá các chỉ số kiểm định ta thấy Mô hình
Logistic regression có chỉ số kiểm định tốt nhất nên đây sẽ là lựa chọn phù hợp nhất.
2 Sử dụng ma trận nhầm lẫn để đánh giá trường hợp xảy ra sự nhầm lẫn.
Giả sử khi sử dụng mô hình để phân loại các loài động vật vào các lớp độngvật thì ta thấy được vẫn có thể xảy ra sự nhầm lẫn khi phân loại, điều này sẽmột phần nào đó tác động tới khả năng sinh trưởng và phát triển của động vậtnhư sống không phù hợp môi trường, thức ăn chưa hợp lý
Do đó, nhóm trình bày thêm về ma trận nhầm lẫn với mục đích xem xét sựnhầm lẫn xảy ra ở lớp động vật nào với lớp động vật nào
Mô hình Logistic regression
- Có thể thấy tỷ lệ nhầm lẫn so với thực tế của loài côn trùng (insect) với loài invertebrate (động vật không xương sống) là vào khoảng 12,5%
- Ở loài chim (bird) mức độ nhầm lẫn với loài invertebrate (động vật không xương sống) mức độ nhầm lẫn : 5,3%
pg 16
Downloaded by vu ga (vuchinhhp2@gmail.com)
Trang 19- Ở loài Cá (fish) mức độ nhầm lẫn với loài bò sát (reptile) là vào khoảng 7,7%
Mô hình Neural Network
- Có thể thấy tỷ lệ nhầm lẫn so với thực tế của loài côn trùng (insect) với loài invertebrate (động vật không xương sống) là vào khoảng 22,2%
- Loài lưỡng cư (amphibiam) mức độ nhầm lẫn với loài bò sát (reptile) là : 25%
- Loài bò sát (reptile) mức độ nhầm lẫn với loài cá (fish) mức độ nhầm lẫn là vào khoảng 33.3%
Mô hình SVM
pg 17
Trang 20- Có thể thấy tỷ lệ nhầm lẫn so với thực tế của loài côn trùng (insect) với loài invertebrate (động vật không xương sống) là vào khoảng 25%
- Loài invertebrate (động vật không xương sống) mức độ nhầm lẫn với loài bò sát (reptile) là : 20%
- Loài invertebrate (động vật không xương sống) mức độ nhầm lẫn với loài côn trùng (insect)mức độ nhầm lẫn là vào khoảng 10%
- Loài động vật có vú (mamal) mức độ nhầm lẫn với loài fish là 2,6
Mô hình cây quyết định (Tree):
pg 18
Downloaded by vu ga (vuchinhhp2@gmail.com)
Trang 21- Có thể thấy tỷ lệ nhầm lẫn so với thực tế của loài côn trùng (insect) với loài invertebrate (động vật không xương sống) là vào khoảng 33,3%
- Loài invertebrate (động vật không xương sống) mức độ nhầm lẫn với loài côn trùng (insect)mức độ nhầm lẫn là vào khoảng 14,3%
- Loài cá (fish) mức độ nhầm lẫn với loài côn trùng (reptile) là 7,7%
- Loài lưỡng cư (amphibian) mức độ nhầm lẫn với loài côn trùng (reptile) là 40%
Thông qua việc đánh giá các chỉ số kiểm định, cũng như việc ý nghĩa rủi rothực tiễn trong việc đánh giá thông qua ma trận nhầm lẫn: Ta thấy được việc sửdụng phương pháp Mô hình Logistic regression cho thấy được là mô hình có chỉ
số kiểm định tốt nhất và độ nhầm lẫn của dự báo so với thực tế của phương phápnày cũng thấp nhất
PHẦN V: TRIỂN KHAI MÔ HÌNH
1 Mục đích, ý nghĩa của việc triển khai mô hình
Mục đích ý nghĩa của việc triển khai mô hình trong lĩnh vực sinh học là khiphát hiện ra các loài động vật mới hoặc để bảo tồn các loài động vật quý hiếm,mọi người có thể sắp xếp chúng vào loại động vật nào một cách nhanh chóng vàkịp thời, biết cách chăm sóc tốt cho chúng, để chúng phát triển tốt trong môi
2.Phân tích đánh giá hiệu quả kinh tế khi triển khai mô hình.
Với mô hình này, thay vì chúng ta bỏ ra các chi phí để nghiên cứu xemchúng thuộc loại động vật nào mà ta dựa vào các thuộc tính đã có của chúng(bằng công cụ hỗ trợ orange) thì ta có thể tiết kiệm được một khoản chi phí cho
pg 19
Trang 22việc nghiên cứu này Trong quá trình phân loại động vật, ta có thể phát hiện racác loại động vật quý hiếm, từ đó biết cách chăm sóc và bảo tồn chúng một cáchhiệu quả nhờ vào tập tính chung của loại động vật đã phân từ mô hình Bên cạnh
đó, giúp cho các nhà sinh học không cần mất quá nhiều thời gian trong việcnghiên cứu khi có phát hiện về những động vật mới
Tuy nhiên, việc sử dụng mô hình còn có mặt hạn chế nhất định Khi xemxét lại kết quả dự báo, xét thấy có một loài động vật là Vampire (ma cà rồng)được dự đoán là loài động vật có vú, khi xét các loài động vật trên mô hình nàythì dựa vào các thuộc tính thường thấy của các loài để xét xem nó thuộc loạiđộng vật nào Mà loài động vật này theo như nhóm dự đoán là không có thậtnhưng với các thuộc tính trong dữ liệu thì có thể phân động vật này thuộc nhómđộng vật có vú được
Mặt khác có những loài động vật phân loại động vật bị nhầm lẫn đó làTortoise (loài rùa) được phân vào loại chim và Tuatara được phân vào loại lưỡng
cư trong khi cả hai thuộc loại bò sát tuy mức độ nhầm lẫn là 0%, nhưng hai loàiđộng vật này vẫn bị nhầm lẫn
Còn các loài động vật còn lại đều phân đúng chủng loại của chúng Các
mô hình đều có thể có những nhầm lần dựa trên thuộc tính để đưa ra kết quả,chúng là công cụ hữu ích cho chúng ta Và kết quả trên giúp ta thấy được ta cần
sử dụng nhiều thuộc tính hơn để phân ra các chủng loại động vật để có thể đưa
ra dự đoán chính xác hơn cho các loài động vật này và có những trường hợpnhầm lẫn là ít nhất
PHẦN VI: ĐÁNH GIÁ ĐÓNG GÓP CỦA CÁC THÀNH VIÊN THAM GIA
DỰ ÁN
TÊN THÀNH VIÊN NỘI DUNG ĐÓNG GÓP
TỶ LỆ ĐÓN G GÓP
Phạm Thị Mỹ Duyên Phần III, tổng hợp nội dung toàn bài 100%