SỬ DỤNG PHẦN MỀM WEKA VÀ NGÔN NGỮ R GIẢI QUYẾT BÀI TOÁN PHÂN LỚP Chức năng Classify – phân lớp dùng Weka Giới thiệu chức năng của phần mềm R (Chức năng Classify – phân lớp)Giới thiệu R Phân tích số liệu và biểu đồ thường được tiến hành bằng các phần mềm thông dụng như SAS, SPSS, Stata, Statistica, và SPlus. Đây là những phần mềm được các công ti phần mềm phát triển và giới thiệu trên thị trường khoảng ba thập niên qua, và đã được các trường đại học, các trung tâm nghiên cứu và công ti kĩ nghệ trên toàn thế giới sử dụng cho giảng dạy và nghiên cứu. Nhưng vì chi phí để sử dụng các phần mềm này tuơng đối đắt tiền (có khi lên đến hàng trăm ngàn đôla mỗi năm), một số trường đại học ở các nước đang phát triển (và ngay cả ở một số nước đã phát triển) không có khả năng tài chính để sử dụng chúng một cách lâu dài.
Trang 1S D NG PH N M M WEKA VÀ NGÔN NG R GI I QUY T BÀI TOÁN PHÂN Ử DỤNG PHẦN MỀM WEKA VÀ NGÔN NGỮ R GIẢI QUYẾT BÀI TOÁN PHÂN ỤNG PHẦN MỀM WEKA VÀ NGÔN NGỮ R GIẢI QUYẾT BÀI TOÁN PHÂN ẦN MỀM WEKA VÀ NGÔN NGỮ R GIẢI QUYẾT BÀI TOÁN PHÂN ỀM WEKA VÀ NGÔN NGỮ R GIẢI QUYẾT BÀI TOÁN PHÂN Ữ R GIẢI QUYẾT BÀI TOÁN PHÂN ẢI QUYẾT BÀI TOÁN PHÂN ẾT BÀI TOÁN PHÂN
* N i dung th c hi n ội dung thực hiện ực hiện ện
I Gi i thi u ch c năng c a ph n m m Weka (Ch c năng Classify – phân ện ức năng của phần mềm Weka (Chức năng Classify – phân ủa phần mềm Weka (Chức năng Classify – phân ần mềm Weka (Chức năng Classify – phân ềm Weka (Chức năng Classify – phân ức năng của phần mềm Weka (Chức năng Classify – phân
l p)
1 Gi i thi u ch c năng Classify ện ức năng của phần mềm Weka (Chức năng Classify – phân
- Là m t trong các ch c năng c a ph n Explorer;ột trong các chức năng của phần Explorer; ức năng của phần Explorer; ủa phần Explorer; ần Explorer;
- H tr người dùng huấn luyện và kiểm chứng các mô hình phân lớp hay thựci dùng hu n luy n và ki m ch ng các mô hình phân l p hay th cấn luyện và kiểm chứng các mô hình phân lớp hay thực ện và kiểm chứng các mô hình phân lớp hay thực ểm chứng các mô hình phân lớp hay thực ức năng của phần Explorer; ớp hay thực ực
hi n h i quy.ện và kiểm chứng các mô hình phân lớp hay thực ồi quy
2 Mô t ch c năng Classify ( đ ả chức năng Classify ( được thực hiện qua 5 bước) ức năng của phần mềm Weka (Chức năng Classify – phân ược thực hiện qua 5 bước) c th c hi n qua 5 b ực hiện ện ư c)
- B1: T i tab Preprocess, ch n t p d li u và th c hi n ti n x lý d li uọn tập dữ liệu và thực hiện tiền xử lý dữ liệu ập dữ liệu và thực hiện tiền xử lý dữ liệu ữ liệu và thực hiện tiền xử lý dữ liệu ện và kiểm chứng các mô hình phân lớp hay thực ực ện và kiểm chứng các mô hình phân lớp hay thực ền xử lý dữ liệu ử lý dữ liệu ữ liệu và thực hiện tiền xử lý dữ liệu ện và kiểm chứng các mô hình phân lớp hay thực
- B2: Ch n thu t toán phân l p xác đ nh tham sọn tập dữ liệu và thực hiện tiền xử lý dữ liệu ập dữ liệu và thực hiện tiền xử lý dữ liệu ớp hay thực ịnh tham số ố
- B3: Ch n ki u test và t p d li u test n u c nọn tập dữ liệu và thực hiện tiền xử lý dữ liệu ểm chứng các mô hình phân lớp hay thực ập dữ liệu và thực hiện tiền xử lý dữ liệu ữ liệu và thực hiện tiền xử lý dữ liệu ện và kiểm chứng các mô hình phân lớp hay thực ếu cần ần Explorer;
- B4: Ti n hành phân l p d li uếu cần ớp hay thực ữ liệu và thực hiện tiền xử lý dữ liệu ện và kiểm chứng các mô hình phân lớp hay thực
- B5: Ghi nh n k t quập dữ liệu và thực hiện tiền xử lý dữ liệu ếu cần ả
H1: Ch n tab Preprocess đ đ c d li u vào ch ọn tab Preprocess để đọc dữ liệu vào chương trình Weka ể đọc dữ liệu vào chương trình Weka ọn tab Preprocess để đọc dữ liệu vào chương trình Weka ữ liệu vào chương trình Weka ệu vào chương trình Weka ương trình Weka ng trình Weka
Trang 2H2:Ch n tab Classify đ phân l p ọn tab Preprocess để đọc dữ liệu vào chương trình Weka ể đọc dữ liệu vào chương trình Weka ớp
H3: Ch n thu t toán và đi u ch nh tham s ọn tab Preprocess để đọc dữ liệu vào chương trình Weka ật toán và điều chỉnh tham số ều chỉnh tham số ỉnh tham số ố
Trang 3H4: Ch n ki u test ọn tab Preprocess để đọc dữ liệu vào chương trình Weka ể đọc dữ liệu vào chương trình Weka
H5: Ch n Start đ ch y thu t toán phân l p ọn tab Preprocess để đọc dữ liệu vào chương trình Weka ể đọc dữ liệu vào chương trình Weka ạy thuật toán phân lớp ật toán và điều chỉnh tham số ớp
Trang 4H6: B ng l u thông tin ngày gi và thu t toán ảng lưu thông tin ngày giờ và thuật toán ư ờ và thuật toán ật toán và điều chỉnh tham số
H7: B ng ghi k t qu ảng lưu thông tin ngày giờ và thuật toán ết quả ảng lưu thông tin ngày giờ và thuật toán
Trang 5II S d ng ph n m m Weka áp d ng gi i quy t bài toán phân l p (ch ụng phần mềm Weka áp dụng giải quyết bài toán phân lớp (chương ần mềm Weka (Chức năng Classify – phân ềm Weka (Chức năng Classify – phân ụng phần mềm Weka áp dụng giải quyết bài toán phân lớp (chương ả chức năng Classify ( được thực hiện qua 5 bước) ết bài toán phân lớp (chương ương ng
4 và 5) v i d li u tùy ch n c a Vi t Nam ữ liệu tùy chọn của Việt Nam ện ọn của Việt Nam ủa phần mềm Weka (Chức năng Classify – phân ện
1 Mô tả chức năng Classify ( được thực hiện qua 5 bước)
- Ngu n d li u:ồi quy ữ liệu và thực hiện tiền xử lý dữ liệu ện và kiểm chứng các mô hình phân lớp hay thực
https://data.vietnam.opendevelopmentmekong.net/vi/dataset/covid-19-prevention-and-control-epidemic-station-in-vietnam
- N i dung d li u:ột trong các chức năng của phần Explorer; ữ liệu và thực hiện tiền xử lý dữ liệu ện và kiểm chứng các mô hình phân lớp hay thực
+ D li u cho th y v trí c a trung tâm ki m tra và phòng ng a COVID-19, cácữ liệu và thực hiện tiền xử lý dữ liệu ện và kiểm chứng các mô hình phân lớp hay thực ấn luyện và kiểm chứng các mô hình phân lớp hay thực ịnh tham số ủa phần Explorer; ểm chứng các mô hình phân lớp hay thực ừa COVID-19, các
tr m ki m soát t i các thành ph l n Vi t Nam Đi u này đ c bi t quan tr ngểm chứng các mô hình phân lớp hay thực ố ớp hay thực ở Việt Nam Điều này đặc biệt quan trọng ện và kiểm chứng các mô hình phân lớp hay thực ền xử lý dữ liệu ặc biệt quan trọng ện và kiểm chứng các mô hình phân lớp hay thực ọn tập dữ liệu và thực hiện tiền xử lý dữ liệu
đ giúp m i ngểm chứng các mô hình phân lớp hay thực ọn tập dữ liệu và thực hiện tiền xử lý dữ liệu ười dùng huấn luyện và kiểm chứng các mô hình phân lớp hay thựci và chính quy n có th ki m soát s lây lan c a b nh d ch.ền xử lý dữ liệu ểm chứng các mô hình phân lớp hay thực ểm chứng các mô hình phân lớp hay thực ực ủa phần Explorer; ện và kiểm chứng các mô hình phân lớp hay thực ịnh tham số Các thành ph l n nh Hà N i và H Chí Minh là n i tri n khai nhanh nh t trungố ớp hay thực ư ột trong các chức năng của phần Explorer; ồi quy ơi triển khai nhanh nhất trung ểm chứng các mô hình phân lớp hay thực ấn luyện và kiểm chứng các mô hình phân lớp hay thực tâm xét nghi m và các tr m ki m tra và ki m soát COVID-19 D li u sẽ đện và kiểm chứng các mô hình phân lớp hay thực ểm chứng các mô hình phân lớp hay thực ểm chứng các mô hình phân lớp hay thực ữ liệu và thực hiện tiền xử lý dữ liệu ện và kiểm chứng các mô hình phân lớp hay thực ư c
c p nh t liên t c các đ a phập dữ liệu và thực hiện tiền xử lý dữ liệu ập dữ liệu và thực hiện tiền xử lý dữ liệu ục ở các địa phương khác nhau ở Việt Nam Điều này đặc biệt quan trọng ịnh tham số ươi triển khai nhanh nhất trungng khác nhau
+ D li u g m có 9 thu c tính (STT, Name, Location, Trajectory, Area, Contigiousữ liệu và thực hiện tiền xử lý dữ liệu ện và kiểm chứng các mô hình phân lớp hay thực ồi quy ột trong các chức năng của phần Explorer;
2 Đ c d li u vào ch ọn của Việt Nam ữ liệu tùy chọn của Việt Nam ện ương ng trình Weka
- Ch y ph n m m Weka, sau đó truy xu t đ n t p tin ngu n (Tên t p tin ngu n:ần Explorer; ền xử lý dữ liệu ấn luyện và kiểm chứng các mô hình phân lớp hay thực ếu cần ập dữ liệu và thực hiện tiền xử lý dữ liệu ồi quy ập dữ liệu và thực hiện tiền xử lý dữ liệu ồi quy station_test_covid19_en-sheet1)
- Ta ch n tab Classify đ phân l pọn tập dữ liệu và thực hiện tiền xử lý dữ liệu ểm chứng các mô hình phân lớp hay thực ớp hay thực
- Sau đó ch n thu t toán phân l p (REPTree) trên chính t p hu n luy n (Useọn tập dữ liệu và thực hiện tiền xử lý dữ liệu ập dữ liệu và thực hiện tiền xử lý dữ liệu ớp hay thực ập dữ liệu và thực hiện tiền xử lý dữ liệu ấn luyện và kiểm chứng các mô hình phân lớp hay thực ện và kiểm chứng các mô hình phân lớp hay thực training set
- Ta ch y thu t toán phân l p, k t qu nh sau:ập dữ liệu và thực hiện tiền xử lý dữ liệu ớp hay thực ếu cần ả ư
Trang 6Hình 1: B ng k t quả ếu cần ả
+ Ph n Run information thông tin v mô hình h c, tên quan h , s m u, thu cần Explorer; ền xử lý dữ liệu ọn tập dữ liệu và thực hiện tiền xử lý dữ liệu ện và kiểm chứng các mô hình phân lớp hay thực ố ẫu, thuộc ột trong các chức năng của phần Explorer; tính và ki u test C th , thu t toán s d ng là REPTTree, tên quan h là d li uểm chứng các mô hình phân lớp hay thực ục ở các địa phương khác nhau ểm chứng các mô hình phân lớp hay thực ập dữ liệu và thực hiện tiền xử lý dữ liệu ử lý dữ liệu ục ở các địa phương khác nhau ện và kiểm chứng các mô hình phân lớp hay thực ữ liệu và thực hiện tiền xử lý dữ liệu ện và kiểm chứng các mô hình phân lớp hay thực
v ền xử lý dữ liệu v trí c a trung tâm ki m tra và phòng ng a COVID-19, s m u 121, s thu cịnh tham số ủa phần Explorer; ểm chứng các mô hình phân lớp hay thực ừa COVID-19, các ố ẫu, thuộc ố ột trong các chức năng của phần Explorer; tính 09, ki u test sẽ đểm chứng các mô hình phân lớp hay thực ư c đánh giá trên d li u hu n luy n (Hình 1).ữ liệu và thực hiện tiền xử lý dữ liệu ện và kiểm chứng các mô hình phân lớp hay thực ấn luyện và kiểm chứng các mô hình phân lớp hay thực ện và kiểm chứng các mô hình phân lớp hay thực
+ REPTree: đ a ra 1 cây: On the Thang Long bridge (80/79) [41/40], do d li uư ữ liệu và thực hiện tiền xử lý dữ liệu ện và kiểm chứng các mô hình phân lớp hay thực
nh nên th i gian xây d ng mô hình nhanh (0,02 giây) (Hình 2).ỏ nên thời gian xây dựng mô hình nhanh (0,02 giây) (Hình 2) ời dùng huấn luyện và kiểm chứng các mô hình phân lớp hay thực ực
Hình 2 + Evaluation on training set: ta bi t ki u test là đánh giá d a trên t p hu nếu cần ểm chứng các mô hình phân lớp hay thực ực ập dữ liệu và thực hiện tiền xử lý dữ liệu ấn luyện và kiểm chứng các mô hình phân lớp hay thực luy n (Hình 3).ện và kiểm chứng các mô hình phân lớp hay thực
+ Summary: T ng k t l i s li u th ng kê cho bi t đ chính xác c a b phân l pếu cần ố ện và kiểm chứng các mô hình phân lớp hay thực ố ếu cần ột trong các chức năng của phần Explorer; ủa phần Explorer; ột trong các chức năng của phần Explorer; ớp hay thực theo m t ki u test c th nh : s m u phân l p đúng (Correctly Classifiedột trong các chức năng của phần Explorer; ểm chứng các mô hình phân lớp hay thực ục ở các địa phương khác nhau ểm chứng các mô hình phân lớp hay thực ư ố ẫu, thuộc ớp hay thực
giá tr v đ đo l i (Hình 3).ịnh tham số ền xử lý dữ liệu ột trong các chức năng của phần Explorer;
Trang 7Hình 3 + Detailed Accuracy By Class: cho ta bi t đ chính xác c a t ng phân l p (Hìnhếu cần ột trong các chức năng của phần Explorer; ủa phần Explorer; ừa COVID-19, các ớp hay thực 4)
Hình 4
t c a ma tr n th hi n s m u test có l p th t s là dòng và l p d đón là c tử lý dữ liệu ủa phần Explorer; ập dữ liệu và thực hiện tiền xử lý dữ liệu ểm chứng các mô hình phân lớp hay thực ện và kiểm chứng các mô hình phân lớp hay thực ố ẫu, thuộc ớp hay thực ập dữ liệu và thực hiện tiền xử lý dữ liệu ực ớp hay thực ực ột trong các chức năng của phần Explorer; (Hình 5)
Hình 5
Trang 8S D NG PH N M M R GI I QUY T BÀI TOÁN PHÂN L P Ử DỤNG PHẦN MỀM WEKA VÀ NGÔN NGỮ R GIẢI QUYẾT BÀI TOÁN PHÂN ỤNG PHẦN MỀM WEKA VÀ NGÔN NGỮ R GIẢI QUYẾT BÀI TOÁN PHÂN ẦN MỀM WEKA VÀ NGÔN NGỮ R GIẢI QUYẾT BÀI TOÁN PHÂN ỀM WEKA VÀ NGÔN NGỮ R GIẢI QUYẾT BÀI TOÁN PHÂN ẢI QUYẾT BÀI TOÁN PHÂN ẾT BÀI TOÁN PHÂN ỚP
* N i dung th c hi n ội dung thực hiện ực hiện ện
I Gi i thi u ch c năng c a ph n m m R (Ch c năng Classify – phân l p) ện ức năng của phần mềm Weka (Chức năng Classify – phân ủa phần mềm Weka (Chức năng Classify – phân ần mềm Weka (Chức năng Classify – phân ềm Weka (Chức năng Classify – phân ức năng của phần mềm Weka (Chức năng Classify – phân
Gi i thi u R Phân tích s li u và bi u đ thớp hay thực ện và kiểm chứng các mô hình phân lớp hay thực ố ện và kiểm chứng các mô hình phân lớp hay thực ểm chứng các mô hình phân lớp hay thực ồi quy ười dùng huấn luyện và kiểm chứng các mô hình phân lớp hay thựcng đư c ti n hành b ng các ph n ếu cần ằng các phần ần Explorer;
m m thông d ng nh SAS, SPSS, Stata, Statistica, và S-Plus Đây là nh ng ph n ền xử lý dữ liệu ục ở các địa phương khác nhau ư ữ liệu và thực hiện tiền xử lý dữ liệu ần Explorer;
m m đền xử lý dữ liệu ư c các công ti ph n m m phát tri n và gi i thi u trên th trần Explorer; ền xử lý dữ liệu ểm chứng các mô hình phân lớp hay thực ớp hay thực ện và kiểm chứng các mô hình phân lớp hay thực ịnh tham số ười dùng huấn luyện và kiểm chứng các mô hình phân lớp hay thựcng
kho ng ba th p niên qua, và đã đả ập dữ liệu và thực hiện tiền xử lý dữ liệu ư c các trười dùng huấn luyện và kiểm chứng các mô hình phân lớp hay thựcng đ i h c, các trung tâm nghiên ọn tập dữ liệu và thực hiện tiền xử lý dữ liệu
c u và công ti kĩ ngh trên toàn th gi i s d ng cho gi ng d y và nghiên c u ức năng của phần Explorer; ện và kiểm chứng các mô hình phân lớp hay thực ếu cần ớp hay thực ử lý dữ liệu ục ở các địa phương khác nhau ả ức năng của phần Explorer;
Nh ng vì chi phí đ s d ng các ph n m m này tu ng đ i đ t ti n (có khi lên ư ểm chứng các mô hình phân lớp hay thực ử lý dữ liệu ục ở các địa phương khác nhau ần Explorer; ền xử lý dữ liệu ơi triển khai nhanh nhất trung ố ắt tiền (có khi lên ền xử lý dữ liệu
đ n hàng trăm ngàn đô-la m i năm), m t s trếu cần ột trong các chức năng của phần Explorer; ố ười dùng huấn luyện và kiểm chứng các mô hình phân lớp hay thựcng đ i h c các nọn tập dữ liệu và thực hiện tiền xử lý dữ liệu ở Việt Nam Điều này đặc biệt quan trọng ướp hay thựcc đang phát tri n (và ngay c m t s nểm chứng các mô hình phân lớp hay thực ả ở Việt Nam Điều này đặc biệt quan trọng ột trong các chức năng của phần Explorer; ố ướp hay thựcc đã phát tri n) không có kh năng tài chính ểm chứng các mô hình phân lớp hay thực ả
đ s d ng chúng m t cách lâu dài Do đó, các nhà nghiên c u th ng kê trên th ểm chứng các mô hình phân lớp hay thực ử lý dữ liệu ục ở các địa phương khác nhau ột trong các chức năng của phần Explorer; ức năng của phần Explorer; ố ếu cần
gi i đã h p tác v i nhau đ phát tri n m t ph n m m m i, v i ch trớp hay thực ớp hay thực ểm chứng các mô hình phân lớp hay thực ểm chứng các mô hình phân lớp hay thực ột trong các chức năng của phần Explorer; ần Explorer; ền xử lý dữ liệu ớp hay thực ớp hay thực ủa phần Explorer; ươi triển khai nhanh nhất trungng mã ngu n m , sao cho t t c các thành viên trong ngành th ng kê h c và toán h c ồi quy ở Việt Nam Điều này đặc biệt quan trọng ấn luyện và kiểm chứng các mô hình phân lớp hay thực ả ố ọn tập dữ liệu và thực hiện tiền xử lý dữ liệu ọn tập dữ liệu và thực hiện tiền xử lý dữ liệu trên th gi i có th s d ng m t cách th ng nh t và hoàn toàn mi n phí Năm ếu cần ớp hay thực ểm chứng các mô hình phân lớp hay thực ử lý dữ liệu ục ở các địa phương khác nhau ột trong các chức năng của phần Explorer; ố ấn luyện và kiểm chứng các mô hình phân lớp hay thực ễn phí Năm
1996, trong m t bài báo quan tr ng v tính toán th ng kê, hai nhà th ng kê h c ột trong các chức năng của phần Explorer; ọn tập dữ liệu và thực hiện tiền xử lý dữ liệu ền xử lý dữ liệu ố ố ọn tập dữ liệu và thực hiện tiền xử lý dữ liệu Ross Ihaka và Robert Gentleman [lúc đó] thu c Trột trong các chức năng của phần Explorer; ười dùng huấn luyện và kiểm chứng các mô hình phân lớp hay thựcng đ i h c Auckland, New ọn tập dữ liệu và thực hiện tiền xử lý dữ liệu Zealand phát ho m t ngôn ng m i cho phân tích th ng kê mà h đ t tên là R ột trong các chức năng của phần Explorer; ữ liệu và thực hiện tiền xử lý dữ liệu ớp hay thực ố ọn tập dữ liệu và thực hiện tiền xử lý dữ liệu ặc biệt quan trọng [1] Sáng ki n này đếu cần ư c r t nhi u nhà th ng kê h c trên th gi i tán thành và ấn luyện và kiểm chứng các mô hình phân lớp hay thực ền xử lý dữ liệu ố ọn tập dữ liệu và thực hiện tiền xử lý dữ liệu ếu cần ớp hay thực tham gia vào vi c phát tri n R Cho đ n nay, qua ch a đ y 10 năm phát tri n, ện và kiểm chứng các mô hình phân lớp hay thực ểm chứng các mô hình phân lớp hay thực ếu cần ư ần Explorer; ểm chứng các mô hình phân lớp hay thực càng ngày càng có nhi u nhà th ng kê h c, toán h c, nghiên c u trong m i lĩnh ền xử lý dữ liệu ố ọn tập dữ liệu và thực hiện tiền xử lý dữ liệu ọn tập dữ liệu và thực hiện tiền xử lý dữ liệu ức năng của phần Explorer; ọn tập dữ liệu và thực hiện tiền xử lý dữ liệu
v c đã chuy n sang s d ng R đ phân tích d li u khoa h c Trên toàn c u, đã ực ểm chứng các mô hình phân lớp hay thực ử lý dữ liệu ục ở các địa phương khác nhau ểm chứng các mô hình phân lớp hay thực ữ liệu và thực hiện tiền xử lý dữ liệu ện và kiểm chứng các mô hình phân lớp hay thực ọn tập dữ liệu và thực hiện tiền xử lý dữ liệu ần Explorer;
có m t m ng lột trong các chức năng của phần Explorer; ướp hay thực ơi triển khai nhanh nhất trungi h n m t tri u ngột trong các chức năng của phần Explorer; ện và kiểm chứng các mô hình phân lớp hay thực ười dùng huấn luyện và kiểm chứng các mô hình phân lớp hay thực ử lý dữ liệu ục ở các địa phương khác nhau.i s d ng R, và con s này đang tăng r t ố ấn luyện và kiểm chứng các mô hình phân lớp hay thực nhanh Có th nói trong vòng 10 năm n a, vai trò c a các ph n m m th ng kê ểm chứng các mô hình phân lớp hay thực ữ liệu và thực hiện tiền xử lý dữ liệu ủa phần Explorer; ần Explorer; ền xử lý dữ liệu ố
thươi triển khai nhanh nhất trungng m i sẽ không còn l n nh trong th i gian qua n a V y R là gì? Nói m t ớp hay thực ư ời dùng huấn luyện và kiểm chứng các mô hình phân lớp hay thực ữ liệu và thực hiện tiền xử lý dữ liệu ập dữ liệu và thực hiện tiền xử lý dữ liệu ột trong các chức năng của phần Explorer; cách ng n g n, R là m t ph n m m s d ng cho phân tích th ng kê và vẽ bi u ắt tiền (có khi lên ọn tập dữ liệu và thực hiện tiền xử lý dữ liệu ột trong các chức năng của phần Explorer; ần Explorer; ền xử lý dữ liệu ử lý dữ liệu ục ở các địa phương khác nhau ố ểm chứng các mô hình phân lớp hay thực
đ Th t ra, v b n ch t, R là ngôn ng máy tính đa năng, có th s d ng cho ồi quy ập dữ liệu và thực hiện tiền xử lý dữ liệu ền xử lý dữ liệu ả ấn luyện và kiểm chứng các mô hình phân lớp hay thực ữ liệu và thực hiện tiền xử lý dữ liệu ểm chứng các mô hình phân lớp hay thực ử lý dữ liệu ục ở các địa phương khác nhau nhi u m c tiêu khác nhau, t tính toán đ n gi n, toán h c gi i trí (recreational ền xử lý dữ liệu ục ở các địa phương khác nhau ừa COVID-19, các ơi triển khai nhanh nhất trung ả ọn tập dữ liệu và thực hiện tiền xử lý dữ liệu ả mathematics), tính toán ma tr n (matrix), đ n các phân tích th ng kê ph c t p ập dữ liệu và thực hiện tiền xử lý dữ liệu ếu cần ố ức năng của phần Explorer;
Vì là m t ngôn ng , cho nên ngột trong các chức năng của phần Explorer; ữ liệu và thực hiện tiền xử lý dữ liệu ười dùng huấn luyện và kiểm chứng các mô hình phân lớp hay thựci ta có th s d ng R đ phát tri n thành các ểm chứng các mô hình phân lớp hay thực ử lý dữ liệu ục ở các địa phương khác nhau ểm chứng các mô hình phân lớp hay thực ểm chứng các mô hình phân lớp hay thực
ph n m m chuyên môn cho m t v n đ tính toán cá bi t Vì th , nh ng ai làm ần Explorer; ền xử lý dữ liệu ột trong các chức năng của phần Explorer; ấn luyện và kiểm chứng các mô hình phân lớp hay thực ền xử lý dữ liệu ện và kiểm chứng các mô hình phân lớp hay thực ếu cần ữ liệu và thực hiện tiền xử lý dữ liệu nghiên c u khoa h c, nh t là các nức năng của phần Explorer; ọn tập dữ liệu và thực hiện tiền xử lý dữ liệu ấn luyện và kiểm chứng các mô hình phân lớp hay thực ở Việt Nam Điều này đặc biệt quan trọng ướp hay thựcc còn nghèo khó nh nư ướp hay thựcc ta, c n ph i ần Explorer; ả
h c cách s d ng R cho phân tích th ng kê và đ th Bài vi t ng n này sẽ họn tập dữ liệu và thực hiện tiền xử lý dữ liệu ử lý dữ liệu ục ở các địa phương khác nhau ố ồi quy ịnh tham số ếu cần ắt tiền (có khi lên ướp hay thựcng
d n b n đ c cách s d ng R Tôi gi đ nh r ng b n đ c không bi t gì v R, ẫu, thuộc ọn tập dữ liệu và thực hiện tiền xử lý dữ liệu ử lý dữ liệu ục ở các địa phương khác nhau ả ịnh tham số ằng các phần ọn tập dữ liệu và thực hiện tiền xử lý dữ liệu ếu cần ền xử lý dữ liệu
nh ng tôi kì v ng b n đ c bi t qua v cách s d ng máy tính.ư ọn tập dữ liệu và thực hiện tiền xử lý dữ liệu ọn tập dữ liệu và thực hiện tiền xử lý dữ liệu ếu cần ền xử lý dữ liệu ử lý dữ liệu ục ở các địa phương khác nhau
Trang 9II S d ng ph n m m R áp d ng gi i quy t bài toán phân l p (ch ụng phần mềm Weka áp dụng giải quyết bài toán phân lớp (chương ần mềm Weka (Chức năng Classify – phân ềm Weka (Chức năng Classify – phân ụng phần mềm Weka áp dụng giải quyết bài toán phân lớp (chương ả chức năng Classify ( được thực hiện qua 5 bước) ết bài toán phân lớp (chương ương ng 4
và 5) v i d li u tùy ch n c a Vi t Nam ữ liệu tùy chọn của Việt Nam ện ọn của Việt Nam ủa phần mềm Weka (Chức năng Classify – phân ện
1 Mô tả chức năng Classify ( được thực hiện qua 5 bước)
- Ngu n d li u:ồi quy ữ liệu và thực hiện tiền xử lý dữ liệu ện và kiểm chứng các mô hình phân lớp hay thực
https://www.kaggle.com/ngvietlg/vietnam-weather-temperature-2002-2017
+ D li u đữ liệu và thực hiện tiền xử lý dữ liệu ện và kiểm chứng các mô hình phân lớp hay thực ư c l y 25 dòng đ u tiên và 2 c t: Nhi t đ và Năm đ phân l pấn luyện và kiểm chứng các mô hình phân lớp hay thực ần Explorer; ột trong các chức năng của phần Explorer; ện và kiểm chứng các mô hình phân lớp hay thực ột trong các chức năng của phần Explorer; ểm chứng các mô hình phân lớp hay thực ớp hay thực nhóm l nh và không l nh trên nướp hay thựcc Vi t Namện và kiểm chứng các mô hình phân lớp hay thực
D li u khi đữ liệu và thực hiện tiền xử lý dữ liệu ện và kiểm chứng các mô hình phân lớp hay thực ư c down vền xử lý dữ liệu
2 Đ c d li u vào ch ọn của Việt Nam ữ liệu tùy chọn của Việt Nam ện ương ng trình R
- Ta c n s d ng th vi n ần mềm Weka (Chức năng Classify – phân ụng phần mềm Weka áp dụng giải quyết bài toán phân lớp (chương ư ện
+ library(ggplot2)
+ library(cowplot)
+ library(randomForest)
Trang 10Ti p theo: G i d li u sau khi trích 25 dòng đ u và 3 c tếu cần ọn tập dữ liệu và thực hiện tiền xử lý dữ liệu ữ liệu và thực hiện tiền xử lý dữ liệu ện và kiểm chứng các mô hình phân lớp hay thực ần Explorer; ột trong các chức năng của phần Explorer;
Trong đó c t th 3 n u nhi t đ t 19 đ tr xu ng thì là 1(l nh), ngột trong các chức năng của phần Explorer; ức năng của phần Explorer; ếu cần ện và kiểm chứng các mô hình phân lớp hay thực ột trong các chức năng của phần Explorer; ừa COVID-19, các ột trong các chức năng của phần Explorer; ở Việt Nam Điều này đặc biệt quan trọng ố ư c l i