Dé giải quyết van đề đó, nghiên cứu của chúng tôi sẽ tạo ra một hệ thông, ứng dụng nhằm lưu trữ những câu hỏi thường gặp của các bạn học sinh, sinh viên, từ đó hệ thong sẽ đưa ra câu trả
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠOTRƯỜNG ĐẠI HỌC SƯ PHẠM TP HÒ CHÍ MINH
TP HỒ CHÍ MINH
BAO CÁO TONG KET
XÂY DUNG TRỢ LY AO GIẢI ĐÁP THÁC MAC CHO TÂN SINH VIÊN
Thuộc nhóm ngành khoa học: Tự nhiên.
TP Hồ Chí Minh, tháng 4 năm 2024
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM TP HÒ CHÍ MINH
TP HỖ CHÍ MIN
BAO CÁO TONG KET
DE TÀI NGHIÊN CUU KHOA HỌC CUA SINH VIÊN
Thuộc nhóm ngành khoa học: Tự nhiên.
SV thực hiện: Nguyễn Phạm Minh Khoa Nam, Nữ: Nam.
Dân tộc: Kinh.
Lớp, khoa: 48.CNTT.C Năm thứ:2 /Số năm đào tạo: 4
Nganh học: Công nghệ thông tin.
Người hướng dẫn: ThS.Lương Trần Ngọc Khiết
TP Hỗ Chí Minh, tháng 4 năm 2024
Trang 3LỜI CẢM ƠN
Đề thực hiện và hoàn thành đề tai nghiên cứu khoa học này, nghiên cứu này đã nhậnđược sự hỗ trợ, giúp đỡ cũng như là quan tâm, động viên Nghiên cứu khoa học cũng được
hoàn thành dựa trên sự tham khảo, học tập kinh nghiệm từ các kết quả nghiên cứu liên quan
các sách, báo chuyên ngành của nhiều tác giả ở các trường Đại học, các t6 chức nghiêncứu
Trước hết, xin gửi lời cảm ơn sâu sắc đến Thầy Lương Trần Ngọc Khiết - người trực
tiếp hướng dẫn khoa học đã luôn danh nhiều thời gian, công sức hướng dan trong suốt quátrình thực hiện nghiên cứu và hoàn thành đẻ tài nghiên cứu khoa học Và xin gửi lời cảm
ơn đến anh Lê Tran Trí Thức đã luôn hỗ trợ nhóm trong quá trình nghiên cứu
Xin tran trọng cảm ơn toàn thê các thay, cô giáo công tác trong trường đã tận tìnhtruyền đạt những kiến thức quý báu, giúp đỡ trong quá trình học tập và nghiên cứu
Tuy có nhiều cé gắng, nhưng trong đề tải nghiên cứu khoa học nay không tránh khỏi
những thiếu sót, kính mong quý thay cô, các chuyên gia, những người quan tâm đến đề tài,
đông nghiệp gia đình va bạn bẻ tiếp tục có những ý kiến đóng gop, giúp đỡ dé dé tai đượchoàn thiện hơn.
Một lan nữa, xin chân thành cảm on!
Trang 4MỤC LỤC
CO! 0), i |
MUGIDG.: pc iaiiiiioiiiiiiiiieiiiiiitiiiiit11111021631340510338310356953393385055835933933851E 2
DANH MỤC CÁC THUẬT NGU VA CHỮ VIET TẮT 52222 2122251512 102881512 x20 5
DANH MUC HINH ANH 000 ccccccccccccecsscseccevessscsvesevescevescuestevevescavevavecerceveeseeseceveseetecavene 6 002) 7
I Lý do chọn đề tài SH HT HH n0 7
2 Mục địch và nhiệm vụ nghiÊn:CỮU:acososicoioiooopioaooiooiioiiptiaoatdiietataasaaana 8
2:0) Lấy thêng tín và xây dựng đữ HỆN ois ices ssssscaissnssnniaainatsassascssccnssassanoansaisanssnsiaaiaans §2.2 Xây dựng model và xây dựng API modeÌ - - - SH ng ngư 8 2.3 Nhúng API model vào FacebooK - - co con Song se sang e0 9
3 HịEHSữREHIỆDEỮN:;::::::::::::::2ï5::cnn¿sicnznninianz2i222.0i212202203813022i25050030521065025 ¡0
Bel, THON HƯỚẾ::isnsnisiiiooitistoiaiiaiioitiatistiit01021181331141511510212816518138165586958538558855538585185858 10
Beds IN UỐI) | C15313313194512183153)5684632153950849849539589283485ã85385842854854857848328848838578481483385541649:4 II
4 Đối tượng và phạm vi nghiên cứu ¿S222 2222222221221 22125111711212 22227 2 re 12
4.1 Đỗi tượng nghiên cứu: Trợ lý ảo giải đáp thắc mắc của Tân sinh Viên 12
Trang 5CHƯƠNGI.GØSGIET HUẬNG on nieiiieeenoioananoaionaanannainnnndinnans 16
l,I, (Các |KhẨIHÌỆPR:::¡;::¿coccocisisoiiiotiiiraiiitodTiiE11315101161141011826031831858615835513518555558584688ã5 16
TIỂU, CHATHOE, a2 2262.206211 202201241126042202062240050993:2522092123020993430523222302 16
053 16 1.1.3 RESTA AE Gnngssanainaerisisinniiiisiiiiiitoiisitiiisiaiisttainaiiiisitiioeiniinitsiosinsrci 17
A A ee 18 LISC SSCRVED secessncanssazesssasscunsesesanntsunrensciavenssavocuvtininanssuvaraurasscresiacenisnarassursevarsaiss 18
NI TH NHDHE /21212211/22121/221212201112/12121111122/211221712/1212221333032142012/24123/3213213132122712183 191.2 Thực trạng thắc mắc của tân sinh viên trường Dai học Sư Phạm TPHCM 19
CHƯƠNG 2 XÂY DUNG BO DU LIEU CHUAN CHO VIỆC TUNING 21
3.1 Phương pháp fine tuning šiEg1z812Z7517 SïIgïzz1517E505E15567 SìEz1z87950507 š)Ig1831512850551555 29
3.2 Công cụ hỗ trợ khi xây dựng chatbot - s22 5-2222 St 2x22 cv sxxecezzrxcsrseca 31
3.3 Xây dựng model chatbot TT TT TT TT 32
CHUONG 4 Tích hợp model vào Discord - 5ó 2: St E122 12216 12c 43
4.1 Các nên tảng pho biến c2 22 2SE2 32 3253232237 S3 1321 2171113217117 11.1 c0 xe 43
Trang 64.2 N@n tang Discord na 45
83 Lý dolya chon Discord «.:.:::::sscccsccaccassassssassassasnssassaxcarcasessaccasssssasaasascanscsazsancaned 45 BA! “Tic lal NOG cesses scecsessascassassanessassaxsexserassateanecsavnassassanexssavarserausansanesaserasnasnaae’ 46
MS, RUA ssceresieascercacaxiasassescescavesnsavevsassatesncasnussnsoseduaisaressssveasesvesssnwstueassatusnassaivensé 48KET LUẬN VA HƯỚNG PHAT TRIEN 000 0 0cccsccsccecceseessessesseesceseeseeseeserseeseesecareeeeees 49
Ï, Đảnhgiálêtdi0inghiiieffi:ssssssosaaaanayởaan-aananaannnnannsnnnanaui 49
2 — Lợi ích thiết thực: - 2: SHSh HH t ST 11111115111 111 1 212112111 c0 40
3 Hướng phat triỂn: - 2.21 22212 52102111122215015111111150111212 215212121 c1e2 50DANH MỤC TÀI LIEU THÁM KHẢO - 52
Trang 7DANH MỤC CÁC THUẬT NGỮ VÀ CHU VIET TAT
Trí tuệ nhân tạo (Artificial Intelligence)
Mô hình trí tuệ nhân tạo
Application Programming Interface — giao diện lập trình ứng dung
Chah Chương trình mô phỏng trò chuyện với người dùng sử dụng trí tuệ
atbot a.
nhân tạo dé hiệu va trả lời các câu hỏi, yêu cầu
CNTT Công nghệ thông tin
Confession Trang web/dién đàn ân danh
Data Dữ liệu
ĐHSP TPHCM Đại học sư phạm thành phố Hồ Chí Minh
Fine tuning Tinh chinh
Huan luyện, chạy dữ liệu trên lab
Trang 8DANH MỤC HÌNH ANH
Hinh 2.1 Định dang file CSW: sssisississscsssssassasasessosssivaseasessassaiaioavessessavoavsssaveaiessessaavaieaies 25
Hinh 2:2 Định dang file ISON sisississssssssisssssscasssossavesieavosvosvassasessessesssasanosvavoaveasoavesesseaes 26 Hình 2:3 Dinh dang của Oven sisssssesississsssessesissiaasosesseisassasesiesieisersasssaestsisersvesisesresvenes 27
arabia 2:4) te Lian ch hn pe MA ANS scsi cisesncisnsassasscesaiaasassasssnaiaaasnaraciassasasiaxieasassaaes 28 HIHNLS:1 PPO 2 2 4 :.2232/25:12:22221322022240215251322225221228233212230333132525331581230E4022823822E202214232032122 32
Hình 3.2 Kết quả sau khi phân tích 222 22522 2 SE E2 v23 SE SE St cExce sáng cu cu sua 36
Hình 3.3 ID của tệp training và tệp vaÌidation - - 5 Ăn re 38
Hình 3.4 Quá trình chuẩn bị huấn luyện 18 BÌNH: soacsccaiososcoseiosiesosrieioiisierssroioooesisroaio 39
Hình 3.5 Mô hình sau khi huắn luyện hoàn tất, S0 S0 2 221cc 40Hình 3.6 Thông số training loss va validation Ïo§§ óc So c6 v22 20211 sscveo 41Hin 3.7 Reqd test OME is secicaicciaareanassensssespsnnaneninamensnassusamvanenienanananmassnaast 42Hình 4.1 Kết quả thu được khi đặt câu WOK 0 csscssesessssestestessssscssssssesssseses 48
Trang 9MỞ ĐÀU
1 Lý đo chọn đề tài
Hiện nay, học sinh THPT vả các tân sinh viên thường có nhu cầu được
giải đáp thắc mắc vẻ các trường Đại học, cũng như những câu hỏi về tuyênsinh Đề trao đôi về những khúc mắc này thường sẽ điễn ra trên các trangmang xã hội hay trong những nhóm kin của trường đại học Thế nhưng nhữngcâu hỏi thường sẽ có xu hướng bị trùng lặp, hay những câu hỏi cần có lời giảiđáp nhanh phải chờ đợi sự phản hôi của trang tuyên sinh, các anh/chị sinhviên khác, điều này khá bat tiện đối với học sinh, tân sinh viên muốn tìm hiểu.
Dé giải quyết van đề đó, nghiên cứu của chúng tôi sẽ tạo ra một hệ
thông, ứng dụng nhằm lưu trữ những câu hỏi thường gặp của các bạn học
sinh, sinh viên, từ đó hệ thong sẽ đưa ra câu trả lời chính xác một cách nhanhchóng về vấn đề mà người dùng đưa ra Chúng tôi muốn nghiên cứu củachúng tôi có thé ứng dụng được trong thực tế dé mang đến trải nghiệm tốtnhất khi có thê tiết kiệm thời gian cũng như cung cấp sự tiện nghỉ cho ngườidùng.
Hệ thông có kha năng cung cấp sự hỗ trợ liên tục, giúp họ giải đáp cácthắc mắc, tìm kiếm thông tin cần thiết và thậm chí giải quyết những van đề
cơ bán mà họ có thẻ gặp phải Điều này không chỉ giúp giám áp lực cho đội
ngũ nhân viên trường đại học mà còn cải thiện trải nghiệm của sinh viên mới,khi họ cam nhận được sự quan tâm và sự hỗ trợ trong quá trình chuyên đổi
và học tập.
Hệ thông cũng mang lại lợi ích trong việc tạo ra môi trường học tậptoàn diện, cải thiện khả năng tương tác và giao tiếp giữa trường đại học vàsinh viên, đồng thời tận dụng các công nghệ mới trong lĩnh vực trí tuệ nhân
tạo vả khoa học máy tính.
Trang 102 Mục đích và nhiệm vụ nghiên cứu
2.1 Lẫy thông tin và xây dựng đữ liệu
Chúng ta cần thu thập thông tin về những van dé và thắc mắc mà sinh
viên Khoa CNTT thường gặp trong quá trình học tap và rèn luyện Mục tiêu
là xây dựng một hệ thống dit liệu chứa các cặp câu hỏi và câu trả lời liên quanđến các vấn dé nay, đồng thời tạo ra một bộ dữ liệu cung cấp thông tin phù
hợp và được tỉnh chỉnh một cách rõ rằng và dé hiểu.
2.2 Xây dựng model chatbot
Trong quá trình nghiên cứu về việc xây dựng một model chatbot cho
sinh viên Khoa CNTT, chúng tôi đặt ra mục tiêu là tạo ra một công cụ hỗ trợ
tự động và hiệu quả trong việc cung cấp thông tin và giải đáp thắc mắc trongquá trình học tập và rèn luyện của sinh viên Băng việc thu thập thông tin vànăm bắt những van dé phố biển ma sinh viên thường gặp phải, chúng tôi tiềnhành xây dựng một mô hình chatbot đáp ứng được những nhu cầu này
Nhiệm vụ nghiên cứu:
Xác định các yêu câu và nhu câu của sinh viên: Nghiên cứu và phân tích các câu hoi và thắc mac phô biên của sinh viên dé xác
định các chủ đề và nội dung cần được chatbot xử lý
Xây dựng mô hình chatbot: Sử dụng các phương pháp học máy và
xử lý ngôn ngữ tự nhiên đẻ xây dựng một mô hình chatbot có khả
năng hiểu và trả lời các câu hỏi một cách tự động vả linh hoạt.
Kiểm thử và tối ưu hóa: Tiến hành kiểm thử và tối ưu hóa mô hìnhchatbot dé đảm bảo rằng nó hoạt động hiệu quả và đáp ứng đượcnhu cầu của sinh viên một cách tốt nhất
Triển khai và duy tri: Triển khai mô hình chatbot trên nền tảng
Discord và duy trì hoạt động của nó, đồng thời liên tục cập nhật và
cải thiện dé đáp ứng các yêu cầu mới của sinh viên
§
Trang 112.3 Tích hợp model chatbot vào điscord
Việc tích hợp một chatbot model vào Discord mang lại nhiều lợi íchquan trong cho cộng đông người dùng, nhằm mục đích tăng cường tương tác
và cung cấp trải nghiệm cá nhân hóa Bang cách này, chatbot không chi giúptăng cường sự tương tác giữa các thành viên trong Discord mà còn cung cấp
sự hỗ trợ 24/7, giải quyết các câu hỏi va yêu cầu thông tin cơ bản một cách
tự động và nhanh chóng.
Ngoài ra, việc tích hợp chatbot còn giúp giảm bớt công việc lặp lại cho
quản trị viên Discord thông qua việc tự động hóa một số nhiệm vụ như xử lý
yêu cầu thông tin, đăng thông báo, và quản lý thành viên Diéu này giúp giải
phóng thời gian và tài nguyên cho quán trị viên, giúp họ tập trung vào các nhiệm vụ quan trọng khác.
Ngoài các ứng đụng cơ bản như trả lời câu hỏi và cung cap thông tin,
chatbot cũng có thê tạo ra trải nghiệm người dùng cá nhân hóa thông qua việc
phân tích lịch sử tương tác và dit liệu của người dùng Diéu này giúp cung
cấp nội dung và gợi ý phù hợp với từng người dùng, tạo ra một trải nghiệmtương tác độc đáo và hap dẫn
Dé thực hiện nhiệm vụ nghiên cứu về việc tích hợp chatbot model vàoDiscord, ta cần tiến hành một số bước cụ thé Đầu tiên, chúng ta cần lựa chọnmột chatbot model phù hợp sau đỏ phát triển ứng dụng Discord băng cách
sử dụng các ngôn ngữ lập trình Python va thư viện Discord API tương ứng.Tiếp theo, ta tích hợp chatbot model vào ứng dụng Discord bằng cách sử dụng
API key từ model đã lựa chọn vả xử lý các phản hoi từ model dé hiển thi cho
người dùng thông qua bot Sau khi hoàn thành, chúng ta phát triển các chức
năng vả tính năng cho chatbot đẻ đáp ứng nhu cầu của cộng đồng Discord và
tiễn hành đánh giá hiệu quả của bot Cuỗi cùng, ta tối ưu hóa và điều chỉnh
bot dựa trên phản hỏi và triển khai bot trên may chủ Discord dé duy trì hoạt
9
Trang 12động ôn định và liên tục cập nhật theo nhu cầu của người dùng Qua các bước
này, ta có thê thực hiện nhiệm vụ nghiên cứu đề tích hợp chatbot model vào
Discord một cách hiệu quả và thành công.
Lich sử nghiên cứu
3.1 Trong nước
O Việt Nam, hiện nay có rất nhiều bài nghiên cứu (sản phẩm) liên quanđến chủ đẻ này như:
Trợ lý áo thông minh trợ giúp sinh viên (PTIT — Chatbot), có kha
năng hỗ trợ quan lý lộ trình học tập của sinh viên như diém, các giải thưởng, học bông, số lượng tín chi, học phan đã hoàn thành mà sinh
viên học được PTIT — Chatbot còn có khả năng hỏi ngược lại ngườidùng Theo Báo Thanh Niên (01/11/2018), “san phẩm đã được ứngdụng trong phạm vi Học viện Công Nghệ Bưu Chính Viễn Thông(cơ sở phía Bắc)", *giảm đến 60% các cuộc gọi đến Văn phòng Họcviện với các nội dung liên quan đến khuôn viên nhà trường, Cũng
nhờ đó thời lượng mà các nhân viên trong Học viện dành cho việc
trả lời các thắc mắc của sinh viên giảm xuống còn 3 giờ/ngày."
NEU-chatbot được phát triển với mục đích hỗ trợ các sinh viên vàphụ huynh tương lai có thắc mắc về tuyển sinh liên quan đến TrườngDại học Kinh tế Quốc đân Cách tiếp cận này giới thiệu cho ngườidùng giải pháp công nghệ mới và mới nôi dé mang lại phản hỏi tối
ưu và theo thời gian thực trong lĩnh vực giáo dục Với giải pháp này,
khối lượng công việc của nhân viên tuyên sinh sẽ giảm bớt và tỷ lệ
thông tin sai lệch, sai lệch sẽ giảm đáng kê.
Ngày 12/12/2022, Phòng Công tác chính trị và Học sinh, sinh viên
đã chính thức ra mắt Chatbot dé hỗ trợ, cung cấp thông tin, giải đápthắc mắc kịp thời cho sinh viên, Chatbot liên tục theo thời gian thực(24/7) cho phép nhiều người dùng cùng lúc hỏi đáp về nhiều van đềkhác nhau Ngoài ra, thông qua hệ thông trá lời tự động Chatbot,
10
Trang 13sinh viên đang theo học tại Trường Dai học Sư phạm Thanh phố Hò
Chi Minh có thêm một kênh thông tin chính thong dé đóng góp ýkién cho Nhà trường về các van dé như: chương trình đào tạo, dich
vụ dao tạo, công tác sinh viên, công tác giảng dạy, công tác phục
vụ,
Nhóm nghiên cứu gồm 05 sinh viên: Đặng Thị Vân Anh, Dương
Thị Tú Anh, Nguyễn Thị Hoài An, Nguyễn Thị Lan Anh, Nguyễn
Xuân Trường, đưới sự hướng dẫn giả TS Dinh Bích Thảo — Giámđốc Trung tâm Khảo thí và ĐBCL, Trường Ngoại ngữ - Du lịch
Với mục đích phát triển hộp thoại trò chuyện (Chatbot) tích hợp trên
nên tảng Messenger nhằm nâng cao hiệu quả học tập từ vựng theo
giáo trình Hán ngữ Boya trình độ sơ, trung cap cho đối tượng là sinh viên, nhóm sinh viên đã thực hiện thành công dé tài “Ung đụng côngnghệ thông tin trong việc phát triển Chatbot trên nền tảng Messengercủa Facebook nhằm nâng cao hiệu quả học từ vựng tiếng TrungQuốc trình độ so, trung cap”.
3.2 Ngoài nước
O nước ngoài, trường Đại học Stanford có chatbot Cardy Tree dùng
dé trợ giúp các câu hỏi hỗ trợ tài chính của sinh viên Sử dụng Carry Treengười dùng có thể sử dụng một trong bốn ngôn ngữ được hỗ trợ (Tiếng Việt,Tiếng Anh, Tiếng Trung giản thê và tiếng Tây Ban Nha)
Trong năm học 2016/2017, Đại học bang Georgia đã triển khai mộtchatbot giúp các sinh viên mới sớm hòa nhập môi trường Đại học Nhà trường
đã xem xét sở thích của sinh viên và nhận thấy rằng thay vì lưu trữ bot trêntrang web của mình hoặc trên công thông tin sinh viên, trường nên cho phépsinh viên tương tác với chatbot qua tin nhắn văn bản Bot có thê trả lời cáccâu hỏi về việc nộp hồ sơ hỗ trợ sinh viên, lựa chọn nha ở, đăng ký lớp học,đăng ký với các câu lạc bộ trong khuôn viên trường, và bât cứ điều gì một
sinh viên mới cân biết về Đại học
H1
Trang 14Năm 2010-2016 Siri, một trợ lý cá nhân thông minh, đã được ra mắt
dưới dạng một ứng dụng iPhone và sau đó được tích hợp là một phần của
iOS.
Nam 2012, Google ra mat chatbot Google Now Nam 2016, Google
đã giới thiệu trợ lý cá nhân thong minh mới Google Assistant, là một sự tiềnhóa của Google Now Trợ lý nay có thé tham gia đối thoại hai chiều với người
dùng.
Năm 2014, Amazon phát hành Alexa,Microsoft giới thiệu Cortana vào
2015 Với khả năng phân tích và xử lý ngôn ngữ tự nhiên, các trợ lý ảo nàykết nói với các dịch vụ web đẻ tra lời các câu hỏi và đáp ứng các yêu cầu củangười dùng.
4 Đối tượng và phạm vi nghiên cứu
4.1 Đối tượng nghiên cứu: Trợ lý ảo giải đáp thắc mắc của Tân sinh Viên
Khái niệm: Trợ lý ảo giải đáp thắc mắc cho tân sinh viên là một hệthông thông minh sử dụng công nghệ trí tuệ nhân tạo (AI) dé tự động trả lờicác câu hỏi thường gặp của sinh viên mới nhập học Hệ thông này có thê được
triển khai đưới dạng chatbot, ứng dụng di động hoặc website.
Đặc điểm:
« Kha năng xử lý ngôn ngữ tự nhiên: Trợ lý ảo cần có khả năng hiểu
va trả lời các câu hỏi bằng ngôn ngữ tự nhiên, đơn giản và dé hiểu
« Kho tang kiến thức: Hệ thông cần có một kho tàng kiến thức phong
phú bao gồm các thông tin liên quan đến đời sống sinh viên như:
thủ tục nhập học, quy chế nhả trường, dịch vụ sinh viên, địa điểm
ăn uống, vui chơi giải trí,
« Kha năng học hoi: Trợ lý ao cần có khả năng học hỏi và cải thiện
khả năng trả lời các câu hỏi theo thời gian dựa trên tương tác với người dùng.
Phân loại:
« Theo chức năng:
12
Trang 15o Trợ lý ảo giải đáp thắc mắc chung: cung cấp thông tin chung về
nhà trường, quy chế, thủ tục
o Trợ lý ảo hỗ trợ học tập: cung cấp tài liệu học tập, lịch học, điểm
thi
o Trợ lý ảo hỗ trợ đời sống: tìm kiểm nhà ở, chỗ ăn uống, địa điểm
vui chơi giải trí,
« Theo nén tang:
o Chatbot: được triển khai trên các nền tảng nhắn tin như Facebook
Messenger, Zalo
o Ứng dụng đi động: được cài đặt trên điện thoại thông minh
o Website: được truy cập thông qua trình duyệt web.
4.2 Phạm vi nghiên cứu
Phạm vi về thời gian nghiên cứu: Từ tháng 10/2023 đến tháng 4/2024Không gian nghiên cứu: Nghiên cứu được thực hiện tại trường Đại học
sư phạm thành phố Hỗ Chí Minh
Trong nghiên cứu chỉ tập trung vào việc tạo ra trợ lý ảo hỗ trợ trả lời
các van đề thắc mắc của Tân sinh viên Khoa CNTT trường Đại học Sư PhạmThành phố Hỗ Chí Minh
5 Phương pháp nghiên cứu
5.1 Phương pháp nghiên cứu định tính:
5.1.1 Phân tích tài liệu
« Loại tài liệu:
o Website của trường hoc.
o Diễn đàn, các hội nhóm dành cho Tân sinh viên
Các bai bao, nghiên cứu về van đề của Tân sinh viên
« Mục đích:
Thu thập thông tin về các van đề, thắc mắc thường xuyên gặp
©
la)
của Tân sinh viên.
Tham khảo kinh nghiệm giải quyết vấn đẻ từ các nghiên cứu
°
trước.
13
Trang 16« Cach thức thực hiện:
» Tìm kiếm và chọn lọc tải liệu phù hợp
o Phân tích nội dung tài liệu, trích xuất thông tin quan trọng
s2 _ Tổng hợp va hệ thống hóa thông tin thu thập được
5.1.2 Quan sát
Noi quan sat:
«Các hội nhóm giải đáp thắc mắc cho tân sinh viên trên
mạng xã hội (Facebook, Messages, ).
« Website của Đại học Sư Phạm Thành phé Hỗ Chí Minh.
¢ Số tay sinh viên Đại học Sư Phạm Thành phó Hà Chí
5.2 Hoàn thiện cơ sở dữ liệu
Xây dựng cơ sở dữ liệu bao gồm các thông tin thu thập được từ việtphân tích tài liệu và quan sát.
Phân loại dit liệu theo các chủ đẻ,
6 Ý nghĩa thực tiễn
6.1 Với nhà trường
Cải thiện chất lượng hỗ trợ sinh viên: Trợ lý ảo có thé cung cấp hỗ trợ 24/7 cho sinh viên, giải đáp các thắc mắc thường gặp và hướng dẫn họ thực
hiện các thủ tục hành chính Việc này giúp giảm tải gánh nặng cho các bộ
phận hỗ trợ sinh viên, cho phép họ tập trung vào các van dé phức tạp hơn.
Tăng cường sự hai lòng của sinh viên: Sinh viên sẽ đánh giá cao sự
tiện lợi và hiệu quả của trợ lý ảo, từ đó tăng cường sự hải lòng với chất lượng
địch vụ của nhà trường.
14
Trang 17Thu thập dữ liệu về nhu cầu của sinh viên: Trợ lý ảo có thể thu thập
dir liệu về các câu hỏi thường gặp của sinh viên, giúp nha trường hiéu rõ hơn
về nhu cầu của họ và đưa ra các giải pháp phù hợp
Nâng cao uy tín và vị thế của nhà trường: Việc ứng dụng công nghệtiên tiễn như trợ lý ảo sẽ giúp nhà trường khang định vị thế tiên phong trong việc đối mới và nâng cao chất lượng giáo dục.
6.2 Với sinh viên
Tiếp cận thông tin nhanh chóng và dé dàng: Sinh viên có thể dé đàng
tìm kiếm thông tin cần thiết mà không cân phải chờ đợi hay liên hệ với các
bộ phận hỗ trợ.
Tiết kiệm thời gian và công sức: Trợ lý ảo có thê giúp sinh viên giảiquyết các van dé đơn giản một cách nhanh chóng, tiết kiệm thời gian và công
sức cho họ.
Giảm căng thăng và lo lắng: Trợ lý ảo có thê cung cấp hướng dẫn và
hỗ trợ cần thiết cho sinh viên, giúp họ giảm bớt căng thăng và lo lắng khi
bước vào môi trường mới.
Nâng cao khả năng tự học hỏi: Sinh viên có thé sử dụng trợ lý áo dé
tra cứu thông tin, học tập và giải đáp các thắc mac, từ đó nâng cao khả nang
tự học hỏi của bản thân.
7 Bố cục
Chương 1: Cơ sở lý luận.
Chương 2: Xây dựng bộ dữ liệu chuẩn cho việc tuning
Chương 3: Xây dựng chatbot bằng phương pháp fine tuning
Chương 4: Tích hợp chatbot vào Facebook.
15
Trang 18CHƯƠNG 1 CƠ SỞ LÝ LUẬN
1.1.Các khái niệm
1.1.1.Chatbot
Trước tiên, ta hiéu “Bot” là một phần mềm thực hiện các nhiệm vụ, công việc
con người yêu cầu một cách tự động Hoặc “Bot” cũng có thé là một chương trìnhmáy tính được thiết kế dé “giao tiếp” với người dùng thông qua kết nói Internet
“Chat” là từ kha quen thuộc mà ai cũng biết, nghĩa la trò chuyện, giao tiếp
qua lại giữa hai người Chatbot chính là hệ thông các Bot ở trong trạng thái trực
tuyến, trên các website hoặc các nên tảng, giao điện chat khác của mang xã hội để
“chat tự động” với người dùng.
Chatbot là một phần mềm mô phỏng và xử lý cuộc hội thoại của con người(viết hoặc nói), nhằm quan lý cuộc trò chuyện va tương tác với người dùng thay chongười thật Chatbot có thẻ đơn giản là một chương trình trả lời tự động thô sơ déphan hỏi các câu hỏi được thiết lập sin, nhưng cũng có thé vô cùng phức tạp như cácchương trình trợ lý ảo với khả năng tự học hoi, phát triển, nhằm cung cấp mức độ cánhân hóa ngày càng cao.
Chatbot (Large Language Models) là một trong những ứng dụng phd biếnnhất trong lĩnh vực Trí tuệ nhân tạo (AI) Điều này càng được thấy rõ hơn với sự ra
đời của các mô hình ngôn ngữ lớn (LLMs) trong thời gian qua với kha năng thực
hiện rất nhiều các tác vụ khác nhau với độ chính xác cao và vẫn đang được pháttriển, cải tiến
1.1.2.API API (Application Programming Interface) là giao diện lập trình ứng dụng cho
phép hai ứng dụng giao tiếp với nhau.Ở dạng đơn giản nhất, API là giao diện cho
phép một ứng dung giao tiếp với ứng dụng khác thông qua các lệnh đơn giản và cáchcác lệnh này được gửi và định dang mà dữ liệu được truy xuất thông qua API có thékhác với API SOAP hoặc REST Thi thoảng vẫn có người lầm tưởng API là một
ngôn ngữ lập trinh nhưng thực ra API là các hàm hay thủ tục thông thưởng Các hàm
này được viết trên nhiều ngôn ngữ lập trình khác nhau
l6
Trang 19API có các đặc điểm nồi bật; Sử dụng mã nguồn mở, dùng được với moi client
hỗ trợ XML, Json API có kha năng dap ứng day đủ các thành phần HTTP: Url,request/response, headers, caching, versioning, content forma, Có thé sử dụng
các host nằm trong phan ứng dụng hoặc trên IIS Mô hình web API dùng đẻ hỗ trợ
MVC như: unit test, injection, ioc container, model binder, action result, filter,
routing, controller, Ngoài ra, nó cũng hỗ trợ RESTful day đủ các phương thức như:
GET, POST, PUT, DELETE các dữ liệu Được đánh giá là một trong những kiều
kiến trúc hỗ trợ tốt nhất với các thiết bị có lượng băng thông bị giới hạn như
Nhược điểm: Tốn nhiều chi phí phát triển, vận hành, chỉnh sửa Đòi hỏi kiến
thức chuyên sâu Có thé gặp van dé bảo mật khi bị tan công hệ thống
1.1.3.RESTful API
REST là một dang chuyên đôi cấu trúc đữ liệu, một kiểu kiến trúc dé viết
API Nó sử dụng phương thức HTTP đơn giản đề tạo cho giao tiếp giữa các máy Vì
vậy, thay vì sử dụng một URL cho việc xử lý một thông tin người dùng, REST gửimột yêu cầu HTTP như GET, POST, DELETE đến một URL xử lý dữ liệu
REST hoạt động chủ yeu dua trên phương thức CRUD (Create, Read, Update,
Delete) tương đương với bốn phương thức HTTP: POST, GET, PUT, DELETE
RESTful API là một tiêu chuẩn dùng trong việc thiết kế API cho các ứng
dụng Web (như thiết kế Web services), dé tiện cho việc quan lý các resource Nó
chú trọng vảo resource hệ thống (như: tệp văn bản, ảnh, âm thanh, video, hoặc dữ
liệu động, ), bao gom các trạng thai resource được định dang và được truyền tải qua
HTTP.
Ví dụ về request - response trong API: Khi bạn sử dụng một ứng dụng trên
điện thoại đi động, ứng dung kết nói internet và gửi dữ liệu tới máy chủ Máy chủ
sau đó lây ra dữ liệu đó, diễn giải nó, thực hiện các hành động cần thiết và gửi nó trở
17
Trang 20lại điện thoại của bạn Ứng dụng sau đó giải thích dit liệu đó và trình bày cho bạn
thông tin bạn muốn theo cách có thê đọc được Đây 1a những gì một API là — tat cảđiều này xảy ra thông qua API.
Hãy tưởng tượng bạn đang ngồi trong nhà hàng và chuẩn bị đặt món Đầu bếp
~ "hệ thong” sẽ nau thức ăn cho bạn Cái còn thiếu là liên kết giữa bạn và đầu bếp
ay Ban không có khá năng biết bếp là khu nào trong nhà hàng để xông thing vào vagọi món Đó là lúc bạn cần đến người phục vụ - API Người bôi bản này sẽ là người
bi bài, (hay thông thường chúng ta thường gọi là request — yêu cầu) của bạn nói với
đầu bếp biết phải làm gì Người đầu bếp — “hệ thông” biết phải nau cho ban cái gì
và đưa cho người bồi bàn sau khi đã hoàn thành Sau đó, người bồi ban này sẽ mangthứ bạn cần — thức ăn/ thông tin (hay chúng ta hay gọi là response)
1.1.4.Fine tuning Fine-tuning (tinh chỉnh) là một kỹ thuật trong học máy, nơi một mô hình học
máy đã được đào tạo trên một tập dữ liệu chung được điều chỉnh dé thực hiện một
nhiệm vụ cụ thé bằng cách đào tạo thêm trên một tập dit liệu nhỏ hơn liên quan đến
nhiệm vụ đó.
“Fine tuning” Thuật ngữ nay còn có thé được dịch là “Tinh chỉnh” — là một
quá trình sử dụng một mô hình mạng đã được huấn luyện cho một nhiệm vụ nhất
định dé thực hiện một nhiệm vụ tương ty.
Trong Machine Learning, Fine-tuning là một phương pháp của transfer
learning, sử dụng weight của một pre-trained model dé người dùng và số lượng
đataset thường nhỏ hơn pre-train Việc này làm giúp tăng độ chính xác của model so
voi việc train trực tiếp bộ dataset nhỏ của chúng ta Thông thường, khi thực hiệnfine-tuning, ta sẽ phải train toàn bộ hoặc một số layers của model và cũng phải lưu
lại toàn bộ các tham số của modcl hoặc một số layers của model được fine-tune
Trang 21Máy chủ (Server) là một máy tính được kết nối với mạng máy tính hoặcInternet, có IP tinh, có năng lực xử lý cao Trên đó người ta cài đặt các phần mềm
dé phục vụ cho các máy tính khác truy cập dé yêu cầu cung cấp các dịch vụ và tàinguyên.
Server hay còn được gọi là may chủ là một hệ thông (bao gom phan mềm và
phan cứng máy tinh tương ứng) Máy chủ (Server) có thé chạy trên một máy tinh hoặc nhiều máy tính Máy chủ Server được kết nỗi với mạng máy tính hoặc Internet,
có năng lực xử lý cao và có IP tinh Trên máy chú sẽ được cài đặt các phần memnhằm phục vụ cho các máy tính khác truy cập đê đáp ứng các yêu cầu cung cấp các
dich vụ va tài nguyên.
1.1.6.Training
Training (huấn luyện) là quá trình cốt lõi trong Machine Learning, nơi môhình học máy được "học hỏi” từ dữ liệu dé thực hiện các nhiệm vụ cụ thể Quá trìnhnày bao gồm cung cấp cho mô hình một tập dữ liệu được đánh nhãn (labeled dataset),
bao gồm các ví dy đầu vào (input) và kết quả mong muốn (output) Dựa trên dit liệu
này, mô hình học cách tự động xác định múi liên hệ giữa dau vào và dau ra, từ đó cóthé đưa ra dự đoán cho dit liệu mới chưa từng gặp trước đây.
Training — huấn luyện: bước này là bước bạn huấn luyện cho mô hình hay
chính là cho nó học trên đừ liệu bạn đã thu thập và xử lý ở hai bước dau
1.2 Thực trạng thắc mắc của tân sinh viên trường Dai học Sư Phạm TPHCM
Thực trạng thắc mắc của tân sinh viên tại trường Đại học Sư Phạm TPHCM rất
da dạng và phong phú phần lớn là do sự bỡ ngỡ và không hiệu biết đầy đủ về quy trình
và các vấn đẻ liên quan sau khi nhập học Các tân sinh viên thường phải đối mặt vớimột loạt thắc mắc từ các khía cạnh khác nhau của cuộc sông học đường bao gồm:
Học phí và các chỉ phí liên quan: Đây là một trong những vấn đề đầu tiên và quan
trọng nhất mà tân sinh viên quan tâm Tân sinh viên can thông tin rõ rang về các khoản
phí cần phải thanh toán, các hình thức thanh toán và hạn chế, cũng như các chương trình
hỗ trợ tài chính có sẵn.
19
Trang 22Đồng phục và trang thiết bị học tập: Tân sinh viên thường cần hướng dẫn vẻ việc
mua đồng phục và trang thiết bị học tập cũng như các quy định và tiêu chuẩn liên quanđến chúng.
Các phòng chức năng và dịch vụ trường: Sinh viên mới cần được hướng dẫn về
vị trí và chức năng của các phòng ban, dịch vụ và cơ sở vật chất trường, bao gồm thư
viện, phòng máy tinh, phòng thé dục, v.v.
Thủ tục nhập học và học vụ: Đây là một phần quan trọng và phức tạp, yêu cầu
sự hiểu biết rõ ràng về các thủ tục và quy trình cần thiết dé hoàn tat quá trình nhập học
và bắt đầu học tập
Tuy nhiên, việc tìm kiểm thông tin và giải đáp thắc mắc thường gặp nhiều khókhăn cho tân sinh viên Họ thường phải phụ thuộc vào việc tìm kiếm thông tin từ cô van
học tap, các trang confession trên mạng xã hội hoặc nhóm hỗ trợ sinh viên Sự chậm trễ
trong việc nhận được câu trả lời hoặc không có nguồn thông tin đáng tin cậy có thé gây
ra sự lo lắng và bất ôn cho tân sinh viên, đặc biệt là khi họ phải thích nghĩ với môitrường học tập mới ma không có sự hỗ trợ và hướng dẫn day đủ.
Trong phạm vi đề tài này, chúng tôi giới hạn việc nghiên cứu các thắc mắc chỉ
đến từ tân sinh viên khoa Công nghệ thông tin Mặc da có rất nhiều câu hỏi được dat ra
từ tân sinh viên ở nhiều ngành khác nhau chúng tôi chon tập trung vào việc hiểu và giảiđáp các thắc mắc cụ thé mà sinh viên mới nhập học vào khoa Công nghệ thông tinthường gặp phái Điêu này giúp chúng tôi tập trung va phân tích chỉ tiết hơn về nhữngvan dé cụ thé trong lĩnh vực này, từ đó đưa ra các giải pháp và hỗ trợ phù hợp dé giúp
tân sinh viên vượt qua những thách thức trong quá trình học tập và thích nghi với môi trường mới.
20
Trang 23CHƯƠNG 2 XÂY DỰNG BỘ DỮ LIỆU CHUÁN CHO VIỆC TUNING
2.1 Thu thập đữ liệu:
2.1.1.Các nguồn:
Fanpage: Sư Pham Confessions.
Group:
‹ Tuvan tuyển sinh - Trường Đại học Sư phạm Thành phố Hỗ Chí Minh
« - Cộng dong sinh viên đại học sư phạm TP.HCM - HCMUE
« Chao Mừng Tân Sinh Viên K49 - HCMUE.
¢ Trường Đại học Sư phạm TPHCM HCMUE, Website:
https://ctsv.hcmue.edu vn/files/so-tay-sinh-vien.
https://hemue.edu vn/vi/khoa-bo-mon/khoa-cntt,
e =https://hcmue.edu.vn/vi/gioi-thieu/phong-ban-chuc-nang.
2.1.2.Các loại dữ liệu:
Tiến hành phân loại các câu hỏi theo từng nhóm lớn: Câu hỏi về khoa
CNTT, câu hỏi về phòng chức năng, câu hỏi về giảng viên, câu hỏi vé học phí,
câu hỏi về đồng phục, câu hỏi về kí túc xá, câu hỏi về tải liệu học tập, câu hỏi
về xét tuyên, câu hỏi vẻ thí cử, câu hỏi về học quân sự, câu hỏi về các xử phạt,
câu hỏi về các vấn đẻ khác
Tiếp tục phân chia các nhóm lớn thành các nhóm nhỏ hơn:
« Cau hỏi về khoa CNTT: Câu hỏi về Trưởng khoa, Phó khoa; câu hỏi
về các bộ phận của khoa; câu hỏi về năm thành lập khoa; câu hỏi về
các bộ môn và các ngành đào tạo.
« - Câu hỏi vẻ các phòng chức năng: Câu hỏi về phòng Dao tao; câu hỏi
về phòng Kế hoạch - Tài chính; câu hỏi về phòng Quản trị - Thiết bị;
câu hỏi về phòng Công tác chính trị và Học sinh, sinh viên
« Câu hỏi về giảng viên
« - Câu hỏi vẻ học phí: Câu hỏi về học phí một học kì; câu hỏi vẻ thời hạn
đóng học phí.
21
Trang 24Câu hỏi về đồng phục: Câu hỏi về đồng phục thể dục; Câu hỏi về đồngphục khoa: câu hỏi về các quy định nhuộm tóc, trang phục đi học
Câu hỏi về kí túc xá: Câu hỏi vẻ địa chi kí túc xá; câu hỏi về quy định
kí túc xá; câu hỏi về xét duyệt vào ở kí túc xá
Câu hỏi vẻ tài liệu học tập.
Câu hỏi về xét tuyển
Câu hỏi về thi cử: Câu hỏi về thi các học phan chính tri; câu hỏi vẻ các
vấn đẻ điểm thi bị sai lệch
Câu hỏi về học quân sự: Câu hỏi vé thời gian học quân sự: câu hỏi vềđịa điểm học quân sự; câu hỏi về các lưu ý khi học quân sự
Câu hỏi về các xử phạt: Câu hỏi về xử lý khi không đi thi: câu hỏi về
Dua dir liệu thu thập được vào file excel.
Phan loại dữ liệu.
Lọc ra những dữ liệu phù hợp yêu cầu.
2 Quy trình tỉnh chỉnh dữ liệu
2.2.2.1 Chia dữ liệu thành tập train và validation:
Tập train là tập dữ liệu được sử dụng dé huấn luyện chatbot Nó
bao gồm các cặp câu hỏi và câu trả lời, trong đó câu hỏi là câu đượcngười dùng nhập vảo vả câu trả lời là câu mà chatbot sẽ trả lời dựa trên câu hỏi đó.
Tập validation là tập dữ liệu được sử dụng đề đánh giá hiệu suất
của chatbot sau khi nó đã được huấn luyện.
Trong quá trình huấn luyện một mô hình máy học, việc chia dit liệu thành hai tập train va validation là cực kỳ quan trọng đề đánh giá
hiệu suất của mô hình Dưới đây là vai trò của từng tập dữ liệu;
22
Trang 25Trong quá trình huấn luyện một mô hình máy học, việc chia dữliệu thành hai tập train va validation là cực kỳ quan trọng dé đánh giáhiệu suất của mô hình Dưới đây là vai trò của từng tập dữ liệu:
Tập train được sử dụng dé huấn luyện mô hình máy học Môhình sẽ học từ đữ liệu trong tập train thông qua việc điều chỉnh các tham
số và trọng số của nó đề tối ưu hóa hiệu suất trên tập này
Dit liệu trong tập train được sử dụng dé tính gradient và cập nhậtcác tham số của mô hình thông qua các thuật toán tối ưu hóa nhưgradient descent hoặc các biến thé của nó
Mục tiêu của quá trình huấn luyện là làm cho mô hình học đượcbiêu diễn tốt nhất cho dit liệu huấn luyện, từ đó tôi ưu hóa hiệu suất trên
đữ liệu mới.
Tap validation được sử dụng dé đánh giá hiệu suất của mô hình
trong quá trình huấn luyện và để điều chỉnh các siêu tham số
(hyperparameters) của mô hình.
Dữ liệu trong tập validation không được sử dụng dé huấn luyện
mô hình, ma chỉ được sử dụng đề đánh giả hiệu suất của mô hình trên
dữ liệu mới mà nó chưa được huấn luyện trước đó.
Việc sử dụng tập validation giúp ngăn chặn tinh trạng
overfitting, noi mô hình học được quá mức từ dữ liệu huấn luyện và
không tông quát hóa tốt trên dit liệu mới.
2.2.2.2 Lọc và tỉnh chỉnh dữ liệu:
Loại bỏ các câu hỏi/câu tra lời không phù hợp, chất lượng thấp:
« Xác định các tiêu chí dé đánh giả chất lượng dữ liệu (ví dụ: độ dai
câu, tính logic, sự liên quan giữa câu hỏi vả câu trả lời).
¢ - Loại bỏ các câu hỏt/câu tra lời không đáp ứng các tiêu chí.
Sửa lỗi chính tả, ngữ pháp và cấu trúc câu:
- Str dụng các công cụ hỗ trợ kiểm tra lỗi chính tả và ngừ pháp
« - Sửa lỗi thủ công dé đảm bao chất lượng.
23
Trang 26Thay đôi các từ ngừ cho phù hợp, dé biểu:
« Thay thé các từ ngữ khó hiệu bang từ ngữ dé hiểu hơn
« Viét tất các từ ngữ thường xuyên xuất hiện để tiết kiệm dung
lượng.
Mở rộng von từ vựng, thay thé các từ viết tat:
« Mo rộng vốn từ vựng bằng cách sử dụng từ đồng nghĩa, trái nghĩa
« _ Cung cấp danh sách từ viết tat dé người dùng dé dang tra cứu
Nâng cao chất lượng dit liệu tống thẻ
2.2.2.3 Chuyến đôi định dang dữ liệu:
Dữ liệu ban đầu được lưu ở trong file excel gồm 2 cột: cột thứ
nhất chứa câu hỏi, cột thứ hai chứa câu trả lời tương ứng — là thắc mắc
và giải đáp của các tân sinh viên do nhóm thu thập được ở các nhóm.
Sau đó sử dụng thư viện pandas có trong python đề chuyên đôi từ file
excel sang file csv.
Pandas là một thư viện python cung cấp các cấu trúc dit liệu
nhanh, mạnh mẽ, linh hoat và mang hàm ý Tên thư viện được bắt nguồn
từ panel data (bang dữ liệu) Pandas được thiết kế dé làm việc dé dàng
và trực quan với dữ liệu có cầu trúc (dạng bảng, đa chiều, có tiềm năng
không đồng nhất) và dữ liệu chuỗi thời gian.
Ưu điểm của pandas: Dễ dang xử lý đữ liệu mat mát, được biểuthị đưới dang NaN, trong dữ liệu dau phay động cũng như dấu phẩy tĩnhtheo ý người dùng mong muốn: bỏ qua hoặc chuyên sang 0 Khả năngthay đôi kích thước: các cột có thê được chèn và xóa khỏi DataFrame vàcác đối tượng chiêu cao hơn Căn chỉnh dit liệu tự động và rõ ràng: các
đối tượng có thé được căn chỉnh rõ ràng với một bộ nhãn hoặc người
dùng chỉ cần bỏ qua các nhãn và dé Series, DataFrame, v.v tự động căn
chỉnh dir liệu cho ban trong các tính toán Chức năng group by mạnh
mẽ, linh hoạt để thực hiện các hoạt động kết hợp phân tách áp dụng trên các tập dit liệu, cho cả dit liệu tông hợp và chuyển đổi Dễ dàng chuyền
đổi dữ liệu rời rac (ragged), chỉ mục khác nhau (differently-indexed)
24
Trang 27trong các cấu trúc dir liệu khác của Python và NumPy thành các đối tượng DataFrame Cắt lát (slicing) thông minh dựa trên nhãn, lập chỉ
mục ưa thích (fancy indexing) và tập hợp lại (subsetting) các tap dữ liệu
lớn Gộp (merging) và ni (joining) các tập dữ liệu trực quan Linh hoạt
trong định hình lại (reshaping) và xoay (pivoting) các tập dữ liệu Dán
nhãn phần cấp (hierarchical) của các trục (có thẻ có nhiều nhãn trên mỗi
đánh dau) Các công cu IO mạnh mẽ dé tai dit liệu từ các tệp phang (flat
file) như CSV va delimited, tệp Excel, cơ sở đữ liệu và lưu / tai dit liệu
từ định dạng HDFS cực nhanh Chức năng theo chuỗi thời gian (time series) cụ thể: tạo phạm vi ngày và chuyên đổi tan số, thống kê cửa số
di chuyền dịch chuyên ngày va độ trễ Tích hợp tốt với các thư viện
khác cua python như SciPy, Matplotlib, Plotly,
File CSV — Comma Separated Values có nghĩa là file có giá trịđược ngăn cách bởi dau phay (hoặc đôi lúc là dau cham phây) Hiéu đơn
giản, đây là một file chứa dữ liệu lưu trừ ở dạng văn bản mà người dùng thường sử dụng dé trao đôi dữ liệu giữa các ứng dụng khác nhau Nhưng
dưới sự hỗ trợ của Pycharm Profesional có thay hỗ trợ mở file csv ở dang bang rat dé nhìn va thuận tiện cho việc chỉnh sửa dữ liệu.
Khi chuyên từ file excel về csv các dữ liệu bị mat mát hoặc có
Hình 2 I Định dang file CSE.
Trong bảng dữ liệu trên, ở dòng thứ 7 các dit liệu không phù hợp đã bị
chuyên thành chữ “NaN” từ đây lọc bỏ ra những dòng đó dé cho bộ dữ liệu
được hoàn chỉnh.