Năng lực nghiên cứu Đánh giá chung Năng lực nghiên cứu của Việt Nam về các thuật toán phổ biến và ứng dụng khá phát triển, thị trường cũng khá sôi động, các cơ sở nghiên cứu lớn chủ yế
Trang 1HỒ SƠ CÔNG NGHỆ
Đề tài: Xây dựng bản đồ công nghệ và lộ trình đổi mới công nghệ trong việc phát triển và ứng dụng IoT tại Việt Nam
Mã số: ĐM.40.DA/19
Thời gian thực hiện: 01/2019 - 12/2020
Cơ quan thực hiện: Công ty Cổ phần Tập đoàn Công nghệ CMC
Chủ nhiệm đề tài: TS Đặng Minh Tuấn
Tên công nghệ Các thuật toán học máy phổ biến và ứng dụng
1 Phạm vi ứng dụng:
Các dịch vụ tài chính
Ngân hàng và những doanh nghiệp hoạt động trong lĩnh vực tài chính sử dụng công nghệ Machine Learning với 2 mục đích chính: xác định insights trong dữ liệu và ngăn chặn lừa đảo Insights sẽ biết được các cơ hội đầu tư hoặc thông báo đến nhà đầu tư thời điểm giao dịch hợp lý Data mining cũng có thể tìm được những khách hàng đang có hồ sơ rủi ro cao hoặc sử dụng giám sát mạng
để chỉ rõ những tín hiệu lừa đảo
Chính phủ
Các tổ chức chính phủ hoạt động về an ninh cộng đồng hoặc tiện ích xã hội sở hữu rất nhiều nguồn dữ liệu có thể khai thác insights
Ví dụ, khi phân tích dữ liệu cảm biến, chính phủ sẽ tăng mức độ hiệu quả của dịch vụ và tiết kiệm chi phí Machine learning còn hỗ trợ phát hiện gian lận và giảm thiểu khả năng trộm cắp danh tính
Chăm sóc sức khỏe
Machine learning là 1 xu hướng phát triển nhanh chóng trong ngành chăm sóc sức khỏe, nhờ vào sự ra đời của các thiết bị và máy cảm ứng đeo được sử dụng dữ liệu để đánh giá tình hình sức khỏe của bệnh nhân trong thời gian thực (real-time) Công nghệ
Machine Learning còn giúp các chuyên gia y tế xác định những xu hướng hoặc tín hiệu để cải thiện khả năng điều trị, chẩn đoán
Trang 2bệnh
Marketing và sales
Dựa trên hành vi mua hàng trước đây, các trang web sử dụng Machine Learning phân tích lịch sử mua hàng, từ đó giới thiệu những vật dụng mà bạn có thể sẽ quan tâm và yêu thích Khả năng tiếp nhận dữ liệu, phân tích và sử dụng những dữ liệu đó để cá nhân hóa trải nghiệm mua sắm (hoặc thực hiện chiến dịch Marketing) chính là tương tai của ngành bán lẻ
Dầu khí
Tìm kiếm những nguồn nguyên liệu mới Phân tích các mỏ dầu dưới đất Dự đoán tình trạng thất bại của bộ cảm biến lọc dầu Sắp xếp các kênh phân phối để đạt hiệu quả và tiết kiệm chi phí Có thể nói, số lượng các trường hợp sử dụng Machine Learning trong ngành công nghiệp này cực kì lớn và vẫn ngày càng mở rộng
Vận tải
Phân tích dữ liệu để xác định patterns & các xu hướng là trọng tâm trong ngành vận tải vì đây là ngành phụ thuộc vào khả năng tận dụng hiệu quả trên mỗi tuyến đường và dự đoán các vấn đề tiềm tàng để gia tăng lợi nhuận Các chức năng phân tích dữ liệu và modeling của Machine learning đóng vai trò quan trọng với các doanh nghiệp vận chuyện, vận tải công cộng và các tổ chức vận chuyển khác
2 Mô tả công nghệ:
2.1 Định nghĩa
Học máy (machine learning) là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống "học" tự động từ dữ liệu để giải quyết những vấn đề cụ thể
Một số hệ thống học máy nỗ lực loại bỏ nhu cầu trực giác của con người trong việc phân tích dữ liệu, trong khi các hệ thống khác hướng đến việc tăng sự cộng tác giữa người và máy Không thể loại bỏ hoàn toàn tác động của con người vì các nhà thiết kế hệ thống phải chỉ định cách biểu diễn của dữ liệu và những cơ chế nào sẽ được dùng để tìm kiếm các đặc tính của dữ liệu Học máy có thể được xem là một nỗ lực để tự động hóa một số phần của phương pháp khoa học Một số nhà nghiên cứu học máy tạo ra các phương pháp bên trong các khuôn khổ của thống kê Bayes
2.2 Nguyên lý
Các thuật toán học máy được phân loại theo kết quả mong muốn của thuật toán Các loại thuật toán thường dùng bao gồm:
- Học có giám sát: là một kĩ thuật của ngành học máy để xây dựng một hàm (function) từ dữ liệu huấn luyện Dữ liệu huấn luyện
bao gồm các cặp gồm đối tượng đầu vào (thường dạng vec-tơ), và đầu ra mong muốn Đầu ra của một hàm có thể là một giá trị
Trang 3liên tục (gọi là hồi qui), hay có thể là dự đoán một nhãn phân loại cho một đối tượng đầu vào (gọi là phân loại) Nhiệm vụ của chương trình học có giám sát là dự đoán giá trị của hàm cho một đối tượng bất kì là đầu vào hợp lệ, sau khi đã xem xét một số ví
dụ huấn luyện (nghĩa là, các cặp đầu vào và đầu ra tương ứng) Để đạt được điều này, chương trình học phải tổng quát hóa từ các
dữ liệu sẵn có để dự đoán được những tình huống chưa gặp phải theo một cách hợp lý
- Học không giám sát: là một phương pháp của ngành học máy nhằm tìm ra một mô hình mà phù hợp với các quan sát Nó khác
biệt với học có giám sát ở chỗ là đầu ra đúng tương ứng cho mỗi đầu vào là không biết trước Trong học không có giám sát, một tập dữ liệu đầu vào được thu thập Học không có giám sát thường đối xử với các đối tượng đầu vào như là một tập các biến ngẫu nhiên Sau đó, một mô hình mật độ kết hợp sẽ được xây dựng cho tập dữ liệu đó
- Học nửa giám sát: sử dụng cả dữ liệu đã gán nhãn và chưa gán nhãn để huấn luyện - điển hình là một lượng nhỏ dữ liệu có gán
nhãn cùng với lượng lớn dữ liệu chưa gán nhãn Học nửa giám sát đứng giữa học không giám sát (không có bất kì dữ liệu có nhãn nào) và có giám sát (toàn bộ dữ liệu đều được gán nhãn) Nhiều nhà nghiên cứu nhận thấy dữ liệu không gán nhãn, khi được sử dụng kết hợp với một chút dữ liệu có gán nhãn, có thể cải thiện đáng kể độ chính xác Để gán nhãn dữ liệu cho một bài toán học máy thường đòi hỏi một chuyên viên có kĩ năng để phân loại bằng tay các ví dụ huấn luyện Chi phí cho quy trình này khiến tập dữ liệu được gán nhãn hoàn toàn trở nên không khả thi, trong khi dữ liệu không gán nhãn thường tương đối rẻ tiền Trong tình huống đó, học nửa giám sát có giá trị thực tiễn lớn lao
- Học tăng cường: nghiên cứu cách thức một agent trong một môi trường nên chọn thực hiện các hành động nào để cực đại hóa
một khoản thưởng (reward) nào đó về lâu dài Các thuật toán học tăng cường cố gắng tìm một chiến lược ánh xạ các trạng thái của thế giới tới các hành động mà agent nên chọn trong các trạng thái đó Khác với học có giám sát, trong học tăng cường không
có các cặp dữ liệu vào/kết quả đúng, các hành động gần tối ưu cũng không được đánh giá đúng sai một cách tường minh
- Chuyển đổi: tương tự học có giám sát nhưng không xây dựng hàm một cách rõ ràng Thay vì thế, cố gắng đoán kết quả mới dựa
vào các dữ liệu huấn luyện, kết quả huấn luyện, và dữ liệu thử nghiệm có sẵn trong quá trình huấn luyện
- Học cách học: trong đó thuật toán học thiên kiến quy nạp của chính mình, dựa theo các kinh nghiệm đã gặp
2.3 Vòng đời công nghệ/thế hệ công nghệ:
- 1952 - Arthur Samuel đã viết ra chương trình học máy (computer learning) đầu tiên Chương trình này là trò chơi cờ đam, và hãng máy tính IBM đã cải tiến trò chơi này để nó có thể tự học và tổ chức những nước đi để giành chiến thắng
- 1990s – Học máy đã dịch chuyển từ cách tiếp cận hướng kiến thức (knowledge-driven) sang cách tiếp cận hướng dữ liệu (data-driven) Các nhà khoa học bắt đầu tạo ra các chương trình cho máy tính để phân tích một lượng lớn dữ liệu và rút ra các kết luận
Trang 4- hay là học từ các kết quả đó
- 2006 - Geoffrey Hinton đã đưa ra một thuật ngữ "deep learning" để giải thích các thuật toán mới cho phép máy tính "nhìn thấy"
và phân biệt các đối tượng và văn bản trong các hình ảnh và video
- 2012 - X Lab của Google phát triển một thuật toán học máy có khả năng tự động duyệt qua các video trên YouTube để xác định xem video nào có chứa những con mèo
- 2014 - Facebook phát triển DeepFace, một phần mềm thuật toán có thể nhận dạng hoặc xác minh các cá nhân dựa vào hình ảnh
ở mức độ giống như con người có thể
- 2015 - Microsoft tạo ra Distributed Machine Learning Toolkit, trong đó cho phép phân phối hiệu quả các vấn đề machine learning trên nhiều máy tính
- 2016 - Thuật toán trí tuệ nhân tạo của Google đã đánh bại nhà vô địch trò chơi Cờ Vây, được cho là trò chơi phức tạp nhất thế giới (khó hơn trò chơi cờ vua rất nhiều) Thuật toán AlphaGo được phát triển bởi Google DeepMind đã giành chiến thắng 4/5 trước nhà vô địch Cờ Vây
3 Hiện trạng công nghệ tại Việt Nam
3.1 Năng lực nghiên cứu
Đánh giá chung
Năng lực nghiên cứu của Việt Nam về các thuật toán phổ biến và ứng dụng khá phát triển, thị trường cũng khá sôi động, các cơ sở nghiên cứu lớn chủ yếu nằm ở các tập đoàn công nghệ, viện nghiên cứu
và các trường đại học
Đơn vị nghiên cứu VinAI, Viettel, FPT, CIST, Đại học Bách Khoa Hà Nội, Đại học Công nghệ ĐHQG Hà Nội, Đại học
Bách Khoa Hồ Chí Minh
Công trình nghiên cứu
- Duong, C.N., Truong, T.D., Luu, K., Quach, K.G., Bui, H and Roy, K., 2020 Vec2Face: Unveil Human Faces from their Blackbox Features in Face Recognition In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp 6132-6141)
- Hung, P.D., Hanh, T.D and Diep, V.T., 2018, December Breast cancer prediction using spark MLlib and ML packages In Proceedings of the 2018 5th International Conference on Bioinformatics Research and Applications (pp 52-59)
- Veyseh, A.P.B., Dernoncourt, F., Dou, D and Nguyen, T.H., 2020, July Exploiting the
Trang 5Syntax-Model Consistency for Neural Relation Extraction In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp 8021-8032)
- Shu, R., Nguyen, T., Chow, Y., Pham, T., Than, K., Ghavamzadeh, M., Ermon, S and Bui, H.H.,
2020 Predictive Coding for Locally-Linear Control ICML 2020 arXiv preprint arXiv:2003.01086
- Pham, K., Le, K., Ho, N., Pham, T and Bui, H., 2020 On Unbalanced Optimal Transport: An Analysis of Sinkhorn Algorithm ICML 2020
- Dong, Z., Seybold, B.A., Murphy, K.P and Bui, H.H., 2020 Collapsed amortized variational inference for switching nonlinear dynamical systems ICML 2020
- Nguyen, D.Q and Nguyen, A.T., 2020 PhoBERT: Pre-trained language models for Vietnamese arXiv preprint arXiv:2003.00744
- Nguyen, D.Q., Billingsley, R., Du, L and Johnson, M., 2015 Improving topic models with latent feature word representations Transactions of the Association for Computational Linguistics, 3, pp.299-313
- Nguyen, D.Q., Nguyen, T.D., Nguyen, D.Q and Phung, D., 2017 A novel embedding model for knowledge base completion based on convolutional neural network arXiv preprint arXiv:1712.02121
Nghiên cứu, phát triển các
thuật toán học máy phổ
biến và ứng dụng
Các thuật toán phổ biến ở Việt Nam được chú trọng nghiên cứu và phát triển tập trung vào các lĩnh vực như xử lý ảnh, xử lý ngôn ngữ tự nhiên, âm thanh
và các định dạng media, dữ liệu chuỗi thời gian Tuy đi sau thế giới nhưng vẫn đạt được các thành tựu đáng kể
Có nhiều nghiên cứu từ các thuật toán học máy cơ bản đến các mạng nơ-ron sâu Các nghiên cứu thuật toán học máy trên thế giới đạt được nhiều thành tự trong mọi lĩnh vực từ
xử lý ảnh, xử lý ngôn ngữ tự nhiên đến dữ liệu dạng chuỗi
và không đồng dạng về mặt dữ liệu
Nghiên cứu về các lĩnh vực
ứng dụng trong thực tế của
các thuật toán học máy phổ
Nghiên cứu ứng dụng thực tế của các thuật toán học máy tập trung vào cải thiện hiệu suất các thuật toán, tối ưu tài
Nghiên cứu trên thế giới cũng đã tập trung vào hiệu năng của thuật toán trên tập dữ liệu lớn và tốc độ của thuật toán Các thuật toán học máy phổ biến được áp dụng cho tất cả
Trang 6biến nguyên và tốc độ chạy thuật toán đối với
bài toán phức tạp và dữ liệu lớn trong mọi lĩnh vực trong đời sống
các lĩnh vực từ học thuật đến thực tế
3.2 Năng lực sản xuất
Đánh giá chung Một số ít đơn vị tại Việt Nam có xây dựng các thuật toán học máy phổ biến và ứng dụng
Đơn vị sản xuất VinAI, Viettel, FPT, CIST, Đại học Bách Khoa Hà Nội, Đại học Công nghệ ĐHQG Hà Nội, Đại học
Bách Khoa Hồ Chí Minh
Khả năng xây dựng các
thuật toán học máy phổ
biến và ứng dụng
Nghiên cứu các thuật toán phổ biến tại Việt Nam chủ yếu tối ưu hóa một khía cạnh nào đó của thuật toán hơn là tạo ra một thuật toán mới
Trên thế giới cũng đã phát triển nghiên cứu các thuật toán học máy phổ biến và đi đầu trong các ứng dụng trong
nghiên cứu và thực tế
3.3 Khả năng ứng dụng
Đánh giá chung Về mảng ứng dụng các thuật toán học máy cơ bản, Việt Nam đã có những ứng dụng và nghiên cứu với
quy mô vừa và nhỏ
Đơn vị phân phối / cung
cấp giải pháp
VinAI, Viettel, FPT, CIST, Đại học Bách Khoa Hà Nội, Đại học Công nghệ ĐHQG Hà Nội, Đại học Bách Khoa Hồ Chí Minh
Sự đa dạng các thuật toán
học máy phổ biến
Các ứng dụng rất đa dạng các lĩnh vực như xử
lý ảnh, xử lý ngôn ngữ tự nhiên, âm thanh và các định dạng media, dữ liệu chuỗi thời gian
Các ứng dụng đa dạng và luôn có tiên phong trong các lĩnh vực đi đầu trong lĩnh vực
Độ hoàn thiện của sản
phẩm trong thực tế
Các ứng dụng đã được đi vào thực tiễn cụ thể như hệ thống chấm công áp dụng thuật toán
Các ứng dụng trên thế giới cực kỳ phổ biến và mạnh
mẽ nhằm cải thiện hiệu năng của thuật toán được áp
Trang 7nhận diện khuôn mặt, hệ thống nhận diện chữ viết tay, xử lý ngôn ngữ tiếng Việt
dụng cho tất cả các lĩnh vực từ học thuật đến thực tế
3.4 Khảo sát phân nhóm và đánh giá công nghệ
đánh giá
Nhóm 1 Công nghệ can thiệp, tối ưu hoàn toàn Nếu nghiên cứu phát triển, can thiệp thay đổi hoàn toàn sẽ mang lại hiệu quả cao trong việc nâng cao chất lượng sản phẩm, tính cạnh tranh trên thị trường
Nhóm 2 Công nghệ can thiệp, tối ưu một phần Nếu nghiên cứu phát triển, can thiệp
thay đổi một phần sẽ mang lại hiệu quả cao trong việc nâng cao chất lượng sản phẩm, tính cạnh tranh trên thị trường
Nhóm 3 Công nghệ không can thiệp, chỉ sử dụng Công nghệ đã chuẩn hóa, chỉ ứng
dụng Nếu nghiên cứu phát triển thêm sẽ không mang lại hiệu quả và tốn kém chi phí hoặc không đủ năng lực để nghiên cứu phát triển
Nhóm 3
2 Mức độ phổ biến trên thế giới
(Thang điểm 10)
Đánh giá mức độ phổ biến của công nghệ trong các sản phẩm, hệ thống, giải pháp
3 Tiềm năng phát triển (Thang
điểm 10)
Đánh giá tiềm năng phát triển của công nghệ dựa trên lợi ích đem lại, xu hướng phát triển, xu hướng ứng dụng trong hiện tại và tương lai
Không đánh giá
Việt Nam (Thang điểm 10) Mức độ làm chủ công nghệ của Việt Nam so với thế giới
Không đánh giá
6 Khả năng nghiên cứu của Việt
Nam (Thang điểm 10)
Đánh giá khả năng nghiên cứu công nghệ tại các đơn vị nghiên cứu, doanh nghiệp của Việt Nam
Không đánh giá
7 Khả năng sản xuất của Việt
Nam (Thang điểm 10)
Đánh giá khả năng sản xuất phần cứng hoặc xây dựng phần mềm, các bộ công
Trang 84 Xu hướng phát triển trên thế giới
Trên thế giới cũng đã phát triển nghiên cứu về xử lý và phân tích các thuật toán học máy phổ biến cho dữ liệu lớn và các dữ liệu
phức tạp để nâng cao hiệu năng xử lý, tối ưu hóa tài nguyên và đảm bảo tốc độ cho các ứng dụng thực tế