Tổng quan tình hình nước ngoài Google, Apple, Facebook, Amazon và Microsoft...Tất cả những gã khổng lồ phần mềm bây giờ thường xuyên giới thiệu các khám phá, sáng chế mới của họ trong cá
Trang 1TRƯỜNG ĐẠI HỌC NỘI VỤ HÀ NỘI
TRUNG TÂM TIN HỌC – NGOẠI NGỮ
BÁO CÁO TỔNG HỢP
ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CỦA NGƯỜI HỌC
ỨNG DỤNG TRÍ TUỆ NHÂN TẠO VÀO PHẦN MỀM QUẢN LÝ SINH VIÊN TRƯỜNG ĐẠI HỌC NỘI VỤ HÀ NỘI
Mã số đề tài: THNN.ĐTSV.2019.03
Chủ nhiệm đề tài: Hoàng Thái Sơn
Lớp 1705HTTD/Trung tâm Tin học – Ngoại ngữ
Giảng viên hướng dẫn: Ths Nguyễn Thu Huyền
HÀ NỘI – NĂM 2020
Trang 2MỤC LỤC MỞ ĐẦU 1
1 Lý do chọn đề tài 3
2 Tổng quan tình hình nghiên cứu 4
3 Mục tiêu nghiên cứu 6
4 Đối tượng và phạm vi nghiên cứu: 7
5 Giả thuyết nghiên cứu: 7
6 Nhiệm vụ nghiên cứu: 7
7 Phương pháp nghiên cứu: 7
8 Đóng góp của đề tài: 7
Chương I : TỔNG QUAN VỀ TRÍ TUỆ NHÂN TẠO 8
1.1 Giới thiệu chung về trí tuệ nhân tạo 8
1.2 Lịch sử 10
1.3 Vai trò của trí tuệ nhân tạo 11
1.4 Sự ra đời của machine learning 11
1.5 Thuật toán trong machine learning 12
1.6 Một số ứng dụng của Machine Learning hiện nay 13
1.7 Ứng dụng trong các mạng xã hội 13
Chương II: NHẬN DIỆN GIỌNG NÓI 14
2.1 Tổng quan về công nghệ nhận diện giọng nói 14
2.2 Cách hoạt động của phần mềm nhận diện giọng nói 17
2.3 Một số phần mềm phổ biến hiện nay 223
2.4 Hệ thống nhận dạng khuôn mặt 26
Chương III: ỨNG DỤNG CÔNG NGHỆ NHẬN DIỆN GIỌNG NÓI VÀO PHẦN MỀM QUẢN LÝ SINH VIÊN TRƯỜNG ĐẠI HỌC NỘI VỤ HÀ 27
NỘI 27
3.1 Cài đặt, yêu cầu để sử dụng phần mềm 27
3.2 Giới thiệu các chức năng sử dụng trí tuệ nhân tạo 29
3.3 Hướng dẫn đăng nhập bằng khuôn mặt 37
3.4 Hướng dẫn điều khiển hệ thống bằng giọng nói 39
3.1 Cài đặt, yêu cầu để sử dụng phần mềm 39
Trang 3MỞ ĐẦU
1 Lý do chọn đề tài
Đi cùng với cuộc cách mạng công nghiệp 4.0, xã hội đang ngày một hiện đại, chúng ta đang đứng trước kỉ nguyên của tự động hoá, của trí tuệ nhân tạo (AI) cho nên tất cả các ngành nghề đã đang và sẽ không thể thiếu sự có mặt của các công nghệ cao Vậy nên ta cần ứng dụng công nghệ thông tin vào việc quản lý sinh viên để có thể tiết kiệm thời gian, công sức cũng như mang tính khoa học hiện đại cao
Hiện nay, sự phát triển của Công nghệ Thông tin ở nước ta đang bước vào thời kì mới với việc triển khai rộng rãi các ứng dụng tin học cho các tổ chức và xã hội Không ai còn nghi ngờ gì về vai trò của Công nghệ Thông tin trong đời sống, trong khoa học kỹ thuật, kinh doanh, cũng như trong mọi mặt của xã hội, ngay cả đối với một cá nhân Công nghệ Thông tin đang từng bước đi vào cuộc sống của chúng ta như một người bạn đồng hành, nó có vai trò rất lớn trong sự phát triển của đất nước và trong đời sống của con người Một số ứng dụng trí tuệ nhân tạo
AI trong lĩnh vực giáo dục có thể kể đến như: AI được trang bị chức năng tự động phân loại giúp người làm giáo dục có thể tiết kiệm một khoảng thời gian đáng kể
AI có thể đánh giá sinh viên và thích ứng với nhu cầu của họ cũng như có thể hỗ trợ thêm sinh viên làm thêm công việc gia sư, đảm bảo rõ rằng họ đang đi đúng hướng,…
Ngoài ra còn rất nhiều ngành nghề, lĩnh vực khác hiện tại đã ứng dụng AI vào trong quá trình vận hành, phát triển như: pháp luật, trò chơi điện tử,…Với việc ứng dụng AI các thiết bị có thể đưa ra những quyết định thông minh một cách hoàn toàn tự động
Tóm lại, không thể phủ nhận, cho dù ở thời điểm hiện tại hay trong tương lai thì trí tuệ nhân tạo cũng sẽ góp phần không nhỏ trong việc giúp con người tiết kiệm sức lao động, đẩy nhanh quá trình tự động hóa và số hóa nền kinh tế của nhân loại Mặc dù đã có không ít ý kiến lo ngại về công ăn việc làm của con người khi ứng dụng trí tuệ nhân tạo vào trong dây chuyền sản xuất hay cuộc sống ngày
Trang 4càng phổ biến, nhưng thiết nghĩ, nếu chúng ta có những chính sách phù hợp thì trí tuệ nhân tạo sẽ là một nền tảng vững chắc để đưa loài người bước lên một tầm cao mới
Việc làm đề tài sẽ rèn luyện cho sinh viên tự nghiên cứu, nâng cao trình độ
và làm việc theo nhóm, tạo tiền đề cho sinh viên sau này khi đi làm Mặc dù rất
cố gắn nhưng do hạn chế về mặc thời gian và trình độ nên đề tài không tránh khỏi những thiếu sót Mong được sự đóng góp ý kiến của mọi người
2 Tổng quan tình hình nghiên cứu
Ứng dụng AI phố biến hiện nay đó là nhận dạng giọng nói Công nghệ nhận dạng giọng nói không còn mới mẻ, tất cả những ông lớn ngành công nghệ đều lấn sân vào cuộc chơi này Đó là trợ lý ảo Siri của Apple, Cortana của Microsoft, Alexa của Amazon, đến cả Samsung cũng cho ra đời trợ lý Bixby của riêng mình
Và đặc biệt, không thể không kể đến Google Assistant của Google, cô trợ lý ảo
của Google có thể hiện diện ngay trên chiếc điện thoại của bạn
Trong nước, cũng có rất nhiều nghiên cứu và ứng dụng thành công công nghệ này
2.1 Tổng quan tình hình trong nước
Nhận diện giọng nói đã được biết đến hàng thập kỷ, tại sao chỉ đến bây giờ, công nghệ mới thực sự bùng nổ? Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau Sự ra đời của Deep Learning đã giúp nhận diện giọng nói chính xác, thậm chí ở ngoài môi trường phòng lab
Trong đó, Tiếng Việt được coi là một ngôn ngữ khó học với người nước ngoài bởi ngữ pháp, thanh điệu và đặc trưng vùng miền Máy tính cũng giống như người nước ngoài - để nó nghe hiểu và diễn giải được giọng nói tiếng Việt thành dạng văn bản không phải là việc dễ dàng Một nghiên cứu bạn trẻ dưới sự tư vấn của PGS.TS Lương Chi Mai đã quyết tâm giải quyết bài toán hóc búa này và bước đầu đã gặt hái được thành công khi giành được 2 giải thưởng uy tín trong năm qua
Trang 52.2 Tổng quan tình hình nước ngoài
Google, Apple, Facebook, Amazon và Microsoft Tất cả những gã khổng
lồ phần mềm bây giờ thường xuyên giới thiệu các khám phá, sáng chế mới của họ trong các lĩnh vực trí tuệ nhân tạo, nhận dạng hình ảnh và phân tích khuôn mặt với nỗ lực “truyền tải” các kiến thức và ứng dụng của công nghệ này đến người
dùng một cách nhanh nhất - trọn vẹn nhất
Trong năm 2014, Facebook đã công bố sự ra mắt của chương trình DeepFace có thể xác định xem hai khuôn mặt được chụp trong hai bức ảnh thuộc
về cùng một người, với tỷ lệ chính xác 97,25% Khi tham gia thử nghiệm tương
tự, con người trả lời đúng trong 97,53% trường hợp, hoặc chỉ 0,28% tốt hơn so với chương trình của Facebook Vào tháng 6 năm 2015, Google có bước tiến rõ rệt hơn với FaceNet , một hệ thống nhận dạng mới với điểm số vượt trội 100% độ chính xác trong thử nghiệm tham chiếu Sử dụng mạng nơron nhân tạo và thuật toán mới, công ty từ Mountain View đã quản lý liên kết khuôn mặt với chủ sở hữu của nó với kết quả gần như hoàn hảo Công nghệ này được tích hợp vào Google Photos và được sử dụng để sắp xếp ảnh và tự động gắn thẻ người dùng dựa trên nguồn dữ liệu có từ trước Chứng minh tầm quan trọng của mình trong bối cảnh công nghệ sinh trắc học phát triển cực nhanh, FaceNet nhanh chóng được phát hành trực tuyến với một phiên bản được gọi là OpenFace
Đối với Google Assistant bạn có thể dễ dàng tìm kiếm chỉ với giọng nói câu lệnh từ bạn Nó là một phần của việc chuyển đổi giọng nói thành văn bản, ở một mức độ cao hơn, Google Assistant có thể hiểu được câu nói của bạn và phản hồi lại với một kết quả có thể nói là gần như hoàn hảo Để có thể có được một mức
độ thông minh như vậy thì AI cần nguồn dữ liệu lớn để học hỏi, quá trình này do người dùng cung cấp cũng như do chính bạn tương tác thường xuyên với Google Assistant
Để AI thông minh thì cần phải có dữ liệu để huấn luyện cho nó, cả về nhận diện hình ảnh, văn bản, giọng nói Google có hàng tỷ người dùng với công cụ tìm kiếm, nó có thể biết được trong khoảng thời gian nào, trong từng thời điểm người
Trang 6dùng quan tâm từ khóa nào, lĩnh vực nào Đó là một cách người dùng tự tạo dữ liệu cho AI Cũng còn một cách là người dùng trực tiếp cung cấp dữ liệu cho AI
Có thể thị trường Việt Nam là một thị trường phát triển, nên nhiều sản phẩm của Google đều hỗ trợ cho thị trường Viêt Nam, và Google Assistant cũng không
ngoại lệ So với các trợ lý ảo khác, Google Assistant hỗ trợ tốt cho Tiếng Việt,
Google Assistant có khả năng nhận dạng rõ giọng nói Tiếng Việt một cách chuẩn xác và phản hồi người dùng với giọng nói thật hơn
Một nghiên cứu được thực hiện bởi các nhà nghiên cứu MIT trong tháng 2 năm 2018 đã cho thấy công cụ của Microsoft, IBM và Megvii (FACE ++) có tỷ
lệ lỗi cao khi xác định phụ nữ da sẫm màu và nam giới da sáng Vào cuối tháng 6, Microsoft đã thông báo ở một bài đăng trên blog rằng họ đã thực hiện những cải tiến vững chắc đối với công nghệ nhận diện khuôn mặt
Vào tháng 5 năm 2018, Ars Technica đã báo cáo rằng Amazon đang tích cực quảng bá dịch vụ nhận diện khuôn mặt dựa vào công nghệ đám mây của họ
có tên là Rekognition cho các cơ quan thực thi pháp luật Giải pháp có thể nhận
ra có tới 100 người trong một hình ảnh duy nhất và có thể thực hiện đối sánh khuôn mặt với cơ sở dữ liệu chứa hàng chục triệu khuôn mặt
3 Mục tiêu nghiên cứu
Mục tiêu của đề tài này là nghiên cứu về Trí tuệ nhân tạo nói chung và nhận diện giọng nói, nhận diện khuôn mặt nói riêng
Trong đó, chương 1 nghiên cứu về tổng quan của trí tuệ nhân tạo, chương
2 nghiên cứu sâu hơn về nhận diện giọng nói và nhận dạng khuôn mặt
Sau khi nghiên cứu tổng quan và một số thuật toán liên quan đến nhận diện giọng nói, nhận diện khuôn mặt, nhóm nghiên cứu sẽ áp dụng các kiến thức đó vào phần mềm quản lý sinh viên do nhóm tự phát triển Cụ thể, phần đăng nhập nhóm nghiên cứu áp dụng thuật toán nhận diện khuôn mặt cho phép người dùng đăng nhập bằng chính khuôn mặt của mình Sau khi đăng nhập bằng nhận diện khuôn mặt thành công, nhóm nghiên cứu tiếp tục áp dụng những kiến thức về nhận
Trang 7diện giọng nói để điều khiển các chức năng của phần mềm Cụ thể, người dùng có thể ra lệnh giọng nói để điều khiển các chức năng của phần mềm như quản lý lớp, quản lý khoa,
4 Đối tượng và phạm vi nghiên cứu:
Đối tượng nghiên cứu là Phần mềm “ Quản lý sinh viên trường Đại học Nội vụ Hà Nội” đã được xây dựng và nghiệm thu năm 2019 Trong đó, đề tài tập trung nghiên cứu việc ứng dụng một số thuật toán và công nghệ nhận diện khuôn mặt, nhận diện giọng nói để áp dụng vào phần mềm này
5 Giả thuyết nghiên cứu:
Một số vấn đề đặt ra cho đề tài nghiên cứu này là:
1 Làm cách nào có thể áp dụng nhận diện khuôn mặt vào phần đăng nhập của phần mềm?
2 Tỉ lệ nhận diện khuôn mặt chính xác được bao nhiêu phần trăm?
3 Làm cách nào có thể áp dụng một số thuật toán nhận diện giọng nói để
điều khiển các chức năng của phần mềm?
4 Tỉ lệ nhận diện giọng nói chính xác đạt bao nhiêu phần trăm?
6 Nhiệm vụ nghiên cứu:
Nhiệm vụ chính của đề tài này là tìm hiểu về AI nói chung và nhận diện khuôn mặt, đặc biệt là nhận diện giọng nói nói riêng để áp dụng vào phần mềm
7 Phương pháp nghiên cứu:
Đề tài này sử dụng một số phương pháp nghiên cứu như sau:
- Phương pháp nghiên cứu tài liệu
- Phương pháp thực nghiệm
8 Đóng góp của đề tài:
Đóng góp chính của đề tài này là có thể dùng nhận diện giọng nói và nhận diện khuôn mặt để điều khiển được phần mềm “ Quản lý sinh viên trường Đại học Nội vụ Hà Nội” Đây có thể là một đóng góp tuy chưa lớn nhưng là một nền tảng
Trang 8để cho nhóm nghiên cứu có thể phát triển được nhiều ứng dụng lớn lao hơn sau này
CHƯƠNG I : TỔNG QUAN VỀ TRÍ TUỆ NHÂN TẠO
1.1 Giới thiệu chung về trí tuệ nhân tạo
Để hiểu trí tuệ nhân tạo (artificial intelligence) là gì chúng ta bắt đầu với
khái niệm sự bay nhân tạo (flying machines), tức là cái máy bay
Đã từ lâu, loài người mong muốn làm ra một cái máy mà có thể di chuyển được trên không trung mà không phụ thuộc vào địa hình ở dưới mặt đất, hay nói cách khác là máy có thể bay được Không có gì ngạc nhiên khi những ý tưởng đầu tiên làm máy bay là từ nghiên cứu cách con chim bay Những chiếc máy biết bay được thiết kế theo nguyên lý “vỗ cánh” như con chim chỉ có thể bay được quãng đường rất ngắn và lịch sử hàng không thực sự sang một trang mới kể từ anh em nhà Wright thiết kế máy bay dựa trên các nguyên lý của khí động lực học (aerodynamics)
Các máy bay hiện nay, như đã thấy, có sức trở rất lớn và bay được quãng đường có thể vòng quanh thế giới Nó không nhất thiết phải có nguyên lý bay của con chim nhưng vẫn bay được như chim (dáng vẻ), và còn tốt hơn chim
Trang 9Quay lại câu hỏi Trí tuệ nhân tạo là gì Trí tuệ nhân tạo là trí thông minh của máy do con người tạo ra Ngay từ khi chiếc máy tính điện tử đầu tiên ra đời, các nhà khoa học máy tính đã hướng đến phát hiển hệ thống máy tính (gồm cả phần cứng và phần mềm) sao cho nó có khả năng thông minh như loài người Mặc dù cho đến nay, theo quan niệm của người viết, ước mơ này vẫn còn xa mới thành hiện thực, tuy vậy những thành tựu đạt được cũng không hề nhỏ: chúng ta
đã làm được các hệ thống (phần mềm chơi cờ vua chạy trên siêu máy tinh GeneBlue) có thể thắng được vua cờ thế giới; chúng ta đã làm được các phần mềm
có thể chứng minh được các bài toán hình học; v.v Hay nói cách khác, trong một
số lĩnh vực, máy tính có thể thực hiện tốt hơn hoặc tương đương con người (tất nhiên không phải tất cả các lĩnh vực) Đó chính là các hệ thống thông minh Có nhiều cách tiếp cận để làm ra trí thông minh của máy (hay là trí tuệ nhân tạo),chẳng hạn là nghiên cứu cách bộ não người sản sinh ra trí thông minh của loài người như thế nào rồi ta bắt chước nguyên lý đó, nhưng cũng có những cách khác sử dụng nguyên lý hoàn toàn khác với cách sản sinh ra trí thông minh của loài người mà vẫn làm ra cái máy thông minh như hoặc hơn người; cũng giống như máy bay hiện nay bay tốt hơn con chim do nó có cơ chế bay không phải là giống như cơ chế bay của con chim.Như vậy, trí tuệ nhân tạo ở đây là nói đến khả năng của máy khi thực hiện các công việc mà con người thường phải xử lý; và khi dáng vẻ ứng
xử hoặc kết quả thực hiện của máy là tốt hơn hoặc tương đương với con người thì
ta gọi đó là máy thông minh hay máy đó có trí thông minh Hay nói cách khác, đánh giá sự thông minh của máy không phải dựa trên nguyên lý nó thực hiện nhiệm vụ đó có giống cách con người thực hiện hay không mà dựa trên kết quả hoặc dáng vẻ ứng xử bên ngoài của nó có giống với kết quả hoặc dáng vẻ ứng xử của con người hay không.Các nhiệm vụ của con người thường xuyên phải thực
hiện là: giải bài toán (tìm kiếm,chứng minh, lập luận), học, giao tiếp, thể hiện
cảm xúc, thích nghi với môi trường xungquanh, v.v., và dựa trên kết quả thực
hiện các nhiệm vụ đó để kết luận rằng một ai đó có là thông minh hay không Môn học Trí tuệ nhân tạo nhằm cung cấp các phương pháp luận để làm ra hệ thống có
Trang 10khả năng thực hiện các nhiệm vụ đó: giải toán, học, giao tiếp,v.v bất kể cách nó làm có như con người hay không mà là kết quả đạt được hoặc dáng vẻ bên ngoài như con người Trong môn học này, chúng ta sẽ tìm hiểu các phương pháp để làm cho máy tính biết cách giải bài toán, biết cách lập luận, biết cách học, v.v
1.2 Lịch sử
Vào năm 1943, Warren McCulioch và Walter Pitts bắt đầu thực hiện nghiên cứu ba cơ sở lý thuyết cơ bản: triết học cơ bản và chức năng của các noron thần kinh; phân tích các mệnh đề logic; và lý thuyết dự đoán của Turing Các tác giả
đã nghiên cứu đề xuât mô hình noron nhân tạo, mỗi noron đặc trưng bởi hai trạng thái “bật”, “tắt” và phát hiện mạng noron có khả năng học
Thuật ngữ “Trí tuệ nhân tạo” (Artificial Intelligence - AI) được thiết lập bởi John McCarthy tại Hội thảo đầu tiên về chủ đề này vào mùa hè năm 1956 Đồng thời, ông cũng đề xuất ngôn ngữ lập trình Lisp – một trong những ngôn ngữ lập trình hàm tiêu biểu, được sử dụng trong lĩnh vực AI Sau đó, Alan Turing đưa ra
"Turing test" như là một phương pháp kiểm chứng hành vi thông minh.Thập kỷ
60, 70 Joel Moses viết chương trình Macsyma - chương trình toán học sử dụng cơ
sở tri thức đầu tiên thành công Marvin Minsky và Seymour
Papert đưa ra các chứng minh đầu tiên về giới hạn của các mạng nơ-ron đơn giản Ngôn ngữ lập trình logic Prolog ra đời và được phát triển bởi Alain Colmerauer Ted Shortliffe xây dựng thành công một số hệ chuyên gia đầu tiên trợ giúp chẩn đoán trong y học, các hệ thống này sử dụng ngôn ngữ luật để biểu diễn tri thức và suy diễn
Vào đầu những năm 1980, những nghiên cứu thành công liên quan đến AI như các hệ chuyên gia (expert systems) – một dạng của chương trình AI mô phỏng tri thức và các kỹ năng phân tích của một hoặc nhiều chuyên gia con người
Vào những năm 1990 và đầu thế kỷ 21, AI đã đạt được những thành tựu to lớn nhất, AI được áp dụng trong logic, khai phá dữ liệu, chẩn đoán y học và nhiều lĩnh vực ứng dụng
Trang 111.3 Vai trò của trí tuệ nhân tạo
Trí tuệ nhân tạo bao quát rất nhiều lĩnh vực nghiên cứu Nó nghiên cứu từ các lĩnh vực tổng quát như máy nhận biết, suyluận logic, đến các bài toán như chơi cờ, chứng minh định lý Thường thì các nhà khoa học ở các lĩnh vực khác tìm đến với trí tuệ nhân tạo ở các kỹ thuật hệ thống hoá và tự động hoá các xử lý tri thức cũng như các phương pháp thuộc lĩnh vực mang tính người.Trí tuệ nhân tạo nghiên cứu kỹ thuật làm cho máy tính có thể “suy nghĩ một cách thông minh”
và mô phỏng quy trình suy nghĩ của con người khi đưa ra những quyết định, lời giải Trên cơ sở đó, thiết kế các chương trình cho máy tính để giải quyết bài toán
Sự ra đời và phát triển của Trí tuệ nhân tạo được tạo ra một bước nhảy vọt về chất trong kỹ thuật và kỹ nghệ xử lý thông tin Trí tuệ nhân tạo chính là cơ sở của công nghệ xử lý thông tin mới, độc lập với công nghệ xử lý thông tin truyền thống dựa trên văn bản giấy tờ Điều này được thể hiện qua các mặt sau:
Nhờ những công cụ hình thức (các mô hình logic ngôn ngữ, logic mờ, ), các tri thức thủ tục và tri thức mô tả có thể biểu diễn được trong máy Do vậy quá trình giải bi tốn được tiến hành hữu hiệu hơn Mô hình logic ngôn ngữ đã mở rộng khả năng ứng dụng của máy tính trong lĩnh vực đòi hỏi tri thức chuyên gia ở trình
độ cao, rất khó như: y học, sinh học, địa lý, tự động hóa
Một số phần mềm trí tuệ nhân tạo thể hiện tính thích nghi và tính mềm dẻo đối với các lớp bài toán thuộc nhiều lĩnh vực khác nhau.Khi máy tính được trang
bị các phần mềm trí tuệ nhân tạo ghép mạng sẽ cho pháp giải quyết những bi tốn
cỡ lớn và phân tán
1.4 Sự ra đời của machine learning
Một trong những khác biệt chính giữa con người và máy tính là con người học hỏi từ những kinh nghiệm trong quá khứ, nhưng với máy tính hoặc máy móc cần được phải được thực hiện theo một quy trình có sẵn Máy tính là những máy logic nghiêm ngặt với ý nghĩa thông thường Điều đó có nghĩa là nếu chúng ta muốn máy làm điều gì đó, chúng ta phải cung cấp cho nó những quy trình và các hướng dẫn chi tiết, từng bước về chính xác những việc cần làm.Vì vậy, con người
Trang 12đã viết nên các kịch bản và lập trình để máy tính làm theo các hướng dẫn và có khả năng tự học hỏi Đó là cái cách mà Machine Learning ra đời Khái niệm máy học chính xác là việc máy tính học hỏi từ dữ liệu trong quá khứ và rút kinh nghiệm qua thời gian
Machine learning l gì? Machine learning là một lĩnh vực con của Trí tuệ
nhân tạo(Artificial Intelligence) sử dụng các thuật tốn cho phép máy tính có thể học từ dữ liệu để thực hiện các công việc thay vì được lập trình một cách riêng biệt Học máy là một ứng dụng của trí tuệ nhân tạo (AI) cung cấp cho các hệ thống khả năng tự động học hỏi và cải thiện từ kinh nghiệm mà không cần lập trình rõ ràng Học máy tập trung vào việc phát triển các chương trình máy tính có thể truy cập dữ liệu và sử dụng nó để tự học.Quá trình học bắt đầu bằng các quan sát hoặc
dữ liệu Ví dụ, để tìm kiếm các mẫu trong dữ liệu và đưa ra quyết định tốt hơn trong tương lai dựa trên các ví dụ mà chúng tôi cung cấp Mục đích chính là cho phép các máy tính tự động học mà không cần sự can thiệp hay trợ giúp của con người và điều chỉnh các hành động tương ứng
1.5 Thuật toán trong machine learning
Các thuật toán học máy được giám sát : Nó có thể áp dụng những gì đã được học trong quá khứ vào dữ liệu mới bằng cách sử dụng các ví dụ được gắn nhãn để dự đoán các sự kiện trong tương lai Bắt đầu từ việc phân tích một tập dữ liệu huấn luyện đã biết, thuật toán học tạo ra một hàm được suy ra để đưa ra dự đoán về các giá trị đầu ra
Các thuật toán học máy không giám sát : Ngược lại, thuật toán học máy không giám sát được sử dụng khi thông tin được sử dụng để đào tạo không được phân loại cũng không được dán nhãn Nghiên cứu học tập không giám sát làm thế nào các hệ thống có thể suy ra một chức năng để mô tả một cấu trúc ẩn từ dữ liệu không được gắn nhãn
Các thuật toán Machine Learning bán giám sát : Các thuật toán học máy được giám sát bán nằm ở đâu đó giữa học tập có giám sát và không giám sát, vì chúng sử dụng cả dữ liệu được gắn nhãn và không nhãn cho đào tạo - thường là
Trang 13một lượng nhỏ dữ liệu được gắn nhãn và một lượng lớn dữ liệu không được gắn nhãn Các hệ thống sử dụng phương pháp này có thể cải thiện đáng kể độ chính xác trong học tập
Thuật toán học máy gia cố : Các thuật toán học máy gia cố là một phương pháp học tương tác với môi trường của nó bằng cách tạo ra các hành động và phát hiện ra các lỗi hoặc manh mối Thử nghiệm và tìm kiếm lỗi và manh mối
.Phương pháp này cho phép máy móc, máy tính với phần mềm tự động xác định hành vi lý tưởng trong một bối cảnh cụ thể để tối đa hóa hiệu suất của nó
1.6 Một số ứng dụng của Machine Learning hiện nay
Tự động phân loại
Phân loại tin tức là một ứng dụng điểm chuẩn khác của phương pháp học máy.Vận dụng như thế nào? Như một vấn đề thực tế là bây giờ khối lượng thông tin đã tăng lên rất nhiều trên web Tuy nhiên, mỗi người có sở thích hoặc lựa chọn
cá nhân của mình Vì vậy, để chọn hoặc thu thập một phần thông tin phù hợp trở thành một thách thức đối với người dùng từ vô số nội dung trên trang web
Phân loại các danh mục một cách rõ ràng, dễ điều hướng giúp cho các khách hàng mục tiêu chắc chắn sẽ tăng khả năng truy cập các trang tin tức Hơn nữa, độc giả hoặc người dùng có thể tìm kiếm tin tức cụ thể một cách hiệu quả và nhanh chóng.Có một số phương pháp học máy trong mục đích này, tức là, máy vectơ hỗ trợ, naive Bayes, k-nearest neighbor, v.v
1.7 Ứng dụng trong các mạng xã hội
Học máy đang được sử dụng trong một loạt các ứng dụng ngày nay Một trong những ví dụ nổi tiếng nhất là Facebook News Feed Nguồn cấp tin tức sử dụng học máy để cá nhân hóa từng nguồn cấp dữ liệu thành viên Nếu một thành viên thường xuyên dừng lại để đọc hoặc thích một bài đăng của một người bạn cụ thể, News Feed sẽ bắt đầu hiển thị nhiều hơn về hoạt động của người bạn đó trước
đó trong nguồn cấp dữ liệu.Đằng sau hệ thống ấy, phần mềm sử dụng phân tích thống kê và phân tích dự đoán để xác định các mẫu trong dữ liệu người dùng và
sử dụng các mẫu đó để điền vào News Feed Nếu thành viên không còn dừng lại
Trang 14để đọc, thích hoặc bình luận trên các bài đăng của bạn bè, dữ liệu mới đó sẽ được bao gồm trong tập dữ liệu và News Feed sẽ điều chỉnh tương ứng.Không chỉ riêng facebook, ta có thể bắt gặp những tính năng tương tự đó qua các mạng xã hội khác như google, instagram,
Nhận diện hình ảnh
Nhận dạng hình ảnh là một trong những ví dụ về máy học và trí tuệ nhân tạo phổ biến nhất Về cơ bản, nó là một cách tiếp cận để xác định và phát hiện các đặc trưng của một đối tượng trong hình ảnh kỹ thuật số Hơn nữa, kỹ thuật này có thể được sử dụng để phân tích sâu hơn, chẳng hạn như nhận dạng mẫu, nhận diện hình khuôn, nhận dạng khuôn mặt, nhận dạng ký tự quang học và nhiều hơn nữa,
Chương II: NHẬN DIỆN GIỌNG NÓI 2.1 Tổng quan về công nghệ nhận diện giọng nói
AI là viết tắt của Artificial Intelligence, dịch ra thành Trí tuệ nhân tạo Trong lịch sử phát triển AI, các nhà nghiên cứu phân thành 4 hướng tiếp cận chính:
• Hành động như người (acting humanly)
• Suy nghĩ như người (thinking humanly)
• Suy nghĩ hợp lý (thinking rationally)
• Automated reasoning: máy có khả năng sử dụng tri thức đã lưu trữ
để trả lời câu hỏi hay đưa ra kết luận hữu ích
Trang 15• Machine learning: máy có khả năng thích nghi với các điều kiện môi trường xung quanh để rút trích ra các nguyên lý từ tri thức thu nhận được phục vụ cho việc ra quyết định
• Computer vision: máy có khả năng quan sát và xác định được các đối tượng xung quanh
• Robotics: máy có khả năng tương tác với đối tượng và di chuyển trong môi trường xung quanh
Trong đó việc ứng dụng nhận dạng giọng nói và xử lí ngôn ngữ tự nhiên đang là xu hướng và áp dụng trong nhiều lĩnh vực khác nhau
• Nhận dạng giọng nói (Speech Recognition – SR)
Công tác nghiên cứu nhận dạng giọng nói bắt đầu vào những năm 1950, nhưng trong những năm gần đây đã phát triển nhanh chóng Trình độ nghiên cứu
từ phòng thí nghiệm dần dần thực tế Kể từ năm 1987, sau khi thực hiện 863 chương trình quốc gia và các nhóm chuyên gia máy tính đặc biệt cho dự án nghiên cứu công nghệ nhận dạng giọng nói,đến nay đạt được nhiều thành quả và đưa vào ứng dụng trong đời sống.Vậy,nhận dạng giọng nói là việc chuyển đổi các ngôn ngữ nói thành văn bản Nó còn được biết với cái tên “nhận dạng giọng nói tự động” (Automatic speech recognition – ASR), “nhận dạng giọng nói qua máy tính” (computer speech recognition), hoặc speech to text – STT Nhận dạng tiếng nói tự động đã phát triển khoảng 40 năm nay Những nhân tố quan trọng giúp cho
sự phát triển của công nghệ nhận dạng này có thể kể đến như sự phát triển của hệ thống phân tích phổ âm thanh (năm 1946) cho phép thể hiện trực quan các tín hiệu
âm, lý thuyết tạo âm thanh tiếng nói của người (năm 1948), sự xuất hiện và phát triển mạnh mẽ của các hệ thống máy tính số thương mại đầu tiên trên thế giới (năm 1958).Các hệ thống nhận dạng đầu tiên có khảnăng nhận dạng từ rời rạc và phụ thuộc người nói Để phân tích và nhận dạng các chữ số hoặc các từ đơn âm
sử dụng đặc tính trong miền thời gian và các ngân hàng bộ lọc tương tự Tương tự như vậy, với phương pháp âm học, hệ thống nhận dạng âm vị phụthuộc người nói
và không phụ thuộc người nói được thiết kế mặc dù mới cho được kết quả rất
Trang 16khiêm tốn Trong thập kỷ 70, với sự phát triển của các thuật toán phân tích tín hiệu như mô hình dự đoán tuyến tính, so sánh mẫu theo thời gian công nghệ nhận dạng tiếng nói tiếp tục có những bước phát triển mạnh mẽ Với các phương pháp này những hệ thống nhận dạng với sốlượng từ khá lớn được thiết kế.Trong những năm 60 của thế kỷ 20, nhiều phòng thí nghiệm của nhiều hãng lớn đã được đầu tư nghiên cứu phát triển các hệ thống nhận dạng tiếng nói các ngôn ngữ khác nhau Đến đầu những năm 80, khả năng về kỹ thuật đã cho phép các nhà nghiên cứu xây dựng các hệ thống nhận dạng được hàng trăm từ rời rạc Gần đây công nghệ nhận dạng đã có những bước phát triển vô cùng nhanh chóng và muốn hệ thống này được tự động và thông minh hơn thì cần áp dụng AI để huấn luyện cho nó, cả về nhận diện hình ảnh, văn bản, giọng nói.Nó có thể biết được trong khoảng thời gian nào, trong từng thời điểm người dùng quan tâm cái gì, cần làm gì, lĩnh vực nào và học hỏi một cách tự động Đó là một cách người dùng tự tạo dữ liệu cho AI Cũng còn một cách là người dùng trực tiếp cung cấp dữ liệu cho AI
Những phần mềm nhận dạng giọng nói càng thông minh hơn, khả năng nhận dạng chính xác hơn, thông tin trả về cũng hữu ích và đa dạng hơn Người ta còn áp dụng cả những kĩ thuật như data mining (khai thác dữ liệu theo chiều sâu, đưa ra những phân tích về nhiều mặt), machine learning (cho phép máy móc tự học hỏi thói quen, hành vi của người dùng) nhằm cải thiện hiệu suất làm việc của công nghệ nhận dạng giọng nói nữa
Tuy nhiên, hiện nay công nghệ giọng nói vẫn chỉ mới ở giai đoạn đầu chứ chưa thể nào thay thế hoàn toàn bàn phím ảo/vật lý hoặc các nút trên màn hình Chúng ta đang dần tiến đến một kỉ nguyên hiện đại hơn, các ứng dụng giọng nói cũng dần dần được hoàn thiện
Giọng nói là giải pháp hợp lý nhất tính đến thời điểm hiện tại Người dùng không chỉ dùng giọng nói của mình như một phương thức nhập liệu mà chính bản thân thiết bị cũng có thể xài giọng nói để đọc ra những thông tin cần thiết Đó là chưa kể đến lợi ích to lớn mà những phần mềm dựa trên giọng nói có thể mang lại
Trang 17cho những người khiếm thị Họ có thể tận hưởng những tiến bộ công nghệ tương
tự như những gì mà một người bình thường có thể làm, không còn khoảng cách xuất hiện do những khiếm khuyết về giác quan
2.2 Cách hoạt động của phần mềm nhận diện giọng nói
Thông thường nhận dạng giọng nói được thực hiện bởi phần mềm ứng dụng Các phép đo trong ứng dụng này có thể là một bộ số đại diện cho tín hiệu thoại với các trường độ âm vực cao thấp khác nhau từ đó chuyển dữ liệu âm thanh thành các lệnh để đưa vào máy tính và dùng các ứng dụng của AI để máy tính thực hiện lệnh và học hỏi lệnh cho các hành động sau này được thông minh hơn Các tín hiệu có thể được phân chia thành các phần có chứa các từ riêng biệt hoặc các âm
vị Trong mỗi phân đoạn, tín hiệu giọng nói được biểu diễn bằng mật độ hoặc năng lượng trong các dải tần suất thời gian khác nhau Mặc dù các chi tiết về biểu diễn tín hiệu nằm ngoài phạm vi của chương trình này, chúng ta có thể biểu diễn tín hiệu bằng một tập các giá trị thực
Thông thường một bộ máy giọng nói sẽ có hai phần
Phần thứ nhất gọi là speech synthesizer (còn gọi là Text to Speech hay
TTS) Đây là một trình tổng hợp giọng nói và thiết bị hoặc ứng dụng xài để tương tác với người dùng, ví dụ: đọc văn bản trên màn hình, thông báo về tiến độ chạy một tác vụ nào đó
Phần thứ hai là một công nghệ nhận dạng cho phép app biết được người
dùng đang nói gì, từ đó chuyển thể thành lệnh để thiết bị thực thi hoặc chuyển đổi thành các kí tự nhập liệu Nói cách khác, đây là thứ thay thế cho bàn phím của chúng ta Một ứng dụng nhận dạng giọng nói lý tưởng sẽ bao gồm cả hai bộ phận nói trên, nhưng một số app chỉ xài một cái rồi từ từ nâng cấp sau.Muốn áp dụng thành công thì phải dựa trên hai yếu tố sau :
Thứ nhất, các nhà phát triển phải xây dựng nên một công nghệ có thể lắng
nghe, phân tích và phiên dịch một cách chính xác giọng nói của người dùng
Trang 18Thứ hai, vấn đề bản địa hóa (localization) cũng là một chuyện khó với việc
lập trình Mỗi quốc gia sẽ có ngôn ngữ của riêng mình,hỗ trợ càng nhiều ngôn ngữ càng tốt
Nhận dạng tiếng nói là làm cho máy hiểu, nhận biết được ngữ nghĩa của lời nói Đây là quá trình biến đổi tín hiệu âm thanh thu được qua micro, qua các thiết
bị thu thanh khác… thành một chuỗi các từ, sau đó được nhận dạng để sử dụng trong các ứng dụng điều khiển thiết bị, nhập dữ liệu hoặc soạn thảo văn
bản bằng lời… hoặc đưa đến một quá trình xử lý ngôn ngữ ở mức cao hơn
Tiếng nói là công cụ truyền đạt thông tin quan trọng của người.Quá trình nhận dạng tiếng nói của người là một quá trình phức tạp và việc mô phỏng tiếng nói cũng gặp nhiều khó khăn
bài toán nhận dạng tiếng nói qua hình 1.1
Hình 1.1 Mô hình nhận dạng tiếng nói
Nhận dạng tiếng nói là quá trình phức tạp bao gồm nhiều khâu biến đổi Tín hiệu mà người phát ra là tín hiệu tuơng tự, qua quá trình lấy mẫu, lượng tử hoá và
mã hoá để thu được các mẫu tín hiệu dạng số (tín hiệu mà máy tính có thể hiểu và
xử lý được) Các mẫu tín hiệu này được trích chọn đặc trưng Những đặc trưng này sẽ là đầu vào cho quá trình nhận dạng Sau khi nhận dạng tín hiệu người dùng phát âm, hệ thống sẽ đưa ra kết quả nhận dạng Tuỳ thuộc vào mô hình ứng dụng
mà cho chúng ta các dạng đầu ra khác nhau
Do tính chất của tiếng nói phụ thuộc vào nhiều yếu tố nên việc thu nhận, phân tích các đặc trưng của tiếng nói là việc không dễ Ở đây, chúng ta có thể nêu
ra một số yếu tố khó khăn cho bài toán nhận dạng tiếng nói:
Trang 19• Khi phát âm, người nói thường nói nhanh, chậm khác nhau
• Các từ được nói thường dài ngắn khác nhau
• Một người cùng nói một từ, nhưng ở hai lần phát âm khác nhau Kết quả phân tích khác nhau
• Mỗi người có một chất giọng riêng được thể hiện thông qua
độ cao, độ to, cường độ của âm và âm sắc
• Những yếu tố như nhiễu của môi trường, nhiễu của thiết bị thu…ảnh hưởng không nhỏ tới hiệu quả nhận dạng
Có thể thấy nhận dạng tiếng nói là một lĩnh vực nghiên cứu có nhiều ứng dụng trong thực tế Các hệ thống nhận dạng góp phần rất lớn trong việc thúc đẩy phát triển nhiều ngành
Nhận dạng tiếng nói là vấn đề đã được chia thành hai nhóm riêng biệt dựa trên mục đích sử dụng khác nhau
• Một nhóm được sử dụng với mục đích điều khiển thiết bị thông qua giọng nói
• Một nhóm sử dụng nhằm xử lý từ tiếng nói sang văn bản Phân loại các hệ thống nhận dạng tiếng nói sẽ giúp chúng ta có một cái nhìn trực quan hơn về bài toán Các hệ thống nhận dạng được phân loại như hình vẽ 1.2
Có 3 phương pháp phổ biến được sử dụng trong nhận dạng tiếng nói:
• Phương pháp âm học - ngữ âm học
• Phương pháp nhận dạng mẫu
• Phương pháp sử dụng các kết quả của lĩnh vực trí tuệ nhân tạo
Trang 20
Hình 1.2 Sơ đồ phân loại các hệ thống nhận dạng tiếng nói
Tổng quan về tiếng nói
Âm thanh và tiếng nói
Âm thanh thực chất là sự nén và dản một cách tuần hoàn không khí, tạo ra một sóng đàn hồi dọc Sóng trong không khí truyền đến tai, tác động vào màng
nhĩ, làm cho màng nhĩ dao động với cùng tần số (dao động cưỡng bức), có khả năng tạo ra cảm giác âm thanh trong tai khi tần số sóng đạt tới một độ lớn nhất định Tai người chỉ có thể cảm nhận được âm thanh trong một khoảng tần số từ 20Hz đến 20000Hz Những sóng này gọi là sóng âm hay âm thanh
Tiếng nói là âm thanh do người phát ra Khi phát âm, nguồn không khí từ
phổi sẽ kích hoạt bộ phát âm làm căng các dây thanh quản và khi không khí đi qua làm cho các dây thanh quản này dao động tạo nên âm thanh tiếng nói Tiếng nói của người có năng lượng tập trung nằm trong khoảng tần số từ 1000Hz đến 4000Hz
Cao độ của âm (pitch)
Cao độ của âm thanh là độ cao hay thấp của âm thanh được quyết định bởi
sự rung dây thanh Dây thanh rung với tần số nhanh sẽ cho những âm cao, dây
thanh rung chậm sẽ cho những âm thấp Đơn vị đo cao độ ở đây được dùng là Hz,
đo số chu kỳ dao động thực hiện được trong 1 giây, gọi là tần số Những âm có
Trang 21tần số khác nhau gây cho ta những cảm giác âm khác nhau Độ cao của âm mang đặc tính sinh lý của âm Nó dựa vào đặc tính của âm là tần số Do cấu tạo của dây thanh khác nhau, mà tần số tạo ra phụ thuộc vào giới tính và lứa tuổi của người phát âm (phụ nữ và trẻ em thường có tần số cao hơn nam giới và người lớn tuổi)
Cường độ (volume) và mức cường độ âm
Cũng như các sóng cơ học khác, sóng âm mang năng lượng tỷ lệ với bình phương biên độ sóng Năng lượng đó truyền đi từ nguồn âm đến tai ta
Độ to của âm
Muốn gây cảm giác âm, cường độ âm phải lớn hơn một giá trị cực tiểu nào
đó gọi là ngưỡng nghe Do đặc điễm sinh lý của tai người, ngưỡng nghe thay đổi tùy theo tần số âm Với các tần số 1000Hz - 5000Hz, ngưỡng nghe khoãng 10-
12W/m2 Với tần số 50Hz, ngưỡng nghe lớn gấp 105 lần
Nếu cường độ âm lên tới 10W/m2 thì sóng âm gây ra một cảm giác nhức nhối Giá trị cực đại này gọi là ngưỡng đau Miền nằm giữa ngưỡng đau và ngưỡng nghe gọi là miền nghe được Khi xác định cường độ âm, người ta lấy Io là ngưỡng nghe của âm có tần số 1000Hz gọi là tần số âm chuẩn
Tai người nghe thính nhất với các âm trong miền tần số 1000Hz -
4000Hz, và nghe âm cao thính hơn nghe âm trầm
Âm sắc (phonetics)
Âm sắc là sắc thái của âm thanh Hầu hết các âm thanh trong tự nhiên cũng
như âm thanh trong lời nói đều phức hợp, được tạo thành từ các âm cơ bản, các họa âm bậc cao về cao độ và cường độ
Âm sắc là một đặc tính sinh lý của âm, được hình thành trên cơ sở các đặc tính vật lý của âm là tần số và biên độ Tùy theo cấu trúc từng loại nhạc cụ, hoặc cấu trúc khoang miệng và cổ họng từng người mà trong số các hòa âm cái nào có biên độ lớn, biên độ nhỏ và cái nào chóng bị tắt đi Do hiện tượng đó, âm phát ra không còn là đường sin, mà trở thành một đường phức tạp có chu kỳ Sự tương quan giữa âm cơ bản và các hoạ âm mà tạo nên âm sắc khác nhau Sự khác nhau
về âm sắc là do sự phân bố vị trí môi, lưỡi, vòm miệng của từng người