1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Báo cáo xử lý ảnh giọng nói

7 5 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 7
Dung lượng 555,97 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Voice Biomatrics hay Sinh trắc học giọng nói là một công nghệ dựa vào việc nhận dạng các mẫu giọng nói để xác minh danh tính của các cá nhân.. Vì lý do đó, không có gì ngạc nhiên khi tùy

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN

THÔNG CƠ SỞ TP.HỒ CHÍ MINH

-o0o -ĐỀ TÀI: SINH TRẮC HỌC GIỌNG NÓI

Giảng Viên Hướng Dẫn: Lê Hoàng Thái

Sinh viên thực hiện: Vũ Ngân Yên

Lớp: D18CQCN01-N

Mã sinh viên: N18DCCN253

BÁO CÁO MÔN XỬ LÝ ẢNH

Trang 2

1 Giới thiệu đề tài

Dữ liệu gần đây về người dùng điện thoại di động trên toàn thế giới, số lượng điện thoại cố định đang hoạt động và việc triển khai VoIP (Mạng thoại qua IP) gần đây, xác nhận rằng giọng nói là đặc điểm sinh trắc học dễ tiếp cận nhất vì không cần thiết bị thu nhận bổ sung hoặc hệ thống truyền dẫn Thực tế này mang lại cho giọng nói một lợi thế vượt trội so với các đặc điểm sinh trắc học khác

Voice Biomatrics (hay Sinh trắc học giọng nói) là một công nghệ dựa vào việc nhận dạng các mẫu giọng nói để xác minh danh tính của các cá nhân Điều này là

có thể vì đường âm (chất giọng) của mỗi người là duy nhất (có hơn 70 bộ phận cơ thể con người góp phần vào cách một người nói) Các đặc điểm vật lý, cả ngữ âm

và hình thái, là đặc trưng của mỗi cá nhân, khiến chúng có thể chống được gian lận Do đó, công nghệ nhận dạng gióng nói cho phép mức độ bảo mật cao hơn các

hệ thống nhận dạng khác, chẳng hạn như hệ thống dựa trên mã PIN Chỉ cần đăng

ký Giọng nói của bạn với lần đầu tiên (tổng đài, web,app), người dùng sẽ không phải sử dụng mã PIN và giảm thiểu số lượng câu hỏi bảo mật khi nói chuyện với điện thoại viên

Trải qua gần 100 năm hình thành và phát triển, đến nay voice biometrics đã được cải tiến gần như hoàn hảo cho mục đích kinh tế Độ chính xác của voice biometrics đã vượt ngưỡng 96%, có thể nhận ra giọng nói của người dùng ngay cả khi họ bị cảm lạnh, khan tiếng, phân biệt được cả giọng nói thu âm và giọng nói thật Ngoài ra, hệ thống còn có thể tự cập nhật sự thay đổi giọng nói của người dùng theo năm tháng

2 Các loại công nghệ nhận dạng

Nguồn thông tin chính được mã hóa trong tín hiệu thoại chắc chắn là nội dung ngôn ngữ Vì lý do đó, không có gì ngạc nhiên khi tùy thuộc vào cách sử dụng hoặc kiểm soát nội dung ngôn ngữ, chúng ta có thể phân biệt hai loại công nghệ nhận dạng người nói rất khác nhau với các ứng dụng tiềm năng khác nhau

 Thứ nhất, các công nghệ phụ thuộc vào văn bản là nơi một người nói một cụm mật khẩu (câu hỏi bí mật) cụ thể, thường bao gồm hai đến ba từ, chẳng hạn như” Hôm này trời thật đẹp, trong xanh” hoặc chuỗi (ví dụ: “12-34-56”), Mức độ bảo mật của hệ thống dựa trên mật khẩu có thể sau đó được nâng cao Để tránh

Trang 3

việc ghi trộm mật khẩu thực có thể xảy ra, các hệ thống phụ thuộc vào văn bản có thể được cải tiến để yêu cầu các lời nhắc ngẫu nhiên, không mong đợi đối với người gọi, điều này không thể dễ dàng bị kẻ mạo danh tạo ra

 Thứ hai là những công nghệ không phụ thuộc vào văn bản một cách sử dụng sinh trắc học giọng nói thụ động, theo đó người dùng có thể nói bất cứ điều gì, việc xác thực nhanh chóng diễn ra trong nền ở quá trình tương tác bình thường của họ với tổng đài viên, IVR hoặc ứng dụng Chúng là yếu tố thúc đẩy hai loại ứng dụng còn lại, đó là phát ra loa và nhận dạng loa pháp y Vì nội dung ngôn ngữ là nguồn thông tin chính được mã hóa trong bài phát biểu, tính độc lập với văn bản đã là một thách thức lớn và là chủ đề nghiên cứu chính của cộng đồng công nhận người nói trong hai thập kỷ qua Tính năng nhận dạng người nói không phụ thuộc vào văn bản đã bị thống trị phần lớn, kể từ những năm 1970 đến cuối thế kỷ 20, bởi các hệ thống dựa trên quang phổ ngắn hạn Kể từ năm 2000, các hệ thống cấp cao hơn bắt đầu được phát triển với kết quả đủ tốt trong cùng các nhiệm vụ có độ thử thách cao (đánh giá của NIST SR) Tuy nhiên, các hệ thống quang phổ tiếp tục hoạt động tốt hơn các hệ thống cấp cao (NIST 2006 SRE là điểm chuẩn mới nhất vào thời điểm viết bài), với kết quả phát hiện tốt nhất do các cơ chế bù kênh tiên tiến gần đây

3 Hoạt động của sinh trắc học giọng nói

Hệ thống sinh trắc học giọng nói hoạt động bằng cách tạo ra bản in giọng nói hoặc “mẫu” lời nói của một người Mẫu đăng ký của người dùng có thể thu âm trực tiếp hoặc lấy từ File ghi âm có sẵn, 3 đoạn ngắn 2-3s mỗi đoạn giọng người đăng ký.Sau đó hệ thống sẽ trích các đặc trưng giọng nói của người dùng và lưu vào hệ thống Khi cần xác minh người dùng sẽ nói 1 câu và hệ thống sẽ xác minh lại với mẫu đã đăng ký trong hệ thống để xác thực

Trang 4

4 Lợi ích của sinh trắc học giọng nói

 Xác thực nhanh chóng, dễ dàng

 Cải thiện bảo mật và giảm thiếu vi phạm do mật khẩu bị xâm nhập, lừa đảo

 Phản hồi nhanh chống liên quan đến mối đe dọa

 Ngay lập tức xác định người dùng và cá nhân hóa tương tác

 Giải phóng các điện thoại viên khỏi việc xác minh người dùng

 Cho phép đăng nhập tự nhiên cho các kênh callbot, chatbot hay trợ lý ảo

 Ứng dụng trong quy trình xác thực hai yếu tố để tăng cường bảo mật, OTP lớp 2

5 Ứng dụng của sinh trắc học giọng nói

Do tính phổ biến của tín hiệu giọng nói, phạm vi ứng dụng có thể có của sinh trắc học giọng nói rộng hơn so với các đặc điểm sinh trắc học thông thường khác Chúng ta có thể phân biệt ba loại ứng dụng chính tận dụng thông tin sinh trắc học

có trong tín hiệu giọng nói:

 Xác thực bằng giọng nói (điều khiển truy cập, thường là từ xa bằng điện thoại) và nhận dạng nền (kiểm tra giọng nói tự nhiên)

Trang 5

+ Áp dụng cho các bài toán xác thực người dùng cho chăm sóc khách hàng + Xác thực OTP lớp 2 trong các giao dịch ngân hàng

 Phát hiện danh sách đen trong trung tâm cuộc gọi hoặc nghe lén và giám sát), còn được gọi là phát ra loa

 Nhận dạng loa pháp y (nhận dạng người nói sử dụng giọng nói làm bằng chứng trước tòa án pháp luật hoặc làm thông tin tình báo trong các cuộc điều tra của cảnh sát)

6 Các ứng dụng đã có của sinh trắc học giọng nói

Citibank vừa triển khai công nghệ bảo mật sinh trắc học giọng nói cho các khách hàng khi gọi đến trung tâm dịch vụ của ngân hàng thay thế hoàn toàn hệ thống nhận dạng truyền thống bằng thông tin cá nhân Theo đó, với ứng dụng bảo mật mới, khách hàng không cần nhớ một loạt các thông tin nhận diện và các câu hỏi mang tính cá nhân, mã số PIN hay mã số bảo mật mà chỉ cần đăng ký ghi nhận giọng nói vào Citi’s Voice Biometrics

Theo Citibank, công nghệ mới này cho phép giảm thiểu thời gian phục vụ khách hàng khoảng 45 giây so với hiện nay hoặc xác nhận các thông tin nhận diện khách hàng nhanh hơn 66% thời gian thông thường

Trang 6

7 Các nghiên cứu

Một trong những cơ sở dữ liệu đầu tiên được thiết kế đặc biệt cho nghiên cứu nhận dạng người nói phụ thuộc vào văn bản là YOHO Nó bao gồm 96 câu nói để ghi danh được thu thập trong 4 phiên khác nhau và 40 câu nói để kiểm tra được thu thập trong 10 phiên cho mỗi người trong tổng số 138 diễn giả Mỗi câu nói bao gồm các bộ ba cặp chữ số khác nhau (ví dụ: “12-34-56”) Đây có lẽ là tiêu chuẩn

mở rộng và nổi tiếng nhất để so sánh và thường được sử dụng để đánh giá các hệ thống phụ thuộc vào văn bản Tuy nhiên, cơ sở dữ liệu YOHO có một số hạn chế

Ví dụ: nó chỉ chứa bài phát biểu được ghi trên một micrô duy nhất trong môi trường yên tĩnh và không được thiết kế để mô phỏng các giả mạo đã được thông báo (tức là những kẻ mạo danh nói ra mật khẩu của người dùng)

Nghiên cứu điển hình: Nhận dạng người nói phụ thuộc vào văn bản với HMM

sự thích nghi của người nói và xác nhận lại HMM Như một ví dụ về hệ thống phụ thuộc vào văn bản được thử nghiệm trên cơ sở dữ liệu chuẩn YOHO, chúng tôi trình bày kết quả thu được với hai hệ thống nhận dạng người nói phụ thuộc vào văn bản do các tác giả phát triển Các hệ thống mô phỏng một hệ thống được tạo văn bản dựa trên một tập hợp các HMM ngữ âm độc lập với người nói và ngữ cảnh được đào tạo trên TIMIT Việc ghi danh bao gồm việc sử dụng một số câu của một người nói để điều chỉnh HMM cho người nói Chúng tôi so sánh hai cách thực hiện điều chỉnh này: với một lần xác định lại Baum-Welch và với Hồi quy tuyến tính khả năng tối đa (MLLR) Cách tiếp cận trước đây là cách tiếp cận thông thường nhất nhưng yêu cầu sử dụng các HMM rất đơn giản (chỉ một hoặc một vài Gauss cho mỗi tiểu bang) Càng về sau thì mới lạ hơn và cho phép sử dụng các HMM phức tạp hơn Việc xác minh loa bao gồm việc tính toán điểm âm được tạo ra trong quá trình căn chỉnh bắt buộc của lời nói với phiên âm của nó bằng cách sử dụng cả HMM thích hợp với loa và HMM không phụ thuộc vào loa Điểm cuối cùng trong thử nghiệm này chỉ đơn giản là tỷ lệ giữa các điểm đó (không bao gồm chuẩn hóa điểm trong các kết quả được trình bày)

Trang 7

Hình trên: Ví dụ kết quả trên YOHO của hai hệ thống nhận dạng người nói phụ thuộc vào văn bản dựa trên HMM phiên âm độc lập với người nói và MLLR thích ứng với người nói và ước tính lại Baum-Welch cho các lượng giọng nói đăng ký khác nhau

8 Tương lai của công nghệ

Tiềm năng của công nghệ nhận dạng giọng nói là rất lớn Tính năng nhận dạng giọng nói không chỉ dừng lại ở việc nhập liệu mà nó còn mở ra cả một chân trời để chúng ta khai thác và đơn giản hóa cuộc sống của mình Công nghệ được sinh ra là

để làm cho cuộc sống dễ dàng hơn, và việc nhận dạng giọng nói chắc chắn sẽ không phải là ngoại lệ

Hiện nay, Voice Biometrics đã được áp dụng ở một số ngân hàng và doanh nghiệp tài chính, đạt được hiệu quả rõ rệt so với các giải pháp truyền thống Chỉ trong vòng 2 năm từ 2014 - 2016, số người đăng ký voiceprint (xác minh giọng nói) đã tăng 80% từ 60 triệu người lên đến 137 triệu người Việc giới chuyên gia nhận định tốc độ tăng trưởng kép hằng năm của thị trường voice biometrics sẽ đạt

ít nhất 17% cũng cho thấy số lượng doanh nghiệp áp dụng voice biometrics đang tiếp tục tăng lên

Ngày đăng: 11/10/2022, 17:29

HÌNH ẢNH LIÊN QUAN

Hình trên: Ví dụ kết quả trên YOHO của hai hệ thống nhận dạng người nói phụ thuộc vào văn bản dựa trên HMM phiên âm độc lập với người nói và MLLR thích  ứng với người nói và ước tính lại Baum-Welch cho các lượng giọng nói đăng ký  khác nhau - Báo cáo xử lý ảnh giọng nói
Hình tr ên: Ví dụ kết quả trên YOHO của hai hệ thống nhận dạng người nói phụ thuộc vào văn bản dựa trên HMM phiên âm độc lập với người nói và MLLR thích ứng với người nói và ước tính lại Baum-Welch cho các lượng giọng nói đăng ký khác nhau (Trang 7)

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w