1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu ứng dụng trí tuệ nhân tạo trong bài toán chuyển đổi văn bản thành giọng nói, tích hợp vào hệ thống thông tin chuyển đổi số các cấp chính quyền

80 11 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu Ứng dụng Trí Tuệ Nhân Tạo Trong Bài Toán Chuyển Đổi Văn Bản Thành Giọng Nói, Tích Hợp Vào Hệ Thống Thông Tin Chuyển Đổi Số Các Cấp Chính Quyền
Tác giả Nguyễn Anh Tuấn
Người hướng dẫn PGS. TS. Phạm Thế Anh
Trường học Trường đại học Hồng Đức
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2022
Thành phố Thanh Hóa
Định dạng
Số trang 80
Dung lượng 2,92 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA TRƯỜNG ĐẠI HỌC HỒNG ĐỨC NGUYỄN ANH TUẤN NGHIÊN CỨU ỨNG DỤNG TRÍ TUỆ NHÂN TẠO TRONG BÀI TOÁN CHUYỂN ĐỔI VĂN BẢN THÀNH GIỌNG NÓI, TÍCH HỢP VÀ

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA

TRƯỜNG ĐẠI HỌC HỒNG ĐỨC

NGUYỄN ANH TUẤN

NGHIÊN CỨU ỨNG DỤNG TRÍ TUỆ NHÂN TẠO

TRONG BÀI TOÁN CHUYỂN ĐỔI VĂN BẢN THÀNH

GIỌNG NÓI, TÍCH HỢP VÀO HỆ THỐNG THÔNG TIN

CHUYỂN ĐỔI SỐ CÁC CẤP CHÍNH QUYỀN

LUẬN VĂN THẠC SĨ MÁY TÍNH

THANH HÓA, NĂM 2022

Trang 3

BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA

TRƯỜNG ĐẠI HỌC HỒNG ĐỨC

NGUYỄN ANH TUẤN

NGHIÊN CỨU ỨNG DỤNG TRÍ TUỆ NHÂN TẠO TRONG BÀI TOÁN CHUYỂN ĐỔI VĂN BẢN THÀNH GIỌNG NÓI, TÍCH HỢP VÀO HỆ THỐNG THÔNG TIN

CHUYỂN ĐỔI SỐ CÁC CẤP CHÍNH QUYỀN

LUẬN VĂN THẠC SĨ MÁY TÍNH

Chuyên ngành: Khoa học máy tính

Mã số: 8480101

Người hướng dẫn khoa học: PGS TS Phạm Thế Anh

THANH HÓA, NĂM 2022

Trang 4

Danh sách Hội đồng đánh giá luận văn Thạc sỹ khoa học

(Theo Quyết định số: /QĐ- ĐHHĐ ngày tháng năm 2022

của Hiệu trưởng Trường Đại học Hồng Đức)

Học hàm, học vị

Họ và tên

Cơ quan Công tác

Chức danh trong Hội đồng

Chủ tịch HĐ

UV, Phản biện 1

UV, Phản biện 2

Uỷ viên

Uỷ viên, Thư ký

Xác nhận của Người hướng dẫn

Học viên đã chỉnh sửa theo ý kiến của Hội đồng

Ngày tháng năm 2022

Trang 5

LỜI CAM ĐOAN

Tôi xin cam đoan số liệu và kết quả nghiên cứu trong luận văn này

là trung thực và chưa được sử dụng để bảo vệ một học vị nào Tôi cũng xin cam đoan mọi sự giúp đỡ cho việc thực hiện luận văn đã được cảm

ơn và các thông tin trích dẫn đã được chỉ rõ nguồn gốc

Thanh Hóa, ngày 12 tháng 9 năm 2022

Tác giả luận văn

Nguyễn Anh Tuấn

Trang 6

LỜI CẢM ƠN

Trong thời gian học tập nghiên cứu và thực hiện luận văn thạc sỹ, tôi đã nhận được sự giúp đỡ nhiệt tình của các thầy cô giáo, các đồng nghiệp Trước hết cho phép tôi được cảm ơn quý thầy, cô Khoa Công nghệ thông tin và Truyền thông - trường Đại học Hồng Đức đã tận tình truyền đạt kiến thức trong suốt thời gian học vừa qua Vốn kiến thức được tiếp thu trong quá trình học tập không chỉ là nền tảng cho quá trình nghiên cứu luận văn mà còn là hành trang quý báu trong công việc và trong cuộc sống

Tôi xin bày tỏ lòng biết ơn sâu sắc đến PGS.TS Phạm Thế Anh đã tận

tình hướng dẫn tôi trong suốt quá trình nghiên cứu và hoàn thành luận văn Tôi xin gửi lời cảm ơn chân thành đến gia đình, bạn bè và người thân, những người đã bên cạnh và động viên tôi trong suốt quá trình học tập và hoàn thành luận văn

Trong bài luận văn, chắc hẳn không thể tránh khỏi những hạn chế và thiếu sót Tôi mong muốn sẽ nhận được nhiều đóng góp quý báu đến từ các quý thầy cô, ban cố vấn và bạn đọc để đề tài được hoàn thiện hơn nữa và có ý nghĩa thiết thực áp dụng trong thực tiễn cuộc sống

Trân trọng cảm ơn !

Thanh Hóa, ngày 12 tháng 9 năm 2022

Tác giả luận văn

Nguyễn Anh Tuấn

Trang 7

MỤC LỤC

LỜI CAM ĐOAN - 1 -

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC TỪ VIẾT TẮT v

DANH MỤC CÁC BẢNG vi

DANH MỤC HÌNH ẢNH vii

MỞ ĐẦU 1

1 Tính cấp thiết của đề tài 1

2 Mục tiêu nghiên cứu 2

3 Đối tượng, phạm vi nghiên cứu 2

4 Nội dung nghiên cứu: 3

5 Phương pháp nghiên cứu 3

6 Dự kiến kết quả đạt được 4

Chương 1 GIỚI THIỆU 5

1.1 Chuyển đổi số trong các cơ quan nhà nước 5

1.1.1 Hạ tầng viễn thông, internet 7

1.1.2 Hạ tầng CNTT 8

1.1.3 Ứng dụng CNTT trong các cơ quan nhà nước 10

1.1.4 Ứng dụng CNTT trong các ngành, lĩnh vực 11

1.1.5 Đảm bảo an toàn thông tin 12

1.2 Hệ thống thông tin chuyển đổi số các cấp chính quyền 12

1.3 Bài toán chuyển đổi văn bản thành giọng nói 13

1.4 Các ứng dụng trong thực tiễn 15

Kết luận Chương 1 17

Chương 2 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU 18

2.1 Công nghệ tổng hợp giọng nói truyền thống 18

2.1.1 Kỹ thuật tổng hợp tham số (Statistical Parametric Synthesis) 18

2.1.2 Kỹ thuật tổng hợp ghép âm (Concatenation synthesis) 24

Trang 8

2.2 Các kỹ thuật tổng hợp dựa trên mạng nơ ron học sâu 25

2.2.1 Hệ thống WaveNet 25

2.2.2 Fast WaveNet 27

2.2.3 Hệ thống Deep Voice 28

2.2.4 Hệ thống Tacotron 30

2.2.5 Hệ thống Tacotron 2 32

2.2.6 Hệ thống Global Style Tokens (GST) 33

2.2.7 Transformer Network 35

2.2.8 FastSpeech 37

Kết luận chương 2 38

Chương 3 PHÂN TÍCH THIẾT KẾ HỆ THỐNG CHUYỂN ĐỔI SỐ CẤP XÃ 39

3.1 Lựa chọn công nghệ 39

3.2 Phân tích, thiết kế hệ thống 40

3.2.1 Thiết kế cơ sở dữ liệu 40

3.2.2 Thiết kế chức năng 43

Kết luận chương 3 50

Chương 4 XÂY DỰNG HỆ THỐNG CHUYỂN ĐỔI VĂN BẢN THÀNH GIỌNG NÓI VÀ ỨNG DỤNG 51

4.1 Mô hình hóa bài toán chuyển đổi văn bản thành giọng nói 51

4.2 Lựa chọn kiến trúc mạng nơ ron tối ưu 52

4.3 Chuẩn bị dữ liệu và huấn luyện mô hình 55

4.4 Thực nghiệm và đánh giá kết quả 56

4.5 Tích hợp hệ thống thông tin chuyển đổi số 58

4.6 Một số giao diện phần mềm 60

Kết luận chương 4 63

Chương 5 KẾT LUẬN VÀ KIẾN NGHỊ 64

1 Kết luận 64

2 Kiến nghị 65

TÀI LIỆU THAM KHẢO 66

Trang 9

DANH MỤC TỪ VIẾT TẮT

CNN : Convolutional Neural Network

AI: Artifical intelligence

DL: Deep Learning

UBND: Ủy ban nhân dân

CNTT: Công nghệ thông tin

CQNN: Cơ quan nhà nước

CSDL: Cơ sở dữ liệu

TTHC: Thủ tục hành chính

CBCC: Cán bộ công chức

TTS: Text To Speech

HMM: Hidden Markov Models

MOS: Mean Opinion Score

API: Application Programming Interface

CCL: Causal Convolutional Layers

RF: Receptive Field

DC: Dilated Convolution

CTC: Connectionist Temporal Classification

RNN: Recurrent Neural Network

MHT: Multi-Head Attention

DPA: Dot-Product Attention

FFT: Feed-Forward Transformer

Trang 10

DANH MỤC CÁC BẢNG

Bảng 2.1 Bảng các âm vị được sử dụng trong tổng hợp giọng nói [11]……21 Bảng 2.2 Chi tiết cấu tạo của hai mạng Pre-net và CBHG………31 Bảng 3.1 Các chức năng của hệ thống quản lý ứng dụng di động tương tác chính quyền - công dân và ứng dụng di động tương tác chính quyền công dân 49 Bảng 4.1 Thống kê thời gian xử lý của một số tệp văn bản……… 58

Trang 11

DANH MỤC HÌNH ẢNH

Hình 2.1 Minh họa hai mô hình HMM: vòng tròn (trái) và tuần tự (phải)

[11]……….19

Hình 2.2 Kiến trúc tổng quát mô hình HMM trong tổng hợp giọng nói [12]……….20

Hình 2.3 Mô hình HMM cho quá trình huấn luyện [11]………21

Hình 2.4 Biểu diễn chuỗi quan sát F0 bởi hai không gian: vùng xám tương ứng với các hằng số thuộc không gian R0 (cho các tín hiệu vô thanh); vùng trắng (có đường cong) biểu diễn chuỗi tần số F0 [11]………….………… 22

Hình 2.5 Cây quyết định phân loại các HMM dựa vào thông tin ngữ cảnh [11]……… 23

Hình 2.6 Quá trình tổng hợp giọng nói [11]……….………….24

Hình 2.7 Kiến trúc mạng nhân chập nhân quả (causal convolutional layers)……… … … ………26

Hình 2.8 Nguyên tắc của DC: mỗi tầng tương ứng với hệ số Dilation khác nhau……….………26

Hình 2.9 Kiến trúc bộ nhớ đệm (catch) dùng trong Fast WaveNet [14]… 28 Hình 2.10 Kiến trúc hệ thống Deep Voice [16]……….…… ………… 29

Hình 2.11 Kiến trúc của mô hình Tacotron [17]……… ……….31

Hình 2.12 Kiến trúc hệ thống Tacotron 2 [18]……….……….………… 32

Hình 2.13 Quá trình huấn luyện của mô hình GST [19]……… 34

Hình 2.14 Quá trình dự đoán (tổng hợp) của mô hình GST [19]…… 34

Hình 2.15 Kiến trúc mạng Attention [21]……… ……… 36

Hình 2.16 Kiến trúc mạng Transformer [21]……… 36

Hình 2.17 Kiến trúc thành phần mạng FastSpeech [9]……… ………… 38

Hình 3.1 Các công nghệ được sử dụng để xây dựng hệ thống……… 39

Hình 3.2 Các bảng chức năng quản lý người dùng…… ………….………40

Hình 3.3 Các bảng chức năng quản lý ý kiến phản ánh……….41

Trang 12

Hình 3.4 Các bảng chức năng Quản lý văn bản điều hành……….42

Hình 3.5 Các bảng chức năng quản lý truyền thông… ……… ……….42

Hình 3.6 Các bảng phân quyền người dùng……….……… 43

Hình 3.7 Use-case của người dùng 44

Hình 3.8 Use-case chức năng của cán bộ xã 45

Hình 3.9 Mô hình kết nối dữ liệu giữa các hệ thống và ứng dụng di động ………49

Hình 3.10 Mô hình xác thực người dùng 50

Hình 4.1 Quá trình xử lý văn bản thành giọng nói……….………… 51

Hình 4.2 Kiến trúc mạng FastSpeech [9]……… ……… ……….53

Hình 4.3 Kiến trúc của khối FFT trong mạng FastSpeech [9]……… 54

Hình 4.4 Kiến trúc khối Length Regulator (trái) và Duration Predictor (phải)[9]……… ……….……… 55

Hình 4.5 Minh họa cấu trúc tệp nhãn dữ liệu……… ……….56

Hình 4.6 Biểu đồ các hàm mục tiêu (loss functions): hàm muc tiêu F1 (a), hàm F2 (b), hàm F3 (c) và hàm tổng hợp (d) Trục tung của cả 4 đồ thị biểu diễn giá trị hàm loss, trục hoành biểu thị số epochs đã huấn luyện……….57

Hình 4.7 Mô hình tích hợp thông qua API……… ………58

Hình 4.8 Trái: Giao diện chính của ứng dụng di động; Phải: Giao diện danh sách tin tức trên ứng dụng di động……… 61

Hình 4.9 Trái: Giao diện bảng tin của ứng dụng di động; Phải: Giao diện phản ánh kiến nghị của người sử dụng trên ứng dụng di động……… 62

Hình 4.10 Giao diện cho phép người dùng đọc/nghe tin bài trên ứng dụng di động………62

Trang 13

MỞ ĐẦU

1 Tính cấp thiết của đề tài

Cuộc cách mạng công nghiệp lần thứ 4 đang diễn ra nhanh và mạnh mẽ trên mọi mặt của đời sống kinh tế, xã hội, trong cuộc cách mạng này, chuyển đổi số là một nội dung quan trọng, là giải pháp chính, là xu thế tất yếu, là cơ hội cho các địa phương và các doanh nghiệp vượt lên Chuyển đổi số không đơn giản là mức ứng dụng và phát triển cao hơn của công nghệ thông tin, mà chuyển đổi số là nút đột phá trong phát triển kinh tế - xã hội Khi đó, dữ liệu

và công nghệ số sẽ làm chuyển đổi, cải biến toàn diện mô hình, quy trình, sản

phẩm, kết quả đầu ra của quá trình sản xuất, kinh doanh trong xã hội

Để tiếp cận nhanh chóng cuộc cách mạng công nghiệp lần thứ 4, Bộ chính trị đã ban hành Nghị quyết số 52-NQ/TW ngày 27/9/2019 về một số chủ trương, chính sách chủ động tham gia cuộc Cách mạng công nghiệp lần thứ tư; Chính phủ ban hành Nghị quyết số 50/NQ-CP ngày 17/4/2020 về Chương trình hành động thực hiện Nghị quyết 52-NQ/TW về chủ trương, chính sách chủ động tham gia cuộc Cách mạng công nghiệp lần thứ tư và Chính phủ đã xác định “Chuyển đổi toàn bộ hoạt động của cơ quan nhà nước lên môi trường số; coi chuyển đổi số là bắt buộc, mang tính mặc định; Cơ quan nhà nước sử dụng công nghệ số và dữ liệu số để ra quyết định, kiến tạo phát triển và quản lý kinh tế - xã hội hiệu quả hơn, dẫn dắt phát triển kinh tế

số, xã hội số; Phát triển Chính phủ số gắn kết chặt chẽ với bảo đảm an toàn,

an ninh mạng và bảo vệ chủ quyền số quốc gia” Thủ tướng Chính phủ ban hành Quyết định số 749/QĐ-TTg ngày 03 tháng 6 năm 2020 về phê duyệt

"Chương trình Chuyển đổi số quốc gia đến năm 2025, định hướng đến năm 2030” Nhằm triển khai thực hiện Quyết định số 749/QĐ-TTg, ngày 06 tháng

10 năm 2020, UBND tỉnh Thanh Hóa đã ban hành Quyết định số UBND về Kế hoạch Chuyển đổi số trên địa bàn tỉnh Thanh Hóa đến năm

4216/QĐ-2025, định hướng đến năm 2030

Đặc biệt, trước tình hình diễn biến phức tạp của dịch Covid-19, công dân tiếp nhận thông tin qua rất nhiều kênh (chính thống hoặc không chính thống),

Trang 14

số liệu không thống nhất và đồng bộ, gây hoang mang trong cộng đồng dân

cư Do đó, yêu cầu đặt ra cần phải tích hợp kênh thông tin phòng chống dịch bệnh Covid-19 duy nhất, cung cấp đầy đủ và chính xác nhất tình hình diễn biến của dịch bệnh trên toàn quốc, toàn tỉnh, của huyện và của xã Dữ liệu của ứng dụng di động kết nối người dân, chính quyền được cung cấp từ trang thông tin điện tử của xã thông qua API Các phản ánh kiến nghị hiện trường của người dân được lưu trữ và xử lý trên hệ thống quản lý ứng dụng di động

Hệ thống camera an ninh, giao thông; phát thanh trực tiếp, nghe lại bản tin đã

phát thanh được tích hợp vào ứng dụng di động

Trong những năm gần đây, công nghệ trí tuệ nhân tạo đã phát triển mạnh

mẽ và đạt được nhiều thành tựu nổi bật để giải quyết các bài toán khó trong thực tiễn, chẳng hạn xử lý ngôn ngữ tự nhiên, xử lý ảnh, thị giác máy, xử lý tiếng nói, nhận dạng giọng nói Một trong những bài toán có tính ứng dụng cao trong thực tiễn là chuyển đổi tự động văn bản thành giọng nói để có thể ứng dụng, tích hợp vào các hệ thống trả lời tin nhắn tự động, hệ thống báo điện tử, hệ thống thông tin phát thanh tại các cơ quan chính quyền các cấp Việc ứng dụng công nghệ trí tuệ nhân tạo giúp giải quyết bài toàn trên một cách hiệu quả và chính xác, giảm thiểu nhân lực, giảm thiểu thời gian và chi phí thuê phát thanh viên, tăng trải nghiệm cho khách hàng và người sử dụng, cũng như các nhà cung cấp dịch vụ số cho xã hội Xuất phát từ các lý do trên,

trong luận văn này tôi chọn đề tài:“Nghiên cứu ứng dụng trí tuệ nhân tạo trong bài toán chuyển đổi văn bản thành giọng nói, tích hợp vào hệ thống thông tin chuyển đổi số các cấp chính quyền”.

2 Mục tiêu nghiên cứu

Nghiên cứu kiến trúc mạng nơ ron nhân tạo học sâu xử lý bài toán chuyển đổi văn bản thành giọng nói và tích hợp vào hệ thống thông tin chuyển đổi số các cấp chính quyền

3 Đối tượng, phạm vi nghiên cứu

3.1 Đối tượng nghiên cứu:

- Các mô hình mạng nơ ron nhân chập học sâu

- Các kỹ thuật xử lý văn bản thành giọng nói

- Các kỹ thuật tăng cường chất lượng đọc văn bản

Trang 15

3.2 Phạm vi nghiên cứu:

- Nghiên cứu đặc trưng giọng đọc văn bản của một số vùng miền phía

bắc

- Mạng nơ ron nhân chập học sâu chuyển đổi văn bản thành giọng nói

- Ứng dụng trong hệ thống thông tin chuyển đổi số các cấp chính quyền

(cấp xã) của VNPT Thanh Hóa

4 Nội dung nghiên cứu:

Trong phạm vi đề tài này, chúng tôi sẽ thực hiện các nội dung nghiên cứu sau đây:

- Tìm hiểu tổng quan các kỹ thuật và phương pháp chuyển đổi văn bản thành giọng nói

- Tìm hiểu, nghiên cứu các mô hình mạng nhân chập học sâu xử lý ngôn ngữ và tiếng nói

- Chuẩn bị tập dữ liệu huấn luyện phù hợp, tiền xử lý dữ liệu và gán nhãn

- Huấn luyện mô hình mạng nơ ron chuyển đổi văn bản thành giọng nói

- Tích hợp vào hệ thống thông tin chuyển đổi số các cấp chính quyền (cấp xã) của VNPT Thanh Hóa

- Viết báo cáo, khóa luận đề tài về các kết quả đạt được

5 Phương pháp nghiên cứu

Quá trình thực hiện đề tài sử dụng hai phương pháp nghiên cứu chính là:

phương pháp nghiên cứu tài liệu và phương pháp nghiên cứu thực nghiệm

- Phương pháp nghiên cứu lý thuyết: Tiến hành thu thập, tổng hợp và nghiên cứu kỹ thuật và thuật toán có liên quan đến lĩnh vực xử lý tiếng nói, xử

lý ngôn ngữ tự nhiên, công nghệ trí tuệ nhân tạo nhằm phục vụ thực hiện đề

tài “Nghiên cứu ứng dụng trí tuệ nhân tạo trong bài toán chuyển đổi văn bản thành giọng nói, tích hợp vào hệ thống thông tin chuyển đổi số các cấp chính quyền”

- Phương pháp nghiên cứu thực nghiệm: Tổ chức chuẩn bị dữ liệu huấn luyện; Lựa chọn kiến trúc mạng nơ ron nhân chập phù hợp và tổ chức huấn luyện mạng trên tập dữ liệu xây dựng Phân tích, đánh giá hiệu năng và chất lượng đọc văn bản của mạng huấn luyện

Trang 16

6 Dự kiến kết quả đạt được

Trong phạm vi nghiên cứu của luận văn thạc sĩ, dự kiến kết quả đạt được của đề tài là:

- Báo cáo phân tích, đánh giá tổng quan về các kỹ thuật và phương pháp chuyển đổi văn bản thành giọng nói, các mô hình mạng nhân chập học sâu xử

lý ngôn ngữ và tiếng nói

- Tập dữ liệu huấn luyện phù hợp, tiền xử lý dữ liệu và gán nhãn phục vụ huấn luyện các mạng nơ ron chuyển đổi văn bản thành giọng nói

- Kiến trúc mạng nơ ron chuyển đổi văn bản thành giọng nói và kết quả huấn luyện mạng

- Hệ thống thông tin chuyển đổi số các cấp chính quyền (cấp xã) của VNPT Thanh Hóa có tích hợp công nghệ đọc văn bản thành giọng nói tự động

Trang 17

Chương 1 GIỚI THIỆU 1.1 Chuyển đổi số trong các cơ quan nhà nước

Ngày nay, cùng với sự phát triển mạnh mẽ của khoa học kỹ thuật và công nghệ thì CNTT đã và đang đóng một vai trò quan trọng trong chiến lược phát triển của mỗi quốc gia trên thế giới Là nhân tố quan trọng làm cầu nối trao đổi giữa các thành phần của xã hội toàn cầu; CNTT đang tham gia hỗ trợ sâu rộng ở tất cả các lĩnh vực: tài chính ngân hàng, giao thông, giáo dục, y tế, nông nghiệp, công thương v.v Việc nhanh chóng ứng dụng CNTT vào quá trình quản lý, kiểm soát, điều hành trong các lĩnh vực xã hội luôn được ưu tiên hàng đầu của mỗi quốc gia

Cuộc cách mạng công nghiệp lần thứ tư (CMCN 4.0) đang diễn ra với tốc độ rất nhanh chóng, tác động đến nhiều quốc gia, trong đó có Việt Nam

Từ đó đặt ra yêu cầu, chính quyền cần phải nhanh chóng ứng dụng công nghệ hiện đại để nâng cao năng lực quản lý, điều hành, đáp ứng yêu cầu của xã hội trong tình hình mới

Thực hiện Quyết định số 749/QĐ-TTg ngày 03 tháng 6 năm 2020 của Thủ tướng Chính phủ về phê duyệt "Chương trình Chuyển đổi số quốc gia đến năm 2025, định hướng đến năm 2030”, ngày 06 tháng 10 năm 2020, UBND tỉnh Thanh Hóa ban hành Quyết định số 4216/QĐ-UBND về Kế hoạch Chuyển đổi số trên địa bàn tỉnh Thanh Hóa đến năm 2025, định hướng đến năm 2030 Nội dung mục tiêu chung của kế hoạch chỉ ra:

- Ứng dụng công nghệ thông tin (CNTT) nhằm đổi mới căn bản, toàn diện hoạt động quản lý, điều hành của bộ máy Chính quyền số, hoạt động sản xuất kinh doanh của doanh nghiệp, phương thức sống, làm việc của người dân trên môi trường số

- Ứng dụng CNTT nâng cao hiệu quả hoạt động của Chính quyền số; phát triển các doanh nghiệp số có quy mô lớn, khả năng cạnh tranh cao; kinh

tế số phát triển; xã hội số văn minh, hiện đại

Trang 18

Nghị quyết số 06-NQ/TU ngày 10/11/2021 của Ban Thường vụ Tỉnh ủy cũng chỉ ra nhiệm vụ giải pháp thực hiện Chuyển đổi số tỉnh Thanh Hóa đến năm 2025, định hướng đến năm 2030:

- Tăng cường sự lãnh đạo của cấp ủy Đảng, chỉ đạo, điều hành của chính quyền các cấp, phát huy vai trò của Mặt trận Tổ quốc, các đoàn thể để đẩy mạnh chuyển đổi số trên địa bàn toàn tỉnh

- Huy động tối đa các nguồn lực cho đầu tư hạ tầng số, đáp ứng yêu cầu chuyển đổi số trong các ngành, lĩnh vực; đẩy mạnh phát triển nguồn nhân lực phục vụ chuyển đổi số

- Đẩy mạnh xây dựng chính quyền điện tử, hình thành chính quyền số để dẫn dắt, thúc đẩy phát triển kinh tế số, xã hội số, xây dựng các đô thị thông minh

- Tập trung phát triển mạnh kinh tế số để nâng cao năng suất lao động, sức cạnh tranh của các ngành, các sản phẩm, các doanh nghiệp và nền kinh tế của tỉnh

- Phát triển xã hội số, góp phần xây dựng xã hội văn minh, hiện đại, tiến

bộ, nâng cao chất lượng cuộc sống của người dân

- Tăng cường đảm bảo an toàn, an ninh mạng và bảo mật thông tin trong thực hiện chuyển đổi số

Chuyển đổi số là những thay đổi một cách tổng thể và toàn diện liên quan đến ứng dụng công nghệ số vào tất cả các khía cạnh của đời sống và xã hội, tái định hình cách chúng ta sống, làm việc và liên hệ với nhau Trong đó, chính quyền số đóng vai trò dẫn dắt trong quá trình chuyển đổi số Mục tiêu của Chuyển đổi số trong cơ quan nhà nước (Chính phủ số/Chính quyền số) là hướng tới cung cấp dịch vụ công thuận tiện cho người dân, tăng cường sự tham gia người dân trong các hoạt động cơ quan nhà nước (CQNN); tăng cường hiệu quả hoạt động và đổi mới trong các CQNN; phát triển dữ liệu mở của CQNN để tạo điều kiện phát triển Kinh tế - Xã hội

Trang 19

1.1.1 Hạ tầng viễn thông, internet

Hạ tầng viễn thông, Internet cố định: Hiện nay trên địa bàn tỉnh có 07 doanh nghiệp đầu tư, xây dựng hạ tầng, cung cấp các dịch vụ viễn thông, internet cố định, trong đó 02 doanh nghiệp đầu tư xây dựng hạ tầng cung cấp dịch vụ điện thoại cố định hữu tuyến, vô tuyến là Viễn thông Thanh Hoá và Viettel Thanh Hoá gồm 02 HOST lắp đặt tại thị trấn huyện Thọ Xuân và Triệu Sơn với 153 trạm chuyển mạch cố định; 05 doanh nghiệp đầu tư xây dựng hạ tầng cung cấp dịch vụ truy nhập Internet băng rộng cố định với tổng

số 1.792 trạm truy nhập Internet băng thông rộng cố định, trong đó chủ yếu là

hạ tầng của Viễn thông Thanh Hóa và Viettel Thanh Hóa Hạ tầng truyền dẫn băng thông rộng cáp quang đã được được triển khai rộng khắp đến 100% các

xã, phường, thị trấn, và hầu hết các thôn, bản, cụm dân cư kể cả khu vực miền núi, vùng sâu vùng xa của tỉnh Mạng lưới được tổ chức thành các mạch vòng Ring để vu hồi, dự phòng cho toàn mạng lưới, đảm bảo thông tin liên lạc thông suốt trong mọi tình huống

Hạ tầng mạng thông tin di động có 04 doanh nghiệp đầu tư xây dựng hạ tầng cung cấp dịch vụ thông tin di động với tổng số 9.144 trạm BTS được lắp đặt tại 3.416 vị trí, trên địa bàn 559 xã, bằng 100% số xã được lắp đặt trạm BTS, trong đó có 2.771 trạm BTS công nghệ 2G, 3.475 trạm BTS công nghệ 3G và 2.898 trạm BTS công nghệ 4G; phủ sóng đến 100% trung tâm các xã, phường, thị trấn và hầu hết các thôn, bản, cụm dân cư, tỷ lệ dân số được phủ sóng thông tin di động đạt 99,70% Trong đó mạng băng thông rộng 3G phủ sóng đến 4.341/4.357 đến thôn, bản, cụm dân cư (bằng 99,65%); mạng băng thông rộng 4G phủ sóng đến 4.300/4.357 thôn, bản, cụm dân cư (bằng 98,69%)

Trong những năm qua hạ tầng viễn thông, Internet trên địa bàn tỉnh đã được các doanh nghiệp viễn thông tích cực đầu tư, nâng cấp hạ tầng mạng lưới với công nghệ tiên tiến, hiện đại không ngừng mở rộng vùng phục vụ đến tất cả các vùng miền, kể cả vùng sâu vùng xa, biên giới hải đảo, đã góp phần

Trang 20

quan trọng trong công tác lãnh đao, chỉ đạo, điều hành của Cấp ủy Đảng, Chính quyền phục vụ phát triển kinh tế -xã hội, đảm bảo quốc phòng- an ninh, cũng như nhu cầu sử dụng dịch vụ của người dân trên địa bàn tỉnh

1.1.2 Hạ tầng CNTT

Hạ tầng kỹ thuật CNTT trên địa bàn tỉnh được đầu tư đồng bộ, hiện đại, đáp ứng việc ứng dụng CNTT, phục vụ công tác chỉ đạo, điều hành trên môi trường mạng của các cơ quan nhà nước trên địa bàn tỉnh; đảm bảo cung cấp dịch vụ, phục vụ người dân, doanh nghiệp ngày càng tốt hơn

- Tính đến hết 31/12/2020, tỷ lệ cán bộ công chức, viên chức từ cấp tỉnh đến cấp xã được trang bị máy tính làm việc là 96% máy tính/cán bộ (16.661 máy tính/17.356 cán bộ)

- 100% các cơ quan, đơn vị cấp tỉnh, cấp huyện và cấp xã đã có mạng LAN nội bộ và kết nối mạng Internet tốc độ cao phục vụ công tác

- Hệ thống mạng truyền số liệu chuyên dùng đã được triển khai từ cấp tỉnh đến cấp huyện phục vụ việc trao đổi dữ liệu và triển khai các hệ thống dùng chung của tỉnh như: hệ thống đăng nhập một lần; hệ thống hội nghị truyền hình nhằm bảo mật và đảm bảo an toàn thông tin của các cơ quan Đảng, cơ quan Nhà nước

- Trên địa bàn toàn tỉnh, hiện có 03 trung tâm mạng và tích hợp dữ liệu phục vụ hoạt động của các cơ quan Đảng, Nhà nước:

+ Trung tâm Mạng Văn phòng Tỉnh ủy: Được trang bị hệ thống máy chủ, các thiết bị Router, Firewall, thiết bị giám sát và phát hiện xâm nhập (IPS) cơ bản đảm bảo các yêu cầu kỹ thuật về an ninh, an toàn toàn thông tin mạng, đảm bảo cho việc duy trì, khai thác các hệ thống thông tin, CSDL, các phần mềm ứng dụng cho các cơ quan Đảng từ cấp tỉnh đến cấp xã

+ Trung tâm tích hợp dữ liệu tại Văn phòng UBND tỉnh: Hiện nay, có 15 máy chủ và một số thiết bị định tuyến (Router), thiết bị an ninh mạng (firewall) đảm bảo đầy đủ các yêu cầu kỹ thuật về an ninh, an toàn toàn thông tin mạng để phục vụ các nhiệm vụ lưu trữ nội dung (Hosting) của Cổng thông

Trang 21

tin điện tử của tỉnh (bao gồm cả trang thông tin thành phần của một số đơn vị cấp huyện, cấp sở), hệ thống thư điện tử công vụ, hệ thống văn bản quy phạm pháp luật của UBND tỉnh, các phần mềm ứng dụng nội bộ Văn phòng UBND tỉnh; Trung tâm tích hợp dữ liệu đã thực hiện kết nối, liên thông trao đổi thông tin, văn bản giữa UBND tỉnh với Chính phủ và các Bộ, ngành Trung ương thông qua mạng truyền số liệu chuyên dùng

+ Trung tâm An ninh mạng và An toàn dữ liệu đặt tại Sở Thông tin và Truyền thông: Được trang bị các hạng mục hạ tầng cơ bản đáp ứng các tiêu chuẩn cho một Trung tâm dữ liệu ở cấp tỉnh Trong đó, Trung tâm An ninh mạng và An toàn dữ liệu đã được UBND tỉnh phê duyệt cấp độ an toàn thông tin mức độ 3 theo quy định Tại Trung tâm, hiện có 85 máy chủ (trong đó có

65 máy chủ cung cấp dưới dạng ảo hóa), các thiết bị Router, Firewall, thiết bị giám sát và phát hiện xâm nhập (Cisco IPS) và các giải pháp an ninh mạng như hệ thống điều hành, giám sát an ninh mạng (SOC), phòng chống mã độc tập trung bảo đảm các yêu cầu về kỹ thuật trong việc giám sát, phát hiện và phòng chống các nguy cơ mất an toàn, an ninh mạng đối với các hệ thống thông tin dùng chung của tỉnh đang lưu trữ, vận hành tại Trung tâm như hệ thống quản lý văn bản và hồ sơ công việc, hệ thống một cửa điện tử cấp huyện, cấp xã; cổng dịch vụ công trực tuyến; nền tảng tích hợp và chia sẻ dữ liệu cấp tỉnh (LGSP); các trang thông tin điện tử và các dịch vụ khác Bên cạnh đó, hệ thống của Trung tâm kết nối với Trung tâm tích hợp dữ liệu đặt tại Văn phòng UBND tỉnh qua kênh truyền riêng để đảm bảo hoạt động dự

phòng cho các ứng dụng dùng chung của tỉnh

- Ngoài ra, một số sở, ngành (Sở Giáo dục và Đào tạo, Sở Tài chính, Sở Tài nguyên và Môi trường, Công an tỉnh, Trường Đại học Hồng Đức) có Trung tâm dữ liệu nhỏ có từ 03- 05 máy chủ để cài đặt các phầm mềm, CSDL chuyên ngành

Trang 22

- Cổng Dịch vụ công tỉnh Thanh Hóa

(https://dichvucong.thanhhoa.gov.vn) chính thức đưa vào hoạt động từ ngày 16/9/2019; Cổng Dịch vụ công, phần mềm một cửa điện tử cấp tỉnh (tại Trung tâm phục vụ hành chính công tỉnh), phần mềm một cửa điện tử cấp huyện (của 27/27 UBND cấp huyện) và phần mềm một cửa điện tử cấp xã (tại 559/559 UBND cấp xã) tạo thành hệ thống đồng bộ, góp phần hiện đại hóa nền hành chính; công khai, minh bạch trong hoạt động giải quyết các thủ tục hành chính (TTHC) của các cơ quan nhà nước; góp phần cải cách hành chính, cải thiện môi trường đầu tư kinh doanh, nâng cao chỉ số năng lực cạnh tranh của tỉnh

- Nền tảng tích hợp chia sẻ dữ liệu của tỉnh đã kết nối với Nền tảng tích hợp, chia sẻ dữ liệu Quốc gia, đảm bảo việc gửi nhận văn bản điện tử liên thông 4 cấp từ Trung ương đến cấp xã Ngoài ra, còn đảm bảo kết nối, liên thông các phần mềm ứng dụng dùng chung, các phần mềm chuyên ngành trên địa bàn tỉnh, góp phần chia sẻ, khai thác hiệu quả các cơ sở dữ liệu, phục vụ công tác chỉ đạo, điều hành trong cơ quan nhà nước, phục vụ người dân, doanh nghiệp trên địa bàn tỉnh

1.1.3 Ứng dụng CNTT trong các cơ quan nhà nước

Ứng dụng CNTT trong quản lý, chỉ đạo, điều hành, xử lý công việc của các cơ quan nhà nước từ cấp tỉnh đến cấp xã đã có bước đột phá quan trọng; Lãnh đạo, CBCC từ cấp tỉnh đến cấp xã đã thay đổi nhận thức, thói quen làm việc từ hành chính, giấy tờ sang chỉ đạo, điều hành, xử lý công việc hoàn toàn trên môi trường điện tử, đã làm thay đổi phương thức, lề lối làm việc hiện đại, khoa học trên môi trường điện tử 100% lãnh đạo, CBCC các sở, ban, ngành

từ cấp tỉnh đến cấp xã đã điều hành, xử lý công việc trên Hệ thống phần mềm Quản lý văn bản và Hồ sơ công việc và các phần mềm dùng chung của tỉnh; 100% văn bản trao đổi giữa các cơ quan nhà nước (trừ văn bản mật theo quy định) được thực hiện trên môi trường mạng; Tỷ lệ văn bản điện tử có ký số

Trang 23

đạt trên 99,1%; văn bản điện tử đã thay thế hoàn toàn văn bản giấy trong các

Sở, ban, ngành, UBND cấp huyện, UBND cấp xã

Hệ thống Hội nghị truyền hình trực tuyến đã phát huy được hiệu quả đầu tư; từ năm 2018 đến nay được vận hành ổn định, đảm bảo cho gần 200 cuộc họp quan trọng của Tỉnh ủy, UNBD tỉnh với cấp huyện, cấp xã; giữa Tỉnh ủy, UBND tỉnh với các cơ quan Trung ương Đặc biệt, trong năm 2020 khi dịch bệnh Covid19 bùng phát đã tổ chức được hơn 70 cuộc họp trực tuyến; Hệ thống Hội nghị truyền hình trực tuyến đã phát huy hiệu quả trong việc chỉ đạo, điều hành, giúp triển khai nhiệm vụ nhanh chóng, tiết kiệm, nâng cao hiệu quả hoạt động của cơ quan nhà nước từ tỉnh đến cấp xã; Giúp tiết kiệm thời gian di chuyển, chi phí đi lại, ăn nghỉ của đại biểu ở cấp huyện; thời gian triển khai cuộc họp nhanh, kịp thời nhất là trong những tình huống khẩn cấp như phòng chống thiên tai, dịch bệnh, nhất là trong thời gian phòng chống

dịch bệnh COVID-19 cần hạn chế tiếp xúc đông người (hội họp không tiếp xúc)

Hệ thống phòng họp không giấy tờ đã được triển khai tại các đơn vị, phục vụ tốt công tác triển khai các cuộc họp, triển khai cuộc họp nhanh chóng, tiết kiệm chi phí in ấn tài liệu, giúp hiện đại hóa hoạt động của các cơ quan nhà nước

Các ứng dụng dùng chung của tỉnh; Hệ thống đăng nhập một lần; Phần mềm theo dõi thực hiện nhiệm vụ của UBND và Chủ tịch UBND; Thư điện tử công vụ được các đơn vị sử dụng thường xuyên phục vụ tốt công tác chỉ đạo, điều hành trên môi trường mạng của các cơ quan nhà nước trên địa bàn tỉnh

Trang 24

Hiện nay, việc triển khai các ứng dụng CNTT tại các ngành, đơn vị trong tỉnh đã có nhiều chuyển biến tích cực; ngoài việc triển khai các ứng dụng dùng chung, các ngành, đơn vị còn triển khai các ứng dụng chuyên ngành, xây dựng hệ thống dữ liệu riêng nhằm phục vụ công tác quản lý

1.1.5 Đảm bảo an toàn thông tin

Trong thời gian qua, bên cạnh việc đẩy mạnh ứng dụng CNTT trong hoạt động của cơ quan hành chính nhà nước, phát triển chính quyền điện tử, nhằm nâng cao hiệu lực, hiệu quả hoạt động của cơ quan nhà nước, phục vụ người dân và doanh nghiệp, công tác đảm bảo an toàn thông tin trên địa bàn tỉnh cũng được quan tâm thực hiện và bước đầu đã có nhiều chuyển biến tích cực, như: Đưa vào khai thác, sử dụng mạng truyền số liệu chuyên dùng; triển khai ứng dụng chứng thư số chuyên dùng; đầu tư nâng cấp các Trung tâm tích hợp

dữ liệu; triển khai sử dụng phần mềm hệ điều hành bản quyền; triển khai sử dụng phần mềm xử lý mã độc; ban hành các quy chế, quy định bảo đảm an toàn thông tin; thực hiện thường xuyên công tác tuyên truyền nâng cao nhận thức về an toàn thông tin mạng; thường xuyên kiểm tra, giám sát an toàn các

hệ thống thông tin dùng chung của tỉnh,…

Trước tình hình phức tạp hiện nay, việc đảm bảo an toàn thông tin, an ninh mạng phục vụ Chuyển đổi số nhằm xây dựng Chính quyền số, kinh tế số,

xã hội số là vấn đề hết sức quan trọng, là điều kiện cơ bản, yếu tố then chốt, không thể tách rời trong quá trình thực hiện chương trình chuyển đổi số toàn diện trên địa bàn tỉnh

1.2 Hệ thống thông tin chuyển đổi số các cấp chính quyền

Để thực hiện quyết định số 4216/QĐ-UBND, có cơ sở đánh giá, rút ra các bài học kinh nghiệm tiến tới triển khai nhân rộng toàn tỉnh, UBND tỉnh đã giao Sở thông tin và truyền thông tỉnh Thanh Hóa phối hợp với VNPT Thanh Hóa thực hiện thí điểm chuyển đổi số tại 03 xã Hà Sơn - Hà Trung, Nga An – Nga Sơn và Yên Thọ - Như Thanh từ 01/12/2020 đến 31/5/2021 trên các trụ cột: Chính quyền số, xã hội số và kinh tế số Một trong những nội dung của

Trang 25

kế hoạch thí điểm chuyển đổi số tại 03 xã là xây dựng Hệ thống thông tin hỗ trợ chuyển đổi số; hệ thống này bao gồm các phân hệ: trang thông tin điện tử UBND xã, hệ thống quản lý ứng dụng di động tương tác chính quyền - công dân và ứng dụng di động tương tác chính quyền - công dân Với tôn chỉ của cuộc thí điểm chuyển đổi số tại 03 xã là lấy công dân làm đối tượng chính để phục vụ, VNPT Thanh Hóa đã đến từng xã phối hợp khảo sát, tìm hiểu yêu cầu thực tế để xây dựng giải pháp cho phù hợp với tình hình thực tiễn của địa phương

Qua thực tế tìm hiểu các ứng dụng do các tỉnh, thành phố trực thuộc trung ương triển khai: TienGiangS, Hue-S, Smart Quảng Ninh, Đắk Lắk trực tuyến và SmartThanhHoa, chúng tôi nhận thấy đây là những ứng dụng do các tỉnh đầu tư xây dựng, triển khai phục vụ công tác cung cấp thông tin, điều hành của UBND cấp tỉnh trên toàn địa bàn tỉnh Độ phủ của các ứng dụng là rất lớn, do đó những thông tin cung cấp chưa chi tiết, cụ thể hóa các thông tin việc làng, việc xã của các đơn vị hành chính cấp xã

Do đó, chúng tôi đặt mục tiêu xây dựng Hệ thống thông tin hỗ trợ

chuyển đổi số cấp xã theo nhu cầu thực tế phù hợp với từng xã nhưng vẫn

phải đáp ứng được mục đích sẵn sàng triển khai trên diện rộng khi có yêu cầu

1.3 Bài toán chuyển đổi văn bản thành giọng nói

Bài toán chuyển văn bản thành giọng nói tự động TTS (Text To Speech)

là một chủ đề thu hút được sự quan tâm của cộng đồng nghiên cứu trong lĩnh vực khoa học máy tính, xử lý tiếng nói, mạng học sâu Cho trước một chuỗi văn bản trong một ngôn ngữ bất kỳ, hệ thống TTS tự động phân tích ngữ nghĩa câu và chuyển đổi thành âm thanh tương ứng với nội dung của văn bản Bài toán TTS đã được nghiên cứu từ rất sớm bằng cách sử dụng các mô hình HMM (Hidden Markov models) [11] để huấn luyện máy có khả năng trích chọn các đặc trưng phổ, âm thanh từ văn bản Trong những năm gần đây, sự phát triển kỳ diệu và mạnh mẽ của công nghệ mạng nơ ron học sâu đã đem lại những thành tự nổi bật trong các lĩnh vực xử lý ngôn ngữ tự nhiên, dịch máy

Trang 26

tự động, nhận dạng giọng nói và cả bài toán chuyển đổi giọng nói thành âm thanh [20, 21]

Mặc dù bài toán TTS được nghiên cứu từ sớm và thu hút được sự quan tâm của các nhà nghiên cứu, tuy nhiên hiệu năng của các hệ thống TTS tự động hiện nay vẫn cần được hoàn thiện cả về tốc độ xử lý và chất lượng âm thanh tổng hợp Lý do chính vẫn là do bài toán TTS có rất nhiều vấn đề phức tạp cần giải quyết, có thể kể ra một số vấn đề chính như sau:

- Sự đa dạng về ngữ nghĩa: văn bản dù trong bất kỳ ngôn ngữ nào cũng được xây dựng từ một tập từ điển rộng lớp và được cập nhật thường xuyên, có

sự phát triển và tiến hóa theo thời gian, có cấu trúc ngữ pháp linh hoạt và đa dạng Ngoài ra, phong cách đọc văn bản phụ thuộc lớn vào ngữ cảnh, người đọc (nam hay nữ), và phụ thuộc vào văn hóa vùng miền Do vậy, hiểu chính xác thông tin ngữ cảnh và phân tích ngữ nghĩa đúng của văn bản để xác định chính xác trọng âm, từ loại trong câu quyết định lớn đến chất lượng tổng hợp

âm thanh Tuy nhiên, bài toán phân tích ngữ nghĩa và dự đoán ngữ cảnh của văn bản là không dễ dàng

- Sử dụng nhiều cách viết tắt, kí hiệu: Văn bản thường chứa đựng nhiều cụm từ viết tắt, ký hiệu và biểu tượng.Việc phân tích và hiểu chính xác nghĩa của những loại văn bản này phụ thuộc lớn và ngữ cảnh và sự đang dạng của từ vựng, từ điển sử dụng Mặt khác, các cụm từ viết tắt thường không có quy tắc

và khá tự do trong thực tế, mang tính cá nhân của người viết rất cao

- Sự thiếu vắng các tiêu chuẩn đánh giá khách quan: Để đánh giá chất lượng các hệ thống TTS, các nhà nghiên cứu vẫn đang sử dụng tiêu chuẩn mang tính chủ quan đó là MOS (Mean Opinion Score) MOS là phương pháp được sử dụng thường xuyên nhất để đánh giá chất lượng của bài phát biểu được tạo ra MOS có phạm vi từ 0 đến 5 trong đó giọng nói của con người thực là từ 4,5 đến 4,8 MOS xuất phát từ lĩnh vực viễn thông và được định nghĩa là giá trị trung bình của các đánh giá mang tính chủ quan được thực hiện từ con người đối với một tín hiệu âm thanh cụ thể Phương pháp thực

Trang 27

hiện của MOS là một nhóm người ngồi trong một căn phòng yên tĩnh, lắng nghe mẫu âm thanh được tạo và cho điểm Nói cách khác, MOS là ý kiến, quan điểm mức trung bình của tất cả người tham gia đánh giá Việc xây dựng các tiêu chí đánh giá khách quan, tự động chất lượng của một hệ thống TTS vẫn là một chủ đề nghiên cứu khó cần được quan tâm phát triển

- Hệ thống đọc tự động trên các trang thông tin điện tử: ngày nay các trang thông tin điện tử hiện đại đều tích hợp chức năng đọc nội dung bài viết

tự động bằng các phong cách khác nhau giúp tăng trải nghiệm sử dụng cho người dùng cuối và thu hút người dùng sử dụng dịch vụ và tiếp cận thông tin thời sự một cách nhanh chóng, kịp thời

- Hệ thống phát thanh viên tự động, chuyển đổi số các cấp chính quyền: các hệ thống phát thanh có thể không cần sử dụng đội ngũ nhân viên để đọc các bản tin hàng ngày Thay vì vậy, hệ thống TTS cung cấp giải pháp tuyệt vời, tối ưu về chi phí và thời gian, động và có tính tùy biến cao Đặc biệt, các

hệ thống chuyển đổi số cấp xã, huyện có thể ứng dụng rất hiệu quả hệ thống

Trang 28

TTS trong việc lập lịch phát thanh tự động các nội dung tin tức số mà không cần sự can thiệp của con người

- Hệ thống tư vấn chatbot tự động: Cùng với hệ thống phân tích nội dung, các hệ thống TTS có thể ứng dụng để trả lời, tư vấn khách hàng tự động trong bất kỳ lĩnh vực nào (giao thông, y tế, giáo dục,…)

- Hệ thống nhà thông minh: Giao tiếp điều khiển thiết bị tự động bằng giọng nói hiện đang được ứng dụng hiệu quả và ngày càng mạnh mẽ trong các

hệ thống nhà thông minh (Smart Home), giúp tăng trải nghiệm và sự tiện nghi của khách hàng, an toàn và bảo mật cao

Tại Việt Nam, một số sản phẩm TTS đã được nghiên cứu, phát triển và thương mại hóa trong thời gian qua, điển hình là các sản phẩm sau:

- Vbee AI1: Cung cấp sản phẩm TTS ở hai phiên bản: phần mềm đầu cuối và dịch vụ hàm API lập trình ứng dụng Sản phẩm TTS của Vbee ứng dụng công nghệ trí tuệ nhân tạo về giọng nói nhân tạo, tích hợp nhiều chức năng hiện đại như giọng đọc có cảm xúc,yếu tố vùng miền, cách phát âm một

số từ đặc biệt và dấu (dấu ngang, huyền, hỏi, ngã, sắc) Đặc biệt, Vbee có cơ chế học thích ứng theo dữ liệu bất kỳ, thời gian học nhanh và độ chính xác cao Sản phẩm của Vbee đã được tích hợp vào các giải pháp toàn diện trong nhiều lĩnh vực khác nhau: giải pháp đọc tự động (sách nói, báo nói, lồng tiếng phim tự động, thu âm tự động…), giải pháp về trợ lý ảo trong các ngành nghề khác nhau (vận tải, tài chính, thương mại điện tử…), giải pháp nhà thông minh (giao tiếp với thiết bị qua ngôn ngữ), giải pháp chatbot chăm sóc, tư vấn, trả lời khách hàng tự động

- FPT AI2: Cũng tương tự như Vbee, sản phẩm TTS của FPT AI ứng dụng công nghệ tổng hợp giọng nói và công nghệ mạng nơ ron học sâu Sản phẩm của FPT AI cho phép tổng hợp giọng nói tự nhiên với các lựa chọn phong phú về giọng đọc (nam/nữ) và ngữ âm (Bắc, Trung, Nam) Dịch vụ

Trang 29

được cung cấp dưới dạng API và tích hợp dễ dàng trên mọi hệ thống, trên nhiều ứng dụng và thiết bị khác nhau Sản phẩm TTS của FPT.AI có khả năng tạo ra các giọng nói tự nhiên, tự động ngắt nghỉ khi đọc câu dài, kết hợp biểu cảm ngữ điệu Sản phẩm được phát triển dựa trên nhiều nghiên cứu về đặc điểm ngôn ngữ của người Việt Nam, và giọng nói của từng khu vực, vùng miền Hệ thống TTS của FPT.AI hiện có 7 giọng đọc, đến từ nhiều khu vực khác nhau trên khắp Việt Nam

Kết luận Chương 1

Trong Chương 1, chúng tôi trình bày giới thiệu tổng quan về bài toán chuyển đổi văn bản thành giọng nói Cụ thể, Chương 1 giới thiệu hệ thống thông tin phuc vụ chuyển đổi số cấp xã do VNPT xây dựng và đang triển khai trên toàn quốc Trong đó, bài toán chuyển đổi văn bản thành giọng nói có một vai trò quan trọng, được tích hợp vào hệ thống sẽ làm tăng trải nghiệm sử dụng của khách hàng, đóng góp vào sự thành công của việc triển khai hệ thống chuyển đổi số cho các cơ quan và người dân

Bên cạnh đó, Chương 1 cũng giới thiệu ngắn gọn về quá trình nghiên cứu và phát triển của công nghệ chuyển đổi văn bản thành giọng nói, phân tích đưa ra các thách thức chính tạo nên độ phức tạp của bài toán Các vấn đề chính mà bất cứ hệ thống TTS nào cũng phải quan tâm đó là sự phức tạp và

đa dạng của văn bản, sự phong phú của từ vựng và tự điển, sự hạn chế của các tiêu chuẩn đánh giá chất lượng âm thanh tổng hợp Chương 1 cũng trình bày các ứng dụng điển hình của TTS trong thực tế, bao gồm: nhà thông minh, chatbox tự động, phát thanh viên ảo, hỗ trợ người khuyết tật, người già,… Cuối cùng, Chương 1 cung cấp một số thông tin cơ bản về các sản phẩm TTS thương mại được sản xuất ở Việt Nam (FPT AI và Vbee AI) Trong Chương tiếp theo, chúng tôi sẽ trình bày một cách hệ thống, chi tiết các nghiên cứu

liên quan để giải quyết bài toán TTS

Trang 30

Chương 2 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU

2.1 Công nghệ tổng hợp giọng nói truyền thống

2.1.1 Kỹ thuật tổng hợp tham số (Statistical Parametric Synthesis)

2.1.1.1 Giới thiệu mô hình HMM

Trong những năm đầu của nghiên cứu (những năm 2000), các mô hình ước lượng tham số được sử dụng rất tích cực để giải quyết bài toán tổng hợp tiếng nói Điển hình nhất, mô hình HMM (Hidden Markov models) [11]được

sử dụng rất hiệu quả và rộng rãi bởi nhiều ưu điểm như: gọn nhẹ, độc lập ngôn ngữ, đặc biệt là tính mềm dẻo, linh động (chẳng hạn có khả năng tổng hợp tiếng nói mang nhiều phong cách khác nhau, âm điệu khác nhau, …) HMM là một mô hình thống kê biểu diễn tập các trạng thái hữu hạn

Một cách chi tiết, một mô hình HMM có N trạng thái và mỗi trạng thái

có N tín hiệu có thể quan sát được (kí hiệu hiệu là tín hiệu quan sát được tại thời điểm t)thì có thể được biểu diễn bởi một hàm phân bố xác xuất (PDF) chuyển trạng thái ký hiệu bởi với , một phân bố xác suất quan sát được ký hiệu bởi với , và một phân bố xác suất khởi đầu của mỗi trạng thái với Trong đó:

 là xác suất chuyển từ tháng thái sang trạng thái thỏa mãn điều kiện: với mọi

 là xác suất quan sát được tín hiệu tại thời điểm t bên trong trạng thái thứ (chỉ phụ thuộc vào trạng thái )

Trang 31

Hình 2.1 Minh họa hai mô hình HMM: vòng tròn (trái)

là lớn nhất Từ các tham số đặc trưng, chúng ta có thể tổng hợp hay tái tạo lại được giọng nói tương ứng với chuỗi văn bản đầu vào

2.1.1.2 Tổng hợp giọng nói dựa vào HMM

Hình 2.2 mô tả kiến trúc tổng quát để tổng hợp giọng nói dựa trên các

mô hình ước lượng tham số thống kê [12]

Trang 32

Hình 2.2 Kiến trúc tổng quát mô hình HMM trong tổng hợp

âm thanh dùng để cấu tạo nên sự phân biệt giữa các cách phát âm Trong một số ngôn ngữ, mỗi âm vị tương ứng một ký tự Bảng sau minh họa một số

âm vị được sử dụng trong một hệ thống tổng hợp giọng nói bằng ngôn ngữ Tiếng Anh [11]

Trang 33

vowels consonants

Unvoiced vowels with previous

Bảng 2.1 Bảng các âm vị được sử dụng trong tổng hợp giọng nói [11]

Hình 2.3 Mô hình HMM cho quá trình huấn luyện [11]

Hình 2.3 trình bày chi tiết cách dùng HMM cho pha huấn luyện [11] Ở

mô hình này, mỗi âm vị sẽ được biểu diễn bởi một HMM có 3-5 trạng thái Các tham số ước lượng gồm phổ và tần số kích thích của tín hiệu âm thanh Tuy nhiên, cần lưu ý rằng tần số cơ bản chỉ tồn tại đối với các tín hiệu hữu thanh (voiced) Đối với các tín hiệu vô thanh (unvoiced), chúng ta không có tần số cơ bản Nói cách khác, chuỗi quan sát được của F0 sẽ là một chuỗi giá

Trang 34

trị thực liên tục một chiều (R1) đối với các tín hiệu hữu thanh và một hằng số đối với tín hiệu vô thanh Vì vậy, các mô hình HMM truyền thống (rời rạc hay liên tục) không thích hợp để biểu diễn các chuỗi quan sát F0 trong thực tế Để giải quyết vấn đề này, các tác giả trong [11] đề xuất áp dụng kỹ thuật MSD-HMM (multi-space probability distribution HMM) hay còn gọi là HMM phân

bố xác suất đa không gian Ý tưởng cơ bản của MSD-HMM để mô hình hóa chuỗi quan sát F0 đó là dùng hai không gian khác nhau, trong đó một không gian R1 dùng để biểu diễn phân bố xác suất trong không gian 1 chiều tương ứng cho chuỗi quan sát F0 của vùng hữu thanh và một không gian R0 để biểu diễn các hằng số tương ứng với giá trị quan sát của F0 ở vùng vô thanh Hình 2.4 mô phỏng cách dùng hai không gian này để biểu diễn chuỗi quan sát F0

Hình 2.4 Biểu diễn chuỗi quan sát F0 bởi hai không gian: vùng xám

vùng trắng (có đường cong) biểu diễn chuỗi tần số F0 [11]

Quay lại mô hình trên Hình 2.3, ngoài việc dùng các HMM để mô hình hóa các âm vị, chúng ta cần phải xem xét đến vấn đề ngữ cảnh của các HMM này Trong trường hợp có nhiều HHM cùng biểu diễn một âm vị, ngữ cảnh sử dụng chúng là rất quan trọng để có thể tạo ra những kết quả tổng hợp giọng nói chân thực nhất Thực tế, chúng ta sẽ tạo ra một HNN cho mỗi âm vị trong

Trang 35

một ngữ cảnh cụ thể Do vậy, có thể có nhiều HMM cho cùng một âm vị Các thông tin ngữ cảnh này có thể bao gồm: âm vị hiện tại là gì, âm vị bên trái, bên phải là gì, âm vị hiện tại là nguyên âm, hữu thanh hay âm vô thanh,… Để biểu diễn các HMM theo ngữ cảnh này, một kỹ thuật hiệu quả là dùng cây quyết định Hình 2.5 minh họa một cây quyết định được tạo ra để phân loại các bộ HMM theo ngữ cảnh Kết quả của quá trình này sẽ thu được tập các HMM phụ thuộc vào ngữ cảnh, gọi là Context Dependent HMMs (xem trên Hình 2.3) Quá trình huấn luyện kết thúc tại đây

Hình 2.5 Cây quyết định phân loại các HMM dựa vào thông tin ngữ

cảnh [11]

Trang 36

Hình 2.6 Quá trình tổng hợp giọng nói [11]

Một khi đã huấn luyện xong các HMM, quá trình tổng hợp giọng nói được thực hiện trên Hình 2.6 Chuỗi văn bản đầu vào được đưa vào các mô hình HMM phụ thuộc ngữ cảnh để ước lượng các tham số về phổ và tín hiệu Một bộ lọc và tổng hợp sẽ có chức năng tái tạo lại giọng nói tương ứng với chuỗi văn bản đầu vào

Phương pháp tổng hợp giọng nói dựa trên HMM có nhiều ưu điểm như

có dung lượng gọn nhẹ, không yêu cầu phải lưu trữ cơ sở dữ liệu âm thanh ban đầu, có thể mô phỏng và biểu diễn nhiều giọng đọc và phong cách khác nhau,… Tuy nhiên, chất lượng giọng tổng hợp có xu hướng đều đều và kém

tự nhiên.Các tính năng âm thanh thường bị lược bớt, làm cho âm thanh giọng nói được tạo ra bị bóp nghẹt

2.1.2 Kỹ thuật tổng hợp ghép âm (Concatenation synthesis)

Tổng hợp âm thanh dựa trên ghép nối là việc ghép các phân đoạn âm thanh được ghi âm trước Các phân đoạn có thể là câu đầy đủ, từ, âm tiết, cặp

từ liền nhau, Chúng thường được lưu trữ dưới dạng sóng hoặc quang phổ

Trang 37

Các đoạn âm thanh sau đó được trích chọn các đặc trưng cơ bản (phổ, tần số

cơ bản) và được gán nhãn tương ứng và lưu vào CSDL

Khi tổng hợp giọng nó, chuỗi văn bản đầu vào được tách thành các đơn

vị nhỏ nhất, đối sánh với CSDL để tìm chuỗi đơn vị âm có đặc trưng giống nhất để tổng hợp thành giọng nói đầy đủ

Ưu điểm của phương pháp tổng hợp gọng nói dựa trên ghép nối này là tạo ra âm thanh có tính tự nhiên cao, miễn là hệ thống được thiết kế tốt và có sẵn dữ liệu lời nói phù hợp Hạn chế của phương pháp này là tính linh hoạt vì tất cả các phân đoạn lời nói được sử dụng phải được ghi âm trước, hạn chế việc lựa chọn giọng nói của người nói hoặc các sửa đổi đối với cách diễn đạt

ở thời điểm trước đó Giả sử một chuỗi mẫu được sinh ra theo thứ tự:

thì xác suất sinh ra mẫu sẽ là xác suất có điều kiện đối với tất cả các mẫu trước thời điểm :

Để mô hình hóa xác suất có điều kiện trên, các tác giả sử dụng kiến trúc mạng nhân chập PixelCNNs [15] mà các thành phần mạng cơ bản là các mạng nhân chập nhân quả CCL (causal convolutional layers) Khác với các mạng nhân chập truyền thống, đầu vào và đầu ra của mạng CCL có kích thước bằng nhau và quan trọng là mỗi giá trị đầu ra (output sample) chỉ phụ thuộc vào các mẫu trước đó mà độc lập hoàn toàn vào các mẫu phía sau (như

Trang 38

Hình 2.7 Kiến trúc mạng nhân chập nhân quả

(causal convolutional layers)

Tuy nhiên, nhược điểm chính cua các mạng CCL đó là để có kích thước của trường RF (Receptive Field) lớn buộc chúng ta phải sử dụng rất nhiều tầng CCL, dẫn đến độ phức tạp tính toán tăng theo hàm mũ Ngược lại, nếu chấp nhận giá trị RF nhỏ, điều đó có nghĩa là chúng ta không khai thác nhiều thông tin ngữ cảnh của tín hiệu âm thanh đầu vào (chẳng hạn RF tương ứng với độ dài của chuỗi tín hiệu âm thanh đầu vào để khai thác tốt hơn thông tin ngữ cảnh) Do vậy, giải pháp đơn giản là sử dụng các phép nhân chập DC (Dilated Convolution) Về cơ bản, phép nhân chập DC hoạt động theo nguyên

lý tương tự như các phép Max-Pooling hay Strided Convolution (nhân chập truyền thống với độ dài bước nhảy > 1) Tuy nhiên, điểm khác là đầu vào và đầu ra của DC có cùng kích thước (minh họa trên Hình 2.8)

Hình 2.8 Nguyên tắc của DC: mỗi tầng tương ứng với hệ số Dilation

khác nhau

Trang 39

Như vậy, bằng cách sử dụng các mạng DC chúng ta có thể mô hình hóa xác suất có điều kiện ) một cách rất trực quan, thuận tiện Tại tầng cuối của mạng WaveNet các tác giả sử dụng hàm SoftMax có số đầu

ra tương ứng với các mẫu trong tập dự đoán Giả sử chúng ta cần dự đoán các mẫu âm thanh có tần số 16Khz, điều đó có nghĩa là mỗi mẫu được biểu diễn bởi một số nguyên trong 16-bit hay tập các giá trị là: 0,…, 65536 Do vậy, một chuỗi xác suất có 65,536 giá trị sẽ là đầu ra của mạng Để giải quyết hiệu quả việc sử dụng hàm Softmax cho trường hợp có nhiều đầu ra như vậy, các tác giả sử dụng hàm biến đổi trên tín hiệu âm thanh rồi lượng tử hóa về 256 giá trị đầu ra Kết quả thử nghiệm cho thấy độ chính xác gần như được bảo tồn

Để áp dụng Wavenet cho bài toán tổng hợp giọng nói TTS Speech), chúng ta phải bổ sung thêm một hoặc vài tham số trong mô hình xác suất có có điều kiện như sau:

(Text-To-Chẳng hạn, trong bài toán TTS, tham số sẽ là các tham số về đặc trưng ngôn ngữ được trích xuất từ chuỗi văn bản đầu vào Các đặc trưng ngôn ngữ thông dụng bao gồm: âm tiết, từ, cụm từ và các tính năng cấp độ phát âm, trọng âm của âm tiết, số lượng âm tiết trong một từ và vị trí củaâm tiết hiện tại trong một cụm từ,

Kết quả thử nghiệm của WaveNet cho thấy chất lượng âm thanh tạo ra được đo bằng MOS (Mean Opinion Score) cụ thể: MOS = 4,21 bằng ngôn ngữ tiếng Anh, trong đó đối với các mô hình hiện đại trước đây, MOS nằm trong khoảng 3,67 đến 3,86 Cần chú ý rằng MOS có phạm vi từ 0 đến 5 trong đó giọng nói của con người thực là từ 4,5 đến 4,8

2.2.2 Fast WaveNet

Một trong những nhược điểm chính của WaveNet là độ phức tạp tính toán khá cao do dùng nhiều tầng DC Để khắc phục vấn đề này, các tác giả trong [14] đề xuất hệ thống Fast WaveNet có khả năng rút gọn độ phức tạp

Trang 40

tính toán từ xuống còn trong đó là số tầng DC trong mô hình Ý tưởng cơ bản của Fast WaveNet là sử dụng bộ nhớ đệm (Catch) để lưu trữ các giá trị tính toán trung gian tại mỗi tầng DC Hình 2.9 minh họa nguyên lý của bộ nhớ đệm Giả sử mạng sử dụng L tầng DC, khi đó mỗi giá trị đầu ra chỉ cần thực hiện L phép tính bằng cách sử dụng các bộ nhớ đệm tại mỗi tầng Chú ý, kích thước của một bộ nhớ đệm tại mỗi tín hiệu đầu ra sẽ là hàm

mũ với số thứ tự của tầng tương ứng Chẳng hạn, bộ nhớ đệm tại tầng thứ 3 sẽ có kích thước là 23=8 (Hình 2.9)

Hình 2.9 Kiến trúc bộ nhớ đệm (catch) dùng trong Fast WaveNet [14]

2.2.3 Hệ thống Deep Voice

Deep Voice trình bày hệ thống TTS [16] có hiệu năng ấn tượng về độ chính xác và thời gian xử lý Deep Voice gồm 4 thành phần cơ bản sau (Hình 2.10):

- Phân đoạn âm vị (Phoneme Segmentation): Là một mạng nơ ron dùng

để phân đoạn tín hiệu âm thành đầu vào thành các đoạn mà mỗi âm vị bắt đầu

và kết thúc Mạng này kết hợp một mạng CNN và RNN được huấn luyện để

dự đoán ranh giới giữa âm thanh giọng nói và âm vị đích bằng cách sử dụng hàm mục tiêu CTC (Connectionist Temporal Classification)

- Chuyển đổi âm vị (Grapheme-to-Phoneme Model): Một mô hình chuyển đổi chuỗi văn bản đầu vào thành các âm vị bằng cách sử dụng một từ điển được định nghĩa trước trong một ngôn ngữ cụ thể

Ngày đăng: 18/07/2023, 00:37

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w