(Đồ án tốt nghiệp) thiết kế hệ thống giao tiếp, điều khiển thiết bị thông minh

Giới thiệu đề tài: Nhận thấy khả năng phát triển và nhu cầu về giao tiếp,điều khiển thiết bị bằng chính giọng nói của bản thân và những người yêu thích sử dụng dịch vụ này, nhóm đã thực

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ

THUẬT THÀNH PHỐ HỒ CHÍ MINH

ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ KỸ THUẬT ĐIỆN TỬ - TRUYỀN THÔNG

THIẾT KẾ HỆ THỐNG GIAO TIẾP, ĐIỀU KHIỂN

THIẾT BỊ THÔNG MINH

GVHD: TS TRƯƠNG NGỌC SƠN SVTH: KIỀU MINH TRIẾT

MSSV: 16141086 SVTH: ĐÀO MINH HIẾU MSSV: 16141029

SKL007198

Trang 2

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH

KHOA ĐÀO TẠO CHẤT LƯỢNG CAO

ĐỒ ÁN TỐT NGHIỆP

Trang 3

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH

KHOA ĐÀO TẠO CHẤT LƯỢNG CAO

ĐỒ ÁN TỐT NGHIỆP

Trang 4

CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAMĐộc lập – Tự do – Hạnh Phúc

Tp Hồ Chí Minh, ngày tháng năm 2020

NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP

Họ và tên sinh viên 1: Kiều Minh Triết

Họ và tên sinh viên 2: Đào Minh Hiếu

Ngành: Công Nghệ Kỹ Thuật Điện tử, Truyền thông

Giảng viên hướng dẫn: TS Trương Ngọc Sơn

Ngày nhận đề tài: 17/02/2020

1 Tên đề tài:

THIẾT KẾ HỆ THỐNG GIAO TIẾP, ĐIỀU KHIỂN THIẾT BỊ THÔNG MINH

2 Các số liệu, tài liệu ban đầu:

Kiến thức về nhận diện giọng nói, thuật toán khoảng cách Levenshtein, cách thức hoạt động của Google Service API

3 Nội dung thực hiện đề tài:

 Lý thuyết nhận diện giọng nói

 Lý thuyết thuật toán khoảng cách Levenshtein

 Lý thuyết Google Service API

 Viết chương sử dụng ngôn ngữ Python

 Thiết kế mô hình

 Cho chạy thiết bị và nhận xét kết quả

 Viết báo cáo

TRƯỞNG NGÀNH

Trang 5

CỘNG HOÀ XÃ HỘI CHỦNGHĨA VIỆT NAM Độc lập – Tự

do – Hạnh Phúc

*******

PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN

Họ và tên Sinh viên 1:Kiều Minh Triết MSSV:16141086

Họ và tên Sinh viên 2:Đào Minh Hiếu MSSV:16141029 Ngành: Công nghệ Kỹ thuật Điện tử - Truyền thông Tên đề tài: Thiết kế hệ thống giao tiếp, điều khiển thiết bị thông minh

Họ và tên Giáo viên hướng dẫn:TS Trương Ngọc Sơn

NHẬN XÉT

1 Về nội dung đề tài & khối lượng thực hiện:

2 Ưu điểm:

3 Khuyết điểm:

4 Đề nghị cho bảo vệ hay không?

5 Đánh giá loại:

6 Điểm:……….(Bằng chữ: )

Giáo viên hướng dẫn (Ký & ghi rõ họ tên)

Trang 6

CỘNG HOÀ XÃ HỘI CHỦNGHĨA VIỆT NAM Độc lập – Tự

do – Hạnh Phúc

*******

PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN

Họ và tên Sinh viên 1:Kiều Minh Triết MSSV:16141086

Họ và tên Sinh viên 2:Đào Minh Hiếu MSSV:16141029 Ngành: Công nghệ Kỹ thuật Điện tử - Truyền thông Tên đề tài: Thiết kế hệ thống giao tiếp, điều khiển thiết bị thông minh

Họ và tên Giáo viên phản biện:

NHẬN XÉT

1 Về nội dung đề tài & khối lượng thực hiện:

2 Ưu điểm:

3 Khuyết điểm:

4 Đề nghị cho bảo vệ hay không?

5 Đánh giá loại:

6 Điểm:……….(Bằng chữ: )

Giáo viên phản biện (Ký & ghi rõ họ tên)

Trang 7

có được cơ hội tiếp cận với thực tế nghề nghiệp qua các kỳ kiến tập, thực tập.

Em xin chân thành gửi lời cảm ơn đến các thầy cô Khoa Đào Tạo ChấtLượng Cao, đặc biệt là TS Trương Ngọc Sơn – giảng viên hướng dẫn đã truyềnđạt và đóng góp cho em những kiến thức bổ ích để em có thể hoàn thành bài báocáo một cách tốt nhất

Em xin chân thành cảm ơn

TP.HCM, ngày 15 tháng 08 năm 2020

Sinh viên thực hiện

Kiều Minh Triết Đào Minh Hiếu

Trang 8

TÓM TẮT

Trong xã hội thế kỷ 21, con người ngày càng bận rộn hơn với công việc,song song với đó công nghệ cũng ngày càng phát triển để phục vụ cuộc sống củacon người tốt hơn Con người ngày nay cần những thiết bị mang tính tự động cao

để phục vụ cho cuộc sống, trước tiên là từ chính những thiết bị điện quen thuộctrong căn nhà của họ Vì vậy, nhóm quyết định chọn đề tài “ Thiết kế hệ thốnggiao tiếp, điều khiển thiết bị thông minh” với mong muốn cho cuộc sống của conngười ngày một tối ưu, tiện lợi hơn

Hệ thống được mô phỏng trên mô hình hộp có đáy hình chữ nhật 30x25 cm,chiều cao của hộp là 15cm Phần cứng mô hình được cấu tạo từ bộ xử lý trungtâm là hệ thống nhúng Rasberry Pi Zero W nhận tín hiệu âm thanh từ mạch cảmbiến âm thanh tích hợp điều khiển độ lợi tự động (AGC MAX9814) thông qua bộchuyển đổi âm thanh sang USB (USB Sound Card) và dữ liệu nhiệt độ từ mô-đuncảm biến nhiệt độ DS18B20 Rasberry Pi sau khi xử lý dữ liệu sẽ tiến hành điềukhiển các thiết bị điện gồm 2 đèn và 2 quạt thông qua mạch relay Ngoài ra còn

có LCD hiển thị nhiệt độ và thời gian thật được lắp bên hông mô hình Bộ mãnguồn hệ thống được lập trình và phát triển trên hệ thống nhúng Raspberry.Nhóm đã sử dụng thư viện mã nguồn mở Google Speech trên nền tảng Python đểchuyển đổi từ lời nói sang văn bản

Sau quá trình nghiên cứu, mô phỏng, xây dựng hệ thống, nhóm đã hoànthành mô hình hệ thống giao tiếp, điều khiển thiết bị thông minh Hệ thống cóchức năng nhận diện giọng nói của người sử dụng, hỏi và trả lời người dùng, điềukhiển các thiết bị đèn, quạt Hệ thống còn có thể đo nhiệt độ và xác định thời gianthật hiển thị trên LCD

ii

Trang 9

MỤC LỤC

LỜI CẢM ƠN i

TÓM TẮT ii

MỤC LỤC iii

DANH MỤC HÌNH ẢNH v

DANH MỤC BẢNG vii

DANH MỤC VIẾT TẮT viii

CHƯƠNG 1: TỔNG QUAN 1

1.1 TÌNH HÌNH NGHIÊN CỨU 1

1.2 MỤC TIÊU ĐỀ TÀI 1

1.3 GIỚI HẠN ĐỀ TÀI 2

1.4 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 2

1.4.1 Đối tượng nghiên cứu 2

1.4.2 Phạm vi nghiên cứu 2

1.5 BỐ CỤC ĐỀ TÀI 2

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 4

2.1 PHẦN CỨNG 4

2.1.1 Raspberry Pi 4

2.1.2 Cảm biến âm thanh tích hợp AGC MAX9814 5

2.1.3 LCD 6

2.1.4 Bộ chuyển đổi âm thanh sang USB (USB Sound Card) 9

2.1.5 Mạch khuếch đại âm thanh PAM8403 10

2.1.6 Mô-đun cảm biến nhiệt độ DS18B20 11

Trang 10

2.2.1 Hệ điều hành Raspbian 11

2.2.2 Ngôn ngữ lập trình Python 12

2.2.3 Nhận diện giọng nói và chuyển lời nói thành văn bản 14

2.2.4 Nhận diện lời nói sang văn bản sử dụng các thư viện mã nguồn mở 18 2.2.5 Thuật toán khoảng cách Levenshtein 22

2.2.6 Chuẩn tích hợp I2C 23

CHƯƠNG 3: THIẾT KẾ HỆ THỐNG GIAO TIẾP, ĐIỀU KHIỂN THIẾT BỊ BẰNG GIỌNG NÓI……….25

3.1 SƠ ĐỒ KHỐI CỦA HỆ THỐNG 25

3.2 SƠ ĐỒ MẠCH NGUYÊN LÝ CỦA HỆ THỐNG 26

3.3 THIẾT KẾ HỆ THỐNG GIAO TIẾP, ĐIỀU KHIỂN THIẾT BỊ BẰNG GIỌNG NÓI 27

3.3.1 Khối thu thiết bị âm thanh 27

3.3.2 Khối xử lý trung tâm 28

3.3.3 Khối điều khiển thiết bị 29

3.3.4 Mạch khuếch đại âm thanh PAM8403 33

3.3.5 Mô-đun cảm biến nhiệt độ DS18B20 34

3.4 LƯU ĐỒ GIẢI THUẬT CỦA HỆ THỐNG 35

CHƯƠNG 4: KẾT QUẢ VÀ THỰC HIỆN 40

4.1 HỆ THỐNG CHÍNH 40

4.2 HOẠT ĐỘNG CỦA HỆ THỐNG 44

CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI 49

5.1 Kết luận 49

5.2 Hướng phát triển 50

TÀI LIỆU THAM KHẢO 51

iv

Trang 11

DANH MỤC HÌNH ẢNH

Hình 2.1: Kích thước và sơ đồ chân GPIO của Raspberry Pi Zero W 5

Hình 2.2: Cảm biến âm thanh tích hợp AGC MAX9814 6

Hình 2.3: Hình ảnh mô phỏng của LCD 16x2 7

Hình 2.4: Bộ chuyển đổi âm thanh sang USB (USB Sound Card) 9

Hình 2.5: Mạch khuếch đại âm thanh PAM8403 10

Hình 2.6: Module cảm biến nhiệt độ DS18B20 11

Hình 2.7: Các phiên bản của hệ điều hành Raspbian 12

Hình 2.8: Mô hình một hệ thống chuyển đổi lời nói sang văn bản 15

Hình 2.9: Sơ đồ khối quá trình tính MFCC của lời nói 16

Hình 2.10: Các bộ lọc trong thang Mel 17

Hình 2.11: API 22

Hình 2.12: Sơ đồ giao tiếp chuẩn I2C 24

Hình 3.1: Sơ đồ hệ thống giao tiếp, điều khiển thiết bị bằng giọng nói 25

Hình 3.2: Sơ đồ nguyên lý cảm biến âm thanh tích hợp AGC MAX9814 27

Hình 3.3: Sơ đồ mạch nguyên lý của module điều khiển thiết bị 29

Hình 3.4: Sơ đồ nguyên lý của 1 mạch relay 29

Hình 3.5: Relay 31

Hình 3.6: Sơ đồ nguyên lý relay 32

Hình 3.7: Sơ đồ nguyên lý mạch khuếch đại âm thanh PAM8403 33

Hình 3.8: Lưu đồ tổng quát 35

Hình 3.9: Lưu đồ giải thuật của khối chào người dùng 36

Hình 3.10: Lưu đồ giải thuật của khối nhận diện tiếng nói và thực hiện lệnh 37

Hình 3.11: Lưu đồ giải thuật của khối hiển thị LCD và khối đo nhiệt độ 39

Hình 4.1: Mô hình hệ thống 2 tầng 40

Hình 4.2: Tầng trên của hệ thống 41

Hình 4.3: Tầng dưới của hệ thống 42

Hình 4.4: Các nguồn cấp dùng trong hệ thống 43

Trang 12

Hình 4.6: Điều khiển đèn/quạt thứ hai 46Hình 4.7: Trường hợp điều khiển 2 đèn/2 quạt 47Hình 4.8: Trường hợp hiển thị nhiệt độ và thời gian thực trên LCD 47

vi

Trang 13

DANH MỤC BẢNG

Bảng 2.1 Các giao tiếp của mô-đun Raspberry Pi Zero W 5

Bảng 2.2 Chức năng chân của LCD 16x2 7

Bảng 2.3 Thông số kỹ thuật của LCD 16x2 8

Bảng 3.1 Thông số kỹ thuật của cảm biến âm thanh tích hợp AGC MAX9814 27 Bảng 3.2 Thông số của Raspberry Pi Zero W 28

Bảng 3.3 Các chuẩn kết nối của Rapsberry Pi Zero W 28

Bảng 3.4 Thông số ngõ vào của opto PC817 30

Bảng 3.5 Thông số ngõ ra của opto PC817 30

Bảng 3.6 Thông số kỹ thuật của transistor C1815 30

Bảng 3.7 Thông số kỹ thuật của diode 31

Bảng 3.8 Thông số kỹ thuật của mạch PAM8403 33

Bảng 3.9 Thông số kỹ thuật của mô-đun DS18B20 34

Trang 15

CHƯƠNG 1 : TỔNG QUAN

1.1 TÌNH HÌNH NGHIÊN CỨU

Cùng với sự phát triển của công nghệ ngày càng cao, nhu cầu về đời sống củacon người cũng trở nên đa dạng hơn Từ những thế kỉ trước, con người đã mơ mộng

về những ngôi nhà có đầy đủ tiện nghi, tự do điều khiển từ xa hoặc dùng giọng nói

ra lệnh mà không cần phải bật, tắt một công tắt nào Từ đầu những năm 2000, côngnghệ Smart home đã không còn là thuật ngữ mới lạ với các nước tiên tiến trên thếgiới và một trong những ngôi nhà thông minh đầu tiên trên thế giới được thiết kế cóthể được kể đến là biệt thự Thái Bình Dương của tỉ phú Bill Gate

Vào đầu những năm 2010, với sự bùng nổ của Deep Learning con người đã mởsang một trang sử hoàn toàn mới “Chiếc chìa khoá vạn năng” này đã giúp giải đáprất nhiều nút thắt trong nghiên cứu từ lâu về trước và trong đó phải kể đến công nghệnhận diện giọng nói Công nghệ nhận diện giọng nói sớm nhất là hệ thông Audrey,

do Bell Labs chế tạo vào năm 1952, vì là công nghệ đầu tiên nên vẫn còn rất nhiềuhạn chế như chỉ có thể nhận diện được chữ số Nhờ có sự ra đời Deep learning đãgiúp nhận diện giọng nói trở nên chính xác đến kinh ngạc

Những năm gần đây, các nước tiên tiến đã dần chế tạo và ứng dụng cácphương pháp nhận diện giọng nói điều khiển thiết bị nhầm phục vụ vào đời sống,sản xuất, y tế… Như là Google Assigtant của Google phát triển trên các ứng dụngAndroid vào tháng 2 năm 2017 đã tạo tiếng vang lớn Riêng ở nước ta cần có sựđầu tư để nghiên cứu theo kịp công nghệ mới này để phục vụ trực tiếp cho côngviệc giảng dạy tại trường nhằm giúp sinh viên hiểu rõ hơn về lý thuyết, tạo điềukiện cho sinh viên có những ý tưởng mới trên nền tảng đã có sẵn

Giới thiệu đề tài: Nhận thấy khả năng phát triển và nhu cầu về giao tiếp,điều khiển thiết bị bằng chính giọng nói của bản thân và những người yêu thích

sử dụng dịch vụ này, nhóm đã thực hiện đề tài : “ Thiết kế hệ thống giao tiếp,điều khiển thiết bị thông minh”

1.2 MỤC TIÊU ĐỀ TÀI

Đề tài: “Thiết kế hệ thống giao tiếp, điều khiển thiết bị thông minh” sẽ tìm hiểu

Trang 16

khoảng cách Levenstein, ngôn ngữ lập trình Python Dựa trên các lý thuyết trên,nhóm thực hiện thiết kế một mô hình nhận diện giọng nói tiếng Việt có thể trựctiếp giao tiếp và điều khiển thiết bị.

1.3 GIỚI HẠN ĐỀ TÀI

Đề tài sử dụng một số thư viện và các tải như sau:

 Thư viện mã nguồn mở Google Speech

 Nghiên cứu và ứng dụng thuật toán khoảng cách Levenstein.

 Điều khiện 2 đèn, 2 quạt.

 Hiển thị trên LCD 16x2.

1.4 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU

1.4.1 Đối tượng nghiên cứu

Đề tài nghiên cứu những đối tượng sau:

 Hệ thống nhúng Raspberry Pi Zero

 Thuật toán khoảng cách Levenstein.

 Google Service API

1.4.2 Phạm vi nghiên cứu

Lập trình ứng dụng sử dụng ngôn ngữ Python phát triển trên nền tảng Raspberry

1.5 BỐ CỤC ĐỀ TÀI

Chương 1: Tổng quan: Ở chương này, nhóm sẽ trình bày tổng quan về tình

hình nghiên cứu nhận diện giọng nói trên thế giới và nước ta từ đó đưa ra lý dochọn đề tài, các mục tiêu khi nghiên cứu và giới hạn đề tài Cuối cùng nhóm thựchiện sẽ trình bày sơ lược về bố cục đề tài

Chương 2: Cơ sơ lý thuyết: Chương này trình bày tất cả các lý thuyết và

thông số kỹ thuật của các thiết bị, linh kiện được sử dụng trong đồ án tốt nghiệp

Chương 3: Hệ thống điều khiển thiết bị thông minh: Chương này trình bày

về sơ đồ khối của hệ thống, sơ đồ mạch nguyên lý của hệ thống, sơ đồ mạch nguyên

lý của từng thiết bị Bên cạnh đó là lưu đồ giải thuật từng khối của hệ thống

2

Trang 17

Chương 4: Kết quả: Chương này trình bày về mô hình hệ thống điều khiển

thiết bị thông minh và hướng dẫn sử dụng hệ thống

Chương 5: Kết luận và hướng phát triển: Trong chương này nhóm sẽ đưa

ra kết luận về đề tài dựa trên mục tiêu ban đầu đặt ra và kết quả thực tế Bên cạnh

đó là đưa ra hướng phát triển của đề tài

Trang 18

CHƯƠNG 2 : CƠ SỞ LÝ THUYẾT

2.1 PHẦN CỨNG

2.1.1 Raspberry Pi

Là thuật ngữ để chỉ các máy tính chỉ có một board mạch (hay còn gọi làmáy tính nhúng) có kích thước nhỏ gọn, được phát triển tại Anh bởi Raspberry PiFoundation với hướng đối tượng ban đầu là sinh viên, học sinh nhưng sau khiphát hành lại được đông đảo đối tượng đồng lĩnh vực hưởng ứng tích cực

Nhóm chọn phiên bản Raspberry Pi Zero W được phát triển từ bản Zero gầnnhất Mục đích chế tạo ra bản Pi Zero W nhắm đến chi phí thấp cho tất cả mọingười, đồng thời tạo ra một thiết bị thật nhỏ gọn nhưng đầy đủ tính năng BảnZero W vẫn hoạt động trên Linux hỗ trợ 1080p, nhưng lại rất nhỏ so với các bảnkhác, giúp người sử dụng dễ dàng mang đi, sử dụng đưa người dùng đến sát vớithế giới mạng lưới mọi vật kết nối internet (Internet of Things)

Giờ đây bản Zero W còn được tích hợp thêm 2 điểm đặc biệt là Wifi vàBluetooth Mạch Wifi và Bluetooth được sử dụng giống hệt trong phiên bảnRaspberry Pi 3, chỉ khác ở phần ăng-ten Ăng-ten trên Pi 3 là chip SMD cònĂng-ten trên Zero W là loại rời được hàn trên board

Rapsberry Pi Zero W có kích thước 65 mm x 30 mm x 5 mm với 40 chânGPIO, có chuẩn đầu ra là Micro USB, sử dụng chip Broadcom BCM 2835 (giốngBản Pi 1) nhưng nâng cấp lên 1GHz, nhanh hơn 40%, với ARM11, CPU lõi đơn,dung lượng RAM là 512MB, với khả năng lữu trữ bằng thẻ MicroSD, xuất videodưới dạng 1080P HD và âm thanh kết nổi qua đầu mini HDMI Raspberry Pi Zero

W sử dụng nguồn 5V, được cung cấp qua đầu MicroUSB, có mạng LAN không dây 2.4GHz 802.11n, Bluetooth classic 4.1 và BLE

4

Trang 19

Hình 2.1: Kích thước và sơ đồ chân GPIO của Raspberry Pi Zero W Hơn

nữa, Rapsberry Pi Zero W còn có rất nhiều các chuẩn giao tiếp sau:

Bảng 2.1 Các giao tiếp của mô-đun Raspberry Pi Zero W

2.1.2 Cảm biến âm thanh tích hợp AGC MAX9814

Thiết bị thu tín hiệu âm thanh ở đây là dùng cảm biến âm thanh MAX9814(Microphone Amplifier Module) tích hợp bộ tự động điều chỉnh độ khuếch đạiAGC với khả năng tự động điều chỉnh độ khuếch đại Nhờ công nghệ mới nàycác âm thanh lớn khi đi qua mạch sẽ tự động giảm tới mức được cài đặt mặcđịnh, tương tự các âm thanh nhỏ sẽ tự động tăng tới mức ấn định mà không cầnđiều chỉnh thủ công nào

Trang 20

Hình 2.2: Cảm biến âm thanh tích hợp AGC MAX9814

Phần trên của bo mạch có hàn 1 micro điện tử 20-20kHz giúp người dùng

dễ dàng thu tín hiệu âm thanh Ta cũng có thể thấy mô-đun có 5 ngõ ra bao gồm:Chân AR không được dùng tới , GND là chân nối đất, Vdd là chân nối nguồn,Gain là lựa chọn mức âm thanh xác lập cho bộ tự động điều chỉnh độ khuếch đại

và chân Out là ngõ tín hiệu đầu ra Theo trên thông số ghi trên mô-đun ta có 3trạng thái khi không cấp điện thì mặc định mức xác lập là 60dB, khi cấp vào làđất (GND) thì mức xác lập là 50dB và nếu cấp vào là nguồn (Vdd) thì mức xáclập sẽ rơi vào 40dB

2.1.3 LCD

Thiết bị hiển thị LCD 16x2 (Liquid Crystal Display) được sử dụng trong rấtnhiều các ứng dụng của vi điều khiển LCD 16x2 có rất nhiều ưu điểm so với cácdạng hiển thị khác như: khả năng hiển thị kí tự đa dạng (chữ, số, kí tự đồ họa), dễdàng đưa vào mạch ứng dụng theo nhiều giao thức giao tiếp khác nhau, tiêu tốnrất ít tài nguyên hệ thống mà giá thành lại phải chăng

6

Trang 21

Hình 2.3: Hình ảnh mô phỏng của LCD 16x2 Bảng 2.2 Chức năng chân của LCD 16x2

Chân1

23

4

5

Trang 22

7 14

-1516

Bảng 2.3 Thông số kỹ thuật của LCD 16x2

Trang 23

8

Trang 24

Tích hợp Jump chốt để cung cấp

đèn cho LCD hoặc ngắt

Tích hợp biến trở xoay điều chỉnh

độ tương phản cho LCD

2.1.4 Bộ chuyển đổi âm thanh sang USB (USB Sound Card)

Cáp USB Sound Adapter 7.1 Chanel (có thể làm việc với Raspberry Pi) cókích thước nhỏ gọn, dễ dàng kết nối và sử dụng giúp máy tính có thêm cổng tainghe (Headphone) và cổng vi âm (Microphone) đặc biệt là các loại máy tínhnhúng nhỏ thường bị thiếu hai cổng này: Raspberry Pi, Beaglebone,

Hình 2.4: Bộ chuyển đổi âm thanh sang USB (USB Sound Card)

Một số thông số kỹ thuật của USB Sound Card: Tốc độ tối đa 12Mbps, tíchhợp USB Audio Device Class Specifiaction 1.0, có lớp USB HID 1.1, có chế độchạy bằng bus USB không cần nguồn ngoài, có đèn LED báo hiệu Ngoài ra cóhiệu ứng âm thành ảo 7.1, Xear 3D, không có trình điều khiển và không cần trìnhđiều khiển cho Windows Linux, Macos,…

Bộ chuyển đổi âm thanh sang USB bao gồm đầu ra 3.5mm, jack cắm đầuvào 3.5mm, cổng S / PDIF đồng trục, đầu cắm quang S / PDIF

Máy tính sử dụng các bit để giao tiếp Các bit này khi kết hợp lại với nhau cóthể mang số lượng thông tin khổng lồ Nhưng các bit này cần một đường dẫn để

9

Trang 25

chúng có thể truyền đến các bộ phận khác nhau bên trong máy tính Và bộchuyển đổi âm thanh sang USB giúp dẫn truyền các bit âm thanh từ máy tính đếncác thiết bị phát nhạc bên ngoài.

Chẳng hạn như dàn loa ngoài và âm ly sẽ cần bộ chuyển đổi âm thanh sangUSB để có thể đọc được tín hiệu từ máy tính truyền sang Máy tính không tươngthích với những thiết bị loại này, chính vì vậy chúng ta cần bộ chuyển đổi âmthanh sang USB để làm trung gian kết nối

Bộ chuyển đổi âm thanh sang USB sẽ biến đổi các bit máy tính thành dạngsóng âm thanh truyền dẫn, sau đó được đầu thu của loa ngoài hoặc amply tiếp nhậnthông qua các jack cắm Từ đó, các vi mạch bên trong bộ âm ly sẽ giải mã các bitnày và biến chúng thành các tín hiệu âm thanh tương thích Từ đó, loa ngoài sẽ cóthể phát nhạc đồng bộ với bài hát đang được mở trên laptop hoặc máy tính

2.1.5 Mạch khuếch đại âm thanh PAM8403

Mạch khuếch đại âm thanh PAM8403 6W Hifi 2.0 Class D (không volume)với tổng công suất 6W, được thiết kế nhỏ gọn phù hợp với các mô hình âm thanhquy mô nhỏ Điện thế hoạt động từ 2.5 đến 5VDC, mạch vô cùng dễ hỏng khiđiện thế vượt quá 5.5V hoặc đấu ngược Tuy nhỏ gọn nhưng hiệu suất của mạchlên đến 90%, chuẩn khuếch đại Class D mang lại âm thanh chất lượng cao vàhiệu suất vượt trội

Trang 26

Phía dưới mạch có 2 ngõ ra với 2 cặp nguồn, đất kết nối với loa được sửdụng từ nguồn 5VDC cấp từ phía trên của mạch Tín hiệu vào được kết nối vào 2chân L và Đất (┴).

2.1.6 Mô-đun cảm biến nhiệt độ DS18B20

Mô-đun cảm biến nhiệt độ DS18B20 là loại cảm biến số với độ phân giảicao 12 bit, cảm biến nhiệt độ DS18B20 có thể đo nhiệt độ chính xác với sai số rấtnhỏ và sử dụng được ở nhiều môi trường

Hình 2.6: Mô-đun cảm biến nhiệt độ DS18B20

Mô-đun cảm biến nhiệt gồm ba ngõ ra: chân + là chân nối nguồn, chân – làchân nối đất và chân out cho dữ liệu đầu ra thông qua một trở dán có giá trị 4.7KΩ

2.2 PHẦN MỀM

2.2.1 Hệ điều hành Raspbian

Raspbian là một hệ điều hành máy tính dựa trên Debian cho Raspberry Pi

Có một số phiên bản của Raspbian bao gồm Raspbian Stretch và Raspbian Jessie

Từ năm 2015, nó đã được Raspberry Pi Foundation chính thức cung cấp như là

hệ điều hành chính cho gia đình máy tính bảng đơn Raspberry Pi Raspbian đượctạo ra bởi Mike Thompson và Peter Green như một dự án độc lập Bản dựng banđầu được hoàn thành vào tháng 6 năm 2012 Hệ điều hành vẫn đang được pháttriển tích cực Raspbian được tối ưu hóa cao cho các CPU ARM hiệu suất thấpcủa dòng Raspberry Pi

11

Trang 27

Raspbian sử dụng PIXEL, Pi I đã xác nhận X-Window Enviroment,Lightweight là môi trường máy tính để bàn chính của nó kể từ bản cập nhật mớinhất Nó bao gồm một môi trường máy tính để bàn LXDE được sửa đổi và trìnhquản lý cửa sổ xếp chồng Openbox với một chủ đề mới và một vài thay đổi khác.

Sự phân bố được xuất xưởng với một bản sao của chương trình máy tính đại sốMathematica và một phiên bản của Minecraft gọi Minecraft Pi cũng như mộtphiên bản nhẹ của Chromium như của phiên bản mới nhất

Lịch sử các phiên bản của hệ điều hành Rapbian:

Hình 2.7: Các phiên bản của hệ điều hành Raspbian

Các phiên bản của Python:

Trang 28

Python 1: Bao gồm các phiên bản 1.x Phiên bản đầu tiên do CWI (Centrum

voor Wiskunde en Informatica - Trung tâm Toán-Tin học tại Amsterdam, HàLan) Phiên bản cuối cùng tại CWI là python 1.2 Tiếp đến là bản 1.6 được pháthành tại CNRI (Corporation for National Research Initiatives ở Reston, Virginia).Cuối cùng là bản 1.6.1 ra đời là bản nâng cấp của bản 1.6 với việc sửa đi nhiềulỗi ở bản trước

Python 2: Được ra đời vào năm 2000 Phiên bản python 2.0 được phát hành

tại BeOpen.com Tiếp đến là bản Python 2.1 được ra đời nhằm kế thừa từ phiênbản 1.6.1 và 2.0

Python 3: Còn được gọi với 2 tên khác là Python 3000 hoặc Py3K Về cơ

bản Python 3.x không hoàn toàn tương thích với Python 2.x nhưng sẽ có công cụchuyển từ Python 2.x sang 3.x Nguyên tắc để tạo ra Python 3.x là “ bỏ cách làmviệc cũ nhằm hạn chế trùng lặp về mặt chức năng của Python”

Các tính năng của Python:

Phần mềm được miễn phí, mã nguồn mở: Python có thể được cài đặt miễn phí hoàn toàn Với mã nguồn bạn, Python có thể cho phép người sử dụng tự do thay đổi mã nguồn Hơn nữa, Python còn có một cộng đồng hỗ trợ rộng lớn như

“https://www.reddit.com/r/learnpython/”, “https://groups.google.com/forum/#!forum/comp.lang.python”, “https://stackoverflow.com/tags/python”

Khả năng mở rộng và có thể nhúng: Khi một chương trình đòi hỏi sử phốihợp giữa các ngôn ngữ với nhau, Python hoàn toàn có thể đáp ứng được Ngườidùng có thể kết hợp các phần code bằng ngôn ngữ C++, C# vào ngôn ngữPython Điều này sẽ giúp người dùng dễ dàng trong việc lập trình mà không lolắng về sự xung đột giữa các ngôn ngữ

Ngôn ngữ thông dịch cấp cao: Khi chạy code Python, nó sẽ tự động chuyểnđổi code sang ngôn ngữ mà máy tính có thể hiểu Hơn thế nữa, bạn không phải lolắng khi những nhiệm vụ như dọn dẹp bộ nhớ, quản lý bộ nhớ, …

13

Trang 29

Thư viện tiêu chuẩn lớn: Python có một hệ thống thư viện tiêu chuẩn với số lươngcực lớn, đủ để giúp người sử dụng không cẩn phải viết tất cả các code, dẫn đến việcngười dùng có thể lập trình đơn giản hơn rất nhiều so với các ngon ngữ khác.

Ứng dụng của Python:

Lập trình ứng dụng web: Bạn có thể tạo web app có khả năng mở rộngđược bằng cách sử dụng khung (framework) và hệ thống quản trị nội dung(CMS) - được tích hợp trong Python Một số nền tảng phổ biến để tạo web applà: Django, Flask, Pyramid, Plone, Django CMS Các trang như Mozilla, Reddit,Instagram và PBS đều được viết bằng Python

Khoa học và tính toán: Python hỗ trợ nhiều thư viện để tính toán khoa học cơbản và số liệu như: SciPy, NumPy Ngoài ra còn có những thư viện như EarthPy đểtính toán về mảng khoa học Trái Đất; AstroPy dùng cho Thiên văn học, … Hơn nữa,ngôn ngữ Python còn được sử dụng trong Machine Learning, Deep Learning

Tạo nguyên mẫu phần mềm: Python là ngôn ngữ tốt nhất để tạo ra nhữngnguyên mẫu (bản chạy thử - prototype)

2.2.3 Nhận diện giọng nói và chuyển lời nói thành văn bản

Giới thiệu:

Chuyển đổi lời nói thành văn bản (Speech to text) hay nhận diện lời nói làmột trong những công việc khó mặc dù nó có rất nhiều ứng dụng Lời nói là mộtdạng tín hiệu phức tạp bởi độ biến thiên lớn tùy thuộc vào nhiều yếu tố như cảmxúc, tuổi tác, giới tính và đặc điểm vùng miền của người nói Chính vì điều đó,

dữ liệu huấn luyện cho các mô hình nhận diện giọng nói phải đủ lớn Chuyển lờinói thành văn bản hoặc nhận diện giọng nói được ứng dụng nhiều trong các hệthống trả lời tự động, các ứng dụng chuyển đổi ngôn ngữ giao tiếp bằng giọngnói, các robot

Trang 30

Tín hiệu

Trích đặc trưng Feature extraction

Mô hình âm học Acoustic models

Giải mã Decoder

Mô hình ngôn ngữ Language models

Văn bản

Hình 2.8: Mô hình một hệ thống chuyển đổi lời nói sang văn bản

Một hệ thống chuyển đổi lời nói sang văn bản bao gồm trích rút đặc trưngcủa tín hiệu lời nói và bộ giải mã Tín hiệu âm thanh trong miền thời gian đượcbiểu diễn bởi mức âm lượng hay năng lượng theo thời gian được xử lý để trích racác đặc trưng của lời nói Thông thường, các tín hiệu sẽ được chuyển đổi quamiền tấn số để phục vụ cho quá trình xử lý và trích rút đặc trưng Một trongnhững phương pháp trích đặc trưng của lời nói được sử dụng phổ biến là sử dụngcác hệ số phổ tần số của ngôn ngữ gọi là MFCC Bộ giải mã sử dụng mô hình âmhọc và mô hình ngôn ngữ để tạo ra ngõ ra văn bản tương ứng từ các đặc trưngcủa tín hiệu lời nói Mô hình âm học thể hiện mối quan hệ giữa các tín hiệu lờinói và các âm vị Mô hình âm học giúp cho bộ giải mã xác định các âm vị trongtín hiệu lời nói Các âm vị được ghép lại với nhau nhờ các mô hình ngôn ngữ,Một số mô hình truyền thống được sử dụng cho bộ giải mã như mô hìnhGaussian (Gaussian Model), mô hình Markov ẩn (Hidden Markov Model) Hiệnnay các mạng học sâu có thể được sử dụng hiệu quả cho các bộ giải mã trong môhình chuyển đổi lời nói sang văn bản Các mạng học sâu được thiết kế để thựchiện một phần hoặc cả mô hình ngôn ngữ và mô hình ngữ âm trong bộ giải mãcủa hệ thống chuyển đổi lời nói sang văn bản

Trích rút đặc trưng tín hiệu lời nói:

MFCC là kỹ thuật được sử dụng phổ biến để trích rút đặc trưng của các tínhiệu lời nói trong các hệ thống nhận diện giọng nói hoặc chuyển giọng nói thành

15

Trang 31

văn bản MFCC là một quá trình xử lý và chuyển đổi tín hiệu lời nói từ miền thờigian sang miền tần số để thu được các giá trị đặc trưng của lời nói Mục đích củaMFCC là rút trích được các thông số tốt nhất diễn tả cho các tín hiệu âm vị.MFCC được thực hiện qua một số bước sau:

Mel Spectrum

Hình 2.9: Sơ đồ khối quá trình tính MFCC của lời nói

Bước đầu tiên là đưa các tín hiệu qua các bộ lọc để khuếch đại các hiệu cótần số cao (Pre-emphasis) Các bộ lọc có tác dụng cân bằng của tín hiệu bởi vì tần

số cao thường có mức năng lượng thấp hơn so các tần số khác trong phổ của tínhiệu lời nói Mặt khác, các bộ lọc còn có tác dụng cải thiện các hệ số của tín hiệutrên nhiễu (Signal-to-Noise Ratio) Các tín hiệu được đưa qua bộ lọc với phươngtrình sau:

Trang 32

Quá trình cửa sổ hóa sử dụng cửa sổ Hamming được minh hoạ trong phươngtrình sau:

()= () ()

( ) = 0.54 − 0.46 cos (

Trong đó, N là số mẫu trong mỗi đoạn

Các tín hiệu trong miền thời gian được chuyển sang miền tần số sử dụngphép biến đổi Fourier Kết quả của phép biến đổi ta thu được phổ năng lượng củatín hiệu Các tần số trong phổ năng lượng của quá trình chuyển đổi Fourier rấtrộng, trong khi đó đặc điểm tần số của lời nói là tập trung ở dãy tần số thấp (dưới1Khz và không tuyến tính) Một trong những giải pháp chia năng lượng trongphổ năng lượng của tín hiệu lời nói là sử dụng bộ lọc Mel

Hình 2.10: Các bộ lọc trong thang Mel

Tín hiệu được đưa qua các bộ lọc với dãy tần khác nhau Tại vị trí tần số thấp,chúng ta dùng các bộ lọc với dải tần số hẹp hơn vì tín hiệu lời nói tập trung nhiều

ởtần số thấp Ngược lại ở dải tần số cao, tín hiệu lời nói tập trung ít nên chúng ta

có thể sử dụng các bộ lọc với dãy tần rộng hơn Các bộ lọc với các dải tần khôngtuyển tính và trùng lặp nhau như trong hình 2.10 được gọi là các bộ lọc trongthang Mel Việc chuyển các tần số sang thang tần số Mel được thực hiện bởicông thức sau:

17

Trang 33

có thể sử dụng để phát triển các ứng dụng chuyển đổi từ lời nói sang văn bản nhưsau: Pocketsphinx, Google Speech, Google Cloud, Wit.ai, Houndify, IBM Speech toText API, Microsoft Bing Speech.

Sử dụng Pocketsphinx: Pocketsphinx là một API mã nguồn mở chuyển đổi

từ lời nói sang văn bản được tối ưu cho các thiết bị di động và các phần cứng cótốc độ xử lý hạn chế Hiện tại Pocketsphinx chỉ hỗ trợ bản tiếng Anh và có khảnăng hoạt động mà không cần kết nối internet

Sử dụng Wit.ai API: Wit.ai cho phép chuyển đổi từ lời nói sang văn bản Tuynhiên, Wit.ai đòi hỏi phải kết nối mạng internet và phải tạo một tài khoản từ Wit.ai.Tạo tài khoản là một chuỗi gồm 32 ký tự thường và điền vào chương trình

Sử dụng API mã nguồn mở như: Houndify, IBM Speech to Text, Bing VoiceRecognition và Google Cloud Tương tự như Wit.ai, các API mã nguồn mở như

Trang 34

Houndify, IBM Speech to Text, Bing to Voice Recognition và Google Cloudcũng đòi hỏi phải tạo một tài khoản trước khi sử dụng.

Do đa số các mã nguồn trên đều phải tạo một tài khoản đề sử dụng, nênnhóm làm đồ án quyết định chọn mã nguồn Google Speech Mã nguồn này có tốc

độ xử lý và trả về nhanh mà không cần phải tạo một tài khoản nào

Sử dụng Google Speech: Google Speech là một API chuyển đổi từ lời nóisang văn bản hỗ trợ nhiều ngôn ngữ trong đó có cả tiếng Việt Google Speechkhông đòi hỏi phải tạo tài khoản như mô hình đám mây của Google (GoogleCloud) Việc sử dụng API chỉ đơn giản bằng cách kết nối mạng internet Để tìmhiểu về cách sử dụng Google Speech mọi người có thể tham khảo đoạn code sau:

for I, microphone_name in enumrate(mic_list):

print(microphone_name, ‘Device ID: ‘, i)

decive_id = 0

r.pause_threshold = 0.5 # insecond

r.dynamic_energy_threshold = True

with sr.Microphone(device_index = device_id,

sample_rate = sample_rate, chunk_size =

Định dạng
Số trang	68
Dung lượng	3,56 MB