Slide 1 BÁO CÁO BÀI TẬP LỚN Mạng neural và ứng dụng trong bài toán nhận dạng tiếng nói Giáo viên hướng dẫn Trần Cao Trưởng Học viên thực hiện Phạm Minh Tài Lớp Tin học 2 – K41 Nguyễn Văn Cường Lớp Tin.
Trang 1BÁO CÁO BÀI TẬP LỚN Mạng neural và ứng dụng trong bài toán
nhận dạng tiếng nói
Giáo viên hướng dẫn: Trần Cao Trưởng
Học viên thực hiện:
-Phạm Minh Tài - Lớp Tin học 2 – K41
-Nguyễn Văn Cường - Lớp Tin học 2 – K41
Trang 2Các vấn đề nghiên cứu:
• Tổng quan về mạng neural
• Trích xuất đặc trưng file âm thanh dùng LPC
• Mạng nơron nhiều tầng (MLP)
• Giải thuật lan truyền ngược (back
propagation)
• Hệ thống nhận dạng tiếng nói
• Kết luận
Trang 3Mạng Neural nhiều tầng(MLP)
Trang 4Mạng Neural nhiều tầng(MLP)
• MLP(Multilayered Perceptron)
• MLP bao gồm tầng vào, tầng ra và các tầng ẩn
Trang 5Mạng Neural nhiều tầng(MLP)
• Số lượng các neural trong tầng input = số chiều
• Thông thường các mạng neural dùng 1 tầng ẩn
Số lượng các neural trong tầng ẩn thường được
chọn = ½ (số neural tầng input + số neural
trong tầng output)
• Chú ý: Các neural trong tầng input thực sự
không phải là các neural Nó chỉ là chỗ để đưa
dữ liệu của các mẫu vào
Trang 6Huấn luyện MLP
• Là quá trình thay đổi giá trị của w để mạng biểu diễn được tập dữ liệu học
• Sự khác nhau giữa giá trị thật của mẫu và kết quả dự đoán của mạng gọi là lỗi (học có giám
sát) Hàm lỗi thường dùng là sum squared
error
• Quá trình huấn luyện sẽ tìm các wi* để lỗi nhỏ nhất
Trang 7Một số giải thuật huấn luyện MLP
• Back propagation (khá nổi tiếng, dễ hiểu)
• Conjugate gradient descent &
Levenber-Marquardt (Bishop 1995, Shepherd 1997)
• Quick propagation (Fahlman, 1988)
• Delta-Bar-Delta(Jacob 1988)
Trang 8Giải thuật lan truyền ngược
• Xét một mạng neural 3 tầng: input, hiden,output
• Hàm kích hoạt của các nơ-ron: logistic sigmoid
Trang 9Giải thuật lan truyền ngược
• Giải thuật lan truyền ngược gồm 2 giai đoạn:
- Lan truyền tiến (tính output của các neural)
- Lan truyền ngược (thay đổi trọng số của các cung, dùng thông tin gradient của hàm lỗi)
Trang 10Gradient của hàm lỗi (1)
Trang 14Điều chỉnh trọng số
• Sau khi tính được đạo hàm riêng của hàm lỗi theo từng trọng số Trọng số sẽ được điều
chỉnh bằng cách trừ bớt 1 lượng bằng tích của đạo hàm riêng và tốc độ học:
Trang 15Hệ thống nhận dạng tiếng nói
- Mạng neural chỉ có thể nhận dạng tiếng nói khi nó đã được huấn luyện
- Đầu vào của bộ nhận dạng là một bộ tham
số đặc trưng của file âm thanh được trích xuất bằng phương pháp LPC