1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn Ứng dụng học sâu trong hệ thống chatbot hỗ trợ chăm sóc khách hàng

66 1 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng học sâu trong hệ thống chatbot hỗ trợ chăm sóc khách hàng
Tác giả Đinh Huy Tuấn
Người hướng dẫn TS. Lê Chí Ngọc
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Toán Tin
Thể loại Luận văn thạc sĩ
Năm xuất bản 2021
Thành phố Hà Nội
Định dạng
Số trang 66
Dung lượng 1,85 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

1.2 Mục tiêu để tài TIẹ thông chathot hỗ trạ tư vẫn tài chính và chấm sóc khách hàng là hệ thông nhằm cung cắp các chức năng chính của chatbot trong lĩnh vực tài chính và được giới hạn

Trang 1

TRƯỜNG DẠI HỌC BÁCH KHOA HÀ NỘI

Giảng viên hướng dẫn: T8.LÊ CHÍ NGỘC — œ4; „„gưp

HA NOT, 05/2021

Trang 2

LUAN VAN THAC sf ĐINH HUY TUẦN

Lời cam on

“Tác giả xin gửi lời cảm ơn trân trọng tới TS Lê Chí Ngọc, người đã trực tiếp hướng dẫn tác giả hết sức nhiệt tình, chu đáo, luôn động viên về mặt tỉnh thần

để tác giả có thể hoàn thành luận văn này lác giả xin trân trọng cảm ơn Viện

“toán Ứng dụng va ‘lin hoc, Phòng đào tạo U6 phan quản lý đào tạo sau đại học, Trường Đại học Bách Khoa Hà Nội

giá hoàn thành luận văn này, Cuối cùng, tác giả xin gửi lời cắm ơn tới gia đình, người Uban và bạn bè đã luôn động viên giúp đỡ tác giả trong suốt quá trình

thực hiện đề tài

lã tao mọi điều kiện thuận lợi để tác

Trang 3

LUAN VAN THAC sf ĐINH HUY TUẦN

Tom tắt nội đung luận văn

ác đã

Những năm gần đây, Chathol, đang được nghiền cứn và phát triển vái

chóng mặt bởi cáe trung tâm nghiên cửu, các trường đại học, học vien, các doanh

nghiệp và ứng dụng trong rất nhiều các lĩnh vực Cùng với sự phát triển của lĩnh vực học sâu, chatbot ngày càng linh hoạt trong việc hiểu ngôn ngữ và đưa

ra phản hồi một cách chính xác Trong nội dung của luận văn, tác giả tập trung

vào xây dựng Chatbot trên một rniễn cụ thể là lĩnh vực tài chính với ngôn ngữ

t Tác giả cũng đề xuất các phương pháp tích hợp mỡ hình học sãu

lý ngõn ngữ tự nhiên vào thành phẩn hiểu ngôn ngữ và thành phẩn quan lý hội thoại của Chatbot Kết quả thực nghiệm đã cho thấy việc áp dụng

Tw khéa: Deep learning, Natural Language Understanding, Dialag monage- meni, Intent Detection, Slot Filling

Hà Nội, ngày 14 tháng 05 nim 2021

Kí và ghi rõ họ tên Ki va ghi rỗ họ tên

Trang 4

Bi Nay dựng kiến trúc của chatbotl -

B.2_ Bài toán xác định ý định người dùng]|

8.2.1 Cac phương pháp biểu điền từ

8.2.2 Mô hình ngôn ngi

Trang 5

LUẬN VAN THAC Si DINH HUY TUAN

B.3.1 Các mô hình gần nhãn chuỗi (sequence Tabaling) 37

(Dual Tntent Entity Transformer)| - 46

50

Trang 6

1.2_ Kiến trúc của hệ thống tích hợp chatbot] 12

42

43

Trang 7

LUẬN VAN THAC Si ĐINH HUY TUẤN

14 _Két qua thuc nghiém bai ton xac dinh y dink] 58 [4.15 Ma trận Confussion bài toan xdc dinh y dink] 59

60

61

Trang 9

Mũ kùah phân luại ý định và thục thể đồng hờ:

Mồ kành Trausluriuer quản “ý bội thoại

Hiddea Markov model, M6 binh Markov da

©Condidtional Random Lield, Mô hình trường điều kiện ngẫu nhiện Convolution Neural Network, Mang neural tích chập

Recurent Neural Network, Mang reural hồi tiếp

Tongsharr Tem Xfemey, Mạng hộ nhớ dài-n,

Artificial Nenral Network, Mạng; nenral nhân tạo

Mã hình bị m từ hai ch

Hệ Luống hiểu ngồn ngữ tự nÌ

Trang 10

CHƯƠNG 1 MỞ ĐẦU

1.1 Lý đo lựa chọn đề tài

Những năm gần đây, ngành công nghệ théng tin và lĩnh vực máy hạc đang

phat trién rất nhanh và được ứng dụng rộng rãi Trong đó, Chatbot đang được nghiên cứu và phát triển với tốc độ chóng mặt bởi các trung tâm nghiên cứu, các

trường đại học, học viện, các doanh nghiệp và ứng dựng trong rất nhiễu các lĩnh vực Chatbot là ứng dựng phần mềm dùng trong hệ thống thảo luận trực tuyến bing vin bin hoặc văn ban chuyển thành giọng nói, thay vì thảo luận trực tiếp với người dùng thát Theo cách tương tác với người dùng, các chatbot thường được chia thành hai loại: âm thanh và tin nhắn Các chatbot được thiết kế phức tạp dựa trên nền tảng xử lý ngởn ngữ tự nhiên, nhưng cũng có nhiễu hệ thống

khắc đơn giản hơn bằng cách quối Lữ khóa trong dần vào, sau đồ lrả lời với từ

khốa phì hợp nhất, hoặc mẫn tt ngữ Lương tự nhất Trong có số di? liền

Cá rất nhiều công cụ cũng như thư viện hỗ trợ cho Chatbot như: Dialogflow,

Wit.ai, IBM Waston Service, RASA , hay như đối với tiếng Việt thì có TPT.AI,

Các công cụ, thư viện này hiện nay hầu hết đều áp dụng các công nghệ mới nhất của học máy, học sâu, để nàng cao khả năng giao tiếp của chương trình Chatbot

Đề chương trình Chatbot thực hiện giao tiếp thì cẩn có các kênh trên nên tảng

điện toán đám mây như Google Assistant va Amazon Alexa, dudéi tmg dung tin

nhấn như Eheehbook Messenger, WeChal, hoặc thông qua gái

nhàn như trong việt chăm sóc khách hàng (cung cấp thông tin sẵn phẩm, đưa ra

các thông tín gợi ý, giải đáp thắc mắc, .) Chatbot giúp tối ưu hóa năng suất,

giảm thiểu chí phí chăm sóc khách hang, chim sóc sức khỏe, đời sống con người

liiện nay, các nhà đầu tư hoặc người dùng sản phẩm tài chính có thể tìm hiểu

thông tin về các dịch vự tài chính thông qua các công cụ tìm kiếm thông tin trên internet và thông tin từ các công ty tài chính 'Luy nhiên những thông tin hữu ích và thiết thực với người dùng còn hạn chế, khách hàng phải mất rất nhiễu thời gian trong việc tìm hiểu thöng tin Cùng với đó, cách kênh chăm sốc khách hàng của các công ty tài chính chỉ có một lượng hữu hạn nhãn viên trực tổng

Trang 11

LUAN VAN THAC sf ĐINH HUY TUẦN

đài, không đủ để đáp ứng lượng lớn khách hàng, cũng như không thể đáp ứng trong mọi thời điểm

Với mong muốn tạo mộ chatbot có khả năng hỗ trợ tư vấn thông tin về tài

chính góp phần nâng cao trải nghiệm của khách hàng khi sử dụng sản phẩm tài chính, tôi đề xuất đề tài "Ứng đụng học sâu trong hệ thống chatbot hỗ trợ chăm sóc khách hàng" làm để tài luận văn của mình

1.2 Mục tiêu để tài

TIẹ thông chathot hỗ trạ tư vẫn tài chính và chấm sóc khách hàng là hệ thông

nhằm cung cắp các chức năng chính của chatbot trong lĩnh vực tài chính và được

giới hạn phạm vì hỗ trợ và chăm sóc khách hàng sử dụng các sản phẩm tài chính Chatbot ở đây một chương trình máy tính xử lý đầu vào ngôn ngữ tự nhiên từ người dùng và tạo ra các phản hồi thông 1ninh gửi lại cho người đùng Chatbot

được cung cấp bởi các công cụ điều khiển theo quy tắc hoặc công eụ thông mình

nhấn Lao Lương, với người dùng thông qua gian điện dha trên bản là chủ

yếu Đây là những chương trình máy tính độc lập, chạy ở mây chủ web có khế được tích hợp vào bất kỳ nền tảng nhắn tìn nào đã mổ cho các nhà phát triển thong qua các ADI như Facebook Messenger, Slack, RocketChat, Zalo,

lIệ thống tư vẫn tài chính dựa vào chatbot được xây dựng một nền tảng

chatbot hoàn chỉnh cho các công ty để giới thiệu giao điện trò chuyện trong lĩnh vực tài chính Chức năng chính của chatbot này là tư vấn thông tin sản phẩm tài chính nên chatbot cẩn có dữ liệu đủ lớn về tải chính - chứng khoán nhằm

hỗ trợ việc trả lời nhanh các yêu cẩu từ khách hàng như đặt lệnh giao dịch, hỏi thống tin sân phẩm, dang ký mỏ giới chứng khoán, đăng ký mỏ tài khoản chứng khoán,

Th

gặp

sản phẩm mang lại, đánh giá nhu c&u sử dụng của khách hàng Cùng với đó, số lượng sản phẩm và dich vu ngày càng tăng lên, khách hàng trả lên "ngập lụt" trong thông tin và đôi khi chính khách hàng cũng khäng nhận thức rã được nhu

cầu của mình nến rất khó để tự tìm kiếm sản phẩm phù hợp Ngoài ra, đối với

các khách hàng đã và đang sử dụng sản phẩm tài chính, nhu cầu vẻ được chăm

tổ khí tham gia vào sữ dụng các sẵn phẩm tài chính, khách hàng thường

L nhiều khổ khăn trong, lim h âu không tắn, cách sit dung, Idi ích mà

sóc và giải đáp các thắc mắc, hay thậm chí là phần nàn, gớp ý trong quá trình

sử dựng sản phẩm cũng rất cao

Nhu cầu tăng cao dẫn đến cần có một hệ thống tư vấn thông tin và chăm sóc khách hãng, Hạ thống này sẽ hỗ trợ cho người đùng lựa chọn các dịch vụ du lịch

Trang 12

LUẬN VAN THAC Si ĐINH HUY TUẤN

công ty tài chính, hệ thống này là các phần mềm hỗ trợ chức năng chat, hoặc

gọi điện giữa người vời người, được gọi là Contact Center Hệ thống này được

vận hành bời các tổng đài viên, là người trực tiếp giải đáp các thắc mắc, tư vấn

phục vụ khách hàng lại hữu hạn Cùng với đó, nhu cầu được giải đáp và tư vấn

ngay tại thời điểm đó của khách hàng cũng là một nhu cầu quan trọng nhưng

hệ thống hiện tại khó có thể đáp ứng (do các tổng đài viên chỉ phục vụ được

trong giờ hành chính, hoặc trong một khung giờ nhất định) Như vậy giải pháp

thay thé các tổng đài viên bằng chatbot mang lại rất nhiều hiệu qua Thứ nhất, chatbot có thể giải đáp một lượng lớn người dùng, không bị phụ thuộc vào số

lượng nhãn viên Thứ hai, chatbot nâng cao trải nghiệm người dùng do luôn

sẵn sàng phục vụ khách hàng, bất kể thời gian nào Khi tích hợp vào hệ thống,

chatbot đảm nhiệm chức năng như một tổng đài viên, bao gồm chat, gọi điện với khách hàng, thực hiện các tác vụ tra cứu thông tin, thao tác nghiệp vụ, .

Trang 13

LUẬN VĂN THẠC SĨ ĐINH HUY TUẤN

Ứng dụng mã nguồn mở Rasa để xây dựng thử nghiệm hệ thống chatbot hỗ

trợ chăm sóc khách hàng cho công ty chứng khoán

văn bao gồm: tìm hiểu các lý thuyết về học sâu vi

chatbot; Tim hiểu các phương pháp xử lý ngôn ngữ tự nhiên với ngôn ngữ Tiếng

tin từ người dùng và cuối cùng là tìm hiểu cách xây dựng và thiết kế một hệ

thống chatbot

n vụ của luận

các thuật toán liên quan đến

: tìm hiểu các phương pháp giải quyết bài t

1.3.2 Dối tượng và phạm vi nghiên cứu

Luận văn này nghiên cứu về ứng dụng học sâu để xử lý ngôn ngữ tự nhiên

Tiếng Việt trong Chatbot Luận văn cũng giới thiệu về mã nguồn mở Rasa và

thuật xây dựng chatbot Dữ liệu các cuộc hội thoại của hệ thống giao

dịch chứng khoán cũng đã được chuẩn bị

Phạm vi nghiên cứu là xây dựng và thực nghiệm hệ thống chatbot có thể thay

ế các nhãn viên chăm sóc khách hàng trong việc hỗ trợ người dùng sử dụng

hệ thống giao dịch chứng khoán và sản phẩm tài chính

1.3.3 Ý nghĩa khoa học và thực tiễn

“Thực nghiệm các giả thuyết về các kỹ thuật xử lý ngôn ngữ tự nhiên kỹ thuật tính toán độ tương đồng về mặt ngữ nghĩa trong văn bản Tiếng Việt giúp

chatbot hiểu được câu đầm thoại khi giao tiếp với con người Thực nghiệm các

kỹ thuật học máy, khai phá dữ liệu trong huấn luyện và trang bị khả năng tự

Trang 14

LUAN VAN THAC sf ĐINH HUY TUẦN

Khách hàng sử dụng sản phẩm tài chính giao tiếp với hệ thông chatbot hoat

đông tự động trên nền tẳng trí tuệ nhãn tạo, từng bước đưa Việt Nam bắt kịp

và hội nhập theo xu hướng phát triển của công nghiệp 4.0

'1ăng lượng người dùng đến với sản phẩm tài chính, nâng cao chất lượng chăn sóc khách hàng

Trang 15

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

2.1 Phương pháp hoc sau

Học sâu là một nhánh đặc biệt của ngành Học máy, và bắt đầu trở nên phổ

biến trong thập kỹ gắn đây do các nhà khoa họ đã có thể tận dung khả năng tính toán mạnh mẽ của các máy tính hiện đại cũng như khói lượng đữ liệu khổng

lồ (hình ảnh, âm thanh, văn bản ) trên Interncb

Các mạng huấn luyện theo phương pháp Lọc sâu còn được gọi với cái tên khác là mạng ndron sâu (Decp Neural Network) do cách thức hoạt động của chúng Về cơ bản, các mạng này bao gồm rất nhiều lớp khác nhau, mỗi lớp sẽ phan tích dữ liệu đầu vào theo các khía cạnh khác nhau và theo mức độ trừu

tượng nâng cao dần [13]

Vất cách hức học thông lần Lữ đữ liệu lần Tượi, qua rất nhiều lập, nhiều tầng

khác nhàn nhữ vậy, cáo phướng pháp này nó thể giúp cho mấy tính hiểu dược

những đữ liệu phức tạp bằng nhiêu lớp thông tin đơn giản qua từng bước phân

tích Dó cũng là lý do chúng được gọi là các phương pháp Ilọc sâu

"Tuy có nhiều điểm ưu việt trong khả, năng huẫn luyện máy tính cho các bài

toán phức tạp, Học sâu vẫn còn rất nhiều giới hạn khiến nó chua thể được áp

dụng vào giải quyết mọi vấn đề Điểm hạn chế lớn nhất của phương pháp này

là yêu cầu về kích thước đữ huấn luyện, mô hình huấn luyện Học sâu đòi hỏi phải sổ một lượng khổng lồ dữ liêu đầu vào để có thể thực hiện việc lọc qua

Mạng ncural nhân tạo là một mổ hình xử lý thöng tin phỏng theo cách thức

xử lý thông tin của các hộ ncural sinh học Nó được tạo nên từ một số lượng lớn

Trang 16

LUAN VAN THAC sf ĐINH HUY TUẦN

làm việc như mật thể thông nhất để siải quyết một vẫn để cụ thd nào đó |13| Câu trúc neural nhãn tạo được mâ tả như hình vẽ:

1iìna 3.1: ấu trúc neural nhân tạo

Các thành phẫn cơ bân của một ncural nhãn tạo bao gồm:

« Tân các đầu vào: Là n hiện vao (input signal} ofa neural, cdc tin hién

mày thường dược đưa vào dưới đạng một vector N chiền

« ‘Lap các liên kết: Mỗi liên kết được thể hiện bởi một trọng số liên kết

« Hộ tổng: Dược dùng để tính tổng của tích các đầu vào vái trọng số liên kết

« Dâu ra: Là tín hiện đầu ra của một neuraÌ, với mỗi neural sẽ có tối đa là

mot dau ra

2.1.2 Mật sô mã hình mang nenral

a Mang nhiéu tang truyén thing (MLP)

Mã hình mạng neuron được sứ dụng rộng rãi nhất là mỏ hình mạng nhiều tẳng truyền thẳng (MIP : Muli Tayer Persepiron), Một mạng MIIP bổng

1

Trang 17

LUAN VAN THAC sf ĐINH HUY TUẦN

b

quất là mạng 6 n (m > 2) tầng (thông thường tầng đầu vào không được

tính đến): trong đó gồm một tầng đầu ra (tang thứ ø} và (n — 1) tầng ẩn

nó Đầu ra của neuron tầng {rước là dẫn vào của neuron thuận Tầng liền gau

nó Hoạt động của mạng MLP như sau: tại tầng đầu vào các neuron nhận

tín hiệu vào xử lý (kính tổng trọng số, gửi tới hàm truyền) rồi cho ra kết quả (là kết quả của hàm truyền); kế quả này sẽ được truyền tới các neuron thuộc tầng ẩn thứ nhất; các ncuron tại đây tiếp nhận như là tín hiệu đầu

vào, xử lý và gửi kết quả đến tẳng ẩn thử 2; ; quá trình tiếp tục cho đến

họ các mạng neuron ưu việt được thiết, lý các dạng dữ

liệu thường có cấn trúc khöng gian Các kiến trúc dựa trên hiện nay xuất hiện trong mọi ngóc ngách của lĩnh vực thi giác máy tính, và đã trở thành

tham giá một cuức thí nào đồ liên quan tới nhận đạng ảnh, phái hiện

Các phép toán cơ bản nhằm tạo nên bộ khung sườn của tắt cả các mạng ndron tích chập bao gồm các tầng tích chặp coueolution, các chí tiết co ban

quan trọng như đệm (pudding) về, sửride, các tầng pooling dùng để kết hợp

thong tin qua các vùng không gian kề nhau và các bộ lọc /đfcr ở mỗi tang l|

Tầng tích chận:

“tong một tầng tích chập 9], một mảng đầu vào và một mang hat nhân

tương quan (&crzcl) được hợp để tạo ra mảng đầu ra bằng phép toán

tướng quan chếo, Theo m ¡ trục, kính thước dẫu ra nhỗ hơn rộ

đầu vào dẫu vào là mội mảng hai chiều vấi chiều dài W và chiều rộng H

Ta ki hiệu kích thước của mâng là W x 4 hodc (W, i) Chiéu dài và chiều

rông của hạt nhân đều là 3 Chú ý rằng trong cộng đồng nghiên cứu học

sâu, mảng này còn có thể được gọi là hạt nhan tích chập, bộ lọc hay đơn

Trang 18

LUAN VAN THAC sf ĐINH HUY TUẦN

thuần là trọng số của tầng Kích thước của cửa số hạt nhân là chiến đài và chiều rậng của hạt nhân (ở đây là :e x h )

Bởi vì hạt nhân có chiều dài và chiều rộng lớn hơn mật, ta chỉ có thé tinh

độ tương quan chéo cho những vị trí mà ở đó hạt nhân nằm hoàn toàn bên trong ảnh, kích thước đầu ra được tính bằng cách lấy đầu vào # x M/ trừ

kích thước của bộ lọc tích chập 6 x s bằng (# — h+ 1) x (W —œ +1) Diễu

này xảy ra vì ta cần đủ không gian để dịch chuyển hạt nhãn tích chập qua

tắm hình Kế tiếp, ta lặp trình quá trình ở trên trong hàm tương quan Hàm này nhận mảng đẫu vào X với mắng hạt nhân K và trả về mắng đầu ra Y Tang tích chấp thực hiện phép toán Lương quan chéo giữa đầu vào về hạt nhu, sau đó cống khêm một lệ số điều chỉnh để có được đầu ra Hai tham

số của Lằng tích chập là bai nhãn và hệ số điều chỉnh Nhi huẳn luyện mở

hình chứa các tầng tích chặp, ta thường khối tạa hạt nhãn ngẫu nhiên, giống

như cách ta làm với tầng kết nối dầy đủ |9|

Padding vA Stride:

Giả sử kích thước của dầu vào là nj, x my, va kích thước của cửa số hat nhan

tích chặp là kụ x kự , kích thước của dẫu ra sẽ là:

{nạ — Eạ — 1) X [nw — kụ + 1)

To đó, kích thước của din ra Lãng tích chấp dược xác dịnh bởi kích thước

đầu vào và kích thước cửa số hạt nhãn tích chập

Padding:

Nếu chúng la chèn thêm tổng cộng pạ hãng đêm (phần nửa ở phía trên và

phân nứa ở phía dưới) và p„ cột đệm (phân nửa bên trái và phân nửa bên phải), kích thước đầu ra sẽ là:

{nụ — Eạ + pạ + 1) X (nụ — Bạ + pạ + 1)

Stride:

Khi thực hiện phép tương quan chéo, ta bắt đầu với cửa sổ tích chap tại góc trên bên trái của mảng đầu vào, rồi đi chuyển sang phải và xuống dưới qua tắt cả các vị trí Trang các ví dụ trước, ta mặc định di chuyển qua một

điểm ảnh mỗi lần 'Luy nhiên, có những lúc để tăng hiệu suất tính toán hoặc

vì muốn giảm kích thước của ảnh, ta di chuyển cửa số tích chập nhiều hơn một điểm ảnh mỗi lần, bỏ qua các vị trí đ giữa

“La gọi số hàng va cét di chuyén qua mii lin la sdi bude (stride), Nhin chung,

khi sải bước theo chiều cao là ø;, và sải bước thoo chiều rộng là sự kích thước dầu na là:

Trang 19

LUẬN VAN THAC Si ĐINH HUY TUẤN

Khi xử lý ảnh, ta thường muốn giảm dần độ phân giải không gian của các

biểu diễn an, tổng hợp thong tin lai dé khi càng di sâu vào mạng, vùng tiếp

nhận (ở đầu vào) ảnh hưởng đến mỗi nút ẩn càng lớn Nhiệm vụ cuối cùng

thường là trả

của tầng cuối cùng thường cần phải chịn ảnh hưởng của toàn bộ đầu vào

Bang cach dan gop thong tin lai để tạo ra các ánh xạ trưng thưa dẫn,

ta sẽ học được một biểu diễn toàn cục, trong khi vẫn có thể giữ nguyên toàn

bộ lợi thế đến từ các tầng tích chập xử lý trung gian Hơn nữa khi phát

y nên các nút

¡ một câu hỏi nào đó về toàn bộ tấm ảnh Vị

hiện các đặc trưng cấp thấp như cạnh, ta thường muốn cách biểu diễn này bất biến với phép tịnh tiến trong một chừng mực đó Ví dụ, nến ta lấy

ảnh X với một ranh giới rõ rệt giữa màu đen và màu trắng và dịch chuyển

toàn bộ tam anh sang phải một điểm ảnh, tức Z{¿ 7] = XÍ¿.j + 1Ị thì đầu ra

cho ảnh mới Z có thể sẽ khác đi rất nhiều Đường biên đó và các giá trị kích

hoạt sẽ đều dich chuyén sang mot diém anh [9]

Max pooling va Average pooling

Giống như các tầng tích chập, các toán tử gộp bao gồm một cửa số có kích

thước cố định được trượt trên tất cả các vùng đầu vào với giá trị sải bước nhất định, tính toán một giá trị đầu ra duy nhất tại mỗi vị trí mà cửa sổ

(doi lúc được gọi là cửa sổ gộp) trượt qua Tuy nhiên, không giống như phép

toán tương quan chéo giữa đầu vào và hạt nhân ở tầng tích chap, tang gop không chứa bất kỳ tham số nào (ở đây không có “bộ lọc”) Thay vào đó, các

Trang 20

LUẬN VAN THAC Si ĐINH HUY TUẤN

bình của các phần tứ trong cửa sổ gộp Các phép tính này lần lượt được gọi

là là góp cực đại (max pooling) và gộp trung binh (average pooling)|9]

“Trong cả hai trường hợp, giống như với toán tử tương quan chéo, ta có thể

xem như cửa số gộp bắt đầu từ phía trêu bên trái của mảng đầu vào và

trượt qua mắng này từ trái sang phải và từ trên xuống dưới Ở mỗi vị trí

mảng con nằm trong cửa sổ (tùy thuộc vào phép gộp được sử dụng)

Cho đến nay, chúng ta đã gặp hai loại đữ liệu: các vector tổng quát và hình

ảnh Dữ liệu hình ảnh đã được thiết kế các tầng chuyên biệt nhằm tận dụng,

tính chính quy (regularity property) của hình ảnh Nói cách khác, nếu ta

hoán vị các điểm ảnh trong một ảnh, ta sẽ thu được một bức ảnh trông giống như các khuôn mẫu

m tra (test pattern) hay thay trong truyền

hình analog, và rất khó để suy luận về nội dung của chúng

Trong khi các mạng nơ-ron tích chập có thể xử lý hiệu quả thông tin trên chiều không gian thì các mạng nơ-ron hồi quy được thiết kế để xử lý thông, tin thần tự tốt hơn Các mạng này sử dụng các biến trạng thái để lưu trữ

thong tin trong quá khứ, sau đó dựa vào chúng và các đầu vào hiện tại để

xác định các đầu ra hiện tại [9]

Cac mang neural hồi quy, còn được biến đến như là RNNs, là một lớp của

mạng neural cho phép đầu ra được sử dụng như đầu vào trong khi có các

trang thai an [9] Thong thưởng là như sau:

19

Trang 21

LUẬN VAN THAC Si ĐINH HUY TUẤN

Be

Hinh 2.4: Kién trie mang RNN

Tai mdi bước 0, giá trị kích hoạt a“f> và đầu ra „“'> được biểu diễn như

aS? = gi (Waa + Wap? + ba)

Xử lý ngôn ngữ chính là xứ lý thông tin khi đầu vào là "dữ liệu ngôn ngữ" (dữ

đến ngôn ngữ viết (văn bản) và nói (tiếng nói) đang dần trở nên kiểu dit li

chính con người có và lưu trữ dưới dang điện tử Đặc điểm chính của các kiểu

dữ liệu này là không có cấu trúc hoặc nứa cấu trúc và chúng không thể lưu trữ

trong các khuôn dang cố định như ảng biểu Theo đánh giá của công ty

Oraele, hiện có đến 80% dữ liệu không cấu trúc trong dữ liệu của loài người đang,

có Với sự ra đời và phổ biến của Internet, của sách báo điện tử, của máy tính cá

ai cũng có thể tạo ra dữ liện văn

ban hay tiếng nói Vấn đề là làm sao ta có thể xử lý chúng, tức chuyền chúng từ

các đạng ta chưa hiển thành các dang ta có thể hiểu và giải thích được, tức là

ta có thể tìm ra thông tin, tri thức hữu ích cho mình [15]

lẽ

nhân, của viễn thông, của thiết bị am thanh,

Trang 22

LUAN VAN THAC sf ĐINH HUY TUẦN

2.2.2 Mọt số khái niệm co ban

a Ngôn ngữ tự nhiên

Ngôn ngữ là bệ thông để giao thiếp hay suy luận dùng một cách bidu d

phếp ấn dụ và một loại ngữ pháp theo logic, mdi cach bao hầm mỗi liều

chuẩn tay nự thật thuộc lịch sử và siêu việt

bộ, âm thanh, lý hiệu, hay chữ viết, và cỗ gắng truyền khái niệm, ý nghĩa,

và ý nghĩ, cho nên khó phân biệt[14]

Nhiều ngôn ngữ sử dụng diệu

- Xử lý ngôn ngữ bự nhiên

Xit ly ngon ngét ty nhién (natural language processing - NLP) 18 một nhánh

cửa trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người Trong trí tuệ nhân tạo thì xứ lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ

- công cụ hoàn hảo nhất của sư duy [H4]

6 Thí tuệ nhân fạa

“tí tuệ nhần tạo hay trí thông rninh nhần tạo (tiếng Anh: artificial intolli-

gence hay machine intelligence, thường được viết tắt là AI) là trí tuệ được

Nhập nhằng trang ngôn ngữ lọc là, hiện tượng thường gặp, trong giao tiển

thằng ngây eøn ngưài ít dễ ý đến nổ bởi vì họ xi lý lỗt hiện Lượng này, Nhưng

trong các ứng dụng liên quan đến xử lý ngôn ngữ tự nhiên khi phải thao tác

với ý nghĩa từ vựng mà điển hình là địch tự động nhập nhằng trở thành vần

đề nghiêm trọng Ví đụ trong một cầu cần dịch có xuất hiện từ đường, vẫn

để nảy sinh là cần địch từ này là road hay susar, con người xác định chúng

khá đễ đàng căn cứ vào văn cảnh và các dâu hiệu nhận biết khác nhưng với máy thì không Một số hiện tượng nhập nhằng: N

Trang 23

LUAN VAN THAC sf ĐINH HUY TUẦN

về cấu trúc của mật trình biên dịch và mối liên hệ giữa nó với các thành phần

khác - "họ hàng" của nó - như bộ tiền xử lý, bộ tải và soạn thảo liên kết, v.v

Cầu trúc của trình biên địch được mô tã trong chương là một câu trúc mức quan

niệm bao gồm các giai đoạn: Phân tích từ vựng, Phân tích cú pháp, Phân tích ngữ nghia [15]

a Phan tich tu vung (Lexical Analysis)

‘Lrong một trình biên địch, giai đoạn phân tích từ vựng sẽ đọc chương trình

nguễn từ trai sang phải để tách ra thành các thẻ từ

b Phân tích cú pháp (Syntax Analysis)

Giai đoạn phân tích cú pháp thực hiện công việc nhóm các thẻ từ của chương trình nguồn thành các ngữ đoạn văn phạm, mà sau đó sẽ được trình biên

địch tổng hợp thành thành phẩm Thông thường, các ngữ đoạn văn phạm

nầy dược biểu thến bằng dạng cây phần tích cú pháp {parse Lree)

c Phân tích ngữ nghĩa (Semenlie Analusis)

Giai đoạn phần tích ngữ nghĩa sẽ thực hiện việc kiểm tra xem chương trình

vẽ kiểu

nguồn có chứa lỗi về mặt ngữ nghĩa không và tập hợp thông tì

Một phần quan trọng trong giải doạn phần lích ngữ nghĩa là kiếm 1ra kiểu

và ép chuyển đổi kiểu

2.2.4 Cáu ứng dụng dủa xử lý ngồn ngữ Lự nhiên

1 Nhận dạng tiếng nói (speech recognition)

“Từ sống tiếng nói, nhận biết và chuyển chúng thành đít liệu văn bản Lương

hơn, chẳng hạn thay ¡nào đó bạn đạp nổ lên và trình soạn

thảo sẽ tự ghi nó ra Đay cũng là bước dầu tiên cần phải thực hiện trong ước mơ thực hiện giao tiếp giữa con người với robot Nhạn dạng tiếng nồi

có khả năng trợ giúp người khiểm thị rất nhiều |I2|

9 Tổng hợp tiếng nói (speech synthesis)

“Từ dữ liệu văn bản, phân tích và chuyển thành tiếng người nói Thay vì

phải sự đọc một cuỗn sách hay nội dung một trang web, nó tự động đọc cho

g như nhận dạng tiếng nói, tổng hợp tiếng nói là sự trợ giúp

tốt cho người khiếm thị, nhưng ngược lại nó là bước cuỗi cùng trong giao

tiếp giữa người với robot [12]

3 Nhận đụng chữ faplical characler recognition, OCR)

Trang 24

LUAN VAN THAC sf ĐINH HUY TUẦN

đạng văn bản điện tử như dưới định dạng doc của Mierosoft Word chẳng hạn Phức tạp hơn là nhận dạng chữ viết tay, có khó khăn bởi vì chữ viết

tay không có khuôn đạng rõ ràng thay đổi từ người này sang người khác

Với chương trình nhận dạng chữ viết in có thể chuyển hàng ngàn đầu sách trong thư viện thành văn băn điện tứ trong thời gian ngắn Nhận dạng chữ viết của con người có ứng dụng trong khoa bọc hình sự và báo mat thong tin (nhận đạng chữ kỹ điện tử) [12]

- Dịch tự động (mochine translotion)

“từ một tệp đữ liệu văn bản trong một ngôn ngữ (ví dụ như tiếng Anh), máy tính dịch và chuyển thành một tệp văn bản trong một ngồn ngữ khác [12],

T6m tắt van bin fiext summarization}

“Từ một văn bản dài, máy tóm tắt thành một văn bản ngắn hơn (một trang)

với những nội dung cơ bản [12]

‘Tim kidm thong tin (information retrieval)

'Từ một nguồn rất nhiều rệp văn bắn hay tiếng nói, tìm ra những tệp có nội

đúng liên quan đến một vấn đề (câu hỏi) ta cần biết (hay trả lời) Diễn

hình của công nghệ này là Gaogla, mệt hệ tìm kiếm thông tin trên Web, mà

hầu như chúng ‡a đều dùng thường

hiệu hàng đầu như vậy Google mới có khả năng chợ chúng ta tìm kiếm câu hỏi đưới dang các từ khéa (keywords) va luén “tim” cho ching ta rất nhiều

yên Cần nói thêm rằng mặc dù hữu

tài liệu không liên quan, cũng như rất nhiều tài liệu liên quan đã tồn tại thì Google lai tim không ra [12]

Trích chon théing tin (information extraction}

“từ một nguồn rất nhiều tệp văn bản hay tiếng nói tìm ra những đoạn bên trong một số tệp liên quan đến một vấn đề (câu hỏi) ta cần biết hay trả lời Một hệ trích chọn thông tin có thể “lần” vào từng trang Wcb liên quan,

thiết, nối gọn trong tiếng

bên Irong và luích ra các không tín

Anh dễ phân biệt với lầm kiểm ¿hông tản là *ĩnd things but not pages” [12]

Phái hiện trí thức 0à khai phd dit héu win han (knowledge discovery and tert

data mining)

“Lữ những nguồn rất nhiền văn bản thậm chí hầu như không có quan hệ với

nhàn, lầm ra được những 1rí thí trước đấy chưa aì biết, Đầy là ruột, vấn dễ

2B

Trang 25

LUẬN VĂN THẠO SĨ DINH HUY TUAN

rất phức tạp và đang ở giai đoạn đầu của các nghiên cứu trên thể giới |12|

2.3.1 Khái nệm

Chatbot là một chương trình máy tính có khả năng giao tiếp với con người

bằng cách đưa ra câu trả lời cho các cân hỏi và thực hiện cuộc trò chuyện bằng

cách sử dụng xử lý ngôn ngữ tự nhiên Con người đưa vào lồi nói hoặc văn bản

ngõn ngữ tự nhiên, trong khi chương trình chatbot sẽ đưa ra phản hỏi thông

sở cho xác định câu trả lồi Các kỹ thuật xử lý ngôn ngữ tự nhiên được áp

dung để phân tích ngữ nghĩa yêu cầu của người dùng,

Bu cần được trích xuất để

@ Processor:

Xử lý yêu cầu của người đùng dựa vào dữ liệu được Translator cung cấp

Câu trả li sẽ được truy xuất từ cơ sả dữ liệu của chatbot Tùy thuộc vào

kỹ thuật sử dụng sẽ cho mức độ chính xác của câu trả lời khác nhau

heuristic có thể đơn giản như một kết hợp biểu thức dựa trên luật hoặc phức

tạp hơn như một tập hợp các phân loại học máy Các hệ thông này khủng tạo ra bất kỳ văn bản mới nào, họ chỉ cẩn chọn một phân hồi từ một tập cố định "1|.

Trang 26

LUAN VAN THAC sf ĐINH HUY TUẦN

2.3.3 Phan loai Chatbot

* Chatbot; thimg minh nhan tao (Artificially intelligent chathat)

» Chatbot lai (Hybrid chatbot)

« Chanbot được hỗ trợ bởi con người

2.3.4 Mật số phương nhán xây dựng Chathnt

« So sánh trùng khớp mẫu câu (Pattern matchers)

Các chatbot hoạt động bằng cách sử dụng phương pháp này để tìm kiếm

các mẫu cấu có trong câu hỏi của người dùng và xem có khớp với các cấu hồi đã được lưu trữ trong cơ sở dữ liệu của hệ thông để dua ra cau tra loi

phù hợp nhất,

Sử dụng thuật toán phân lớp

Một giải pháp được sử dụng là áp dụng các thuật toán phân lớp vào chatbot

kiện khác nhan và tạo ra một, cầu trúc dễ quản lý hơn, tăng

Mang noron nhan tao (Artificial Neural Network - ANN)

Thương pháp Mang ngron nhân rao là tính toán tỷ lẽ chính xác dữ liệu dầu

Ta từ dữ liên dần vào hằng cách tính toán các trọng số cho mỗi kết nối từ

các lần lặp lại khi huần hryện dữ liện cho chathot Mỗi bước trong qmá trình

huấn luyện dữ liệu cho chatbot sẽ sửa đổi các trọng số để dữ liệu đầu ra có

độ chính xác cao nhất có thể

Xử lý ngôn mgữ dot whién (Natural Language Processing - NLP )

Phương pháp NLP sử dụng các thuật toán và truy xuất cơ sở đữ liệu để làn:

cở sở nhận dạng, chuyển đổi dữ liệu đầu vào của người dùng thành dữ liệu

cỏ cấu trúc và tiến hành phân loại và đưa ra các câu trả lời tương ứng Để giao tiếp tự nhiên với eon người, thì NLP phải là một phan quan trong của

bắt kỳ công nghệ AI nào được sáng tạo ra và đưa vào sử dụng,

25

Trang 27

LUAN VAN THAC sf ĐINH HUY TUẦN

« Hiéu ngén ngif ty nhién (Natural Language Understanding - NLU )

NLU là phương pháp giúp cho các chatbot hiểu được các câu lệnh của người

dùng mà không phải dựa trên bắt kỳ ngôn ngữ, câu thoại, cắu trúc não được định dạng sẵn ở trong hệ thống, giúp chatbot có thể phản hổi nhanh chóng

người dùng, NLU là một kỹ thuật năng cao của NLP NLU thường được

sử dụng cho các chatbol, phận diện giọng nổi

2.3.5 Các vấn đề cơ bản khi phát triển hệ thống Chatbot

_—_=

Cân văn

Burs hu taven

` rồninh

Mô hành dựa trên đối sánh nội dưng:

Mô hình phân lớp ý định dựa trêu lọc niáy thông kẽ yêu câu dữ liệu huấn luyện bao gỗ các cách diễn đạt khác nhau cho mỗi ý định

Mã lành bú:

Mô hình lại (hybrid madel) là mồ hình có thể kết họp nhiều mô lành khác nhau như mẽ hình học máy, rõ hình dối sánh nội dưng và đặc biết là các

kỹ thuật tiến bộ trang AI,

Trích xuất thông tin

Tiên cạnh việc xác định ý định trong câu hội thoại của người dùng, chúng

ta cần trích xuất các thông tin cần thiết trong đó Các thông tin can trích xuất trong c&u hội thoại thường là các thực thể, ví đụ như thời gian, địa

chỉ Thành phần NLU của các hệ thống chatbot thường được tích hợp

thành phần nhận dạng thực thể giúp phát hiện ra các thực thể cỏ trong mỗi

Trang 28

LUAN VAN THAC sf ĐINH HUY TUẦN

« Quan lý hội thoại

“trong quá trình trao đổi giữa người sử dụng và chatbot, chatbot sẽ cần phải ghỉ nhớ những thông tin về ngữ cảnh hay quân lý các trạng thái hội thoại Vấn dễ quận lý l

người và mấy là không suốt, nội dụng cuộc hội thoại lagie về miặt ngữ nghĩa Chức năng của thành phần quản lý hội khoại là nhận dần vào Lữ thành phần

NLU, quản lý các trạng thái hội thoại (đialogue state), ngữ cảnh hội thoại

(đialogue context) và truyền đầu ra cho thành phan sinh ngôn ngữ (Natural

Trang 29

CHUGNG 3ä MÔ HÌNH ĐỀ XUẤT

3.1L Xây dựng kiến trúc của chatbot

Chatbot có 3 thành phân chính là hiểu ngôn ngữ tự nhiên (NLU), quản lý hội thoại (DM), thành phân sinh ngôn ngữ (NLG) Các thành phần nhận đạng giong néi Speech Recognition (text to speech hay speech to text) 1A cdc thanh phan ting cường 2| Mỗi thành phần trong chatbot déu cé vai trd riéng:

« NLU: bao gồm việc xử lý ngõn ngữ tự nhiên (NLP) cố nhiệm vụ xác dink

được ý dinh cau héi(intent classification) va trich chon thing tin (slots filter)

« DM: Quan ly héi thoại có nhiệm vụ xác định được hãnh động (action) tiép

thoại Các kich ban dung san (history) đã

thao dựa vào trang thái hành động trước đó hay ngữ cảnh hủ

v phải được đối chiến trong œ

đảo tạo cho hoi Thành phần này cũng dâm nhiệm việc lấy dữ liệu từ hệ

thông kháe qua cée API goi trong action

e NEG: 1a think phần sỉnh ngôn ngữ dựa vào chính sách (poliey} và hành động được xác đình trong DM thông qua các tập hội thoại, NGT, có thể được sinh ra tâu trả li dựa vào tập mẫn edi urd lei (predefined template)

đã đào tạo cho bot

Hiểu ngôn ngữ tự nhiên (NLU) có thể nói là thành phần quan trọng nhất của chatbot Chatbot cé théng minh hay khéng thì đây là thành phản quyết định

Mục tiêu của, thành phần mày là trích xuất ra 3 thành phần thông tần Lừ cầu nồi

của người dim

« Đầu tiên là phân loại lĩnh vực (domain classification)[Z, nó có thể là lĩnh

vực ngân hàng, y tế hay bảo hiểm, Nếu trong trường hợp chỉ có một lĩnh

vực Lĩ không cần thiết cho bước phẩm loại này

« Liếp đến là phân loại ý định (imcnb classification)|7], ví dụ như xác định

được ý định tra cứu thông tin tài khoản hoặc ý định kiểm tra số du

Trang 30

LUẬN VĂN THẠC SĨ ĐINH HUY TUẤN

e Cuối cùng là bước trích xuất thông tin (slot fillter hay entity extraction )[2]

trong câu hỏi người dùng Ví dụ ta phải trích chọn được thông tin số tháng

trong cân hỏi người dùng: “lãi xuất kỳ hạn 3 tháng là bao nhiên” Từ việc

trích xuất được thông tin 3 tháng thì chatbot mới có cơ sở trả lời cho người

dùng

NLU xử lý tin nhắn người dùng bằng một đường ống (pipeline) nơi mà cấu

hình các bước xử lý liên tiếp theo tuần tự :

miễn (Domain định (intent thông tin (Entity

Hình 3.1: Các bước xử lý chinh trong pipeline etia NLU

Trong đường ống này thì bạn có the thy chỉnh các thành phần từ bước tiền

xử lý dữ liệu, mõ hình hóa ngõn ngữ, các thuật toán dùng để tách từ và trích

xuất thông tin thực thể

3.2 Bài toán xác định ý định người dùng

Để phân loại được ý định câu người dimg thì ta cần mô hình hóa ngôn ngữ

(veetori

tion) Phương pháp phổ biến nhất hiện tại là word embedding (nhúng

từ) Tập nhúng từ là tên chung cho một tập hợp các mô hình ngôn ngữ và các

phương pháp học đặc trưng trong xử lý ngôn ngữ tự nhiên (NLP), nơi các từ

hoặc cụm từ từ vựng được ánh xạ tới vectơ số thực Về mặt khái niệm, nó liên

quan đến việc nhúng toán học từ một không gian với một chiền cho mỗi từ vào

n tue với kích thước thấp hơn nhiều Một số phương,

'Vec, GloVe hay mới hơn là FastText sẽ được

Trang 31

LUẬN VĂN THẠC SĨ ĐINH HUY TUẦN

Sau khi mô hình hóa ngôn ngữ bao gồm dữ liệu đầu vào training cho bot

thì việc xác định ý định người dùng từ câu hỏi người dùng dựa trên tập đã training là bước phân loại ý định (intent classification) hay phân loại văn bản

Ở bước này ta có thể dùng một số kỹ thuật như: Naive Bayes, Decision Tree

(Random Forest), Vector Support Machine (SVM), Convolution Neural Network (CNN), Recurrent Neural Network (RNN), Long Short-Term Memory (LSTM, Bi-LSTM) Hầu hết các chatbot hiện tại đều ứng dụng mô hình deep learning như RNN và LSTM để phân loại ý định người dùng Bài toán thách thức lớn nhất cho các chatbot ở bước này là xác định nhiều ý định(multiple intents) trong

, kiểm tra cho tôi số dư tài

một cân nói người dùng Ví dụ nếu bạn nói “xin chi

khoản” thì bot phải xác định được 2 ý định m tra số dự” trong

câu nói người dùng Nếu bot có thể hiểu và trả lời được câu hói loại này sẽ giúp việc tương tác với bot trở nên tư nhiên hơn [4]

3.2.1 Các phương pháp biểu diễn từ

'Ta ký hiệu V là tập từ vựng và |V| là kích cỡ của nó

€6 hai cách chính để biểu diễn từ, được tổng kết qua hình sau:

Biểu diễn 1-hot Word embedding

mềm

mềm

sách

Hình ich biển diễn từ

Embedding matrix: Cho mot tit w, embedding matrix E là một ma trận tham chiếu thể hiện one-hot ø„ của nó với embedding e„ của nó như sau:

ew = Bow

© Word2Vec: là một framework tập trung vào viée hoc word embeddings

bằng cách ước lượng khi

ến bao gồm skip-gram, negative sampling và

ø Skip-gram: Mô hình skip-gram word2vec là một task học có giám sát, nó

Trang 32

LUAN VAN THAC sf ĐINH HUY TUẦN

word ¢ cho trước nào xây ra, với context word e |13| Bằng việc kí hiệu ở; là

tham số đi kèm với t, xác suất /”(1|e) được tính nhĩ sau:

An

Negative sarapling: là một tập của các bọ phân loại nhị phần sử dung

logistic regressions véi muc tiêu là đánh giá khả năng mà mốt ngữ cảnh

cho trưác và các target words cho trước có thể xuất hiện đồng thời, với các

mô hình đang được huấn luyện trên các tập của kk negative examples và 1

positive example [12] Cho truéc context word ¢ vA target word ý, dự đoán

được thể hiện bởi:

ply — Let) — (OF ee)

Glove Mé hinh GloVe, viết t4t ca global vectors for word representation,

mồ là một kĩ rhuat word embedding sit dung ma train ding xuat hién XX véi

mai Xj, 1a sé 13n ma, tit dich (target) i xn4t hiện rại ngữ cảnh j [12] Cost iunction JJ của nó như sau:

ƒ là hàm số với Ä¡¡ — 0 — /(X¡¡) — 0 Với tính đối xứng mà và đ có được

ái cũng s39) được định nghĩa như

Một ruõ hình ngân ngữ sẽ dự đoán xác suất của một câu /(y) 15|

« Mô hình n-gram: Mô hình này là cách tiếp cận naive với mục đích định

lượng xác suất mà một biểư hiện xuất hiện trong văn bản bằng cách đếm

số lần xuất hiện của nó trong tặp đữ liệu huấn luyện

«Ẳ BERT: |6| là một mô hình ngôn ngữ (Language Model) được tạo ra bởi Google AI BERT được coi như là đột phá lớn trong Machine Learning bởi

vì khả năng ứng đụng của nó vào nhiều bài toán NLI' khác nhau: Question Answering, Natural Language Inference, với kết quả tốt

Trang 33

LUẬN VĂN THẠC SĨ ĐINH HUY TUẤN

Transformer gồm có 2 phần chính: Encoder và Decoder, encoder thực hiện đọc dữ liệu đầu vào và decoder đưa ra dự đoán Ở đây, BERT chỉ sử dụng

Nguyên lý hoạt động của Eneoder Theo đó, input đầu vào là một chuỗi

cá „được biểu điễn thành chuỗi các vector trước khi đưa vào trong mang neural Output ctia mo hinh 1a chudi ces vector có kích thước

đúng bằng kích thước input Trong khi huấn luyện mô hình, một thách thức

token wy, w:

gap phải là các mô hình directional truyền thống gặp giới hạn khi học ngữ

cảnh của từ Dể khắc phục nhược điểm của các mô hình cñ, BERT sử dụng

9 chiến lược training như sau:

Masked LM (MLM)

Trước khi đưa vào BERT, thì 15% số từ trong chuỗi được thay thế bởi

token [MASK], khi d6 mô hình sẽ dự đoán từ được thay thế bởi [MASK] với

context là các từ không bi thay thé béi [MASK]

Next Sentence Prediction (NSP)

Trong chiến lược này, thì mô hình sử dụng một cặp câu là dữ liệu đầu vào

và dự đoán câu thứ 2 là câu tiếp theo của câu thứ 1 hay không, Trong quá

trình huấn luyện, 50% lượng dữ liệu đầu vào là cặp câu trong đó câu thứ 2 thực sự là cau tiếp theo của câu thứ 1, 50% còn lại thì câu thứ 2 được chọn

ngẫu nhiên từ tập dữ liệu

Ngày đăng: 12/06/2025, 20:40

HÌNH ẢNH LIÊN QUAN

Hình  1.1:  Kiến  trúc  của  hệ  thống  Contact  Center - Luận văn Ứng dụng học sâu trong hệ thống chatbot hỗ trợ chăm sóc khách hàng
nh 1.1: Kiến trúc của hệ thống Contact Center (Trang 12)
Hình  1.3:  Kiến  trúc  của  hệ  thống  tích  hợp  chatbot - Luận văn Ứng dụng học sâu trong hệ thống chatbot hỗ trợ chăm sóc khách hàng
nh 1.3: Kiến trúc của hệ thống tích hợp chatbot (Trang 13)
Hình  3.3:  Kiến  trúc  mạng  ƠNN  với  bộ  lọc  F  và  stride  S - Luận văn Ứng dụng học sâu trong hệ thống chatbot hỗ trợ chăm sóc khách hàng
nh 3.3: Kiến trúc mạng ƠNN với bộ lọc F và stride S (Trang 19)
Hình  2.3:  Max  pooling  va  average  pooling - Luận văn Ứng dụng học sâu trong hệ thống chatbot hỗ trợ chăm sóc khách hàng
nh 2.3: Max pooling va average pooling (Trang 20)
Hình  3.5:  Kiến  trúc  của  thống  phần  lắp  ÿ  định - Luận văn Ứng dụng học sâu trong hệ thống chatbot hỗ trợ chăm sóc khách hàng
nh 3.5: Kiến trúc của thống phần lắp ÿ định (Trang 27)
Hình  các  bước  xử  lý  liên  tiếp  theo  tuần  tự  : - Luận văn Ứng dụng học sâu trong hệ thống chatbot hỗ trợ chăm sóc khách hàng
nh các bước xử lý liên tiếp theo tuần tự : (Trang 30)
Hình  3.3:  Mô  hình  eneoder - Luận văn Ứng dụng học sâu trong hệ thống chatbot hỗ trợ chăm sóc khách hàng
nh 3.3: Mô hình eneoder (Trang 33)
Hình  3.8:  Phương  pháp  sinh  ngõn  ngữ  Plan-based - Luận văn Ứng dụng học sâu trong hệ thống chatbot hỗ trợ chăm sóc khách hàng
nh 3.8: Phương pháp sinh ngõn ngữ Plan-based (Trang 43)
Hình  3.9:  Phương  pháp  sinh  ngôn  ngữ  Class-based - Luận văn Ứng dụng học sâu trong hệ thống chatbot hỗ trợ chăm sóc khách hàng
nh 3.9: Phương pháp sinh ngôn ngữ Class-based (Trang 44)
Hình  4.1:  Kiến  trúc  tổng  thể  của  RASA - Luận văn Ứng dụng học sâu trong hệ thống chatbot hỗ trợ chăm sóc khách hàng
nh 4.1: Kiến trúc tổng thể của RASA (Trang 45)
Hình  4.5;  Mo  hinh  Transformer  Embedding  Dialogue - Luận văn Ứng dụng học sâu trong hệ thống chatbot hỗ trợ chăm sóc khách hàng
nh 4.5; Mo hinh Transformer Embedding Dialogue (Trang 49)
Hình  4.6:  Quá  trình  thu  thấp  dữ  liệu - Luận văn Ứng dụng học sâu trong hệ thống chatbot hỗ trợ chăm sóc khách hàng
nh 4.6: Quá trình thu thấp dữ liệu (Trang 50)
Hình  4.7:  Mô  tả  các  chức  năng  eta  Chatbot - Luận văn Ứng dụng học sâu trong hệ thống chatbot hỗ trợ chăm sóc khách hàng
nh 4.7: Mô tả các chức năng eta Chatbot (Trang 51)
Hình  48:  Vĩ  dụ  dữ  liệu  ý  định  Dặt  lệnh - Luận văn Ứng dụng học sâu trong hệ thống chatbot hỗ trợ chăm sóc khách hàng
nh 48: Vĩ dụ dữ liệu ý định Dặt lệnh (Trang 53)
Hình  4.17:  Chạy  thực  nghiệm  với  các  chức  năng  khác - Luận văn Ứng dụng học sâu trong hệ thống chatbot hỗ trợ chăm sóc khách hàng
nh 4.17: Chạy thực nghiệm với các chức năng khác (Trang 62)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm