1.2 Mục tiêu để tài TIẹ thông chathot hỗ trạ tư vẫn tài chính và chấm sóc khách hàng là hệ thông nhằm cung cắp các chức năng chính của chatbot trong lĩnh vực tài chính và được giới hạn
Trang 1TRƯỜNG DẠI HỌC BÁCH KHOA HÀ NỘI
Giảng viên hướng dẫn: T8.LÊ CHÍ NGỘC — œ4; „„gưp
HA NOT, 05/2021
Trang 2LUAN VAN THAC sf ĐINH HUY TUẦN
Lời cam on
“Tác giả xin gửi lời cảm ơn trân trọng tới TS Lê Chí Ngọc, người đã trực tiếp hướng dẫn tác giả hết sức nhiệt tình, chu đáo, luôn động viên về mặt tỉnh thần
để tác giả có thể hoàn thành luận văn này lác giả xin trân trọng cảm ơn Viện
“toán Ứng dụng va ‘lin hoc, Phòng đào tạo U6 phan quản lý đào tạo sau đại học, Trường Đại học Bách Khoa Hà Nội
giá hoàn thành luận văn này, Cuối cùng, tác giả xin gửi lời cắm ơn tới gia đình, người Uban và bạn bè đã luôn động viên giúp đỡ tác giả trong suốt quá trình
thực hiện đề tài
lã tao mọi điều kiện thuận lợi để tác
Trang 3LUAN VAN THAC sf ĐINH HUY TUẦN
Tom tắt nội đung luận văn
ác đã
Những năm gần đây, Chathol, đang được nghiền cứn và phát triển vái
chóng mặt bởi cáe trung tâm nghiên cửu, các trường đại học, học vien, các doanh
nghiệp và ứng dụng trong rất nhiều các lĩnh vực Cùng với sự phát triển của lĩnh vực học sâu, chatbot ngày càng linh hoạt trong việc hiểu ngôn ngữ và đưa
ra phản hồi một cách chính xác Trong nội dung của luận văn, tác giả tập trung
vào xây dựng Chatbot trên một rniễn cụ thể là lĩnh vực tài chính với ngôn ngữ
t Tác giả cũng đề xuất các phương pháp tích hợp mỡ hình học sãu
lý ngõn ngữ tự nhiên vào thành phẩn hiểu ngôn ngữ và thành phẩn quan lý hội thoại của Chatbot Kết quả thực nghiệm đã cho thấy việc áp dụng
Tw khéa: Deep learning, Natural Language Understanding, Dialag monage- meni, Intent Detection, Slot Filling
Hà Nội, ngày 14 tháng 05 nim 2021
Kí và ghi rõ họ tên Ki va ghi rỗ họ tên
Trang 4Bi Nay dựng kiến trúc của chatbotl -
B.2_ Bài toán xác định ý định người dùng]|
8.2.1 Cac phương pháp biểu điền từ
8.2.2 Mô hình ngôn ngi
Trang 5LUẬN VAN THAC Si DINH HUY TUAN
B.3.1 Các mô hình gần nhãn chuỗi (sequence Tabaling) 37
(Dual Tntent Entity Transformer)| - 46
50
Trang 61.2_ Kiến trúc của hệ thống tích hợp chatbot] 12
42
43
Trang 7LUẬN VAN THAC Si ĐINH HUY TUẤN
14 _Két qua thuc nghiém bai ton xac dinh y dink] 58 [4.15 Ma trận Confussion bài toan xdc dinh y dink] 59
60
61
Trang 9
Mũ kùah phân luại ý định và thục thể đồng hờ:
Mồ kành Trausluriuer quản “ý bội thoại
Hiddea Markov model, M6 binh Markov da
©Condidtional Random Lield, Mô hình trường điều kiện ngẫu nhiện Convolution Neural Network, Mang neural tích chập
Recurent Neural Network, Mang reural hồi tiếp
Tongsharr Tem Xfemey, Mạng hộ nhớ dài-n,
Artificial Nenral Network, Mạng; nenral nhân tạo
Mã hình bị m từ hai ch
Hệ Luống hiểu ngồn ngữ tự nÌ
Trang 10CHƯƠNG 1 MỞ ĐẦU
1.1 Lý đo lựa chọn đề tài
Những năm gần đây, ngành công nghệ théng tin và lĩnh vực máy hạc đang
phat trién rất nhanh và được ứng dụng rộng rãi Trong đó, Chatbot đang được nghiên cứu và phát triển với tốc độ chóng mặt bởi các trung tâm nghiên cứu, các
trường đại học, học viện, các doanh nghiệp và ứng dựng trong rất nhiễu các lĩnh vực Chatbot là ứng dựng phần mềm dùng trong hệ thống thảo luận trực tuyến bing vin bin hoặc văn ban chuyển thành giọng nói, thay vì thảo luận trực tiếp với người dùng thát Theo cách tương tác với người dùng, các chatbot thường được chia thành hai loại: âm thanh và tin nhắn Các chatbot được thiết kế phức tạp dựa trên nền tảng xử lý ngởn ngữ tự nhiên, nhưng cũng có nhiễu hệ thống
khắc đơn giản hơn bằng cách quối Lữ khóa trong dần vào, sau đồ lrả lời với từ
khốa phì hợp nhất, hoặc mẫn tt ngữ Lương tự nhất Trong có số di? liền
Cá rất nhiều công cụ cũng như thư viện hỗ trợ cho Chatbot như: Dialogflow,
Wit.ai, IBM Waston Service, RASA , hay như đối với tiếng Việt thì có TPT.AI,
Các công cụ, thư viện này hiện nay hầu hết đều áp dụng các công nghệ mới nhất của học máy, học sâu, để nàng cao khả năng giao tiếp của chương trình Chatbot
Đề chương trình Chatbot thực hiện giao tiếp thì cẩn có các kênh trên nên tảng
điện toán đám mây như Google Assistant va Amazon Alexa, dudéi tmg dung tin
nhấn như Eheehbook Messenger, WeChal, hoặc thông qua gái
nhàn như trong việt chăm sóc khách hàng (cung cấp thông tin sẵn phẩm, đưa ra
các thông tín gợi ý, giải đáp thắc mắc, .) Chatbot giúp tối ưu hóa năng suất,
giảm thiểu chí phí chăm sóc khách hang, chim sóc sức khỏe, đời sống con người
liiện nay, các nhà đầu tư hoặc người dùng sản phẩm tài chính có thể tìm hiểu
thông tin về các dịch vự tài chính thông qua các công cụ tìm kiếm thông tin trên internet và thông tin từ các công ty tài chính 'Luy nhiên những thông tin hữu ích và thiết thực với người dùng còn hạn chế, khách hàng phải mất rất nhiễu thời gian trong việc tìm hiểu thöng tin Cùng với đó, cách kênh chăm sốc khách hàng của các công ty tài chính chỉ có một lượng hữu hạn nhãn viên trực tổng
Trang 11LUAN VAN THAC sf ĐINH HUY TUẦN
đài, không đủ để đáp ứng lượng lớn khách hàng, cũng như không thể đáp ứng trong mọi thời điểm
Với mong muốn tạo mộ chatbot có khả năng hỗ trợ tư vấn thông tin về tài
chính góp phần nâng cao trải nghiệm của khách hàng khi sử dụng sản phẩm tài chính, tôi đề xuất đề tài "Ứng đụng học sâu trong hệ thống chatbot hỗ trợ chăm sóc khách hàng" làm để tài luận văn của mình
1.2 Mục tiêu để tài
TIẹ thông chathot hỗ trạ tư vẫn tài chính và chấm sóc khách hàng là hệ thông
nhằm cung cắp các chức năng chính của chatbot trong lĩnh vực tài chính và được
giới hạn phạm vì hỗ trợ và chăm sóc khách hàng sử dụng các sản phẩm tài chính Chatbot ở đây một chương trình máy tính xử lý đầu vào ngôn ngữ tự nhiên từ người dùng và tạo ra các phản hồi thông 1ninh gửi lại cho người đùng Chatbot
được cung cấp bởi các công cụ điều khiển theo quy tắc hoặc công eụ thông mình
nhấn Lao Lương, với người dùng thông qua gian điện dha trên bản là chủ
yếu Đây là những chương trình máy tính độc lập, chạy ở mây chủ web có khế được tích hợp vào bất kỳ nền tảng nhắn tìn nào đã mổ cho các nhà phát triển thong qua các ADI như Facebook Messenger, Slack, RocketChat, Zalo,
lIệ thống tư vẫn tài chính dựa vào chatbot được xây dựng một nền tảng
chatbot hoàn chỉnh cho các công ty để giới thiệu giao điện trò chuyện trong lĩnh vực tài chính Chức năng chính của chatbot này là tư vấn thông tin sản phẩm tài chính nên chatbot cẩn có dữ liệu đủ lớn về tải chính - chứng khoán nhằm
hỗ trợ việc trả lời nhanh các yêu cẩu từ khách hàng như đặt lệnh giao dịch, hỏi thống tin sân phẩm, dang ký mỏ giới chứng khoán, đăng ký mỏ tài khoản chứng khoán,
Th
gặp
sản phẩm mang lại, đánh giá nhu c&u sử dụng của khách hàng Cùng với đó, số lượng sản phẩm và dich vu ngày càng tăng lên, khách hàng trả lên "ngập lụt" trong thông tin và đôi khi chính khách hàng cũng khäng nhận thức rã được nhu
cầu của mình nến rất khó để tự tìm kiếm sản phẩm phù hợp Ngoài ra, đối với
các khách hàng đã và đang sử dụng sản phẩm tài chính, nhu cầu vẻ được chăm
tổ khí tham gia vào sữ dụng các sẵn phẩm tài chính, khách hàng thường
L nhiều khổ khăn trong, lim h âu không tắn, cách sit dung, Idi ích mà
sóc và giải đáp các thắc mắc, hay thậm chí là phần nàn, gớp ý trong quá trình
sử dựng sản phẩm cũng rất cao
Nhu cầu tăng cao dẫn đến cần có một hệ thống tư vấn thông tin và chăm sóc khách hãng, Hạ thống này sẽ hỗ trợ cho người đùng lựa chọn các dịch vụ du lịch
Trang 12LUẬN VAN THAC Si ĐINH HUY TUẤN
công ty tài chính, hệ thống này là các phần mềm hỗ trợ chức năng chat, hoặc
gọi điện giữa người vời người, được gọi là Contact Center Hệ thống này được
vận hành bời các tổng đài viên, là người trực tiếp giải đáp các thắc mắc, tư vấn
phục vụ khách hàng lại hữu hạn Cùng với đó, nhu cầu được giải đáp và tư vấn
ngay tại thời điểm đó của khách hàng cũng là một nhu cầu quan trọng nhưng
hệ thống hiện tại khó có thể đáp ứng (do các tổng đài viên chỉ phục vụ được
trong giờ hành chính, hoặc trong một khung giờ nhất định) Như vậy giải pháp
thay thé các tổng đài viên bằng chatbot mang lại rất nhiều hiệu qua Thứ nhất, chatbot có thể giải đáp một lượng lớn người dùng, không bị phụ thuộc vào số
lượng nhãn viên Thứ hai, chatbot nâng cao trải nghiệm người dùng do luôn
sẵn sàng phục vụ khách hàng, bất kể thời gian nào Khi tích hợp vào hệ thống,
chatbot đảm nhiệm chức năng như một tổng đài viên, bao gồm chat, gọi điện với khách hàng, thực hiện các tác vụ tra cứu thông tin, thao tác nghiệp vụ, .
Trang 13LUẬN VĂN THẠC SĨ ĐINH HUY TUẤN
Ứng dụng mã nguồn mở Rasa để xây dựng thử nghiệm hệ thống chatbot hỗ
trợ chăm sóc khách hàng cho công ty chứng khoán
văn bao gồm: tìm hiểu các lý thuyết về học sâu vi
chatbot; Tim hiểu các phương pháp xử lý ngôn ngữ tự nhiên với ngôn ngữ Tiếng
tin từ người dùng và cuối cùng là tìm hiểu cách xây dựng và thiết kế một hệ
thống chatbot
n vụ của luận
các thuật toán liên quan đến
: tìm hiểu các phương pháp giải quyết bài t
1.3.2 Dối tượng và phạm vi nghiên cứu
Luận văn này nghiên cứu về ứng dụng học sâu để xử lý ngôn ngữ tự nhiên
Tiếng Việt trong Chatbot Luận văn cũng giới thiệu về mã nguồn mở Rasa và
thuật xây dựng chatbot Dữ liệu các cuộc hội thoại của hệ thống giao
dịch chứng khoán cũng đã được chuẩn bị
Phạm vi nghiên cứu là xây dựng và thực nghiệm hệ thống chatbot có thể thay
ế các nhãn viên chăm sóc khách hàng trong việc hỗ trợ người dùng sử dụng
hệ thống giao dịch chứng khoán và sản phẩm tài chính
1.3.3 Ý nghĩa khoa học và thực tiễn
“Thực nghiệm các giả thuyết về các kỹ thuật xử lý ngôn ngữ tự nhiên kỹ thuật tính toán độ tương đồng về mặt ngữ nghĩa trong văn bản Tiếng Việt giúp
chatbot hiểu được câu đầm thoại khi giao tiếp với con người Thực nghiệm các
kỹ thuật học máy, khai phá dữ liệu trong huấn luyện và trang bị khả năng tự
Trang 14LUAN VAN THAC sf ĐINH HUY TUẦN
Khách hàng sử dụng sản phẩm tài chính giao tiếp với hệ thông chatbot hoat
đông tự động trên nền tẳng trí tuệ nhãn tạo, từng bước đưa Việt Nam bắt kịp
và hội nhập theo xu hướng phát triển của công nghiệp 4.0
'1ăng lượng người dùng đến với sản phẩm tài chính, nâng cao chất lượng chăn sóc khách hàng
Trang 15CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
2.1 Phương pháp hoc sau
Học sâu là một nhánh đặc biệt của ngành Học máy, và bắt đầu trở nên phổ
biến trong thập kỹ gắn đây do các nhà khoa họ đã có thể tận dung khả năng tính toán mạnh mẽ của các máy tính hiện đại cũng như khói lượng đữ liệu khổng
lồ (hình ảnh, âm thanh, văn bản ) trên Interncb
Các mạng huấn luyện theo phương pháp Lọc sâu còn được gọi với cái tên khác là mạng ndron sâu (Decp Neural Network) do cách thức hoạt động của chúng Về cơ bản, các mạng này bao gồm rất nhiều lớp khác nhau, mỗi lớp sẽ phan tích dữ liệu đầu vào theo các khía cạnh khác nhau và theo mức độ trừu
tượng nâng cao dần [13]
Vất cách hức học thông lần Lữ đữ liệu lần Tượi, qua rất nhiều lập, nhiều tầng
khác nhàn nhữ vậy, cáo phướng pháp này nó thể giúp cho mấy tính hiểu dược
những đữ liệu phức tạp bằng nhiêu lớp thông tin đơn giản qua từng bước phân
tích Dó cũng là lý do chúng được gọi là các phương pháp Ilọc sâu
"Tuy có nhiều điểm ưu việt trong khả, năng huẫn luyện máy tính cho các bài
toán phức tạp, Học sâu vẫn còn rất nhiều giới hạn khiến nó chua thể được áp
dụng vào giải quyết mọi vấn đề Điểm hạn chế lớn nhất của phương pháp này
là yêu cầu về kích thước đữ huấn luyện, mô hình huấn luyện Học sâu đòi hỏi phải sổ một lượng khổng lồ dữ liêu đầu vào để có thể thực hiện việc lọc qua
Mạng ncural nhân tạo là một mổ hình xử lý thöng tin phỏng theo cách thức
xử lý thông tin của các hộ ncural sinh học Nó được tạo nên từ một số lượng lớn
Trang 16LUAN VAN THAC sf ĐINH HUY TUẦN
làm việc như mật thể thông nhất để siải quyết một vẫn để cụ thd nào đó |13| Câu trúc neural nhãn tạo được mâ tả như hình vẽ:
1iìna 3.1: ấu trúc neural nhân tạo
Các thành phẫn cơ bân của một ncural nhãn tạo bao gồm:
« Tân các đầu vào: Là n hiện vao (input signal} ofa neural, cdc tin hién
mày thường dược đưa vào dưới đạng một vector N chiền
« ‘Lap các liên kết: Mỗi liên kết được thể hiện bởi một trọng số liên kết
« Hộ tổng: Dược dùng để tính tổng của tích các đầu vào vái trọng số liên kết
« Dâu ra: Là tín hiện đầu ra của một neuraÌ, với mỗi neural sẽ có tối đa là
mot dau ra
2.1.2 Mật sô mã hình mang nenral
a Mang nhiéu tang truyén thing (MLP)
Mã hình mạng neuron được sứ dụng rộng rãi nhất là mỏ hình mạng nhiều tẳng truyền thẳng (MIP : Muli Tayer Persepiron), Một mạng MIIP bổng
1
Trang 17LUAN VAN THAC sf ĐINH HUY TUẦN
b
quất là mạng 6 n (m > 2) tầng (thông thường tầng đầu vào không được
tính đến): trong đó gồm một tầng đầu ra (tang thứ ø} và (n — 1) tầng ẩn
nó Đầu ra của neuron tầng {rước là dẫn vào của neuron thuận Tầng liền gau
nó Hoạt động của mạng MLP như sau: tại tầng đầu vào các neuron nhận
tín hiệu vào xử lý (kính tổng trọng số, gửi tới hàm truyền) rồi cho ra kết quả (là kết quả của hàm truyền); kế quả này sẽ được truyền tới các neuron thuộc tầng ẩn thứ nhất; các ncuron tại đây tiếp nhận như là tín hiệu đầu
vào, xử lý và gửi kết quả đến tẳng ẩn thử 2; ; quá trình tiếp tục cho đến
họ các mạng neuron ưu việt được thiết, lý các dạng dữ
liệu thường có cấn trúc khöng gian Các kiến trúc dựa trên hiện nay xuất hiện trong mọi ngóc ngách của lĩnh vực thi giác máy tính, và đã trở thành
tham giá một cuức thí nào đồ liên quan tới nhận đạng ảnh, phái hiện
Các phép toán cơ bản nhằm tạo nên bộ khung sườn của tắt cả các mạng ndron tích chập bao gồm các tầng tích chặp coueolution, các chí tiết co ban
quan trọng như đệm (pudding) về, sửride, các tầng pooling dùng để kết hợp
thong tin qua các vùng không gian kề nhau và các bộ lọc /đfcr ở mỗi tang l|
Tầng tích chận:
“tong một tầng tích chập 9], một mảng đầu vào và một mang hat nhân
tương quan (&crzcl) được hợp để tạo ra mảng đầu ra bằng phép toán
tướng quan chếo, Theo m ¡ trục, kính thước dẫu ra nhỗ hơn rộ
đầu vào dẫu vào là mội mảng hai chiều vấi chiều dài W và chiều rộng H
Ta ki hiệu kích thước của mâng là W x 4 hodc (W, i) Chiéu dài và chiều
rông của hạt nhân đều là 3 Chú ý rằng trong cộng đồng nghiên cứu học
sâu, mảng này còn có thể được gọi là hạt nhan tích chập, bộ lọc hay đơn
Trang 18LUAN VAN THAC sf ĐINH HUY TUẦN
thuần là trọng số của tầng Kích thước của cửa số hạt nhân là chiến đài và chiều rậng của hạt nhân (ở đây là :e x h )
Bởi vì hạt nhân có chiều dài và chiều rộng lớn hơn mật, ta chỉ có thé tinh
độ tương quan chéo cho những vị trí mà ở đó hạt nhân nằm hoàn toàn bên trong ảnh, kích thước đầu ra được tính bằng cách lấy đầu vào # x M/ trừ
kích thước của bộ lọc tích chập 6 x s bằng (# — h+ 1) x (W —œ +1) Diễu
này xảy ra vì ta cần đủ không gian để dịch chuyển hạt nhãn tích chập qua
tắm hình Kế tiếp, ta lặp trình quá trình ở trên trong hàm tương quan Hàm này nhận mảng đẫu vào X với mắng hạt nhân K và trả về mắng đầu ra Y Tang tích chấp thực hiện phép toán Lương quan chéo giữa đầu vào về hạt nhu, sau đó cống khêm một lệ số điều chỉnh để có được đầu ra Hai tham
số của Lằng tích chập là bai nhãn và hệ số điều chỉnh Nhi huẳn luyện mở
hình chứa các tầng tích chặp, ta thường khối tạa hạt nhãn ngẫu nhiên, giống
như cách ta làm với tầng kết nối dầy đủ |9|
Padding vA Stride:
Giả sử kích thước của dầu vào là nj, x my, va kích thước của cửa số hat nhan
tích chặp là kụ x kự , kích thước của dẫu ra sẽ là:
{nạ — Eạ — 1) X [nw — kụ + 1)
To đó, kích thước của din ra Lãng tích chấp dược xác dịnh bởi kích thước
đầu vào và kích thước cửa số hạt nhãn tích chập
Padding:
Nếu chúng la chèn thêm tổng cộng pạ hãng đêm (phần nửa ở phía trên và
phân nứa ở phía dưới) và p„ cột đệm (phân nửa bên trái và phân nửa bên phải), kích thước đầu ra sẽ là:
{nụ — Eạ + pạ + 1) X (nụ — Bạ + pạ + 1)
Stride:
Khi thực hiện phép tương quan chéo, ta bắt đầu với cửa sổ tích chap tại góc trên bên trái của mảng đầu vào, rồi đi chuyển sang phải và xuống dưới qua tắt cả các vị trí Trang các ví dụ trước, ta mặc định di chuyển qua một
điểm ảnh mỗi lần 'Luy nhiên, có những lúc để tăng hiệu suất tính toán hoặc
vì muốn giảm kích thước của ảnh, ta di chuyển cửa số tích chập nhiều hơn một điểm ảnh mỗi lần, bỏ qua các vị trí đ giữa
“La gọi số hàng va cét di chuyén qua mii lin la sdi bude (stride), Nhin chung,
khi sải bước theo chiều cao là ø;, và sải bước thoo chiều rộng là sự kích thước dầu na là:
1ï
Trang 19LUẬN VAN THAC Si ĐINH HUY TUẤN
Khi xử lý ảnh, ta thường muốn giảm dần độ phân giải không gian của các
biểu diễn an, tổng hợp thong tin lai dé khi càng di sâu vào mạng, vùng tiếp
nhận (ở đầu vào) ảnh hưởng đến mỗi nút ẩn càng lớn Nhiệm vụ cuối cùng
thường là trả
của tầng cuối cùng thường cần phải chịn ảnh hưởng của toàn bộ đầu vào
Bang cach dan gop thong tin lai để tạo ra các ánh xạ trưng thưa dẫn,
ta sẽ học được một biểu diễn toàn cục, trong khi vẫn có thể giữ nguyên toàn
bộ lợi thế đến từ các tầng tích chập xử lý trung gian Hơn nữa khi phát
y nên các nút
¡ một câu hỏi nào đó về toàn bộ tấm ảnh Vị
hiện các đặc trưng cấp thấp như cạnh, ta thường muốn cách biểu diễn này bất biến với phép tịnh tiến trong một chừng mực đó Ví dụ, nến ta lấy
ảnh X với một ranh giới rõ rệt giữa màu đen và màu trắng và dịch chuyển
toàn bộ tam anh sang phải một điểm ảnh, tức Z{¿ 7] = XÍ¿.j + 1Ị thì đầu ra
cho ảnh mới Z có thể sẽ khác đi rất nhiều Đường biên đó và các giá trị kích
hoạt sẽ đều dich chuyén sang mot diém anh [9]
Max pooling va Average pooling
Giống như các tầng tích chập, các toán tử gộp bao gồm một cửa số có kích
thước cố định được trượt trên tất cả các vùng đầu vào với giá trị sải bước nhất định, tính toán một giá trị đầu ra duy nhất tại mỗi vị trí mà cửa sổ
(doi lúc được gọi là cửa sổ gộp) trượt qua Tuy nhiên, không giống như phép
toán tương quan chéo giữa đầu vào và hạt nhân ở tầng tích chap, tang gop không chứa bất kỳ tham số nào (ở đây không có “bộ lọc”) Thay vào đó, các
Trang 20LUẬN VAN THAC Si ĐINH HUY TUẤN
bình của các phần tứ trong cửa sổ gộp Các phép tính này lần lượt được gọi
là là góp cực đại (max pooling) và gộp trung binh (average pooling)|9]
“Trong cả hai trường hợp, giống như với toán tử tương quan chéo, ta có thể
xem như cửa số gộp bắt đầu từ phía trêu bên trái của mảng đầu vào và
trượt qua mắng này từ trái sang phải và từ trên xuống dưới Ở mỗi vị trí
mảng con nằm trong cửa sổ (tùy thuộc vào phép gộp được sử dụng)
Cho đến nay, chúng ta đã gặp hai loại đữ liệu: các vector tổng quát và hình
ảnh Dữ liệu hình ảnh đã được thiết kế các tầng chuyên biệt nhằm tận dụng,
tính chính quy (regularity property) của hình ảnh Nói cách khác, nếu ta
hoán vị các điểm ảnh trong một ảnh, ta sẽ thu được một bức ảnh trông giống như các khuôn mẫu
m tra (test pattern) hay thay trong truyền
hình analog, và rất khó để suy luận về nội dung của chúng
Trong khi các mạng nơ-ron tích chập có thể xử lý hiệu quả thông tin trên chiều không gian thì các mạng nơ-ron hồi quy được thiết kế để xử lý thông, tin thần tự tốt hơn Các mạng này sử dụng các biến trạng thái để lưu trữ
thong tin trong quá khứ, sau đó dựa vào chúng và các đầu vào hiện tại để
xác định các đầu ra hiện tại [9]
Cac mang neural hồi quy, còn được biến đến như là RNNs, là một lớp của
mạng neural cho phép đầu ra được sử dụng như đầu vào trong khi có các
trang thai an [9] Thong thưởng là như sau:
19
Trang 21LUẬN VAN THAC Si ĐINH HUY TUẤN
Be
Hinh 2.4: Kién trie mang RNN
Tai mdi bước 0, giá trị kích hoạt a“f> và đầu ra „“'> được biểu diễn như
aS? = gi (Waa + Wap? + ba)
Xử lý ngôn ngữ chính là xứ lý thông tin khi đầu vào là "dữ liệu ngôn ngữ" (dữ
đến ngôn ngữ viết (văn bản) và nói (tiếng nói) đang dần trở nên kiểu dit li
chính con người có và lưu trữ dưới dang điện tử Đặc điểm chính của các kiểu
dữ liệu này là không có cấu trúc hoặc nứa cấu trúc và chúng không thể lưu trữ
trong các khuôn dang cố định như ảng biểu Theo đánh giá của công ty
Oraele, hiện có đến 80% dữ liệu không cấu trúc trong dữ liệu của loài người đang,
có Với sự ra đời và phổ biến của Internet, của sách báo điện tử, của máy tính cá
ai cũng có thể tạo ra dữ liện văn
ban hay tiếng nói Vấn đề là làm sao ta có thể xử lý chúng, tức chuyền chúng từ
các đạng ta chưa hiển thành các dang ta có thể hiểu và giải thích được, tức là
ta có thể tìm ra thông tin, tri thức hữu ích cho mình [15]
lẽ
nhân, của viễn thông, của thiết bị am thanh,
Trang 22LUAN VAN THAC sf ĐINH HUY TUẦN
2.2.2 Mọt số khái niệm co ban
a Ngôn ngữ tự nhiên
Ngôn ngữ là bệ thông để giao thiếp hay suy luận dùng một cách bidu d
phếp ấn dụ và một loại ngữ pháp theo logic, mdi cach bao hầm mỗi liều
chuẩn tay nự thật thuộc lịch sử và siêu việt
bộ, âm thanh, lý hiệu, hay chữ viết, và cỗ gắng truyền khái niệm, ý nghĩa,
và ý nghĩ, cho nên khó phân biệt[14]
Nhiều ngôn ngữ sử dụng diệu
- Xử lý ngôn ngữ bự nhiên
Xit ly ngon ngét ty nhién (natural language processing - NLP) 18 một nhánh
cửa trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người Trong trí tuệ nhân tạo thì xứ lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ
- công cụ hoàn hảo nhất của sư duy [H4]
6 Thí tuệ nhân fạa
“tí tuệ nhần tạo hay trí thông rninh nhần tạo (tiếng Anh: artificial intolli-
gence hay machine intelligence, thường được viết tắt là AI) là trí tuệ được
Nhập nhằng trang ngôn ngữ lọc là, hiện tượng thường gặp, trong giao tiển
thằng ngây eøn ngưài ít dễ ý đến nổ bởi vì họ xi lý lỗt hiện Lượng này, Nhưng
trong các ứng dụng liên quan đến xử lý ngôn ngữ tự nhiên khi phải thao tác
với ý nghĩa từ vựng mà điển hình là địch tự động nhập nhằng trở thành vần
đề nghiêm trọng Ví đụ trong một cầu cần dịch có xuất hiện từ đường, vẫn
để nảy sinh là cần địch từ này là road hay susar, con người xác định chúng
khá đễ đàng căn cứ vào văn cảnh và các dâu hiệu nhận biết khác nhưng với máy thì không Một số hiện tượng nhập nhằng: N
Trang 23LUAN VAN THAC sf ĐINH HUY TUẦN
về cấu trúc của mật trình biên dịch và mối liên hệ giữa nó với các thành phần
khác - "họ hàng" của nó - như bộ tiền xử lý, bộ tải và soạn thảo liên kết, v.v
Cầu trúc của trình biên địch được mô tã trong chương là một câu trúc mức quan
niệm bao gồm các giai đoạn: Phân tích từ vựng, Phân tích cú pháp, Phân tích ngữ nghia [15]
a Phan tich tu vung (Lexical Analysis)
‘Lrong một trình biên địch, giai đoạn phân tích từ vựng sẽ đọc chương trình
nguễn từ trai sang phải để tách ra thành các thẻ từ
b Phân tích cú pháp (Syntax Analysis)
Giai đoạn phân tích cú pháp thực hiện công việc nhóm các thẻ từ của chương trình nguồn thành các ngữ đoạn văn phạm, mà sau đó sẽ được trình biên
địch tổng hợp thành thành phẩm Thông thường, các ngữ đoạn văn phạm
nầy dược biểu thến bằng dạng cây phần tích cú pháp {parse Lree)
c Phân tích ngữ nghĩa (Semenlie Analusis)
Giai đoạn phần tích ngữ nghĩa sẽ thực hiện việc kiểm tra xem chương trình
vẽ kiểu
nguồn có chứa lỗi về mặt ngữ nghĩa không và tập hợp thông tì
Một phần quan trọng trong giải doạn phần lích ngữ nghĩa là kiếm 1ra kiểu
và ép chuyển đổi kiểu
2.2.4 Cáu ứng dụng dủa xử lý ngồn ngữ Lự nhiên
1 Nhận dạng tiếng nói (speech recognition)
“Từ sống tiếng nói, nhận biết và chuyển chúng thành đít liệu văn bản Lương
hơn, chẳng hạn thay ¡nào đó bạn đạp nổ lên và trình soạn
thảo sẽ tự ghi nó ra Đay cũng là bước dầu tiên cần phải thực hiện trong ước mơ thực hiện giao tiếp giữa con người với robot Nhạn dạng tiếng nồi
có khả năng trợ giúp người khiểm thị rất nhiều |I2|
9 Tổng hợp tiếng nói (speech synthesis)
“Từ dữ liệu văn bản, phân tích và chuyển thành tiếng người nói Thay vì
phải sự đọc một cuỗn sách hay nội dung một trang web, nó tự động đọc cho
g như nhận dạng tiếng nói, tổng hợp tiếng nói là sự trợ giúp
tốt cho người khiếm thị, nhưng ngược lại nó là bước cuỗi cùng trong giao
tiếp giữa người với robot [12]
3 Nhận đụng chữ faplical characler recognition, OCR)
Trang 24LUAN VAN THAC sf ĐINH HUY TUẦN
đạng văn bản điện tử như dưới định dạng doc của Mierosoft Word chẳng hạn Phức tạp hơn là nhận dạng chữ viết tay, có khó khăn bởi vì chữ viết
tay không có khuôn đạng rõ ràng thay đổi từ người này sang người khác
Với chương trình nhận dạng chữ viết in có thể chuyển hàng ngàn đầu sách trong thư viện thành văn băn điện tứ trong thời gian ngắn Nhận dạng chữ viết của con người có ứng dụng trong khoa bọc hình sự và báo mat thong tin (nhận đạng chữ kỹ điện tử) [12]
- Dịch tự động (mochine translotion)
“từ một tệp đữ liệu văn bản trong một ngôn ngữ (ví dụ như tiếng Anh), máy tính dịch và chuyển thành một tệp văn bản trong một ngồn ngữ khác [12],
T6m tắt van bin fiext summarization}
“Từ một văn bản dài, máy tóm tắt thành một văn bản ngắn hơn (một trang)
với những nội dung cơ bản [12]
‘Tim kidm thong tin (information retrieval)
'Từ một nguồn rất nhiều rệp văn bắn hay tiếng nói, tìm ra những tệp có nội
đúng liên quan đến một vấn đề (câu hỏi) ta cần biết (hay trả lời) Diễn
hình của công nghệ này là Gaogla, mệt hệ tìm kiếm thông tin trên Web, mà
hầu như chúng ‡a đều dùng thường
hiệu hàng đầu như vậy Google mới có khả năng chợ chúng ta tìm kiếm câu hỏi đưới dang các từ khéa (keywords) va luén “tim” cho ching ta rất nhiều
yên Cần nói thêm rằng mặc dù hữu
tài liệu không liên quan, cũng như rất nhiều tài liệu liên quan đã tồn tại thì Google lai tim không ra [12]
Trích chon théing tin (information extraction}
“từ một nguồn rất nhiều tệp văn bản hay tiếng nói tìm ra những đoạn bên trong một số tệp liên quan đến một vấn đề (câu hỏi) ta cần biết hay trả lời Một hệ trích chọn thông tin có thể “lần” vào từng trang Wcb liên quan,
thiết, nối gọn trong tiếng
bên Irong và luích ra các không tín
Anh dễ phân biệt với lầm kiểm ¿hông tản là *ĩnd things but not pages” [12]
Phái hiện trí thức 0à khai phd dit héu win han (knowledge discovery and tert
data mining)
“Lữ những nguồn rất nhiền văn bản thậm chí hầu như không có quan hệ với
nhàn, lầm ra được những 1rí thí trước đấy chưa aì biết, Đầy là ruột, vấn dễ
2B
Trang 25LUẬN VĂN THẠO SĨ DINH HUY TUAN
rất phức tạp và đang ở giai đoạn đầu của các nghiên cứu trên thể giới |12|
2.3.1 Khái nệm
Chatbot là một chương trình máy tính có khả năng giao tiếp với con người
bằng cách đưa ra câu trả lời cho các cân hỏi và thực hiện cuộc trò chuyện bằng
cách sử dụng xử lý ngôn ngữ tự nhiên Con người đưa vào lồi nói hoặc văn bản
ngõn ngữ tự nhiên, trong khi chương trình chatbot sẽ đưa ra phản hỏi thông
sở cho xác định câu trả lồi Các kỹ thuật xử lý ngôn ngữ tự nhiên được áp
dung để phân tích ngữ nghĩa yêu cầu của người dùng,
Bu cần được trích xuất để
@ Processor:
Xử lý yêu cầu của người đùng dựa vào dữ liệu được Translator cung cấp
Câu trả li sẽ được truy xuất từ cơ sả dữ liệu của chatbot Tùy thuộc vào
kỹ thuật sử dụng sẽ cho mức độ chính xác của câu trả lời khác nhau
heuristic có thể đơn giản như một kết hợp biểu thức dựa trên luật hoặc phức
tạp hơn như một tập hợp các phân loại học máy Các hệ thông này khủng tạo ra bất kỳ văn bản mới nào, họ chỉ cẩn chọn một phân hồi từ một tập cố định "1|.
Trang 26LUAN VAN THAC sf ĐINH HUY TUẦN
2.3.3 Phan loai Chatbot
* Chatbot; thimg minh nhan tao (Artificially intelligent chathat)
» Chatbot lai (Hybrid chatbot)
« Chanbot được hỗ trợ bởi con người
2.3.4 Mật số phương nhán xây dựng Chathnt
« So sánh trùng khớp mẫu câu (Pattern matchers)
Các chatbot hoạt động bằng cách sử dụng phương pháp này để tìm kiếm
các mẫu cấu có trong câu hỏi của người dùng và xem có khớp với các cấu hồi đã được lưu trữ trong cơ sở dữ liệu của hệ thông để dua ra cau tra loi
phù hợp nhất,
Sử dụng thuật toán phân lớp
Một giải pháp được sử dụng là áp dụng các thuật toán phân lớp vào chatbot
kiện khác nhan và tạo ra một, cầu trúc dễ quản lý hơn, tăng
Mang noron nhan tao (Artificial Neural Network - ANN)
Thương pháp Mang ngron nhân rao là tính toán tỷ lẽ chính xác dữ liệu dầu
Ta từ dữ liên dần vào hằng cách tính toán các trọng số cho mỗi kết nối từ
các lần lặp lại khi huần hryện dữ liện cho chathot Mỗi bước trong qmá trình
huấn luyện dữ liệu cho chatbot sẽ sửa đổi các trọng số để dữ liệu đầu ra có
độ chính xác cao nhất có thể
Xử lý ngôn mgữ dot whién (Natural Language Processing - NLP )
Phương pháp NLP sử dụng các thuật toán và truy xuất cơ sở đữ liệu để làn:
cở sở nhận dạng, chuyển đổi dữ liệu đầu vào của người dùng thành dữ liệu
cỏ cấu trúc và tiến hành phân loại và đưa ra các câu trả lời tương ứng Để giao tiếp tự nhiên với eon người, thì NLP phải là một phan quan trong của
bắt kỳ công nghệ AI nào được sáng tạo ra và đưa vào sử dụng,
25
Trang 27LUAN VAN THAC sf ĐINH HUY TUẦN
« Hiéu ngén ngif ty nhién (Natural Language Understanding - NLU )
NLU là phương pháp giúp cho các chatbot hiểu được các câu lệnh của người
dùng mà không phải dựa trên bắt kỳ ngôn ngữ, câu thoại, cắu trúc não được định dạng sẵn ở trong hệ thống, giúp chatbot có thể phản hổi nhanh chóng
người dùng, NLU là một kỹ thuật năng cao của NLP NLU thường được
sử dụng cho các chatbol, phận diện giọng nổi
2.3.5 Các vấn đề cơ bản khi phát triển hệ thống Chatbot
_—_=
Cân văn
Burs hu taven
` rồninh
Mô hành dựa trên đối sánh nội dưng:
Mô hình phân lớp ý định dựa trêu lọc niáy thông kẽ yêu câu dữ liệu huấn luyện bao gỗ các cách diễn đạt khác nhau cho mỗi ý định
Mã lành bú:
Mô hình lại (hybrid madel) là mồ hình có thể kết họp nhiều mô lành khác nhau như mẽ hình học máy, rõ hình dối sánh nội dưng và đặc biết là các
kỹ thuật tiến bộ trang AI,
Trích xuất thông tin
Tiên cạnh việc xác định ý định trong câu hội thoại của người dùng, chúng
ta cần trích xuất các thông tin cần thiết trong đó Các thông tin can trích xuất trong c&u hội thoại thường là các thực thể, ví đụ như thời gian, địa
chỉ Thành phần NLU của các hệ thống chatbot thường được tích hợp
thành phần nhận dạng thực thể giúp phát hiện ra các thực thể cỏ trong mỗi
Trang 28LUAN VAN THAC sf ĐINH HUY TUẦN
« Quan lý hội thoại
“trong quá trình trao đổi giữa người sử dụng và chatbot, chatbot sẽ cần phải ghỉ nhớ những thông tin về ngữ cảnh hay quân lý các trạng thái hội thoại Vấn dễ quận lý l
người và mấy là không suốt, nội dụng cuộc hội thoại lagie về miặt ngữ nghĩa Chức năng của thành phần quản lý hội khoại là nhận dần vào Lữ thành phần
NLU, quản lý các trạng thái hội thoại (đialogue state), ngữ cảnh hội thoại
(đialogue context) và truyền đầu ra cho thành phan sinh ngôn ngữ (Natural
Trang 29CHUGNG 3ä MÔ HÌNH ĐỀ XUẤT
3.1L Xây dựng kiến trúc của chatbot
Chatbot có 3 thành phân chính là hiểu ngôn ngữ tự nhiên (NLU), quản lý hội thoại (DM), thành phân sinh ngôn ngữ (NLG) Các thành phần nhận đạng giong néi Speech Recognition (text to speech hay speech to text) 1A cdc thanh phan ting cường 2| Mỗi thành phần trong chatbot déu cé vai trd riéng:
« NLU: bao gồm việc xử lý ngõn ngữ tự nhiên (NLP) cố nhiệm vụ xác dink
được ý dinh cau héi(intent classification) va trich chon thing tin (slots filter)
« DM: Quan ly héi thoại có nhiệm vụ xác định được hãnh động (action) tiép
thoại Các kich ban dung san (history) đã
thao dựa vào trang thái hành động trước đó hay ngữ cảnh hủ
v phải được đối chiến trong œ
đảo tạo cho hoi Thành phần này cũng dâm nhiệm việc lấy dữ liệu từ hệ
thông kháe qua cée API goi trong action
e NEG: 1a think phần sỉnh ngôn ngữ dựa vào chính sách (poliey} và hành động được xác đình trong DM thông qua các tập hội thoại, NGT, có thể được sinh ra tâu trả li dựa vào tập mẫn edi urd lei (predefined template)
đã đào tạo cho bot
Hiểu ngôn ngữ tự nhiên (NLU) có thể nói là thành phần quan trọng nhất của chatbot Chatbot cé théng minh hay khéng thì đây là thành phản quyết định
Mục tiêu của, thành phần mày là trích xuất ra 3 thành phần thông tần Lừ cầu nồi
của người dim
« Đầu tiên là phân loại lĩnh vực (domain classification)[Z, nó có thể là lĩnh
vực ngân hàng, y tế hay bảo hiểm, Nếu trong trường hợp chỉ có một lĩnh
vực Lĩ không cần thiết cho bước phẩm loại này
« Liếp đến là phân loại ý định (imcnb classification)|7], ví dụ như xác định
được ý định tra cứu thông tin tài khoản hoặc ý định kiểm tra số du
Trang 30LUẬN VĂN THẠC SĨ ĐINH HUY TUẤN
e Cuối cùng là bước trích xuất thông tin (slot fillter hay entity extraction )[2]
trong câu hỏi người dùng Ví dụ ta phải trích chọn được thông tin số tháng
trong cân hỏi người dùng: “lãi xuất kỳ hạn 3 tháng là bao nhiên” Từ việc
trích xuất được thông tin 3 tháng thì chatbot mới có cơ sở trả lời cho người
dùng
NLU xử lý tin nhắn người dùng bằng một đường ống (pipeline) nơi mà cấu
hình các bước xử lý liên tiếp theo tuần tự :
miễn (Domain định (intent thông tin (Entity
Hình 3.1: Các bước xử lý chinh trong pipeline etia NLU
Trong đường ống này thì bạn có the thy chỉnh các thành phần từ bước tiền
xử lý dữ liệu, mõ hình hóa ngõn ngữ, các thuật toán dùng để tách từ và trích
xuất thông tin thực thể
3.2 Bài toán xác định ý định người dùng
Để phân loại được ý định câu người dimg thì ta cần mô hình hóa ngôn ngữ
(veetori
tion) Phương pháp phổ biến nhất hiện tại là word embedding (nhúng
từ) Tập nhúng từ là tên chung cho một tập hợp các mô hình ngôn ngữ và các
phương pháp học đặc trưng trong xử lý ngôn ngữ tự nhiên (NLP), nơi các từ
hoặc cụm từ từ vựng được ánh xạ tới vectơ số thực Về mặt khái niệm, nó liên
quan đến việc nhúng toán học từ một không gian với một chiền cho mỗi từ vào
n tue với kích thước thấp hơn nhiều Một số phương,
'Vec, GloVe hay mới hơn là FastText sẽ được
Trang 31LUẬN VĂN THẠC SĨ ĐINH HUY TUẦN
Sau khi mô hình hóa ngôn ngữ bao gồm dữ liệu đầu vào training cho bot
thì việc xác định ý định người dùng từ câu hỏi người dùng dựa trên tập đã training là bước phân loại ý định (intent classification) hay phân loại văn bản
Ở bước này ta có thể dùng một số kỹ thuật như: Naive Bayes, Decision Tree
(Random Forest), Vector Support Machine (SVM), Convolution Neural Network (CNN), Recurrent Neural Network (RNN), Long Short-Term Memory (LSTM, Bi-LSTM) Hầu hết các chatbot hiện tại đều ứng dụng mô hình deep learning như RNN và LSTM để phân loại ý định người dùng Bài toán thách thức lớn nhất cho các chatbot ở bước này là xác định nhiều ý định(multiple intents) trong
, kiểm tra cho tôi số dư tài
một cân nói người dùng Ví dụ nếu bạn nói “xin chi
khoản” thì bot phải xác định được 2 ý định m tra số dự” trong
câu nói người dùng Nếu bot có thể hiểu và trả lời được câu hói loại này sẽ giúp việc tương tác với bot trở nên tư nhiên hơn [4]
3.2.1 Các phương pháp biểu diễn từ
'Ta ký hiệu V là tập từ vựng và |V| là kích cỡ của nó
€6 hai cách chính để biểu diễn từ, được tổng kết qua hình sau:
Biểu diễn 1-hot Word embedding
mềm
mềm
sách
Hình ich biển diễn từ
Embedding matrix: Cho mot tit w, embedding matrix E là một ma trận tham chiếu thể hiện one-hot ø„ của nó với embedding e„ của nó như sau:
ew = Bow
© Word2Vec: là một framework tập trung vào viée hoc word embeddings
bằng cách ước lượng khi
ến bao gồm skip-gram, negative sampling và
ø Skip-gram: Mô hình skip-gram word2vec là một task học có giám sát, nó
Trang 32LUAN VAN THAC sf ĐINH HUY TUẦN
word ¢ cho trước nào xây ra, với context word e |13| Bằng việc kí hiệu ở; là
tham số đi kèm với t, xác suất /”(1|e) được tính nhĩ sau:
An
Negative sarapling: là một tập của các bọ phân loại nhị phần sử dung
logistic regressions véi muc tiêu là đánh giá khả năng mà mốt ngữ cảnh
cho trưác và các target words cho trước có thể xuất hiện đồng thời, với các
mô hình đang được huấn luyện trên các tập của kk negative examples và 1
positive example [12] Cho truéc context word ¢ vA target word ý, dự đoán
được thể hiện bởi:
ply — Let) — (OF ee)
Glove Mé hinh GloVe, viết t4t ca global vectors for word representation,
mồ là một kĩ rhuat word embedding sit dung ma train ding xuat hién XX véi
mai Xj, 1a sé 13n ma, tit dich (target) i xn4t hiện rại ngữ cảnh j [12] Cost iunction JJ của nó như sau:
ƒ là hàm số với Ä¡¡ — 0 — /(X¡¡) — 0 Với tính đối xứng mà và đ có được
ái cũng s39) được định nghĩa như
Một ruõ hình ngân ngữ sẽ dự đoán xác suất của một câu /(y) 15|
« Mô hình n-gram: Mô hình này là cách tiếp cận naive với mục đích định
lượng xác suất mà một biểư hiện xuất hiện trong văn bản bằng cách đếm
số lần xuất hiện của nó trong tặp đữ liệu huấn luyện
«Ẳ BERT: |6| là một mô hình ngôn ngữ (Language Model) được tạo ra bởi Google AI BERT được coi như là đột phá lớn trong Machine Learning bởi
vì khả năng ứng đụng của nó vào nhiều bài toán NLI' khác nhau: Question Answering, Natural Language Inference, với kết quả tốt
Trang 33LUẬN VĂN THẠC SĨ ĐINH HUY TUẤN
Transformer gồm có 2 phần chính: Encoder và Decoder, encoder thực hiện đọc dữ liệu đầu vào và decoder đưa ra dự đoán Ở đây, BERT chỉ sử dụng
Nguyên lý hoạt động của Eneoder Theo đó, input đầu vào là một chuỗi
cá „được biểu điễn thành chuỗi các vector trước khi đưa vào trong mang neural Output ctia mo hinh 1a chudi ces vector có kích thước
đúng bằng kích thước input Trong khi huấn luyện mô hình, một thách thức
token wy, w:
gap phải là các mô hình directional truyền thống gặp giới hạn khi học ngữ
cảnh của từ Dể khắc phục nhược điểm của các mô hình cñ, BERT sử dụng
9 chiến lược training như sau:
Masked LM (MLM)
Trước khi đưa vào BERT, thì 15% số từ trong chuỗi được thay thế bởi
token [MASK], khi d6 mô hình sẽ dự đoán từ được thay thế bởi [MASK] với
context là các từ không bi thay thé béi [MASK]
Next Sentence Prediction (NSP)
Trong chiến lược này, thì mô hình sử dụng một cặp câu là dữ liệu đầu vào
và dự đoán câu thứ 2 là câu tiếp theo của câu thứ 1 hay không, Trong quá
trình huấn luyện, 50% lượng dữ liệu đầu vào là cặp câu trong đó câu thứ 2 thực sự là cau tiếp theo của câu thứ 1, 50% còn lại thì câu thứ 2 được chọn
ngẫu nhiên từ tập dữ liệu