Ứng dụng máy học trong tạo sinh câu trả lời cho hệ thống hỏi – đáp

Hệ thống trả lời tự động có thể trợ giúp cho con người trong rất nhiều lĩnh vực: y tế, giáo dục, thương mại điện tử … Với sự ra đời của framework sequence gần đây, nhiều hệ thống huấn lu

PHẦN NỘI DUNG

Xây dựng hệ thống hỏi đáp là một thách thức lớn trong lĩnh vực xử lý ngôn ngữ tự nhiên do tính đa nghĩa của ngôn ngữ Việc xác định ngữ nghĩa của câu hỏi và phát hiện câu trả lời là rất khó khăn Hơn nữa, giữa câu hỏi và câu trả lời còn tồn tại nhiều mối quan hệ phức tạp.

Chương này sẽ cung cấp cái nhìn tổng quan về hệ thống trả lời tự động, đồng thời khám phá các nghiên cứu trong và ngoài nước để hiểu rõ tình hình nghiên cứu và các phương pháp tiếp cận của các nghiên cứu trước đây Bài toán này đặt ra nhiều thách thức trong việc phát hiện câu trả lời phù hợp nhất với câu hỏi, phụ thuộc vào ngữ cảnh.

1.2 Hệ thống trả lời tự động

Hệ thống trả lời tự động (QA) là một lĩnh vực trong khoa học máy tính, liên quan đến truy xuất thông tin và xử lý ngôn ngữ tự nhiên (NLP), cho phép trả lời các câu hỏi bằng ngôn ngữ tự nhiên QA thường được điều khiển bởi chương trình máy tính, xây dựng câu trả lời từ cơ sở dữ liệu có cấu trúc chứa thông tin liên quan ELIZA, một trong những hệ thống QA đầu tiên, được phát triển vào năm 1964, đã thành công trong lĩnh vực y tế, tương tác với người dùng qua giao diện tin nhắn và mô phỏng liệu pháp tâm lý giữa người dùng và bác sĩ.

Hệ thống QA được phát triển nhằm tìm kiếm câu trả lời cho nhiều loại câu hỏi trong một tập tài liệu hoặc từ một nguồn dữ liệu cụ thể Người dùng có thể đặt câu hỏi bằng ngôn ngữ tự nhiên, giúp quá trình tìm kiếm thông tin trở nên dễ dàng và hiệu quả hơn.

CƠ SỞ LÝ THUYẾT

Giới thiệu chương 1

Xây dựng hệ thống hỏi đáp là một thách thức lớn trong lĩnh vực xử lý ngôn ngữ tự nhiên Ngôn ngữ tự nhiên thường mang nhiều nghĩa, do đó việc xác định ngữ nghĩa của câu hỏi và phát hiện câu trả lời là rất khó khăn Hơn nữa, giữa câu hỏi và câu trả lời còn tồn tại nhiều mối quan hệ phức tạp.

Bài viết này sẽ cung cấp cái nhìn tổng quan về hệ thống trả lời tự động, đồng thời phân tích các nghiên cứu trong và ngoài nước để hiểu rõ hơn về tình hình nghiên cứu và các phương pháp tiếp cận đã được áp dụng trước đây Việc phát hiện câu trả lời phù hợp nhất với câu hỏi đặt ra nhiều thách thức, phụ thuộc vào ngữ cảnh cụ thể.

Hệ thống trả lời tự động

Hệ thống trả lời tự động (QA) là một lĩnh vực trong khoa học máy tính, liên quan đến truy xuất thông tin và xử lý ngôn ngữ tự nhiên (NLP), cho phép trả lời các câu hỏi từ người dùng bằng ngôn ngữ tự nhiên QA thường được thực hiện bởi chương trình máy tính, xây dựng câu trả lời từ cơ sở dữ liệu có cấu trúc chứa thông tin liên quan ELIZA, một trong những hệ thống QA đầu tiên, được phát triển vào năm 1964, đã thành công trong việc ứng dụng trong lĩnh vực y tế, tương tác với người dùng qua giao diện tin nhắn và mô phỏng liệu pháp tâm lý giữa người dùng và bác sĩ.

Hệ thống QA được thiết kế để tìm kiếm câu trả lời cho các câu hỏi trong tài liệu hoặc từ nguồn dữ liệu, cho phép người dùng đặt câu hỏi bằng ngôn ngữ tự nhiên và nhận phản hồi chính xác, gần như theo ngôn ngữ tự nhiên Điều này khác biệt so với các công cụ tìm kiếm truyền thống, nơi chỉ cung cấp tài liệu liên quan Sự phát triển của hệ thống QA đang thu hút sự quan tâm của nhiều nhà khoa học, nhờ vào nhu cầu ngày càng cao về khả năng trả lời nhanh chóng và chính xác Hệ thống bao gồm ba module chính: xử lý câu hỏi, xử lý tài liệu và trích xuất câu trả lời Để nâng cao độ chính xác, các phương pháp trí tuệ nhân tạo và thuật toán học máy được áp dụng trong cả mô hình giám sát và không giám sát.

QA vẫn đang đối mặt với nhiều thách thức trong lĩnh vực NLP Tuy nhiên, trong những năm gần đây, NLP đã có sự phát triển mạnh mẽ, đặc biệt trong việc xử lý thuật ngữ máy tính và AI, nhằm nâng cao độ chính xác của các câu trả lời và thể hiện ngôn ngữ một cách tự nhiên nhất.

Phân loại các mô hình trả lời tự động

1.3.1 Phân loại theo miền ứng dụng [5]

Hệ thống trả lời tự động trên miền mở (Open Domain) có nhiệm vụ xác định câu trả lời cho các câu hỏi ngôn ngữ tự nhiên từ kho tài liệu lớn Quy trình của hệ thống QA miền mở bắt đầu bằng việc truy xuất thông tin để chọn ra một tập hợp con tài liệu, sau đó được xử lý bởi bộ đọc máy để xác định các khoảng câu trả lời Hệ thống này có khả năng giải quyết đa dạng các loại câu hỏi, dựa trên các bản thể học chung và kiến thức thế giới Ngoài ra, chúng thường có sẵn nhiều dữ liệu hơn để trích xuất câu trả lời phù hợp.

Hệ thống trả lời câu hỏi miền đóng xử lý các câu hỏi trong một lĩnh vực cụ thể, giúp đơn giản hóa quá trình nhờ vào việc khai thác kiến thức chuyên sâu và chính thức hóa trong các bản thể học Tuy nhiên, hệ thống này thường chỉ có khả năng đáp ứng một số câu hỏi hạn chế, chẳng hạn như những câu hỏi yêu cầu thông tin mô tả thay vì quy trình.

1.3.2 Phân loại theo hướng tiếp cận

Tiếp cận dựa vào trích chọn thông tin (Retrieval-based) sử dụng kho câu trả lời đã định nghĩa trước kết hợp với các phương pháp trích chọn Heuristic để tìm ra đáp án phù hợp nhất dựa vào mẫu hỏi và ngữ cảnh Kỹ thuật heuristic có thể đơn giản như so sánh trùng khớp biểu thức theo luật hoặc phức tạp hơn với việc áp dụng học máy (Machine Learning) để phân lớp câu hỏi và đáp án Các hệ thống này không tạo ra văn bản mới mà chỉ sử dụng đáp án từ một tập dữ liệu cố định.

Mô hình sinh (Generative-based) không dựa vào tập trả lời đã được định nghĩa trước, mà có khả năng tự tạo ra các đáp án từ đầu Các mô hình này sử dụng kỹ thuật Máy Dịch (Machine Translation) để "dịch" từ một input sang một output, thay vì dịch giữa các ngôn ngữ khác nhau.

Mô hình trích chọn thông tin dựa trên kho dữ liệu với các bộ luật được thiết kế bằng tay giúp tránh các lỗi ngữ pháp Tuy nhiên, chúng gặp khó khăn trong việc xử lý các trường hợp chưa được quan sát và không có trong bộ luật Do đó, các mô hình này không thể ghi nhớ thông tin ngữ cảnh trước đó, chẳng hạn như "tên người" được đề cập trong đoạn hội thoại.

Mô hình sinh thì hiện đại có khả năng ghi nhớ các thực thể trong câu hỏi, tạo cảm giác như đang giao tiếp với con người Tuy nhiên, việc huấn luyện những mô hình này gặp nhiều khó khăn, dễ mắc lỗi ngữ pháp, đặc biệt với các câu dài, và cần một lượng lớn dữ liệu để đạt hiệu quả tốt.

Các kỹ thuật học sâu Deep Learning được áp dụng cho cả mô hình Retrieval-based và Generative-based, nhưng nghiên cứu hiện nay chủ yếu tập trung vào mô hình Generative Chúng ta đang ở giai đoạn đầu trong việc phát triển mô hình sinh và đã đạt được những kết quả khả quan Tuy nhiên, các hệ thống thương mại vẫn chủ yếu sử dụng mô hình Retrieval-based.

Kiến trúc mạng nơ-ron nhân tạo

Mạng nơ-ron nhân tạo (ANN) được phát triển dựa trên cấu trúc của mạng nơ-ron sinh học, bao gồm ba loại tầng chính: tầng vào (input layer) để tiếp nhận dữ liệu, tầng ra (output layer) để xuất kết quả, và tầng ẩn (hidden layer) để thực hiện các bước suy luận trung gian Mỗi nơ-ron trong mạng sẽ nhận đầu vào từ các nơ-ron ở tầng trước và sử dụng các hàm kích hoạt phi tuyến như sigmoid, ReLU, hoặc tanh để tính toán đầu ra.

Hình 1.1: Mạng nơ-ron nhân tạo

Trong mạng nơ-ron nhân tạo (ANN), mỗi nút mạng hoạt động như một nơ-ron sigmoid, tuy nhiên hàm kích hoạt của chúng có thể khác nhau Thực tế, người ta thường sử dụng cùng một dạng hàm kích hoạt cho tất cả các nút để thuận tiện trong quá trình tính toán.

Mạng ANN có lợi thế lớn nhất là khả năng xấp xỉ hàm tùy ý từ dữ liệu quan sát Tuy nhiên, việc thiết kế và sử dụng mạng ANN không hề đơn giản, đòi hỏi người dùng phải chú ý đến một số đặc tính và kinh nghiệm quan trọng.

 Chọn mô hình: Điều này phụ thuộc vào cách trình bày dữ liệu và các ứng dụng

Mô hình quá phức tạp có xu hướng dẫn đến những thách thức trong quá trình học

 Cấu trúc và sự liên kết giữa các nơ-ron

Mạng nơ-ron nhân tạo (ANN) cần giải quyết hai vấn đề chính trong quá trình học: học tham số của mô hình và học cấu trúc Học tham số liên quan đến việc điều chỉnh trọng số của các liên kết giữa các nơ-ron, trong khi học cấu trúc tập trung vào việc thay đổi số lớp ẩn, số nơ-ron trong mỗi lớp và cách liên kết giữa chúng Cả hai quá trình này có thể được thực hiện đồng thời hoặc tách biệt.

Nếu được lựa chọn đúng đắn, các mô hình, hàm chi phí và thuật toán học sẽ giúp mạng ANN đạt được hiệu quả và kết quả mạnh mẽ.

Hoạt động của mạng nơ-ron nhân tạo [13]

Mạng nơ-ron nhân tạo bao gồm nhiều lớp xử lý toán học để hiểu thông tin đầu vào Thông thường, nó có từ hàng chục đến hàng triệu nơ-ron nhân tạo, được gọi là các đơn vị, sắp xếp thành các lớp khác nhau Lớp đầu vào nhận dữ liệu từ thế giới bên ngoài, đây là thông tin mà mạng cần xử lý Dữ liệu sau đó được chuyển qua một hoặc nhiều đơn vị ẩn, có nhiệm vụ chuyển đổi đầu vào thành dạng mà đơn vị đầu ra có thể sử dụng.

Hầu hết các mạng nơ-ron đều có cấu trúc kết nối đầy đủ giữa các lớp, với các kết nối này mang trọng số, cho phép một đơn vị ảnh hưởng lớn đến đơn vị khác, tương tự như cách hoạt động của bộ não con người Khi dữ liệu di chuyển qua từng đơn vị, mạng nơ-ron sẽ học hỏi và cải thiện khả năng xử lý thông tin Cuối cùng, các đơn vị đầu ra của mạng sẽ phản hồi dữ liệu đã được cung cấp và xử lý.

Các nhà khoa học thần kinh nhận thức đã khám phá nhiều điều về bộ não con người, đặc biệt là cách các phần khác nhau của não xử lý thông tin theo thứ bậc Thông tin đầu vào được truyền qua các cấp độ tế bào thần kinh, mỗi cấp cung cấp cái nhìn sâu sắc hơn Mạng nơ-ron nhân tạo (ANN) cố gắng tái tạo cơ chế này bằng cách sử dụng một tập huấn luyện lớn, bao gồm hàng nghìn hình ảnh được gắn thẻ, để học cách phân biệt mèo và chó Sau khi được đào tạo, ANN sẽ phân loại dữ liệu dựa trên những gì nó đã học Trong quá trình này, đầu ra của máy được so sánh với mô tả của con người; nếu giống nhau, máy được xác nhận, nếu không, nó sẽ điều chỉnh thông qua phương pháp truyền ngược Quá trình này, được gọi là học sâu, giúp mạng trở nên thông minh hơn.

Mạng nơ-ron RNN (Recurrent Neural Network) và ứng dụng

Mạng nơ-ron tuần hoàn (RNN) là một loại neural network phổ biến trong phân tích trình tự, nhờ vào khả năng trích xuất thông tin ngữ cảnh và xác định sự phụ thuộc giữa các thời điểm khác nhau RNN được cấu trúc với nhiều lớp lặp lại, cho phép ánh xạ các trình tự một cách hiệu quả Với khả năng thu thập dữ liệu theo ngữ cảnh mạnh mẽ, RNN có thể xử lý các chuỗi có độ dài tùy ý, giúp đạt được kết quả phân loại dữ liệu chính xác.

Hình 1.2: Kiến trúc của mạng RNN

RNN là một phần mở rộng của mạng nơ-ron với các vòng lặp trong lớp ẩn, cho phép xử lý chuỗi mẫu và xác định mối quan hệ thời gian giữa chúng LSTM, một biến thể của RNN, cải thiện khả năng phân loại bằng cách thêm các tham số mạng và điều chỉnh trạng thái dựa trên giá trị đầu vào RNN thường đạt hiệu suất tốt hơn LSTM nhờ vào việc kích hoạt trạng thái dựa trên các sự kiện mạng Nút RNN cơ bản bao gồm một thiên bias và trọng số duy nhất, trong khi LSTM có bốn thiên bias hoặc trọng số Đánh giá RNN thường được thực hiện thông qua đơn vị định kỳ và LSTM, với cấu hình mạng một đối một được thiết lập từ các tham số mạng, nơi mỗi bước thời gian của dữ liệu đầu vào tạo ra kết quả đầu ra tương ứng.

Lớp cổng trạng thái và cổng quên trong mạng nơ-ron hồi tiếp (RNN) giúp kiểm soát trạng thái ẩn và đầu vào hiện tại, ảnh hưởng đến trạng thái ô Đầu vào, đầu ra và kích hoạt cổng quên được điều chỉnh bằng hàm sigmoid, trong khi đầu ra của trạng thái ẩn được lọc qua hàm hyperbol Việc tối ưu hóa các tham số mạng sử dụng gradient ngẫu nhiên dựa trên chuỗi dữ liệu đầu vào, với các siêu tham số như cấu trúc mạng, độ dài chuỗi, kích thước lô, động lượng và tốc độ học được thiết lập qua tìm kiếm ngẫu nhiên hoặc thủ công Đầu vào của RNN là chuỗi vectơ {y1, y2,… yM}, chuỗi trạng thái ẩn {z1, z2,… zM} và đơn vị đầu ra tương ứng {v1, v2,… vM}.

Lớp hồi quy sử dụng hàm tái quy d, với vectơ đầu vào yx và đơn vị ẩn của trạng thái trước zx, để tạo ra trạng thái ẩn.

Các đơn vị đầu ra được tính toán dựa trên ma trận trọng số P, Q và R, trong đó hàm kích hoạt tanh biểu thị hàm tiếp tuyến hyperbol RNN áp dụng các chức năng phức tạp để hiểu và kiểm soát luồng thông tin trong lớp lặp lại, nhằm nắm bắt các phụ thuộc dài hạn.

1.6.2 Các ứng dụng của RNN

 Phát sinh mô tả cho ảnh (Generating Image Descriptions)

 RNN kết hợp với Convolution Neural Networks có thể phát sinh ra được

 các đoạn mô tả cho ảnh Mô hình này hoạt động bằng cách tạo ra những câu mô

 Tả từ các đặc trưng rút trích được trong bức ảnh

Dự đoán chuỗi thời gian, chẳng hạn như dự đoán giá cổ phiếu trong một tháng cụ thể, có thể được thực hiện hiệu quả bằng cách sử dụng mạng nơ-ron hồi tiếp (RNN).

Xử lý ngôn ngữ tự nhiên (Natural Language Processing) sử dụng RNN để dự đoán khả năng xuất hiện của từ tiếp theo từ một chuỗi các từ đầu vào Phương pháp này được coi là một trong những cách tiếp cận hiệu quả nhất cho việc dịch ngôn ngữ, vì câu có xác suất cao nhất thường là câu chính xác Xác suất đầu ra tại một "time-step" cụ thể sẽ được sử dụng làm mẫu để xác định các từ trong lần lặp tiếp theo.

Hình 1.3: Ứng dụng RNN trong phát sinh mô tả cho ảnh

Huấn luyện RNN tương tự như huấn luyện Neural Network truyền thống, sử dụng thuật toán backpropagation với một số điều chỉnh để tối ưu hóa Gradient tại mỗi output không chỉ phụ thuộc vào kết quả của bước hiện tại mà còn liên quan đến kết quả của các bước trước đó.

Để tính gradient tại thời điểm t = 4, cần thực hiện backpropagation 3 bước trước đó và cộng dồn các gradient lại, kỹ thuật này được gọi là Backpropagation Through Time (BPPTT) Tuy nhiên, một hạn chế là hidden layer không có trí nhớ dài hạn, dẫn đến vấn đề vanishing/exploding gradient LSTM được phát triển để khắc phục vấn đề này.

1.6.4 Các phiên bản mở rộng của RNN [14]

Mạng nơ-ron tái phát hai chiều (BRNN) là một biến thể của RNN, cho phép sử dụng thông tin từ cả quá khứ và tương lai để cải thiện độ chính xác trong dự đoán Khác với RNN một chiều chỉ dựa vào dữ liệu trước đó, BRNN chia các tế bào thần kinh thành hai phần: một phần xử lý thông tin theo hướng thời gian dương và một phần cho hướng thời gian âm Điều này tạo ra một cấu trúc mạng phức tạp hơn, cho phép thông tin từ cả hai hướng được sử dụng đồng thời mà không cần độ trễ Ví dụ, trong cụm từ “feeling under the weather”, BRNN có thể dự đoán chính xác từ “under” nếu biết rằng từ cuối cùng là “weather”.

Hình 1.4: Cấu trúc chung của RNN một chiều thông thường được hiển thị (a) với một đường trễ và (b) mở ra theo thời gian trong hai bước thời gian

Hình 1.5: Cấu trúc chung của mạng nơ-ron lặp lại hai chiều (BRNN) được hiển thị theo thời gian trong ba bước thời gian

Bộ nhớ ngắn hạn dài (LSTM) là một kiến trúc RNN phổ biến, được phát triển bởi Sepp Hochreiter và Juergen Schmidhuber để giải quyết vấn đề biến mất gradient LSTM được thiết kế nhằm tránh vấn đề phụ thuộc lâu dài, cho phép ghi nhớ thông tin trong thời gian dài Điều này có nghĩa là nếu trạng thái trước đó ảnh hưởng đến dự đoán hiện tại không phải từ quá khứ gần đây, mô hình RNN có thể gặp khó khăn trong việc dự đoán chính xác trạng thái hiện tại.

Tất cả các mạng nơron tuần hoàn (RNN) đều bao gồm chuỗi các mô-đun lặp lại Trong các RNN tiêu chuẩn, mô-đun lặp này thường có cấu trúc đơn giản, ví dụ như một lớp hàm kích hoạt tanh.

Hình 1.6: Mô-đun lặp lại trong mạng RNN tiêu chuẩn chứa một lớp duy nhất

Các LSTM có cấu trúc tương tự như chuỗi, nhưng mô-đun lặp lại của chúng có cấu trúc khác biệt Thay vì chỉ có một lớp mạng nơ-ron, LSTM bao gồm bốn lớp tương tác theo cách rất đặc biệt.

Mô-đun lặp lại trong LSTM bao gồm bốn lớp tương tác, với trạng thái ô là yếu tố cốt lõi, chạy ngang qua đầu sơ đồ Trạng thái tế bào hoạt động như một băng chuyền, cho phép thông tin trôi chảy suốt chuỗi với chỉ một số tương tác tuyến tính nhỏ LSTM có khả năng điều chỉnh thông tin trong trạng thái tế bào, thông qua các cổng được thiết kế cẩn thận để loại bỏ hoặc thêm thông tin.

Hình 1.8: Cổng trong mô hình LSTM

Cổng là một phương pháp tùy chọn để truyền đạt thông tin, được cấu tạo từ một lớp mạng thần kinh sigmoid và phép toán nhân theo chiều kim loại Lớp sigmoid này xuất ra các giá trị từ 0 đến 1, thể hiện mức độ thông qua của từng thành phần.

Mô hình trả lời tự động

Mô hình seq2seq bao gồm hai mạng RNN: một cho bộ mã hóa và một cho bộ giải mã Bộ mã hóa tiếp nhận một chuỗi đầu vào và xử lý từng phần tử tại mỗi bước, với mục tiêu chuyển đổi chuỗi thành một vectơ đặc trưng có kích thước cố định, mã hóa thông tin quan trọng và loại bỏ thông tin không cần thiết Dữ liệu trong bộ mã hóa được truyền theo trục thời gian, tương tự như dòng chảy thông tin từ phần tử cuối của chuỗi sang chuỗi khác.

Mỗi trạng thái ẩn ảnh hưởng đến trạng thái ẩn tiếp theo, và trạng thái ẩn cuối cùng được coi là tóm tắt tích lũy về chuỗi Trạng thái này được gọi là bối cảnh hay vectơ suy diễn, đại diện cho ý định của chuỗi Từ bối cảnh đó, các bộ giải mã tạo ra chuỗi bằng cách phát sinh từng phần tử (word) một.

Embedding và Keras Embedding Layer [18], [19]

Embedding là kỹ thuật chuyển đổi vector có chiều lớn, thường thưa, thành vector có chiều nhỏ, thường dày đặc Phương pháp này rất hữu ích cho các đặc trưng hạng mục với số lượng phần tử lớn, nơi mỗi giá trị thường được biểu diễn bằng vector one-hot Lý tưởng nhất, các giá trị có ý nghĩa tương tự sẽ nằm gần nhau trong không gian embedding.

Biểu diễn từ trong một bộ từ điển dưới dạng số, đặc biệt là với hàng triệu từ, dẫn đến việc sử dụng one-hot vector tạo ra số chiều rất lớn Điều này gây ra khoảng cách đều nhau giữa các từ, làm giảm giá trị thông tin cho việc huấn luyện mô hình machine learning Một phương pháp biểu diễn từ hiệu quả cần phải phản ánh mối quan hệ giữa các cặp từ như (vua, hoàng hậu) và (chồng, vợ) do chúng có ý nghĩa gần gũi.

Keras cung cấp một lớp Embedding cho mạng nơ-ron xử lý dữ liệu văn bản, yêu cầu đầu vào là các số nguyên mã hóa, với mỗi từ được biểu diễn bằng một số duy nhất Để chuẩn bị dữ liệu này, bạn có thể sử dụng API Tokenizer có sẵn trong Keras.

Layer nhúng được khởi tạo với trọng số ngẫu nhiên và sẽ học cách nhúng cho tất cả các từ trong tập dữ liệu huấn luyện Các thông số cơ bản để khởi tạo layer nhúng bao gồm:

 input_dim: kích thước của từ điển trong dữ liệu đầu vào, nếu dữ liệu đầu vào có giá trị là n thì kích thước là n+1 từ

 output_dim: độ dài của vec-tơ tương ứng cho mỗi từ

 input_length: Độ dài của chuỗi đầu vào

CÁC CÔNG TRÌNH LIÊN QUAN

Giới thiệu chương 2

Chương này tổng hợp các nghiên cứu trong và ngoài nước có liên quan chặt chẽ đến đề tài, tạo nền tảng vững chắc cho nghiên cứu Những công trình này cũng giúp luận văn xác định hướng phát triển cho đề tài một cách rõ ràng.

Tình hình nghiên cứu trong và ngoài nước

2.2.1 Các nghiên cứu trong nước

“Building Filters for Vietnamese Chatbot Responses” [20]

Chatbot tự động đang trở thành xu hướng toàn cầu nhờ tính tiện lợi và hiệu quả trong nhiều lĩnh vực như thương mại điện tử và chăm sóc khách hàng Việc sử dụng chatbot giúp cắt giảm nhân lực và nâng cao trải nghiệm cho cả khách hàng lẫn doanh nghiệp Mặc dù nhiều hệ thống chatbot tốt hiện nay chủ yếu sử dụng tiếng Anh, nhưng với tiếng Việt, chất lượng đầu ra thường không đạt yêu cầu do sự khác biệt về cấu trúc và ngữ pháp Điều này có thể dẫn đến những phản hồi không chính xác, gây hiểu lầm cho người dùng, đặc biệt trong các lĩnh vực pháp lý và tài chính Bài báo này đề xuất một phương pháp đánh giá lại kết quả đầu ra của chatbot để giảm thiểu phản hồi sai lệch Chúng tôi đã áp dụng các phương pháp nổi tiếng từ chatbot tiếng Anh sang tiếng Việt và xây dựng bộ lọc đánh giá phản hồi dựa trên đặc điểm ngôn ngữ Việt Nếu phản hồi không phù hợp, hệ thống sẽ không cung cấp cho người dùng và có thể yêu cầu thêm thông tin hoặc đưa ra thông báo thay vì phản hồi sai Chúng tôi cũng phát triển một ứng dụng web tích hợp chatbot để kiểm tra tính khả thi của phương pháp trong thực tế.

Hệ thống trả lời câu hỏi được thiết kế để cung cấp câu trả lời chính xác cho người dùng, thay vì chỉ đưa ra danh sách tài liệu như các công cụ tìm kiếm hiện tại Bài báo này giới thiệu một hệ thống trả lời câu hỏi tiếng Việt dựa trên bản thể học, cho phép người dùng đặt câu hỏi bằng ngôn ngữ tự nhiên Đây là nỗ lực đầu tiên cho phép truy vấn cơ sở tri thức bản thể học bằng tiếng Việt Các thử nghiệm trên bản thể học tổ chức đã cho thấy kết quả đầy hứa hẹn.

“BERT+vnKG:Using Deep Learning and Knowledge Graph to Improve Vietnam-ese Question Answering System” [22]

Hệ thống trả lời câu hỏi (QA) dựa trên xử lý ngôn ngữ tự nhiên và học sâu đang được nghiên cứu rộng rãi, với mô hình Bộ nhớ Ngắn hạn Dài (LSTM) là một trong những công nghệ phổ biến Tuy nhiên, LSTM có những hạn chế, dẫn đến sự xuất hiện của mô hình Biểu diễn mã hóa hai chiều từ máy biến áp (BERT), nổi bật với nhiều tính năng tiên tiến hơn và kết quả hiện đại trong các nhiệm vụ QA đa ngôn ngữ Dù vậy, khi áp dụng BERT đa ngôn ngữ cho hệ thống QA tiếng Việt, chúng tôi nhận thấy mô hình này vẫn gặp khó khăn về thời gian và độ chính xác Nghiên cứu này nhằm đề xuất phương pháp kết hợp BERT và đồ thị kiến thức để cải thiện độ chính xác và tốc độ tìm kiếm câu trả lời cho hệ thống QA về du lịch ở Việt Nam Qua thử nghiệm trên ba mô hình, bao gồm LSTM, BERT tinh chỉnh đa ngôn ngữ cho QA và BERT + vnKG, kết quả cho thấy mô hình của chúng tôi vượt trội về độ chính xác và thời gian, đồng thời có thể áp dụng cho các lĩnh vực khác như tài chính và thương mại điện tử.

“A Neural Network based Vietnamese Chatbot” [23]

Hiện nay, chatbot đang trở thành một xu hướng nổi bật, với nhiều thành công từ các mô hình chung Bài viết này nhằm mục đích phát triển một chatbot tiếng Việt dựa trên mô hình seq2seq kết hợp với cơ chế chú ý Chúng tôi đã triển khai mô hình và thực hiện thử nghiệm trên nền tảng học sâu Pytorch sử dụng GPU.

Mô hình được đào tạo từ đầu đến cuối mà không theo quy tắc thủ công, sử dụng một tập dữ liệu nhỏ để tạo phản hồi cho người dùng Tuy nhiên, các phản hồi này cần được cải thiện để có cuộc trò chuyện có ý nghĩa hơn Chúng tôi áp dụng mô hình Dịch máy thần kinh của Pytorch do Sean Robertson phát triển vào năm 2017, với cấu trúc RNN và cơ chế chú ý, cho phép bộ giải mã truy cập trực tiếp vào đầu ra trạng thái ẩn của bộ mã hóa Mạng Seq2seq bao gồm hai mạng nơ-ron tuần hoàn (RNN), trong đó đầu vào là câu hoặc câu hỏi từ người dùng, bộ mã hóa tạo ra một vector duy nhất và trạng thái ẩn, trong khi bộ giải mã sử dụng vectơ này để xuất ra phản hồi.

“NEU-chatbot: Chatbot for admission of National Economics University”

Trong nghiên cứu này, chúng tôi phát triển NEU-chatbot trên nền tảng Rasa, bao gồm hai thành phần chính là Rasa Core và Rasa NLU Rasa Core xử lý luồng hội thoại, lời nói và hành động, trong khi Rasa NLU giúp hiểu và phân loại ý định cũng như trích xuất thực thể từ đầu vào văn bản NLU xác định ý định, Rasa Core thực hiện hành động tương ứng, và bot sẽ phản hồi dựa trên hành động đó Bài viết này trình bày quy trình xây dựng chatbot Rasa để giải đáp thắc mắc cho Trường Đại học Kinh tế Quốc dân, bao gồm các bước như Interpreter, Tracker, Policy, Action, ngoại trừ bước đầu tiên.

Rasa NLU và Rasa Core là hai thành phần chính trong việc xử lý thông điệp Sau khi nhận thông báo đầu vào, Rasa NLU sẽ trích xuất ý định, thực thể và thông tin cần thiết, trong khi trình theo dõi duy trì trạng thái ngữ cảnh hội thoại Đầu ra của trình theo dõi sẽ được chuyển đến trình quản lý chính sách để xác định hành động tiếp theo Chatbot đã trả lời 90,29% câu hỏi một cách thích hợp, và nếu chỉ tính các câu hỏi liên quan đến việc nhập học NEU, tỷ lệ này lên tới 95,79% Một cuộc khảo sát trên Facebook cho thấy 98,61% trong số 1000 khách hàng hài lòng với câu trả lời của chatbot Ngoài ra, chatbot giúp giảm 80% số lượng chuyên gia tư vấn tuyển sinh mà vẫn đảm bảo chất lượng dịch vụ.

“Understanding what the users say in chatbots: A case study for the Vietnamese language” [25]

Bài báo này nghiên cứu cách hiểu lời nói của người dùng trong hệ thống chatbot, với mục tiêu phát hiện ý định và nhận ra ngữ cảnh tương ứng Điều này giúp chatbot thực hiện nhiều hành động hơn và hiểu rõ hơn về người dùng Chúng tôi đề xuất một khung mô hình hóa, trong đó nhiệm vụ đầu tiên là phân loại và nhiệm vụ thứ hai là ghi nhãn trình tự hai lớp, khám phá các mạng thần kinh sâu để tự động tìm hiểu các tính năng ở cấp độ ký tự và từ Khung này được áp dụng để xây dựng một chatbot trong lĩnh vực thương mại điện tử tại Việt Nam, nhằm cải thiện giao tiếp giữa các thương hiệu bán lẻ và khách hàng Kết quả thử nghiệm trên bốn bộ dữ liệu mới cho thấy mạng nơ-ron sâu vượt trội hơn các phương pháp học máy truyền thống, với độ đo F tốt nhất đạt 82,32% trong việc phát hiện ý định và các biện pháp F từ 78% đến 91% trong việc trích xuất ngữ cảnh, tùy thuộc vào loại ngữ cảnh cụ thể.

2.2.2 Các nghiên cứu ngoài nước

“A Technical Question Answering System with Transfer Learning” [8]

Trong những năm gần đây, nhu cầu về các trang web trả lời câu hỏi kỹ thuật cộng đồng đã gia tăng Tuy nhiên, việc tìm kiếm câu trả lời hữu ích từ các chuyên gia thường tốn kém Nhóm nghiên cứu do Wenhao Yu dẫn đầu đã phát triển TransTQA, một hệ thống tự động cung cấp câu trả lời bằng cách truy xuất thông tin từ các câu hỏi tương tự đã được trả lời trước đó TransTQA sử dụng mạng ALBERT tiếng xiêm, giúp phản hồi nhanh chóng và chính xác Hệ thống này cũng áp dụng các tiêu chuẩn học tập chuyển giao sâu để nâng cao khả năng hỗ trợ nhiều lĩnh vực kỹ thuật.

“The Implementation of Question Answer System Using Deep Learning”

Hệ thống trả lời câu hỏi tiên tiến có khả năng cung cấp câu trả lời tự động cho các câu hỏi của người dùng, tương tự như cách con người tìm kiếm thông tin Dịch vụ trả lời câu hỏi của cộng đồng (CQA) ngày càng phổ biến, cho phép người dùng đăng bài và trả lời câu hỏi, từ đó giúp họ nhận được thông tin từ một tập hợp câu hỏi phong phú Mô hình dựa trên học tập sâu được sử dụng trong hệ thống này nhằm tự động hóa quá trình trả lời câu hỏi Các câu hỏi từ tập dữ liệu được nhúng và mạng nơron sâu được đào tạo để xác định sự tương đồng giữa các câu hỏi Câu trả lời tốt nhất được xác định dựa trên điểm tương đồng cao nhất Hệ thống cũng áp dụng thuật toán phân cụng phân cấp để nhóm các câu hỏi lại với nhau, nhằm nâng cao hiệu quả trong việc tìm kiếm câu trả lời.

“Evaluating the Performance of Recurrent Neural Network based Question Answering System with Easy and Complex bAbI QA Tasks” [27]

Hệ thống trả lời câu hỏi (QA) sử dụng ngôn ngữ tự nhiên để cung cấp câu trả lời ngắn gọn cho người dùng Bài viết này áp dụng các thuật toán Học sâu dựa trên Mạng thần kinh tái tạo (RNN) để giải quyết vấn đề QA, cho phép mở rộng mô hình cho nhiều nhiệm vụ khác nhau Hệ thống QA đơn giản dựa trên RNN được triển khai và đánh giá hiệu suất qua các tác vụ trả lời câu hỏi đơn giản và phức tạp, sử dụng tập dữ liệu bAbI Kết quả cho thấy sự khác biệt về hiệu suất giữa hai nhiệm vụ trả lời câu hỏi.

“Deep learning based question answering system in Bengali” [28]

Những tiến bộ trong xử lý ngôn ngữ tự nhiên đã nâng cao hiệu suất trong nhiều nhiệm vụ, nhưng tiếng Bengali, với khoảng 300 triệu người sử dụng, vẫn thiếu dữ liệu và nghiên cứu về trả lời câu hỏi (QA) Không có bộ dữ liệu QA quy mô lớn cho tiếng Bengali, cũng như không có mô hình ngôn ngữ được đào tạo trước nào có thể áp dụng cho ngôn ngữ này Trong nghiên cứu này, chúng tôi sử dụng các mô hình máy biến áp để đào tạo hệ thống QA dựa trên tập dữ liệu SQuAD 2.0 được dịch sang tiếng Bengali Chúng tôi cũng thu thập một tập dữ liệu QA nhỏ từ Wikipedia tiếng Bengali với các chủ đề văn hóa Bangladesh để đánh giá mô hình Cuối cùng, chúng tôi so sánh các mô hình với điểm chuẩn của con người thông qua các thử nghiệm khảo sát.

“Code Mixed Question Answering Challenge using Deep Learning Methods” [29]

Trong bối cảnh truyền thông xã hội, việc sử dụng ngôn ngữ trộn mã, kết hợp giữa tiếng mẹ đẻ và tiếng Anh, đang ngày càng phổ biến, đặc biệt trên Twitter Tuy nhiên, các hệ thống trả lời câu hỏi hiện tại chỉ hỗ trợ một ngôn ngữ duy nhất, như tiếng Anh, tiếng Pháp hoặc tiếng Đức Bài báo này giới thiệu một khung trả lời câu hỏi trực tuyến cho ngôn ngữ hỗn hợp, cho phép phân tích và trả lời các truy vấn ngôn ngữ trộn mã, đặc biệt là giữa tiếng Anh và ba ngôn ngữ Ấn Độ: Hindi, Telugu và Tamil Hệ thống sẽ dịch các từ hỗn hợp mã sang tiếng Anh để giảm độ phức tạp, sau đó áp dụng các thuật toán học sâu như Mạng thần kinh tái tạo (RNN) và Mạng chú ý phân cấp (HAN) để phân loại câu hỏi Ma trận nhầm lẫn được sử dụng để đánh giá hiệu suất của RNN và HAN Hệ thống này có thể được triển khai trên web và hứa hẹn sẽ thu thập thêm dữ liệu câu hỏi và câu trả lời hỗn hợp mã trong tương lai để cải thiện hiệu quả.

“A building regulation question answering system: A deep learning methodology” [30]

Các quy định đóng vai trò quan trọng trong việc đảm bảo chất lượng xây dựng và giảm thiểu tác động xấu đến môi trường Kỹ sư cần truy xuất thông tin quy định để đảm bảo tuân thủ tiêu chuẩn, nhưng thường gặp khó khăn trong việc tìm kiếm thông tin cụ thể một cách kịp thời Nghiên cứu này phát triển một phương pháp end-to-end tích hợp truy xuất thông tin với mô hình học sâu trong Xử lý ngôn ngữ tự nhiên (NLP), nhằm cung cấp câu trả lời chính xác và nhanh chóng cho các câu hỏi liên quan đến quy định xây dựng Hệ thống nguyên mẫu được phát triển để đánh giá phương pháp này, với hai đóng góp chính: (1) phương pháp kết hợp NLP và học sâu để giải quyết thắc mắc về quy định tòa nhà; và (2) chatbot QAS4CQAR để trả lời câu hỏi Phương pháp đề xuất có khả năng học tập mạnh mẽ và có thể áp dụng cho các quy định ở các khu vực pháp lý khác.

“Knowledge Base Question Answering Based on Deep Learning Models”

Bài báo này trình bày một phương pháp hai giai đoạn cho nhiệm vụ trả lời câu hỏi dựa trên kiến thức (KBQA), nhằm khớp các câu hỏi với ngữ nghĩa có cấu trúc trong cơ sở kiến thức Đầu tiên, chúng tôi giới thiệu mô hình trích xuất thực thể chủ đề (TEEM) để tự động trích xuất các thực thể chủ đề từ câu hỏi mà không cần các tính năng ngôn ngữ thủ công Sau khi trích xuất, chúng tôi tìm kiếm bộ ba kiến thức liên quan từ cơ sở kiến thức Tiếp theo, chúng tôi áp dụng mô hình ngữ nghĩa có cấu trúc sâu dựa trên mạng nơ-ron tích tụ và bộ nhớ ngắn hạn dài hạn hai chiều để khớp câu hỏi với vị từ trong bộ ba kiến thức ứng viên Để cải thiện tập dữ liệu đào tạo, chúng tôi sử dụng phương pháp lặp lại để truy xuất bộ ba kiến thức Kết quả cho thấy hệ thống đạt được chỉ số Average F1 là 79,57% trên tập dữ liệu thử nghiệm.

“Deep learning-based question answering system for intelligent humanoid robot” [32]

ĐỀ XUẤT PHƯƠNG PHÁP XÂY DỰNG BỘ DỮ LIỆU VÀ MÔ HÌNH CHO BÀI TOÁN

CÀI ĐẶT VÀ THỰC NGHIỆM

Tiêu đề	Ứng dụng máy học trong tạo sinh câu trả lời cho hệ thống hỏi đáp
Tác giả	Nguyễn Minh Trí
Người hướng dẫn	PGS.TS Nguyễn Tuấn Đăng
Trường học	Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành	Hệ thống thông tin
Thể loại	Luận văn thạc sĩ kỹ thuật
Năm xuất bản	2022
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	59
Dung lượng	2,47 MB