Xây dựng phần mềm dự đoán sự cố kỹ thuật trên hệ thống hành chính công luận văn thạc sĩ công nghệ thông tin

Các đơn vị, địa phường thường xuyên phản ánh về sự chậm trễ trong xử lý sự cố phát sinh về tổng đài viên, dẫn đến áp lực rất lớn cho đội ngũ tiếp nhận thông tin Từ thực trạng nêu trên, l

TỔNG QUAN

Nghiên cứu trong và ngoài nước

Trong những năm gần đây, ứng dụng Công nghệ Thông tin (CNTT) trong sản xuất, kinh doanh và đời sống đã trở nên phổ biến hơn, với chi phí đầu tư ngày càng hợp lý và sự phát triển của các công ty xây dựng phần mềm Các hệ thống phần mềm và robot ngày càng được chế tạo và tích hợp vào quy trình sản xuất để nâng cao hiệu quả và năng suất lao động Nhiều doanh nghiệp đã áp dụng các hệ thống phần mềm quản lý để tối ưu hoạt động kinh doanh và nâng cao cạnh tranh trên thị trường Đặc biệt, đại dịch Covid-19 đã làm rõ vai trò của CNTT trong việc duy trì hoạt động và kết nối cộng đồng, thúc đẩy chuyển đổi số trong mọi lĩnh vực của đời sống.

Trong bối cảnh ứng dụng Công nghệ Thông tin (CNTT) mạnh mẽ hiện nay, chúng ta đã xây dựng một kho dữ liệu khổng lồ, chứa đựng thông tin đa dạng và phong phú Tuy nhiên, sự phát triển này đặt ra thách thức lớn cho các nhà quản lý, nhà đầu tư và nhà phân tích dữ liệu trong việc xử lý và khai thác thông tin hiệu quả Để đưa ra các quyết định kinh doanh, đầu tư chính xác hoặc xử lý các tình huống phức tạp, cần phải tập hợp, phân loại và phân tích các dữ liệu một cách có hệ thống Việc quản lý dữ liệu hợp lý không chỉ giúp nâng cao hiệu quả ra quyết định mà còn tối ưu hóa các chiến lược phát triển trong doanh nghiệp.

Với lượng dữ liệu ngày càng lớn, việc tìm ra dữ liệu có giá trị đòi hỏi hệ thống phân loại dữ liệu hiệu quả Các ứng dụng xử lý dữ liệu truyền thống không đủ khả năng đáp ứng nhu cầu này, dẫn đến sự hình thành các bài toán phân loại và phân lớp tự động trong Machine Learning Đây là những vấn đề được nghiên cứu nhiều nhất trong lĩnh vực máy học hiện nay Cụ thể, đề tài phân loại và dự đoán sự cố kỹ thuật trong hệ thống hành chính công là một dạng bài toán phân loại văn bản (Text Classification), giúp tự động phân loại thông tin một cách chính xác và nhanh chóng.

Sự cố kỹ thuật thường được ghi nhận bởi tổng đài viên tại Trung tâm CNTT tỉnh Đồng Nai, dựa trên phản ánh từ người dân, doanh nghiệp và cán bộ công chức tại các cơ quan, đơn vị Các sự cố xảy ra trong quá trình sử dụng các phần mềm quan trọng như hệ thống một cửa, dịch vụ công trực tuyến, quản lý văn bản, thư điện tử và cổng thông tin điện tử tỉnh, ảnh hưởng đến hoạt động và giao dịch của các tổ chức và cá nhân Việc cập nhật và khắc phục các sự cố này là ưu tiên hàng đầu nhằm đảm bảo các dịch vụ công trực tuyến hoạt động hiệu quả, liên tục, nâng cao trải nghiệm người dùng và thúc đẩy sự phát triển của chính phủ điện tử tỉnh Đồng Nai.

Các sự cố kỹ thuật phổ biến bao gồm không thể đăng nhập vào phần mềm, quên mật khẩu, không xuất được báo cáo thống kê, không truy cập được hệ thống, không đăng bài viết thành công và gặp khó khăn trong quy trình thực hiện các thủ tục giấy phép hoặc xử lý hồ sơ Những vấn đề này ảnh hưởng đáng kể đến hiệu quả công việc và cần được khắc phục nhanh chóng để đảm bảo hoạt động diễn ra suôn sẻ Việc xử lý các sự cố kỹ thuật như vậy đòi hỏi sự phối hợp chặt chẽ giữa các bộ phận kỹ thuật và người dùng để giảm thiểu thời gian gián đoạn.

Dưới đây là một số tình huống cụ thể được trích xuất từ bộ dữ liệu mẫu:

Công trình nghiên cứu trên thế giới

Phân loại văn bản là một bài toán xử lý văn bản cổ điển, nhằm ánh xạ một văn bản vào một chủ đề đã biết trong một tập hợp các chủ đề dựa trên ngữ nghĩa của nội dung Theo Yang & Xiu (1999), phân loại văn bản tự động liên quan đến việc gán nhãn phân loại cho văn bản mới dựa trên mức độ tương tự so với các văn bản đã được gán nhãn trong tập huấn luyện Ví dụ, một bài báo có thể thuộc một hoặc nhiều chủ đề như thể thao, sức khỏe hoặc công nghệ thông tin, giúp việc sắp xếp, lưu trữ và truy vấn tài liệu trở nên dễ dàng hơn về sau.

Phân loại văn bản có nhiều ứng dụng quan trọng trong đời sống số ngày nay Một trong những ứng dụng lớn nhất là trong việc lọc nội dung, giúp xác định và giữ lại các văn bản có ích, đồng thời loại bỏ những nội dung không phù hợp hoặc không mang lại giá trị Ví dụ tiêu biểu bao gồm phân loại email spam, lọc trang web có nội dung không phù hợp và xử lý các tài liệu không hữu ích Ứng dụng này còn giúp phân loại tin tức trên các trang web và tài liệu trong doanh nghiệp, từ đó tự động hóa quá trình phân loại và tiết kiệm thời gian, chi phí vận hành Phân loại văn bản tự động còn hỗ trợ đắc lực trong tìm kiếm trên Internet, giúp người dùng nhanh chóng và dễ dàng truy xuất thông tin chính xác và hiệu quả.

Nhiều công trình nghiên cứu trên thế giới đã đạt được những kết quả khả quan trong phân loại văn bản tiếng Anh Các phương pháp phân loại phổ biến hiện nay bao gồm Support Vector Machine (Joachims, 1998), K-Nearest Neighbor (Yang, 1994), Linear Least Squares Fit (Yang và Chute, 1994), Neural Network (Wiener et al, 1995), Naïve Bayes (Baker và Mccallum, 2000) và phương pháp dựa trên trung tâm (Centroid-based, Shankar và Karypis, 1998) Tất cả các phương pháp này đều dựa trên xác suất thống kê hoặc thông tin về trọng số của từ trong văn bản, giúp nâng cao độ chính xác trong phân loại văn bản tiếng Anh.

Các hệ thống phân loại và dự báo dịch bệnh đã được xây dựng tại nhiều quốc gia và tổ chức như Mỹ, Canada, châu Âu dựa trên thu thập dữ liệu và phân tích thông tin từ các nguồn khác nhau Những hệ thống này sử dụng phương pháp khai thác dữ liệu văn bản để dự báo, nhằm kiểm soát dịch bệnh và bảo vệ sức khỏe cộng đồng Điển hình là các hệ thống như GENIA để trích xuất kết quả từ các tạp chí sinh học, MedLEE phân tích thông tin bệnh án từ các bản khai của người bệnh, cùng các hệ thống như GPHIN và MiTAP để giám sát tình hình dịch bệnh toàn cầu.

Công trình nghiên cứu trong nước

Trong nước đã có nhiều công trình nghiên cứu, bài báo, luận văn và đề án tập trung vào phân loại văn bản, góp phần nâng cao hiệu quả xử lý dữ liệu và tự động hóa công tác phân loại Nhiều nghiên cứu đã ứng dụng các phương pháp học máy để phân lớp các kiểu tấn công trong hệ thống phát hiện xâm nhập mạng, giúp cải thiện độ chính xác và tốc độ phát hiện mối đe dọa Các công trình này đóng vai trò quan trọng trong việc phát triển các giải pháp an ninh mạng tiên tiến, phù hợp với xu hướng công nghệ hiện nay.

Các nghiên cứu đã áp dụng các thuật toán như rừng ngẫu nhiên với luật gán nhãn cục bộ cho phân lớp, phân loại văn bản sử dụng máy học vector hỗ trợ và cây quyết định, cùng với phương pháp dựa trên Facebook’s Fasttext Mỗi đề tài đều đạt được kết quả khả quan dựa trên tập dữ liệu thực nghiệm và các phương pháp khác nhau, cho thấy tính khả thi trong việc triển khai tùy thuộc vào mức độ nghiên cứu của từng công trình.

Trong phần này, chúng tôi trình bày hai công trình nghiên cứu có điểm tương đồng và ứng dụng trong luận văn Đầu tiên, công trình [10] tập trung vào phát triển bộ lọc spam thông minh, tự động nhằm nâng cao hiệu quả phân loại thư rác Thứ hai, công trình [2] ứng dụng thuật toán K láng giềng gần nhất để phân loại văn bản và tin tức theo chủ đề, mang lại kết quả chính xác trong xử lý dữ liệu.

Các tác giả trong công trình [10] đã sử dụng thuật toán Naive Bayes để lọc thư spam tiếng Việt, mang lại kết quả thực nghiệm với độ chính xác cao hơn phương pháp Bayesian cổ điển Phương pháp này phù hợp hơn để phân loại thư rác tiếng Việt, đặc biệt khi xử lý dữ liệu phức tạp hơn so với chỉ dùng các từ đơn Kết quả nghiên cứu cho thấy hướng tiếp cận Naive Bayes nâng cao hiệu quả phân loại thư rác tiếng Việt so với các phương pháp truyền thống.

Công trình [2] sử dụng thuật toán KNN đơn giản, dễ triển khai nhưng vẫn đạt độ chính xác cao, chứng minh hiệu quả của thuật toán này trong phân loại văn bản Mặc dù kết quả ban đầu chưa đạt mức tối ưu, đó là bước đệm quan trọng cho nghiên cứu phát triển các chương trình phân loại tin tức tiếng Việt chính xác hơn trong tương lai Các thuật toán như KNN và Naive Bayes đều có những ưu điểm và hạn chế riêng, việc lựa chọn thuật toán phù hợp phụ thuộc vào đặc điểm của bài toán để đạt kết quả tối ưu nhất Trong nghiên cứu này, thuật toán SVM kết hợp với các thư viện và phương pháp như PyVi, Count Vectors, TF-IDF đã được sử dụng để thực nghiệm phân loại văn bản tiếng Việt, đồng thời đánh giá chính xác của mô hình.

Mục tiêu đề tài

Nghiên cứu các phương pháp phân lớp văn bản (text classification) và xử lý ngôn ngữ tự nhiên giúp nâng cao hiệu quả phân loại thông tin Kết quả phân loại văn bản đóng vai trò quan trọng trong việc cung cấp dữ liệu chính xác để hỗ trợ ra quyết định Hệ thống phân loại tự động còn giúp xác định nhóm phụ trách xử lý các sự cố xảy ra trên hệ thống hành chính công tại tỉnh, nâng cao hiệu quả quản lý và xử lý vấn đề.

Đối tượng và phạm vi nghiên cứu đề tài

- Các phương pháp, kỹ thuật phân loại

- Các phương pháp, kỹ thuật xử lý ngôn ngữ tự nhiên

- Các thư viện như pyvi, sklearn, pandas,…

- Bộ dữ liệu được thu thập, tổng hợp từ các năm trước để huấn luyện và thử nghiệm

- Tìm hiểu các thuật toán phân loại văn bản (text classification)

- Tìm hiểu các thuật toán xử lý ngôn ngữ tự nhiên tiếng Việt.

Cấu trúc luận văn

Luận văn gồm phần mở đầu, kết luận và 04 chương

Chương 2: Cơ sở lý thuyết

Chương 3: Xây dựng mô hình phân lớp dự đoán sự cố kỹ thuật

Chương 4: Thử nghiệm và đánh giá kết quả

Kết luận và hướng phát triển

CƠ SỞ LÝ THUYẾT

Phân lớp và phân lớp văn bản

Bài toán phân lớp là quá trình dự đoán một đối tượng dữ liệu thuộc một hoặc nhiều lớp đã cho dựa trên một mô hình phân lớp Các phương pháp phân lớp giúp phân chia dữ liệu thành các nhóm khác nhau một cách chính xác, tối ưu hóa hiệu quả dự đoán Việc xây dựng mô hình phân lớp đòi hỏi phân tích đặc điểm của dữ liệu để xác định lớp phù hợp nhất Chọn đúng mô hình phân lớp là yếu tố then chốt trong việc nâng cao độ chính xác của các dự đoán, góp phần nâng cao hiệu quả trong các ứng dụng thực tế như nhận diện hình ảnh, phân loại email, và phân tích dữ liệu lớn.

Để thực hiện phân loại dữ liệu mới một cách chính xác, máy tính cần dựa trên dữ liệu đã được phân lớp theo chủ đề trước đó Tuy nhiên, với số lượng dữ liệu lớn, việc trích xuất đặc trưng của từng chủ đề trở nên phức tạp và đòi hỏi các phương pháp tối ưu Nhiệm vụ của bài toán phân lớp là xây dựng một mô hình phân lớp hiệu quả nhằm phân loại dữ liệu mới dựa trên các đặc trưng đã được trích xuất, giúp nâng cao độ chính xác và hiệu quả của quá trình phân loại.

Với bài toán phân lớp, chúng ta có phân lớp nhị phân (binary classification), phân lớp đa lớp (multiclass classification) [13]

Bài toán phân lớp nhị phân là nhiệm vụ gán nhãn dữ liệu cho đối tượng vào một trong hai lớp khác nhau dựa trên việc xác định sự có mặt hay vắng mặt của các đặc trưng (features) của bộ phân lớp Đây là công việc quan trọng trong lĩnh vực học máy, giúp phân loại dữ liệu chính xác và hiệu quả Để đạt được kết quả tối ưu, các thuật toán phân lớp nhị phân thường dựa vào việc phân tích và xử lý các đặc trưng đặc trưng của dữ liệu đầu vào Khi xây dựng mô hình phân lớp nhị phân, việc chọn lọc các đặc trưng phù hợp đóng vai trò then chốt trong việc nâng cao độ chính xác của hệ thống.

Bài toán phân lớp đa lớp là quá trình phân loại dữ liệu vào nhiều hơn hai lớp, yêu cầu xác định chính xác lớp phù hợp cho từng dữ liệu Trong khi đó, bài toán phân lớp nhị phân là trường hợp đặc biệt của phân lớp đa lớp với chỉ hai lớp, giúp simplifying quá trình phân loại Ứng dụng của phân lớp đa lớp rất rộng rãi trong thực tế, bao gồm các lĩnh vực như nhận dạng khuôn mặt, nhận diện giọng nói và phát hiện email spam.

Để xây dựng mô hình phân loại email spam, chúng ta sẽ sử dụng các thuật toán học có giám sát (Supervised learning) Hình 2.2 minh họa quá trình phân lớp nhận dạng email spam, giúp xác định các đặc điểm để phân biệt giữa email hợp lệ và email spam một cách chính xác Các thuật toán này dựa trên dữ liệu đã được gán nhãn, từ đó học cách phân loại hiệu quả các email mới trong hệ thống.

Học có giám sát (Supervised learning) là một thuật toán dự đoán đầu ra của dữ liệu mới dựa trên các cặp dữ liệu đã biết trước, gọi là (dữ liệu, nhãn) Đây là nhóm thuật toán Machine Learning phổ biến nhất, được sử dụng rộng rãi để xây dựng các mô hình dự đoán chính xác.

502 Bad GatewayUnable to reach the origin service The service may be down or it may not be responding to traffic from cloudflared

 Mục đích là xấp xỉ hàm số f thật tốt để khi có một dữ liệu x mới, chúng ta có thể tính được nhãn tương ứng của nó y=f(x)

Dưới đây là một số ví dụ cụ thể về phân lớp dữ liệu

Hình 2.3 MNIST: bộ cơ sở dữ liệu của chữ số viết tay

Thuật toán dò khuôn mặt trong ảnh đã được phát triển từ lâu và ban đầu được Facebook ứng dụng để xác định các khuôn mặt trong ảnh, giúp người dùng dễ dàng gắn nhãn bạn bè Việc này nâng cao trải nghiệm người dùng và tối ưu hóa công tác phân nhận hình ảnh.

Số lượng cặp dữ liệu (khuôn mặt, tên người) càng lớn, độ chính xác ở những lần tự động tag tiếp theo sẽ càng lớn

Thuật toán dò tìm khuôn mặt trong ảnh là một ví dụ điển hình của kỹ thuật học có giám sát (supervised learning), trong đó dữ liệu huấn luyện gồm hàng nghìn cặp ảnh- mặt người và ảnh không chứa mặt người được sử dụng để đào tạo mô hình Quá trình này giúp thuật toán phân biệt chính xác giữa các khuôn mặt trong hình ảnh và các phần không phải là mặt người Nhờ vào dữ liệu huấn luyện đa dạng, hệ thống có khả năng nhận diện khuôn mặt hiệu quả hơn trong các tình huống thực tế Đây là một bước quan trọng trong việc phát triển các ứng dụng nhận diện khuôn mặt tự động và an ninh thông minh.

Hình 2.4 Mô hình tổng quát cho bài toán phân lớp

2.1.2 Phân lớp văn bản – Text Classification

Phân loại văn bản (Text Classification) là một bài toán trong nhóm học có giám sát (Supervised Learning) của Machine Learning Để xây dựng mô hình chính xác, dữ liệu cần phải được gán nhãn rõ ràng, giúp mô hình học cách phân loại chính xác các loại văn bản khác nhau Sau quá trình huấn luyện, mô hình sẽ học từ các dữ liệu đã được gán nhãn để dự đoán nhãn cho các văn bản mới chưa gặp phải, nâng cao hiệu quả xử lý dữ liệu văn bản tự động.

Phân lớp văn bản hiện nay đang được ứng dụng rộng rãi trong thực tế, như phân loại chủ đề của các bài báo (kinh tế, xã hội, thể thao, vv.) hoặc xác định loại văn bản như “công văn”, “giấy mời”, “đoàn thanh niên”, “công đoàn”,… Để xây dựng mô hình học máy dự đoán và phân loại văn bản, cần có bộ dữ liệu có gán nhãn, trong đó mỗi văn bản được đánh dấu rõ ràng với nhóm chủ đề phù hợp Vấn đề dữ liệu có thể xem là thách thức lớn nhất trong quá trình phát triển các mô hình học giám sát này.

Dưới đây là mô hình tổng quát về cách hoạt động của một bài toán phân lớp văn bản:

Hình 2.5 Luồng xử lý cơ bản

Trong mô hình trên để thực hiện công đoạn trích xuất đặc trưng (feature extractor) [13] phải tiến hành các bước xử lý dữ liệu, cụ thể:

 Chuẩn bị tập dataset: bộ dữ liệu được tổng hợp từ nhiều nguồn, được sử dụng để huấn luyện (training) cho phần mềm

Text normalization (chuẩn hóa dữ liệu) là quá trình loại bỏ các thành phần không cần thiết từ dữ liệu, giúp làm sạch dữ liệu và loại bỏ các phần rác như tag HTML, liên kết, ký tự đặc biệt như "\n", "\t" hay "&64;" Quá trình này giúp đảm bảo rằng dữ liệu cuối cùng chỉ còn chứa văn bản chính xác, dễ dàng xử lý và phân tích hơn Chuẩn hóa dữ liệu đóng vai trò quan trọng trong các bước tiền xử lý dữ liệu, nâng cao hiệu quả của các ứng dụng xử lý ngôn ngữ tự nhiên và phân tích dữ liệu text.

Dưới quá trình tiền xử lý dữ liệu, chúng ta chuyển đổi văn bản nhận được thành dữ liệu đầu vào phù hợp cho mô hình học máy trong phân loại văn bản Các bước quan trọng bao gồm tách từ, chuẩn hóa từ, loại bỏ stopwords và vector hóa từ, nhằm đảm bảo dữ liệu sẵn sàng cho thuật toán phân loại văn bản tiếng Việt Đây là công đoạn then chốt trong xây dựng hệ thống phân loại văn bản chính xác và hiệu quả.

Xử lý ngôn ngữ tự nhiên

Văn bản là ngôn ngữ phi cấu trúc, do đó để máy tính có thể hiểu và tự động phân loại, cần chuyển đổi chúng sang dạng có cấu trúc phù hợp, cụ thể là vector hóa văn bản [11] Quá trình vector hóa đòi hỏi thực hiện các bước tiền xử lý dữ liệu quan trọng, trong đó chính là tách từ và loại bỏ stop word Các bước này giúp chuẩn bị dữ liệu văn bản để máy tính có thể phân tích và xử lý hiệu quả hơn.

2.2.1 Đặc điểm của ngôn ngữ tiếng Việt

Tiếng Việt là ngôn ngữ đơn lập, trong đó mỗi tiếng được phát âm riêng biệt và thể hiện qua một chữ viết Mỗi từ trong tiếng Việt có thể bao gồm một hoặc nhiều tiếng, giúp tạo thành các từ có nghĩa và phong phú trong ngôn ngữ Chính đặc điểm này giúp tiếng Việt dễ học, dễ phát âm và phù hợp để truyền đạt ý tưởng rõ ràng, chính xác.

Tiếng có hình thức gần giống với âm tiết, là đơn vị phát âm tự nhiên trong ngôn ngữ Về nội dung, tiếng là đơn vị nhỏ nhất mang ý nghĩa hoặc thể hiện một đối tượng, như cây, trời, ăn, nói, cười Một số tiếng mang ý nghĩa rõ ràng, phản ánh các khái niệm hoặc đối tượng, trong khi đó, có những tiếng không thể hiện ý nghĩa riêng nhưng vẫn quan trọng trong cấu tạo từ, góp phần tạo nên sự khác biệt trong ý nghĩa của từ Các tiếng này thường kết hợp với nhau để hình thành từ có nghĩa rõ ràng, như “sá” trong “đường sá” hoặc “khúc” trong “khúc hát”.

Khúc mắc trong việc sử dụng các từ vay mượn từ nước ngoài là vấn đề thường gặp, đặc biệt khi kết hợp chúng với tiếng Việt nhưng vẫn không mang ý nghĩa rõ ràng, tạo thành những từ vô nghĩa Tuy nhiên, trường hợp này ít phổ biến hơn so với các từ vay mượn phổ biến như cát-sét, ti-vi, phẹt-mơ-tuya, thường được sử dụng trong đời sống hàng ngày Việc hiểu rõ cách sử dụng và phiên âm các từ vay mượn giúp nâng cao kỹ năng ngôn ngữ và đảm bảo sự chính xác trong giao tiếp tiếng Việt.

Từ trong tiếng Việt gồm hai loại chính là từ đơn và từ ghép Từ đơn là những từ được cấu thành từ một tiếng duy nhất, như đi, chạy, cười, vui, buồn, tôi, bạn Trong khi đó, từ ghép gồm hai hay nhiều tiếng có quan hệ ngữ nghĩa với nhau, như chợ búa, bếp núc, cơ quan, trường học, cây cảnh, hợp tác xã Hiểu rõ đặc điểm của các loại từ này giúp nâng cao kỹ năng sử dụng tiếng Việt đúng chính tả và ngữ pháp.

Trong tiếng Việt, từ là đơn vị cấu thành nên câu, không phải từ "tiếng" Vì vậy, việc tách từ trong giai đoạn tiền xử lý dữ liệu sẽ mang lại hiệu quả phân loại cao hơn so với việc tách theo đơn vị là "tiếng" Điều này giúp cải thiện chính xác của các thuật toán xử lý ngôn ngữ tự nhiên và nâng cao hiệu quả phân loại dữ liệu văn bản.

Tách từ trong tiếng Việt khác với tiếng Anh, vì tiếng Anh dựa trên dấu cách để phân chia các từ, còn tiếng Việt không mặc định sử dụng khoảng trắng để tách từ Ví dụ, các từ tiếng Anh như "school", "student", "market" tương ứng với các từ tiếng Việt là "trường học", "học sinh" và "chợ", nhưng nếu tách các từ tiếng Việt theo khoảng trắng, sẽ làm mất đi ý nghĩa ban đầu Do đó, việc tách từ trong tiếng Việt là một công việc khó khăn nhưng rất thú vị, vì nó đòi hỏi phải giữ được ngữ nghĩa của từ trong quá trình phân chia.

Nhập nhằng trong tách từ tiếng việt

Việc tách từ thủ công đảm bảo chính xác cao vì dựa trên hiểu biết ngữ nghĩa của câu, giúp giảm thiểu nhầm lẫn trong quá trình xử lý ngôn ngữ tự nhiên Tuy nhiên, do khối lượng dữ liệu lớn trên Internet, việc tách từ bằng tay là không khả thi và không thể thực hiện hàng loạt Trong khi đó, máy tính không thể hiểu hết ngữ nghĩa của câu, dẫn đến khả năng xảy ra nhầm lẫn trong quá trình tách từ tự động, đặt ra thách thức lớn trong xử lý ngôn ngữ tự nhiên.

Nhập nhằng trong tách từ tiếng Việt có thể chia làm hai loại:

Chuỗi "a b c" gây nhầm lẫn do bị nhập nhằng chồng chéo khi cả "a b" và "b c" đều xuất hiện trong từ điển Ví dụ, trong câu "Máy bay lượn ba vòng trên không trước khi đáp xuống", cả "máy bay" và "bay lượn" đều có trong từ điển, làm cho việc phân tích câu trở nên khó khăn do sự chồng chéo của các thành phần từ.

Kết hợp nhập nhằng xảy ra khi chuỗi "a b c" chứa các phần tử như "a", "b" và "a b" đều có trong từ điển, gây khó phân biệt nghĩa Ví dụ, câu "Đàn gà mới nở hôm qua chết mất hai con" chứa các từ "đàn", "gà" và "đàn gà" đều có ý nghĩa riêng trong từ điển, làm cho việc xác định nghĩa chính xác của từng phần trở nên phức tạp This phenomenon can lead to ambiguity in understanding and processing the sentence accurately.

Trong quá trình xử lý ngôn ngữ tự nhiên tiếng Việt, ngoài vấn đề nhập nhằng, việc tách từ còn gặp nhiều khó khăn trong việc xác định các từ chưa biết trước, như danh từ riêng, từ vay mượn nước ngoài, từ chỉ số, các câu thành ngữ và từ láy Điều này làm cho quá trình phân tách từ trở nên phức tạp hơn, đòi hỏi các phương pháp xử lý ngôn ngữ nâng cao để đảm bảo độ chính xác cao hơn trong phân tích văn bản.

Mức độ giải quyết tốt hai vấn đề trên sẽ quyết định hiệu suất của một phương pháp tách từ và quyết định nó có tốt hay không

Một số quốc gia châu Á như Nhật Bản, Trung Quốc và Hàn Quốc có ngôn ngữ có cấu trúc và hình thái gần giống tiếng Việt, đã phát triển thành công nhiều phương pháp tách từ hiệu quả Những phương pháp này có thể áp dụng để cải thiện quá trình tách từ trong tiếng Việt Trong đó, phương pháp khớp tối đa (maximum matching) là một kỹ thuật phổ biến và hiệu quả, giúp phân đoạn từ ngữ chính xác dựa trên việc tối đa hóa phần khớp trong dữ liệu đầu vào.

Phương pháp khớp tối đa (maximum matching), còn gọi là Left Right Maximum Matching, là kỹ thuật duyệt câu từ trái qua phải để tìm các từ phù hợp trong từ điển Trong phương pháp này, chúng ta chọn từ có nhiều âm tiết nhất trong câu mà xuất hiện trong từ điển và tiếp tục duyệt các từ còn lại đến hết câu và toàn bộ văn bản Thuật toán này có hai dạng chính, giúp tối ưu quá trình xử lý ngôn ngữ tự nhiên và nâng cao độ chính xác trong phân tách từ.

Dưới đây là đoạn tóm tắt và tối ưu hóa cho SEO dựa trên nội dung của bạn:Trong phân tích cú pháp tiếng Việt, dạng đơn giản bắt đầu bằng việc chia câu thành các âm tiết, sau đó kiểm tra từng tổ hợp âm tiết có trong từ điển Quá trình này gồm bắt đầu từ âm tiết đầu tiên, sau đó mở rộng dần sang các tổ hợp âm tiết tiếp theo, thường lên tới 4 hoặc 5 âm tiết phù hợp với từ điển tiếng Việt Chúng ta chọn ra từ có nhiều âm tiết nhất trong các tổ hợp có tồn tại trong từ điển, đánh dấu chúng và tiếp tục phân tích phần còn lại của câu Phương pháp này tuy đơn giản nhưng gặp nhiều khó khăn do đặc điểm ngôn ngữ tiếng Việt.

Dạng phức tạp có quy trình tương tự như dạng đơn giản nhưng giúp tránh được một số nhầm lẫn thường gặp Khi duyệt câu, nếu cả l1 và l1-l2 đều là từ trong từ điển, thuật toán sẽ sử dụng chiến thuật 3 từ tốt nhất theo tiêu chuẩn của Chen & Liu (1992), chọn cách tách sao cho độ dài trung bình của các từ là lớn nhất và chênh lệch độ dài giữa các từ là nhỏ nhất.

Ta có chuỗi L1-L2-L3-L4 có thể tách thành 3 cách:

Chuyển đổi tin tức từ dạng ngôn ngữ tự nhiên sang mô hình không gian

Có nhiều phương pháp chuyển đổi tin tức từ dạng ngôn ngữ tự nhiên (phi cấu trúc) sang dạng ngôn ngữ máy (có cấu trúc) Trong đó, mô hình biểu diễn văn bản theo không gian vector (vector space model) là một phương pháp đơn giản và hiệu quả được nhiều nhà nghiên cứu lựa chọn Phương pháp này giúp chuyển đổi dữ liệu phi cấu trúc thành dữ liệu có cấu trúc một cách dễ dàng và thuận tiện cho các ứng dụng xử lý ngôn ngữ tự nhiên.

Mô hình này biểu diễn mỗi tin tức thành một vector, trong đó từng phần tử tương ứng với một từ riêng biệt trong tập tin tức gốc và được gán trọng số của từ đó trong tin tức Do số lượng từ trong tập tin tức rất lớn, biểu diễn dạng vector dẫn đến vấn đề chiều dữ liệu cao gây ảnh hưởng đến hiệu quả xử lý Để khắc phục, phương pháp loại bỏ stop word được sử dụng nhằm giảm bớt các từ không cần thiết, rút ngắn chiều của vector và nâng cao hiệu quả phân loại tin tức cho hệ thống tìm kiếm thông minh.

Sau khi đã phân chủ đề và loại bỏ stop word trong tập tin tức gốc, chúng tôi xây dựng tập từ khóa dựa trên các từ riêng biệt còn lại Đối với một tập tin tin tức gồm m bài viết và tập từ khóa gồm n từ, ta thực hiện tạo ma trận trọng số, trong đó mỗi giá trị thể hiện trọng số của từ i trong bài viết j Có hai phương pháp chính để xây dựng vector từ cho mỗi tin tức dựa trên tập từ khóa này, giúp tối ưu hóa quá trình phân tích và xử lý dữ liệu theo các tiêu chí SEO.

2.3.1 Binary vector Đây là mô hình biểu diễn vector với cách tính trọng số của mỗi thành phần vector cho ra hai giá trị duy nhất là 0 và 1 Nếu trong tin tức đó xuất hiện từ ti thì giá trị trọng số của từ đó trong vector đại diện sẽ là 1 và ngược lại là 0 Ta có thể biểu diễn nó thành công thức như sau:

TF-IDF (Term Frequency – Inverse Document Frequency) là một chỉ số quan trọng để đánh giá tầm quan trọng của từ hoặc cụm từ trong văn bản, giúp xác định mức độ nổi bật của từ khóa Đây là một thuật toán được sử dụng phổ biến trong các lĩnh vực như công cụ tìm kiếm (search engine) và khai thác văn bản (text mining) để xếp hạng các từ dựa trên tần suất xuất hiện và mức độ phổ biến trong tập tài liệu Mô hình không gian vector kết hợp với TF-IDF giúp nâng cao hiệu quả trong việc phân tích, trích xuất thông tin và cải thiện khả năng tìm kiếm thông minh.

Nguyên lý cơ bản của giải thuật này dựa trên mối quan hệ giữa mức độ quan trọng của một từ và tần suất xuất hiện của nó trong tập dữ liệu Cụ thể, độ quan trọng của từ sẽ tỷ lệ thuận với số lần xuất hiện của nó trong một bài viết, đồng thời tỷ lệ nghịch với số lần xuất hiện của nó trong các bài viết khác Công thức của thuật toán TF-IDF phổ biến nhất phản ánh nguyên lý này, trong đó TF (Term Frequency) đo lường tần suất của từ trong một tập tin cụ thể, nghĩa là từ xuất hiện càng nhiều trong tài liệu đó thì TF của nó càng cao, giúp xác định các từ khóa quan trọng trong nội dung.

Cách đơn giản nhất để tính TF của từ t trong văn bản d là tính tần suất xuất hiện của t trong d

Trong bài viết, chúng tôi đề cập đến công thức tính tần suất xuất hiện của từ trong văn bản, trong đó Ns(t) là số lần từ t xuất hiện trong d và W là tổng số từ trong văn bản d Ngoài ra, còn có một công thức đơn giản khác để tính TF, gọi là công thức tần số tăng cường, giúp xác định mức độ phổ biến của từ một cách hiệu quả.

Trong phân tích văn bản, tử số thể hiện tần suất xuất hiện của từ 't' trong văn bản d, còn mẫu số là tần suất của từ xuất hiện nhiều nhất trong văn bản đó Độ đo TF phản ánh mức độ quan trọng của từ ở mức cục bộ trong một tập tin, nhưng chưa thể hiện rõ mức độ quan trọng của từ trong toàn bộ tập tin do sự xuất hiện phổ biến của các stop word, gây ảnh hưởng tới độ đo này Để khắc phục, chúng ta sử dụng chỉ số IDF (Inverse Document Frequency), đo lường tần số nghịch của một từ trong các tập tin nhằm thể hiện mức độ quan trọng toàn cục của từ đó Việc tính IDF giúp giảm giá trị của các từ phổ biến, từ đó nâng cao độ chính xác trong phân tích trọng số từ khóa.

Trong đó D là số lương tập tin có trong tập dữ liệu và d là số lượng tập tin có trong tập dữ liệu mà nó chứa từ t

Trong trường hợp nếu t không xuất hiện trong bất kỳ văn bản nào của tập D, mẫu số sẽ bằng 0 và phép chia trở nên không hợp lệ Để khắc phục, người ta thường thay mẫu số bằng dạng 1 + (d ∈ D: t ∈ d), điều này không ảnh hưởng đáng kể đến kết quả tính toán.

Các từ xuất hiện nhiều trong các tập tin của tập dữ liệu thường có giá trị IDF thấp, trong khi các từ ít xuất hiện lại có IDF cao Tuy nhiên, một từ có IDF nhỏ chưa chắc đã là từ quan trọng, vì nó còn phụ thuộc vào chỉ số TF của từ đó; những từ hiếm gặp có thể chỉ xuất hiện trong vài tập tin nhưng không mang ý nghĩa phân loại Để xác định từ khóa quan trọng trong phân tích, chúng ta sử dụng công thức tính TF-IDF, giúp loại bỏ những từ phổ biến để nâng cao độ chính xác của mô hình.

Trong phân loại tin tức, từ có độ đo TF-IDF càng lớn thì càng có giá trị và ảnh hưởng đáng kể đến kết quả phân loại Trong vector TF-IDF, nếu một từ xuất hiện trong văn bản, thì trọng số của từ đó trong vector đại diện sẽ bằng giá trị TF-IDF(ti, dj); ngược lại, nếu không xuất hiện thì trọng số này sẽ là 0 Điều này giúp mô hình xác định rõ ràng những từ quan trọng nhất trong từng văn bản, từ đó nâng cao độ chính xác của quá trình phân loại.

2.3.3 Độ tương đồng giữa các vector

Sự tương đồng phản ánh mức độ mối quan hệ giữa hai đại lượng hoặc hai đặc trưng trong dữ liệu Trong lĩnh vực xử lý dữ liệu dạng vector, mỗi thông tin được biểu diễn dưới dạng vector, giúp dễ dàng đo lường mức độ liên quan giữa các tin tức Để đánh giá độ tương đồng giữa các tin tức, ta thực hiện so sánh độ tương đồng giữa hai vector đã được chuẩn hóa từ hai tập tin dữ liệu đó, đảm bảo kết quả chính xác và đáng tin cậy.

Để tính độ tương đồng giữa hai văn bản di và dj, ta cần xác định giá trị của hàm S(di, dj) Hàm S(di, dj) chính là thước đo độ tương đồng giữa hai văn bản này Tuy nhiên, việc tính toán độ tương đồng chính xác cao gặp nhiều khó khăn do ngữ nghĩa của văn bản chỉ được hiểu rõ trong một ngữ cảnh cụ thể Các phương pháp phổ biến để đo độ tương đồng giữa các vector là Cosin và Euclid, giúp xác định mức độ liên quan giữa hai văn bản một cách khách quan và chính xác hơn.

Giả sử ta đi ta có hai vector cần tính độ tương đồng v1 và v2

* Tính theo độ đo Cosin

Với v1* v2 là tích vô hướng hai vector v1, v2

| v1|*| v2| là tích độ dài các vector v1, v2

Giá trị sim có giá trị là -1 nghĩa là hai vector hoàn toàn khác nhau và càng gần về một thì độ tương đồng giữa hai vector càng cao

* Tính theo độ đo Euclid

Giá trị sim theo độ đo Euclid nằm trong khoảng từ 0 đến 1, với giá trị càng nhỏ thể hiện độ tương đồng giữa hai vector càng cao Độ đo Euclid đánh giá mức độ tương đồng dựa trên khoảng cách giữa hai vector, nhưng nhược điểm là khi độ dài của các vector quá lớn, độ lệch giữa chúng có thể bị sai lệch, dẫn đến việc tính toán độ tương đồng không chính xác.

Các thuật toán phân loại văn bản

Trong thống kê, thuật toán KNN (k hàng xóm gần nhất) là phương pháp phi tham số được đề xuất bởi Thomas M Cover, dùng để thực hiện phân loại và phân tích hồi quy Thuật toán này dựa trên nguyên tắc tìm kiếm các điểm dữ liệu lân cận hoặc láng giềng gần nhất để đưa ra dự đoán chính xác hơn KNN là một trong những phương pháp phổ biến trong học máy và phân tích dữ liệu nhờ vào khả năng hoạt động hiệu quả mà không yêu cầu giả định về phân phối dữ liệu.

K-nearest neighbor là một trong những thuật toán supervised-learning đơn giản nhất Machine Learning Khi training, thuật toán này không học một điều gì từ dữ liệu training (đây cũng là lý do thuật toán này được xếp vào loại lazy learning), mọi tính toán được thực hiện khi nó cần dự đoán kết quả của dữ liệu mới K-nearest neighbor có thể áp dụng được vào cả hai loại của bài toán Supervised learning là Classification và Regression KNN còn được gọi là một thuật toán Instance-based hay Memory- based learning Có một vài khái niệm tương ứng người-máy như sau:

Bảng 2.1 Khái niệm tương ứng giữa người và máy

Trong bài toán phân loại (Classification), phương pháp KNN dựa vào việc suy ra nhãn của điểm dữ liệu mới từ K điểm dữ liệu gần nhất trong tập huấn luyện Nhãn của dữ liệu thử nghiệm được xác định bằng phương pháp bỏ phiếu (major voting) giữa các điểm gần nhất hoặc thông qua việc đánh trọng số khác nhau cho từng điểm rồi tổng hợp để quyết định nhãn Trong bài toán hồi quy (Regression), đầu ra của một điểm dữ liệu có thể là giá trị của điểm gần nhất (với K=1), trung bình có trọng số của các điểm gần nhất, hoặc dựa trên mối quan hệ dựa trên khoảng cách tới các điểm này.

KNN (Thuật toán K-lân cận) là phương pháp xác định đầu ra của một điểm dữ liệu mới dựa trên K điểm dữ liệu trong tập huấn luyện gần nhất Thuật toán này không quan tâm đến việc một số điểm trong K điểm gần nhất có thể là nhiễu hay không, chỉ dựa vào thông tin của các điểm lân cận để đưa ra dự đoán chính xác KNN nổi bật nhờ tính đơn giản, dễ hiểu và hiệu quả trong phân loại dữ liệu, phù hợp với nhiều ứng dụng machine learning.

Hình dưới đây là một ví dụ về KNN trong classification với K = 1

Hình 2.6 Phân loại văn bản với K=1

Trong ví dụ này, bài toán Classification gồm 3 lớp màu: Đỏ, Lam, Lục, trong đó mỗi điểm dữ liệu mới được gán nhãn dựa trên màu của vùng mà nó thuộc về Có những vùng nhỏ nằm xen kẽ trong các vùng lớn hơn, chẳng hạn như điểm màu Lục gần góc 11 giờ, nằm giữa các vùng Đỏ và Lam, có thể là nhiễu dữ liệu Điều này gây ảnh hưởng đến độ chính xác của kết quả phân loại khi dữ liệu thử nghiệm rơi vào những vùng nhiễu này Phân tích ưu điểm và nhược điểm của phương pháp này giúp cải thiện khả năng dự đoán chính xác hơn trong các bài toán phân loại đa lớp.

- Thuật toán đơn giản, dễ dàng triển khai

- Độ phức tạp tính toán nhỏ

- Xử lý tốt với tập dữ liệu nhiễu

- Với K nhỏ dễ gặp nhiễu dẫn tới kết quả đưa ra không chính xác

- Cần nhiều thời gian để thực hiện do phải tính toán khoảng cách với tất cả các đối tượng trong tập dữ liệu

- Cần chuyển đổi kiểu dữ liệu thành các yếu tố định tính

2.4.2 Cây quyết định (Decision Tree)

Cây quyết định (Decision Tree) là một công cụ phân lớp dựa trên cấu trúc cây phân cấp, sử dụng các luật để xác định lớp cho đối tượng Các thuộc tính của đối tượng có thể có nhiều loại dữ liệu khác nhau như Nhị phân, Định danh, Thứ tự và Số lượng, tuy nhiên, thuộc tính dùng để phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal Decision Tree giúp quá trình phân loại trở nên rõ ràng và hiệu quả hơn bằng cách chia dữ liệu dựa trên các thuộc tính phù hợp.

Tóm lại, cây quyết định sử dụng dữ liệu về các đối tượng cùng với các thuộc tính và lớp của chúng để tạo ra các luật dự đoán chính xác cho dữ liệu chưa biết Các luật này giúp xác định lớp của các đối tượng mới dựa trên các đặc điểm đã được học từ dữ liệu huấn luyện, nâng cao khả năng dự đoán trong các ứng dụng phân loại dữ liệu Việc khai thác các thuộc tính và lớp dữ liệu là cốt lõi để xây dựng mô hình cây quyết định hiệu quả và đáng tin cậy.

Hãy xem xét một ví dụ điển hình về cây quyết định dựa trên yếu tố thời tiết, nơi các bạn nam quyết định có đi đá bóng hay không Cây quyết định giúp xác định các khả năng và kết quả dựa trên các điều kiện thời tiết khác nhau, từ đó hỗ trợ đưa ra quyết định tối ưu Áp dụng mô hình cây quyết định trong các tình huống thực tế giúp dễ dàng phân tích các yếu tố ảnh hưởng và nâng cao khả năng ra quyết định chính xác.

Những đặc điểm ban đầu là: Thời tiết; Độ ẩm; Gió

Dựa vào những thông tin trên, bạn có thể xây dựng được mô hình như sau:

Hình 2.7 Mô hình cây quyết định

Mô hình cây quyết định

Dựa theo mô hình trên, ta thấy:

Thời tiết có ảnh hưởng lớn đến việc nam giới đi chơi bóng Khi trời nắng và độ ẩm ở mức bình thường, khả năng các bạn nam sẽ ra sân chơi bóng cao hơn Tuy nhiên, nếu trời nắng kết hợp với độ ẩm cao, khả năng họ sẽ tránh xa sân bóng để tránh cảm giác ẩm ướt và khó chịu.

Giờ chúng ta hãy cùng tìm hiểu cách thức hoạt động của thuật toán cây quyết định thông qua thuật toán đơn giản ID3

ID3 (J R Quinlan, 1993) là thuật toán xây dựng cây quyết định dựa trên phương pháp tìm kiếm tham lam từ trên xuống, không cần backtracking Thuật toán này sử dụng các chỉ số như Entropy và Information Gain để chọn lựa thuộc tính phù hợp nhất nhằm phân chia dữ liệu một cách tối ưu Với khả năng tối đa hóa Information Gain, ID3 giúp xây dựng cây quyết định chính xác và hiệu quả trong các bài toán phân loại.

Bạn muốn xem xét sự thành công của một bộ phim thông qua hai yếu tố: diễn viên chính của phim và thể loại phim:

Bảng 2.2 Đánh giá phim dựa trên diễn viên chính và thể loại phim

Bạn muốn đánh giá độ thành công của một bộ phim dựa trên một yếu tố duy nhất, có thể lựa chọn hai cách là phân tích diễn viên chính hoặc thể loại phim Việc này giúp xác định yếu tố chủ đạo ảnh hưởng đến thành công của phim, từ đó tối ưu hóa các chiến lược marketing và dự đoán doanh thu chính xác hơn Chọn lựa giữa diễn viên chính và thể loại phim là chìa khóa để đưa ra nhận định toàn diện về hiệu quả của bộ phim đó.

Qua sơ đồ, có thể thấy rõ rằng phương pháp phân loại thứ nhất mang lại kết quả rõ ràng và có hệ thống, trong khi phương pháp thứ hai cho ra kết quả khá lộn xộn Cây quyết định hoạt động theo cách này khi chọn các biến, giúp đảm bảo quá trình phân loại trở nên hợp lý và dễ hiểu hơn.

Trong phương pháp cây quyết định, có nhiều hệ số khác nhau được sử dụng để phân chia dữ liệu, trong đó hai hệ số phổ biến nhất là Information Gain và Gain Ratio Ngoài ra, hệ số Gini cũng thường được áp dụng để đo lường độ đồng đều của dữ liệu, giúp tối ưu quá trình xây dựng cây quyết định hiệu quả hơn Việc lựa chọn hệ số phù hợp đóng vai trò quan trọng trong việc cải thiện độ chính xác và khả năng tổng quát của mô hình.

Entropy trong Cây quyết định (Decision Tree)

Entropy là thuật ngữ trong nhiệt động lực học, dùng để đo lường sự biến đổi, hỗn loạn hoặc ngẫu nhiên trong hệ thống Năm 1948, nhà khoa học Shannon đã mở rộng khái niệm Entropy sang lĩnh vực nghiên cứu, thống kê, giúp đo lường độ không chắc chắn và lượng thông tin, góp phần thúc đẩy sự phát triển của các lĩnh vực công nghệ thông tin và truyền thông.

Với một phân phối xác suất của một biến rời rạc x có thể nhận n giá trị khác nhau x1,x2,…,xn

Giả sử rằng xác suất để x nhận các giá trị này là pi=p(x=xi)

Ký hiệu phân phối này là p=(p1 ,p2 ,…,pn) Entropy của phân phối này được định nghĩa là:

Giả sử bạn tung một đồng xu, entropy sẽ được tính như sau:

Hàm Entropy thể hiện mức độ hỗn loạn hoặc không chắc chắn của một hệ thống, với biểu đồ minh họa rõ ràng sự biến đổi của hàm entropy theo xác suất các lớp Khi xác suất xảy ra của hai lớp bằng nhau, entropy đạt giá trị tối đa, cho thấy tình trạng hỗn loạn cao nhất Hiểu rõ hàm entropy là yếu tố quan trọng trong việc đo lường độ không chắc chắn và tối ưu hóa các thuật toán trong lĩnh vực trí tuệ nhân tạo và phân tích dữ liệu.

P tinh khiết: pi = 0 hoặc pi = 1

P vẩn đục: pi = 0.5, khi đó hàm Entropy đạt đỉnh cao nhất

Information Gain trong Cây quyết định (Decision Tree)

XÂY DỰNG MÔ HÌNH PHÂN LỚP DỰ ĐOÁN SỰ CỐ KỸ THUẬT 36

THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ

Tiêu đề	Xây dựng phần mềm dự đoán sự cố kỹ thuật trên hệ thống hành chính công luận văn thạc sĩ công nghệ thông tin
Người hướng dẫn	PGS. TS. NỘI DUNG TÓM TẮT
Trường học	Trường Đại học Lạc Hồng
Chuyên ngành	Công nghệ thông tin
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2022
Thành phố	Đồng Nai

Định dạng
Số trang	75
Dung lượng	1,68 MB