1. Trang chủ
  2. » Công Nghệ Thông Tin

Phân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễu (tt)

26 100 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 793,93 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Phân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễu

Trang 1

-

Ninh Thị Thu Trang

PHÂN LOẠI VĂN BẢN HIỆU QUẢ TRONG ĐIỀU KIỆN

XUẤT HIỆN BIẾN NHIỄU

Chuyên ngành: Hệ thống thông tin

Mã số: 8.48.01.04

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2018

Trang 2

Luận văn được hoàn thành tại:

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: TS Hoàng Xuân Dậu

Phản biện 1:

Phản biện 2:

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông

Vào lúc: …… giờ…….ngày …… tháng…… năm ……

Có thể tìm hiểu luận văn tại:

- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

Trang 3

MỞ ĐẦU

1 Lý do chọn đề tài

Phân loại văn bản là một phần quan trọng trong lĩnh vực xử lý ngôn ngữ Nhiệm

vụ của bài toán này là tự động sắp xếp một bộ tài liệu thành các loại (hoặc các lớp, hoặc chủ đề) từ một tập hợp được xác định trước Các chương trình phân loại văn bản ngày càng được sử dụng nhiều trong các ứng dụng thời gian thực, do đó cần phải cân nhắc không chỉ độ chính xác mà còn tính mạnh mẽ của chúng khi có những thay đổi (nhiễu) trong việc phân phối dữ liệu

Đề tài "Phân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễu"

nghiên cứu thuật toán phân loại văn bản dựa trên thuật toán Back-door cải tiến[5] để kiểm soát các biến số nhiễu Bằng cách kiểm soát chặt chẽ các yếu tố gây nhiễu, có thể cải thiện đáng kể hiệu quả của bộ phân loại

2 Tổng quan về vấn đề nghiên cứu

Trong bài toán phân loại văn bản, xem xét trường hợp có một biến nhiễu Z có ảnh hưởng đến cả các đặc trưng văn bản X và biến nhãn Y Ví dụ, một bộ phân loại được huấn luyện để dự đoán tình trạng sức khoẻ của người dùng dựa vào giao tiếp của

họ trên mạng có thể sai lệch bởi các biến số kinh tế xã hội Khi ảnh hưởng của Z thay đổi từ dữ liệu huấn luyện sang dữ liệu thử nghiệm, độ chính xác của phân loại có thể bị giảm nhanh chóng[5]

Trong các ngành khoa học xã hội, nhiều phương pháp đã được phát triển để kiểm soát yếu tố gây nhiễu, bao gồm kết hợp, phân tầng và hồi quy[9][Rosenbaum] Pearl[8]đã phát triển các phép thử để xác định cấu trúc nào cho phép kiểm soát các yếu

tố gây nhiễu bằng cách sử dụng điều chỉnh đồng biến, còn được gọi là Back-door[8] Luận văn sử dụng các điều chỉnh trên thuật toán Back-door để cải thiện hiệu quả của các bộ phân loại văn bản[5]

Trong cộng đồng học máy, lựa chọn thiên vị đã nhận được một số sự chú ý Xu hướng lựa chọn trong phân loại văn bản xảy ra khi sự phân bố của các đặc trưng văn bản thay đổi từ huấn luyện sang thử nghiệm Đã có các nghiên cứu xem xét trường hợp

Trang 4

hàm phân phối mục tiêu P (Y) thay đổi khi từ huấn luyện sang thử nghiệm Ở đây, bài toán giải quyết một trường hợp đầy thách thức hơn về mối quan hệ thay đổi giữa nhãn mục tiêu Y và một nhãn nhiễu Z[5]

4 Đối tượng và phạm vi nghiên cứu

 Đối tượng nghiên cứu: Thuật toán Back-door cải tiến cho phân loại văn bản

 Phạm vi nghiên cứu: Bài toán phân loại văn bản có sự xuất hiện của biến nhiễu

5 Phương pháp nghiên cứu

Phương pháp nghiên cứu là nghiên cứu lý thuyết kết hợp với thực nghiệm và phân tích, đánh giá kết quả

Nội dung chính của luận văn gồm 3 chương như sau:

Chương 1 – BÀI TOÁN PHÂN LOẠI VĂN BẢN: Giới thiệu bài toán phân loại

văn bản nói chung và trình bày một số mô hình phân loại văn bản được sử dụng phổ biến hiện nay

Chương 2 – THUẬT TOÁN BACK-DOOR CẢI TIẾN CHO PHÂN LOẠI VĂN BẢN CÓ SỰ XUẤT HIỆN CỦA BIẾN NHIỄU: Trình bày và chứng minh thuật toán

Back-door cải tiến trong phân loại văn bản

Chương 3 – THỬ NGHIỆM VÀ ĐÁNH GIÁ: Áp dụng thuật toán Back-door cải

tiến trong phân loại trên tập dữ liệu thực tế, tiến hành so sánh kết quả với một số mô hình khác và rút ra kết luận

Chương 1 - BÀI TOÁN PHÂN LOẠI VĂN BẢN

Trang 5

Chương này trình bày khái quát về bài toán phân loại văn bản, các bước giải quyết bài toán phân loại văn bản và giới thiệu ra một số mô hình phân loại văn bản phổ biến hiện nay

1.1 Bài toán phân loại văn bản

1.1.1 Phát biểu bài toán

Phân loại văn bản (Text classification) là quá trình gán nhãn (tên lớp/nhãn lớp) các văn bản ngôn ngữ tự nhiên một cách tự động vào một hoặc nhiều lớp cho trước

Bài toán phân loại văn bản có thể được phát biểu như sau: Cho trước một tập văn bản D={d1,d2,…,dn} và tập chủ đề được định nghĩa C={c1,c2,…,cn}

Nhiệm vụ của bài toán là gán lớp di thuộc về cj cho trước Hay nói cách khác, mục tiêu của bài toán là đi tìm hàm f sao cho:

Phân loại văn bản được các nhà nghiên cứu định nghĩa thống nhất là việc gán tên các chủ đề (tên lớp / nhãn lớp) đã được xác định trước cho các văn bản dựa trên nội dung của nó Phân loại văn bản là công việc được sử dụng để hỗ trợ trong quá trình tìm kiếm thông tin (Information Retrieval), trích xuất thông tin (Information Extraction), lọc văn bản hoặc tự động đưa các văn bản vào những chủ đề xác định trước

Trang 6

Có nhiều hướng tiếp cận giải quyết bài toán phân loại văn bản đã được nghiên cứu như: tiếp cận dựa trên lý thuyết đồ thị, cách tiếp cận sử dụng lý thuyết tập thô, tiếp cận dựa trên thống kê… Tuy nhiên, tất cả các hướng tiếp cận trên đều dựa vào phương pháp chung là học máy Học máy gồm học có giám sát, học không giám sát

Tuỳ vào mục đích bộ phân loại mà chúng ta sẽ có những phương pháp tiền xử

lý văn bản khác nhau, như:

- Chuyển văn bản về chữ thường

- Loại bỏ dấu câu (nếu không thực hiện tách câu)

- Loại bỏ các kí tự đặc biệt ([ ],[.], [,], [:], [“], [”], [;], [/], [[]], [~], [`], [!],[@], [#], [$],[%],[^],[&],[*],[(],[)]), các chữ số, phép tính toán số học

Biểu diễn ban đầu

Giảm số chiều hoặc lựa chọn thuộc tính

Biểu diễn cuối cùng

Trang 7

- Loại bỏ các stopword (những từ xuất hiện hầu hết trong các văn bản) không

có ý nghĩa khi tham gia vào phân loại văn bản

1.1.4 Phương pháp biểu diễn văn bản

Một trong những nhiệm vụ đầu tiên trong phân loại văn bản là chọn được một

mô hình biểu diễn văn bản thích hợp Một văn bản ở dạng thô (dạng chuỗi) cần được chuyển sang một mô hình khác để tạo thuận lợi cho việc biểu diễn và tính toán Tuỳ thuộc vào từng thuật toán phân loại khác nhau mà chúng ta có mô hình biểu diễn riêng

Phương pháp chuẩn thường được sử dụng là Term Frequency Inverse Document Frequency (TFIDF)[17], với hàm tính trọng số từ khóa được xác định bởi công thức:

, , *log

l

m TFIDF freq

- Tần suất văn bản dfl là sốvăn bản trong tập tài liệu có chứa từ khóa l

- m là tổng số tài liệu huấn luyện

Trọng số TFIDF của một từ khóa trong toàn bộ tập tài liệu m được tính bởi công thức:

, ,

l d

TFIDF TFIDF TFIDFR (1.5)

1.1.5 Đánh giá bộ phân loại văn bản

Các độ đo thường dùng cho bài toán phân loại văn bản:

a) Ma trận nhầm lẫn (Confusion Matrix)

Trang 8

Ma trận nhầm lẫn, hay còn được gọi là Bảng dữ liệu thống kê (Contingency Table) và chỉ được sử dụng đối với bài toán phân loại Ý nghĩa của các ký hiệu trong

ma trận nhầm lẫn:

 TPi: Số lượng các ví dụ thuộc lớp ci được phân loại chính xác vào lớp ci

 FPi: Số lượng các ví dụ không thuộc lớp ci bị phân loại nhầm vào lớp ci

 TNi: Số lượng các ví dụ không thuộc lớp ci được phân loại (chính xác)

 FNi: Số lượng các ví dụ thuộc lớp ci bị phân loại nhầm (vào các lớp khác ci)

Trang 9

1.2 Một số mơ hình phân loại văn bản

1.2.1 Mơ hình Nạve Bayes

Nạve Bayes[6] là phương pháp phân loại dựa vào xác suất, được sử dụng rộng rãi trong lĩnh vực học máy và nhiều lĩnh vực khác như trong các cơng cụ tìm kiếm, các bộ lọc thư điện tử, …

Ý tưởng cơ bản của cách tiếp cận này là sử dụng xác suất cĩ điều kiện giữa từ hoặc cụm từ và chủ đề để dự đốn xác suất chủ đề của một văn bản cần phân loại Điểm quan trọng của phương pháp này chính là ở chỗ giả định rằng sự xuất hiện của tất cả các từ trong văn bản đều độc lập với nhau Như thế Nạve Bayes khơng tận dụng được sự phụ thuộc của nhiều từ vào một chủ đề cụ thể Chính giả định đĩ làm cho việc tính tốn Nạve Bayes hiệu qủa và nhanh chĩng hơn các phương pháp khác với độ phức tạp theo số mũ vì nĩ khơng sử dụng cách kết hợp các từ để đưa ra phán đốn chủ đề

Mục đích chính là làm sao tính được xác suất Pr(Cj, d’), xác suất để văn bản d’ nằm trong lớp Cj Theo luật Bayes, văn bản d’ sẽ được gán vào lớp Cj nào cĩ xác suất Pr(Cj, d’) cao nhất

1.2.2 Mơ hình Support Vector Machine

Thuật tốn máy vector hỗ trợ (Support Vector Machines - SVM) được Corters và Vapnik giới thiệu vào năm 1995[3] SVM được đánh giá rất hiệu quả để giải quyết các bài tốn với dữ liệu cĩ số chiều lớn như các vector biểu diễn văn bản Thuật tốn SVM ban đầu chỉ được thiết kế để giải quyết bài tốn phân loại nhị phân tức là số lớp hạn chế là hai lớp Hiện nay, SVM được đánh giá là bộ phân loại chính xác nhất cho bài tốn phân loại văn bản [16], bởi vì đĩ là bộ phân loại tốc độ rất nhanh và hiệu quả đối với bài tốn phân loại văn bản

Trang 10

Cho tập dữ liệu học D {( , ),x y i i i  1 }n với m

i

xRy i  { 1,1} là một số nguyên xác định xi là dữ liệu dương hay âm Một tài liệu xi được gọi là dữ liệu dương nếu nó thuộc lớp ci; xi được gọi là dữ liệu âm nếu nó không thuộc lớp ci Bộ phân loại tuyến tính được xác định bằng siêu phẳng:

0

{ : ( )x f x  wT  w  0} (1.16) Trong đó w R m và w0R đóng vai trò là tham số của mô hình Hàm phân loại nhị phân h R: m {0,1} có thể thu được bằng cách xác định dấu của f(x):

1 ( ) 0 ( )

1.2.3 Mô hình Logistic Regression

Bài toán phân loại là một trường hợp đặc biệt của bài toán hồi qui (Regression), với điều kiện biến dự đoán y chỉ nhận hai giá trị, 0 và 1 (bài toán binary logistic regression) Có 2 nhận xét để tiếp cận bài toán này

Thứ nhất: Dùng các hàm hồi qui tuyến tính (Linear Regression) để dự đoán biến y, khi biết x Ở đây bỏ qua điều kiện giá trị của y là rời rạc(0 hoặc 1) Ở Linear Regression chọn hàm dự đoán:

( ) ( T )

Thứ hai: Giới hạn y trong đoạn [0, 1], do vậy chọn h x( ) g( T x) , trong đó:

1,1

Trang 11

Tóm lại có hàm dự đoán với đầu vào x như sau:

1 ( )

n01 = n10 = n11

Khi cài đặt mô hình này, ta sử dụng sự hỗ trợ của hàm random để chọn ra bộ

dữ liệu thỏa mãn điều kiện lấy mẫu Cách tiếp cận này có thể vô tình loại bỏ nhiều trường hợp khi bộ dữ liệu có sự thiên lệch dữ liệu lớn

1.2.5 Mô hình Matching

Matching[12] là việc ghép cặp các đơn vị nghiên cứu và đợn vị so sánh có các đặc điểm tương tự có thể quan sát được của chúng Khi sự khác biệt giữa hai đơn vị bất kỳ nào đều được ghi nhận trong tập biến số quan sát (tiền xử lý), tức là khi các kết quả không phụ thuộc vào việc phân chia theo điều kiện tiền điều kiện tiền xử lý, phương pháp Matching

có thể mang lại ước tính không thiên vị trong nghiên cứu Các phương pháp ghép cặp đầu tiên của phương pháp Matching quan sát dựa trên một hoặc một vài biến số

Matching về cơ bản là tính toán sơ đồ trọng số, xác định trọng số được đặt trên các đơn vị so sánh khi tính toán hiệu quả ước tính:

Trang 12

1.2.6 Mô hình Sum out

Sum out (SO)[11]: Mô hình này sử dụng bộ phân loại hồi quy logistic, trong đó các nhãn nằm trong khoảng giá trị của Y và Z (nghĩa là nhãn dạng {(y=0, z=0), (y=0, z=1), .})

Trong quá trình thử nghiệm, để phân loại cho một biến X mới, ta tính toán giá trị của P(Z=1, Y=0|X) + P(Z=0,Y=1|X)

1.3 Bài toán của luận văn

Xem xét biến số nhiễu là biến có ảnh hưởng nhân quả lên kết quả của việc phân loại văn bản, luận văn nghiên cứu thuật toán phân loại văn bản dựa trên thuật toán Back-door cải tiến[3] để kiểm soát các biến số nhiễu Bằng cách kiểm soát chặt chẽ các yếu tố gây nhiễu, có thể cải thiện đáng kể hiệu quả của bộ phân loại

Giả sử ta quan sát biến nhiễu trong quá trình huấn luyện, không phải ở quá trình thử nghiệm Xét bài toán như sau:

- Đầu vào của bài toán: Giả sử có tập dữ liệu huấn luyện D {( , , )}x y z i i i n i1, trong đó mỗi bộ bao gồm một vector đặc trưng x, một nhãn y, và một biến

số nhiễu z xác định trước

- Đầu ra mong đợi: Mục tiêu của luận văn là dự đoán nhãn yj cho một trường hợp mới xj, trong khi không kiểm soát đối với một nhiễu zj

Trang 13

1.4 Kết luận chương

Trong Chương 1, luận văn đã trình bày về bài toán phân loại văn bản, vai trò

và cách tiếp cận, thực hiện bài toán phân loại văn bản sau đó nêu ra một số mô hình phân loại văn bản thường được sử dụng

Trong chương tiếp theo, luận văn sẽ xem xét bài toán phân loại văn bản trong điều kiện xuất hiện biến số nhiễu có ảnh hưởng đến kết quả của bộ phân loại văn bản

Trang 14

Chương 2 - THUẬT TOÁN BACK-DOOR CẢI TIẾN CHO PHÂN LOẠI VĂN BẢN CÓ XUẤT HIỆN CỦA BIẾN NHIỄU 2.1 Giới thiệu

Các mô hình phân loại văn bản ở Chương 1 đang áp dụng cho bài toán gán nhãn Y cho đối tượng X khi X và Y là các biến số độc lập với nhau

Thuật toán Back-door tiêu chuẩn được Pear[6] giới thiệu năm 2003, đưa ra một sơ đồ đơn giản để kiểm tra quan hệ nhân quả giữa các biến Thuật toán Back-door cải tiến xem xét những trường hợp mà đối tượng cần phân loại X có tác động nhân quả với biến nhãn Y Bằng việc kiểm soát một biến số nhiễu Z, trong đó Z có ảnh hưởng tới cả X và Y, mô hình này được kỳ vọng có có thể cải thiện độ chính xác của bộ phân loại trong những trường hợp X có tác động nhân quả với Y

2.2 Thuật toán Back-door tiêu chuẩn

Giả sử có một sơ đồ nhân quả G, cùng với dữ liệu thử nghiệm trên tập con V gồm các biến thuộc G, và giả sử ước tính ảnh hưởng của các biến đầu vào (X=x) có thể có trên tập các biến trả về Y, X và Y là hai tập con của V Nói cách khác, ước tính P y x( | )ˆ từ một ước lượng mẫu P(v)

Tồn tại một sơ đồ kiểm tra đơn giản, tên là "tiêu chuẩn Back-door" trong Pearl[6], có thể được áp dụng trực tiếp vào sơ đồ nguyên nhân để kiểm tra nếu một tập hợp Z  V gồm các biến có khả năng xác định P y x( | ) ˆ

Định nghĩa 1: Tiêu chuẩn Back-door

Một tập các biến Z thỏa mãn tiêu chuẩn Back-door liên quan đến cặp biến (Xi,Xj) trong một đồ thị không tuần hoàn G nếu:

(i) không có nút nào trong Z là hậu duệ của Xi; Và

Trang 15

(ii) Z chặn mọi đường đi giữa Xi và Xj có chứa một mũi tên vào Xi

Tương tự như vậy, nếu X và Y là hai tập hợp các nút con của G, Z sẽ đáp ứng các tiêu chí tương ứng với (X, Y) nếu nó thỏa mãn tiêu chuẩn Back-door với bất kỳ cặp (Xi, Xj) nào ví dụ như XiX và XjY

Cái tên "Back-door" thể hiện điều kiện (ii), đòi hỏi chỉ chặn các đường đi có mũi tên chỉ vào Xi; Những đường đi này có thể được xem như là nhập Xi thông qua cửa sau Trong ví dụ Hình 1, các bộ Zl={X3, X4} và Z2={X4, X5} đáp ứng các tiêu chí back-door, nhưng Z3={X4} không thoả mãn vì X4 không chặn đường dẫn (Xi,

X3, Xl, X4, X2, X5, Xj)

Hình 2.1 Mô hình ví dụ cho tiêu chuẩn Back-door

Trong hình trên, điều chỉnh các biến {X3,X4} hoặc {X4,X5} sẽ mang lại một ước tính thích hợp cho P x( j |xˆi)

2.3 Thuật toán Back-door cải tiến cho phân loại văn bản

Thuật toán Back-door cải tiến

Nếu một tập hợp Z gồm các biến thỏa mãn tiêu chuẩn Back-door, xác định được cặp biến (X, Y), thì ảnh hưởng nhân quả của X trên Y là xác định được và được cho bởi công thức:

Ngày đăng: 28/02/2018, 11:57

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w