PHÂN CỤM TÀI LIỆU VÀ VẤN ĐỀ TÁCH TỪ TIẾNG VIỆT
3.7. Các phương pháp tách từ tiếng Việt
Khác với Tiếng Anh, từ là một nhóm ký tự liên tiếp có ý nghĩa được phân cách nhau bằng các khoảng trắng hoặc dấu câu, đơn vị cơ bản trong Tiếng Việt là tiếng không phải là từ, một từ trong tiếng Việt có thể gồm một hoặc nhiều tiếng.
Từ tiếng Việt có một số đặc điểm chính như sau:
- Từ ở dạng nguyên thể, hình thức và ý nghĩa của từ độc lập với cú pháp - Từ được cấu trúc từ “tiếng”
- Từ bao gồm từ đơn (từ một tiếng) và từ phức (n-tiếng, với n <= 5), bao
gồm từ láy và từ ghép.
Như vậy, từ Tiếng Việt và từ Tiếng Anh có những đặc điểm khác biệt chính như bảng dưới đây.
Đặc điểm Tiếng Việt Tiếng Anh
Đơn vị cơ bản Tiếng Từ
Nhận dạng từ Tổ hợp các tiếng liên tiếp có nghĩa dựa vào ngữ cảnh sử dụng
Cách nhau bởi các khoảng trắng hoặc dấu câu.
Từ loại Không thống nhất Định nghĩa rõ ràng
Tiền tố/hậu tố Không có Có
Bảng 3- 5. So sánh các đặc điểm khác nhau giữa tiếng Anh và tiếng Việt Từ những đặc điểm khác biệt trên, khi phân tách văn bản tiếng Việt thành các từ có nhiều khó khăn hơn so với việc phân tách từ Tiếng Anh. Các phần dưới đây sẽ trình bày một số phương pháp tách từ Tiếng Việt đang được sử dụng hiện nay.
3.7.2. Phương pháp so khớp cực đại
Phương pháp so khớp cực đại (MM - Maximum Matching) hay còn gọi là so khớp cực đại từ trái qua phải (LRMM - Left Right Maximum Matching). Ở phương pháp này, chúng ta sẽ duyệt một ngữ hoặc câu từ trái sang phải và chọn từ có nhiều âm tiết nhất có mặt trong từ điển và cứ thực hiện lặp lại như vậy cho đến hết câu.
Với tư tưởng đó, phương pháp này thực hiện tách từ đơn giản, nhanh và chỉ cần dựa vào từ điển để thực hiện. Tuy nhiên, khuyết điểm của phương pháp này cũng chính là từ điển, nghĩa là độ chính xác khi thực hiện tách từ phụ thuộc hoàn toàn vào tính đủ, tính chính xác của từ điển hơn nữa nó cũng tách từ sai trong một số trường hợp đặc biệt như câu: Học sinh học sinh học
3.7.3. Phương pháp học cải biến
Phương pháp này tiếp cận dựa trên tập ngữ liệu đã đánh dấu.Theo cách tiếp cận này để cho máy tính có thể nhận biết ranh giới giữa các từ để có thể tách từ chính xác, chúng ta sẽ cho máy học các câu mẫu trong tập ngữ liệu đã được đánh dấu ranh giới giữa các từ đúng.
Ta thấy phương pháp rất đơn giản, vì chỉ cần cho máy học các tập câu mẫu và sau đó máy sẽ tự rút ra qui luật của ngôn ngữ và để từ đó sẽ áp dụng chính xác khi có những câu đúng theo luật mà máy đã rút ra. Và rõ ràng để tách từ được hoàn toàn chính xác trong mọi trường hợp thì đòi hỏi phải có một tập ngữ liệu tiếng Việt thật đầy đủ và phải được huấn luyện lâu để có thể rút ra các luật đầy đủ.
3.7.4. Mô hình tách từ bằng WFST và mạng Neural
Mô hình mạng chuyển dịch trạng thái hữu hạn có trọng số (WFST – Weighted Finit State Transducer) đã được áp dụng trong tách từ từ năm 1996. Ý tưởng cơ bản là áp dụng WFST với trọng số là xác suất xuất hiện của mỗi từ trong kho ngữ liệu. Dùng WFST để duyệt qua các câu cần xét, khi đó từ có trọng số lớn nhất là từ được chọn để tách. Phương pháp này cũng đã được sử dụng trong công trình đã được công bố của tác giả Đinh Điền [2001], tác giả đã sử dụng WFST kèm với mạng Neural để khử nhập nhằng khi tách từ, trong công trình tác giả đã xây dựng hệ thống tách từ gồm tầng WFST để tách từ và xử lý các vấn đề liên quan đến một số đặc thù riêng của ngôn ngữ tiếng Việt như từ láy, tên riêng,.. và tầng mạng Neural dùng để khử nhập nhằng về ngữ nghĩa sau khi đã tách từ (nếu có).
Theo công bố trong công trình của tác giả, mô hình này đạt được độ chính xác trên 97%. Tác giả sử dụng thêm mạng Neural kết hợp với từ điển để khử các nhập nhằng có thể có khi tách ra nhiều từ có được từ một câu; tầng mạng Neural sẽ loại bỏ đi các từ không phù hợp bằng cách kết hợp với từ điển. Bên cạnh đó, cũng tương tự như phương pháp TBL điểm quan trọng của mô hình này cần tập ngữ liệu học đầy đủ.
3.7.5. Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyền
Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyền (IGATEC - Internet and Genetics Algorithm based Text Categorization for Documents in Vietnamese) do H. Nguyễn đề xuất năm 2005 như một hướng tiếp cận mới trong tách từ với mục đích phân loại văn bản mà không cần dùng đến một từ điển hay tập ngữ liệu học nào. Trong hướng tiếp cận này, tác giả kết hợp giữa thuật toán di truyền với dữ liệu thống kê được lấy từ Internet.
Theo cách tiếp cận của tác giả, hệ thống tách từ gồm 2 thành phần
Lấy thông tin trực tuyến (Online Extractor): Thành phần này có tác dụng lấy thông tin về tần số xuất hiện của các từ trong văn bản bằng cách sử dụng một search engine nổi tiếng như Google hay Yahoo chẳng hạn. Sau đó, tác giả sử dụng các công thức thích hợp (xem [4]) để tính toán mức độ phụ thuộc lẫn nhau để làm cơ sở tính fitness cho GA engine.
Tách từ bằng thuật giải di truyền: mỗi cá thể trong quan thể được biểu diễn bởi chuỗi các bit 0,1, trong đó, mỗi bit đại diện cho một tiếng trong văn bản, mỗi nhóm bit cùng loại đại diện cho cho một đoạn. Các cá thể trong quần thể được khởi tạo ngẫu nhiên, trong đó mỗi đoạn được giới hạn trong khoảng 5. GA engine sau đó thực hiện các bước đột biến và lai ghép nhằm mục đích làm tăng giá trị fitness của các cá thể để đạt được cách tách từ tốt nhất có thể.
Chương 4: LÝ THUYẾT TẬP THÔ 4.1. Giới thiệu
Lý thuyết tập thô (rough set theory) lần đầu tiên được đề xuất bởi Z. Pawlak vào đầu những năm 1980 và nhanh chóng được xem như một công cụ xử lý các thông tin mơ hồ và không chắc chắn. Lý thuyết tập thô là một công cụ hữu ích được sử dụng nhiều trong việc phân tích và phân lớp dữ liệu. Lý thuyết tập thô đã được áp dụng thành công trong nhiều tác vụ khác nhau như: Trích chọn các đặc trưng, tổng hợp ra các luật và phân cụm dữ liệu.
Lý thuyết tập thô dựa trên giả thiết rằng để định nghĩa một tập hợp, chúng ta cần phải có thông tin về mọi đối tượng trong tập vũ trụ, quan điểm này hoàn toàn khác với quan điểm truyền thống của tập hợp là mọi tập hợp đều được định nghĩa duy nhất bởi các phần tử của nó mà không cần biết bất kỳ thông tin nào về các phần tử của tập hợp. Vấn đề nổi bật của lý thuyết tập thô là việc đưa ra ý tưởng về tính mơ hồ của tri thức hay hệ thông tin; nó dựa trên khái niệm xấp xỉ dưới (Lower approximation) và xấp xỉ trên (Upper approximation) của hệ thông tin. Xấp xỉ dưới của một hệ thông tin cho một khái niệm C là tập hợp các đối tượng chắc chắn thuộc về khái niệm C; trong khi đó xấp xỉ trên của một hệ thông tin cho khái niệm C là tập hợp các đối tượng có thể thuộc về khái niệm C. Vùng khác biệt giữa xấp xỉ trên và xấp xỉ dưới được gọi là vùng biên (Boundary region) đó là những đối tượng không thể quyết định được là có thuộc khái niệm C (xem hình 4.1).
Trong chương này chúng ta sẽ nghiên cứu các khái niệm và ý nghĩa cơ bản của lý thuyết tập thô. Đây là những kiến thức quan trọng cho việc áp dụng tập thô vào phân cụm kết quả tìm kiếm web.