Đề tài: Tìm hiểu phương pháp tách từ trong văn bản tiếng việt theo hướng tiếp cận của giải thuật di truyền BTL: Xử lý ngôn ngữ tự nhiên Giảng viên hướng dẫn: PGS.TS Lê Thanh Hương Sinh
Trang 1Đề tài: Tìm hiểu phương pháp tách từ trong văn bản tiếng việt
theo hướng tiếp cận của giải thuật di truyền
BTL: Xử lý ngôn ngữ tự
nhiên
Giảng viên hướng dẫn: PGS.TS Lê Thanh Hương
Sinh viên thực hiện:
1- Nguyễn Thị Thúy HTTT-K53 SHSV:20082599
2- Lương Thị Hoài Thu HTTT-K53 SHSV:20082588
3- Nguyễn Đình Hưởng HTTT-K53 SHSV:20081338
4- Nguyễn Phước Thọ HTTT-K53 SHSV:2008256
Trang 2 Các phương pháp tách từ tiếng Việt.
Giải thuật di truyền.
Phương pháp tách từ dựa trên thống kê Internet theo hướng tiếp cận của giải thuật di truyền (IGATEC)
Tìm hiểu opensource Vntokenizer để tách từ trong văn bản tiếng Việt.
Tổng quan
Trang 3Vấn đề tách từ tiếng Việt.
Các hướng tiếp cận của kĩ thuật tách từ tiếng Việt
Một số phương pháp tách từ tiếng Việt hiện nay
Kết luận
Các phương pháp tách từ
tiếng Việt.
Trang 4Bài toán tách từ tiếng Việt là một bài toán khó.
Vì những đặc tính chung của tiếng Việt- một ngôn ngữ đơn
lâp.
• Từ ở dạng nguyên thể , hình thức và ý nghĩa của từ độc lập với cú pháp.
• Từ được cấu trúc từ tiếng.
• Từ bao gồm từ đơn và từ phức (bao gồm từ láy và từ ghép).
Vấn đề tách từ tiếng
Việt
Trang 5Điểm khác nhau giữa tiếng Anh và tiếng Việt
Vấn đề tách từ tiếng Việt
Tiếng Việt
Tiếng Anh
- Là ngôn ngữ đơn lập (isolate) hay còn gọi
là loại hình phi hình thái, không biến hình,
đơn âm tiết.
- Từ không biến đổi hình thái, ý nghĩa ngữ
- Tồn tại loại từ đặc biệt “từ chỉ loại” hay
còn gọi là phó danh từ chỉ loại kèm theo với
Trang 6Các hướng tiếp cận của kĩ
thuật tách từ tiếng Việt
Trang 7So khớp từ dài nhất (Longest Matching)
Học dựa trên sự cải biến (Transformation-based Learning -TBL)
Chuyển đổi trạng thái trọng số hữu hạn (Weighted- Finite State Transducer- WFST)
Phương pháp tách từ dựa trên thống kê từ trên Internet và giải thuật di truyền.
Một số phương pháp
tách từ tiếng Việt
Trang 8So khớp từ dài nhất (Longest Matching)
Wmax= từ đầu danh sách V; // từ dài nhất
Foreach (v thuộc từ gồm các tiếng bắt đầu trong V)
If(length(v)> length(Wmax) and v thuộc T) then Wmax= v;
Loại đi các tiếng trong Wmax ở đầu danh sách V;
End
Trang 9Ưu điểm:
- Tách từ nhanh đơn giản chỉ cần dựa vào từ điển.
- Độ chính xác tương đối cao.
Hạn chế:
- Độ chính xác phụ thuộc vào hoàn toàn vào tính đầy đủ và chính xác của từ điển.
- Phương pháp này sẽ không đạt được kết quả nếu chuối từ trước có liên hệ với các từ sau
Ví dụ : một ông quan tài giỏi => một ||ông|| quan tài|| giỏi.
1 Tôi là sinh viên trường đại học Bách Khoa Hà Nội
2 Là sinh viên trường đại học Bách Khoa Hà Nội
3 Sinh viên trường đại học Bách Khoa Hà Nội
Trang 10- Huấn luyện cho máy “học” trên dữ liệu hàng vạn câu tiếng Việt đã được đánh dấu ranh giới từ đúng.
- Sau khi học xong, máy sẽ xác định được các tham số (các xác suất) cần thiết cho mô hình nhận diện từ
Học dựa trên sự cải biến (Transformation-based Learning -TBL)
Trang 11Ưu điểm:
- Có khả năng tự rút ra quy luật của ngôn ngữ.
- Có những ưu điểm của cách tiếp cận dựa trên luật nhưng nó khác phục được khuyết điểm của việc xây dựng các luật một cách thủ công bởi các chuyên gia.
- Các luật được thử nghiệm tại chỗ để đánh giá độ chính xác và hiệu của luật (dựa trên ngữ liệu huấn luyện).
- Có khả năng khử một số nhập nhằng của các mô hình ngôn ngữ theo kiểu
thống kê.
Học dựa trên sự cải biến (Transformation-based Learning -TBL)
Trang 12Hạn chế:
- Phương pháp này “dùng ngữ liệu có gán nhãn ngôn ngữ để học tự động các quy luật đó” Mà việc xây dựng một tập ngữ liệu đạt được đầy đủ các tiêu chí của tập ngữ liệu trong tiếng Việt là điểu rất khó, tốn kém nhiều về mặt thời gian và công sức.
- Hệ phải trải qua một thời gian huấn luyện khá lâu để có thể rút ra các luật tương đối đầy đủ.
- Cài đặt phức tạp.
Học dựa trên sự cải biến (Transformation-based Learning -TBL)
Trang 13Ý tưởng cơ bản là áp dụng WFST kết hợp với trọng số là xác suất xuất hiện của mỗi từ trong ngữ liệu.
Dùng WFST để duyệt qua câu cần xét Cách duyệt có trọng số lớn nhất sẽ là cách tách từ được chọn
Chuyển đổi trạng thái trọng số hữu hạn
(Weighted- Finite State Transducer- WFST)
Trang 14Chuyển đổi trạng thái trọng số hữu hạn (Weighted- Finite State Transducer- WFST)
Ưu điểm
- Độ chính xác trên 97% [Đinh Điền et al, 2001]
- Mô hình cho kết quả phân đoạn từ với độ tin cậy (xác suất) kèm theo
- Nhờ có tầng mạng neural nên mô hình có thể khử nhập nhằng các trường hợp tần WFST cho ra nhiều ứng viên có kết quả ngang nhau
- Phương pháp này cho kết quả với độ chính xác khá cao vì mục đích của tác giả muốn nhắm đến việc tách từ thật chính xác để là nền tảng cho việc dịch máy
Hạn chế
- Cũng tương tự như phương pháp TBL, việc xây dụng tập ngữ liệu là rất công phu,
nhưng thật sự cần rất cần thiết để phục vụ cho mục đích dịch máy sau này
Trang 15Ý tưởng của phương pháp là kết hợp giữa thuật toán di truyền với dữ
liệu thống kê được lấy từ Internet
Phương pháp tách từ dựa trên thống kê từ
trên Internet và giải thuật di truyền
Trang 16Hệ thống tách từ theo phương pháp IGATEC được chia làm 2 phần:
• Online Extractor : Thành phần này có tác dụng lấy thông tin về
tần số xuất hiện của các từ trong văn bản
• GA Engine for Text Segmentation : mỗi cá thể trong quan thể
được biểu diễn bởi chuỗi các bit 0,1
Các cá thể trong quần thể được khởi tạo ngẫu nhiên Sau đó
thực hiện các bước đột biến và lai ghép nhằm mục đích làm tăng
giá trị fitness của các cá thể để đạt được cách tách từ tốt nhất có
thể
Phương pháp tách từ dựa trên thống kê từ trên Internet
và giải thuật di truyền
Trang 17- Hướng tiếp cận dựa trên ký tự có ưu điểm là dễ thực hiện , thời gian thực hiện tương đối nhanh , tuy nhiên lại cho kết qủa không chính xác bằng hướng tiếp cận dựa trên từ
- Nhìn chung với hướng tiếp cận này nếu chúng ta có thể cải tiến
để nâng cao độ chính xác trong tách từ
Kết Luận
Trang 19• Giải thuật di truyền là một phân ngành của giải thuật tiến hóa vận dụng các nguyên lý của tiến hóa như di truyền, đột biến, chọn lọc
tự nhiên, và trao đổi chéo
• Giải thuật di truyền thường được ứng dụng nhằm sử dụng ngôn ngữ máy tính để mô phỏng quá trình tiến hoá của một tập hợp những đại diện trừu tượng (gọi là những nhiễm sắc thể) của các giải pháp có thể (gọi là những cá thể) cho bài toán tối ưu hóa vấn đề
Giải thuật di
truyền
Trang 20Tính độ thích nghi cho các cá thể thuộc P(t);
Khi (điều kiện dừng chưa thỏa) lặp
Trang 21Thuật toán di truyền gồm có bốn quy luật cơ bản là lai ghép, đột biến, sinh sản và chọn lọc tự nhiên:
Toán tử di truyền dựa trên 4 quy luật trên
Trang 22 Nghiên cứu thống kê dựa trên Internet.
Phương pháp tách từ dựa trên thống kê Internet theo hướng
tiếp cận của giải thuật di truyền (IGATEC)
Kết luận
Internet and Genetics Algorithm-based Text Categorization for Documents
in Vietnamese - IGATEC
Trang 23• Internet là kho dữ liệu vô tận.
• Theo Rudi& Paul(2005) tỉ lệ xuất hiện của từ trên Internet là khá ổn đinh, điều này cho phép ta thực hiện các tính toán chính xác và ổn định vì ít phụ thuộc vào số lượng trang web trên
Internet tăng lên theo thời gian
Nghiên cứu thống kê
trên internet
Trang 24Công cụ trích xuất thông tin từ Google
Công cụ tách từ dùng thuật toán di truyền (Genetic Alogorith)
IGATEC
Trang 25Nhiệm vụ của công cụ trích xuất thông tin từ Google sẽ lấy
thông tin về:
Tần số xuất hiện của các văn bản chứa từ (document
frequency) trên các trang web để thực hiện tính toán theo công thức MI, dự đoán khả năng tồn tại của một từ
Tần số các văn bản chứ từ với từ khóa đại diện cho chủ để
dùng để tính mức độ liên quan của từ với các loại chủ đề cần phân loại
Công cụ trích xuất thông tin từ
Công cụ trích xuất thông tin từ
Các công thức tính xác suất từ xuất hiện trên Internet
Gọi count(w) là số lượng trang web chứ từ w;
count(w 1 &w 2 ) là số trang web chứa đồng thời w 1 &w 2
𝑝(𝑤) = 𝑐𝑜𝑢𝑛𝑡 (𝑤)𝑀𝑎𝑥
𝑝(𝑤1 &𝑤2) = 𝑐𝑜𝑢𝑛𝑡 (𝑤1 &𝑤2) 𝑀𝑎𝑥
Trong đó Max=4*109 ;
Trang 27Độ tương hỗ MI cho biết thông tin phụ thuộc lẫn nhau của các
từ ghép được cấu tạo bởi n tiếng (Cw=w1w2…wn)
- Đối với mỗi từ một tiếng ta quy ước MI=p(w)
- Đối với từ 2 tiếng trở lên chúng ta có thể sử dụng:
Công cụ trích xuất thông tin từ
Khảo sát độ dài của “từ” trên từ điển.
Khởi tạo quần thể.
Quá trình tiến hóa.
Công cụ tách từ dùng thuật toán
di truyền (Genetic Alogorithm)
Trang 29Kết quả khảo sát độ dài của từ trên từ điển.
Khảo sát độ dài của “từ”
Trang 30Biểu diễn cá thể:
• Giả sử văn bản đầu vào t bao gồm n tiếng như sau : T=s1s2…
sn Mục đích của qúa trình thực hiện thuật toán GA là tìm cách
tách ra các từ có độ phù hợp cao nhất : t=w1w2…wm với wk
=si…sj (1 <= k<= m , 1<= i,j<= n).
• Sau đó mỗi cá thể trong quan thể được biểu diễn bởi chuỗi các bit
0,1 , trong đó , mỗi bit đại diện cho một tiếng trong văn bản , mỗi
nhóm bit cùng loại đại diện cho cho một segment.
Khởi tạo quần thể
Tôi Là Sinh Viên Trường Đại Học Bách Khoa Hà Nội
w1 w2 w3 w4 w5 w6 w7
Trang 31Khởi tạo các tham số:
Trong bước này để cho GA chạy , chúng ta phải khởi tạo giá trị các tham số , bao gồm : số thế hệ tiến hóa , kích thước quần thể , tỷ lệ lai ghép, … Ta có giá trị cho các tham số như sau:
Khởi tạo quần
10%
Tỷ lệ từ 2 tiếng (bi – gram) 70%
Tỷ lệ từ 3 tiếng (tri – gram) 10%
Tỷ lệ từ 4 tiếng (quad – gram)
10%
Trang 32Khởi tạo cá thể
Khởi tạo ngẫu nhiên:
Khởi tạo bằng phương pháp Maximum Matching : Forward / Backward
Khởi tạo quần thể
Trang 34Quá trình đột biến:
Quá trình tiến hóa
Trang 35Quá trình sinh sản:
Quá trình tiến
hóa
Trang 36i fit(idi)fit(pop)
m 1
) wm
w2 w1 fit(
fit(id)
Trang 37Độ hội tụ:
Quá trình thực hiện thuật toán GA cố gắng tăng độ thích nghi (fitness) của mỗi cá thể, điều này cũng có nghĩa là tăng chất lượng của từ được từ Và do đó ở mỗi thế hệ tiến hóa , chỉ
số thích nghi của quần thể sẽ tăng lên dần đến một ngưỡng hội tụ T Khi đó sau một quá trình tiến hóa độ chêng lệch giữa chỉ số thích nghi của hai cá thể trong quần thể sẽ giảm dần và tiến dần về 0 hoặc đạt đến ngưỡng hội tụ T mà chúng
ta đã chọn
Quá trình tiến
hóa
Trang 39Giới thiệu chương trình
Demo
Opensource Vntokenizer
Trang 40Giới thiệu chương trình:
VnTokenizer là chương trình tách từ tiếng việt tự động Việc nghiên cứu phát triển và cài đặt chương trình được thực hiện bởi một nhóm giáo viên trẻ thuộc khoa toán cơ tin học, Trường đại học khoa học từ nhiên, đại học Quốc gia Hà Nội thực hiện.
Opensource
Vntokenizer
Trang 41Cú pháp câu lệnh
Windows: vnTokenizer.bat –i <file input> -o <file output>
Linux: : vnTokenizer.sh –i <file input> -o <file output>
Ngoài ra còn có các tùy biến kèm theo
-xo: dùng định dạng XML để biểu diễn kết quả
-sd: không sử dụng dấu gạch dưới (no underscore) khi ghi kết quả -nu: sử dụng mô-đun tách câu trước khi thực hiện tách từ.
Opensource
Vntokenizer
Trang 42Demo
Trang 43Câu hỏi?