1. Trang chủ
  2. » Công Nghệ Thông Tin

slide thuyết trình đề tài tìm hiểu phương pháp tách từ trong văn bản tiếng việt theo hướng tiếp cận của giải thuật di truy

43 938 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 43
Dung lượng 720,12 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Đề tài: Tìm hiểu phương pháp tách từ trong văn bản tiếng việt theo hướng tiếp cận của giải thuật di truyền BTL: Xử lý ngôn ngữ tự nhiên Giảng viên hướng dẫn: PGS.TS Lê Thanh Hương Sinh

Trang 1

Đề tài: Tìm hiểu phương pháp tách từ trong văn bản tiếng việt

theo hướng tiếp cận của giải thuật di truyền

BTL: Xử lý ngôn ngữ tự

nhiên

Giảng viên hướng dẫn: PGS.TS Lê Thanh Hương

Sinh viên thực hiện:

1- Nguyễn Thị Thúy HTTT-K53 SHSV:20082599

2- Lương Thị Hoài Thu HTTT-K53 SHSV:20082588

3- Nguyễn Đình Hưởng HTTT-K53 SHSV:20081338

4- Nguyễn Phước Thọ HTTT-K53 SHSV:2008256

Trang 2

 Các phương pháp tách từ tiếng Việt.

 Giải thuật di truyền.

 Phương pháp tách từ dựa trên thống kê Internet theo hướng tiếp cận của giải thuật di truyền (IGATEC)

 Tìm hiểu opensource Vntokenizer để tách từ trong văn bản tiếng Việt.

Tổng quan

Trang 3

Vấn đề tách từ tiếng Việt.

Các hướng tiếp cận của kĩ thuật tách từ tiếng Việt

Một số phương pháp tách từ tiếng Việt hiện nay

Kết luận

Các phương pháp tách từ

tiếng Việt.

Trang 4

Bài toán tách từ tiếng Việt là một bài toán khó.

Vì những đặc tính chung của tiếng Việt- một ngôn ngữ đơn

lâp.

• Từ ở dạng nguyên thể , hình thức và ý nghĩa của từ độc lập với cú pháp.

• Từ được cấu trúc từ tiếng.

• Từ bao gồm từ đơn và từ phức (bao gồm từ láy và từ ghép).

Vấn đề tách từ tiếng

Việt

Trang 5

Điểm khác nhau giữa tiếng Anh và tiếng Việt

Vấn đề tách từ tiếng Việt

Tiếng Việt

 

Tiếng Anh

- Là ngôn ngữ đơn lập (isolate) hay còn gọi

là loại hình phi hình thái, không biến hình,

đơn âm tiết.

- Từ không biến đổi hình thái, ý nghĩa ngữ

- Tồn tại loại từ đặc biệt “từ chỉ loại” hay

còn gọi là phó danh từ chỉ loại kèm theo với

Trang 6

Các hướng tiếp cận của kĩ

thuật tách từ tiếng Việt

Trang 7

So khớp từ dài nhất (Longest Matching)

Học dựa trên sự cải biến (Transformation-based Learning -TBL)

Chuyển đổi trạng thái trọng số hữu hạn (Weighted- Finite State Transducer- WFST)

Phương pháp tách từ dựa trên thống kê từ trên Internet và giải thuật di truyền.

Một số phương pháp

tách từ tiếng Việt

Trang 8

So khớp từ dài nhất (Longest Matching)

Wmax= từ đầu danh sách V; // từ dài nhất

Foreach (v thuộc từ gồm các tiếng bắt đầu trong V)

If(length(v)> length(Wmax) and v thuộc T) then Wmax= v;

Loại đi các tiếng trong Wmax ở đầu danh sách V;

End

Trang 9

Ưu điểm:

- Tách từ nhanh đơn giản chỉ cần dựa vào từ điển.

- Độ chính xác tương đối cao.

Hạn chế:

- Độ chính xác phụ thuộc vào hoàn toàn vào tính đầy đủ và chính xác của từ điển.

- Phương pháp này sẽ không đạt được kết quả nếu chuối từ trước có liên hệ với các từ sau

Ví dụ : một ông quan tài giỏi => một ||ông|| quan tài|| giỏi.

1 Tôi là sinh viên trường đại học Bách Khoa Hà Nội

2 Là sinh viên trường đại học Bách Khoa Hà Nội

3 Sinh viên trường đại học Bách Khoa Hà Nội

Trang 10

- Huấn luyện cho máy “học” trên dữ liệu hàng vạn câu tiếng Việt đã được đánh dấu ranh giới từ đúng.

- Sau khi học xong, máy sẽ xác định được các tham số (các xác suất) cần thiết cho mô hình nhận diện từ

Học dựa trên sự cải biến (Transformation-based Learning -TBL)

Trang 11

Ưu điểm:

- Có khả năng tự rút ra quy luật của ngôn ngữ.

- Có những ưu điểm của cách tiếp cận dựa trên luật nhưng nó khác phục được khuyết điểm của việc xây dựng các luật một cách thủ công bởi các chuyên gia.

- Các luật được thử nghiệm tại chỗ để đánh giá độ chính xác và hiệu của luật (dựa trên ngữ liệu huấn luyện).

- Có khả năng khử một số nhập nhằng của các mô hình ngôn ngữ theo kiểu

thống kê.

Học dựa trên sự cải biến (Transformation-based Learning -TBL)

Trang 12

Hạn chế:

- Phương pháp này “dùng ngữ liệu có gán nhãn ngôn ngữ để học tự động các quy luật đó” Mà việc xây dựng một tập ngữ liệu đạt được đầy đủ các tiêu chí của tập ngữ liệu trong tiếng Việt là điểu rất khó, tốn kém nhiều về mặt thời gian và công sức.

- Hệ phải trải qua một thời gian huấn luyện khá lâu để có thể rút ra các luật tương đối đầy đủ.

- Cài đặt phức tạp.

Học dựa trên sự cải biến (Transformation-based Learning -TBL)

Trang 13

Ý tưởng cơ bản là áp dụng WFST kết hợp với trọng số là xác suất xuất hiện của mỗi từ trong ngữ liệu.

Dùng WFST để duyệt qua câu cần xét Cách duyệt có trọng số lớn nhất sẽ là cách tách từ được chọn

Chuyển đổi trạng thái trọng số hữu hạn

(Weighted- Finite State Transducer- WFST)

Trang 14

Chuyển đổi trạng thái trọng số hữu hạn (Weighted- Finite State Transducer- WFST)

Ưu điểm

- Độ chính xác trên 97% [Đinh Điền et al, 2001]

- Mô hình cho kết quả phân đoạn từ với độ tin cậy (xác suất) kèm theo

- Nhờ có tầng mạng neural nên mô hình có thể khử nhập nhằng các trường hợp tần WFST cho ra nhiều ứng viên có kết quả ngang nhau

- Phương pháp này cho kết quả với độ chính xác khá cao vì mục đích của tác giả muốn nhắm đến việc tách từ thật chính xác để là nền tảng cho việc dịch máy

Hạn chế

- Cũng tương tự như phương pháp TBL, việc xây dụng tập ngữ liệu là rất công phu,

nhưng thật sự cần rất cần thiết để phục vụ cho mục đích dịch máy sau này

Trang 15

Ý tưởng của phương pháp là kết hợp giữa thuật toán di truyền với dữ

liệu thống kê được lấy từ Internet

Phương pháp tách từ dựa trên thống kê từ

trên Internet và giải thuật di truyền

Trang 16

Hệ thống tách từ theo phương pháp IGATEC được chia làm 2 phần:

Online Extractor : Thành phần này có tác dụng lấy thông tin về

tần số xuất hiện của các từ trong văn bản

GA Engine for Text Segmentation : mỗi cá thể trong quan thể

được biểu diễn bởi chuỗi các bit 0,1

Các cá thể trong quần thể được khởi tạo ngẫu nhiên Sau đó

thực hiện các bước đột biến và lai ghép nhằm mục đích làm tăng

giá trị fitness của các cá thể để đạt được cách tách từ tốt nhất có

thể

Phương pháp tách từ dựa trên thống kê từ trên Internet

và giải thuật di truyền

Trang 17

- Hướng tiếp cận dựa trên ký tự có ưu điểm là dễ thực hiện , thời gian thực hiện tương đối nhanh , tuy nhiên lại cho kết qủa không chính xác bằng hướng tiếp cận dựa trên từ

- Nhìn chung với hướng tiếp cận này nếu chúng ta có thể cải tiến

để nâng cao độ chính xác trong tách từ

Kết Luận

Trang 19

• Giải thuật di truyền là một phân ngành của giải thuật tiến hóa vận dụng các nguyên lý của tiến hóa như di truyền, đột biến, chọn lọc

tự nhiên, và trao đổi chéo

• Giải thuật di truyền thường được ứng dụng nhằm sử dụng ngôn ngữ máy tính để mô phỏng quá trình tiến hoá của một tập hợp những đại diện trừu tượng (gọi là những nhiễm sắc thể) của các giải pháp có thể (gọi là những cá thể) cho bài toán tối ưu hóa vấn đề

Giải thuật di

truyền

Trang 20

Tính độ thích nghi cho các cá thể thuộc P(t);

Khi (điều kiện dừng chưa thỏa) lặp

Trang 21

Thuật toán di truyền gồm có bốn quy luật cơ bản là lai ghép, đột biến, sinh sản và chọn lọc tự nhiên:

Toán tử di truyền dựa trên 4 quy luật trên

Trang 22

 Nghiên cứu thống kê dựa trên Internet.

 Phương pháp tách từ dựa trên thống kê Internet theo hướng

tiếp cận của giải thuật di truyền (IGATEC)

 Kết luận

Internet and Genetics Algorithm-based Text Categorization for Documents

in Vietnamese - IGATEC

Trang 23

• Internet là kho dữ liệu vô tận.

• Theo Rudi& Paul(2005) tỉ lệ xuất hiện của từ trên Internet là khá ổn đinh, điều này cho phép ta thực hiện các tính toán chính xác và ổn định vì ít phụ thuộc vào số lượng trang web trên

Internet tăng lên theo thời gian

Nghiên cứu thống kê

trên internet

Trang 24

Công cụ trích xuất thông tin từ Google

Công cụ tách từ dùng thuật toán di truyền (Genetic Alogorith)

IGATEC

Trang 25

Nhiệm vụ của công cụ trích xuất thông tin từ Google sẽ lấy

thông tin về:

 Tần số xuất hiện của các văn bản chứa từ (document

frequency) trên các trang web để thực hiện tính toán theo công thức MI, dự đoán khả năng tồn tại của một từ

 Tần số các văn bản chứ từ với từ khóa đại diện cho chủ để

dùng để tính mức độ liên quan của từ với các loại chủ đề cần phân loại

Công cụ trích xuất thông tin từ

Google

Trang 26

Công cụ trích xuất thông tin từ

Google

Các công thức tính xác suất từ xuất hiện trên Internet

 Gọi count(w) là số lượng trang web chứ từ w;

count(w 1 &w 2 ) là số trang web chứa đồng thời w 1 &w 2

 𝑝(𝑤) = 𝑐𝑜𝑢𝑛𝑡 (𝑤)𝑀𝑎𝑥

 𝑝(𝑤1 &𝑤2) = 𝑐𝑜𝑢𝑛𝑡 (𝑤1 &𝑤2) 𝑀𝑎𝑥

Trong đó Max=4*109 ;

Trang 27

Độ tương hỗ MI cho biết thông tin phụ thuộc lẫn nhau của các

từ ghép được cấu tạo bởi n tiếng (Cw=w1w2…wn)

- Đối với mỗi từ một tiếng ta quy ước MI=p(w)

- Đối với từ 2 tiếng trở lên chúng ta có thể sử dụng:

Công cụ trích xuất thông tin từ

Google

Trang 28

 Khảo sát độ dài của “từ” trên từ điển.

 Khởi tạo quần thể.

 Quá trình tiến hóa.

Công cụ tách từ dùng thuật toán

di truyền (Genetic Alogorithm)

Trang 29

Kết quả khảo sát độ dài của từ trên từ điển.

Khảo sát độ dài của “từ”

Trang 30

Biểu diễn cá thể:

• Giả sử văn bản đầu vào t bao gồm n tiếng như sau : T=s1s2…

sn Mục đích của qúa trình thực hiện thuật toán GA là tìm cách

tách ra các từ có độ phù hợp cao nhất : t=w1w2…wm với wk

=si…sj (1 <= k<= m , 1<= i,j<= n).

• Sau đó mỗi cá thể trong quan thể được biểu diễn bởi chuỗi các bit

0,1 , trong đó , mỗi bit đại diện cho một tiếng trong văn bản , mỗi

nhóm bit cùng loại đại diện cho cho một segment.

Khởi tạo quần thể

Tôi Là Sinh Viên Trường Đại Học Bách Khoa Hà Nội

w1 w2 w3 w4 w5 w6 w7

Trang 31

Khởi tạo các tham số:

Trong bước này để cho GA chạy , chúng ta phải khởi tạo giá trị các tham số , bao gồm : số thế hệ tiến hóa , kích thước quần thể , tỷ lệ lai ghép, … Ta có giá trị cho các tham số như sau:

Khởi tạo quần

10%

Tỷ lệ từ 2 tiếng (bi – gram) 70%

Tỷ lệ từ 3 tiếng (tri – gram) 10%

Tỷ lệ từ 4 tiếng (quad – gram)

10%

Trang 32

Khởi tạo cá thể

 Khởi tạo ngẫu nhiên:

 Khởi tạo bằng phương pháp Maximum Matching : Forward / Backward

Khởi tạo quần thể

Trang 34

Quá trình đột biến:

Quá trình tiến hóa

Trang 35

Quá trình sinh sản:

Quá trình tiến

hóa

Trang 36

i fit(idi)fit(pop)

m 1

) wm

w2 w1 fit(

fit(id)

Trang 37

Độ hội tụ:

Quá trình thực hiện thuật toán GA cố gắng tăng độ thích nghi (fitness) của mỗi cá thể, điều này cũng có nghĩa là tăng chất lượng của từ được từ Và do đó ở mỗi thế hệ tiến hóa , chỉ

số thích nghi của quần thể sẽ tăng lên dần đến một ngưỡng hội tụ T Khi đó sau một quá trình tiến hóa độ chêng lệch giữa chỉ số thích nghi của hai cá thể trong quần thể sẽ giảm dần và tiến dần về 0 hoặc đạt đến ngưỡng hội tụ T mà chúng

ta đã chọn

Quá trình tiến

hóa

Trang 39

Giới thiệu chương trình

Demo

Opensource Vntokenizer

Trang 40

Giới thiệu chương trình:

VnTokenizer là chương trình tách từ tiếng việt tự động Việc nghiên cứu phát triển và cài đặt chương trình được thực hiện bởi một nhóm giáo viên trẻ thuộc khoa toán cơ tin học, Trường đại học khoa học từ nhiên, đại học Quốc gia Hà Nội thực hiện.

Opensource

Vntokenizer

Trang 41

Cú pháp câu lệnh

Windows: vnTokenizer.bat –i <file input> -o <file output>

Linux: : vnTokenizer.sh –i <file input> -o <file output>

Ngoài ra còn có các tùy biến kèm theo

-xo: dùng định dạng XML để biểu diễn kết quả

-sd: không sử dụng dấu gạch dưới (no underscore) khi ghi kết quả -nu: sử dụng mô-đun tách câu trước khi thực hiện tách từ.

Opensource

Vntokenizer

Trang 42

Demo

Trang 43

Câu hỏi?

Ngày đăng: 23/10/2014, 23:30

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w