Hình 3: Mẫu thông tin phi cấu trúc Mục tiêu của luận văn là xây dựng một hệ thống bán tự động, nhằm lấy thông tin từ các trang bản tin, và sau đó đưa vào hệ thống xử lý dữ liệu đầu vào,
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
VŨ THỊ LÝ
NGHIÊN CỨU PHƯƠNG PHÁP TRÍCH CHỌN
THÔNG TIN THỜI TIẾT
TỪ VĂN BẢN TIẾNG VIỆT
LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN
Hà nội, 2015
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
VŨ THỊ LÝ
NGHIÊN CỨU PHƯƠNG PHÁP TRÍCH CHỌN
THÔNG TIN THỜI TIẾT
TỪ VĂN BẢN TIẾNG VIỆT
Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin
Mã số: 60480104
LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Nguyễn Trí Thành
Hà nội, 2015
Trang 3Lời cam đoan
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi, được thực hiện dưới sự hướng dẫn khoa học của Phó Giáo sư, Tiến sĩ Nguyễn Trí Thành
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được công bố trong bất kỳ công trình nào khác
Tôi xin chịu trách nhiệm về nghiên cứu của mình
Học viên
Vũ Thị Lý
Trang 4MỤC LỤC
Lời cam đoan i
Danh sách các bảng iv
Danh sách hình vẽ v
Danh sách các từ viết tắt, kí hiệu, thuật ngữ vi
Chương 1: GIỚI THIỆU ĐỀ TÀI 1
1.1 Giới thiệu đề tài 1
1.2 Ý nghĩa khoa học 3
1.3 Ý nghĩa thực tiễn 4
1.4 Ứng dụng của đề tài 4
Chương 2: BÀI TOÁN TRÍCH CHỌN THÔNG TIN THỜI TIẾT TRONG VĂN BẢN TIẾNG VIỆT 5
2.1 Mô tả bài toán và ý tưởng giải quyết 5
2.2 Xây dựng mô hình của hệ thống 8
2.2.1 Thu thập dữ liệu 8
2.3.2 Tiền xử lý và gán nhãn dữ liệu 10
2.3.3 Lựa chọn và trích chọn đặc trưng 14
2.3.4 Trích chọn đặc trưng và xây dựng mô hình 15
Chương 3: MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN GIẢI QUYẾT BÀI TOÁN TRÍCH CHỌN THÔNG TIN TRONG VĂN BẢN 17
3.1 Một số nghiên cứu về trích chọn thông tintừ các trang tin 17
3.2 Phương pháp trích chọn thông tin dựa biểu thức chính quy 21
3.3 Trích chọn thông tin dựa vào mô hình tuần tự 23
3.3.1 Mô hình Markov ẩn 23
3.3.2 Mô hình Maximum Entropy Markov 25
3.3.3 Trường ngẫu nhiên có điều kiện 27
3.4 Nhận xét 47
3.5 Tóm tắt chương 2 47
Chương 4: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 49
4.1 Kết quả thực nghiệm 49
4.1.1 Thu thập dữ liệu 49
4.1.2 Tiền xử lý dữ liệu 51
3.1.3 Lựa chọn và trích chọn đặc trưng 61
Trang 54.1.4 Mô hình và kết quả với tập dữ liệu kiểm thử 63
4.2 Đánh giá 65
KẾT LUẬN 70
TÀI LIỆU THAM KHẢO 72
Tiếng Việt 72
Tiếng Anh 72
Trang 6Danh sách các bảng
Bảng 1: Mẫu dữ liệu thông tin trên website 5
Bảng 2: Tập các nhãn từ loại được sử dụng 7
Bảng 3: Bảng các nhãn đối tượng được sử dụng trong hệ thống 7
Bảng 4: Các mẫu biểu thức chính quy được sử dụng trong hệ thống 51
Bảng 5: Danh sách các tập nhãn đối tượng 61
Bảng 6: So sánh kết quả của mô hình và mong muốn 65
Bảng 7: Kết quả của văn bản có độ chính xác thấp 68
Trang 7Danh sách hình vẽ
Hình 1: Mẫu thơng tin cĩ cấu trúc 2
Hình 2: Mẫu thơng tin bán cấu trúc 2
Hình 3: Mẫu thơng tin phi cấu trúc 3
Hình 4: Ví dụ thơng tin thời tiết trên trang tin tức 4
Hình 5: Mơ hình trích chọn thơng tin thời tiết 8
Hình 6: Hỗ trợ gán nhãn từ loại 12
Hình 7: Hỗ trợ gán nhãn đối tượng 14
Hình 8: Ví dụ kết quả gán nhãn đối tượng 14
Hình 9: Sự phân hĩa cấu trúc của các loại tài liệu 20
Hình 10: So sánh về hiệu suất và kết quả của sử dụng luật (biểu thức chính quy) và CRF với một số loại thực thể 22
Hình 11: Ví dụ một số biểu thức chính quy sử dụng để trích chọn một số loại thực thể 22
Hình 12: Các tham số xác suất của một mơ hình Markov ẩn 24
Hình 13: Tổng quan về các mơ hình xác suất: Nạve Bayes (NB), Markov ẩn (HMM), cực đại entropy (ME), trường ngẫu nhiên cĩ điều kiện (CRF) Các khía cạnh được minh họa là xác suất chung hay điều kiện, dự đốn lớp đơn hay dự đốn trên dữ liệu chuỗi 27
Hình 14: Mơ hình đồ thị cĩ hướng 30
Hình 15: Bộ phân loại Nạve Bayes 30
Hình 16: Đồ thị độc lập và đồ thị thành phần cho mơ hình Markov ẩn 31
Hình 17: Bộ phân loại cực đại Entropy 32
Hình 18: Trường ngẫu nhiên cĩ điều kiện chuỗi tuyến tính 33
Hình 19: Một dạng kết hợp của CRF chuỗi tuyến tính 35
Hình 20: Ví dụ một máy trạng thái hữu hạn ngẫu nhiên 37
Hình 21: Ví dụ của các cấu trúc của CRF 44
Hình 22: Ví dụ của một CRF cách quãng cho chuỗi x=(2,3,4,5,6) theo cơng thức… 46
Hình 23: Nguồn thơng tin [4] 49
Hình 24: Lấy thơng tin từ internet 50
Hình 25: Tiền xử lý dữ liệu (1) 54
Hình 26: Tiền xử lý dữ liệu (2) 55
Trang 8Danh sách các từ viết tắt, kí hiệu, thuật ngữ
IR Information Retrieve: Truy vấn thông tin
IE Information Extract: Trích chọn thông tin
WI Wrapper Induction:
CRF Condition Random Fields: Trường ngẫu nhiên có điều
kiện NER Named Entity Recognition: Nhận dạng thực thể tên
HMM Hidden Markov Model: Mô hình Markov ẩn
MEMM Maximum Entropy Markov Model: Mô hình Markov
cực đại Entropy CMM Conditional Markov Model: Mô hình Markov có điều
kiện SFSA Schochatics Finite State Automaton: Máy trạng thái hữu
hạn ngẫu nhiên
Trang 9Chương 1: GIỚI THIỆU ĐỀ TÀI
1.1 Giới thiệu đề tài
Thông tin dự báo thời tiết là thông tin quan trọng cần được cập nhật hàng ngày cho mọi người.Nó ảnh hưởng rất lớn tới cuộc sống và sinh hoạt của người dân, cơ quan và các tổ chức.Việc dự báo thông tin gần đúng, kịp thời có vai trò vô cùng cần thiết quan trọng Đối với cuộc sống hàng ngày, thông tin thời tiết giúp người dân có các chuẩn bị cần thiết trong đi lại Đối với các ngành phụ thuộc vào thời tiết như đánh bắt thủy hải sản, nông nghiệp thì thông tin thời tiết giúp họ có chuẩn bị phù hợp trong quá trình sản xuất
Do mức độ quan trọng của thông tin thời tiết, việc nghiên cứu phương pháp để trích chọn thông tin thời tiết, từ các văn bản, trang tin tức hàng ngày giúp ích cho rất nhiều người Phạm vi của luận văn là nghiên cứu phương pháp trích chọn thông tin thời tiết
từ các văn bản, trang tin tức tiếng Việt Các thông tin thời tiết hiện nay có sẵn ở rất nhiều trang tin tức tiếng Việt, và được trình bày với nhiều dạng khác nhau [4] Thông tin thời tiết có thể ở dạng có cấu trúc (bảng thông tin về lượng mưa, hoặc nhiệt độ ở các vùng miền trong cùng một thời điểm – Hình 1: Mẫu thông tin có cấu trúc), hoặc phi cấu trúc (như dạng bản tin tóm tắt, hoặc chi tiết thông tin thời tiết của một vùng miền tại một thời điểm – Hình 3: Mẫu thông tin phi cấu trúc), hoặc có thể ở dạng bán cấu trúc (danh sách các thông tin thời tiết chung chung, gồm cả nhiệt độ, độ ẩm, tình trạng nắng mưa của một số vùng miền – Hình 2: Mẫu thông tin bán cấu trúc) Ngoài
ra, thông tin thời tiết còn có thể được cung cấp không đầy đủ (một số thông tin không có), hoặc không đồng bộ (các đơn vị đo có thể khác nhau) Do đó, nhiệm vụ trích chọn thông tin khá phức tạp khi sự hoán đổi của các thuộc tính và lỗi đánh máy xảy ra trong quá trình đưa tin lên các trang tin
Trang 10Hình 1: Mẫu thông tin có cấu trúc
Hình 2: Mẫu thông tin bán cấu trúc
Trang 11Hình 3: Mẫu thông tin phi cấu trúc Mục tiêu của luận văn là xây dựng một hệ thống bán tự động, nhằm lấy thông tin từ các trang bản tin, và sau đó đưa vào hệ thống xử lý dữ liệu đầu vào, và xây dựng mô hình để trích chọn các thông tin thời tiết Từ mô hình đó, các bản tin có thể được đưa vào và hệ thống sẽ cho ra kết quả liệt kê các đối tượng thời tiết mà chúng ta quan tâm 1.2 Ý nghĩa khoa học
Việc trích chọn thông tin thời tiết có ý nghĩa lớn về mặt khoa học.Từ các thông tin thời tiết được chọn lọc bởi mô hình, chúng có thể được dùng để thống kê và lưu trữ lại làm
cơ sở tham khảo về sau.Việc lưu trữ thông tin thời tiết và các thông tin liên quan (thời gian xảy ra, địa điểm xảy ra các hiện tượng thời tiết), có ích cho việc đánh giá và đưa
ra con số để xem xét thực tế Ngoài ra, việc lưu trữ các thông tin thời tiết thay vì văn bản giúp chúng ta giảm thiểu kích thước bản tin cần được lưu trữ Các thông tin đó có thể được thể hiện hoặc lưu trữ theo đối tượng, và do đó việc lưu trữ là dễ dàng và có thể truy cập lại một cách nhanh chóng theo các tiêu chí khác nhau
Các thông tin sau khi được trích chọn có thể lưu trữ theo dạng đối tượng, với các thuộc tính khác nhau (đối tượng thông tin lượng mưa có thể gồm địa điểm, thời điểm, số đo lượng mưa, đơn vị đo) và được lưu trữ dạng cơ sở dữ liệu rất dễ dàng Khi được lưu trữ ở dạng phù hợp, việc truy vấn thông tin để thống kê hoặc báo cáo cũng rất nhanh chóng và tiện lợi Từ đó giúp các nhà quản lý và hoạch định có cái nhìn tổng quan và xây dựng biện pháp phòng tránh các thiên tai một cách hiệu quả
Việc rút ngắn bản tin cũng giúp cho tin nhắn được truyền đi hoặc thông báo vô cùng tiện lợi Với kích thước bản tin đầy đủ, người dùng có thể phải mất thời gian để chọn lọc các thông tin cần thiết, và khó sử dụng khi nhắn tin khi mà điện thoại di động được
Trang 12sử dụng rất phổ biến như hiện tại Các bản tin ngắn giúp các tổ chức gửi thông tin dễ dàng và nhanh chóng hơn
1.3 Ý nghĩa thực tiễn
Các thông tin thời tiết hiện nay được cung cấp miễn phí và rất đa dạng ở các trang tin tức tiếng việt.Mọi người có thể bắt gặp các thông tin thời tiết được cập nhật ở một góc nhỏ, do đó nguồn thông tin cho bài toán này là miễn phí và có sẵn
Hình 4: Ví dụ thông tin thời tiết trên trang tin tức Với kết quả của hệ thống, thông tin thời tiết có thể được cập nhật nhanh chóng hơn, tiện lợi hơn cho những người có nhu cầu Thay vì vào các trang tin và tìm sâu hơn khi chúng ta quan tâm, hệ thống có thể cung cấp cho người dùng các thông tin cần thiết một cách tập trung và cụ thể
1.4 Ứng dụng của đề tài
Từ các thông tin thời tiết được trích chọn, chúng có thể được cung cấp cho người dân
và những người quan tâm một cách kịp thời.Người dân có thể đăng ký nhận tin nhắn thời tiết mà họ quan tâm.Ví dụ, khi sinh sống ở khu vực nào đó, họ có thể chỉ quan tâm tới tình hình thời tiết về nơi mà họ sinh sống, hoặc các loại bản tin cảnh báo đặc biệt Hệ thống xây dựng trên các thông tin được trích chọn có thể thực hiện việc lọc tin theo từng loại thuộc tính để cung cấp cho người dùng một cách tự động và ngay khi có tin tức mà họ cần biết
Đối với các hệ thống dự báo thời tiết, các thông tin được trích chọn sẽ làm cơ sở để họ xây dựng thêm, ví dụ như mô hình hóa các thông tin lên bản đồ một cách trực quan, sinh động.Các thông tin thời tiết cung cấp cho hệ thống thông tin địa lý (GIS) sẽ giúp cho người dùng có cái nhìn tổng quan rất sinh động, và chi tiết
Trang 13Chương 2: BÀI TOÁN TRÍCH CHỌN THÔNG TIN THỜI TIẾT
TRONG VĂN BẢN TIẾNG VIỆT
2.1 Mô tả bài toán và ý tưởng giải quyết
Bài toán trích chọn thông tin thời tiết cũng như nhiều bài toán trích chọn thông tin khác, gồm các bước chính: thu thập dữ liệu từ các trang tin, xử lý dữ liệu để tăng hiệu suất của hệ thống trích chọn thông tin, xây dựng mô hình để trích chọn thông tin một cách bán tự động, và cuối cùng là kiểm nghiệm và đánh giá mô hình
Phần trích chọn đặc trưng và xây dựng mô hình trong luận văn này sẽ được thực hiện theo mô hình CRF Chương 3 sẽ đi giới thiệu các cách tiếp cận trong bài toán trích chọn thông tin và lý do tại sao hệ thống tiến hành thực nghiệm trên mô hình này, do những ưu điểm về mặt cơ sở lý thuyết so với các mô hình còn lại Mặc dù với thông tin
dữ liệu cụ thể trong bài toán này có thể đạt được bằng một trong các cách còn lại, nhưng về mặt tổng quan thì sẽ cần phải kiểm nghiệm một cách rộng rãi hơn trước khi quyết định áp dụng và ứng dụng kết quả trong ứng dụng thực tế
Bước thu thập dữ liệu từ các trang tin được thực hiện bởi các công cụ đã rất tiện lợi và chia sẻ rộng rãi ngày nay [4, 23] Việc thu thập thông tin được tiến hành với sự hỗ trợ của nguồn mở và cần người dùng can thiệp để loại bỏ các thông tin hoặc các trang tin không liên quan, không cần thiết
Sau đó, nguồn thông tin phải được xử lý làm sạch, với đầy đủ các bước của tiền xử lý
dữ liệu trong khai phá dữ liệu, gồm làm sạch dữ liệu
Bảng 1: Mẫu dữ liệu thông tin trên website
I.BẢNG 1: SỐ LIỆU MỰC NƯỚC VÀ LƯU LƯỢNG TRÊN CÁC SÔNG CHÍNH Ở
TRUNG, NAM BỘ VÀ TÂY NGUYÊN
tuần
So sánh TBNN
Dự báo
So sánh với TBNN
Trang 14Yếu tố đo: H: mực nước (cm), Q: Lưu lượng ( m3/s)
Hmax: mực nước cao nhất tuần
Hmin: mực nước thấp nhất tuần
Dữ liệu được thu thập không hoàn chỉnh (ví dụ trong bảng 1, dữ liệu cho sông Kôn bị thiếu), nhiễu (có lỗi, hoặc các giá trị ngoại lai mà không như mong đợi), và không thống nhất (ví dụ: giá trị cột so sánh có 2 loại đơn vị khác nhau, và chỉ số cho cùng loại đơn vị đó cũng khác nhau) Dữ liệu không hoàn chỉnh, nhiễu, và không thống nhất
là các thuộc tính phổ biến của các cơ sở dữ liệu và kho dữ liệu lớn, và thực tế Dữ liệu không hoàn chỉnh có thể xảy ra vì một số lý do Thuộc tính mà chúng ta quan tâm có thể không phải lúc nào cũng sẵn có, như thông tin về sông Kôn.Dữ liệu liên quan có thể không được ghi lại vì hiểu lầm, hoặc bởi vì lỗi của thiết bị
Các bộ dữ liệu trùng lặp cũng cần phải được làm sạch.Các thủ tục làm sạch dữ liệu thực hiện việc làm sạch bằng cách điền các giá trị thiếu, làm trơn dữ liệu nhiễu, nhận dạng và loại bỏ các giá trị ngoại lai, và giải quyết sự không thống nhất.Dữ liệu không sạch có thể gây nhầm lẫn cho quá trình khai phá.Mặc dù hầu hết các thủ tục khai phá
dữ liệu có một vài bước để giải quyết với dữ liệu không hoàn chỉnh hoặc nhiễu, nhưng chúng không đủ mạnh.Vì vậy, một bước tiền xử lý dữ liệu hữu ích là để lọc dữ liệu qua các thủ tục làm sạch dữ liệu
Các giá trị bị thiếu: Nếu biết trước được có nhiều bộ mà thiếu các giá trị cho một vài thuộc tính, thì các giá trị bị thiếu có thể được điền lại bởi nhiều phương pháp khác nhau như được mô tả như sau
1) Loại bỏ thông tin: Thường sử dụng phương pháp này khi nhãn cho lớp đó bị thiếu (giả sử nhiệm vụ khai phá bao gồm cả việc phân loại hoặc mô tả) Cách này không hiệu quả, trừ khi bộ đó có một vài thuộc tính có giá trị bị thiếu Đặc biệt khi tỉ lệ giá trị thiếu cho mỗi thuộc tính chiếm một phần đáng kể
2) Điền giá trị còn thiếu bằng tay: Nói chung, phương pháp tiếp cận này tốn thời gian và không khả thi trong trường hợp tập dữ liệu lớn với nhiều giá trị bị thiếu 3) Sử dụng biến toàn cục để điền vào giá trị thiếu: Thay thế toàn bộ giá trị thiếu bằng một hằng số giống nhau, như nhãn “Không biết” hoặc “-∞” Nếu giá trị được thay thế là “Không biết”, chương trình khai phá có thể nghĩ sai rằng chúng tạo ra khái niệm thú vị, đáng quan tâm, vì tất cả chúng đều có 1 giá trị chung là “Không biết” Vì vậy, mặc dù phương pháp này đơn giản, nó không được khuyến nghị nên dùng
4) Sử dụng trung bình thuộc tính để điền vào giá trị còn thiếu
5) Sử dụng trung bình thuộc tính cho tất cả các mẫu thuộc về cùng một lớp như
Trang 156) Sử dụng giá trị có khả năng nhất để điền vào giá trị bị thiếu
Trong hệ thống được xây dựng bởi phạm vi luận văn này, thông tin bị thiếu như bảng trên là ít, do vậy chúng sẽ được bỏ qua
Tách từ và gán nhãn dữ liệu, được thực hiện bằng tay và có sự hỗ trợ của công cụ giúp cho người huấn luyện quyết định được dễ dàng hơn Quá trình gán nhãn và tách từ được chia thành 2 bước: tách từ và gán nhãn từ loại, và sau đó gán nhãn đối tượng Các từ loại thì sẽ được phân chia với các loại từ cơ bản như bảng sau
Symbols Các kí tự đặc biệt như: >, <, ‘,’,
‘:’
Bảng các nhãn đối tượng được quan tâm gồm có
Bảng 3: Bảng các nhãn đối tượng được sử dụng trong hệ thống
Trang 16LOCATION Đà Nẵng, Bắc Bộ, Lai Châu
Nguồn thông tin cho bài toán có thể là các trang tin về thời tiết Tuy nhiên, trong phạm
vi luận văn, nguồn thông tin chủ yếu được lấy từ trang thông tin của Trung tâm dự báo khí tượng thủy văn trung ương [4]
Website của trung tâm dự báo thời tiết được trình bày thành các phần gồm có menu chính, khung chuyển trang (thanh các mục lục ở bên trái), chính giữa là các thông tin chi tiết về các bản tin, và các liên kết ở cuối trang Thông tin trong trang tin được trình bày chủ yếu ở dạng văn bản tiếng việt, minh họa bằng hình vẽ.Một số thông tin được trình bày ở dạng bảng hoặc danh sách
Thu thập dữ liệu
Tiền xử lý
Lựa chọn thuộc tính đặc trưng
Trích chọn đặc trưng và Xây dựng mô hình
Kết quả và đánh giá Website/Internet
Hình 5: Mô hình trích chọn thông tin thời tiết
Trang 17Trong quá trình thu thập dữ liệu, các thông tin về hình ảnh và thẻ html sẽ được loại bỏ Thông tin lấy về sẽ được lưu trữ ở file mở rộng là html nhưng nội dung sẽ là các câu tiếng Việt hoặc tiếng Anh Ngoài ra, các định dạng về xuống dòng, các phần khác nhau, đường
kẻ, độ đậm nhạt hoặc các mục lục được in đậm cũng sẽ không còn thông tin
Ví dụ một phần của trang thông tin được lấy về như sau:
Có thể thấy thông tin ở các phần đã bị trộn lẫn với nhau.Phần đường liên kết tới các trang, hình ảnh sẽ không được lưu lại
Thông tin giữa các phần không được phân biệt rõ ràng nên việc tách các thông tin không liên quan cần có xử lý cẩn thận và tùy từng trường hợp
/Web/vi-VN/74/18/68/30/3/0/qa/Default.aspx TRUNG TÂM DỰ BÁO KHÍ TƯỢNG THỦY VĂN TRUNG ƯƠNG Thứ Sáu, 30/01/2015, 21:54 (GMT+7) Thư nội bộ | Văn bản pháp quy | Liên kết website | Diễn đàn | ENGLISH Trang chủ Giới Thiệu Sơ đồ tổ chức Chức năng nhiệm vụ Tin tức - Sự kiện Khí tượng Thời tiết đất liền 24H Thời tiết biển 24H Biểu tượng Thời tiết Dư báo 10 ngày Dự báo tháng Dự báo mùa Thời tiết nguy hiểm Bão - Áp thấp nhiệt đới Không khí lạnh Nắng nóng Khu vực Hà Nội Khu vực Trung Trung Bộ Thời tiết nguy hiểm trên biển Thuỷ Văn Dự báo hạn ngắn Hệ thống sông Bắc Bộ Hệ thống sông Trung và Nam Bộ Dự báo hạn vừa Hệ thống sông Bắc Bộ Hệ thống sông Trung và Nam Bộ
Dự báo tháng Hệ thống sông Bắc Bộ Hệ thống sông Trung và Nam Bộ Dự báo mùa
Hệ thống sông Bắc Bộ Hệ thống sông Trung và Nam Bộ Dự báo mô hình Hệ thống sông Bắc Bộ Hệ thống sông Trung và Nam Bộ Thủy văn biển Dự báo sóng Nước dâng do bão Thủy triều Dự báo dòng chảy Bản tin cảnh báo Thủy văn đặc biệt Tin
Lũ Hệ thống sông Bắc Bộ Hệ thống sông Trung và Nam Bộ Thông báo Cạn Hệ thống sông Bắc Bộ Hệ thống sông Trung và Nam Bộ T.B Xả nước chống hạn Hệ thống sông Bắc Bộ Hệ thống sông Trung và Nam Bộ Phổ biến kiến thức KTTV Bão & ATNĐ Mưa lớn Mưa đá Dông Tố, lốc, vòi rồng Sương mù Sương muối Gió khô nóng Gió mùa, không khí lạnh Lũ lớn Lũ quét, sạt lở đất Hạn hán Các kỷ lục về KTTV Thế giới Khí tượng Thủy văn Việt Nam Khí tượng Thủy văn Hỏi đáp về KTTV Khí tượng Thủy văn Nghiên cứu khoa học Dự án Đề tài Tổng kết tình hình KTTV Thời tiết hiện tại : Đà Nẵng 22°C Hải Phòng 17°C Nha Trang 25°C Pleiku 19°C Sơn La 22°C T.P Hồ Chí Minh 25°C Hà Nội 17°C Việt Trì 17°C Vinh 21°C Cập nhật lúc: : 19h - 30/01/2015 Ảnh Radar Ảnh Vệ tinh Sản phẩm mô hình Bản đồ thủy văn Liên kết Liên kết Bộ tài nguyên và môi trường Trung tâm khí tượng thủy văn quốc gia Trang dự báo của Cơ quan Khí tượng Nhật bản Trang dự báo của
Cơ quan Khí tượng Hồng Kông Trang dự báo của Hải Quân Mỹ Sim so dep Tin tuc Tin nhanh Doc bao sim so dep Sản phẩm mô hình dự báo Dự báo hạn ngắn Dự báo hạn vừa Dự báo tháng Dự báo mùa
Trang 182.3.2 Tiền xử lý và gán nhãn dữ liệu
2.3.2.1 Loại bỏ các thông tin không liên quan
Trong các bản tin tiếng Việt từ internet, có thể thấy có rất nhiều thông tin không liên quan chứa trong các bản tin này.Để loại bỏ những thông tin không liên quan, hệ thống
sẽ sử dụng các biểu thức chính quy để chỉ lọc các thông tin về thời tiết – đối tượng chính mà hệ thống quan tâm.Một số tệp tin không chứa các thông tin thời tiết liên quan, hoặc các trang thông tin tiếng Anh, cũng sẽ được loại bỏ.Việc kiểm tra trước khi loại bỏ được thực hiện bằng sự hỗ trợ của công cụ hệ thống, và có thể cần sự kiểm tra lại của người quản lý/người dùng của hệ thống
Việc sử dụng biểu thức chính quy sẽ làm nổi bật các thông tin thời tiết, và cùng với sự giám sát của người dùng, sẽ loại bỏ các thông tin không liên quan để lưu các thông tin còn lại vào để xử lý bước tiếp theo.Tuy nhiên, các biểu thức chính quy đôi khi không thể lọc hết các thông tin đó, do vậy người dùng cũng phải xem xét và cập nhật lại các biểu thức, luật để sử dụng cho các lần sau
Tại bước này, người huấn luyện hệ thống cũng phải xử lý các thông tin trùng lặp ở các bản tin.Đôi khi, do quá trình lấy dữ liệu không thể so sánh và lọc hết dữ liệu, nên người huấn luyện hệ thống phải kiểm tra xem dữ liệu được cập nhật ở các thời điểm giống nhau cũng cần được loại bỏ
Sau bước 1 này, chúng ta sẽ có danh sách các tập tin được đánh số duy nhất, và chứa nội dung là các bản tin về thời tiết, loại bỏ các bản tin trùng lặp (tuy nhiên, các bản tin khác nhau vẫn có thể còn trùng nhau, sẽ được tiếp tục xem xét và xử lý ở bước tiếp theo)
2.3.2.2 Tách từ và làm sạch dữ liệu
Đầu vào của bước này, là tập tin các bản tin tiếng Việt về thời tiết và xử lý ban đầu Tuy nhiên, trong quá trình gán nhãn và xem xét, tại bước này, người huấn luyện vẫn cần phải xử lý các thông tin sau
Định dạng của dữ liệu bị sai khác, lỗi của người đưa tin trong quá trình đánh máy thông tin, hoặc do nguồn cung cấp thông tin không chính xác, không hỗ trợ
Thông tin bị thiếu, ví dụ các thông tin không có sẵn tại thời điểm đó, hoặc không thể xác định được chính xác.Nếu lượng thông tin này ít và không có cơ sở dữ liệu để khôi phục thì phải chấp nhận trường hợp không có dữ liệu (để trống trong trường hợp này) Ngoài ra, nếu các thông tin bị thiếu mà có khả năng khôi phục lại được (theo kinh nghiệm của người sử dụng, hoặc do các thông tin hỗ trợ là đáng tin cậy) thì chúng có thể được điền vào giá trị mà đáng tin nhất Ví dụ, nếu thông tin nhiệt độ mà thiếu đơn
vị đo, thì người quản lý có thể dựa vào mà điển độ C hoặc độ F, hoặc giá trị trong dải cho phép
Trang 19Công việc tách từ được thực hiện bằng tay sẽ mất rất nhiều thời gian, do đó hệ thống
có sử dụng từ điển có sẵn, sau đó sẽ tìm các từ xuất hiện trong cơ sở dữ liệu, do đó sẽ tách giúp người dùng và phần quyết định sẽ do người duy trì hệ thống đánh giá và chọn lựa giá trị phù hợp nhất [3] Sau khi dữ liệu được gán nhãn xong, hệ thống có chức năng cập nhật lại các từ được tách và từ loại tương ứng.Nếu từ đã tồn tại trong cơ
sở dữ liệu rồi, thì xác suất xuất xuất hiện của từ đó trong từ điển sẽ tăng lên, ngược lại thì sẽ thêm một mục trong từ điển và khởi tạo tần suất xuất hiện là 1 Ví dụ một phần trong từ điển tách từ và từ loại tương ứng như sau
Ngoài ra, việc tách từ hoặc tách câu cũng cần phải dựa vào sự đánh giá của người quản
lý hệ thống Do quá trình thu thập dữ liệu, loại bỏ các thông tin không liên quan có thể làm mất định dạng hoặc khó phân biệt câu, đoạn liên kết với nhau, nên quá trình này cần sự xem xét cẩn thận, hoặc đôi khi phải đối chiếu lại bản gốc từ bước thu thập Do
đó, quá trình tách từ và xem xét nội dung mất thời gian và công sức của người xây dựng, huấn luyện mô hình
Công việc tách từ đôi khi cũng không thống nhất bởi chính người sử dụng hệ thống Ví
dụ, “mùa đông”, “phía đông” có thể được coi như là một từ, hoặc tách riêng thành 2 mục khác nhau là “mùa”/“phía”, “đông” Để đảm bảo và nâng cao độ chính xác của
mô hình, quá trình tách từ nên có sự hỗ trợ của công cụ hoặc cần một người hiểu biết
về ngôn ngữ tốt, và có sự thống nhất trong quá trình xây dựng mô hình
Trang 202.3.2.3 Gán nhãn dữ liệu
Gán nhãn từ loại cho các từ
Việc gán nhãn từ loại và nhãn đối tượng được thực hiện chủ yếu bằng tay, và có sự hỗ trợ một phần từ hệ thống.Với các từ trong từ điển [3], hệ thống sẽ giúp liệt kê các từ loại cùng với tần suât để người dùng đánh giá Ngoài ra, các từ chưa tồn tại sẽ được gán nhãn đơn giản bằng cách thực hiện gán nhãn nhờ context menu như minh họa:
Hình 6: Hỗ trợ gán nhãn từ loại Gán nhãn đối tượng
Việc gán nhãn đối tượng cũng được xem xét đánh giá bởi người dùng, quản lý hệ thống Với các nhãn đối tượng, hệ thống giúp đánh giá bằng cách sử dụng luật:
-Nếu các mục từ có dạng mẫu nhiệt độ, hệ thống sẽ gán nhãn S_TEMPERATURE cho mục thông tin đó
-Các mục có từ loại là NP thì sẽ được gán nhãn là S_LOCATION, tuy nhiên có một vài điểm vẫn còn cần phải xem xét và kiểm tra lại, ví dụ nếu có 2 đến 3 mục liên tiếp
có từ loại là NP, thì lúc đó chúng nên được ghép thành một đối tượng LOCATION duy nhất, khi đó thứ tự của chúng nên là
Trang 21-Từ bắt đầu của đối tượng có tiền tố là B_<tên nhãn>
-Từ kết thúc của đối tượng có tiền tố là E_<tên nhãn>
-Các từ ở vị trí giữa, sẽ có tiền tố là M_<tên nhãn>
Một đối tượng gồm nhiều thành phần được gán nhãn có thể không có thành phần nhãn M_<tên nhãn> hoặc có nhiều hơn 1 thành phần được gán nhãn M_<tên nhãn>
Với các từ không được trợ giúp, người dùng cũng có thể thực hiện đơn giản bằng cách
sử dụng menu trợ giúp như hình minh họa:
Trang 22Hình 7: Hỗ trợ gán nhãn đối tượng Sau đó, từ sẽ được cập nhật nhãn đối tượng
Hình 8: Ví dụ kết quả gán nhãn đối tượng 2.3.3 Lựa chọn và trích chọn đặc trưng
Do sử dụng chương trình mã nguồn mở CRFSharp [23], chương trình sẽ sử dụng một mẫu file để tạo ra tập các đặc trưng từ dữ liệu huấn luyện và kiểm thử Trong đó mỗi dòng trong file mẫu sẽ gồm tiền tố, định danh và xâu mô tả luật Xâu mô tả luật chính
Trang 23là hướng dẫn để CRFSharp sử dụng để tạo ra các đặc trưng cho mô hình.Mẫu đặc trưng đơn giản nhất là
{“%x[row,col]”}
Dòng là offset giữa token đang được xem xét hiện tại và token đặc trưng được xem xét
ở dòng đó Các đặc trưng kết hợp cũng được hỗ trợ, ví dụ {“%x[row1, col1]/%x[row2, col2]”}
Tập các luật trong file mẫu được sử dụng trong chương trình:
2.3.4 Trích chọn đặc trưng và xây dựng mô hình
Mô hình được xây dựng với tập dữ liệu được lựa chọn và chuẩn bị từ bước trên, và sử dụng thư viện CRFSharp để xây dựng mô hình Các lựa chọn về đặc trưng được tuân theo mẫu trong file mẫu của thư viện
Trang 24Quá trình xây dựng tập các đặc trưng từ các văn bản sẽ được thực hiện bằng cách xây dựng mảng dữ liệu, trong đó có bản thân từ trong các văn bản và từ loại tương ứng.Tập các đặc trưng có dạng
Các tham số để xây dựng mô hình sẽ được sử dụng lại, thừa kế từ thư viện này
Trang 25Chương 3: MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN GIẢI QUYẾT BÀI TOÁN TRÍCH CHỌN THÔNG TIN TRONG VĂN BẢN 3.1 Mộtsố nghiên cứu về trích chọn thông tintừ các trang tin
Với sự tăng trưởng bùng nổ và phổ biến của web thì lượng thông tin trên internet ngày nay đã vô cùng lớn [19] Tuy nhiên, do sự không đồng nhất và thiếu cấu trúc của các nguồn thông tin web, việc truy cập tới lượng thông tin khổng lồ này gặp nhiều khó khăn và giới hạn Các ứng dụng khai phá web phức tạp, như các robot so sánh giá mua sắm, yêu cầu sự bảo trì tốn kém để giải quyết các định dạng dữ liệu khác nhau.Để tự động hóa quá trình chuyển đổi các trang dang dạng dữ liệu có cấu trúc, rất nhiều công sức được bỏ ra trong lĩnh vực trích chọn thông tin Không giống như truy vấn thông tin (IR), chỉ tập trung vào làm sao nhận ra các tài liệu liên quan từ một tập tài liệu có trước, trích chọn thông tin (IE) tạo ra các dữ liệu có cấu trúc để tiếp tục xử lý, một nhiệm vụ vô cùng quan trọng cho rất nhiều ứng dụng khai phá dữ liệu và các công cụ tìm kiếm
Một nhiệm vụ trích chọn thông tin được định nghĩa bởi các thông tin đầu vào và mục đích trích chọn Thông tin đầu vào có thể là văn bản phi cấu trúc được viết bằng ngôn ngữ tự nhiên, hoặc các tài liệu bán cấu trúc phổ biến trên web như bảng hoặc các danh sách được đánh mục lục hoặc số Kết quả trích chọn có thể là một quan hệ/tổ hợp k-tuple (trong đó k là số lượng thuộc tính trong một bản ghi), hoặc có thể là đối tượng phức tạp với dữ liệu được phân cấp hoặc tổ chức.Với một số nhiệm vụ trích chọn, một thuộc tính có thể không có hoặc nhiều thể hiện trong một bản ghi.Khó khăn của một nhiệm vụ trích chọn thông tin có thể vô cùng phức tạp khi rất nhiều sự hoán đổi của các thuộc tính hoặc lỗi đánh máy xảy ra trong tài liệu đầu vào
Chương trình thực hiện việc trích chọn thông tin thường được gọi là extractor-bộ trích chọn hoặc wrapper-bộ đóng gói.Khái niệm wrapper được định nghĩa là một thành phần trong một hệ thống tích hợp thông tin nhằm mục đích cung cấp một giao diện truy vấn thống nhất truy cập tới nhiều nguồn thông tin khác nhau Trong một hệ thống tích hợp thông tin, một bộ đóng gói là một chương trình đóng gói nguồn thông tin sao cho hệ thống tích hợp thông tin có thể truy cập nguồn thông tin mà không cần thay đổi
cơ chế trả lời truy vấn cốt lõi Trong trường hợp mà nguồn thông tin là một web server, một bộ đóng gói phải truy vấn tới web server để thu thập các trang kết quả thông qua giao thức HTTP, thực hiện trích chọn thông tin để trích ra nội dung trong tài liệu html, và cuối cùng là tích hợp vào nguồn dữ liệu Trong đó, thành phần trích chọn thông tin nhận được mối quan tâm nhiều nhất và một vài nguồn sử dụng khái niệm bộ đóng gói để nói tới chương trình trích chọn.Vì vậy hai thuật ngữ bộ trích chọn và bộ đóng gói có thể thay thế cho nhau
Một bộ trích chọn thường thực hiện thủ tục khớp mẫu (một dạng của máy hữu hạn trạng thái) dựa trên một tập các luật trích chọn Phạm vi, độ phức tạp của thủ tục này
Trang 26phụ thuộc vào loại văn bản, lĩnh vực, và hoàn cảnh Để tối đa hóa khả năng sử dụng lại
và tối thiểu hóa chi phí bảo trì, việc thiết kế một hệ thống Wrapper Induction có thể huấn luyện được trở thành một đề tài quan trọng trong lĩnh vực nghiên cứu về hiểu thông điệp, học máy, khai phá dữ liệu, vân vân
Một hệ thống trích chọn thông tin truyền thống thường tận dụng thuận lợi của các kĩ thuật xử lý ngôn ngữ tự nhiên như từ vựng và ngữ pháp, trong khi hệ thống trích chọn thông tin web thường áp dụng kĩ thuật học máy và học mẫu để khai thác mẫu cú pháp hoặc cấu trúc bố cục của tài liệu dựa trên mẫu Trong phần tiếp theo thì chúng ta đưa
ra nghiên cứu về việc trích chọn thông tin trong các tài liệu bán cấu trúc
Có 5 nhiệm vụ chính được định nghĩa cho trích chọn thông tin văn bản bao gồm:
nhận dạng thực thể tên,
giải pháp đồng tham chiếu,
xây dựng thành phần mẫu,
xây dựng mối quan hệ mẫu và
tạo mẫu hoạt cảnh
Việc phân loại các bộ đóng gói thành 4 nhóm khác nhau gồm:
bộ đóng gói thủ công sử dụng ngôn ngữ lập trình nói chung
các ngôn ngữ lập trình hoặc công cụ được thiết kế riêng
bộ đóng gói dựa trên kinh nghiệm
các phương pháp tiếp cận WI (Wrapper Induction)
Một số tác giả khác theo phân loại bên trên và so sánh các hệ thống WI dựa trên mức
độ tự động hóa của chúng, thì sẽ chia tiếp các công cụ trích chọn thông tin thành 4 loại khác nhau, bao gồm
Trang 27 nhóm 3 xử lý các tài liệu trực tuyến, tuy nhiên các mẫu của những công cụ này dựa trên cả phân tách và ràng buộc cú pháp/ngữ nghĩa
Kushmeric phân loại nhiều công cụ trích chọn thông tin thành 2 nhóm khác nhau là hữu hạn trạng thái và các công cụ học các mối quan hệ Các luật trích chọn trong các công cụ hữu hạn trạng thái được tạo tương ứng với ngữ pháp thông thường hoặc automata, trong khi các luật trích chọn trong các công cụ học các mối quan hệ thì thường ở dạng logic giống Prolog, như SRV, Crystal, WebFoot, Rapier và Pnocchio Laender lại đề xuất phân loại các công cụ dựa trên các kĩ thuật chính sử dụng trong các công cụ đó để tạo ra một bộ đóng gói, như
Các công cụ kiểu HTML
Các công cụ dựa trên xử lý ngôn ngữ tự nhiên
Công cụ WI
Công cụ dựa theo mô hình hóa
Công cụ dựa theo bản thể học
Laender cũng so sánh các công cụ dựa trên 7 đặc trưng sau: mức độ tự động hóa, hỗ trợ cho các đối tượng phức hợp, nội dung của trang, tính sẵn sàng của giao diện, kết quả đầu ra XML, hỗ trợ cho các nguồn không phải HTML, khả năng phục hồi, tính thích nghi
Sarawagi phân loại các bộ đóng góidữ liệu web thành 3 nhóm dựa vào các nhiệm vụ phân loại,
Wrapper mức độ bản ghi, khai thác đều đặn để khảm phá ranh giới các bản ghi
và sau đó trích ra các thành phần của một danh sách các bản ghi đồng nhất từ một trang
Nhóm 2, mức độ trang, trích chọn các thành phần của nhiều loại bản ghi
Cuối cùng là bộ đóng gói mức độ một trang, thu thập một cơ sở dữ liệu từ các trang của một trang tin
Trang 28Hình 9: Sự phân hĩa cấu trúc của các loại tài liệu
Cĩ 3 tiêu chí được sử dụng khi so sánh các hệ thống trích chọn thơng tin bao gồm:
Độ khĩ của một nhiệm vụ trích chọn (chính là việc trả lời cho câu hỏi: “tại sao một hệ thống trích chọn thơng tin lại khơng thể trích chọn được dữ liệu ở websites nào đĩ với các cấu trúc dữ liệu cĩ sẵn?”)
Tiêu chí thứ hai là các kĩ thuật sử dụng trong hệ thống trích chọn thơng tin
Thứ ba là cơng sức của người dùng bỏ ra khi huấn luyện và chuyển đổi hệ thống sang lĩnh vực khác
Với quan điểm của người dùng, thì tiêu chí thứ hai khơng quan trọng bằng các tiêu chí cịn lại
Cĩ thể phân loại các phương pháp tiếp cận chính cho bài tốn trích chọn thơng tin [7], bao gồm
Sử dụng các biểu thức chính quy bởi người phát triển hệ thống, để trích chọn các thơng tin mẫu mà chúng ta quan tâm
Sử dụng bộ phân loại văn bản, theo mơ hình tổng quát (Nạve Bayes) hoặc rời rạc (Cực đại entropy)
Các mơ hình chuỗi: HMM, CMMs, MEMMs, CRFs
Trang 29Đối với bài toán trích chọn thông tin thời tiết, thì phạm vi luận văn chỉ xin trình bày giới thiệu về cách tiếp cận theo biểu thức chính quy và các mô hình tuần tự (mô hình chuỗi) Hai cách tiếp cận này thường được dùng cho bài toán gán nhãn chuỗi, hoặc nhận dạng các đối tượng thực thể tên Cách tiếp cận theo phương pháp thứ hai, thường dùng trong các bài toán phân loại, mà phạm vi luận văn không đi sâu vào phần này 3.2 Phương pháp trích chọn thông tin dựa biểu thức chính quy
Biểu thức chính quy là tập hợp các kí tự tạo thành dạng mẫu tìm kiếm, sử dụng trong khớp mẫu với các chuỗi [5].Biểu thức chính quy được sử dụng trong máy tìm kiếm, hoặc hộp thoại tìm và thay thế trong xử lý văn bản hoặc các tiện ích xử lý văn bản.Trong nhiều trường hợp, bài toán trích chọn thông tin có thể hoàn thành bằng cách
sử dụng các biểu thức chính quy [7] Một số thực thể có thể được trích chọn nhờ biểu thức chính quy như địa chỉ email, tên các phần mềm, số thẻ tín dụng, số thẻ bảo hiểm
xã hội, tên của các loại gen hoặc proteins (trong tin sinh học), vân vân…
Những thực thể được trích chọn trong các trường hợp này đều có đặc điểm chung là mẫu thể hiện (đặc trưng) có thể biểu diễn được ở dạng biểu thức chính quy Ban đầu, việc trích chọn những mẫu thông tin như vậy có thể khá dễ dàng, nhưng đối với một vài trường hợp thì cần đòi hỏi các biểu thức chính quy khá phức tạp
Ví dụ khi trích chọn thông tin về nhiệt độ, chúng ta có thể thấy mẫu để trích chọn
thông tin nhiệt độ có thể ở dạng chuỗi số và theo sau là đơn vị về nhiệt độ “(\d+)\°C”
Mẫu này có thể trích chọn được thông tin nhiệt độ trong các đoạn văn bản như sau “Đà
Nẵng 20°C Hải Phòng 17°C Nha Trang 24°C Pleiku 17°C Sơn La 16°C T.P Hồ Chí Minh 26°C Hà Nội 18°C Việt Trì 18°C Vinh 18°C Cập nhật lúc: 19h - 17/01/2015”
Tuy nhiên, trong quá trình xử lý văn bản, không phải bản tin nào cũng theo mẫu cho trước, và có thể ở dạng như sau: “Dự báo thời tiết - Đêm 1 và ngày 02/04/2015 Phía Tây Bắc Bộ Mây thay đổi, chiều tối và đêm có mưa rào và dông vài nơi, ngày nắng,
riêng khu Tây Bắc có nắng nóng Gió nhẹ Nhiệt độ thấp nhất từ : : 20 - 23 o C Nhiệt
độ cao nhất từ : : 32 - 35 độ, riêng khu Tây Bắc 35 - 37, có nơi trên 37 o C” Trong đoạn văn bản thứ hai, đơn vị nhiệt độ có thể được sử dụng là “o C”, “độ”, hoặc thậm
chí là không có đơn vị Khi đó để giải quyết bài toán trích chọn thông tin thì chúng ta cần xây dựng biểu thức chính quy đủ mạnh để có thể xử lý hết hoặc hầu hết các trường hợp
Trong tài liệu [5] có đưa ra so sánh một số kết quả khả quan của phương pháp sử dụng biểu thức chính quy so với trường ngẫu nhiên có điều kiện với một số loại thực thể, như hình vẽ
Trang 30Hình 10: So sánh về hiệu suất và kết quả của sử dụng luật (biểu thức chính quy) và
CRF với một số loại thực thể Tuy nhiên, trong khi CRF có thể học các đặc trưng thì phương pháp sử dụng biểu thức chính quy bị giới hạn ở điểm này.Điều này là dễ hiểu, bởi vì CRF được huấn luyện với các token chính là các đặc trưng.Ngoài ra, với các trường hợp thực thể không dễ để viết biểu thức chính quy Các biểu thức chính quy được học cũng rất phức tạp, và khó
có thể theo dõi
Hình 11: Ví dụ một số biểu thức chính quy sử dụng để trích chọn một số loại thực thể
Dữ liệu web cũng có thể thay đổi liên tục, và đa dạng với nhiều trang web khác nhau
Do đó để có thể sử dụng biểu thức chính quy và duy trì hệ thống dựa trên các luật này rất khó để có thể đảm bảo và duy trì độ chính xác một cách ổn định, và đáp ứng cho hầu hết các trang web, nhất là khi có định dạng dữ liệu mới phát sinh
Việc trích chọn thông tin theo biểu thức chính quy khó duy trì khi mà nó đòi hỏi người
sử dụng và duy trì hệ thống phải có hiểu biết sâu sắc về biểu thức chính quy, cần thời gian tìm hiểu và cập nhật khi có mẫu mới
Trang 313.3 Trích chọn thông tin dựa vào mô hình tuần tự
Một vài ứng dụng của mô hình đồ thị trong lĩnh vực xử lý ngôn ngữ tự nhiên có thể kể đến bao gồm: phân loại, mô hình tuần tự Bộ phân loại dự đoán chỉ một biến lớp đơn, còn mô hình tuần tự - mô hình đồ thị nằm ở khả năng mô hình hóa nhiều biến độc lập Các phương pháp tiếp cận điển hình trong mô hình tuần tự có thể kể đến gồm: mô hình Markov ẩn, mô hình Markov có điều kiện/mô hình tối ưu entropy Markov, hay trường ngẫu nhiên có điều kiện
Trong phần này, chúng ta sẽ thảo luận một ứng dụng cụ thể của xử lý ngôn ngữ tự nhiên, nhiệm vụ nhận dạng thực thể tên (NER) NER là một vấn đề nhận dạng và phân loại tên riêng trong văn bản nói riêng, như trong bài toán trích chọn thông tin thời tiết thì là việc nhận dạng các đối tượng thời tiết, bao gồm tên địa điểm, như Đà Nẵng, Hà Nội, Hải Phòng; tên hiện tượng thời tiết như mưa, không khí lạnh, bão, lốc; và các thông tin như lượng nước mưa, mực nước tại các song hồ Nhiệm vụ nhận dạng thực thể cho một câu, đầu tiên là tách các từ nào là một phần của thực thể, sau đó phân loại mỗi thực thể theo loại (địa điểm, hiện tượng thời tiết, thông tin thời tiết chi tiết, vân vân) Thách thức của vấn đề là rất nhiều thực thể là hiếm khi xuất hiện ở trong tập văn bản huấn luyện như các giá trị về nhiệt độ, lượng nước mưa, mực nước (các con số này thay đổi thường xuyên liên tục), và để nhận dạng thì hệ thống phải nhận ra dựa trên ngữ cảnh
3.3.1 Mô hình Markov ẩn
Mô hình Markov ẩn (HMM) là mô hình Markov thống kê trong đó hệ thống được mô hình hóa với giả định là một quá trình Markov với các trạng thái ẩn (không quan sát được) Các tham số của mô hình được rút ra sau đó có thể sử dụng để thực hiện các phân tích kế tiếp, ví dụ cho các ứng dụng nhận dạng mẫu hoặc thực thể [18, 20, 21, 22]
Trong một mô hình Markov điển hình, trạng thái được quan sát trực tiếp bởi người quan sát, vì vậy các xác suất chuyển trạng thái là các tham số duy nhất Mô hình Markov ẩn thêm vào các quan sát đầu ra: mỗi trạng thái có xác suất phân bổ trên các biểu hiện có thể của đầu ra Do đó, nếu nhìn vào chuỗi quan sát ở đầu ra bởi HMM thì không thể trực tiếp chỉ ra dãy các trạng thái là gì Trong bài toán đang nghiên cứu thì đầu ra chính là các bản tin mô tả hiện tượng thời tiết, còn trạng thái ẩn là các nhãn đối tượng thời tiết mà chúng ta muốn gán tương ứng
Trang 32Hình 12: Các tham số xác suất của một mô hình Markov ẩn Hình 12 [17] chỉ ra kiến trúc chung của một mô hình Markov ẩn Mỗi hình oval thể hiện cho một biến ngẫu nhiên, có thể là bất cứ giá trị nào Biến ngẫu nhiên S(t) là trạng thái ẩn ở thời điểm t (với mô hình ví dụ thì S(t) thuộc {S1, S2, S3,…, Sn-1, Sn}) Biến ngẫu nhiên X(t) là quan sát ở thời điểm t (trong đó X(t) thuộc {X1, X2,…,Xn-1, Xn}) Mũi tên trong hình vẽ là các phụ thuộc có điều kiện
Từ sơ đồ đó có thể thấy phân bố xác suất có điều kiện của các biến ẩn S(t) tại thời điểm t, với những giá trị biến ẩn của S ở tất cả các thời điểm, phụ thuộc chỉ vào giá trị của biến ẩn S(t-1); giá trị tại thời điểm t-2 và trước đó đều không có ảnh hưởng Đặc điểm đó gọi là thuộc tính Markov Tương tự, giá trị của biến quan sát X(t) chỉ phụ thuộc vào giá trị của biến ẩn S(t) (cả hai đều ở thời điểm t)
Trong một mô hình Markov điển hình, không gian trạng thái của các biến ẩn là rời rạc, trong khi các quan sát có thể là rời rạc (theo phân bố minh bạch) hoặc liên tục (theo phân bố Gaussian) Các tham số của một mô hình Markov ẩn có 2 loại, xác suất chuyển trạng thái hoặc xác suất quan sát (hay còn gọi là xác suất đầu ra) Xác suất chuyển trạng thái sẽ quyết định trạng thái ẩn tại thời điểm t nào được chọn từ xác suất
ẩn ở thời điểm (t-1)
Quay lại với bài toán trích chọn thông tin thời tiết, một cách tiếp cận là phân loại mỗi
từ một cách độc lập là một trong các loại WEATHER (hiện tượng thời tiết), LOCATION (địa điểm), TEMPERATURE (nhiệt độ), hoặc còn lại (nghĩa là không phải thực thể).Vấn đề với cách tiếp cận này là nó giả sử với câu đầu vào, thì tất cả các nhãn thực thể tên là độc lập Trên thực tế, nhãn thực thể tên của các từ lân cận là phụ thuộc nhau; ví dụ trong khi nhiệt độ là từ khóa chỉ thông tin là số tiếp theo sẽ là các số
đo về nhiệt độ, nhiệt độ cao nhất lại có thể là một đánh giá, so sánh về nhiệt độ giữa các vùng.Giả định độc lập này có thể được nới lỏng bằng cách sắp xếp các biến đầu ra trong một chuỗi tuyến tính.Đây là cách tiếp cận được thực hiện trong mô hình Markov
ẩn (HMM) Một HMM mô hình hóa một chuỗi quan sát X = {x t}Tt=1 bởi giả sử có một
chuỗi ẩn các trạng thái Y ={y t}Tt=1 từ một tập trạng thái hữu hạn S Trong ví dụ thực thể thông tin thời tiết, mỗi quan sát x t là nhận dạng của từ ở vị trí t, và mỗi trạng thái
Trang 33y tlà nhãn của thực thể tên, một trong những loại thực thể WEATHER, LOCATION, TEMPERATURE, và còn lại
Để mô hình hóa phân bố nối p(y, x) dễ dàng hơn, một HMM thực hiện hai giả định về
sự độc lập Thứ nhất, nó giả sử mỗi trạng thái chỉ phụ thuộc vào trạng thái ngay trước
đó, nghĩa là mỗi trạng thái y t là độc lập với tất cả các trạng thái y 1 , y 2 ,…, y t-2 , nghĩa là trạng thái trước y t-1 Thứ hai, một HMM giả sử mỗi biến quan sát x t chỉ phụ thuộc vào
trạng thái hiện tại y t Với những giả sử này, chúng ta có thể chỉ ra một HMM sử dụng
ba phân bố xác suất: trước tiên, phân bố p(y 1) cho trạng thái đầu tiên (trạng thái khởi
tạo); thứ hai, là phân bố chuyển trạng thái p(y t |y t-1); và cuối cùng, phân bố quan sát
y(x t |y t ) Nghĩa là, xác suất nối của một chuỗi trạng thái yvà một chuỗi quan sát x được
tách thành các thành phần như sau
Trong đó, để đơn giản hóa khái niệm, chúng ta viết một phân bố trạng thái khởi tạo
p(y 1 ) như p(y 1 |y 0)
Mô hình Markov ẩn nói riêng và các mô hình sinh nóichungthường gặp hai vấn đề khi gán nhãn dữ liệu dạng chuỗi: thực hiện giả định về sự độc lập của chuỗi dữ liệu quan sát, và sử dụng xác suất đồng thời để mô hình hóa bài toán có điều kiện Do đó một
mô hình mới được đưa ra để giải đáp cho các vấn đề của mô hình Markov truyền thống, là mô hình Markov cực đại entropy
3.3.2 Mô hình Maximum Entropy Markov
Mô hình Markov cực đại entropy hay mô hình markov điều kiện (MEMM/CMM) [10,
12, 18] là mô hình đồ thị kết hợp các đặc trưng của mô hình Markov ẩn và cực đại entropy Một MEMM là một mô hình rời rạc mở rộng một bộ phân loại cực đại entropy điển hình bằng cách giả sử các giá trị không biết có thể được học được kết nối với chuỗi Markov hơn là độc lập có điều kiện với nhau
Entropy là độ đo về tính đồng đều hay tính không chắc chắn của một phân phối xác suất Một phân phối xác suất có Entropy càng cao thì phân phối của nó càng đều.Mô hình Entropy cực đại là mô hình dựa trên xác suất có điều kiện cho phép tích hợp các thuộc tính đa dạng từ dữ liệu mẫu nhằm hỗ trợ quá trình phân lớp Tưtưởngchủđạocủanguyênlý Entropycựcđại: ta phải xác định môt phân phối mô hình sao cho phân phối đó tuân theo mọi giả thiết đã quansáttừthực nghiệm, ngoàira không chothêm bất kì giả thiết nào khác Điều này có nghĩa là phân phối mô hình phải thoả mãn các ràng buộc quan sát từ thực nghiệm và phải gần nhất với phân phối đều Giả sử chúng ta có chuỗi quan sát , … , mà chúng ta muốn gán nhãn , … , mà tối đa hóa xác suất điều kiện ( , … , | , … , ) Trong một MEMM, xác suất này
Trang 34được tính vào xác suất chuyển đổi trạng thái Markov, trong đó xác suất của việc chuyển trạng thái cho một nhãn cụ thể chỉ phụ thuộc vào quan sát tại thời điểm đó và nhãn của vị trí trước đó
( , … , | , … , ) = ( | , )
Công thức: 1 Mỗi một giá trị trong những xác suất chuyển trạng thái này đến từ cùng một phân bố chung P(s|s',o) Với mỗi giá trị nhãn có thể của một nhãn trước đó s’, xác suất của một nhãn cụ thể s, được mô hình hóa giống với bộ phân loại cực đại entropy
( | , ) = ( | ) = 1
( , )exp ( ( , )) Công thức: 2
Ở đây, ( , ) là giá trị thực hoặc hàm đặc trưng phân loại, và ( , ) là thuật ngữ chuẩn hóa để đảm bảo tổng xác suất là 1 Công thức này cho mỗi phân bố tương ứng với phân bố xác suất cực đại entropy thỏa mãn ràng buộc kì vọng kinh nghiệm cho đặc trưng là bằng với kì vọng đưa ra bởi mô hình:
[ ( , )] = [ ( , )] ớ ọ
Công thức: 3 Tham số có thể được ước lượng bằng cách sử dụng tỉ lệ lặp được tổng quát hóa.Hơn nữa, biến thể của thuật toán Baum-Welch, được sử dụng để huấn luyện HMM, cũng có thể được sử dụng để ước lượng tham số khi huấn luyện dữ liệu có nhãn
bị thiếu hoặc chưa hoàn chỉnh
Chuỗi trạng thái tối ưu , … , có thể được tìm ra bằng thuật toán tương đương với thuật toán Viterbi (sử dụng trong mô hình Markov ẩn) Ngoài ra chúng có thể được tìm thông qua xác suất forward:
Công thức: 4 Một điểm thuận lợi của MEMM so với HMM trong việc gán nhãn chuỗi là chúng cho phép tăng sự tự do trong việc chọn các đặc trưng để thể hiện các quan sát Trong gán nhãn chuỗi, thì việc sử dụng hiểu biết cho từng lĩnh vực sẽ có hữu ích hơn với các đặc trưng với mục tiêu cụ thể Ví dụ, khi cố gắng trích chọn giá trị nhiệt độ hoặc lượng
Trang 35xác định bản thân từ/số liệu đĩ thì khơng thể đốn được, tuy nhiên, nếu biết từ đĩ là số liệu, và là danh từ, được sử dụng ở dạng liệt kê, và theo sau một số từ khĩa như nhiệt
độ, hoặc lượng mưa, mực nước, thì lại trở nên dễ đốn Các đặc trưng hữu ích cho việc gán nhãn chuỗinhư kể trên, thường là khơng độc lập Các mơ hình cực đại entropy khơng giả sử sự độc lập giữa các đặc trưng, nhưng các mơ hình quan sát tổng quát sử dụng trong mơ hình Markov ẩn thì cĩ các giả định này Vì vậy MEMM cho phép người dung chỉ định nhiều các đặc trưng tương quan và chứa nhiều thơng tin
Một thuận lợi khác của MEMM so với HMM và trường ngẫu nhiên cĩ điều kiện là việc huấn luyện cĩ thể coi là hiệu quả hơn Trong mơ hình Markov ẩn và trường ngẫu nhiên cĩ điều kiện, cĩ thể chỉ cần sử dụng thuật tốn forward-backward như một vịng lặp nội tại khi huấn luyện Tuy nhiên, trong MEMM, việc ước lượng tham số để cực đại entropy phân bố cho các xác suất chuyển trạng thái cĩ thể được thực hiện cho mỗi phân bố chuyển trạng thái một cách độc lập
Một điểm được coi là bất lợi của mơ hình MEMM là chúng thường gặp vấn đề nhãn
mờ, nghĩa là các trạng thái với phân bố chuyển trạng thái cĩ entropy thấp thì sẽ loại bỏ quan sát của chúng một cách đáng kể Trường ngẫu nhiên cĩ điều kiện được thiết kế
để giải quyết vấn đề này, trong đĩ nĩ được thiết kế để nhận dạng ngữ cảnh của các mơ hình Markov dựa vào mạng nơ ron Một nguyên nhân của vấn đề nhập nhằng nhãn là việc huấn luyện luơn được thực hiện với điều kiện là biết nhãn trước đĩ là gì, do vậy
mơ hình bị nhầm lẫn nếu như nhãn trước đĩ khơng được biết trước
3.3.3 Trường ngẫu nhiên cĩ điều kiện
3.3.3.1 Các mơ hình xác suất
Các mơ hình xác suất phổ biến [17] mà hay được xem xét (đồng thời là các mơ hình tuần tự) gồm cĩ Nạve Bayes, HMM, CRF, MEMM Trong đĩ Nạve Bayes là một cách tiếp cận để phân loại các biến đơn lớp trong phụ thuộc với một vài giá trị đặc trưng
Hình 13: Tổng quan về các mơ hình xác suất: Nạve Bayes (NB), Markov ẩn (HMM), cực đại entropy (ME), trường ngẫu nhiên cĩ điều kiện (CRF) Các khía cạnh được
Trang 36minh họa là xác suất chung hay điều kiện, dự đốn lớp đơn hay dự đốn trên dữ liệu
chuỗi
Trong mơ hình Nạve Bayes, chỉ cĩ các biến đầu ra được xem xét Để dự đốn chuỗi của các biến lớp ⃗ = ( , … , )cho một chuỗi quan sát ⃗ = ( , … , ), một mơ hình tuần tự đơn giản cĩ thể được tính như một tích số thơng qua mơ hình Nạve Bayes Phụ thuộc giữa các vị trí trong chuỗi khơng được xem xét Trong mơ hình Nạve Bayes, chỉ cĩ một đặc trưng ở mỗi vị trí tuần tự, gọi là định danh của chuỗi quan sát tương ứng:
( ⃗, ⃗) = ( ) ( | )
Cơng thức: 5 Mỗi quan sát xi chỉ phụ thuộc vào biến lớp yi ở vị trí tương ứng trong chuỗi đĩ Do sự giả sử về độc lập này, xác suất chuyển trạng thái từ bước này sang bước khác sẽ khơng được xem xét trong mơ hình này Trong thực tế, giả định này thường khơng xảy ra dẫn tới hiệu suất kém của mơ hình này Vì vậy, sự phụ thuộc giữa các quan sát trong các vị trí liền nhau trong chuỗi sẽ hợp lý hơn Để mơ hình sự phụ thuộc này, xác suất chuyển trạng thái được thêm vào như cơng thức sau:
( ⃗, ⃗) = ( | ) ( | )
Cơng thức: 6 Xác suất này dẫn tới mơ hình HMM mà chúng ta biết Như vậy xác suất của chuỗi quan sát được tính theo cơng thức sau:
∈
Cơng thức: 7 Trong đĩY là tập tát cả các nhãn cĩ thể của chuỗi⃗
Phụ thuộc giữa các biến đầu ra ⃗ được mơ hình hĩa Một thiếu sĩt là giả định về sự độc lập cĩ điều kiện trong cơng thức về xác suất chuyển giữa các tham số đầu vào ⃗ do
nĩ quá phức tạp Trong phần trường ngẫu nhiên cĩ điều kiện, chúng ta sẽ chỉ rõ ra vấn
đề này
3.3.3.2 Việc thể hiện bằng đồ thị
Phân bố xác suất cơ bản của các mơ hình xác suất cĩ thể được thể hiện ở dạng đồ thị, chính vì thế mà các mơ hình xác suất đơi khi cịn được gọi là các mơ hình đồ thị xác
Trang 37Một mô hình đồ thị xác suất là một thể hiện dạng giản đồ của phân bố xác suất.Trong những đồ thị như thế, mỗi một node tương ứng với một biến ngẫu nhiên.Sự vắng mặt của một cạnh giữa hai biến thể hiện sự độc lập có điều kiện giữa các biến này Sự độc lập có điều kiện có nghĩa là giữa hai biến ngẫu nhiên a và b là độc lập với biến ngẫu nhiên số 3, c nếu chúng là độc lập trong phân bố xác suất có điều kiện, ở dạng công thức p(a,b|c) = p(a|b) p(b|c) Từ những đồ thị như vậy, cũng được gọi là đồ thị độc lập, khi có thể đọc các thuộc tính độc lập có điều kiện từ phân bố cơ bản Một đồ thị độc lập kết nối đầy đủ không chứa bất cứ thông tin nào về phân bố điều kiện, chỉ sự vắng mặt của các cạnh là có thông tin: Các độc lập có điều kiện trong phân bố điều kiện không có nghĩa là sự vắng mặt của các cạnh trong đồ thị đó
Sự độc lập có điều kiện là khái niệm quan trọng do nó có thể được sử dụng để phân tích các phân bố có điều kiện phức tạp thành tích của các nhân tố, mỗi nhân tố sẽ gồm tập nhỏ các biến ngẫu nhiên tương ứng Khái niệm này làm cho các tính toán phức tạp trở nên hiệu quả hơn Nói chung, việc phân rã, trong thực tế một thừa số của một phân
bố có điều kiện, được viết thành tích tích của các thành phần của nó , với vector ⃗
là tập các biến ngẫu nhiên tương ứng tạo thành một nhân tố như công thức sau:
( ⃗) = ( ⃗ )
Công thức: 8 Gọi G = (V,E) là một đồ thị với tập các đỉnh V và tập các cạnh là E Trong một đồ thị độc lập, các đỉnh V = X U Y, trong đó X và Y là tập các biến ngẫu nhiên, được minh họa bằng các hình tròn X được xem là tập các đầu vào hay các biến quan sát (vòng tròn ánh xám), và Y là một tập các biến đầu ra (các node trống) Một đồ thị độc lập có các cạnh có hướng hay vô hướng, phụ thuộc vào loại đồ thị mà nó thể hiện
Trong một đồ thị nhân tố, trong hình 10(b), các vòng tròn thể hiện trong đồ thị độc lập
là các biến ngẫu nhiên của phân bố cơ bản, được minh họa bởi vòng tròn Ngoài ra, các đồ thị nhân tố còn gồm các node nhân tố, được minh họa bằng hình vuông màu được điền màu đen, thể hiện cho các nhân tố Trong đồ thị đó, các cạnh luôn là vô hướng, liên kết các biến ngẫu nhiên với các node nhân tố Một hàm nhân tố v gồm tất
cả các biến ngẫu nhiên tới các node nhân tố tương ứng được kết nối trực tiếp bởi các cạnh Vì vậy, một đồ thị thành phần thể hiện rõ ràng hơn các thành tố của phân bố xác suất cơ bản Các đồ thị độc lập của các mô hình đồ thị có hướng và vô hướng có thể được chuyển thành các đồ thị thành phần
Giả sử một phân bố xác suất p(x1,x2,y) được chia thành ( ⃗) = ( ) ( ) ( | , ) Nó có các thành phần gồm ( ) = ( ),( ) = ( )và ( ) = ( | , ) Ở đây x1 và x2 là các độc lập có điều kiện với y Hình 14 minh họa một đồ thị độc lập và một đồ thị thành phần thể hiện loại phân bố này
Trang 38Trong phần tiếp theo, chúng ta sẽ đi chi tiết về đồ thị cĩ hướng và vơ hướng Nạve Bayes và HMM nằm trong nhĩm đầu tiên (đồ thị cĩ hướng), và Cực đại entropy nằm trong nhĩm đồ thị vơ hướng
Hình 14: Mơ hình đồ thị cĩ hướng
Đồ thị cĩ hướng
Một phân bố chung ( ⃗)cĩ thể được chia thành tích các phân bố cĩ điều kiện cho mỗi node , sao cho mỗi phân bố cĩ điều kiện như vậy được điều kiện hĩa trên tập các node cha
Cơng thức: 9 Cơng thức này giống với thành phần như được minh họa trong Hình 14về ví dụ phân
bố p(x1,x2,y)
Hình 15: Bộ phân loại Nạve Bayes Hình 16: Đồ thị độc lập và đồ thị thành phần cho mơ hình Markov ẩn chỉ ra một bộ phân loại HMM cho chuỗi gồm 3 giá trị đầu vào x1, x2, x3 Hàm thành phần là
Trang 39Tương ứng với một mô hình Markov ẩn
Hình 16: Đồ thị độc lập và đồ thị thành phần cho mô hình Markov ẩn
Đồ thị vô hướng
Một phân bố xác suất có thể được thể hiện bởi một mô hình đồ thị vô hướng sử dụng tích các hàm không âm của các nhóm cực đại của đồ thị G Việc phân chia các thành phần được thực hiện theo cách mà các node độc lập có điều kiện không xuất hiện trong cùng một thành phần, điều đó có nghĩa là chúng thuộc các nhóm khác nhau:
Công thức: 10 Các thành phần cũng được gọi là các hàm tiềm năng của các biến ngẫu nhiên trong một nhóm
Các hàm tiềm năng có thể là bất cứ hàm nào Do tính tổng quát của nó, hàm tiềm năng không cần thiết phải là hàm xác suất Điều này ngược lại với đồ thị có hướng trong đó phân bố chung được phân rã thành tích của các phân bố có điều kiện Vì vậy, việc chuẩn hóa của tích các hàm tiềm năng là cần thiết để đạt được xác suất chính xác Điều này được thực hiện bởi thành phần chuẩn hóa Z Việc tính toán Z là một thách thức chính trong quá trình học các tham số cũng như tính tổng cho các biến có thể:
Công thức: 11
Mô hình cực đại hóa Entropy cũng có thể được tính bằng tích các hàm tiềm năng không âm
Trang 40Cơng thức: 12 Trong các mơ hình log tuyến tính như vậy, các hàm tiềm năng được tính tốn bằng hàm mũ của các đặc trưng cĩ trọng số Những cơng thức như vậy thường được sử dụng bởi vì nĩ sẽ giúp hồn chỉnh yêu cầu về khơng âm của các hàm tiềm năng Hình Hình 17: Bộ phân loại cực đại Entropy(a) chỉ ra một đồ thị độc lập cho một bộ phân loại cực đại Entropy với một biến quan sát x, và một đồ thị thành phần tương ứng với ba đặc trưng như trong Hình 17(b)
Hình 17: Bộ phân loại cực đại Entropy Các mơ hình đồ thị cĩ hướng và vơ hướng khác nhau ở cách phân bố xác suất phân chia thành các thành phần.Việc phân rã thành tích của các phân bố xác suất cĩ điều kiện được thực hiện trong mơ hình đồ thị cĩ hướng Trong các mơ hình đồ thị vơ hướng một phân rã được thực hiện thành các hàm bất kì Nĩ khơng yêu cầu đặc tả rõ ràng mối quan hệ giữa các biến Nhưng nĩ phải đổi lại là tính tốn hằng số chuẩn hĩa
3.3.3.3 Trường ngẫu nhiên cĩ điều kiện
Một mơ hình Markov ẩn cĩ thể được hiểu là dạng tuần tự của mơ hình Nạve Bayes: thay vì các quyết định độc lập đơn, mơ hình Markov ẩn mơ hình hĩa một chuỗi tuần
tự Tương ứng, trường ngẫu nhiên cĩ điều kiện cĩ thể được hiểu là phiên bản tuần tự của mơ hình cực đại entropy, điều đĩ cũng cĩ nghĩa là nĩ cũng là mơ hình rời rạc.Ngồi ra, ngược lại với mơ hình Markov ẩn, mơ hình ngẫu nhiên cĩ điều kiện khơng bắt buộc điều kiện là cấu trúc chuỗi tuyến tính, mà cĩ thể là cấu trúc bất kì Những nguyên lý cơ bản
Được giới thiệu lần đầu tiên bởi Lafferty và các đồng nghiệp vào năm 2001 [6], trường ngẫu nhiên cĩ điều kiện là các mơ hình xác suất cho tính tốn với xác suất ( ⃗| ⃗)của một đầu ra cĩ thể là ⃗ = ( , … , ) ∈ cho chuỗi đầu vào ⃗ = ( , … , ) ∈