DSpace at VNU: Nghiên cứu phương pháp trích chọn thông tin thời tiết từ văn bản tiếng Việt tài liệu, giáo án, bài giảng...
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
VŨ THỊ LÝ
NGHIÊN CỨU PHƯƠNG PHÁP TRÍCH CHỌN
THÔNG TIN THỜI TIẾT
TỪ VĂN BẢN TIẾNG VIỆT
LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
VŨ THỊ LÝ
NGHIÊN CỨU PHƯƠNG PHÁP TRÍCH CHỌN
THÔNG TIN THỜI TIẾT
TỪ VĂN BẢN TIẾNG VIỆT
Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin
Mã số: 60480104
LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Nguyễn Trí Thành
Trang 3Lời cam đoan
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi, được thực hiện dưới sự hướng dẫn khoa học của Phó Giáo sư, Tiến sĩ Nguyễn Trí Thành
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được công bố trong bất kỳ công trình nào khác
Tôi xin chịu trách nhiệm về nghiên cứu của mình
Học viên
Vũ Thị Lý
Trang 4MỤC LỤC
Lời cam đoan i
Danh sách các bảng iv
Danh sách hình vẽ v
Danh sách các từ viết tắt, kí hiệu, thuật ngữ vi
Chương 1: GIỚI THIỆU ĐỀ TÀI 1
1.1 Giới thiệu đề tài 1
1.2 Ý nghĩa khoa học 3
1.3 Ý nghĩa thực tiễn 4
1.4 Ứng dụng của đề tài 4
Chương 2: BÀI TOÁN TRÍCH CHỌN THÔNG TIN THỜI TIẾT TRONG VĂN BẢN TIẾNG VIỆT 5
2.1 Mô tả bài toán và ý tưởng giải quyết 5
2.2 Xây dựng mô hình của hệ thống 8
2.2.1 Thu thập dữ liệu 8
2.3.2 Tiền xử lý và gán nhãn dữ liệu 10
2.3.3 Lựa chọn và trích chọn đặc trưng Error! Bookmark not defined 2.3.4 Trích chọn đặc trưng và xây dựng mô hình Error! Bookmark not defined
Chương 3: MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN GIẢI QUYẾT BÀI TOÁN TRÍCH
CHỌN THÔNG TIN TRONG VĂN BẢN Error! Bookmark not defined 3.1 Một số nghiên cứu về trích chọn thông tintừ các trang tin Error! Bookmark not
defined
3.2 Phương pháp trích chọn thông tin dựa biểu thức chính quy Error! Bookmark
not defined
3.3 Trích chọn thông tin dựa vào mô hình tuần tự Error! Bookmark not defined 3.3.1 Mô hình Markov ẩn Error! Bookmark not defined
Trang 54.1.2 Tiền xử lý dữ liệu Error! Bookmark not defined 3.1.3 Lựa chọn và trích chọn đặc trƣng Error! Bookmark not defined 4.1.4 Mô hình và kết quả với tập dữ liệu kiểm thử Error! Bookmark not defined 4.2 Đánh giá Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined
TÀI LIỆU THAM KHẢO 11 Tiếng Việt 11 Tiếng Anh 11
Trang 6Danh sách các bảng
Bảng 1: Mẫu dữ liệu thông tin trên website 5 Bảng 2: Tập các nhãn từ loại đƣợc sử dụng 7 Bảng 3: Bảng các nhãn đối tƣợng đƣợc sử dụng trong hệ thống 7
Bảng 4: Các mẫu biểu thức chính quy đƣợc sử dụng trong hệ thống Error! Bookmark
not defined
Bảng 5: Danh sách các tập nhãn đối tƣợng Error! Bookmark not defined Bảng 6: So sánh kết quả của mô hình và mong muốn Error! Bookmark not defined Bảng 7: Kết quả của văn bản có độ chính xác thấp Error! Bookmark not defined
Trang 7Danh sách hình vẽ
Hình 1: Mẫu thơng tin cĩ cấu trúc 2
Hình 2: Mẫu thơng tin bán cấu trúc 2
Hình 3: Mẫu thơng tin phi cấu trúc 3
Hình 4: Ví dụ thơng tin thời tiết trên trang tin tức 4
Hình 5: Mơ hình trích chọn thơng tin thời tiết 8
Hình 6: Hỗ trợ gán nhãn từ loại Error! Bookmark not defined Hình 7: Hỗ trợ gán nhãn đối tượng Error! Bookmark not defined Hình 8: Ví dụ kết quả gán nhãn đối tượng Error! Bookmark not defined Hình 9: Sự phân hĩa cấu trúc của các loại tài liệu Error! Bookmark not defined
Hình 10: So sánh về hiệu suất và kết quả của sử dụng luật (biểu thức chính quy) và
CRF với một số loại thực thể Error! Bookmark not defined
Hình 11: Ví dụ một số biểu thức chính quy sử dụng để trích chọn một số loại thực thể
Error! Bookmark not defined Hình 12: Các tham số xác suất của một mơ hình Markov ẩnError! Bookmark not
defined
Hình 13: Tổng quan về các mơ hình xác suất: Nạve Bayes (NB), Markov ẩn (HMM), cực đại entropy (ME), trường ngẫu nhiên cĩ điều kiện (CRF) Các khía cạnh được minh họa là xác suất chung hay điều kiện, dự đốn lớp đơn hay dự đốn trên dữ liệu
chuỗi Error! Bookmark not defined Hình 14: Mơ hình đồ thị cĩ hướng Error! Bookmark not defined Hình 15: Bộ phân loại Nạve Bayes Error! Bookmark not defined Hình 16: Đồ thị độc lập và đồ thị thành phần cho mơ hình Markov ẩn Error!
Bookmark not defined
Hình 17: Bộ phân loại cực đại Entropy Error! Bookmark not defined Hình 18: Trường ngẫu nhiên cĩ điều kiện chuỗi tuyến tínhError! Bookmark not defined
Hình 19: Một dạng kết hợp của CRF chuỗi tuyến tính Error! Bookmark not defined Hình 20: Ví dụ một máy trạng thái hữu hạn ngẫu nhiênError! Bookmark not defined
Hình 21: Ví dụ của các cấu trúc của CRF Error! Bookmark not defined
Hình 22: Ví dụ của một CRF cách quãng cho chuỗi x=(2,3,4,5,6) theo cơng thức…
Error! Bookmark not defined Hình 23: Nguồn thơng tin [4] Error! Bookmark not defined Hình 24: Lấy thơng tin từ internet Error! Bookmark not defined Hình 25: Tiền xử lý dữ liệu (1) Error! Bookmark not defined Hình 26: Tiền xử lý dữ liệu (2) Error! Bookmark not defined
Trang 8Danh sách các từ viết tắt, kí hiệu, thuật ngữ
IR Information Retrieve: Truy vấn thông tin
IE Information Extract: Trích chọn thông tin
WI Wrapper Induction:
CRF Condition Random Fields: Trường ngẫu nhiên có điều
kiện NER Named Entity Recognition: Nhận dạng thực thể tên
HMM Hidden Markov Model: Mô hình Markov ẩn
MEMM Maximum Entropy Markov Model: Mô hình Markov
cực đại Entropy CMM Conditional Markov Model: Mô hình Markov có điều
kiện SFSA Schochatics Finite State Automaton: Máy trạng thái hữu
hạn ngẫu nhiên
Trang 9Chương 1: GIỚI THIỆU ĐỀ TÀI
1.1 Giới thiệu đề tài
Thông tin dự báo thời tiết là thông tin quan trọng cần được cập nhật hàng ngày cho mọi người Nó ảnh hưởng rất lớn tới cuộc sống và sinh hoạt của người dân, cơ quan và các tổ chức Việc dự báo thông tin gần đúng, kịp thời có vai trò vô cùng cần thiết quan trọng Đối với cuộc sống hàng ngày, thông tin thời tiết giúp người dân có các chuẩn bị cần thiết trong đi lại Đối với các ngành phụ thuộc vào thời tiết như đánh bắt thủy hải sản, nông nghiệp thì thông tin thời tiết giúp họ có chuẩn bị phù hợp trong quá trình sản xuất
Do mức độ quan trọng của thông tin thời tiết, việc nghiên cứu phương pháp để trích chọn thông tin thời tiết, từ các văn bản, trang tin tức hàng ngày giúp ích cho rất nhiều người Phạm vi của luận văn là nghiên cứu phương pháp trích chọn thông tin thời tiết
từ các văn bản, trang tin tức tiếng Việt Các thông tin thời tiết hiện nay có sẵn ở rất nhiều trang tin tức tiếng Việt, và được trình bày với nhiều dạng khác nhau [4] Thông tin thời tiết có thể ở dạng có cấu trúc (bảng thông tin về lượng mưa, hoặc nhiệt độ ở các vùng miền trong cùng một thời điểm – Hình 1: Mẫu thông tin có cấu trúc), hoặc phi cấu trúc (như dạng bản tin tóm tắt, hoặc chi tiết thông tin thời tiết của một vùng miền tại một thời điểm – Hình 3: Mẫu thông tin phi cấu trúc), hoặc có thể ở dạng bán cấu trúc (danh sách các thông tin thời tiết chung chung, gồm cả nhiệt độ, độ ẩm, tình trạng nắng mưa của một số vùng miền – Hình 2: Mẫu thông tin bán cấu trúc) Ngoài
ra, thông tin thời tiết còn có thể được cung cấp không đầy đủ (một số thông tin không có), hoặc không đồng bộ (các đơn vị đo có thể khác nhau) Do đó, nhiệm vụ trích chọn thông tin khá phức tạp khi sự hoán đổi của các thuộc tính và lỗi đánh máy xảy ra trong quá trình đưa tin lên các trang tin
Trang 10Hình 1: Mẫu thông tin có cấu trúc
Hình 2: Mẫu thông tin bán cấu trúc
Trang 11Hình 3: Mẫu thông tin phi cấu trúc Mục tiêu của luận văn là xây dựng một hệ thống bán tự động, nhằm lấy thông tin từ các trang bản tin, và sau đó đưa vào hệ thống xử lý dữ liệu đầu vào, và xây dựng mô hình để trích chọn các thông tin thời tiết Từ mô hình đó, các bản tin có thể được đưa vào và hệ thống sẽ cho ra kết quả liệt kê các đối tượng thời tiết mà chúng ta quan tâm
1.2 Ý nghĩa khoa học
Việc trích chọn thông tin thời tiết có ý nghĩa lớn về mặt khoa học Từ các thông tin thời tiết được chọn lọc bởi mô hình, chúng có thể được dùng để thống kê và lưu trữ lại làm cơ sở tham khảo về sau Việc lưu trữ thông tin thời tiết và các thông tin liên quan (thời gian xảy ra, địa điểm xảy ra các hiện tượng thời tiết), có ích cho việc đánh giá và đưa ra con số để xem xét thực tế Ngoài ra, việc lưu trữ các thông tin thời tiết thay vì văn bản giúp chúng ta giảm thiểu kích thước bản tin cần được lưu trữ Các thông tin đó
có thể được thể hiện hoặc lưu trữ theo đối tượng, và do đó việc lưu trữ là dễ dàng và
có thể truy cập lại một cách nhanh chóng theo các tiêu chí khác nhau
Các thông tin sau khi được trích chọn có thể lưu trữ theo dạng đối tượng, với các thuộc tính khác nhau (đối tượng thông tin lượng mưa có thể gồm địa điểm, thời điểm, số đo lượng mưa, đơn vị đo) và được lưu trữ dạng cơ sở dữ liệu rất dễ dàng Khi được lưu trữ ở dạng phù hợp, việc truy vấn thông tin để thống kê hoặc báo cáo cũng rất nhanh chóng và tiện lợi Từ đó giúp các nhà quản lý và hoạch định có cái nhìn tổng quan và xây dựng biện pháp phòng tránh các thiên tai một cách hiệu quả
Việc rút ngắn bản tin cũng giúp cho tin nhắn được truyền đi hoặc thông báo vô cùng
Trang 12sử dụng rất phổ biến như hiện tại Các bản tin ngắn giúp các tổ chức gửi thông tin dễ dàng và nhanh chóng hơn
1.3 Ý nghĩa thực tiễn
Các thông tin thời tiết hiện nay được cung cấp miễn phí và rất đa dạng ở các trang tin tức tiếng việt Mọi người có thể bắt gặp các thông tin thời tiết được cập nhật ở một góc nhỏ, do đó nguồn thông tin cho bài toán này là miễn phí và có sẵn
Hình 4: Ví dụ thông tin thời tiết trên trang tin tức Với kết quả của hệ thống, thông tin thời tiết có thể được cập nhật nhanh chóng hơn, tiện lợi hơn cho những người có nhu cầu Thay vì vào các trang tin và tìm sâu hơn khi chúng ta quan tâm, hệ thống có thể cung cấp cho người dùng các thông tin cần thiết một cách tập trung và cụ thể
1.4 Ứng dụng của đề tài
Từ các thông tin thời tiết được trích chọn, chúng có thể được cung cấp cho người dân
và những người quan tâm một cách kịp thời Người dân có thể đăng ký nhận tin nhắn thời tiết mà họ quan tâm Ví dụ, khi sinh sống ở khu vực nào đó, họ có thể chỉ quan tâm tới tình hình thời tiết về nơi mà họ sinh sống, hoặc các loại bản tin cảnh báo đặc biệt Hệ thống xây dựng trên các thông tin được trích chọn có thể thực hiện việc lọc tin theo từng loại thuộc tính để cung cấp cho người dùng một cách tự động và ngay khi có tin tức mà họ cần biết
Trang 13Chương 2: BÀI TOÁN TRÍCH CHỌN THÔNG TIN THỜI TIẾT
TRONG VĂN BẢN TIẾNG VIỆT
2.1 Mô tả bài toán và ý tưởng giải quyết
Bài toán trích chọn thông tin thời tiết cũng như nhiều bài toán trích chọn thông tin khác, gồm các bước chính: thu thập dữ liệu từ các trang tin, xử lý dữ liệu để tăng hiệu suất của hệ thống trích chọn thông tin, xây dựng mô hình để trích chọn thông tin một cách bán tự động, và cuối cùng là kiểm nghiệm và đánh giá mô hình
Phần trích chọn đặc trưng và xây dựng mô hình trong luận văn này sẽ được thực hiện theo mô hình CRF Chương 3 sẽ đi giới thiệu các cách tiếp cận trong bài toán trích chọn thông tin và lý do tại sao hệ thống tiến hành thực nghiệm trên mô hình này, do những ưu điểm về mặt cơ sở lý thuyết so với các mô hình còn lại Mặc dù với thông tin
dữ liệu cụ thể trong bài toán này có thể đạt được bằng một trong các cách còn lại, nhưng về mặt tổng quan thì sẽ cần phải kiểm nghiệm một cách rộng rãi hơn trước khi quyết định áp dụng và ứng dụng kết quả trong ứng dụng thực tế
Bước thu thập dữ liệu từ các trang tin được thực hiện bởi các công cụ đã rất tiện lợi và chia sẻ rộng rãi ngày nay [4, 23] Việc thu thập thông tin được tiến hành với sự hỗ trợ của nguồn mở và cần người dùng can thiệp để loại bỏ các thông tin hoặc các trang tin không liên quan, không cần thiết
Sau đó, nguồn thông tin phải được xử lý làm sạch, với đầy đủ các bước của tiền xử lý
dữ liệu trong khai phá dữ liệu, gồm làm sạch dữ liệu
Bảng 1: Mẫu dữ liệu thông tin trên website
I.BẢNG 1: SỐ LIỆU MỰC NƯỚC VÀ LƯU LƯỢNG TRÊN CÁC SÔNG CHÍNH Ở
TRUNG, NAM BỘ VÀ TÂY NGUYÊN
Sông Trạm Yếu tố đo Thực đo
tuần
So sánh TBNN
Dự báo
So sánh với TBNN
Mã Lý Nhân H 245 <145cm 255 <140cm
Cả Yên Thượng Q 45.2 <69% 55 <67%
Tả
Trạch
Thượng Nhật Q 2.7 <37% 2.5 <47%
Thu Bồn Nông Sơn Q 145 >93% 130 >75%
Trà
Khúc
Trà Khúc H 93 <60cm 90 <66cm
Ba Củng Sơn Q 47.2 <5% 44 <8%
Cái N.T Đồng Trăng Q 4.5 <83% 4.2 <83%
Trang 14Hmin -3 >6cm -5 <2cm Hậu Châu Đốc Hmax 146 >54cm 135 >38cm
Hmin -6 >10cm -12 >2cm
Ghi
chú:
Yếu tố đo: H: mực nước (cm), Q: Lưu lượng ( m 3
/s) Hmax: mực nước cao nhất tuần
Hmin: mực nước thấp nhất tuần
Dữ liệu được thu thập không hoàn chỉnh (ví dụ trong bảng 1, dữ liệu cho sông Kôn bị thiếu), nhiễu (có lỗi, hoặc các giá trị ngoại lai mà không như mong đợi), và không thống nhất (ví dụ: giá trị cột so sánh có 2 loại đơn vị khác nhau, và chỉ số cho cùng loại đơn vị đó cũng khác nhau) Dữ liệu không hoàn chỉnh, nhiễu, và không thống nhất
là các thuộc tính phổ biến của các cơ sở dữ liệu và kho dữ liệu lớn, và thực tế Dữ liệu không hoàn chỉnh có thể xảy ra vì một số lý do Thuộc tính mà chúng ta quan tâm có thể không phải lúc nào cũng sẵn có, như thông tin về sông Kôn Dữ liệu liên quan có thể không được ghi lại vì hiểu lầm, hoặc bởi vì lỗi của thiết bị
Các bộ dữ liệu trùng lặp cũng cần phải được làm sạch Các thủ tục làm sạch dữ liệu thực hiện việc làm sạch bằng cách điền các giá trị thiếu, làm trơn dữ liệu nhiễu, nhận dạng và loại bỏ các giá trị ngoại lai, và giải quyết sự không thống nhất Dữ liệu không sạch có thể gây nhầm lẫn cho quá trình khai phá Mặc dù hầu hết các thủ tục khai phá
dữ liệu có một vài bước để giải quyết với dữ liệu không hoàn chỉnh hoặc nhiễu, nhưng chúng không đủ mạnh Vì vậy, một bước tiền xử lý dữ liệu hữu ích là để lọc dữ liệu qua các thủ tục làm sạch dữ liệu
Các giá trị bị thiếu: Nếu biết trước được có nhiều bộ mà thiếu các giá trị cho một vài thuộc tính, thì các giá trị bị thiếu có thể được điền lại bởi nhiều phương pháp khác nhau như được mô tả như sau
1) Loại bỏ thông tin: Thường sử dụng phương pháp này khi nhãn cho lớp đó bị thiếu (giả sử nhiệm vụ khai phá bao gồm cả việc phân loại hoặc mô tả) Cách này không hiệu quả, trừ khi bộ đó có một vài thuộc tính có giá trị bị thiếu Đặc biệt khi tỉ lệ giá trị thiếu cho mỗi thuộc tính chiếm một phần đáng kể
2) Điền giá trị còn thiếu bằng tay: Nói chung, phương pháp tiếp cận này tốn thời
Trang 156) Sử dụng giá trị có khả năng nhất để điền vào giá trị bị thiếu
Trong hệ thống được xây dựng bởi phạm vi luận văn này, thông tin bị thiếu như bảng trên là ít, do vậy chúng sẽ được bỏ qua
Tách từ và gán nhãn dữ liệu, được thực hiện bằng tay và có sự hỗ trợ của công cụ giúp cho người huấn luyện quyết định được dễ dàng hơn Quá trình gán nhãn và tách từ được chia thành 2 bước: tách từ và gán nhãn từ loại, và sau đó gán nhãn đối tượng Các từ loại thì sẽ được phân chia với các loại từ cơ bản như bảng sau
Bảng 2: Tập các nhãn từ loại được sử dụng
Nhãn
từ loại
11/05/2015, …
Nino, …
Symbols Các kí tự đặc biệt như: >, <, „,‟,
„:‟
Bảng các nhãn đối tượng được quan tâm gồm có
Bảng 3: Bảng các nhãn đối tượng được sử dụng trong hệ thống