1. Trang chủ
  2. » Thể loại khác

DSpace at VNU: Nghiên cứu phương pháp trích chọn thông tin thời tiết từ văn bản tiếng Việt

20 133 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 480,02 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

DSpace at VNU: Nghiên cứu phương pháp trích chọn thông tin thời tiết từ văn bản tiếng Việt tài liệu, giáo án, bài giảng...

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

VŨ THỊ LÝ

NGHIÊN CỨU PHƯƠNG PHÁP TRÍCH CHỌN

THÔNG TIN THỜI TIẾT

TỪ VĂN BẢN TIẾNG VIỆT

LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

VŨ THỊ LÝ

NGHIÊN CỨU PHƯƠNG PHÁP TRÍCH CHỌN

THÔNG TIN THỜI TIẾT

TỪ VĂN BẢN TIẾNG VIỆT

Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin

Mã số: 60480104

LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Nguyễn Trí Thành

Trang 3

Lời cam đoan

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi, được thực hiện dưới sự hướng dẫn khoa học của Phó Giáo sư, Tiến sĩ Nguyễn Trí Thành

Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được công bố trong bất kỳ công trình nào khác

Tôi xin chịu trách nhiệm về nghiên cứu của mình

Học viên

Vũ Thị Lý

Trang 4

MỤC LỤC

Lời cam đoan i

Danh sách các bảng iv

Danh sách hình vẽ v

Danh sách các từ viết tắt, kí hiệu, thuật ngữ vi

Chương 1: GIỚI THIỆU ĐỀ TÀI 1

1.1 Giới thiệu đề tài 1

1.2 Ý nghĩa khoa học 3

1.3 Ý nghĩa thực tiễn 4

1.4 Ứng dụng của đề tài 4

Chương 2: BÀI TOÁN TRÍCH CHỌN THÔNG TIN THỜI TIẾT TRONG VĂN BẢN TIẾNG VIỆT 5

2.1 Mô tả bài toán và ý tưởng giải quyết 5

2.2 Xây dựng mô hình của hệ thống 8

2.2.1 Thu thập dữ liệu 8

2.3.2 Tiền xử lý và gán nhãn dữ liệu 10

2.3.3 Lựa chọn và trích chọn đặc trưng Error! Bookmark not defined 2.3.4 Trích chọn đặc trưng và xây dựng mô hình Error! Bookmark not defined

Chương 3: MỘT SỐ PHƯƠNG PHÁP TIẾP CẬN GIẢI QUYẾT BÀI TOÁN TRÍCH

CHỌN THÔNG TIN TRONG VĂN BẢN Error! Bookmark not defined 3.1 Một số nghiên cứu về trích chọn thông tintừ các trang tin Error! Bookmark not

defined

3.2 Phương pháp trích chọn thông tin dựa biểu thức chính quy Error! Bookmark

not defined

3.3 Trích chọn thông tin dựa vào mô hình tuần tự Error! Bookmark not defined 3.3.1 Mô hình Markov ẩn Error! Bookmark not defined

Trang 5

4.1.2 Tiền xử lý dữ liệu Error! Bookmark not defined 3.1.3 Lựa chọn và trích chọn đặc trƣng Error! Bookmark not defined 4.1.4 Mô hình và kết quả với tập dữ liệu kiểm thử Error! Bookmark not defined 4.2 Đánh giá Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined

TÀI LIỆU THAM KHẢO 11 Tiếng Việt 11 Tiếng Anh 11

Trang 6

Danh sách các bảng

Bảng 1: Mẫu dữ liệu thông tin trên website 5 Bảng 2: Tập các nhãn từ loại đƣợc sử dụng 7 Bảng 3: Bảng các nhãn đối tƣợng đƣợc sử dụng trong hệ thống 7

Bảng 4: Các mẫu biểu thức chính quy đƣợc sử dụng trong hệ thống Error! Bookmark

not defined

Bảng 5: Danh sách các tập nhãn đối tƣợng Error! Bookmark not defined Bảng 6: So sánh kết quả của mô hình và mong muốn Error! Bookmark not defined Bảng 7: Kết quả của văn bản có độ chính xác thấp Error! Bookmark not defined

Trang 7

Danh sách hình vẽ

Hình 1: Mẫu thơng tin cĩ cấu trúc 2

Hình 2: Mẫu thơng tin bán cấu trúc 2

Hình 3: Mẫu thơng tin phi cấu trúc 3

Hình 4: Ví dụ thơng tin thời tiết trên trang tin tức 4

Hình 5: Mơ hình trích chọn thơng tin thời tiết 8

Hình 6: Hỗ trợ gán nhãn từ loại Error! Bookmark not defined Hình 7: Hỗ trợ gán nhãn đối tượng Error! Bookmark not defined Hình 8: Ví dụ kết quả gán nhãn đối tượng Error! Bookmark not defined Hình 9: Sự phân hĩa cấu trúc của các loại tài liệu Error! Bookmark not defined

Hình 10: So sánh về hiệu suất và kết quả của sử dụng luật (biểu thức chính quy) và

CRF với một số loại thực thể Error! Bookmark not defined

Hình 11: Ví dụ một số biểu thức chính quy sử dụng để trích chọn một số loại thực thể

Error! Bookmark not defined Hình 12: Các tham số xác suất của một mơ hình Markov ẩnError! Bookmark not

defined

Hình 13: Tổng quan về các mơ hình xác suất: Nạve Bayes (NB), Markov ẩn (HMM), cực đại entropy (ME), trường ngẫu nhiên cĩ điều kiện (CRF) Các khía cạnh được minh họa là xác suất chung hay điều kiện, dự đốn lớp đơn hay dự đốn trên dữ liệu

chuỗi Error! Bookmark not defined Hình 14: Mơ hình đồ thị cĩ hướng Error! Bookmark not defined Hình 15: Bộ phân loại Nạve Bayes Error! Bookmark not defined Hình 16: Đồ thị độc lập và đồ thị thành phần cho mơ hình Markov ẩn Error!

Bookmark not defined

Hình 17: Bộ phân loại cực đại Entropy Error! Bookmark not defined Hình 18: Trường ngẫu nhiên cĩ điều kiện chuỗi tuyến tínhError! Bookmark not defined

Hình 19: Một dạng kết hợp của CRF chuỗi tuyến tính Error! Bookmark not defined Hình 20: Ví dụ một máy trạng thái hữu hạn ngẫu nhiênError! Bookmark not defined

Hình 21: Ví dụ của các cấu trúc của CRF Error! Bookmark not defined

Hình 22: Ví dụ của một CRF cách quãng cho chuỗi x=(2,3,4,5,6) theo cơng thức…

Error! Bookmark not defined Hình 23: Nguồn thơng tin [4] Error! Bookmark not defined Hình 24: Lấy thơng tin từ internet Error! Bookmark not defined Hình 25: Tiền xử lý dữ liệu (1) Error! Bookmark not defined Hình 26: Tiền xử lý dữ liệu (2) Error! Bookmark not defined

Trang 8

Danh sách các từ viết tắt, kí hiệu, thuật ngữ

IR Information Retrieve: Truy vấn thông tin

IE Information Extract: Trích chọn thông tin

WI Wrapper Induction:

CRF Condition Random Fields: Trường ngẫu nhiên có điều

kiện NER Named Entity Recognition: Nhận dạng thực thể tên

HMM Hidden Markov Model: Mô hình Markov ẩn

MEMM Maximum Entropy Markov Model: Mô hình Markov

cực đại Entropy CMM Conditional Markov Model: Mô hình Markov có điều

kiện SFSA Schochatics Finite State Automaton: Máy trạng thái hữu

hạn ngẫu nhiên

Trang 9

Chương 1: GIỚI THIỆU ĐỀ TÀI

1.1 Giới thiệu đề tài

Thông tin dự báo thời tiết là thông tin quan trọng cần được cập nhật hàng ngày cho mọi người Nó ảnh hưởng rất lớn tới cuộc sống và sinh hoạt của người dân, cơ quan và các tổ chức Việc dự báo thông tin gần đúng, kịp thời có vai trò vô cùng cần thiết quan trọng Đối với cuộc sống hàng ngày, thông tin thời tiết giúp người dân có các chuẩn bị cần thiết trong đi lại Đối với các ngành phụ thuộc vào thời tiết như đánh bắt thủy hải sản, nông nghiệp thì thông tin thời tiết giúp họ có chuẩn bị phù hợp trong quá trình sản xuất

Do mức độ quan trọng của thông tin thời tiết, việc nghiên cứu phương pháp để trích chọn thông tin thời tiết, từ các văn bản, trang tin tức hàng ngày giúp ích cho rất nhiều người Phạm vi của luận văn là nghiên cứu phương pháp trích chọn thông tin thời tiết

từ các văn bản, trang tin tức tiếng Việt Các thông tin thời tiết hiện nay có sẵn ở rất nhiều trang tin tức tiếng Việt, và được trình bày với nhiều dạng khác nhau [4] Thông tin thời tiết có thể ở dạng có cấu trúc (bảng thông tin về lượng mưa, hoặc nhiệt độ ở các vùng miền trong cùng một thời điểm – Hình 1: Mẫu thông tin có cấu trúc), hoặc phi cấu trúc (như dạng bản tin tóm tắt, hoặc chi tiết thông tin thời tiết của một vùng miền tại một thời điểm – Hình 3: Mẫu thông tin phi cấu trúc), hoặc có thể ở dạng bán cấu trúc (danh sách các thông tin thời tiết chung chung, gồm cả nhiệt độ, độ ẩm, tình trạng nắng mưa của một số vùng miền – Hình 2: Mẫu thông tin bán cấu trúc) Ngoài

ra, thông tin thời tiết còn có thể được cung cấp không đầy đủ (một số thông tin không có), hoặc không đồng bộ (các đơn vị đo có thể khác nhau) Do đó, nhiệm vụ trích chọn thông tin khá phức tạp khi sự hoán đổi của các thuộc tính và lỗi đánh máy xảy ra trong quá trình đưa tin lên các trang tin

Trang 10

Hình 1: Mẫu thông tin có cấu trúc

Hình 2: Mẫu thông tin bán cấu trúc

Trang 11

Hình 3: Mẫu thông tin phi cấu trúc Mục tiêu của luận văn là xây dựng một hệ thống bán tự động, nhằm lấy thông tin từ các trang bản tin, và sau đó đưa vào hệ thống xử lý dữ liệu đầu vào, và xây dựng mô hình để trích chọn các thông tin thời tiết Từ mô hình đó, các bản tin có thể được đưa vào và hệ thống sẽ cho ra kết quả liệt kê các đối tượng thời tiết mà chúng ta quan tâm

1.2 Ý nghĩa khoa học

Việc trích chọn thông tin thời tiết có ý nghĩa lớn về mặt khoa học Từ các thông tin thời tiết được chọn lọc bởi mô hình, chúng có thể được dùng để thống kê và lưu trữ lại làm cơ sở tham khảo về sau Việc lưu trữ thông tin thời tiết và các thông tin liên quan (thời gian xảy ra, địa điểm xảy ra các hiện tượng thời tiết), có ích cho việc đánh giá và đưa ra con số để xem xét thực tế Ngoài ra, việc lưu trữ các thông tin thời tiết thay vì văn bản giúp chúng ta giảm thiểu kích thước bản tin cần được lưu trữ Các thông tin đó

có thể được thể hiện hoặc lưu trữ theo đối tượng, và do đó việc lưu trữ là dễ dàng và

có thể truy cập lại một cách nhanh chóng theo các tiêu chí khác nhau

Các thông tin sau khi được trích chọn có thể lưu trữ theo dạng đối tượng, với các thuộc tính khác nhau (đối tượng thông tin lượng mưa có thể gồm địa điểm, thời điểm, số đo lượng mưa, đơn vị đo) và được lưu trữ dạng cơ sở dữ liệu rất dễ dàng Khi được lưu trữ ở dạng phù hợp, việc truy vấn thông tin để thống kê hoặc báo cáo cũng rất nhanh chóng và tiện lợi Từ đó giúp các nhà quản lý và hoạch định có cái nhìn tổng quan và xây dựng biện pháp phòng tránh các thiên tai một cách hiệu quả

Việc rút ngắn bản tin cũng giúp cho tin nhắn được truyền đi hoặc thông báo vô cùng

Trang 12

sử dụng rất phổ biến như hiện tại Các bản tin ngắn giúp các tổ chức gửi thông tin dễ dàng và nhanh chóng hơn

1.3 Ý nghĩa thực tiễn

Các thông tin thời tiết hiện nay được cung cấp miễn phí và rất đa dạng ở các trang tin tức tiếng việt Mọi người có thể bắt gặp các thông tin thời tiết được cập nhật ở một góc nhỏ, do đó nguồn thông tin cho bài toán này là miễn phí và có sẵn

Hình 4: Ví dụ thông tin thời tiết trên trang tin tức Với kết quả của hệ thống, thông tin thời tiết có thể được cập nhật nhanh chóng hơn, tiện lợi hơn cho những người có nhu cầu Thay vì vào các trang tin và tìm sâu hơn khi chúng ta quan tâm, hệ thống có thể cung cấp cho người dùng các thông tin cần thiết một cách tập trung và cụ thể

1.4 Ứng dụng của đề tài

Từ các thông tin thời tiết được trích chọn, chúng có thể được cung cấp cho người dân

và những người quan tâm một cách kịp thời Người dân có thể đăng ký nhận tin nhắn thời tiết mà họ quan tâm Ví dụ, khi sinh sống ở khu vực nào đó, họ có thể chỉ quan tâm tới tình hình thời tiết về nơi mà họ sinh sống, hoặc các loại bản tin cảnh báo đặc biệt Hệ thống xây dựng trên các thông tin được trích chọn có thể thực hiện việc lọc tin theo từng loại thuộc tính để cung cấp cho người dùng một cách tự động và ngay khi có tin tức mà họ cần biết

Trang 13

Chương 2: BÀI TOÁN TRÍCH CHỌN THÔNG TIN THỜI TIẾT

TRONG VĂN BẢN TIẾNG VIỆT

2.1 Mô tả bài toán và ý tưởng giải quyết

Bài toán trích chọn thông tin thời tiết cũng như nhiều bài toán trích chọn thông tin khác, gồm các bước chính: thu thập dữ liệu từ các trang tin, xử lý dữ liệu để tăng hiệu suất của hệ thống trích chọn thông tin, xây dựng mô hình để trích chọn thông tin một cách bán tự động, và cuối cùng là kiểm nghiệm và đánh giá mô hình

Phần trích chọn đặc trưng và xây dựng mô hình trong luận văn này sẽ được thực hiện theo mô hình CRF Chương 3 sẽ đi giới thiệu các cách tiếp cận trong bài toán trích chọn thông tin và lý do tại sao hệ thống tiến hành thực nghiệm trên mô hình này, do những ưu điểm về mặt cơ sở lý thuyết so với các mô hình còn lại Mặc dù với thông tin

dữ liệu cụ thể trong bài toán này có thể đạt được bằng một trong các cách còn lại, nhưng về mặt tổng quan thì sẽ cần phải kiểm nghiệm một cách rộng rãi hơn trước khi quyết định áp dụng và ứng dụng kết quả trong ứng dụng thực tế

Bước thu thập dữ liệu từ các trang tin được thực hiện bởi các công cụ đã rất tiện lợi và chia sẻ rộng rãi ngày nay [4, 23] Việc thu thập thông tin được tiến hành với sự hỗ trợ của nguồn mở và cần người dùng can thiệp để loại bỏ các thông tin hoặc các trang tin không liên quan, không cần thiết

Sau đó, nguồn thông tin phải được xử lý làm sạch, với đầy đủ các bước của tiền xử lý

dữ liệu trong khai phá dữ liệu, gồm làm sạch dữ liệu

Bảng 1: Mẫu dữ liệu thông tin trên website

I.BẢNG 1: SỐ LIỆU MỰC NƯỚC VÀ LƯU LƯỢNG TRÊN CÁC SÔNG CHÍNH Ở

TRUNG, NAM BỘ VÀ TÂY NGUYÊN

Sông Trạm Yếu tố đo Thực đo

tuần

So sánh TBNN

Dự báo

So sánh với TBNN

Mã Lý Nhân H 245 <145cm 255 <140cm

Cả Yên Thượng Q 45.2 <69% 55 <67%

Tả

Trạch

Thượng Nhật Q 2.7 <37% 2.5 <47%

Thu Bồn Nông Sơn Q 145 >93% 130 >75%

Trà

Khúc

Trà Khúc H 93 <60cm 90 <66cm

Ba Củng Sơn Q 47.2 <5% 44 <8%

Cái N.T Đồng Trăng Q 4.5 <83% 4.2 <83%

Trang 14

Hmin -3 >6cm -5 <2cm Hậu Châu Đốc Hmax 146 >54cm 135 >38cm

Hmin -6 >10cm -12 >2cm

Ghi

chú:

Yếu tố đo: H: mực nước (cm), Q: Lưu lượng ( m 3

/s) Hmax: mực nước cao nhất tuần

Hmin: mực nước thấp nhất tuần

Dữ liệu được thu thập không hoàn chỉnh (ví dụ trong bảng 1, dữ liệu cho sông Kôn bị thiếu), nhiễu (có lỗi, hoặc các giá trị ngoại lai mà không như mong đợi), và không thống nhất (ví dụ: giá trị cột so sánh có 2 loại đơn vị khác nhau, và chỉ số cho cùng loại đơn vị đó cũng khác nhau) Dữ liệu không hoàn chỉnh, nhiễu, và không thống nhất

là các thuộc tính phổ biến của các cơ sở dữ liệu và kho dữ liệu lớn, và thực tế Dữ liệu không hoàn chỉnh có thể xảy ra vì một số lý do Thuộc tính mà chúng ta quan tâm có thể không phải lúc nào cũng sẵn có, như thông tin về sông Kôn Dữ liệu liên quan có thể không được ghi lại vì hiểu lầm, hoặc bởi vì lỗi của thiết bị

Các bộ dữ liệu trùng lặp cũng cần phải được làm sạch Các thủ tục làm sạch dữ liệu thực hiện việc làm sạch bằng cách điền các giá trị thiếu, làm trơn dữ liệu nhiễu, nhận dạng và loại bỏ các giá trị ngoại lai, và giải quyết sự không thống nhất Dữ liệu không sạch có thể gây nhầm lẫn cho quá trình khai phá Mặc dù hầu hết các thủ tục khai phá

dữ liệu có một vài bước để giải quyết với dữ liệu không hoàn chỉnh hoặc nhiễu, nhưng chúng không đủ mạnh Vì vậy, một bước tiền xử lý dữ liệu hữu ích là để lọc dữ liệu qua các thủ tục làm sạch dữ liệu

Các giá trị bị thiếu: Nếu biết trước được có nhiều bộ mà thiếu các giá trị cho một vài thuộc tính, thì các giá trị bị thiếu có thể được điền lại bởi nhiều phương pháp khác nhau như được mô tả như sau

1) Loại bỏ thông tin: Thường sử dụng phương pháp này khi nhãn cho lớp đó bị thiếu (giả sử nhiệm vụ khai phá bao gồm cả việc phân loại hoặc mô tả) Cách này không hiệu quả, trừ khi bộ đó có một vài thuộc tính có giá trị bị thiếu Đặc biệt khi tỉ lệ giá trị thiếu cho mỗi thuộc tính chiếm một phần đáng kể

2) Điền giá trị còn thiếu bằng tay: Nói chung, phương pháp tiếp cận này tốn thời

Trang 15

6) Sử dụng giá trị có khả năng nhất để điền vào giá trị bị thiếu

Trong hệ thống được xây dựng bởi phạm vi luận văn này, thông tin bị thiếu như bảng trên là ít, do vậy chúng sẽ được bỏ qua

Tách từ và gán nhãn dữ liệu, được thực hiện bằng tay và có sự hỗ trợ của công cụ giúp cho người huấn luyện quyết định được dễ dàng hơn Quá trình gán nhãn và tách từ được chia thành 2 bước: tách từ và gán nhãn từ loại, và sau đó gán nhãn đối tượng Các từ loại thì sẽ được phân chia với các loại từ cơ bản như bảng sau

Bảng 2: Tập các nhãn từ loại được sử dụng

Nhãn

từ loại

11/05/2015, …

Nino, …

Symbols Các kí tự đặc biệt như: >, <, „,‟,

„:‟

Bảng các nhãn đối tượng được quan tâm gồm có

Bảng 3: Bảng các nhãn đối tượng được sử dụng trong hệ thống

Ngày đăng: 17/12/2017, 03:03

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w