Luận văn các phương pháp trích rút siêu dữ liệu từ văn bản sử dụng các phương pháp tiếp cận: Rulebased, phương pháp trích rút dựa trên máy học SVM, mô hình Markov ẩn, mô hình trường điều kiện ngẫu nhiên và Nghiên cứu thực nghiệm áp dụng phương pháp rulebased
Trang 1LỜI CẢM ƠN
Sau một thời gian nghiên cứu một cách nghiêm túc về đề tài luận văn,tôi đã hoàn thành luận văn của mình theo đúng kế hoạch của khoa Sau ĐạiHọc trường Đại học Điện Lực
Có được kết quả này trước hết tôi muốn gửi lời cảm ơn sâu sắc đếnthầy giáo TS Nguyễn Đức Dũng đã tận tình hướng dẫn, giúp đỡ để tôi hoànthành bản luận văn này
Lời thứ hai tôi muốn cảm ơn chân thành tới các thầy cô giáo trong khoa
Đào tạo Sau Đại Học, khoa Công Nghệ Thông Tin – Trường Đại học Điện
Lực đã tạo điều kiện cho tôi trong quá trình học tập và nghiên cứu tại trường
Tôi cũng xin gửi lời cảm ơn tới các thành viên trong tập thể lớp CNTT đã luôn ủng hộ, động viên, đoàn kết giúp đỡ nhau trong quá trình họctập và nghiên cứu
CH3-Lời cuối cùng tôi xin cảm ơn tới bố mẹ, anh chị, người yêu thương tôi
đã luôn quan tâm, khích lệ, tạo điều kiện tốt nhất để tôi có thời gian, cơ hộiđược học hỏi và nghiên cứu theo những mong muốn của mình
Trong quá trình nghiên cứu, báo cáo đề tài của mình không tránh khỏinhững thiếu sót Tôi rất mong muốn nhận được nhiều sự góp ý, chỉ bảo củacác thầy cô và bạn bè để luận văn của tôi có thể hoàn thiện một cách tốt nhất,
có giá trị nhất
Tôi xin chân thành cảm ơn!
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan luận văn là công trình nghiên cứu của riêng tôi dưới
sự hướng dẫn của TS Nguyễn Đức Dũng Tôi cũng xin cam đoan rằng mọi sựgiúp đỡ cho việc thực hiện luận văn này đã được cảm ơn và các thông tin tríchdẫn trong luận văn đã được chỉ rõ nguồn gốc
Hà Nội, ngày 10 tháng 09 năm 2016
TÁC GIẢ
Nguyễn Thị Thoan
Trang 3MỤC LỤC
DANH MỤC HÌNH ẢNH
Trang 4DANH MỤC BẢNG BIỂU
Trang 5DANH MỤC TỪ VIẾT TẮT
HMM Hidden Markov Model
SVM Support Vector Machines
CRF Conditional Random Fields
Trang 6MỞ ĐẦU
1 Lý do chọn đề tài.
Ngày nay khi mà công nghệ thông tin đang dần phát triển mạnh mẽ vàứng dụng trên mọi mặt của đời sống, xã hội Chúng ta không thể phủ nhậnđược vai trò và tầm ảnh hưởng to lớn của nó đối với đời sống Hơn thế nữaviệc phát triển các ứng dụng thông minh sử dụng cho thực tiễn ngày một đòihỏi cao hơn Việc phát triển một ứng dụng trích rút dữ liệu đang được quantâm và dần được ứng dụng rộng rãi trong nhiều lĩnh vực: khoa học, ngânhàng, kinh tế, thương mại,
Với lượng dữ liệu mỗi ngày một nhiều khi mà con người không thể cậpnhật, xử lý được hết các thông tin, điều đó cần một công cụ trích rút một cáchchính xác những dữ liệu mà con người quan tâm để sử dụng chúng một cáchhiệu quả nhất Với nhu cầu như thế trích rút dữ liệu đã phát triển khá mạnhtrong những năm gần đây và đã có rất nhiều phương pháp cũng như các công
cụ được xây dựng để phục vụ cho việc nghiên cứu
Xác định được tầm quan trọng của việc trích rút thông tin ngày nay nêntôi lựa chọn đề tài " Nghiên cứu và đánh giá các phương pháp trích xuất siêu
dữ liệu từ văn bản" làm đề tài nghiên cứu của mình
2 Mục đích nghiên cứu của luận văn.
Tìm hiểu các phương pháp trích rút siêu dữ liệu và ứng dụng xây dựngmột công cụ trích rút siêu dữ liệu từ văn bản công văn dựa trên hệ luật Đưa rađược kết quả và đánh giá phương pháp
3 Nhiệm vụ nghiên cứu.
Tìm hiểu về các phương pháp trích rút siêu dữ liệu hiện nay
Trang 7Xây dựng công cụ trích rút siêu dữ liệu với đầu vào là các công văndựa trên phương pháp hệ luật và đưa ra kết quả cũng như đánh giá phươngpháp.
4 Đối tượng và phạm vi nghiên cứu.
Đối tượng nghiên cứu:
Các văn bản công văn dạng: doc, pdf, docx
Các phương pháp trích rút siêu dữ liệu
Phạm vi nghiên cứu:
Các văn bản công văn dạng: doc, pdf, docx
5 Phương pháp nghiên cứu.
Về thực nghiệm.
Tìm hiểu các phương pháp trích rút hiện nay và các kết quả thựcnghiệm của các phương pháp đó
Tìm hiểu phương pháp trích rút thông tin dựa trên hệ luật
Thu thập văn bản đầu vào gồm 100 văn bản công văn
Xây dựng công cụ trích rút
Thống kê kết quả chạy thử nghiệm và đánh giá phương pháp
Trang 86 Đóng góp của luận văn.
Có cái nhìn tổng quan về trích rút thông tin hiện nay và nắm rõ cáchướng tiếp cận để giải quyết bài toàn trích rút
Xây dựng một công cụ tiện lợi có thể áp dụng cho nhiều người có thể
sử dụng để trích rút thông tin văn bản công văn hoặc các tài liệu khác và đưa
ra được kết quả cũng như đánh giá phương pháp Rule based đối với loại vănbản công văn thực nghiệm này
7 Bố cục của luận văn.
Ngoài danh mục các bảng biểu, danh mục các ký tự , chữ viết tắt, danhmục tài liệu tham khảo, phụ lục Những nội dung của luận văn được chia làm
4 chương:
Chương 1 – Tổng quan về trích rút siêu dữ liệu
Chương 2 – Các phương pháp trích rút siêu dữ liệu
Chương 3 – Mô hình giải quyết bài toán trích rút thông tin văn bảncông văn bằng phương pháp hệ luật
Chương 4 – Nghiên cứu thử nghiệm
Trang 9CHƯƠNG 1: TỔNG QUAN VỀ TRÍCH RÚT SIÊU DỮ LIỆU 1.1 Phát biểu bài toán trích rút siêu dữ liệu.
Ngày nay với một lượng thông tin và dữ liệu ngày càng nhiều khiếnviệc tìm kiếm trở thành yêu cầu cấp thiết đối với con người Việc sắp xếp, lưutrữ cần phải hợp lý sao cho việc tìm kiếm dễ dàng nhất và hiệu quả nhất Vớiviệc xử lý dữ liệu bằng tay và lưu dữ liệu bằng giấy đã không còn phù hợp khicon người cần phải làm rất nhiều việc cùng một lúc và việc làm thủ công trêntốn kém quá nhiều công sức và thời gian Điều này đòi hỏi một công cụ giúplưu trữ và tìm kiếm nhanh, chính xác giúp chúng ta có thể làm việc một cáchhiệu quả nhất trong một thời gian ngắn nhất
Với dữ liệu thì siêu dữ liệu là một thành phần quan trọng của hệ thốngthông tin hiện đại vì nó giúp chúng ta phân loại những tài liệu liên quan vàkhông liên quan trong hoạt động tìm kiếm Đối mặt với nguồn dữ liệu khổng
lồ ngày nay sẽ là khó khăn trong việc tìm kiếm và phân loại tài liệu Để có thểgóp phần quản lý dữ liệu và giúp con người dễ dàng hơn trong quản lý, tìmkiếm và phân loại, luận văn đi sâu vào nghiên cứu các phương pháp trích rútthông tin và xây dựng một công cụ trích rút siêu dữ liệu từ các văn bản côngvăn bằng hướng tiếp cận dựa trên hệ luật
Dữ liệu đầu vào: các công văn dạng doc, docx hoặc pdf
Trang 10Hình 1.1 Công văn dữ liệu đầu vào.
Trang 11Thông tin đầu ra gồm: số công văn, thời gian(ngày, tháng, năm), tênngười, nơi nhận.
Hình 1.2 Siêu dữ liệu cần trích rút trong công văn.
Trang 121.2 Ý nghĩa bài toán.
Với các công tư, công văn, các biên bản ngày càng được ban bố nhiều
và thường xuyên thay đổi Việc lưu trữ, tìm kiếm các công văn bằng tay gâynhiều khó khăn trong quản lý và tốn kém nhiều thời gian Bằng việc áp dụngthuật toán trích rút để lấy các siêu dữ liệu giúp chúng ta có thể phân loại cáccông văn, sắp xếp, tìm kiếm công văn theo ngày, tháng, năm hay số công văn
sẽ được thuận tiện hơn, nhanh hơn
1.3 Các phương pháp tiếp cận.
Đã có rất nhiều công trình khoa học nghiên cứu bài toán trích rút thôngtin và ngày càng có nhiều phương pháp hay được ra đời nhằm mục đích giúpviệc trích xuất ngày một chính xác, hiệu quả hơn Cho đến hiện nay trích rútsiêu dữ liệu có ba phương pháp tiếp cận đó là: phương pháp dựa trên hệ luậttrong các nghiên cứu [1][15][19] và phương pháp tiếp cận dựa trên học máytrong các nghiên cứu [3][4][5][7][14] và phương pháp lai
Hướng tiếp cận dựa trên hệ luật thì được áp dụng kết hợp cùng với sựxuất hiện và phát triển của các từ điển và các Ontologies Về hướng tiếp cậntheo học máy có các phương pháp nổi bật như: mô hình Markov ẩn (HiddenMarkov Model - HMM), máy Vector hỗ trợ ( Support Vector Machines -SVM), mô hình trường điều kiện ngẫu nhiên (Conditional Random Fields -CRF) Phương pháp lai là sự kết hợp giữa phương pháp hệ luật và phươngpháp học máy
1.4 Những vấn đề khó khăn trong việc trích rút siêu dữ liệu.
Các siêu dữ liệu thường bị lỗi vì không có tiêu chuẩn nhất định về cấutrúc hay định dạng
Định dạng văn bản, phong cách viết, trình bày của mỗi tác giả khácnhau đã làm tăng khó khăn cho việc trích xuất siêu dữ liệu
Trang 131.5 Kết luận chương 1.
Ngày nay với lượng thông tin dữ liệu ngày càng nhiều khiến cho việctìm kiếm, tiếp cận thông tin cần quan tâm ngày càng khó khăntrong khi đócon người còn rất nhiều việc cần giải quyết Chương 1 đã phát biểu được bàitoán trích rút dữ liệu ở đây với đầu vào là các văn bản công văn và thông tin
ra là các siêu dữ liệu: số công văn, thời gian (ngày, tháng, năm), nơi nhận vàtên người
Với việc trích rút các siêu dữ liệu chúng ta có thể phân loại các côngvăn, tìm kiếm công văn theo ngày, tháng, năm hay số công văn sẽ được thuậntiện hơn, nhanh hơn
Để giải quyết bài toán trích rút thông tin ngày nay đã có ba hướng tiếpcận chính đó là: hướng tiếp cận sử dụng hệ luật, hướng tiếp cận dựa trên họcmáy và hướng tiếp cận lai Với sự đa dạng của ngôn ngữ Tiếng Việt, đồngthời không có chuẩn nào cho các dữ liệu trích rút, định dạng, phong cách viếtcủa mỗi tác giả khác nhau đã làm tăng độ khó trong việc trích rút dữ liệu vàcũng là thách thức đặt ra cho mỗi nhà nghiên cứu
Trang 14CHƯƠNG 2: CÁC PHƯƠNG PHÁP TRÍCH RÚT SIÊU DỮ LIỆU
Như đã nói ở trên hiện nay với bài toán trích xuất siêu dữ liệu có bahướng tiếp cận đó là phương pháp dựa trên hệ luật, phương pháp dựa trên họcmáy và phương pháp lai Vì thời hạn không cho phép nên trong chương haitôi trình bày hai phương pháp đó là phương pháp dựa trên hệ luật và học máy
2.1 Phương pháp trích rút dựa trên hệ luật.
2.1.1 Tổng quan về tiếp cận dựa trên hệ luật.
Trong nghiên cứu gần đây của Somchai Chatvichienchai [19], một hệthống dựa trên hệ luật bao gồm các tập luật cơ bản Nếu – Thì (If -Then), tậpcác sự vật, bộ thông dịch sử dụng tập luật để sinh ra các sự vật
Hệ thống áp dụng phương pháp dựa trên luật sẽ khảo sát dữ liệu và tạo
ra một tập luật ban đầu dựa theo phương pháp thủ công, sau đó áp dụng vào
mô hình và mở rộng tập luật này Các luật chủ yếu được xây dựng dựa trênngữ cảnh chứa thực thể đang xét Chương 3 sẽ đề cập chi tiết về cách áp dụngphương pháp này và mô hình giải quyết bài toán
Một trong những phương pháp dựa trên hệ luật dùng để trích chọn thựcthể đem lại kết quả khả quan là phương pháp sử dụng giải thuật DIPRE ( DualInterative Pattern Relation Expansion) do Brin đề xuất Phương pháp này sửdụng học bán giám sát ( semi-supervised) để xử lý dữ liệu ban đầu
2.1.2 Giải thuật DIPRE.
Học bán giám sát.
Có thể thấy hiện nay, nhu cầu về một lượng lớn các dữ liệu học vànhững khó khăn để thu được các dữ liệu đó đặt ra một câu hỏi quan trọng:Liệu có thể sử dụng được nguồn thông tin nào khác trong phân lớp văn bản
Trang 15mà có thể làm giảm sự cần thiết của dữ liệu gán nhãn? Đây chính là nguồnđộng lực thúc đẩy sự phát triển của các phương pháp học bán giám sát.
Nhìn vào sự tồn tại của dữ liệu ta thấy, trong thực tế dữ liệu thường tồntại ở dạng trung gian: Không phải tất cả dữ liệu đều được gán nhãn cũng nhưkhông phải tất cả chúng đều chưa được gán nhãn Bán giám sát là mộtphương pháp học sử dụng thông tin từ cả hai nguồn dữ liệu này
Trong khoa học máy tính, phương pháp học bán giám sát là một phầncủa học máy mà trong đó nó có thể sử dụng cả dữ liệu đã được gán nhãn và
dữ liệu không gán nhãn làm tập huấn luyện – một lượng nhỏ các dữ liệu gánnhãn với một lượng lớn dữ liệu chưa được gán nhãn
Học có giám sát là phương pháp sử dụng tập dữ liệu đã được gán nhãn,việc gán nhãn thủ công này rõ ràng là tốn thời gian, công sức và khó khăn,không đảm bảo được độ chính xác
Ngược lại, học không giám sát là phương pháp sử dụng tập dữ liệuchưa gán nhãn Trong khi lượng dữ liệu chưa gán nhãn là rất nhiều, dễ thuthập nhưng cũng khiến cho học không giám sát đôi khi không đảm bảo đượckết quả khả quan
Từ đó, học bán giám sát đã ra đời dưới sự kết hợp ưu điểm và hạn chếcủa học có giám sát và không giám sát Mục đích chính của học bán giám sát
là mở rộng tập dữ liệu không gán nhãn ban đầu
Trang 16- Trong nhận dạng lời nói, ta dễ dàng ghi lại một lượng lớn các bàidiễn thuyết, nhưng để gán nhãn chúng yêu cầu con người phải lắngnghe rồi đánh máy sao chép lại.
- Sự phong phú của hàng tỉ các trang web sẵn sàng cho xử lý tự động,nhưng để phân lớp chúng một cách tin cậy đòi hỏi con người phảiđọc chúng…
Học bán giám sát là việc học trên cả dữ liệu đã và chưa được gán nhãn
Từ một số lượng lớn các dữ liệu chưa được gán nhãn, và một lượng nhỏ dữliệu đã được gán nhãn ban đầu ( thường gọi là seed set) để xây dựng một bộphân lớp thậm chí là tốt hơn Trong quá trình học như thế phương pháp sẽ tậndụng được những thông tin phong phú của dữ liệu chưa gán nhãn (unlabeleddata), mà chỉ yêu cầu một số lượng rất nhỏ các dữ liệu đã gán nhãn ( labeleddata)
Ý tưởng chung là vẫn thu được performance tốt như đối với việc họctrên tập một tập dữ liệu lớn đã được gán nhãn
Giải thuật DIPRE
Brin đã đưa ra phương pháp DIPRE cho việc mở rộng mối quan hệ mẫutrong văn bản trên môi trường Web để trích chọn thực thể Phương pháp nàydựa vào các mẫu (pattern) và các tập nhỏ ban đầu (seed) để trích ra các quan
hệ mẫu phù hợp với ngữ cảnh của các văn bản
Ban đầu ta có một tập mồi chứa các bộ, các bộ này là những xâu sẽxuất hiện trong tập các văn bản trên web Cơ bản của phương pháp DIPRE màBrin muốn hướng tới đó là từ các bộ sẽ trích chọn ra được các mẫu và ngượclại, từ các mẫu sẽ sinh ra các bộ mới
Mẫu ở đây sẽ chứa các thành phần trong bộ mà ta cần chọn và thêm cácngữ cảnh liên quan Phương pháp này chính là việc trích chọn quan hệ giữa
Trang 17mẫu để đưa ra kết quả thu được là danh sách các thực thể tên mà ta cần tríchra.
Thuật toán DIPRE như sau:
Ban đầu có một tập nhỏ D các cặp (tác giả, tên sách)
1 Sử dụng tập nhỏ chứa các ví dụ liên quan tới thực thể cần trích chọn
để gán nhãn các dữ liệu
2 Tạo ra các mẫu từ các dữ liệu đã được gán nhãn
3 Đưa các mẫu từ dữ liệu chưa được gán nhãn tới tập các cặp (tác giả,tên sách) mới và thêm chúng vào trong tập nhỏ các cặp D ban đầu
4 Quay trở lại bước 1 và lặp lại cho tới khi mẫu mới, quan hệ mớikhông được sinh ra thì giải thuật sẽ dừng
Vấn đề khó khăn của DIPRE.
Vấn đề về hiệu suất chính là vấn đề mà DIPRE gặp phải Việc sử dụngtập mồi nhỏ để từ đó trích chọn ra các mẫu rồi lại trích chọn ra quan hệ mới,tốc độ của DIPRE sẽ rất chậm và đặc biệt trong trường hợp tập seed chứa dữliệu có sự xuất hiện ít, trong khi tập dữ liệu sẽ phải thực hiện tìm kiếm là lớn.Khi đó, yêu cầu đặt ra sẽ phải quét hết một số lượng lớn các mẫu và các bộtrong một kho dữ liệu vô cùng lớn Và liệu rằng DIPRE có lưu giữ được dữliệu khi đã bị phân tách từ kết quả khi chung mở rộng quan hệ giữa các mẫu.Điều này không chỉ kéo theo tốc độ giảm mà kết quả cũng thấp
Ý tưởng phương pháp trích rút dựa trên hệ luật là sử dụng một bộ từđiển gồm các đặc trưng của thông tin cần trích rút Sau đó dựa vào từng cấutrúc của dữ liệu và bộ từ điển để xây dựn nên luật trích rút dữ liệu đó Phươngpháp trích rút dữ liệu một cách tự động và không cần tập dữ liệu huấn luyện
Trang 18Hình 2.1 Mô tả phương pháp Rule-Based.
Mặc dù gần bị lãng quên trong những đề tài nghiên cứu khoa họcnhưng với cấu trúc khá đơn giản và tính chi phí thấp Rule-Based đã thực sựkhẳng định vị thế của mình khi áp dụng vào xử lý các bài toán thương mại vàđem lại lợi ích kinh tế nhiều cho lĩnh vực này
Trong một nghiên cứu về thị trường thương mại của Laura Chiticariu,Yunyao Li, Fredrick R.Reiss [15] đã cho thấy sự trái ngược trong việc nghiêncứu giữa Rule-Based, Hybrid và Machine Learning Based vào việc ứng dụngcác nghiên cứu vào thị trường thương mại
Cùng nhìn xuống biểu đồ dưới đây để có thể nhìn thấy được sự đối lậpnày
Hình 2.2 Tiếp cận rule-based, mặc dù bị bỏ qua trong cộng đồng nghiên cứu,
nhưng chiếm lĩnh thị trường thương mại [15].
Trang 19Điều này đã cho thấy rằng trong lĩnh vực nghiên cứu Rule-based tuy đãlỗi thời nhưng lợi ích cũng như sự tiện lợi của nó mang lại cho ngành thươngmại là rất lớn và chính vì thế các nhà nghiên cứu hoặc các nhà đầu tư kinhdoanh sẽ vẫn tiếp tục phát triển và hoàn thiện hơn phương pháp Rules-basedvào các lĩnh vực khác nhau vì tính đơn giản và hiệu quả của nó.
Trong chương 3 sẽ đề cập chi tiết về cách áp dụng phương pháp nàyvào mô hình giả quyết cụ thể bài toán trích rút siêu dữ liệu từ văn bản côngvăn
2.2 Phương pháp trích rút dựa trên học máy
2.2.1 Mô hình Markov ẩn.
Theo nghiên cứu [14] mô hình Markov ẩn là kỹ thuật đã được sử dụng
để giải quyết các bài toán gán nhãn cho dữ liệu dạng chuỗi Gần đây, một số
mô hình có điều kiện như Maximun Entropy Markov Model và ConditionalRandom Field được sử dụng nhiều bởi khả năng cho phép các tính năngchồng chéo Đặc biệt là CRF được coi là một phương pháp rất triển vọng đốivới bài toán gán nhãn cho chuỗi
Trong nghiên cứu [2] HMM là mô hình thống kê trong đó hệ thống môhình hóa được cho là một quá trình Markov với các tham số không biết trước
và nhiệm vụ là xác định các tham số ẩn từ các tham số quan sát được dựa trên
sự thừa nhận này Các tham số của mô hình được rút ra sau đó có thể sử dụng
để thực hiện các phân tích kế tiếp, ví dụ cho các ứng dụng nhận dạng mẫu
Trong một mô hình Markov điển hình, trạng thái được quan sát trựctiếp bởi người quan sát, và vì vậy các xác suất chuyển tiếp trạng thái là cáctham số duy nhất Mô hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái cóxác suất phân bổ trên các biểu hiện đầu ra có thể Vì vậy, nhìn vào dãy củacác biểu hiện được sinh ra bởi HMM không trực tiếp chỉ ra dãy các trạng thái
Trang 20Các trạng thái trong mô hình HMM được xem là bị ẩn đi bên dưới dữ liệu quan sát sinh ra do mô hình Quá trình sinh ra chuỗi dữ liệu quan sát trong HMM thông qua một loạt các bước chuyển trạng thái xuất phát từ một trong các trạng thái bắt đầu, chuyển tiếp tới một trạng thái mới, quan sát một
dữ liệu được lựa chọn bởi trạng thái đó, quá trình chuyển tiếp lại làm tương
tự, quan sát một dữ liệu khác và cứ tiếp tục như vậy cho tới một trạng thái đích cuối cùng được đưa ra Kết hợp các dữ liệu thu được thành một tập dữ liệu của các trạng thái:
– chuỗi các trạng thái ẩn
và xác suất phân bố trên các biểu hiện đầu ra có thể trong các từ vựng quan sát:
– chuỗi các dữ liệu quan sát
Từ đây ta có thể tìm ra chuỗi các trạng thái mô tả tốt nhất cho chuỗi dữ liệu quan sát bằng cách tính:
Ta có thể mô hình hóa HMM dưới dạng một đồ thị có hướng như sau:
…
…
Hình 2.3 Ví dụ mô hình Markov.
Ở đây, là trạng thái ở thời điểm t=I trong chuỗi trạng thái S, là dữ liệu quan sát được tại thời điểm t=I trong chuỗi O Sử dụng tính chất Markov thứ
Trang 21nhất ( trạng thái hiện tại chỉ phụ thuộc vào trạng thái ngay trước đó) và giảthiết dữ liệu quan sát được tại thời điểm t chỉ phụ thuộc trạng thái tại t, ta cóthể tính xác xuất P(S,O) như sau:
Quá trình tìm ra chuỗi trạng thái tối ưu mô tả tốt nhất chuỗi dữ liệu quan sát cho trước có thể được thực hiện bởi một kĩ thuật lập trình quy hoạch động sử dụng thuật toán Viterbi
Các ứng dụng phổ biến của mô hình Markov ẩn:
+ Tin sinh học (bioinformatics): là một lĩnh vực khoa học sử dụng cáccông nghệ của các ngành toán học ứng dụng, tin học, thống kê, khoa học máytính, trí tuệ nhân tạo, hóa học và sinh học
+ Xử lý tín hiệu, phân tích dữ liệu và nhận dạng mẫu
+ HMM còn được dùng rất nhiều trong phân tích ngôn ngữ: Nhận dạngtiếng nói (đối tượng quan sát được: tín hiệu âm thanh, đối tượng ẩn là từ ngữ)
+ Nhận dạng chữ viết tay: đối tượng quan sát được là kí hiệu, đối tượng
Trang 22
Hình 2.4 Các thành phần của HMM.
– Trạng thái ở thời điểm t
= (ký hiệu) Quan sát tại thời điểm t
= {} Phân bố trạng thái ban đầu
Phân bố xác xuất chuyển trạng thái
Phân bố xác xuất ký hiệu quan sát được theo trạng thái.HMM được xác định bởi 5 thành phần
1- Tập hợp các trạng thái ẩn: N: số trạng thái, trạng thái tại thời gian t
2- Tập hợp các ký hiệu quan sát được, M: số ký hiệu quan sát được
3- Phân bố trạng thái ban đầu
4- Phân bố xác xuất chuyển trạng thái
5- Phân bố xác xuất ký hiệu quan sát được theo trạng thái
Trang 23Tóm lại các thành phần của HMM gồm:
+ 2 tham số không đổi về kích cỡ: N và M (tổng số trạng thái và tổng
số ký hiệu quan sát được S, O)
+ 3 tập hợp phân bố xác xuất:
Hạn chế của mô hình HMM
Chúng ta cần nhiều chuỗi dữ liệu quan sát hơn để tính P(S,O) Tuynhiên, S là chuỗi các trạng thái ẩn, số lượng có hạn thì có thể liệt kê đượcnhưng chuỗi dữ liệu quan sát được O thì rất đa dạng, ta không thể nào có thểliệt kê ra hết được
Khi áp dụng vào các bài toán phân lớp dữ liệu dạng chuỗi, các mô hìnhthường sử dụng xác suất đồng thời để mô hình hóa các bài toán có tính điềukiện Với các bài toán này sẽ thích hợp hơn nếu ta dùng một mô hình điềukiện có thể tính toán P(S|O) trực tiếp thay vì P(S,O) ban đầu
2.2.2 Mô hình máy vecto hỗ trợ - SVM.
Trong nghiên cứu [4] SVM ra đời từ lý thuyết học thống kê do CorinnaCortes và Vladimir Vapnik xây dựng và có nhiều tiềm năng phát triển về mặt
lý thuyết cũng như ứng dụng trong thực tiễn
SVM là phương pháp chuyển tập mẫu từ không gian biểu diễn Rn củachúng sang một không gian Rd có số chiều lớn hơn Trong không gian Rd tìmmột siêu phẳng tối ưu để phân tách tập mẫu này dựa trên phân lớp của chúng,
có nghĩa là tìm ra miền phân bố của từng lớp trong không gian Rn đề từ đóxác định được phân lớp của một mẫu cần nhận dạng
Ví dụ trong tập dữ liệu phân chia tuyến tính, hàm phân loại tuyến tínhtương ứng với một siêu phẳng f(x) phân chia hai tập hợp Khi hàm này được
Trang 24xác định thì bất kỳ một thể hiện mới sẽ được phân lớp đơn giản bằng việc xétdấu của hàm nếu thuộc về tập các giá dương thì ngược lại thì thuộc tập cácgiá trị âm.
Mô hình phân lớp SVM nhị phân:
Theo chia sẻ của [22] tư tưởng chung của học máy SVM như sau:
- Giai đoạn xây dựng mô hình: Cho một tập mẫu dữ liệu huấn luyện đãđược gán nhãn lớp, như vậy có một tập nhãn lớp tương ứng xác định têntập mẫu Mỗi mẫu dữ liệu được biểu diễn dưới dạng một vector đặc trưng.Dựa vào vector đặc trưng của các mẫu dữ liệu huấn luyện, mô hình máyvector hỗ trợ sẽ được xây dựng để phân tách các mẫu học Trong trường hợpkhả tách tuyến tính, nó là một siêu phẳng (hyperplane) trong không gian dùng
để phân tách tuyến tính các mẫu thuộc các nhãn lớp khác nhau với khoảngcách lớn nhất có thể Trong trường hợp không khả tách tuyến tính, chúng
ta có thể sử dụng lề mềm (soft margin) để phân tách mẫu học, hay sử dụngánh xạ phi tuyến để chuyển không gian ban đầu sang không gian mới có sốchiều lớn hơn mà ở đó các mẫu học có khả năng phân tách tuyến tính
- Giai đoạn sử dụng mô hình: Mô hình đã xây dựng sẽ được sử dụng
để gán nhãn lớp cho các mẫu dữ liệu mới
Trường hợp khả tách tuyến tính
Trang 25Hình 2.5 Mô hình vector hỗ trợ khả tách tuyến tính.
Đầu vào của thuật toán là một tập dữ liệu huấn luyện, mỗi mẫu đượcđánh dấu rơi vào một trong hai lớp gọi chung là lớp mẫu âm và lớp mẫudương Đầu ra của mô hình là một mặt siêu phẳng phân tách các mẫu dương
và mẫu âm với khoảng cách lề cực đại
Thuật toán SVM được mô tả cụ thể
Cho 1 tập huấn luyện các cặp (, với i = 1,…, l; trong đó là không gianvector đặc trưng n chiều; , các mẫu dương là các mẫu thuộc lĩnh vực quantâm và được gán nhãn , các mẫu âm là các mẫu không thuộc lĩnh vực quantâm và được gán nhãn
Trong trường hợp này, bộ phân lớp SVM là một siêu phẳng phân táchtập mẫu dương khỏi tập mẫu âm với độ chênh lệch cực đại Độ chênh lệchcực đại này còn gọi là lề của siêu phẳng (margin) Lề xác định khoảng cáchgiữa các mẫu dương với âm gần mặt siêu phẳng nhất Các mặt siêu phẳngtrong không gian đối tượng có phương trình là , trong đó w là vector pháptuyến, b là tham số mô hình phân lớp Khi thay đổi w và b, hướng và khoảngcách từ gốc tọa độ đến mặt siêu phẳng thay đổi Các giá trị khác nhau của lề
Trang 26cho ta các họ mặt siêu phẳng khác nhau và lề càng lớn thì lỗi tổng quát hóacủa bộ phân lớp càng giảm.
Thuật toán SMV ước lượng các tham số w và b nhằm tìm ra mặt siêuphẳng phân tách lớp mẫu dương khỏi lớp mẫu âm với lề cực đại Mặt siêuphẳng này còn được gọi là mặt siêu phẳng lề tối ưu hay ranh giới quyết địnhhoặc là lề cứng
Bộ phân lớp SVM được định nghĩa như sau:
(2.1)Trong đó:
,
Nếu f(x) = +1 thì x thuộc về lớp dương, và ngược lại nếu f(x) = -1 thì xthuộc về lớp âm
Tập dữ liệu huấn luyện là khả tách tuyến tính, ta có các ràng buộc sau:
Hai mặt siêu phẳng có phương trình là được gọi là các mặt siêu phẳng
hỗ trợ (các đường nét đứt trên hình)
Để xây dựng một mặt siêu phẳng lề tối ưu, ta phải giải bài toán:
Cực đại hóa:
(2.2)Với các ràng buộc:
và Trong đó các hệ số Lagrange , là các biến cần được tối ưu hóa
Trang 27Trường hợp không khả tách tuyến tính.
Có thể giải theo 2 phương pháp sau:
Cách thứ nhất sử dụng một mặt siêu phẳng lề mềm, nghĩa là cho phépmột số mẫu huấn luyện nằm về phía sai của mặt siêu phẳng phân tách hoặcvẫn ở vị trí đúng nhưng rơi vào vùng giữa mặt phẳng phân tách và mặt phẳng
hỗ trợ tương ứng
Trong trường hợp này, các hệ số Lagrange của bài toán quy hoạch toànphương có thêm một cận trên C dương – tham số do người sử dụng lựa chọn.Tham số này tương ứng với giá trị phạt đối với các mẫu bị phân loại sai
Cụ thể, tập dữ liệu huấn luyện là khả tách tuyến tính, ta có các ràngbuộc sau:
Để xây dựng một mặt siêu phẳng lề tối ưu, ta phải giải bài toán:
Cực đai hóa:
(2.3)Với các ràng buộc:
Trang 28Cực đại hóa:
(2.4)Với các ràng buộc:
trong đó k là một hàm nhân thỏa mãn:
(2.5)
Trang 29Với việc dùng một hàm nhân, ta không cần biết rõ về ánh xạ Hơn nữa,bằng cách chọn một nhân phù hợp, ta có thể xây dựng được nhiều bộ phân lớpkhác nhau.
Có một số hàm nhân cơ bản sau đây:
Đa thức:
(2.6)Hàm vòng RBF (Radial Basic Function):
Hàm chữ S Sigmoid:
(2.8)trong đó gamma, coef0 và degree là các tham số nhân
2.2.3 Mô hình trường điều kiện ngẫu nhiên.
CRF được giới thiệu vào những năm 2011 bởi Lafferty và các đồngnghiệp [8][6] CRF là mô hình dựa trên xác xuất ngẫu nhiên của các trườngđiều kiện, thường được sử dụng trong gán nhãn và phân tích dữ liệu tuần tự,ví dụ ký tự, ngôn ngữ tự nhiên CRF là mô hình đồ thị vô hướng điều này chophép CRF có thể định nghĩa phân phối xác suất của toàn bộ chuỗi trạng tháivới điều kiện biết chuỗi quan sát cho trước thay vì phân phối trên mỗi trạngthái với điều kiện biết trạng thái trước đó
Mô hình CRF.
Trong nghiên cứu [5] CRF được định nghĩa
Cho một đồ thị vô hướng không có chu trình G(V,E), ở đây V là tập cácđỉnh của đồ thị và E là tập các cạnh vô hướng nối các đỉnh của đồ thị nếu thỏamãn:
thì V gọi là trường ngẫu nhiên
Trang 30Hình 2.7 Một trường ngẫu nhiên.
Vậy là trường ngẫu nhiên
Cho X là biến ngẫu nhiên nhận giá trị là chuỗi dữ liệu cần phải gánnhãn Y là biến ngẫu nhiên nhận giá trị là chuỗi nhãn tương ứng Mỗi thànhphần của Y là một biến ngẫu nhiên nhận giá trị trong tập hữu hạn các trạngthái S Các đỉnh V biểu diễn các thành phần của biến ngẫu nhiên Y sao chotồn tại ánh xạ một – một giữa các đỉnh và một thành phần của Y
CRF được định nghĩa: (Y|X) là một trường ngẫu nhiên điều kiện vớiđiều kiện X khi ta chỉ tính được xác xuất có điều kiện với và và với mỗi tachọn được
Trong bài toán dữ liệu dạng chuỗi, G có thể được biểu diễn như sau:
G = ( V = {1,2,3,…,m}, E = {i, i+1} i=1…m-1)
Ký hiệu X = (, Ta có mô hình đồ thị vô hướng của CRF có dạng sau:
Trang 31
…
…
Hình 2.8 Đồ thị vô hướng mô tả cho CFR.
Gọi C là tập hợp tất cả các đồ thị con đầy đủ của đồ thị G (đồ thị biểudiễn cấu trúc của một CRF) Theo kết quả của Hammerly-Clifford cho cáctrường Markov, ta thừa số hóa được p(y | x) – xác suất của chuỗi nhãn vớiđiều kiện biết chuỗi dữ liệu quan sát – thành tích các hàm tiềm năng:
(2.9)
Có thể mô phỏng như hình sau:
Hình 2.9 Mô tả các hàm tiềm năng.
Tính chất của trường điều kiện ngẫu nhiên:
+ Mô hình phân biệt (discriminative models)
+ Mô hình chuỗi (sequetial models)
+ Mô hình đồ thị vô hướng (undirected graphical models)
Nguyên lý cực đại hóa Entropy
Trang 32Laferty xác định các hàm tiềm năng cho các mô hình CRF dựa trênnguyên lý cực đại hóa Entropy Nguyên lý này cho phép đánh giá các phânphối xác suất từ một tập các dữ liệu huấn luyện.
Độ đo Entropy điều kiện
Entropy là độ đo tính đồng đều hay tính không chắc chắn của một phânphối xác suất Độ đo Entropy điều kiện của một phân phối mô hình trên “mộtchuỗi trạng thái với điều kiện biết chuỗi dữ liệu quan sát ” p(y | x) có dạngsau:
(2.10)
=-Các ràng buộc đối với phân phối mô hình
Vấn đề chính là phải tìm ra chuỗi p*(y|x) sao cho thỏa mãn hàm mục tiêu sau:
(2.11)Các ràng buộc đối với mô hình được thiết lập bằng cách thống kê các thuộc tính được rút ra từ tập dữ liệu huấn luyện Ví dụ về một thuộc tính
Tập các thuộc tính là tập hợp các thông tin quan trọng trong dữ liệu huấn luyện Ký hiệu kì vọng của thuộc tính f theo phân phối xác suất thực nghiệm :
(2.12)
Ở đây là phân phối thực nghiệm trong dữ liệu huấn luyện Dữ liệu huấn luyện gồm N cặp, mỗi cặp gồm một chuỗi dữ liệu quan sát và một chuỗi nhãn , khi đó phân phối thực nghiệm trong dữ liệu huấn luyện được tính như sau :
* số lần xuất hiện đồng thời của x,y trong tập huấn luyện
Trang 33Kỳ vọng của thuộc tính f theo phân phối xác suất trong mô hình
(2.13)Phân phối mô hình thống nhất với phân phối thực nghiệm chỉ khi kỳ vọng của mọi thuộc tính theo phân phối xác suất phải xấp xỉ bằng kì vọng củathuộc tính đó theo phân phối mô hình:
(2.14)
Từ công thức (2.14) có thể thấy rõ các ràng buộc của mô hình
Nguyên lý cực đại hóa Entropy
Gọi P là không gian của tất cả các phân phối xác suất điều kiện, và n là
số các thuộc tính rút ra từ dữ liệu huấn luyện P’ là tập con của P, P’ được xác định như sau:
(2.15)
Tư tưởng chính của nguyên lý cực đại hóa Entropy là ta phải xác định một phân phối mô hình sao cho: phân phối mô hình phải thỏa mãn mọi ràng buộc được rút ra từ thực nghiệm, và phải gần nhất với phân phối đều Có nghĩa là ta phải tìm phân phối mô hình p( y | x ) thỏa mãn hai điều kiện thứ nhất phải thuộc tập P’ thứ hai là nó phải làm cực đại hóa Entropy điều kiện (2.10)
Hay nói cách khác khi và và ta sẽ có (2.10)
Với mỗi một thuộc tính fi ta đưa vào một thừa số langrange λi, ta định nghĩa hàm Lagrange L(p, λ) như sau:
(2.16)Phân phối p(y | x) làm cực đại hóa độ đo Entropy H(p) và thỏa mãn n ràng buộc (2.14) cũng sẽ làm cực đại hàm L(p, λ) Từ (2.16) suy ra
(2.17)
Ở đây là thừa số chuẩn hóa để đảm bảo với mọi x :
(2.18)
Trang 34Hàm tiềm năng của các mô hình CRF
Bằng cách áp dụng nguyên lý cực đại hóa Entropy, Lafferty xác định hàm tiềm năng của một CRF có dạng hàm số mũ
(2.19)Trong đó :
là một thuộc tính của chuỗi dữ liệu quan sát
là trọng số chỉ mức độ biểu đạt thông tin của thuộc tính
A là đồ thị con của đồ thị vô hướng G
2.3 Kết luận chương 2.
Với hướng tiếp cận sử dụng hệ luật với ý tưởng phương pháp là sửdụng một bộ từ điển gồm các đặc trưng của thông tin cần trích rút Sau đó dựavào từng cấu trúc của dữ liệu và bộ từ điển để xây dựn nên luật trích rút dữliệu đó Phương pháp trích rút dữ liệu một cách tự động và không cần dữ liệuhuấn luyện
Với hướng tiếp cận học máy thì có ba phương pháp: phương pháp môhình Markov ẩn sử dụng thống kê trong đó hệ thống được mô hình hóa đượccho là một quá trình Markov với các tham số không biết trước và nhiệm vụ làxác định các tham số ẩn từ các tham số quan sát được; phương pháp hỗ trợmáy vector sử dụng thuật toán phân lớp để trích chọn thông tin quan tâm vềmột bên mặt phẳng và thông tin không quan tâm về một bên mặt phẳng; đốivới phương pháp trường điều kiện ngẫu nhiên là kiểu mô hình đồ thị vôhướng dùng để mã hóa những mối quan hệ của những mẫu quan sát được vàxây dựng nên những đặc tả phù hợp