Trích rất thông lần tới chung: và trích rút thực thể nói riêng là một giải pháp đề khan thác, chuyển thông tin trong văn bản bán hay không câu trúc về dạng, có câu trúc phục vụ nhu cầu t
Trang 1MUC LUC 1
LỒI CAM DOÀN .cceccoeioe
LỠI CẢMƠN, ccioeiriee TH HH go eeenireoreoo
TDANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT ~ - 6
1.2 Mục đích nghiền cứu ceeieerrerrsrierererereure TÔ
1.4 Bề cục luận vẫm ch ecerrrrrrrrrreeecee.LT
CHUONG I TONG QUAN VE TRICH RÚT THỰC THẺ 13
2.1.1 Bài toàn trích rút thông HHn ì cà sseeeesrreoe L3
2.12 Khải niệm trích rút thông tin
3.1.3 Các phương pháp trích rút thông tin - - 15 2.1.4 Thành phân hệ thông trích rút thông tin ocnieorerorree 18
h
Trang 22.3 Ứng dụng trích rút thực thể vào bài toán hỏi đáp - 36
2.3.1 Bài toán hồi đáp eeieiereriiiirirerirreoeeee 3Ô 3.3.2 Hướng tiếp cận cho bài toán hồi đáp cà nrieireerree 38
CHƯƠNGTT BÀI TOÁN TRÍCH RÚT THONG TIN BAT BONG SAN 39
3.1 Bài toán trích rút thông tin bất động sản - 3o
3.1.1 Mô tả bài toán ằieniseirriiiirirerirroeeeee.3Ð
3.2 Ứng dựng trích rút thông tin vào bài toán hỏi đáp thông tin bất động sẵn 49
4 THỰC NGIUIỆM VÀ DÀNH GIÁ 0022052222 ccceecerrrrrxee 35
Trang 34.3 Đánh giá kết quả hệ thông hỏi đáp
4.4 Các khó khắn co
CHƯƠNG V TỐNG KT
5.1 Các kết quá đạt được
5.2 Hướng nghiên củư tiếp theo
TÀI LIỆU THAM KHẢO
Trang 4Tằng 1 Bằng gợi ý hướng tiếp cận xây dựng hé thong IE 18
Bảng 2 Dộ chính xác các moddde IlẺ
Bảng 3 Độ chính xác hệ thông NER trong các ngôn ngữ 31
Bang 4: Môi trưởng cải dat
a
Trang 5LỜI CẢM GON
Để hoàn thành luận văn nảy, tác giả đã nhận được sự hướng dẫn lận tình cũng, như những yêu cầu nghiêm khắc của PGS.TS Lẻ Thanh Hương, người đã truyền dạt rất nhiều kiển thức cũng như kinh nghiệm trong quá trình nghiên cứu hoàn thành luận
văn này Tác giâ xin gửi lời cảm ơn chân thành tới cô
Xin gửi lời cảm ơn chân thành tới tắt cả các thầy cô Viện Công nghệ Thông tin,
Tan lãnh đạo Viện Công nghệ Thông tin, Viện đảo tạo Sau đại học và Bộ môn Hệ
thông Thông tin thuộc trưởng Đại học Bách Khoa Hà Nội đã giảng dạy và tạo diễu kiện thuận lợi trong quả trình nghiên cửu và hoàn thánh luận văn
Với năng lực hạn chế của bản thân cũng như những nguyên nhân chủ quan và
khách quan, luận văn không tránh khói những thiểu sót Tác giá rất mong được sự góp
ý của quy thay cô, các bạn bẻ và đồng nghiệp để luận văn được hoàn thiện hơn
Tác giả
Đăng Thị Phương
Trang 6Thông qua để tài “Trích rất thực thể trong vấn bản liếng Việt, tác giả mong
uốn dạt được một số mục dịch như sau:
- Tim hiéu téng quan vẻ trích rút thông tín nói chung và cụ thể là trích rút thực
thể trong tiếng Việt
- Xv dựng hệ thông trích rút thông tin cơ bản về bat động sản từ bản tin trên các trang web khác nhau Hệ thống này với mục đích có thể trích rút nhanh chóng các thông tin bất động sẵn trên thị trường phục vụ nhu cảu tìm kiểm
thông tin của người dùng
-_ Dựa trên các kết quả được tích rút, xây dựng hệ thống hỏi đáp thân thiện với người dùng đáp ứng nhụ cầu tim kiểm thông tin bất động sẵn
1.3 Nội dung nghiên cứu
Luận văn nay sẽ tập trung vảo việc trích rút thực thẻ từ van ban bán và phi cầu
trúc thuộc lĩnh vực bất động sản trên môi trường Web Cáo tập đữ liệu thử nghiệm
được Thu thập lừ các Irang web giao bản bất đông sẵn phổ biến hiện nay
Để thực hiện trích rút thông tin, luận văn sẽ sử dụng kết hợp các phương pháp
trích rút dựa trên luật, từ điển va trích rút dựa trên học máy Tùy từng đối lượng trích
rút cụ thể sẽ có phương pháp riêng cho phủ hợp để thu được kết quá tốt nhất Đã có rất
nhiéu kết quả của việc xử lý ngôn ngữ Tiếng Việt đạt được thành tựu với độ chính xác
cao, cũng như các công cụ hỗ trợ quả trình trích rút, nên hệ thống này dược xây đựng
dựa trên một số các kết quả và công cụ đó
10
Trang 7Thông qua để tài “Trích rất thực thể trong vấn bản liếng Việt, tác giả mong
uốn dạt được một số mục dịch như sau:
- Tim hiéu téng quan vẻ trích rút thông tín nói chung và cụ thể là trích rút thực
thể trong tiếng Việt
- Xv dựng hệ thông trích rút thông tin cơ bản về bat động sản từ bản tin trên các trang web khác nhau Hệ thống này với mục đích có thể trích rút nhanh chóng các thông tin bất động sẵn trên thị trường phục vụ nhu cảu tìm kiểm
thông tin của người dùng
-_ Dựa trên các kết quả được tích rút, xây dựng hệ thống hỏi đáp thân thiện với người dùng đáp ứng nhụ cầu tim kiểm thông tin bất động sẵn
1.3 Nội dung nghiên cứu
Luận văn nay sẽ tập trung vảo việc trích rút thực thẻ từ van ban bán và phi cầu
trúc thuộc lĩnh vực bất động sản trên môi trường Web Cáo tập đữ liệu thử nghiệm
được Thu thập lừ các Irang web giao bản bất đông sẵn phổ biến hiện nay
Để thực hiện trích rút thông tin, luận văn sẽ sử dụng kết hợp các phương pháp
trích rút dựa trên luật, từ điển va trích rút dựa trên học máy Tùy từng đối lượng trích
rút cụ thể sẽ có phương pháp riêng cho phủ hợp để thu được kết quá tốt nhất Đã có rất
nhiéu kết quả của việc xử lý ngôn ngữ Tiếng Việt đạt được thành tựu với độ chính xác
cao, cũng như các công cụ hỗ trợ quả trình trích rút, nên hệ thống này dược xây đựng
dựa trên một số các kết quả và công cụ đó
10
Trang 8GATE General Architecture for Text Engineering
Trang 9Tôi xin cam đoan Luận Văn la cdng trinh nghién eta oda bam than ti didi sự hưởng din cua PGS L8 Lê Thanh Hương, Các kết quả nêu trong Luận Văn là trung thực, không phải là sao chép toàn văn của bắt kỹ công trình nào khác Tôi xin chịu
hoàn toàn trách nhiệm về nội đung quyền luận văn này:
“Tác giả
Dặng Thị Phương
Trang 10GATE General Architecture for Text Engineering
Trang 11Tình 1 Mô hình xây dựng TE theo hướng tiếp cận dựa trên trì thức 16 1Hình 2 Mô hình xây dụng Lý theo học mảy co seeeeiiereeseoee TL
THình 3 Các thao tác chính của hệ thắng trích Túi 19
Hình 4 Ví dụ trích rút thông tin theo quy trình
Hình 6 Ứng dụng IE trong hệ thông hồi dáp 550cc 2Ó
Hinh 7 Hệ thống tìm kiểm bài báo khoa học Citesoer - 27
Hình 8 Kiến trúc hè thống NER
Hình 10 Vị dụ thông tin rao vặt bản cầu trủe occoscscessseereseerereeceooee 4Ô,
Hình 12 Mé hinh trich rat LOC str dung NER Stanford
Tình 14 Mô hình hệ thông hỏi đáp BĐS seeieeeieerooll
Tinh 15 Sơ đỗ khối trích rút thông tỉn từ câu hỏi - 42
Trang 12LỜI CẢM GON
Để hoàn thành luận văn nảy, tác giả đã nhận được sự hướng dẫn lận tình cũng, như những yêu cầu nghiêm khắc của PGS.TS Lẻ Thanh Hương, người đã truyền dạt rất nhiều kiển thức cũng như kinh nghiệm trong quá trình nghiên cứu hoàn thành luận
văn này Tác giâ xin gửi lời cảm ơn chân thành tới cô
Xin gửi lời cảm ơn chân thành tới tắt cả các thầy cô Viện Công nghệ Thông tin,
Tan lãnh đạo Viện Công nghệ Thông tin, Viện đảo tạo Sau đại học và Bộ môn Hệ
thông Thông tin thuộc trưởng Đại học Bách Khoa Hà Nội đã giảng dạy và tạo diễu kiện thuận lợi trong quả trình nghiên cửu và hoàn thánh luận văn
Với năng lực hạn chế của bản thân cũng như những nguyên nhân chủ quan và
khách quan, luận văn không tránh khói những thiểu sót Tác giá rất mong được sự góp
ý của quy thay cô, các bạn bẻ và đồng nghiệp để luận văn được hoàn thiện hơn
Tác giả
Đăng Thị Phương
Trang 13GATE General Architecture for Text Engineering
Trang 14CHUONG I: LONG QUAN
1.1 Lý du chụn đề tài
ay nay, với sự phát triển nhanh chóng của hệ thống công nghệ thông tin nói chung vả của internet nói riêng đã sinh ra một khối lượng không lễ dữ liệu dưới dạng
siêu văn bản Việc khai thác oác thông tin từ nguần đữ liệu đỏ vừa là cơ hội nhưng,
cũng đây thách thức Trích rất thông lần tới chung: và trích rút thực thể nói riêng là một giải pháp đề khan thác, chuyển thông tin trong văn bản bán hay không câu trúc về dạng,
có câu trúc phục vụ nhu cầu tìm hiểu thông tin của người ding,
'Thời gian vừa qua, các nghiên cửu về trích rút thông tìn dã có rất nhiều thành tựu có
Ý nghĩa vô cùng to lớn phục vụ cuộc sống, Dã có nhiều giải pháp được áp dụng trên nhiều lĩnh vực khác nhau Củng với sự phát triển như vũ bão của thi trường bắt động, sán trong thời gian gần đây, nhu cầu tìm kiểm và trích rút các thông tia bết động sẵn
ngày cảng cần thiết và có ý nghĩa lớn phục vụ cuộc sống,
Thông tím vẻ bất động sẵn tồn tại dưới đang bản tin trên các trang web khác nhau
có cấu trúc không giống nhau Các thông tin nảy chu yêu là bản câu trúc hoặc không có
câu trúc Vì vậy quả trình tổng hợp, thông kê và tìm kiểm thông tín bất động sân là mội
khó khăn đổi người dùng, 'Trước như câu đó, tác giá đã lựa chọn để tải nảy với mong,
muốn xây đụng hệ thông có thể trích rút các thông tin quan trọng vẻ bắt động sản phục
vụ nhu câu tìm kiếm theo mô hình hỏi đáp thân thiện với người dùng,
Trang 15LỜI CẢM GON
Để hoàn thành luận văn nảy, tác giả đã nhận được sự hướng dẫn lận tình cũng, như những yêu cầu nghiêm khắc của PGS.TS Lẻ Thanh Hương, người đã truyền dạt rất nhiều kiển thức cũng như kinh nghiệm trong quá trình nghiên cứu hoàn thành luận
văn này Tác giâ xin gửi lời cảm ơn chân thành tới cô
Xin gửi lời cảm ơn chân thành tới tắt cả các thầy cô Viện Công nghệ Thông tin,
Tan lãnh đạo Viện Công nghệ Thông tin, Viện đảo tạo Sau đại học và Bộ môn Hệ
thông Thông tin thuộc trưởng Đại học Bách Khoa Hà Nội đã giảng dạy và tạo diễu kiện thuận lợi trong quả trình nghiên cửu và hoàn thánh luận văn
Với năng lực hạn chế của bản thân cũng như những nguyên nhân chủ quan và
khách quan, luận văn không tránh khói những thiểu sót Tác giá rất mong được sự góp
ý của quy thay cô, các bạn bẻ và đồng nghiệp để luận văn được hoàn thiện hơn
Tác giả
Đăng Thị Phương
Trang 16LỜI CẢM GON
Để hoàn thành luận văn nảy, tác giả đã nhận được sự hướng dẫn lận tình cũng, như những yêu cầu nghiêm khắc của PGS.TS Lẻ Thanh Hương, người đã truyền dạt rất nhiều kiển thức cũng như kinh nghiệm trong quá trình nghiên cứu hoàn thành luận
văn này Tác giâ xin gửi lời cảm ơn chân thành tới cô
Xin gửi lời cảm ơn chân thành tới tắt cả các thầy cô Viện Công nghệ Thông tin,
Tan lãnh đạo Viện Công nghệ Thông tin, Viện đảo tạo Sau đại học và Bộ môn Hệ
thông Thông tin thuộc trưởng Đại học Bách Khoa Hà Nội đã giảng dạy và tạo diễu kiện thuận lợi trong quả trình nghiên cửu và hoàn thánh luận văn
Với năng lực hạn chế của bản thân cũng như những nguyên nhân chủ quan và
khách quan, luận văn không tránh khói những thiểu sót Tác giá rất mong được sự góp
ý của quy thay cô, các bạn bẻ và đồng nghiệp để luận văn được hoàn thiện hơn
Tác giả
Đăng Thị Phương
Trang 17Tình 1 Mô hình xây dựng TE theo hướng tiếp cận dựa trên trì thức 16 1Hình 2 Mô hình xây dụng Lý theo học mảy co seeeeiiereeseoee TL
THình 3 Các thao tác chính của hệ thắng trích Túi 19
Hình 4 Ví dụ trích rút thông tin theo quy trình
Hình 6 Ứng dụng IE trong hệ thông hồi dáp 550cc 2Ó
Hinh 7 Hệ thống tìm kiểm bài báo khoa học Citesoer - 27
Hình 8 Kiến trúc hè thống NER
Hình 10 Vị dụ thông tin rao vặt bản cầu trủe occoscscessseereseerereeceooee 4Ô,
Hình 12 Mé hinh trich rat LOC str dung NER Stanford
Tình 14 Mô hình hệ thông hỏi đáp BĐS seeieeeieerooll
Tinh 15 Sơ đỗ khối trích rút thông tỉn từ câu hỏi - 42
Trang 18Tôi xin cam đoan Luận Văn la cdng trinh nghién eta oda bam than ti didi sự hưởng din cua PGS L8 Lê Thanh Hương, Các kết quả nêu trong Luận Văn là trung thực, không phải là sao chép toàn văn của bắt kỹ công trình nào khác Tôi xin chịu
hoàn toàn trách nhiệm về nội đung quyền luận văn này:
“Tác giả
Dặng Thị Phương
Trang 19Tình 1 Mô hình xây dựng TE theo hướng tiếp cận dựa trên trì thức 16 1Hình 2 Mô hình xây dụng Lý theo học mảy co seeeeiiereeseoee TL
THình 3 Các thao tác chính của hệ thắng trích Túi 19
Hình 4 Ví dụ trích rút thông tin theo quy trình
Hình 6 Ứng dụng IE trong hệ thông hồi dáp 550cc 2Ó
Hinh 7 Hệ thống tìm kiểm bài báo khoa học Citesoer - 27
Hình 8 Kiến trúc hè thống NER
Hình 10 Vị dụ thông tin rao vặt bản cầu trủe occoscscessseereseerereeceooee 4Ô,
Hình 12 Mé hinh trich rat LOC str dung NER Stanford
Tình 14 Mô hình hệ thông hỏi đáp BĐS seeieeeieerooll
Tinh 15 Sơ đỗ khối trích rút thông tỉn từ câu hỏi - 42
Trang 20Thông qua để tài “Trích rất thực thể trong vấn bản liếng Việt, tác giả mong
uốn dạt được một số mục dịch như sau:
- Tim hiéu téng quan vẻ trích rút thông tín nói chung và cụ thể là trích rút thực
thể trong tiếng Việt
- Xv dựng hệ thông trích rút thông tin cơ bản về bat động sản từ bản tin trên các trang web khác nhau Hệ thống này với mục đích có thể trích rút nhanh chóng các thông tin bất động sẵn trên thị trường phục vụ nhu cảu tìm kiểm
thông tin của người dùng
-_ Dựa trên các kết quả được tích rút, xây dựng hệ thống hỏi đáp thân thiện với người dùng đáp ứng nhụ cầu tim kiểm thông tin bất động sẵn
1.3 Nội dung nghiên cứu
Luận văn nay sẽ tập trung vảo việc trích rút thực thẻ từ van ban bán và phi cầu
trúc thuộc lĩnh vực bất động sản trên môi trường Web Cáo tập đữ liệu thử nghiệm
được Thu thập lừ các Irang web giao bản bất đông sẵn phổ biến hiện nay
Để thực hiện trích rút thông tin, luận văn sẽ sử dụng kết hợp các phương pháp
trích rút dựa trên luật, từ điển va trích rút dựa trên học máy Tùy từng đối lượng trích
rút cụ thể sẽ có phương pháp riêng cho phủ hợp để thu được kết quá tốt nhất Đã có rất
nhiéu kết quả của việc xử lý ngôn ngữ Tiếng Việt đạt được thành tựu với độ chính xác
cao, cũng như các công cụ hỗ trợ quả trình trích rút, nên hệ thống này dược xây đựng
dựa trên một số các kết quả và công cụ đó
10
Trang 21GATE General Architecture for Text Engineering
Trang 22GATE General Architecture for Text Engineering
Trang 23GATE General Architecture for Text Engineering
Trang 24Tình 1 Mô hình xây dựng TE theo hướng tiếp cận dựa trên trì thức 16 1Hình 2 Mô hình xây dụng Lý theo học mảy co seeeeiiereeseoee TL
THình 3 Các thao tác chính của hệ thắng trích Túi 19
Hình 4 Ví dụ trích rút thông tin theo quy trình
Hình 6 Ứng dụng IE trong hệ thông hồi dáp 550cc 2Ó
Hinh 7 Hệ thống tìm kiểm bài báo khoa học Citesoer - 27
Hình 8 Kiến trúc hè thống NER
Hình 10 Vị dụ thông tin rao vặt bản cầu trủe occoscscessseereseerereeceooee 4Ô,
Hình 12 Mé hinh trich rat LOC str dung NER Stanford
Tình 14 Mô hình hệ thông hỏi đáp BĐS seeieeeieerooll
Tinh 15 Sơ đỗ khối trích rút thông tỉn từ câu hỏi - 42
Trang 25Tình 1 Mô hình xây dựng TE theo hướng tiếp cận dựa trên trì thức 16 1Hình 2 Mô hình xây dụng Lý theo học mảy co seeeeiiereeseoee TL
THình 3 Các thao tác chính của hệ thắng trích Túi 19
Hình 4 Ví dụ trích rút thông tin theo quy trình
Hình 6 Ứng dụng IE trong hệ thông hồi dáp 550cc 2Ó
Hinh 7 Hệ thống tìm kiểm bài báo khoa học Citesoer - 27
Hình 8 Kiến trúc hè thống NER
Hình 10 Vị dụ thông tin rao vặt bản cầu trủe occoscscessseereseerereeceooee 4Ô,
Hình 12 Mé hinh trich rat LOC str dung NER Stanford
Tình 14 Mô hình hệ thông hỏi đáp BĐS seeieeeieerooll
Tinh 15 Sơ đỗ khối trích rút thông tỉn từ câu hỏi - 42
Trang 26Tôi xin cam đoan Luận Văn la cdng trinh nghién eta oda bam than ti didi sự hưởng din cua PGS L8 Lê Thanh Hương, Các kết quả nêu trong Luận Văn là trung thực, không phải là sao chép toàn văn của bắt kỹ công trình nào khác Tôi xin chịu
hoàn toàn trách nhiệm về nội đung quyền luận văn này:
“Tác giả
Dặng Thị Phương
Trang 27CHUONG I: LONG QUAN
1.1 Lý du chụn đề tài
ay nay, với sự phát triển nhanh chóng của hệ thống công nghệ thông tin nói chung vả của internet nói riêng đã sinh ra một khối lượng không lễ dữ liệu dưới dạng
siêu văn bản Việc khai thác oác thông tin từ nguần đữ liệu đỏ vừa là cơ hội nhưng,
cũng đây thách thức Trích rất thông lần tới chung: và trích rút thực thể nói riêng là một giải pháp đề khan thác, chuyển thông tin trong văn bản bán hay không câu trúc về dạng,
có câu trúc phục vụ nhu cầu tìm hiểu thông tin của người ding,
'Thời gian vừa qua, các nghiên cửu về trích rút thông tìn dã có rất nhiều thành tựu có
Ý nghĩa vô cùng to lớn phục vụ cuộc sống, Dã có nhiều giải pháp được áp dụng trên nhiều lĩnh vực khác nhau Củng với sự phát triển như vũ bão của thi trường bắt động, sán trong thời gian gần đây, nhu cầu tìm kiểm và trích rút các thông tia bết động sẵn
ngày cảng cần thiết và có ý nghĩa lớn phục vụ cuộc sống,
Thông tím vẻ bất động sẵn tồn tại dưới đang bản tin trên các trang web khác nhau
có cấu trúc không giống nhau Các thông tin nảy chu yêu là bản câu trúc hoặc không có
câu trúc Vì vậy quả trình tổng hợp, thông kê và tìm kiểm thông tín bất động sân là mội
khó khăn đổi người dùng, 'Trước như câu đó, tác giá đã lựa chọn để tải nảy với mong,
muốn xây đụng hệ thông có thể trích rút các thông tin quan trọng vẻ bắt động sản phục
vụ nhu câu tìm kiếm theo mô hình hỏi đáp thân thiện với người dùng,
Trang 28CHUONG I: LONG QUAN
1.1 Lý du chụn đề tài
ay nay, với sự phát triển nhanh chóng của hệ thống công nghệ thông tin nói chung vả của internet nói riêng đã sinh ra một khối lượng không lễ dữ liệu dưới dạng
siêu văn bản Việc khai thác oác thông tin từ nguần đữ liệu đỏ vừa là cơ hội nhưng,
cũng đây thách thức Trích rất thông lần tới chung: và trích rút thực thể nói riêng là một giải pháp đề khan thác, chuyển thông tin trong văn bản bán hay không câu trúc về dạng,
có câu trúc phục vụ nhu cầu tìm hiểu thông tin của người ding,
'Thời gian vừa qua, các nghiên cửu về trích rút thông tìn dã có rất nhiều thành tựu có
Ý nghĩa vô cùng to lớn phục vụ cuộc sống, Dã có nhiều giải pháp được áp dụng trên nhiều lĩnh vực khác nhau Củng với sự phát triển như vũ bão của thi trường bắt động, sán trong thời gian gần đây, nhu cầu tìm kiểm và trích rút các thông tia bết động sẵn
ngày cảng cần thiết và có ý nghĩa lớn phục vụ cuộc sống,
Thông tím vẻ bất động sẵn tồn tại dưới đang bản tin trên các trang web khác nhau
có cấu trúc không giống nhau Các thông tin nảy chu yêu là bản câu trúc hoặc không có
câu trúc Vì vậy quả trình tổng hợp, thông kê và tìm kiểm thông tín bất động sân là mội
khó khăn đổi người dùng, 'Trước như câu đó, tác giá đã lựa chọn để tải nảy với mong,
muốn xây đụng hệ thông có thể trích rút các thông tin quan trọng vẻ bắt động sản phục
vụ nhu câu tìm kiếm theo mô hình hỏi đáp thân thiện với người dùng,
Trang 29CHUONG I: LONG QUAN
1.1 Lý du chụn đề tài
ay nay, với sự phát triển nhanh chóng của hệ thống công nghệ thông tin nói chung vả của internet nói riêng đã sinh ra một khối lượng không lễ dữ liệu dưới dạng
siêu văn bản Việc khai thác oác thông tin từ nguần đữ liệu đỏ vừa là cơ hội nhưng,
cũng đây thách thức Trích rất thông lần tới chung: và trích rút thực thể nói riêng là một giải pháp đề khan thác, chuyển thông tin trong văn bản bán hay không câu trúc về dạng,
có câu trúc phục vụ nhu cầu tìm hiểu thông tin của người ding,
'Thời gian vừa qua, các nghiên cửu về trích rút thông tìn dã có rất nhiều thành tựu có
Ý nghĩa vô cùng to lớn phục vụ cuộc sống, Dã có nhiều giải pháp được áp dụng trên nhiều lĩnh vực khác nhau Củng với sự phát triển như vũ bão của thi trường bắt động, sán trong thời gian gần đây, nhu cầu tìm kiểm và trích rút các thông tia bết động sẵn
ngày cảng cần thiết và có ý nghĩa lớn phục vụ cuộc sống,
Thông tím vẻ bất động sẵn tồn tại dưới đang bản tin trên các trang web khác nhau
có cấu trúc không giống nhau Các thông tin nảy chu yêu là bản câu trúc hoặc không có
câu trúc Vì vậy quả trình tổng hợp, thông kê và tìm kiểm thông tín bất động sân là mội
khó khăn đổi người dùng, 'Trước như câu đó, tác giá đã lựa chọn để tải nảy với mong,
muốn xây đụng hệ thông có thể trích rút các thông tin quan trọng vẻ bắt động sản phục
vụ nhu câu tìm kiếm theo mô hình hỏi đáp thân thiện với người dùng,
Trang 30Tình 1 Mô hình xây dựng TE theo hướng tiếp cận dựa trên trì thức 16 1Hình 2 Mô hình xây dụng Lý theo học mảy co seeeeiiereeseoee TL
THình 3 Các thao tác chính của hệ thắng trích Túi 19
Hình 4 Ví dụ trích rút thông tin theo quy trình
Hình 6 Ứng dụng IE trong hệ thông hồi dáp 550cc 2Ó
Hinh 7 Hệ thống tìm kiểm bài báo khoa học Citesoer - 27
Hình 8 Kiến trúc hè thống NER
Hình 10 Vị dụ thông tin rao vặt bản cầu trủe occoscscessseereseerereeceooee 4Ô,
Hình 12 Mé hinh trich rat LOC str dung NER Stanford
Tình 14 Mô hình hệ thông hỏi đáp BĐS seeieeeieerooll
Tinh 15 Sơ đỗ khối trích rút thông tỉn từ câu hỏi - 42
Trang 31Tằng 1 Bằng gợi ý hướng tiếp cận xây dựng hé thong IE 18
Bảng 2 Dộ chính xác các moddde IlẺ
Bảng 3 Độ chính xác hệ thông NER trong các ngôn ngữ 31
Bang 4: Môi trưởng cải dat
a
Trang 32CHUONG I: LONG QUAN
1.1 Lý du chụn đề tài
ay nay, với sự phát triển nhanh chóng của hệ thống công nghệ thông tin nói chung vả của internet nói riêng đã sinh ra một khối lượng không lễ dữ liệu dưới dạng
siêu văn bản Việc khai thác oác thông tin từ nguần đữ liệu đỏ vừa là cơ hội nhưng,
cũng đây thách thức Trích rất thông lần tới chung: và trích rút thực thể nói riêng là một giải pháp đề khan thác, chuyển thông tin trong văn bản bán hay không câu trúc về dạng,
có câu trúc phục vụ nhu cầu tìm hiểu thông tin của người ding,
'Thời gian vừa qua, các nghiên cửu về trích rút thông tìn dã có rất nhiều thành tựu có
Ý nghĩa vô cùng to lớn phục vụ cuộc sống, Dã có nhiều giải pháp được áp dụng trên nhiều lĩnh vực khác nhau Củng với sự phát triển như vũ bão của thi trường bắt động, sán trong thời gian gần đây, nhu cầu tìm kiểm và trích rút các thông tia bết động sẵn
ngày cảng cần thiết và có ý nghĩa lớn phục vụ cuộc sống,
Thông tím vẻ bất động sẵn tồn tại dưới đang bản tin trên các trang web khác nhau
có cấu trúc không giống nhau Các thông tin nảy chu yêu là bản câu trúc hoặc không có
câu trúc Vì vậy quả trình tổng hợp, thông kê và tìm kiểm thông tín bất động sân là mội
khó khăn đổi người dùng, 'Trước như câu đó, tác giá đã lựa chọn để tải nảy với mong,
muốn xây đụng hệ thông có thể trích rút các thông tin quan trọng vẻ bắt động sản phục
vụ nhu câu tìm kiếm theo mô hình hỏi đáp thân thiện với người dùng,
Trang 33Tôi xin cam đoan Luận Văn la cdng trinh nghién eta oda bam than ti didi sự hưởng din cua PGS L8 Lê Thanh Hương, Các kết quả nêu trong Luận Văn là trung thực, không phải là sao chép toàn văn của bắt kỹ công trình nào khác Tôi xin chịu
hoàn toàn trách nhiệm về nội đung quyền luận văn này:
“Tác giả
Dặng Thị Phương
Trang 34CHUONG I: LONG QUAN
1.1 Lý du chụn đề tài
ay nay, với sự phát triển nhanh chóng của hệ thống công nghệ thông tin nói chung vả của internet nói riêng đã sinh ra một khối lượng không lễ dữ liệu dưới dạng
siêu văn bản Việc khai thác oác thông tin từ nguần đữ liệu đỏ vừa là cơ hội nhưng,
cũng đây thách thức Trích rất thông lần tới chung: và trích rút thực thể nói riêng là một giải pháp đề khan thác, chuyển thông tin trong văn bản bán hay không câu trúc về dạng,
có câu trúc phục vụ nhu cầu tìm hiểu thông tin của người ding,
'Thời gian vừa qua, các nghiên cửu về trích rút thông tìn dã có rất nhiều thành tựu có
Ý nghĩa vô cùng to lớn phục vụ cuộc sống, Dã có nhiều giải pháp được áp dụng trên nhiều lĩnh vực khác nhau Củng với sự phát triển như vũ bão của thi trường bắt động, sán trong thời gian gần đây, nhu cầu tìm kiểm và trích rút các thông tia bết động sẵn
ngày cảng cần thiết và có ý nghĩa lớn phục vụ cuộc sống,
Thông tím vẻ bất động sẵn tồn tại dưới đang bản tin trên các trang web khác nhau
có cấu trúc không giống nhau Các thông tin nảy chu yêu là bản câu trúc hoặc không có
câu trúc Vì vậy quả trình tổng hợp, thông kê và tìm kiểm thông tín bất động sân là mội
khó khăn đổi người dùng, 'Trước như câu đó, tác giá đã lựa chọn để tải nảy với mong,
muốn xây đụng hệ thông có thể trích rút các thông tin quan trọng vẻ bắt động sản phục
vụ nhu câu tìm kiếm theo mô hình hỏi đáp thân thiện với người dùng,
Trang 35Tình 1 Mô hình xây dựng TE theo hướng tiếp cận dựa trên trì thức 16 1Hình 2 Mô hình xây dụng Lý theo học mảy co seeeeiiereeseoee TL
THình 3 Các thao tác chính của hệ thắng trích Túi 19
Hình 4 Ví dụ trích rút thông tin theo quy trình
Hình 6 Ứng dụng IE trong hệ thông hồi dáp 550cc 2Ó
Hinh 7 Hệ thống tìm kiểm bài báo khoa học Citesoer - 27
Hình 8 Kiến trúc hè thống NER
Hình 10 Vị dụ thông tin rao vặt bản cầu trủe occoscscessseereseerereeceooee 4Ô,
Hình 12 Mé hinh trich rat LOC str dung NER Stanford
Tình 14 Mô hình hệ thông hỏi đáp BĐS seeieeeieerooll
Tinh 15 Sơ đỗ khối trích rút thông tỉn từ câu hỏi - 42
Trang 36Tằng 1 Bằng gợi ý hướng tiếp cận xây dựng hé thong IE 18
Bảng 2 Dộ chính xác các moddde IlẺ
Bảng 3 Độ chính xác hệ thông NER trong các ngôn ngữ 31
Bang 4: Môi trưởng cải dat
a
Trang 37Thông qua để tài “Trích rất thực thể trong vấn bản liếng Việt, tác giả mong
uốn dạt được một số mục dịch như sau:
- Tim hiéu téng quan vẻ trích rút thông tín nói chung và cụ thể là trích rút thực
thể trong tiếng Việt
- Xv dựng hệ thông trích rút thông tin cơ bản về bat động sản từ bản tin trên các trang web khác nhau Hệ thống này với mục đích có thể trích rút nhanh chóng các thông tin bất động sẵn trên thị trường phục vụ nhu cảu tìm kiểm
thông tin của người dùng
-_ Dựa trên các kết quả được tích rút, xây dựng hệ thống hỏi đáp thân thiện với người dùng đáp ứng nhụ cầu tim kiểm thông tin bất động sẵn
1.3 Nội dung nghiên cứu
Luận văn nay sẽ tập trung vảo việc trích rút thực thẻ từ van ban bán và phi cầu
trúc thuộc lĩnh vực bất động sản trên môi trường Web Cáo tập đữ liệu thử nghiệm
được Thu thập lừ các Irang web giao bản bất đông sẵn phổ biến hiện nay
Để thực hiện trích rút thông tin, luận văn sẽ sử dụng kết hợp các phương pháp
trích rút dựa trên luật, từ điển va trích rút dựa trên học máy Tùy từng đối lượng trích
rút cụ thể sẽ có phương pháp riêng cho phủ hợp để thu được kết quá tốt nhất Đã có rất
nhiéu kết quả của việc xử lý ngôn ngữ Tiếng Việt đạt được thành tựu với độ chính xác
cao, cũng như các công cụ hỗ trợ quả trình trích rút, nên hệ thống này dược xây đựng
dựa trên một số các kết quả và công cụ đó
10