1. Trang chủ
  2. » Luận Văn - Báo Cáo

QUẢN Lý d6cntt epu dai

25 497 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 371,93 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Hiện nay hệ chuyên gia được ứng dụng trong nhiều lĩnh vực khác nhau: ví dụ như công nghệp, nông nghiệp, khoa học máy tính, thương mại khí tượng, y học, quân sự, hoá học...Đặc biệt trong

Trang 1

Hiện nay hệ chuyên gia được ứng dụng trong nhiều lĩnh vực khác nhau: ví dụ như công nghệp, nông nghiệp, khoa học máy tính, thương mại khí tượng, y học, quân sự, hoá học Đặc biệt trong giai đoạn gần đây việc ứng dụng hệ chuyên gia vào xây dựng hệ thống trích rút thực thể ứng dụng trong phân tích kinh tế đang được phát triển mạnh.

Thông tin kinh tế là yếu tố cực kỳ quan trọng cho doanh nghiệp để nắm bắt được tin tức thị trường, xu thế kinh tế giúp bắt kịp với các doanh nghiệp khác Hiện nay có rất nhiều website đăng tải rất nhiều các thông tin, tin tức về kinh tế và các tin tức khác.Nhiều nguồn tin có thể gây lẫn với nhau hoặc có thể trùng lặp tin Với nguồn thông tin vô cùng phong phú như vậy cần phải có một phương thức hoặc công cụ nào đó có khả năng tìm kiếm, trích xuất thông tin trên web và lưu trữ lại thông tin đó theo ý muốn của con người, một cách tự động và hiệu quả Vì thế chúng em đã lựa chọn đề tài này

Tên đề tài :“Hệ thống trích rút các thông tin kinh tế, thời sự trong ngày”

Trong quá trình làm đề tài,do chúng em còn ít kinh nghiệm nên không tránh khỏi nhiều sai sót.Kính mong các thầy,cô giáo thông cảm và bổ sung,đóng góp ý kiến để cho

đề tài của chúng em được hoàn thiện hơn, nhóm chúng em xin chân thành cảm ơn !

Trang 2

NHẬN XÉT (của giảng viên hướng dẫn)

Trang 3

MỤC LỤC

Trang 4

DANH MỤC HÌNH ẢNH

Trang 5

DANH MỤC BẢNG BIỂU

Trang 6

CHƯƠNG 1: TỔNG QUAN VỀ HỆ CHUYÊN GIA

1.1 Hệ chuyên gia là gì?

Theo E Feigenbaum : «Hệ chuyên gia (Expert System) là một chương trình máy tính thông minh sử dụng tri thức (knowledge) và các thủ tục suy luận (inference procedures) để giải những bài toán tương đối khó khăn đòi hỏi những chuyên gia mới giải được»

Hệ chuyên gia là một hệ thống tin học có thể mô phỏng (emulates) năng lực quyết đoán (decision) và hành động (making abilily) của một chuyên gia (con người) Hệ chuyên

gia là một trong những lĩnh vực ứng dụng của trí tuệ nhân tạo (Artificial Intelligence)

Hệ chuyên gia sử dụng các tri thức của những chuyên gia để giải quyết các vấn đề (bài toán) khác nhau thuộc mọi lĩnh vực

Tri thức (knowledge) trong hệ chuyên gia phản ánh sự tinh thông được tích tụ từ sách

vở, tạp chí, từ các chuyên gia hay các nhà bác học Các thuật ngữ hệ chuyên gia, hệ thống dựa trên tri thức (knowledgebased system) hay hệ chuyên gia dựa trên tri thức

(knowledge−based expert system) thường có cùng nghĩa

Một hệ chuyên gia gồm ba thành phần chính là cơ sở tri thức (knowledge base), máy suy diễn hay môtơ suy diễn (inference engine), và hệ thống giao tiếp với người sử dụng

(user nterface) Cơ sở tri thức chứa các tri thức để từ đó, máy suy diễn tạo ra câu trả lời cho người sử dụng qua hệ thống giao tiếp

Người sử dụng (user) cung cấp sự kiện (facts) là những gì đã biết, đã có thật hay

những thông tin có ích cho hệ chuyên gia, và nhận được những câu trả lời là những lời khuyên hay những gợi ý đúng đắn (expertise)

Trang 7

Hoạt động của một hệ chuyên gia dựa trên tri thức được minh họa như sau :

Hình 1 :Hoạt động của hệ chuyên gia Mỗi hệ chuyên gia chỉ đặc trưng cho một lĩnh vực vấn đề (problem domain) nào đó,

như y học, tài chính, khoa học hay công nghệ, v.v , mà không phải cho bất cứ một lĩnh vực vấn đề nào

Tri thức chuyên gia để giải quyết một vấn đề đặc trưng được gọi là lĩnh vực tri thức

(knowledge domain)

Hình 1 Quan hệ giữa lĩnh vực vấn đề và lĩnh vực tri thức

Chú ý rằng lĩnh vực tri thức hoàn toàn nằm trong lĩnh vực vấn đề Phần bên ngoài

Trang 8

lĩnh vực tri thức nói lên rằng không phải là tri thức cho tất cả mọi vấn đề

Tùy theo yêu cầu người sử dụng mà có nhiều cách nhìn nhận khác nhau về một hệ chuyên gia

Loại người sử

dụng

Vấn đề đặt raNgười quản trị Tôi có thể dùng nó để làm gì ?

Kỹ thuật viên Làm cách nào để tôi vận hành nó tốt nhất ?

Nhà nghiên cứu Làm sao để tôi có thể mở rộng nó ?

Người sử dụng cuối Nó sẽ giúp tôi cái gì đây ?

Nó có rắc rối và tốn kém không ?

Nó có đáng tin cậy không ?

1.2 Đặc trưng và ưu điểm của hệ chuyên gia

Có bốn đặc trưng cơ bản của một hệ chuyên gia :

Hiệu quả cao (high performance) Khả năng trả lời với mức độ tinh thông

bằng hoặc cao hơn so với chuyên gia (người) trong cùng lĩnh vực

Thời gian trả lời thoả đáng (adequate response time) Thời gian trả lời hợp lý, bằng

hoặc nhanh hơn so với chuyên gia (người) để đi đến cùng một quyết định Hệ chuyên gia là một hệ thống thời gian thực (real time system)

Độ tin cậy cao (good reliability) Không thể xảy ra sự cố hoặc giảm sút độ tin cậy

khi sử dụng

Dễ hiểu (understandable) Hệ chuyên gia giải thích các bước suy luận một cách dễ

hiểu và nhất quán, không giống như cách trả lời bí ẩn của các hộp đen (black box) Những ưu điểm của hệ chuyên gia :

Phổ cập (increased availability) Là sản phẩm chuyên gia, được phát triển không

ngừng với hiệu quả sử dụng không thể phủ nhận

Giảm giá thành (reduced cost)

Giảm rủi ro (reduced dangers) Giúp con người tránh được trong các môi trường rủi

ro, nguy hiểm

Tính thường trực (Permanance) Bất kể lúc nào cũng có thể khai thác sử dụng trong khi con người có thể mệt mỏi, nghỉ ngơi hay vắng mặt

Đa lĩnh vực (multiple expertise) chuyên gia về nhiều lĩnh vực khác nhau và

Trang 9

được khai thác đồng thời bất kể thời gian sử dụng

Độ tin cậy (increased relialility) Luôn đảm bảo độ tin cậy khi khai thác

Khả năng giảng giải (explanation) Câu trả lời với mức độ tinh thông được

giảng giải rõ ràng chi tiết, dễ hiểu

Khả năng trả lời (fast reponse) Trả lời theo thời gian thực, khách quan

Tính ổn định, suy luận có lý và đầy đủ mọi lúc mọi nơi

(steady, une motional, and complete response at all times)

Trợ giúp thông minh như một người hướng dẫn (intelligent-tutor)

Có thể truy cập như là một cơ sở dữ liệu thông minh (intelligent database)

1.3 Các lĩnh vực trong hệ chuyên gia

Cho đến nay, hàng trăm hệ chuyên gia đã được xây dựng và đã được báo cáo thường xuyên trong các tạp chí, sách, báo và hội thảo khoa học Ngoài ra còn các hệ chuyên gia được sử dụng trong các công ty, các tổ chức quân sự mà không được công bố

vì lý do bảo mật Bảng dưới đây liệt kê một số lĩnh vực ứng dụng diện rộng của các hệ chuyên gia

Cấu hình

(Configuration)

Tập hợp thích đáng những thành phần của một hệ thống theo cách riêng

vì sao (why?), như thế nào (how?) và cái

gì nếu (what if?) giống như hỏi một người thầy

giáo Giải thích

Trang 10

Điều khiển

(Control) giải, chẩn đoán, kiểm tra, lập kế hoạch, dự Điều khiển một quá trình, đòi hỏi diễn

đoán và chữa trị

Trang 11

CHƯƠNG 2 :TÌM HIỂU VỀ RÚT TRÍCH THÔNG TIN

2.1 Tổng quan về rút trích thông tin.

Không giống như việc hiểu toàn bộ văn bản, các hệ thống trích chọn thông tin chỉ

cố gắng nhận biết một số dạng thông tin đáng quan tâm Có nhiều mức độ trích chọn thông tin từ văn bản như xác định các thực thể (Element Extraction), xác định quan hệ giữa các thực thể (Relation Extraction), Extraction), xác định và theo dõi các sự kiện vàcác kịch bản (Event and Scenario Extraction and Tracking), xác định đồng tham chiếu(Co-reference Resolution) Các kĩ thuật được sử dụng trong trích chọn thông tin gồmcó: phân đoạn, phân lớp, kết hợp và phân cụm

Hình 2.3:Minh họa một hệ thống trích chọn thông tin.

Kết quả của một hệ thống trích chọn thông tin thường là các mẫu (template) chứa mộtsốlượng xác định các trường (slots) đã được điền thông tin

Rút trích thông tin không đòi hỏi hệ thống phải đọc hiểu nội dung của tài liệu văn bản, nhưng hệ thống phải có khả năng phân tích tài liệu và tìm kiếm các thông tin liên quan mà hệ thống mong muốn được tìm thấy

Để có một hệ thống trích chọn thông tin đầu tiên chúng ta phải có một hệthống nhận dạng thực thể và tiếp sau mới tính đến phân loại quan hệ Bài toán nhận biết các loại thực thể là bài toán đơn giản nhất trong số các bài toán trích chọn thông tin, tuy vậy nó lại là

Trang 12

bước cơ bản nhất trước khi tính đến việc giải quyết các bài toán phức tạp hơn trong lĩnh vực này Ngoài ứng dụng trong hệ thống trích chọn thông tin, nó còn có thể được áp dụng trong tìm kiếm thông tin (Information Retrieval), dịch máy (machine translation) và hệ thống hỏi đáp (question answering).

Các kỹ thuật rút trích thông tin có thể áp dụng cho bất kỳ tập tài liệu nào mà chúng

ta cần rút ra những thông tin chính yếu, cần thiết cũng như các sự kiện liên quan Các kho

dữ liệu văn bản về một lĩnh vực trên internet là ví dụ điển hình, thông tin trên đó có thể tồn tại ở nhiều nơi khác nhau, dưới nhiều định dạng khác nhau Sẽ rất hữu ích cho các khảo sát, ứng dụng liên quan đến một lĩnh vực nếu như những thông tin lĩnh vực liên quan được rút trích và tích hợp lại thành một hình thức thống nhất và biểu diễn một cách

có cấu trúc Khi đó thông tin trên internet sẽ được chuyển vào một cơ sở dữ liệu có cấu trúc phục vụ cho các ứng phân tích và khai thác khác nhau

Rút trích thông tin trên web là một đề tài quan trọng từ giúp chuyển đổi nội dungtrang web theo hình thức trình bày phục vụ người duyệt web thành các nguồn thôngtin được chuẩn hóa phục vụ nhiều nhu cầu đặc biệt như so sánh sản phẩm, tìm kiếm thông minh, chuyển đổi nội dung phục vụ thiết bị di động, mashup

2.2 Giới thiệu về Rút trích thông tin.

2.2.1 Khái niệm.

Rút trích thông tin (IE – Information Extraction) là quá trình lấy thông tin từ các nguồn ở những định dạng không đồng nhất và chuyển thành một dạng đồng nhất Dữ liệu sau khi rút trích được sử dụng, trình bày trực tiếp cho người dùng, lưu vào cơ sở dữ liệu

để xử lý sau đó hay sử dụng cho những hệ thống tìm kiếm thông tin như một dữ liệu đã qua bước tiền xử lý

2.2.2 So sánh rút trích thông tin và tìm kiếm thông tin.

Tìm kiếm thông tin (IR – Information Retreival) là phương pháp tìm kiếm những tài liệu có thông tin phù hợp với những tiêu chí đặt ra ban đầu trong một khối lượng lớn tài liệu IE và IR có điểm chung là đem đến cho người dùng những thông tin cần thiết nhưng IE và IR hoàn toàn khác nhau :

+ Hệ thống IR tập trung vào việc tìm kiếm những văn bản liên quan và đem đến cho người dùng

+ Hệ thống IE là phân tích văn bản và chỉ mang đến cho người dùng những mẫu tin phù hợp mà người dùng quan tâm

Trang 13

Ví dụ: lấy bối cảnh trong nhà sách, một hệ thống IE sẽ tìm kiếm tất cả các tên và địa chỉ công ty có trong tất cả những tài liệu trong nhà sách Thông tin này sẽ được định dạng rõ ràng theo một cấu trúc nào đó và trình bày cho người dùng Trong khi đó, hệ thống IR sẽ tìm kiếm ra những cuốn sách có liên quan đến một công ty nào đó Thông tin công ty đưa vào tức là yêu cầu của người dùng và kết quả thu được từ hệ thống IR là tập hợp những cuốn sách thỏa mãn yêu cầu đó.

Tùy vào từng ngữ cảnh, từng bài toán mà độ phức tạp của hệ thống sẽ khác nhau nhưng cũng có trường hợp IE kết hợp với IR trong một hệ thống nào đó

2.2.3 Hệ thống rút trích thông tin từ các trang web.

1.2.3.2Phân loại hệ thống rút trích thông tin từ web.

Ngày nay, có rất nhiều hệ thống rút trích thông tin từ web được các nhà phát triển nghiên cứu và xây dựng Các tiêu chí để phân loại một hệ thống rút trích thông tin từ web như sau :

- Dựa vào mức độ can thiệp của con người trong quá trình rút trích thông tin : các

hệ thống rút trích thông tin có thể được chia ra làm 4 loại: thủ công, có giám sát, bán giám sát và không giám sát Trong đó, các hệ thống hoàn toàn tự động, không có sự can thiệp của con người đang được các nhà nghiên cứu quan tâm nhất

- Dựa vào tầng dữ liệu được rút trích: một trang web sẽ có nhiều trang HTML, một trang HTML sẽ có nhiều record và một record sẽ có nhiều thuộc tính Do đó, dựa vào kết quả thông tin rút trích được ở tầng nào, các hệ thống rút trích được chia ra làm 4 loại: tầng thuộc tính (attribute), tầng record, tầng trang HTML (page) và tầng trang web (site)

Trang 14

Hiện tại các hệ thống xử lý ở tầng thuộc tính và record chiếm đa số Và cho đến nay, vẫn chưa thấy xuất hiện các hệ thống rút trích thông tin ở tầng site.

- Dựa vào các phương pháp rút trích thông tin : các hệ thống rút trích thông tin cũng được chia thành 3 dạng :

+ Các hệ thống dựa trên các phương pháp thủ công: sử dụng các phương pháp gán nhãn, các cách lấy thông tin trực tiếp từ cơ sở dữ liệu hoặc từ các dịch vụ web (web service)

+ Các hệ thống dựa trên các phương pháp heuristic: các phương pháp thống

kê, tập luật, sử dụng các mẫu thông tin, dựa vào cấu trúc cây,… được sử dụng để rút trích thông tin

+ Các hệ thống dựa trên các phương pháp học: sử dụng các phương pháp

mô hình Markov, ngữ nghĩa, học trên cấu trúc cây,… để giúp cho các hệ thống hiểu và rút trích thông tin chính xác hơn

1.2.3.3 Khảo sát một số ứng dụng rút trích thông tin từ web.

Web-Harvest là công cụ mã nguồn mở để rút trích dữ liệu Web Công cụ cung cấp một phương pháp để thu thập các trang Web mong muốn và rút trích dữ liệu hữu ích từ chúng Đó là sử dụng các kỹ thuật thao tác trên text/xml như XSLT, XQuery và biểu thức quy tắc Do các sử dụng một số logic nên cần thiết để mô tả quá trình làm thế nào để lấy

dữ liệu mong muốn từ nội dung hỗn hợp Tất cả các thủ tục rút trích trong Web-Harvest

là người dùng định nghĩa thông qua các tệp tin cấu hình XML.Mỗi tập tin cấu hình mô tả các trình tự xử lý thực hiện một số nhiệm vụ để được mục tiêu cuối cùng

RoadRunner hoạt động dựa trên thuật toán học không giám sát Mục đích của công cụ là rút trích được các dữ liệu từ những trang web có lượng lớn dữ liệu và cấu trúc

ít thay đổi.RoadRunner hoạt động bằng cách so sánh cấu trúc HTML của các trang mẫu cùng loại và tạo ra một lược đồ cho các dữ liệu chứa trong các trang từ những thẻ HTML

Dynamo nhấn mạnh việc rút trích dữ liệu qua các trang web ở những trang HTML tĩnh và cung cấp dịch vụ mới Những công cụ hiện nay khi rút trích hoàn tất thường gặp nhiều khó khăn để quản lý việc tạo ra các tập dữ 25 liệu có thể hiển thị một cách đơn giản nhất (RSS feeds) nhưng lại gặp một số hạn chế như nguồn cấp dữ liệu cũ có thể không được quan tâm và thường bị xóa từ các máy chủ và máy chủ truyền thống không thể thực hiện các truy vấn trực tiếp Ngược lại, với Dynamo sẽ :

+ Tự động phát sinh RSS từ những dữ liệu của trang web tĩnh

Trang 15

+ Lưu trữ các nguồn cung cấp dữ liệu theo thứ tự thời gian

+ Truy vấn và tổng hợp thành các dịch vụ web

Nhận xét: Các công cụ rút trích thông tin từ web này phần lớn chỉ có thể áp dụng cho các trang web nổi Vậy đối với các trang web ẩn, chúng ta có thể sử dụng lại các công cụ này hay phải xây dựng một hệ thống mới Nếu các công cụ này có thể tái sử dụng thì đối với các nhà phát triển, việc tái sử dụng sẽ được tiến hành như thế nào?

2.3 Bài toán cần giải quyết.

Rút trích thông tin từ các trang web dựa trên chủ đề là một trong những hướng nghiên cứu nhận được nhiều quan tâm Vấn đề trở nên quan trọng khi các trang web đang ngày một gia tăng và nhu cầu sử dụng thông tin của người dùng được nâng cao

Những công cụ phân tích các luồng và các chủ đề thông tin trở nên cần thiết khi giúp người dùng có một cái nhìn tổng quát và định hướng thông tin tốt hơn Những nhân viên làm việc với các tập dữ liệu văn bản lớn như các nhà làm luật, các nhà báo, những nhà thống kê … có thêm công cụ để duyệt qua các mảng thông tin dễ dàng hơn theo các chủ đề

Đối với những trang web ẩn với nội dung động, thông thường người dùng phải sử dụng các trang tìm kiếm thông tin của trang web đó.Điều này làm cho người dùng phải tốn rất nhiều thời gian và chi phí để có thể có được thông tin mình muốn đặc biệt là các thông tin từ các trang web ẩn

Hiện nay có nhiều công cụ đã được các nhà nghiên cứu phát triển Tuy nhiên các công cụ này thường được dùng với 1 chủ đề cụ thể kèm một số ít trang web Nn và một thuật toán cố định như về “Chuyến bay”, về “Việc làm”… Điều này làm cho các nhà phát triển rất khó khăn khi mở rộng hay thay đổi các thành phần trong hệ thống Các nhà phát triển mong muốn có được một hệ thống có thể dễ dàng bổ sung hay thay đổi các chủ đề, các trang web, các thuật toán… cũng như dễ dàng cho công tác bảo trì và mở rộng từ các thành phần trong hệ thống

Gửi yêu cầu đến các đối tượng web và xử lý kết quả trả về

Là thành phần trung gian nên không có lưu dữ liệu trang web

Là thành phần trung gian nên không có lưu dữ liệu trang web

Ngày đăng: 13/12/2015, 20:25

HÌNH ẢNH LIÊN QUAN

Hình 1. :Hoạt động của hệ chuyên gia - QUẢN Lý d6cntt epu dai
Hình 1. Hoạt động của hệ chuyên gia (Trang 7)
Hình 1. Quan hệ giữa lĩnh vực vấn đề và lĩnh vực tri thức - QUẢN Lý d6cntt epu dai
Hình 1. Quan hệ giữa lĩnh vực vấn đề và lĩnh vực tri thức (Trang 7)
Hình 2.3:Minh họa một hệ thống trích chọn thông tin. - QUẢN Lý d6cntt epu dai
Hình 2.3 Minh họa một hệ thống trích chọn thông tin (Trang 11)
Bảng .1: So sánh hệ thống xây dựng và máy tìm kiếmliên hợp - QUẢN Lý d6cntt epu dai
ng 1: So sánh hệ thống xây dựng và máy tìm kiếmliên hợp (Trang 16)
Bảng 3.2: Bảng liệt kê các siêu ký tự thường dùng. - QUẢN Lý d6cntt epu dai
Bảng 3.2 Bảng liệt kê các siêu ký tự thường dùng (Trang 21)
Hình 3.4:Giao diện tổng hợp về các tin kinh tế. - QUẢN Lý d6cntt epu dai
Hình 3.4 Giao diện tổng hợp về các tin kinh tế (Trang 23)
Hình 3.5: Giao diện trích rút thông tin - QUẢN Lý d6cntt epu dai
Hình 3.5 Giao diện trích rút thông tin (Trang 24)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w