Luận văn phương pháp học bán giám sát cho bài toán trích chọn thông tin và Ứng dụng trích chọn thực thể tên máy Ảnh số

Nói cách khác, môt hệ thống trích chọn thông tin rút ra những thông tin dã dược dinh nghĩa trước về các thực thể và môi quan hệ giữa các thực thể từ một văn bản dưới dang ngôn ngữ tự nh

Trang 1

TRUONG DAI HOC CONG NGHE

TRUONG THI PHUONG THAO

PHƯƠNG PHÁP HOC BAN GIAM SAT CHO BAI TOAN TRICH CHON THONG TIN VA UNG DUNG

TRICH CHON THUC THE TEN MAY ANH SO

Ngành: Công nghệ thông tin

Chuyên ngành: Hệ thông thang tin

Ma sb: 60.48.05

LUAN VAN THAC Si

Cán bộ hướng dẫn khoa học: TS Nguyễn Trí Thành

Hà Nội - 2011

Trang 2

2.1.1 Công nghệ tri thức

2.1.2 Iuẫn luyện tự động

2.2 Các phương pháp trích chọn

2.2.1 Iloc có giám sát trích chọn quan hệ Huy

2.2.2 1lạc không giám sát trích chọn quan hệ 17

3.1 Mô tả bài toản Thiet

3.2 Mô hình giải quyết bài toán

3.3 Mô hình hệ thắng

3.3.1 Pha tiền xử lí

3.3.2 Pha sinh các mẫu se

3.3.3 Pha sinh các bộ quan hệ mới

Kết luận và hướng phát triển tương lai

Phụ lục Mỗi quan hệ ngữ nghia trong WordNet

Trang 4

Bảng 1: Các luật của AutoSlog 7

Bang 2: Nim bé quan hệ hạt giống của hệ thống I3IPRH 23

Bảng 3: VÍ dụ các sự kiện được mô tả dưới dạng bộ - 7 ca 23) Bảng 4: Ví dụ về việc sinh các mẫu DIPRE "— - Bảng 5: Năm bộ quan hệ hạt giống của hệ thông Snowball ýẮ - Bảng 6: Một số lớp thường dùng trong WordiNet Ö 4

Tăng 7: Cầu hình của máy PC dùng trong thực nghiệm 40

Bảng 8: Cáo công cụ sử dụng trong thực nghiệm 49

Bang 9: Cáo thư viện sử đụng trong thực nghiệm 49

Bảng 16: Dữ liệu kiểm thứ và đữ liệu huấn luyện 50

Bảng 12: Một số cặp <camera, producer> ở lần lặp đầu tiên tern OL

Bang 13: Gid tri Precision, Recall và E1 sau các vòng lặp 5) Bang 14: Gia tri Preeision, Reoall, F1 của hệ thống theo giá trị tsup 33 Bang 15: Giá trị cla Precision, Recall, E1 thực nghiệm trên lập 5000 %4

Bang 16: Kết quá so sánh giữa thực nghiệm 1 và 2 s4 Bảng 17: Kết quả trích chọn khi áp dụng giải thuật DIPRB trên Tập 1200 55

Băng 18: Kết quả trích chọn khi áp dụng giải thuật [)IPRE trên Tập 5000 55 Bang 19: Bang thống kê kết quả trích chọn khi áp dụng giải thuật I2IPRE cho

bài toán trích chọn tên máy anh sé

Bảng 20: Kết quả thực nghiệm 5 với số sổ Mỹng các cặp tim n được

Bảng 21: Kết quả thực nghiệm 5 - Một số mẫu có độ chính xác cao và xuất hiện

Bang 22: Kết quả thực nghiệm 5- Thống kế các s loại máy y anh phé biến, nhất $8

Tiăng 23: Kết quả thực nghiệm 5 - Thống kê số lượng may ảnh theo hãng sản

Trang 5

Minh họa về một hệ thống trích chọn thông tin

Vĩ dụ về khai phá quan diém

So dé hoạt động của hệ thống Auto8log

Sơ đỗ hoạt động của hệ thống AutoSlog TS

Ví dụ vé AutoSlog - TS

Mô hình hoạt động của hệ thống DIPRI:

Mô hình hoại động của hệ thống Snowball

Các sự kiện tim được đựa vào bộ quan hệ hạt giống

Mô hình hệ thống trích chọn tên máy ảnh số

Hình 10: Mö hình của pha tiền xử lí

Hình 11: Mô hình thuật toán sinh mẫu từ một bộ quan hệ

Hình 12: Giá trị của Precision, Recall, F1 thực nghiêm trên tập 1200

Tỉnh 13: Giá trị Precision, Recall, F1 của hệ thống theo giá trị tsup

Hình 14: Kết quả thực nghiệm 3 (a) va thực nghiệm 4 (b) đối với giá trị F1

Trang 6

Trích chọn thực thể lá bài toán cơ bản nhất trang các bái toán trích chọn thông tin nhưng lại đóng vai trò khá quan trọng, Thực thể tên ngày càng được

ứng dụng trong nhiều bài toán trong khai phá dữ liệu web cũng như nhiều các bải toán trong xử lý ngôn ngữ tự nhiên Do đó việc xây đựng các giải thuật trích chọn các thực thể tên này từ web là bài toán có ý nghĩa quan trọng Luận văn tập trung vào tìm hiểu việc xây đựng một mô hình trích chọn thực thể tên và ứng

dụng vào trích chọn thực thể Lên máy ảnh trên web

Cầu trúc luận văn gồm 4 chương

Chương 1: Giới thiệu một cách khái quát nhất bải toán trích chọn thông tin,

tinh img đựng thực tiễn của bải Loản

Chương 2: Trình bày một số các khái niệm liên quan dén bài toán trích

chọn thông tin, các phương pháp trích chọn thông tủ Với mỗi phương pháp

trình bày một mô hình mình họa Đây là cơ sở luận quan trong để luận văn để

xuất một mô hình áp dụng với bài toán trích chọn thực thể Cụ thể luận văn lựa

chọn hướng tiếp cận học bán giảm sát

Chương 3: Ứng đụng phương pháp hạc bán giám sát vào hệ thống trích

chọn tên máy ảnh kĩ thuật số

Chương 4: Kết quả thực nghiệm của luận văn, đánh giá phương pháp và kết

Trang 7

Với sự bùng nễ của Internet và các phương tiện lưu trữ đã tạo ra một lượng

thông tin không lồ Bên cạnh đó nhu cầu về tốc độ xử lý thông tia cũng như tinh

chính xác ngày càng tăng [lién nay, các máy tìm kiếm (search engine) thực hiện

vide tìm những trang wcb phủ hợp với yêu oầu câu hỏi người dùng

Mặc dủ chất lượng của các máy tìm kiếm dã được cải thiện nhưng kết quả

trả về chỉ là những tải liệu có liên quan, chúng không dễ dàng gì rúL ra được các

mỗi quan hệ tiềm Ân và tạo được các câu trả lời cho các truy vấn phức tạp, chẳng,

hạn như “danh sách các công ty liên doanh” hoặc “danh sách các nhá lãnh đạo quốc tế trên toản thể giới” Người ta phân loại câu trả lời các truy vấn ở dạng: có phân tích các tải liệu liên quan để tập hợp những thông tin cần thiết Nêu nhiễu mối quan hệ như “Công ty A liên doanh với công ty B” được lưu trong các tài

liệu thì nó tự động tổng hợp và cầu trúc hóa, điều nảy rất tốt không chỉ cho các

ác hệ thống hỏi đáp tự động va tom tat văn bản Do đó khai thác được những trì thức đó sẽ mang lại nhiều thông tin bố

ích Đá là lĩnh vực mà “trích chọn thông tin” nghiên cứu

hệ thống truy vấn thông tin ma còn cho

Trích chọn thông tin (Infermation Tixtraction - TE) là công việc trích ra gác

thông tin có cấu trúc từ các văn bản không có cấu trúc Nói cách khác, môt hệ

thống trích chọn thông tin rút ra những thông tin dã dược dinh nghĩa trước về

các thực thể và môi quan hệ giữa các thực thể từ một văn bản dưới dang ngôn ngữ tự nhiên và điền những thông tin này vào một văn bản ghi đữ liệu có cấu tric hoặc một dạng mẫu được định nghĩa trước đó Không giống như hiểu toàn

bộ văn bản, các hệ thông trích chọn thông tin chỉ cô gắng nhận biết một số thông

tin dang quan tam ở một lĩnh vực nảo đó Ví dụ hệ thống trích chọn các bộ quan

Canon has posted a firmware update for

its EOS 7D digital SLR

Pentax has announced the Optio RS1500

compact camera with interchangeable, Producer Camera

Casio and Ricoh have released firmware Casio Exilim EX-H20G

updates for the Exilim EX-H20G and Ricoh G700SE

GTODSE digital cameras respectively

Hình 1: Minh họa về một hệ thẳng Irích chọn thông tin

Trang 8

Có rất nhiều mứu độ cũng như nội dung công việc trích chọn thông lin khác

nhau Một số bài toán trích chọn có thể liệt kê như sau

® Trich chon 14 thyc thé tén (Named Entity NE) Mệt thực thể tên là một

thực thể được đặt một tên Tiêng, ví dụ như “Barack Obama” là một thực

thể Lên người, “Microsoft Corporation” là thực thể tên công ty/ tổ chức

[7,17]

s _ Trích chơn thông tin là đi tìm những quan hê giữa các đối tượng có tên

được chỉ định trước Ví dụ: từ một câu “Bill Gates là chủ tịch của

Microsoft”, chúng ta muốn hệ thống có thể đưa ra được két qué: Bill

Gates là một tên người, Microsoft là tên một tổ chức và Bill Gates ông

chủ của Microsoft Một số quan hệ khác có thể là: quan hệ sát nhập

(afiliation}; quan hệ vai trd (role); quan hệ về vị ti, dia diém (location),

quan hệ toàn thể-bộ phận (parl-whole), quan hệ nhân quả (cause-effect);

các mối quan hệ xã hội giữa các cắp thực thể Ví dụ, câu “George Push duoc bau làm tổng thống của Mỹ.” Thi quan hệ, “George Bush”

(Person) là “tổng thắng” của “MẸ”, có thể được rút ra [5]

ø Trích chọn sự kiện cho miền đữ liệu tia tức đưới đạng khung mẫu

(template) Mỗi khung mẫu hao gồm tập hợp cde slot can được lấp đây

bởi một hoặc nhiều giá trị Những giá trị này có thể bao gồm văn bản thuần túy, các con trỏ trỏ tới các dối tượng khung mẫu khác |4, 9] Vi

dụ: “4 Apr Dallas - Early last evening, a tomado swept through northwest

Dallas The twister occurred without waming at about 7:15 pm and destroyed two mobile homes The Texaco station at 102 Main St was also severely

damaged, but no injuries were reported.” Doan văn bản tóm tắt câu chuyện

về thâm họa tự nhiên lốc xoáy, trích chọn các thông tin về ngày và thời gian xây ra, và thiệt hại tải sản hay thương tích về con người đo sự kiện gay ra 116 théng có thể trích chọn ra khung mẫu sau

Evenl: lamado Date: 4/3/97 Time: 19:15

Lacatian: “northwest [Dallas”: ‘Vexas: USA Damage: “mobile homes” (đổi tương bị thiệt hai — Damaged

Object)

*“[exaco station” (đỗi tượng bị thiệt hại)

chọn ra các nhận định của người dùng về một dối tượng nào đỏ [14] Hình 2 chỉ ra mết trong các quan diễm mà ta có thể trích ra là thông tin

Trang 9

người dimg nhận thay “ihe colors of pictures” duve chup béi sin phim

| just bought a Powershot a Attribute <colors>

few days ago | took same Evaluation <great>

pictures using the camera Candition <flash is used>

1) colors are so great even RẺ " d Wen flash is used ———————— lon tmit2

(2) easy lo giip since the body Opinion halder (wnter)

has a grip handie Suject <Powershot>

Part <>

Attribute <>

Evaluation <easy to grip>

Condition <bady has a grip

1nh 2: Ví dụ về khai phá quan điểm

«Ngoài ra tủy vào từng ứng dụng cụ thể mả ta có thể cần trích chọn các

đối tượng khác trong văn bản, chẳng hạn trích chọn các nguyên nhân đẫn đên một loại bệnh nảo đó [10],

Còn người, thời gian, địa điểm, các con số, là những đổi tượng cơ bản

trong một văn bản đủ ở bất kì ngôn ngữ nào Do đỏ thực thể tên là một đối tượng được quan tâm rất nhiều và ngày càng trở nên quan trọng, nó đang được

khai

nhiên (Natural Language Processing) cting nhu khai phá văn bán và khai phá

web (Web Mining)

Muc dich chinh của bài toán nhận biết các loại thực thể lá xác định những

à ứng dụng trong nhiều bài toán trong lĩnh vực xử lý ngôn ngữ tự

dỗi tượng này từ đỏ phần nào giúp cho chúng ta trong việc hiểu văn bản RS

rang trước khi có thể xác định được các mối quan hệ giữa các thục thể ta phải

xác định được đâu là các thực thể tham gia vào mốt quan hệ đó Ví dụ về một số

ứng dụng của thực thể tên trong lĩnh vực xử 1ÿ ngôn ngữ tự nhiên và khai phá dữ

liệu văn bản, web là:

® Dich may (Machine ‘franstation): khi chúng ta phát hiện ra được một thực thể tên trang một văn bản thì khi dịch sang ngôn ngữ mới ta

thường để nguyên thực thể tên đó chứ không dịch [12].

Trang 10

* 'Tớm tắt văn bản: Khi xác định được nội dung của một văn bản nói về

một thực thể tên nào đó thi ching ta sé gan trong sỐ cao cho các câu có

để cập đến thực thể tên, cách này có thể làm tăng chất lượng của hệ tóm

tất [11]

«Phân lớp văn bản: khi tìm ra được một thực thể tên thường thuộc một phân lớp văn bản nảo đó, thì đó sẽ là một thông tin quan trọng dễ giúp

làm tăng chất lượng của các giải thuật phân lớp Chẳng hạn như tin nói

về tổng thông Obama thường hay xuất hiện ở thể loại tin tức là: Thế giới

[1s]

« Tìm kiểm thực thể: dây là một hướng phát triển mới của các máy tim kiếm Khi nhu cầu người dùng tăng cao thì người ta muốn các máy tỉm

kiếm trở nên thông minh hơn, và người ta mong muốn có một hé thông

tim kiểm có thể trả về các thực thể người ta cần chứ không phải lả các

văn bản chứa các thực thể như những máy tìm kiểm hiện tại [13]

«- Hệ thông hỏi đáp [16], chẳng hạn giúp trả lời các câu hỏi liên quan đến thực thể như “Ai là người đầu tiên dặt chân lên mặt trăng?”

- Tên lữa dược phỏng ra từ dâu?

- Ai là chủ nhân và điều khiển tên lửa đó?

- Khôi lượng chất nỗ trong tên lửa?

- Chất nỗ sử dụng là gì?

« Ủng dụng trong phân tích một đối tương nào đó Ví dụ như rong một

tài liều văn bản mô tã bằng ngôn ngữ tự nhiên, ta cỏ thể tìm hiểu sự đi

chuyển của các giám đốc điều hành từ vị trí này đến vị trí khác ở các

công ty khác nhau dựa vào các thực thể kiểu: Yên nha diều hành, 'Tên

công ty cũ, Vị trí cũ, Iên công ty mới, Vị trí mới, Ngày chuyển đi Thông tin này có ích trong việc phân tích, chẳng hạn như các phân tích

liên kết, trình bày tiến trình thời gian, địa vị, và vẽ đề thị của xu hướng

Ngày nay những thông tin tích chọn cũng được sử dụng để hỗ trợ và ting cường các loại khác của các ứng dụng xử lý văn bản như các hệ

thống truy vấn thông tin, hệ thông hỏi đáp, phân loại văn bắn

Muốn khai thác được thực thể tên vào các bài toán cy thé thi công việc đầu

tiên là phải nhận dang ra được các thực thể tên có trong văn bản Do đó bài toán

nhận đạng thực thể lên (Named lintity Recognition — NDR) ngày cảng trở nên

bài toán mang tinh chất rất quan trọng và rất cần làm tăng chất lượng của nó

Luận văn lập trung vào bài toán trích chọn thực thể tên và quan hệ của nó trong

văn bản

Trang 11

Nhận dạng thực thể có tôn là một công việc của xử lý ngôn ngữ tự nhiên

trên máy tính, được giới thiệu lần đầu tiên tại hội nghị MUC lần thứ 6 [8], bao

gồm các nhiệm vụ: nhần dạng lên người (PERSON), dịa danh (LOCATION), tổ

chức (organization) (SNAMIHX); ngày thang (date), thời gian (me) (FIMH), và

tỷ lẻ (percentage), tiền tệ (monetary) (NUMEX) Giờ các thục thể tên được mở

rộng hơn như tên các loại bệnh, tên các loại profin, tiêu để bài báo, tên các cuộc

hành trình

WWW chứa đựng một nguồn thông tin không 14, và cực kỳ phân tán, từ cơ

sở đữ liệu DNA đến danh sách các nha hang ưu thích Tuy nhiên đữ liệu rãi rác trong hàng ngắn nguồn thông tin với nhiều định dạng khác nhau Nếu các mẫu

thông tin này có thể được trích chọn Lừ WWW và tích hợp vào một dạng có cầu

WWW Nhưng một thực tế là khối lượng thông tin quá lớn việc trích chọn thủ

công là điều không tưởng, bởi ta không chỉ làm việc trên khoảng 10 tài liệu mã phải thực hiện trên hàng nghìn tải liệu Vậy mục đích ở đây là để khai phá các nguén thông tin và trích chọn các thông tin liên quan từ chúng một cách tự động,

hay sự cực tiểu sự can thiệp của con người

Kết quả của việc trích chọn thục thể tên phụ thuộc vàn mục đích được xác

định trước như lên người, tô chức, địa điểm, biểu thức của thời đại, số lượng, giá

trị tiền tệ, tý lệ phần trăm , người dùng có thể thu lượm được một loạt các trí thức Ẩn dưới các thực thể tên đó Ở dây luận văn tập trung vào việc trích chon

tên máy ảnh kĩ thuật số có sử dung giải thuật học ban giám sát

'Thị trường máy ảnh kỹ thuật số hiện có không dưới 10 nhãn hiệu nỗi tiếng

trên thể gidinhu Sony, Canon, Fujifilm, Olympus dén Konica, Nikon, Samsung,

Pentax Nhiều nhà sản xuất chuyên về công nghệ thông tin cũng tham gia vào thị trường này như Ipson, TIP cho thấy đây là một thị trường đây hứa hẹn Cuộc đua giữa các nhà sản xuất võ cùng sôi động thông qua việc liên tục đưa ra

thị trường oác sẵn phẩm có kiểu đáng mới, độ phân giải may cao, gié mém

Cuộc cạnh tranh cúa các nhà sản xuất

Ấn dang tiếp Lụu gia Lăng, dem lại

ao với giá ngày

tăng lên Nguyễn nhân là do dâu? Hàng năm, số lượng các loại may ảnh mới ra

đời ngày càng nhiễu, người tiêu dùng đang bắt đầu thay thể những chiếc máy ảnh kỹ thuật số đã cũ của mình Nhiều người thậm chí còn mua những chiếc

Trang 12

máy ánh thứ hai, thứ ba chủ gia đình Điều này đôi hỗi người dùng cần phải luôn

luôn cập nhật thông Lin mỗi khi muốn mua một loại raáy ảnh mới, đồng thời đòi

hỏi các nhả kinh doanh phải biết chính xá

máy ảnh mới dễ dựa ra các chỉnh sách buôn bán cho phù hợp

‘Tay nhiên các thông tin trên mạng rất đa dang và không có sự phân loại,

người ding dễ bị ngột thở bởi rất nhiều các luồng thông tin và các dạng thông

tin, việc lây 1ã các thông tim cần thiết cho nhụ cầu sử dung cua minh 14 tất khó

khăn Một nhu cầu đơn giản của người đùng là xác định tên máy ảnh này do hãng nào sản xuất từ hàng nghìn các thông tin trên mạng Internet

Một ứng đụng khác của việc trích chọn tên các máy ảnh số là tì thêm các

thông số kỹ thuật liên quan đến lừng loại máy ảnh để so sánh, đánh giá sản

ác thông tin liên quan đến các loại

phẩm giữa các nhá sẵn xuất Hoặc có thể ứng dụng váo bài toán khai phá quan diễm

Trang 13

CHƯƠNG 2 HỆ THÓNG TRÍCH CHỌN THÔNG TIN

2.1 Xây dựng hệ thống trích chọn thông tin

Có hai hướng tiếp cận: Công nghệ trí thức (Knowledge lngineering) và 1Iuấn luyện tự động (Automation Training)

2.1.1 Công nghệ tri thức

Cần một kỹ sư trị thức (Knowlcdgc Bnginccr): một người quen thuộc với

hệ thống truy tìm thông tin (Information Rctricval -IR), hình thức hóa các quy

tắc cho hệ thống, hoặc tự bản thần hoặc kết hợp với một chuyên pia trong mién

img dung nay sẽ viết các quy tắc cho các thành phần của hệ thống IR để đánh đấu hoặc trích lọc thông tin sau khi tìm kiém [5]

kỹ sư tri thức sẽ phải truy cập đến một kho văn bản có kích thước vừa phải của các miễn liên quan Rõ ràng rằng các kỹ năng của kỹ sư trí thức đóng một vêu tổ lớn trong mức độ thực hiện cần đạt đến của toàn bộ hệ thống,

luôn luôn được cập nhật để cho hệ thống có thể hoạt động tốt nhất Việc xây

dựng một hệ thống thực hiện cao thường là một quá trình lập di lặp lại nhiều lần,

nhờ vào một tập các quy tắc được viết ra, hệ thông sẽ chạy qua một tập dữ liệu văn bản được huấn luyện và đầu ra được kiểm tra xem nơi nào các quy tắc này được tạo ra Kỹ sư tri thức sau đó tạo ra những cải biến cho các quy tắc vả lặp

lại quá trình

IƯu điểm: thích hợp với hệ thông làm việc một cách thủ công, nhụ thuậc

nhiễu vào kỹ năng và kinh nghiệm của người viết ra luật

Nhược diễm: yêu cầu một chu trình kiểm tra và sửa lỗi khá là khỏ khăn

phụ thuộc vào rất nhiều nguồn tải nguyễn ngôn ngữ như bộ từ diễn phù hợp, khả năng của người viết luật Nếu một nhân té nao hi mat mát, hệ thống có thể trở

lên không còn chắc chắn nữa

Thich hợp với những hệ thống có sẵn nguồn tài nguyên về ngôn ngữ (bộ từ

điển) và con người (người viết luật), dữ liệu huấn luyện ít hoặc tốn kém, các đặc

tả trích chọn thay đổi nhiễu theo thời gian

2.1.2 Huấn luyện tự động

Trong hướng tiếp cận nảy, chúng la không cần thiết phải có kiến thức chỉ

tắc dược vIếL ra sao Chỉ cần thiết phải có một ai đó biết một cách đây du về

tiết về việc hệ thống trích chọn thông tin xem làm việc như thế nào, ha

Trang 14

miền vả công việc này dé

bẩn phủ hợp cho thông tin được trích chọn

Các chủ thịch này sẽ tập trung vào một khia cạnh đặc biệt của quá trình xứ

y được kho đữ liệu văn bản, va chủ thích những văn

lý của hệ thống Một bộ doán nhận tên sẽ dược huấn luyện bằng việc chú thích

kho dữ liêu văn bản củng với các tên phù hợp với miễn liên quan

Sau khi tập đữ liệu huấn luyện phù hợp dã được chủ thích, thuật toán huấn

luyện được sử dụng, hệ thống sẽ sử dụng kết quả trả về phục vụ cho quá trình phân tích văn bản mới Một cách sử dụng bộ quan hệ huấn luyện khác là dé tương tác với người đùng trong suốt quá trình xử lý Người sử dụng được phép chỉ ra liệu rằng các giả thuyết của hệ thống về văn bản có đúng không, nếu

của chính nó để điều tiết thông Lin

nao Vi dụ: nhận dạng lên: dé dang để lim được những người có thể viết chú

thích để tạo ra một số lượng lớn các dữ liệu huẫn luyện

Nếu việc chú thích dòi hồi ở mức cao hơn trực piác của con người, nghĩa là dài hồi một sự phức tạp hay các

kiến thức về chuyên môn, thi khó mà tìm ra được các chú thích, và khó có thé

tạo ra đữ liệu chủ thích dầy đú chu một tập huấn luyện tốt

Thue tế rằng, việc thu thập tập dữ liệu huấn luyện với chât lượng tôt có khi khá tốn kém, hoặc việc thu thập đữ liệu huấn luyện không tến kém về mặt thời

gian và con người nhưng lại tôn kém trong giai đoạn viết các luật cho hệ thống

Thích hợp: với hệ thống không có sẵn tải nguyên về ngôn ngữ và kỹ năng

của người viết luật, dữ liệu huấn luyện phong phú và không tốn kém, c

đặc Lá Ổn định Nếu bản đặc tã thay dỗi theo thời gian, thì hệ thông sẽ chủ thích lại tất cả những dữ liệu huấn luyện đã tằn tại bằng những dặc tả mới và sau dó

Nhược điểm: Thụ thuộc vào tập huấn luyệi

bản

huấn luyện lại Đây là một công việc khá khó khăn

2.2 Các nhương nháp trích chụn

Vì các giải thuật dựa trên luật đòi hỏi tri thức của các chuyên gia và khả

năng thích ứng với các miền đữ liệu mới là hạn chế, nên luận văn sẽ tập trung

Trang 15

vào các giải thuật học máy Phần này sẽ giới thiệu một số giải thuật học máy

trong trích chọn thông tin

2.2.1 Học có giám sát trích chọn quan hệ

a Giới thiệu:

Một hướng tiếp cân thường sử dụng trong nhiều hệ thông trích chọn có

giam sát là để huấn luyện hệ thẳng trên một tập tài liệu dược gán nhẫn thủ công,

dựa vào đó hệ thống có thể áp dụng các kĩ thuật máy học để sinh ra các mẫu trích chọn Nhược điểm của phương pháp này là phụ thuộc vào tập dữ liệu được gán nhãn, bao gdm số lượng lớn các thao tác thủ công để tạo ra nó

Mục tiêu của học có giảm sát là tìm hiểu một mô hình dé phân loại các thể hiện một cách tự động Học có giám sát được biết đến nhiều nhất là việc phân

lớp Vi dụ, nếu một người muốn xây dựng một hệ thống giúp ai dé mua một

chiếc ô tô, nó có thể lựa chợn hãng, màn, năm sin xuất như các đặc trưng Hệ thống phái có một danh sách các ví dụ thể hiện cùng với các giá trị riêng biệU

cho mỗi đặc tính Mỗi thể hiện sẽ dược đánh giá bởi một chuyên gia và dược

xếp vào một lớp nào đó phục vụ đề phân loại các thông tin, với bài toán mua xe

ô tô, các lớp có thể là mua hoặc không mua Với các thể hiện này, nhãn lớp đó tạo thành một tập huấn luyện để có thể được sử dụng như là đầu vào cho một

chương trình học có giám sát

lạc cỏ giám sát có thể được dùng để học các mẫu từ tập huấn luyện (đưới

dạng một tập tài liệu được gắn nhãn) mà không cần sự trợ giún của con người Tuy nhiên, thành công của hệ thống lại phụ thuộc vào độ lin gậy của dữ liệu

huấn luyện Mặc đủ học có giám sát tiết kiệm nhiều thời gian của các chuyên gia, nhưng chỉ phí Ấn cho việc gản nhãn của tập huấn luyện th lại rất lớn

b liệ thông AuloSlog

AutoSlog [18] là một hệ thẳng cấu trúc từ diễn, sinh ra các mẫu trích chọn

một cách tự động sử dụng các luật heuristic trên một miễn chuyên biệt nào đó

Auto5log sử dụng thuật toán học có giảm sát, sử dụng tập tài liệu đã được chú

thích trong đó danh sách các cụm từ cần được trích chọn phải được gán nhãn, coi đây như đầu vào của thuật toản (Ví đu, trong miễn khủng bố, các cụm danh

từ chỉ thủ phạm, mục tiêu, nạn nhân có thể được gắn nhãn)

Vi dụ một câu đã được gán nhãn: “lt was officially reported that a policeman

Trang 16

Hoại động của hệ thống AutoSlog được mô tả trong hinh 3

"The World Trads Caster

was bombed by tezrorists "

Hinh 3: So dé hoat ding của hệ thống AutoSlog

Cho mội cụm danh tử dã dược gản nhãn vả mội doạn văn bắn nguồn,

AutoSlog dầu tiền sẽ xác dịnh câu chứa cụm đanh tử trên Nếu cỏ nhiều hơn một:

câu và việc chú thích không chỉ ra cái nào là thích hợp thì AutoBlog sẽ lựa chọn

câu đầu tiên AutoSlog sẽ gọi bộ phân tích câu được gọi là CIRCUS để xác định

các biên mệnh để và các thành phần ngữ pháp AutoSlog cần duy nhất môt phân

tích cú pháp nông để nhận diện chủ ngữ, động từ, đối tượng trực tiếp, và các cụm giới từ của mỗi mệnh đề, vì thế bất kì phân tích nào đều có thể được sử

dụng Auto8log sử dụng lập các luật heuristie, tập các luật này được lắp vào cho

câu đã xác định ở trên, những luật nào phù hợp sẽ sinh ra các mẫu trích chọn

trên cơ sứ các từ đặc trưng trong cầu Trong hầu hết áo trường hợp, họ giả sử

rằng déng tử quyết định vai trò Các luật nhận đang vai dạng thức của động từ

như chủ đông, bị đông, nguyên thể Tập các luật heuristics được trình bảy trong, bang 1

Vi du c6 cau “Luke Johnson was killed in Iraq by insurgents.” Gia str ring Luke

Johnson duoc gn nhan nh một nạn nhân liên quan, AutoSlog phân tích câu đó

vả nhận dạng Luke Johnson như một chủ thể Các luật chủ thể heuristic được

kiểm tra và nhận thay duy nhất luật #1 <subj> passive - verb phủ hợp với mệnh để

trên Luật này được so khớp với các từ chuyên dụng trong câu đó để tạo ra mẫu

trích chọn <victim> was Killed Ma

từ ở bất kỉ nơi nào mà động ur killed xuat hién trong cấu trúc bị động và chủ thể

du này sẽ được sử dụng để trích chon cum danh của nó sẽ được Irích chọn như một nạn nhân.

Trang 17

Tương tự, néu insurgents duoc gan nhan la thi pham AutuSlog sé smh ra mau was killed by <np> dua én luật #12 Mau na

Mẫu luật houristic Cáo mẫu học được từ các luật

1 | <subj> passive-verb <victim> was murdered

2 | <subj> active-verb <perpetrator> bombed

3 | <subj> verb infinitive <perpetrator> attempted to kill

4 | <subj> aux noun <viclim> was viclim

5 | Passive-verb <dobi> Killed <victim>

6 | Active-verb <dobj> Bombed <target>

7 | Infinitive <direct-obj> To kill <vietim>

8 | Verb infinitive <direct-obj> ‘Tried to attack <target>

9 | Gorund <dircct-obj> Killing <vietim>

10 | Noun aux <direct-obj> Fatality was <victim>

11 | Noun preposition <noun-phrase> Bomb against <target»

12 | Passive-verb preposition <noun-phrase> | Killed with <instrument>

13 | Active-verb preposition <noun-phrase> | Was aimed al <largei>

quá trình trích chọn sau này

2.2.2 Học không giám sát trích chọn quan hệ

a Giới thiệu:

Với số lượng gần như vô hạn của văn bản không có nhãn có thể truy cập vào các trang web và các nguồn khác, các phương pháp học không giám sát có

thể khai thác văn bản không được chú thích làm cho nó trở lên có giá trị, giảm

bớt chỉ phi cho việc chú thích, gán nhãn cho tài liệu như ở phương pháp học có

giảm sát

Hướng tiếp cận cơ bản của học không giám sát bao gm các bước Thứ

nhất, các hệ thống học không giám sát được bắt đầu với một số mẫu hoặc sự

kiện đã dược gản nhẫn Sau đó, hệ thông sẽ tìm kiếm trên tập dữ liệu lớn chưa

được chú thích dé tim các mẫu tiềm năng trên cơ sở các mẫu ban đầu Saư khi các mẫu mới được tìm thấy, hệ thông có thể sử dụng chúng để khai phá thêm

các sự kiện bể xung LIệ thống sẽ thêm các sự kiện đó vào tập hạt giống Sau đó,

Trang 18

hệ thống được huấn luyện lại dựa trên tập hạt giống mở rộng mới Quá trình nảy lặp cho đến khi không cỏn mẫu nao duoc tim thầy nữa

b AutoSlog— TS

AutoSlog — T§ [18] là sự mở rông của AutoSlog, không đỏi hỏi việc gắn

nhãn, tự đông sinh các mẫu trích chọn cho mọi cụm danh từ Thay vào đó,

AutoSlog T§ học từ hai tập văn bản không được gán nhãn: một tập liên quan

đến miễn quan tâm, một tập không liên quan đến miễn Ví dụ, nếu một hệ thống

muốn học các mẫu trích chọn cho miền khủng bố, người dùng sẽ cung cấp một tập văn bản mô tả các sự kiện khủng bố và một tập không liên quan các sự kiện

khủng bố AutoSlog — TS tao ra mọi mẫu có thể trong tập văn bản, sau đó tính

toán thống kê dựa trên tần xuất xuất hiện của mỗi mẫu trong tập các văn bản liên

quan so với tập các văn bản không liên quan Sau đó hệ thống sẽ tạo ra một danh

sách xếp hạng các mẫu trích chọn được củng với số liệu thông kê để chỉ ra mẫu

nào hỗ trợ nhiều nhất với miền đang xét

AutoSlog TS sit dung tip gồm 15 luật heuristic, bao gồm 13 luật của AutoSlog ở bảng 1, cộng thêm 2 mau heuritic moi: <subj> active-verb dobj (<perpetrator> attacked embassy): infinitive preposition <noun-phrase > (to sell for

<np>) Hai mẫu thêm vào: nảy được tạo ra cho các miễn kinh doanh từ các kinh

nghiêm đã có

Stage 1

preclassified texts

Concept Nodes:

S: World Trade Center

Vi was bombed = =p => | <x> was bombed PP: by serorisis bombed by <>

preclassified texts Stage 2

Trang 19

® Giai đoạn l:

+ phân tích ngữ pháp để xác định các cụm danh từ

+ với mỗi cụm đanh từ, các luật heuristic sinh ra các mẫu (gọi là các nút

khái niệm - concept node trong CIRCUS)

! số thể sinh ra các luật phức tạp Giả sử có câu “‡errorisls bombed the US

embassy”, va cum danh từ terrorisls đã được gán nhần thủ phạm thi cả luật <subj> active-verb va <subj> active-verb dobj đều được áp dụng vào =3 Ta có các mẫu

được sinh za 1a: <perpetrator> bombed

<perpetrator> bombed embassy

Giai đoạn này tạo ra một số lượng lớn các mẫu trích chon, dén hàng chục

nghìn mẫu riêng biệt, các mẫu này có khả năng trích chọn mọi cụm danh từ

trong tập tài liệu

* Giai đoạn 2: Tiến hành quá trình huần luyện tập dữ liệu lần 2 sử dụng các mẫu trích chọn mới

Với mỗi mẫu trích chọn dược, AutoSlop TẾ sẽ tỉnh toản hai giá trị tần xuất tolal_freg, 1a

rel_freg la sé Vin xuất hiện của mẫu thứ 1 trong tập tài liêu liên quan 8au đó hệ

thống sẽ tính toán giá trị thông kê:

ố lần xuất hiện của mẫu thứ I rong toản bộ tập tài liệu, vả

roi frog,

Pr{ relevant patterns, )~ Fret

Sau đó, hệ thống xếp hạng các mẫu thoa thứ tự độ quan lrọng trong miền

theo ông thức

Rlog F( pattern, )=log.(rel freq, )* Pr(relevant| patterns, }

Ilinh 5 chỉ ra một số ví dụ về đầu vào và đầu ra của AutoSlog TS

the court house The FMLN claimed responsibilily for the death of the judges

and claimed that the death of more judges would soon follow

Irrelevant Text

The Tos Angeles Times reported thal Marlon Brando died loday in

California Marlon Rrando died at the UCI.A Hospital at the age of 80 Sources claimed that he had been diagnosed with pulmonary fibrosis

Trang 20

0.667 0.667 0.500 0.500

0.000 0.000 was diagnosed with <np>

0.000 0000 <subj>> was diagnosed

Những hướng tiếp

n trước đây chủ yêu là học cỏ giám sát Hướng tiếp cận này khó khăn ở chỗ cần phải có ngữ liệu dã được pán nhãn hỗ trợ quá trinh

hoe Brin di dưa ra phương pháp lặp tong hd (bootstrapping) cho việc trích

chon quan hệ [3] Kĩ thuật nảy nhận đầu vào là một tập nhỏ các hạt giéng (seed) của một mỗi quan hệ cụ thế đã được xác định trước, từ đó tiễn hành cho hac dé

trích xuất ra một tập các mẫu quan hệ ngữ nghĩa và tiễn hành sinh thêm các quan

hệ mới Kết quả thu được là một tập đữ liệu lớn biểu diễn mốt quan hệ được

quan lâm

1lướng tiếp cận này cần một tập đữ liệu hạt giống nhỏ ban đầu Và nó cũng

không rõ rằng trong việc xây dựng tập khởi đầu này như thé nao, chọn lựa dữ

liệu ra sao, số lượng bao nhiêu là đủ

Sử dụng phương pháp học bản giám sát, một hệ thống có thể hợc từ việc pha trộn giữa đỡ liệu có gắn nhãn và dữ liệu không được gán nhãn Trong nhiều ứng dụng thì đó là một tập nhỏ dữ liệu được gán nhãn cùng với tập lớn đữ liệu

khéng duge gin nhãn Không tốt khi sử dung chỉ một tập nhỏ dữ liệu được gán

nhãn đề huấn luyện hệ thống bởi tỉ lệ giữa số lượng các ví dụ huấn huận với số lượng các đặc trung là nhỏ, kết quả huấn luyện sẽ không chính xác Vì thế, hệ

thống cần kết hợp giữa đữ liệu có gán nhãn và dữ liệu không gán nhãn trong

suốt quá Irình huấn luyện để cải thiện việc thực hiện

Trang 21

Hê thống có thể trích chọn các mẫu từ dữ liệu đã được gán nhãn, và gán nhãn các dữ liệu chưa được chú thích một cách tự động bằng việc sử dụng các

mẫu Và kết quả, tất cả các dữ liêu sẽ được gán nhãn trong khi huấn luyện

2.2.3.1 DIPRE: Dual Iterative Pattern Relation Extraction

Seprey Brin đã đưa ra một ý tưởng là rút trích ra cac cap (title, author) của

cuốn sách Đặc điểm của cặp được rút trích này là chúng có quan hệ với nhau —

tên sách và tên tác giả viết cuốn sách Ví dụ: cặp (The Comedy of Errors,

W.Shakespeare) thể hiện quyền sách The Comedy of Errors do W.Shakespeare viét

Ta

Điểm nỗi bật trong nghiên cứu này là thuật toán DIPRE, một kỹ thuật trích

chon các quan hệ cùng với việc tạo để sử dụng tính đối ngẫu của mẫu - quan hệ

D = một CSDL lớn thông tin không có cấu trúc như la www

R=rl, m là các quan hệ đích

Một bộ dữ liêu t, của R xuất hiện một hoặc nhiều lần trong D, là một quan

hệ Ví dụ trong [3] tập quan hệ đích R là bảng chứa các cap (author, title)

Tính đối ngẫu giữa mẫu và quan hệ: từ một tập các mẫu tốt, ta có thể xây

dựng một tập các bô quan hê tốt Ngược lại, chủng ta mong muốn đưa ra một tập

các bộ quan hệ tốt, chúng ta có thể xây dựng một tập các mẫu tốt

Giải thuật DIPRE làm việc theo mô tả trong hình 6

(_ Initial Seed Tuples } Occurrences of Seed Tuples

Generate New Seed Tuples

Generate Extraction Patterns

Hình 6: Mô hình hoạt động của hệ thống DIPRE

Quy trình rút trích dựa theo thuật toán DIPRE:

1 Láy R" là một tập nhỏ của tập quan hệ đích (danh sách 5 quyền sách với

tác giả)

2 O €FindOecurrenees(R '; D): thủ tục tìm sự xuất hiện của các cặp quan

hệ hạt giống của R’ trong tập D

Là đoạn văn bản chứa đồng thời tên tác giả và tiêu đề của quyền sách trong

văn bản (sự kiện chửa tên tác giả và tên sách)

Với bộ quan hệ tìm được, giữ ngữ cảnh xung quanh tên tác giả và tên sách

(ur] và văn bản xung quanh)

3 P €GenPatterns(O): Sinh các mẫu từ các sự kiện đã tìm được

Trang 22

Thủ Lục này phải sinh ra ác mẫu cho các tập sự kiền cùng với ngữ cảnh

tương tự Các mẫu cần phải có tỉ lệ lỗi thấp Tỉ lệ bao phủ cảng cao càng tốt

4 R’ €MD{p): Tim kiém CSDL cho bé quan hệ phủ hợp với bắt kỳ mẫu nao

5, Néu R’ dé lon thì đừng, không thì trừ lại bude 2

trớc

« Bo quan hé: cap (title, author) Vi du: cip (The Robots af Dawn, Issac

Asimov) la mol bé quan hệ,

se Mét su kién fd mét b6 - 7: (author, title, order, url, prefix, middle,

suffix)

Trong đó,

+ url là url của lải liệu chửa cặp (1e, author)

I Preñx: gồm m ký tự đứng Irước author (hoặc tiỨe nếu te

đứng trước)

+ Middlc: là phần văn ban nim pitta author va title

+ Suffix: gm m ky tu dimg sau title (hoặc author)

Ví dụ: Cho cặp quan hé (Charles Dickens, Great Expectations), trong miễn

www.books.com có đoạn thể hiện “The famous writer Charles Dickens wrote Great

Expectations book” thì tương ứng ta có sự kiện: (The famous writer, Charles Dickens,

wrote, Great Expectations, book, true, www.books.com/TopRated)

« Miu lA mat hd - 5: (order, urlprefix, prefix, middle, suffix)

chính quy **pøefx, aufhor, middle, tie, suffx*", đồng thời khi đó biến order = true Biếu thức chỉnh quy cho author va tifle Hin lugt la:

[A-Z][A-Za-z ,&]5;30[A-Za-z ]

[A-Z0-9][A-Za-z0-9 ,°#I?;&]4;45[A-Za-z0-9?1]

Trang 23

c Tim cdc sw kién dwa trén tập bộ quan hệ ban đầu

Ở công đoạn này, hệ thống cần trải qua hai lần lọc fgrep: ibrep author và

fgrop Hile Lần thứ nhất tìm các dòng tương ứng với author hợp lệ, lần thứ hai

Bang 2: Năm bộ quan hệ hạt giỗng của hệ thông DIPRIE

tìm các đỏng tương ứng với Title hợp lề Sau đó kiểm tra sự phủ hợp giữa author

va lille ndy trên một dòng, nhận dạng chúng rồi đưa ra

s http:/Avww.scifl.org/oydecade/1940 html > cé sy kién:

Nightfall by Isaac Asimov (1941)

Cac su kién mé 14 theo bộ - 7 được thể hiện trong bảng 3 dưới đây

The Robots Issac F 'www.s net @antam

of Dwan Asimove Aocus/e3.ht | by Spectra, Jan

Startide David F 'www.sfF net (Pulphouse,

Trang 24

di Sinh ra cde mau

*Thủ tục sinh ra một mẫu GenOnePaitern(O)

1 Xác mình các thành phần order và middle của tắt cá các thể hiện có trùng nhau không Nếu không, không thể sinh ra các mẫu phù hợp với tất cả

chung Gan gid tri cho oxtpatiern order va outpatiern.middle twong ung la order

va middle

2 ‘Tim tién tổ chung dai nhất của tất cá các url GIÁ trị của

outpattern.urlprefix chinh 14 tién té nay

3 Quipattern.prefix là giá trị hậu tổ chung đài nhất của tất cả các prefix

4, Outpattern suffix là giá trị tiền tổ chung đài nhất của tất cả các swffix

Thanh phan Order va Middle của các sự kiện phải giống nhau Nếu không

ta không thể sinh ra dược mẫu phủ hợp với tẤt cả các sự kiện

Outpatiern order © order

Outpatiern middle © middle

Ví dụ về thủ tục sinh mẫu được thể hiện trong bing 4

Tính đặc trưng của mẫu: Một mẫu sinh ra như trên có thé quả chung chưng hoặc quá chuyên biệt Ching ta không quan tâm đến các mẫu quá chuyên biệt vì

như vậy sỡ có rất nhiều mẫu được sinh ra, khi kết hợp chúng sé lao ra qua nhiễu

quyển sách Tuy nhiên một mẫu quá chung chung có khả năng không đưa ra

được thực thể là tên sách

Đổ giải quyết vấn dé nay, ta sé gin mỗi mẫu với mat dé do specificity

Specificity(p) — |p middle|lp.urlprefix||p prefix|lp.sujix'

trong dé: p middle, p-urlprefix, p.prefix, p.sufix 14 middle, urlprefix, prefix,

sufix của mẫu p, |s chí độ dài của xâu s

Hệ thống sẽ loại bỏ các mẫu có độ specjicib quá thấp, tuy nhiên

spectficity(P > t với n là số lượng các quyén sách trong các thể hiện tương ứng,

với mẫu P (a> 1) và t là một ngưỡng nảo đó

* Thuật oan sinh nhiéu mau GenPatterns(O)

1 Nhóm tắt các sự kiện ø trong Ó theo trường order va middle Goi các nhóm này là Ó,, , Ớy

đô “riêng biệt” thì dưa ra p Nếu không

* Nếu Ái cả các sự kiện ø trong Ø; có cùng 121, ta không thể mở rộng

duoc uriprefix thi loai ba O; dé.

Trang 25

se Còn không, phân chia các sự kiện ø trong Ó, thành các nhóm nhỏ cỏ cùng đặc tính „ri Lắp lại thủ tục trên ở bước 2 cho các nhỏm con

câu truy vấn hoặc dễ chạy các công việc khái phá dữ liệu Cũng đựa trên lư

tưởng của IDIPRH, Eugene Apichtein và lalis Gravano giới thiệu những chiến

lược mới dễ sinh các mẫu và trích chọn các bộ quan hệ từ các tải liệu vần bản

đơn giản - hệ thống Snowball, để rút trích cặp quan hé <Organization,

Location> - tén tổ chức và địa điểm [2] Lại mỗi vòng lặp của quá trỉnh trích chọn, Snowball đánh giá chất lượng của những mẫu vả bộ quan hệ mả không cân sự can thiệp của con người, chỉ giữ lại những mẫu và bộ quan hệ tin cậy nhất cho vòng lặp kế tiếp

Một tập hợp các mục trong bài báo có thể chứa hông tỉn về vị trí của các trụ sứ cai chức chúng ta cần tìm vị trí của các trụ sở này, chúng ta

gắng sử dụng các kỹ thuật tim kiếm truyền thống để tìm các lải liệu chứa câu trả

lời cho truy vấn của mình Chủng ta sẽ có câu trả lời chỉnh xác hơn nếu chúng la

có sẵn một bảng danh sách tất cả các cặp tổ chức — vị trí được dễ cập trong tập

tài liệu của chúng ta Một bộ <Orgamizalion, Locafian> trong bằng chỉ trụ sở

của tổ chức Organization la vi tri Location

Hé théng Snowball dwa trén ý twéng DIPRE: trich chon quan hé c4u trac (bảng) từ tập các tài liệu ITTML Phương pháp này hoạt động tốt nhất trong môi trường giổng như WWW, các bộ quan hệ đạng hãng được trích chọn có xu

hướng xuất hiện các ngữ cảnh lặp lại trong tập tải liêu Snowball khai thác các

Trang 26

cầu trúc giảm bớt và vốn có trong tập hợp đề trích chọn được quan hệ đích với tập huấn luyện nhỏ nhất từ người dùng, thêm vào đó người dùng có thể cung cấp thêm một biểu thức chính quy mà các thực thể phải phủ hợp Snowball tìm các

thể hiện của cặp <Orgamizafion, Location> trong các tài liệu văn bản Sau đó

Snowball sé kiém tra ngữ cảnh xung quanh bộ quan hệ ban đầu Ví dụ từ câu

“computer servers at Microsoft's headquarters in Redmond” đề xây dựng lên một mẫu

cé dang <string1>'s headquarters in <string 2>

GEE / Occurrences of Seed Tuvles

{ Generate New Seed Tuples ) [ Tag Entities )

Generate Extraction Patterns

Hình 7: Mô hình hoạt động của hệ thống Snowball

Mô hình hoạt động của hệ thống Snowball được thể hiện trong hình 7 Xuất

phát từ bộ quan hệ huấn luyện ban đâu, tìm các sự kiện liên quan, sinh các mẫu

và trích chọn bộ quan hệ từ các tài liệu văn bản, đánh giá chất lượng của mẫu và

bộ quan hệ được sinh ra tại mỗi vòng lặp của quá trình trích chọn, chỉ các mẫu

và bộ quan hệ thật sự tin cậy mới được giữ lại cho Snowball dùng cho lần lặp

tiếp theo của hệ thống Snowball cũng có thêm chiến lược đánh giá chất lượng

của mỗi mẫu và cặp quan hê, nếu cái nào đủ tin cậy thì mới được sử dụng cho

các vòng lặp tiếp theo Việc sinh và lọc các mẫu và bộ quan hệ cải thiên chất

lượng của các bảng được trích chọn một cách đáng kể Tuy nhiên Snowball cần

đến sự hỗ trợ của NER

Hệ thống Snowball déc đáo với cách biểu diễn pattern mềm dẻo, cộng với

sự hỗ trợ của NER nên có kết quả thu được tốt nhất

Bang 5: Nam bộ quan hệ hạt giông của hệ thông Snowball

b Tìm các sự kiện liên quan

Dựa vào bộ quan hệ hạt giống ban đầu ta có thể tìm được các sự kiện liên quan như sau Với mỗi cặp <Organization, Loeation>, Snowball tìm các mẫu tin

Trang 27

trong tập các tài liêu chứa Organization va Location xuat hién gần nhau, phân

tích văn bản dé két néi Organization va Location dé sinh ra các mẫu

Ví dụ các sự kiện tìm được dựa vào các bộ quan hệ hạt giống được thể hiện

In mid-afternoon trading, share of

Redmond-based Microsoft fell

BOENG INTEL SEATILE SANTA CRE) The combined company will operate ae :

from Boeing's headquarters in Seattle

N Intel, Santa Clara, cut prices of its

[Pentium processor,

Hình 8: Các sự kiên tìm được dựa vào bộ quan hệ hạt giống

e Gắn các thực thê có tên

Sự cải thiện so với DIPRE là các mẫu Snowball có thêm các thẻ gắn các

thực thể được đặt tên Ví dụ từ sự kiên 2 như trên ta có thể đưa ra mẫu có dạng

<Location> - based <Organizafion> Tuy nhiên mẫu này không phải phủ hợp với bất kỳ cặp chuối ký tự nào được liên kết bởi — based, vi du: a producer of

apple-based jelly <Location> chi phù hợp với những chuỗi được xác định thuộc loai Location <Organization> chi phù hợp với những chuỗi được xác định

thuộc loại Organization

Các thực thể trong các tải liệu văn bản được xác định loại tên hệ thống sẽ

bỏ qua các thực thể không mong muốn, chỉ tập trung vào các mẫu tin chứa thực thể Location và Organization, và phân tích ngữ cảnh bao quanh mỗi cặp của các thực thể như vậy để kiểm tra xem họ được kết nối bởi cụm từ mong muốn và do

đó sẽ phù hợp với các mẫu

d Sinh cdc mau

PN1: Mét miu Snowball la bd 5: <left, tag!, middle, tag2, right> trong 46

tagl và tag2 là các thẻ thực thể được gắn tén; left, middle, right la cac vécto cùng với trọng số (0 > 1) của các thuật ngữ Trọng số này chỉ sự quan trọng của mỗi thuật ngữ trong ngữ cảnh tương ứng

Ví dụ một mẫu trong Snowball: <{<the, 0.2>},LOCATION, {<-, 0.5>,

<based, 0.5>}, ORGANIZATION, {}>

Sau khi xác định 2 thực thé tag] va tag2, Snowball tao 3 vecto Is, rs, mg tit

S bằng việc phân tích ngữ cảnh bên trái, phải, giữa xung quanh các thực thể đó

Với mỗi veetơ có các từ với trọng số khác không xuất hiện trong ngữ cảnh

Trang 28

‘Théng thưởng gán các thuật ngỡ của vectơ zmiddie cao hơn trọng số của

vectd left va right

VD

<ORGANIZATION>’s headquarters in <LOCA'TION>

<LOCATION>-based <ORGANIZATION>

* Phân cụm các sự kiện lương tự nhan:

ĐN2: Độ do sự pho hyp Match(tp, tg) giữa hai bộ tạ và ly rung đó: f< by,

4), mm, lạ, rị> với 2 thé f;, lạ và ts— < hy loi, Ms, tay, Pg > vOL2 thé ty’ và (;" được định nghĩa là

Match(ty,t,)= J LL, | Mp Ms | FyFy

lo

Snowball sinh ra các bộ 5 cho mỗi su kiện xuất hiện trong tập hợp, sau đó

phân cụm các bộ nảy sử dụng thuật toán phân cụm đơn giản, sử dụng hàm Match phia trên để tính toán sự tương tự giữa các vectơ và ngưỡng „, Mẫu

cuối cùng được sinh ra bằng việc lấy các phần tử đại diện của các cụm Mẫu mới

lyst Meats >

Ví dụ ta có hai bộ quan hệ trong một cụm như sau

1 - <{<servers 0.75>, <at 0.75>}, ORGANIZATION, {<’s 0.5> <central

<headquarters 0.5> 0.5>}, LOCATION, {}>

2 - <{<operate 0.75>, <from 0.75>}, ORGANIZATION, {<'s 0.7>

headquarters 0.7> <in 0.7>}, LOCATION, {}>

Tương ứng ta có mẫu 5nowball

<{}, ORGANIZATION, {<’s 0.7> <hcadquaters 0.7><in 07%, LOCATION, (>

4.5.2.5 Sinh các bộ quan hệ mới

Sử dụng các mẫu vừa sinh ra, quét trên toàn bộ tập hợp dễ lẩy ra những bộ

quan hệ mới Thủ tuc sinh bộ quan hệ mới từ các mẫu là:

Sub GenerateT uples{Patterns}

For each text_segment in corpus

(1) {<ai> <, ; My, ts; >} = CreateOccurrence(text_segment);

te = <0, Simaag = Ũ;

For each p in Patterns

Trang 29

(2) sim = Match(< is; ty; mig: fe: Fs >) p);

if (Sim >= tym) (3) UpdatePatternSelectivity(9, Tc):

if(sim >= Simaast) SiMaost = SHIM;

Pest = Pi

iN Sitgest >= tom)

CandidateT uples[ 7 c].Patterns[2se„| = Size;

return CandidateTuples;

Dầu tiên Snowball xác định các câu chứa các thẻ organization vả location

Tủ những mẫu tin văn bản chứa cặp <ø, >, Snowball sinh ra bộ - § t= <&; f¿,

mụ, f2 r„ > Bộ <a, I> được lây ra nễu có một mẫu tp ma Mateh(t, f,) > = tụ, Với

?z„; là ngưỡng tương tự trong cụn1

e Đánh giá độ tin cậy của mẫu và bộ quan hệ

Sinh ra các mẫu chất lượng là một thách thúc lớn Ví dụ hệ thống có thể

sinh ra mẫu như sau: <{ }, ORGANIZATION, <”, 1 >, LOCATION, {}> tx doan vin ban “Intel, Santa Clara, announced ” Mau nay phủ hợp với bất kì chuỗi nào

bao gầm một tổ chức theo sau một đầu phẫy, theo sau là một địa điểm Đánh giá

độ lin cây eon/idence của mẫu này, ta cú thể thấy mẫu này mà oó xu hướng tạo

ra bộ quan hệ sai Do đó fa có thể dánh trọng số cho các mẫu này dựa trên cơ sở tỉnh chọn lọc của chủng, vả tin tưởng rằng chúng sẽ tạa ra các bộ quan hệ phủ

hop 190 đó, một mẫu không có tính chọn lọc sẽ được gắn trọng số thấp Các bộ

quan hệ được tạo ra bởi mẫu như vậy sẽ bị loại bỏ, trừ khi họ được hỗ trợ bởi

các mẫu chọn lọc khác

'Tương tự, một bộ quan hệ không tốt có thể sinh ra các mẫu xa lạ, có thế trả

về các bộ quan hệ sai hơn nhiễu trong lần lặp Snowbalì kế tiếp Dé ngăn chặn điều này, chúng ta phải giữ lại các bộ quan hệ có độ tin cậy conyiđenee cao Độ

tin cậy sủa một bộ quan hệ là mội hàm của tính chọn lọc và số lượng các mẫu

sinh ra nó Độ tin ling của một bộ quan hệ cao nếu nó được sinh ra bởi vải

mẫu có tính chọn lọc tương đối cao

Sau quá trình lọc ban dầu chúng ta sẽ loại bỏ tất cả các mẫu có độ

supported nhd hon z„„ của bộ quan hệ ban đầu Sau đó chúng ta sẽ cập nhật

corjidence của mỗi mẫu trong bước 3 của thuật toán, kiếm tra mỗi mẫu tiền năng (— <ø, > được sinh bởi mẫu đó Nếu mẫu /' có độ in cậy cao các bộ quan

hệ sinh ra trong suốt quá trình lặp trước đó của hệ thông cho củng một tổ chức o

như trong & thi chinh hàm nảy so sánh vị trí 2 va 7) Néu hai vị trí này giống

nhau, thi bộ t được xem là một phủ hợp posifive của mẫu Ngược lại, sự phủ hợp

la negative

Trang 30

* DN3: Dé tin ody confidence vita mil mẫu P là

conf (P) - P positive

(P positive + P negative)

vai P positive là số lượng các bộ quan hệ phủ hợp ?osie cho mẫu P và

P.negative là số lượng các bộ quan hệ phủ hợp negative cho P

2 Intel, Santa Clara, cul prices > positive

3 - invest in Microsoft, New York-based Negative analyst Jane Smith

said > negative

> Miu P c6 độ tin cây là oonf(P)= "|= 0.67

*ĐÐN4: Độ tin cây RiagF của một mẫu P là

Confau„Á(P) — ConfP) logsÚP.Positive)

Xem xét bộ quan hệ 7 và tập mẫu ? = {Z,} được sử dụng để sinh ra 7 Giả

sử ta biết xác xuất Prob(P;) cùng với mỗi mẫu P, sinh ra các bộ quan hệ hợp lệ

Một bộ quan hệ sẽ có độ tin cậy cao nếu được sinh ra bởi nhiều mẫu 7; có

độ tin cậy cao

Sau khi tính toán độ tin cậy của các bộ quan hệ thích hợp, Snowball sẽ loại

bỏ những bộ quan hệ có độ tin cậy thấp Các bộ quan hệ nay có thể gây ra sự

nhiễu trong quá trình sinh các mẫu mới, có thể đưa ra những bộ quan hệ không

hợp lễ, làm giám sút sự thực hiện của hệ thống Do đó bộ quan hệ dược sử dụng

Trang 31

cho lần lặp tiếp theo la {2'/ Conf) > 4} voi la một ngưỡng xác định trước nào

đó

"Thường 1ị — 0.8; tam — 0.6 để đánh giá cho hệ thống Snowball

2.3 Nhận xét

Cả ba loại học không giám sát, có giám sát và bán giám sát đều thể hiện

được những ưu và nhược điểm riêng của mình

Đối với học cỏ giám sáL, chất lượng trích chọn của hệ thống trên những

n đỡ liệu cụ thể là rất tốt, tuy nhiên chỉ phí dối với việc xây dựng tập dữ liệu

là rất tốn kém, do đỏ khả năng mỡ rộng miễn ứng dụng là khó khăn

Đổi với phương pháp học không giám sát cho khả năng học với lượng dữ

liệu lớn hơn và tốc độ nhanh tuy nhiên mô hình học lại phúc tạp hơn học có giám sát,

Trong khi đó, học bán giám sát được xem như là một phương pháp téi ưu

để giảm thiểu chỉ phí cũng như tải nguyên xây dựng Phương pháp này kết hợp

được ưu điểm, giảm bởi những nhược điểm của phương pháp học có giám sát và

học không giảm sát.

Trang 32

CHƯƠNG 3 MÔ HÌNH HỌC BẢN GIÁM SÁT TRÍCH CHỌN

THVC THE VA UNG DUNG

‘Trén eo sé phan tich uu va nhuoc diém của các phương pháp trích chọn quan hệ, luận văn dã lựa chọn phương pháp học bán giám sát trích chọn thực thể

tên Irong chương nảy luận văn để xuất một mô hình trích chọn thực thể mới

sau đó áp vào trích chọn tên máy ảnh kĩ thuật số Cụ thể luận văn sẽ đề xuất một

mô hình mới dựa trên thuật toán trích chọn quan hệ DIPRI:

3.1 Mô tả bài toán

Cho một tập tài liệu là các văn bản đạng thô, trích chọn ra các cặp quan hệ

<camera, produeer>, trong đó một bộ “camera, proảucer> trong bằng chỉ ra máy ảnh “camera” do hãng “producer” sin xuất Chẳng hạn, với cặp <DSLR-

A900, Sony> có trong bảng danh sách, nghĩa là loại máy ảnh D8LR-A900 do hãng Sony tạo ra

Cụ thể, bài toán được phát biểu như sau

« Đầu vào:

- Tập dữ liệu Ð: gồm các lệp văn bản được lẫy từ các trang web liên quan

đến máy ảnh

- Tập quan hệ dích Ñ: mỗi phần tử là một quan hệ gdm một cặp <camera,

praducer> Mỗi quan hệ r c ]R xuất hiện một hoặc nhiêu lần trong tập tài liệu P'

- Tập quan hệ hạt giống 1t: một tập nhỏ của quan hệ dich

« Đầu ra: Tập quan hệ dích R gồm IẤL cả các cấp “camera, producer> xuất hiện trong tập đữ liệu /2

Vi du, có câu “Fujifllm release FinePix Z35 digtal compacft” ta trích ra được

một cặp quan hệ < FinePix Z35, Fujiflm>

3.2 Mô hình giải quyết bài toán

Bài toán dựa trên bài toán của Brin về việc tìm ra cặp quan hệ (tên sách, tên

tác giả) của cuỗn sách, đặc biệt là kỹ thuật DIPRB [3] Cứ sau mỗi vòng lắp lại sinh ra những cặp thực thể mới và mẫu (patterns) mới Các vòng lặp tiếp theo sử

dụng kết quả của vòng lặp trước đó để thu được kết quá mới Quá trình đó cứ

tiếp tục quay vòng cho đến khi đạt được một yêu cầu dưa ra Cụ thé

« - Bước 1: Xuất phát từ các cặp quan hệ hạt giống <C, P> trong R`, tìm tất

cả các thể hiện là các câu chứa đẳng thời tên nhà sẵn xuất P và tên máy

ảnh C

* Bước 2: Hê thống sẽ phân tích ngữ cảnh xung quanh các câu tìm được ở

tước |, trích chọn ra các mẫu

Tiêu đề	Phương pháp học bán giám sát cho bài toán trích chọn thông tin và ứng dụng trích chọn thực thể tên máy ảnh số
Người hướng dẫn	TS. Nguyễn Trớ Thành
Trường học	Đại Học Quốc Gia Hà Nội - Trường Đại Học Công Nghệ
Chuyên ngành	Công nghệ thông tin
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2011
Thành phố	Hà Nội

Định dạng
Số trang	64
Dung lượng	1,23 MB