Các nghiên c u liên quan ứ

Một phần của tài liệu Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể thao dựa trên web ngữ nghĩa767 (Trang 82 - 85)

TIN TỨC THỂ THAO VỚI NGÔN NGỮ TỰ NHIÊN

3.2 Các nghiên c u liên quan ứ

Ở ộ m t khía cạnh nào đó có thể nói n các h đế ệthống QA (Question Answering) được sinh ra t nh ng nghiên c u v truy h i thông tin t các kho d u, thông tin l n. S phát tri n cừ ữ ứ ề ồ ừ ữliệ ớ ự ể ủa Web ng ữ nghĩa đã mở ra một hướng đi mới trong nghiên c u v ứ ề lĩnh vực này.

Trong nghiên c u cứ ủa [124], tác gi cho r ng viả ằ ệc khai thác được tri thức có ý nghĩa quan trọng trong vi c c i thiệ ả ện được tính hi u qu c a h ệ ả ủ ệthống hỏi đáp, và các kỹ thu Web ng ật ữ nghĩa h ỗtrợ ố t t vi c này. Tìm ki m ng ệ ế ữ nghĩa với nh ng th m nh v n có ngay l p tữ ế ạ ố ậ ức đã được quan tâm trong các nghiên cứu đầu tiên. Ban đầu, các nghiên c u còn xu t phát t ứ ấ ừ ý tưởng đơn gi n ch là làm sao có th ả ỉ ểthực hiện được các truy v n ng ấ ữ nghĩa trong các hệthống thông tin.

Trong [122], các tác gi xây d ng m t ontology v ả ự ộ ềthể thao v i mớ ục đích sử ụng nó để d truy h i ng ồ ữ nghĩa thông tin thể thao trên World Wide Web. Vi c tìm ki m ng ệ ế ữ nghĩa được thực hi n b ng cách g i tr c ti p các câu truy v n SPARQL vào h ệ ằ ử ự ế ấ ệthống. M t s nghiên c u t p ộ ố ứ ậ trung vào vi c t o ra truy v n SPARQL t các giao diệ ạ ấ ừ ện đồ ọa người dùng đượ h c xây d ng dự ựa trên ontology [123] [93].

Đã có mộ ố ỗ ựt s n l c trong vi c c i thiệ ả ện tương tác trong các hệ QA (Question Answering) để hướng t i vi c hớ ệ ỏi đáp bằng ngôn ng t nhiên. Nghiên c u c a [125] ữ ự ứ ủ đã nêu lên tầm quan trọng và tính kh thi c a m t h ả ủ ộ ệthống hỏi đáp bằng ngôn ng t nhiên Trung Qu c. H ữ ự ố ệthống hỏi đáp của h ọ được xây d ng d a trên ba mô hình: mô hình hi u ng ự ự ể ữ nghĩa của câu h i dỏ ựa

trên ontology và Web ng ữ nghĩa, mô hình so khớp độ tương tự câu h i d a trên FAQ ỏ ự (Frenquently Asked Questions), mô hình t ng tìm n p câu tr l i dự độ ạ ả ờ ựa trên kho lưu trữ văn

72

bản. Nó được cài đặ ới 2 mô đun chính: mô đun phân tích câu hỏi và mô đun trích xuất v t câu trả l i. V i m t câu truy vờ ớ ộ ấn đầu vào, mô đun phân tích câu hỏ ẽi s sinh ra m t vài chu i vi t lộ ỗ ế ại có tr ng sọ ố, sau đó chuyển truy v n thành mấ ột véc tơ. Đồng th i, ờ ở mô đun này còn có mộ ột b phân lo i câu h i, nhạ ỏ ằm xác định ki u c a câu tr l i c n tr vể ủ ả ờ ầ ả ề. Mô đun trích xuất câu ltrả ời bao g m thành ph n truy h i tài li u, thành phồ ầ ồ ệ ần tìm kiếm đoạn văn và so khớp câu tr l i. Cuả ờ ối cùng, h ệthống s tính tr ng s cho các câu tr lẽ ọ ố ả ời và đưa ra câu trả ờ l i có tr ng s l n nh ọ ố ớ ất.

Trong vài năm gần đây, mộ ố ệ ốt s h th ng hỏi đáp bằng ngôn ng t nhiên tiữ ự ếng Anh cũng được phát triển. Điều này cho th y nhu c u cần đượấ ầ c cung c p thông tin t ấ ừ người dùng đố ới v i các ngu n tin và ngu n tri th c là r t l n. ồ ồ ứ ấ ớ

PANTO [126] là m t giao di n ngôn ng t nhiên kh chuy n t i các ontology cho phép ộ ệ ữ ự ả ể ớ người dùng bi u di n nhu c u thông tin c a mình b ng ngôn ng t nhiên mà không c n quan ể ễ ầ ủ ằ ữ ự ầ tâm đến cú pháp RDF hay OWL, ngôn ng truy v n SPARQL và t v ng c a ontology. Nó s ữ ấ ừ ự ủ ử d ng t ụ ừ điển t ng h p Wordnet và thuổ ợ ật toán đo chuỗi để ánh x các t trong câu truy vạ ừ ấn người dùng vào các thành ph n trong ontology (khái ni m, th hi n, quan h ). Nó s d ng b phân ầ ệ ể ệ ệ ử ụ ộ tích cú pháp StandfordParser để phân tích câu hỏi đầu vào thành cây phân tích, sau đó trích xuất các c m t ụ ừ danh định để hình thành nên d ng bi u diạ ể ễn trung gian QueryTriples. Để truy v n ấ ontology, bi u diể ễn trung gian này sau đó sẽ được ánh x sang dạ ạng OntoTriples. H ệthống th ử nghi m trên b d ệ ộ ữliệu được cung c p bấ ởi Mooney và đạt độ chính xác t t nh t là 90.87% và ố ấ độ bao ph t t nh t là 96.64% cho b d li u v nhà hàng. Tuy nhiên, h th ng v n còn h n ủ ố ấ ộ ữ ệ ề ệ ố ẫ ạ chế trong vi c x lý các câu h i ph ệ ử ỏ ủ định và chưa xử lý được các câu h i v s lưỏ ề ố ợng.

Querix [127] là m t h ộ ệ thống hỏi đáp được h ỗ trợ ontology, d a trên vi c yêu cự ệ ầu người dùng làm rõ các trường h p nh p nh ng b ng cách hi n ra các h p thoợ ậ ằ ằ ệ ộ ại cho người dùng l a ự chọn. H th ng này g m các thành ph n giao diệ ố ồ ầ ện người dùng, b qu n lý ontology, b phân ộ ả ộ

tích truy v n, trung tâm so kh p, b sinh truy v n, thành ph n h p tho i, và l p truy cấ ớ ộ ấ ầ ộ ạ ớ ập ontology. Querix s d ng t ử ụ ừ điể ổn t ng hợp Wordnet để xác định các t ừ đồng nghĩa cho các từ trong câu h i ngôn ng t ỏ ữ ự nhiên đầu vào nh m mằ ục đích nhận di n các th hi n xu t hi n trong ệ ể ệ ấ ệ câu hỏi được đầy đủ hơn. Việc xác định các quan h b ba c a Querix d a trên vi c ánh x dãy ệ ộ ủ ự ệ ạ các lo i t chính (k t qu cạ ừ ế ả ủa bước phân tích cú pháp b ng Stanford Parser) v i m t t p các ằ ớ ộ ậ mẫu hơrixtic. Thử nghiệm trên ontology được xây d ng dự ựa vào cơ sở tri thức thông tin địa lý v ề nước M c a Moỹ ủ oney và các đồng s . H ự ệ thống được ch y th nghi m trên 215 câu hạ ử ệ ỏi khác nhau đạt độ chính xác là 77.67% và độ bao ph là 78.6%. ủ

QuestIO (Question-based Interface to Ontologies) [128] là m t công c ộ ụphục v cho viụ ệc truy v n kho tri th c lấ ứ ớn lưu trữ trong ontology s d ng ngôn ng t ử ụ ữ ự nhiên. Điểm đặc bi t cệ ủa công c ụ là nó độc l p v ậ ềmiền. Chính vì điều này mà QuestIO có th ể được nhúng vào b t k h ấ ỳ ệ thống nào hoặc được s d ng v i b t k ontology hoử ụ ớ ấ ỳ ặc cơ sở tri th c nào mà không c n phứ ầ ải tùy chỉnh. Điểm h n ch c a công c ạ ế ủ ụ này đế ừ ện t vi c nh n d ng quan h xu t hi n trong câu ậ ạ ệ ấ ệ truy vấn đầu vào d a trên lu t mà không phân tích cú pháp câu truy v n ự ậ ấ ở mức sâu, do đó không x ử lý được nh ng câu truy v n có ng ữ ấ ữ nghĩa phứ ạc t p. Ti n hành ế thử nghi m trên b d u ệ ộ ữliệ g m 22 câu h i t danh sách gồ ỏ ừ ửi thư người dùng GATE (đây là nơi mà người dùng h i v các ỏ ề mô đun và các plugin đa dạng c a GATE), công c ủ ụ đạt độ chính xác 71.88%.

FREyA [129] là phiên b n phát tri n cả ể ủa QuestIO. Điểm vượt tr i c a FREyA so v i phiên ộ ủ ớ bản trước đó là thay vì dùng luật để phát hi n quan h có trong câu h i t ệ ệ ỏ ự nhiên đầu vào, FREyA s dử ụng phương pháp kết h p phân tích cú pháp v i tìm ki m dợ ớ ế ựa trên ontology. Điều này khi n ế FREyA có kh ả năng ử lý đượ x c nh ng câu h i có ng ữ ỏ ữ nghĩa phứ ạp hơn. Hơn nữc t a, trong trường h p h th ng không t ng lợ ệ ố ự độ ấy được m t câu tr l i, nó s hi n th ra h p thoộ ả ờ ẽ ể ị ộ ại để người dùng l a ch n. S l a ch n cự ọ ự ự ọ ủa người dùng sau đó sẽ được lưu lại để ả c i thi n h ệ ệthống.

Tiến hành th nghi m trên b d li u Mooney Geoquery g m 250 câu h i, h thử ệ ộ ữ ệ ồ ỏ ệ ống đạt độ chính xác và độ truy h i b ng nhau và b ng 92.4%. ồ ằ ằ

ORAKEL [130] đem đến m t giao di n ngôn ng t nhiên có kh ộ ệ ữ ự ả năng chuyển đổi câu truy v n ngôn ng t nhiên v d ng câu truy v n có c u trúc ng v i mấ ữ ự ề ạ ấ ấ ứ ớ ột ontology cho trước. S ự chuyển đổi này được th c hi n d a vào b di n d ch truy v n (di n d ch câu hự ệ ự ộ ễ ị ấ ễ ị ỏi đầu vào và chuy n nó v bi u diể ề ể ễn dướ ại d ng logic b c nh t) và b chuyậ ấ ộ ển đổi truy v n (chuy n t d ng ấ ể ừ ạ bi u di n logic c a câu h i v d ng truy v n SPARQL). Nó yêu c u hai b t v ng: b t v ng ể ễ ủ ỏ ề ạ ấ ầ ộ ừ ự ộ ừ ự

73

v m t mi n c ề ộ ề ụthể và b t vộ ừ ựng độ ậc l p v ề miền. H ệthống này ch c n m t ontology cho ỉ ầ ộ trước và m t b t v ng v m t mi n c ộ ộ ừ ự ề ộ ề ụthể là có th hoạt động đượể c. H n ch c a h ạ ế ủ ệthống là chỉ ử lý đượ x c nh ng câu h i có t h i (d ng wh-question), trong khi không x ữ ỏ ừ để ỏ ạ ử lý được nh ng câu h i không có t h i (d ng yes/no-question). ữ ỏ ừ ỏ ạ

PowerAqua [131] là m t h ộ ệthống hỏi đáp đa ontology, nhận đầu vào là m t câu truy vộ ấn d ng ngôn ng t nhiên và tr v câu tr l i l y ra t các ngu n khác nhau trên Web ng ạ ữ ự ả ề ả ờ ấ ừ ồ ữ nghĩa.

Điểm đặc bi t c a PowerAqua là nó không thi t k ệ ủ ế ế để hướng t i m t ontology c ớ ộ ụthể cho miền nào c , vì th nó là h ả ế ệthống m nh v hạ ề ỏi đáp trên mi n d u lề ữliệ ớn và không đồng nh t. Cách ấ tiếp c n c a PowerAqua là ánh x câu truy v n d ng ngôn ng t nhiên v m t bi u di n b ba. ậ ủ ạ ấ ạ ữ ự ề ộ ể ễ ộ Sau đó, bằng vi c s d ng các tìm kiệ ử ụ ếm hơrixtic, nó sẽ trả v ề các đồ thị con phù h p t kho ng ợ ừ ữ liệu RDF. Tuy nhiên, PowerAqua ch x lý t t nh ng câu truy v n có cỉ ử ố ữ ấ ấu trúc đơn giản, d ễ dàng chuyển đổi v d ng bi u di n b ba. Nó s x lý sai n u câu truy về ạ ể ễ ộ ẽ ử ế ấn của người dùng phức tạp hơn, ví dụ như những câu h i ch a "the most", "at least" ho c "more than", "less than". ỏ ứ ặ Trong khi n u áp d ng viế ụ ệc phân tích sâu hơn về ấ c u trúc ng pháp c a câu truy vữ ủ ấn đầu vào, các câu có dạng như trên có thể được x lý chính xác. ử

AquaLog [132] là m t hộ ệ thống hỏi đáp khả chuy n, nh n m t câu truy v n ể ậ ộ ấ ở d ng ngôn ng ạ ữ t nhiên và mự ột ontology làm đầu vào, tr v các câu tr l i l y t m t ho c nhiả ề ả ờ ấ ừ ộ ặ ều cơ sở tri thức. AquaLog k t h p s d ng n n t ng x lý ngôn ng t nhiên GATE, các thuế ợ ử ụ ề ả ử ữ ự ật toán đo kho ng cách chu i ký t , t ả ỗ ự ừ điể ổn t ng h p WordNet, và m t d ch v ợ ộ ị ụ tính độ tương đồng dựa trên ontology cho các quan h và các lệ ớp để ánh x các thành ph n trong câu truy vạ ầ ấn đầu vào đến ontology và cơ sở tri th c m c tiêu. AquaLog còn áp d ng k thu t h c m ứ ụ ụ ỹ ậ ọ áyđể trích rút quan h giệ ữa các đối tượng, tuy nhiên ch ỉthực hi n m t cách bán t ệ ộ ự động. Điểm h n ch cạ ế ủa AquaLog cũng tương tự như PowerAqua đế ừ cơ chến t so kh p c u trúc cú pháp c a câu truy ớ ấ ủ v n v i m t s m u c u trúc có sấ ớ ộ ố ẫ ấ ẵn. Do đó phạm vi hoạt động hi u qu c a nó b gi i h n, nó ệ ả ủ ị ớ ạ chỉ ử x lý tốt đố ới v i nh ng câu có cữ ấu trúc đơn giản.

Pythia [133] cũng là mộ ệt h thống hỏi đáp nhận đầu vào là câu truy v n d ng ngôn ng t ấ ở ạ ữ ự nhiên. Tuy nhiên, cách ti p cế ận để ử x lý câu truy vấn đầu vào c a nó khác v i hai h ủ ớ ệ thống PowerAqua và AquaLog. Pythia phân tích c u trúc ng pháp c a câu truy vấ ữ ủ ấn đầu vào m t cách ộ sâu hơn. Vì thế, nó có th x ể ử lý được nh ng câu truy vữ ấn đầu vào ph c tứ ạp, như các câu chứa c m t "more than", "the most". Tuụ ừ y nhiên, điểm y u c a Pythia là nó hoế ủ ạt động d a trên b t ự ộ ừ điển các bi u di n ng ể ễ ữ nghĩa của một ontology cho trước. B t ộ ừ điển này được xây d ng m t ự ộ cách th công, vì th nó s không kh thi khi tri n khai trong các t p dủ ế ẽ ả ể ậ ữ liệu kích thướ ấc r t l n. ớ

Trong bài báo “Template based Question Answering over RDF Data” - [134], Unger và các đồng nghi p trình bày m t cách ti p cệ ộ ế ận cũng dựa trên phân tích c u trúc ng pháp c a câu truy ấ ữ ủ vấn đầu vào. Ý tưởng đề xu t là ti n hành phân tích c u trúc cây c a câu truy vấ ế ấ ủ ấn để sinh ra m t m u truy vộ ẫ ấn SPARQL. Bước này bao gồm bước con nh n d ng th c th ậ ạ ự ểthống kê và bước con phát hi n v ng . M c dù h ệ ị ữ ặ ệthống AutoSparql này có th x ể ử lý được nh ng câu truy vữ ấn có c u trúc ph c tấ ứ ạp như hỏ ề ố lượng, so sánh hơn, so sánh hơn nhấi v s t, nó vẫn chưa xử lý được nh ng d ng câu có nhi u ch ữ ạ ề ủthể, nhi u tân ng ề ữ hay câu có đề cập đến ng c nh th i gian. ữ ả ờ M t s công trình d a trên ngôn ng t nhiên có kiộ ố ự ữ ự ểm soát, như GFMed [135] và GiNSENG [43], thường xem xét m t t p h p con h n ch và rõ ràng c a ngôn ng t nhiên mà có th ộ ậ ợ ạ ế ủ ữ ự ể được d ch tr c tiị ự ếp sang SPARQL. GFMed đề xu t m t ngôn ng dấ ộ ữ ựa trên khung văn phạm GF (Grammatical Framework) cho h ệthống hỏi đáp t ự động v ề lĩnh vực y sinh. Các văn phạm giới thi u các c m t d ng ngôn ng h c l n SPARQL v thu c, b nh, và quan h gi a chúng. Ngoài ệ ụ ừ ạ ữ ọ ẫ ề ộ ệ ệ ữ ra t v ng v thu c, b nh, gen, và các hiừ ự ề ố ệ ệu ứng ph ụ được trích xu t t ba t p d ấ ừ ậ ữliệu DrugBank, Diseasome, và SIDER được h tr trong GF. ỗ ợ Phương pháp này ến đổ bi i các câu h i ti ng Anh ỏ ế thành các truy vấn SPARQL bằng cách phân tích cú pháp đầu vào, t o ra m t bi u di n cú pháp ạ ộ ể ễ trừu tượng mà sau đó có thể được tuy n tính hóa b ng cú pháp c ế ằ ụthể SPARQL. Mặc dù đem lại độ ính xác cao, cách ti p c n này có h n ch s linh ho t và khó có kh ch ế ậ ạ ế ở ự ạ ả năng áp dụng ở một lĩnh vực khác. Tương tự GFMed, Squall2Sparql [42] đề xu t ngôn ng SQUALL tuy nhiên ấ ữ có nhược điểm là yêu c u chú thích th công cho các URI. ầ ủ

74

Các nghiên c u trên cho thứ ấy ý nghĩa của vi c th c hiệ ự ện tính năng tìm kiếm ng ữ nghĩa thông qua hình th c truy v n diứ ấ ễn đạt b ng ngôn ng t nhiên. ằ ữ ự Trong đó, nhi u h ề ệthống như PANTO, QuestIO, AutoSparql chỉ ậ t p trung vào mi n ng dề ứ ụng chung hơn là các miề ứn ng dụng đặc thù, m t s ộ ố khác như GFMed hướng đến lĩnh vực khác như y sinh. Tuy nhiên, việc tri n khai ể áp d ng các h ụ ệthống này sang một lĩnh vực khác không d dàng. Khi ng dễ ứ ụng vào lĩnh vực đặc biệt như ểth thao, v i nhớ ững đặc tính riêng - k t qu tìm kiế ả ếm thu được là chưa chính xác.

Các d ng câu truy v n mà các h ạ ấ ệthống trên nh n biậ ết được cũng có cấu trúc thường là đơn giản, chưa diễ ả đượn t c h t nhu c u thông tin cế ầ ủa độc gi . Trong b i c nh phát tri n h ả ố ả ể ệthống BKSport, vấn đề chính c n quan tâm là tìm ki m tin t c th thao liên quan t i nhu cầ ế ứ ể ớ ầu độc gi ả rồi sau đó mớ ới t i hi n th thông tin b ể ị ổtrợ. Do đó, cần có ti p cế ận riêng để ả c i thiện hơn nữa k t qu tìm kiế ả ếm. Để làm điều đó, việc chuyển đổi truy v n sang d ng có ng ấ ạ ữ nghĩa cần được nâng cao độ chính xác. Tác gi xu t mả đề ấ ột phương pháp mớ ồi g m nhiều giai đoạn nh m th c ằ ự hiện điều này trong lĩnh vực tin t c th thao, v i kh ứ ể ớ ả năng xử lý được nhi u d ng câu hề ạ ỏi như câu h i so sánh, câu h i v i nhi u ch ng và tân ng , câu h i v i c u trúc ng pháp bỏ ỏ ớ ề ủ ữ ữ ỏ ớ ấ ữ ất thường, câu h i v i ràng bu c th i gianỏ ớ ộ ờ . Trong đó việc mô hình hóa câu h i, phân tích nh n bi t cỏ ậ ế ấu trúc ng pháp và chuyữ ển đổi sang d ng bi u di n ng ạ ể ễ ữ nghĩa tương ứng đóng vai trò quyết định.

Một phần của tài liệu Một tiếp cận xây dựng hệ thống tổng hợp tin tức thể thao dựa trên web ngữ nghĩa767 (Trang 82 - 85)

Tải bản đầy đủ (PDF)

(130 trang)