TIN TỨC THỂ THAO VỚI NGÔN NGỮ TỰ NHIÊN
3.2 Các nghiên c u liên quan ứ
Ở ộ m t khía cạnh nào đó có thể nói n các h đế ệthống QA (Question Answering) được sinh ra t nh ng nghiên c u v truy h i thông tin t các kho d u, thông tin l n. S phát tri n cừ ữ ứ ề ồ ừ ữliệ ớ ự ể ủa Web ng ữ nghĩa đã mở ra một hướng đi mới trong nghiên c u v ứ ề lĩnh vực này.
Trong nghiên c u cứ ủa [124], tác gi cho r ng viả ằ ệc khai thác được tri thức có ý nghĩa quan trọng trong vi c c i thiệ ả ện được tính hi u qu c a h ệ ả ủ ệthống hỏi đáp, và các kỹ thu Web ng ật ữ nghĩa h ỗtrợ ố t t vi c này. Tìm ki m ng ệ ế ữ nghĩa với nh ng th m nh v n có ngay l p tữ ế ạ ố ậ ức đã được quan tâm trong các nghiên cứu đầu tiên. Ban đầu, các nghiên c u còn xu t phát t ứ ấ ừ ý tưởng đơn gi n ch là làm sao có th ả ỉ ểthực hiện được các truy v n ng ấ ữ nghĩa trong các hệthống thông tin.
Trong [122], các tác gi xây d ng m t ontology v ả ự ộ ềthể thao v i mớ ục đích sử ụng nó để d truy h i ng ồ ữ nghĩa thông tin thể thao trên World Wide Web. Vi c tìm ki m ng ệ ế ữ nghĩa được thực hi n b ng cách g i tr c ti p các câu truy v n SPARQL vào h ệ ằ ử ự ế ấ ệthống. M t s nghiên c u t p ộ ố ứ ậ trung vào vi c t o ra truy v n SPARQL t các giao diệ ạ ấ ừ ện đồ ọa người dùng đượ h c xây d ng dự ựa trên ontology [123] [93].
Đã có mộ ố ỗ ựt s n l c trong vi c c i thiệ ả ện tương tác trong các hệ QA (Question Answering) để hướng t i vi c hớ ệ ỏi đáp bằng ngôn ng t nhiên. Nghiên c u c a [125] ữ ự ứ ủ đã nêu lên tầm quan trọng và tính kh thi c a m t h ả ủ ộ ệthống hỏi đáp bằng ngôn ng t nhiên Trung Qu c. H ữ ự ố ệthống hỏi đáp của h ọ được xây d ng d a trên ba mô hình: mô hình hi u ng ự ự ể ữ nghĩa của câu h i dỏ ựa
trên ontology và Web ng ữ nghĩa, mô hình so khớp độ tương tự câu h i d a trên FAQ ỏ ự (Frenquently Asked Questions), mô hình t ng tìm n p câu tr l i dự độ ạ ả ờ ựa trên kho lưu trữ văn
72
bản. Nó được cài đặ ới 2 mô đun chính: mô đun phân tích câu hỏi và mô đun trích xuất v t câu trả l i. V i m t câu truy vờ ớ ộ ấn đầu vào, mô đun phân tích câu hỏ ẽi s sinh ra m t vài chu i vi t lộ ỗ ế ại có tr ng sọ ố, sau đó chuyển truy v n thành mấ ột véc tơ. Đồng th i, ờ ở mô đun này còn có mộ ột b phân lo i câu h i, nhạ ỏ ằm xác định ki u c a câu tr l i c n tr vể ủ ả ờ ầ ả ề. Mô đun trích xuất câu ltrả ời bao g m thành ph n truy h i tài li u, thành phồ ầ ồ ệ ần tìm kiếm đoạn văn và so khớp câu tr l i. Cuả ờ ối cùng, h ệthống s tính tr ng s cho các câu tr lẽ ọ ố ả ời và đưa ra câu trả ờ l i có tr ng s l n nh ọ ố ớ ất.
Trong vài năm gần đây, mộ ố ệ ốt s h th ng hỏi đáp bằng ngôn ng t nhiên tiữ ự ếng Anh cũng được phát triển. Điều này cho th y nhu c u cần đượấ ầ c cung c p thông tin t ấ ừ người dùng đố ới v i các ngu n tin và ngu n tri th c là r t l n. ồ ồ ứ ấ ớ
PANTO [126] là m t giao di n ngôn ng t nhiên kh chuy n t i các ontology cho phép ộ ệ ữ ự ả ể ớ người dùng bi u di n nhu c u thông tin c a mình b ng ngôn ng t nhiên mà không c n quan ể ễ ầ ủ ằ ữ ự ầ tâm đến cú pháp RDF hay OWL, ngôn ng truy v n SPARQL và t v ng c a ontology. Nó s ữ ấ ừ ự ủ ử d ng t ụ ừ điển t ng h p Wordnet và thuổ ợ ật toán đo chuỗi để ánh x các t trong câu truy vạ ừ ấn người dùng vào các thành ph n trong ontology (khái ni m, th hi n, quan h ). Nó s d ng b phân ầ ệ ể ệ ệ ử ụ ộ tích cú pháp StandfordParser để phân tích câu hỏi đầu vào thành cây phân tích, sau đó trích xuất các c m t ụ ừ danh định để hình thành nên d ng bi u diạ ể ễn trung gian QueryTriples. Để truy v n ấ ontology, bi u diể ễn trung gian này sau đó sẽ được ánh x sang dạ ạng OntoTriples. H ệthống th ử nghi m trên b d ệ ộ ữliệu được cung c p bấ ởi Mooney và đạt độ chính xác t t nh t là 90.87% và ố ấ độ bao ph t t nh t là 96.64% cho b d li u v nhà hàng. Tuy nhiên, h th ng v n còn h n ủ ố ấ ộ ữ ệ ề ệ ố ẫ ạ chế trong vi c x lý các câu h i ph ệ ử ỏ ủ định và chưa xử lý được các câu h i v s lưỏ ề ố ợng.
Querix [127] là m t h ộ ệ thống hỏi đáp được h ỗ trợ ontology, d a trên vi c yêu cự ệ ầu người dùng làm rõ các trường h p nh p nh ng b ng cách hi n ra các h p thoợ ậ ằ ằ ệ ộ ại cho người dùng l a ự chọn. H th ng này g m các thành ph n giao diệ ố ồ ầ ện người dùng, b qu n lý ontology, b phân ộ ả ộ
tích truy v n, trung tâm so kh p, b sinh truy v n, thành ph n h p tho i, và l p truy cấ ớ ộ ấ ầ ộ ạ ớ ập ontology. Querix s d ng t ử ụ ừ điể ổn t ng hợp Wordnet để xác định các t ừ đồng nghĩa cho các từ trong câu h i ngôn ng t ỏ ữ ự nhiên đầu vào nh m mằ ục đích nhận di n các th hi n xu t hi n trong ệ ể ệ ấ ệ câu hỏi được đầy đủ hơn. Việc xác định các quan h b ba c a Querix d a trên vi c ánh x dãy ệ ộ ủ ự ệ ạ các lo i t chính (k t qu cạ ừ ế ả ủa bước phân tích cú pháp b ng Stanford Parser) v i m t t p các ằ ớ ộ ậ mẫu hơrixtic. Thử nghiệm trên ontology được xây d ng dự ựa vào cơ sở tri thức thông tin địa lý v ề nước M c a Moỹ ủ oney và các đồng s . H ự ệ thống được ch y th nghi m trên 215 câu hạ ử ệ ỏi khác nhau đạt độ chính xác là 77.67% và độ bao ph là 78.6%. ủ
QuestIO (Question-based Interface to Ontologies) [128] là m t công c ộ ụphục v cho viụ ệc truy v n kho tri th c lấ ứ ớn lưu trữ trong ontology s d ng ngôn ng t ử ụ ữ ự nhiên. Điểm đặc bi t cệ ủa công c ụ là nó độc l p v ậ ềmiền. Chính vì điều này mà QuestIO có th ể được nhúng vào b t k h ấ ỳ ệ thống nào hoặc được s d ng v i b t k ontology hoử ụ ớ ấ ỳ ặc cơ sở tri th c nào mà không c n phứ ầ ải tùy chỉnh. Điểm h n ch c a công c ạ ế ủ ụ này đế ừ ện t vi c nh n d ng quan h xu t hi n trong câu ậ ạ ệ ấ ệ truy vấn đầu vào d a trên lu t mà không phân tích cú pháp câu truy v n ự ậ ấ ở mức sâu, do đó không x ử lý được nh ng câu truy v n có ng ữ ấ ữ nghĩa phứ ạc t p. Ti n hành ế thử nghi m trên b d u ệ ộ ữliệ g m 22 câu h i t danh sách gồ ỏ ừ ửi thư người dùng GATE (đây là nơi mà người dùng h i v các ỏ ề mô đun và các plugin đa dạng c a GATE), công c ủ ụ đạt độ chính xác 71.88%.
FREyA [129] là phiên b n phát tri n cả ể ủa QuestIO. Điểm vượt tr i c a FREyA so v i phiên ộ ủ ớ bản trước đó là thay vì dùng luật để phát hi n quan h có trong câu h i t ệ ệ ỏ ự nhiên đầu vào, FREyA s dử ụng phương pháp kết h p phân tích cú pháp v i tìm ki m dợ ớ ế ựa trên ontology. Điều này khi n ế FREyA có kh ả năng ử lý đượ x c nh ng câu h i có ng ữ ỏ ữ nghĩa phứ ạp hơn. Hơn nữc t a, trong trường h p h th ng không t ng lợ ệ ố ự độ ấy được m t câu tr l i, nó s hi n th ra h p thoộ ả ờ ẽ ể ị ộ ại để người dùng l a ch n. S l a ch n cự ọ ự ự ọ ủa người dùng sau đó sẽ được lưu lại để ả c i thi n h ệ ệthống.
Tiến hành th nghi m trên b d li u Mooney Geoquery g m 250 câu h i, h thử ệ ộ ữ ệ ồ ỏ ệ ống đạt độ chính xác và độ truy h i b ng nhau và b ng 92.4%. ồ ằ ằ
ORAKEL [130] đem đến m t giao di n ngôn ng t nhiên có kh ộ ệ ữ ự ả năng chuyển đổi câu truy v n ngôn ng t nhiên v d ng câu truy v n có c u trúc ng v i mấ ữ ự ề ạ ấ ấ ứ ớ ột ontology cho trước. S ự chuyển đổi này được th c hi n d a vào b di n d ch truy v n (di n d ch câu hự ệ ự ộ ễ ị ấ ễ ị ỏi đầu vào và chuy n nó v bi u diể ề ể ễn dướ ại d ng logic b c nh t) và b chuyậ ấ ộ ển đổi truy v n (chuy n t d ng ấ ể ừ ạ bi u di n logic c a câu h i v d ng truy v n SPARQL). Nó yêu c u hai b t v ng: b t v ng ể ễ ủ ỏ ề ạ ấ ầ ộ ừ ự ộ ừ ự
73
v m t mi n c ề ộ ề ụthể và b t vộ ừ ựng độ ậc l p v ề miền. H ệthống này ch c n m t ontology cho ỉ ầ ộ trước và m t b t v ng v m t mi n c ộ ộ ừ ự ề ộ ề ụthể là có th hoạt động đượể c. H n ch c a h ạ ế ủ ệthống là chỉ ử lý đượ x c nh ng câu h i có t h i (d ng wh-question), trong khi không x ữ ỏ ừ để ỏ ạ ử lý được nh ng câu h i không có t h i (d ng yes/no-question). ữ ỏ ừ ỏ ạ
PowerAqua [131] là m t h ộ ệthống hỏi đáp đa ontology, nhận đầu vào là m t câu truy vộ ấn d ng ngôn ng t nhiên và tr v câu tr l i l y ra t các ngu n khác nhau trên Web ng ạ ữ ự ả ề ả ờ ấ ừ ồ ữ nghĩa.
Điểm đặc bi t c a PowerAqua là nó không thi t k ệ ủ ế ế để hướng t i m t ontology c ớ ộ ụthể cho miền nào c , vì th nó là h ả ế ệthống m nh v hạ ề ỏi đáp trên mi n d u lề ữliệ ớn và không đồng nh t. Cách ấ tiếp c n c a PowerAqua là ánh x câu truy v n d ng ngôn ng t nhiên v m t bi u di n b ba. ậ ủ ạ ấ ạ ữ ự ề ộ ể ễ ộ Sau đó, bằng vi c s d ng các tìm kiệ ử ụ ếm hơrixtic, nó sẽ trả v ề các đồ thị con phù h p t kho ng ợ ừ ữ liệu RDF. Tuy nhiên, PowerAqua ch x lý t t nh ng câu truy v n có cỉ ử ố ữ ấ ấu trúc đơn giản, d ễ dàng chuyển đổi v d ng bi u di n b ba. Nó s x lý sai n u câu truy về ạ ể ễ ộ ẽ ử ế ấn của người dùng phức tạp hơn, ví dụ như những câu h i ch a "the most", "at least" ho c "more than", "less than". ỏ ứ ặ Trong khi n u áp d ng viế ụ ệc phân tích sâu hơn về ấ c u trúc ng pháp c a câu truy vữ ủ ấn đầu vào, các câu có dạng như trên có thể được x lý chính xác. ử
AquaLog [132] là m t hộ ệ thống hỏi đáp khả chuy n, nh n m t câu truy v n ể ậ ộ ấ ở d ng ngôn ng ạ ữ t nhiên và mự ột ontology làm đầu vào, tr v các câu tr l i l y t m t ho c nhiả ề ả ờ ấ ừ ộ ặ ều cơ sở tri thức. AquaLog k t h p s d ng n n t ng x lý ngôn ng t nhiên GATE, các thuế ợ ử ụ ề ả ử ữ ự ật toán đo kho ng cách chu i ký t , t ả ỗ ự ừ điể ổn t ng h p WordNet, và m t d ch v ợ ộ ị ụ tính độ tương đồng dựa trên ontology cho các quan h và các lệ ớp để ánh x các thành ph n trong câu truy vạ ầ ấn đầu vào đến ontology và cơ sở tri th c m c tiêu. AquaLog còn áp d ng k thu t h c m ứ ụ ụ ỹ ậ ọ áyđể trích rút quan h giệ ữa các đối tượng, tuy nhiên ch ỉthực hi n m t cách bán t ệ ộ ự động. Điểm h n ch cạ ế ủa AquaLog cũng tương tự như PowerAqua đế ừ cơ chến t so kh p c u trúc cú pháp c a câu truy ớ ấ ủ v n v i m t s m u c u trúc có sấ ớ ộ ố ẫ ấ ẵn. Do đó phạm vi hoạt động hi u qu c a nó b gi i h n, nó ệ ả ủ ị ớ ạ chỉ ử x lý tốt đố ới v i nh ng câu có cữ ấu trúc đơn giản.
Pythia [133] cũng là mộ ệt h thống hỏi đáp nhận đầu vào là câu truy v n d ng ngôn ng t ấ ở ạ ữ ự nhiên. Tuy nhiên, cách ti p cế ận để ử x lý câu truy vấn đầu vào c a nó khác v i hai h ủ ớ ệ thống PowerAqua và AquaLog. Pythia phân tích c u trúc ng pháp c a câu truy vấ ữ ủ ấn đầu vào m t cách ộ sâu hơn. Vì thế, nó có th x ể ử lý được nh ng câu truy vữ ấn đầu vào ph c tứ ạp, như các câu chứa c m t "more than", "the most". Tuụ ừ y nhiên, điểm y u c a Pythia là nó hoế ủ ạt động d a trên b t ự ộ ừ điển các bi u di n ng ể ễ ữ nghĩa của một ontology cho trước. B t ộ ừ điển này được xây d ng m t ự ộ cách th công, vì th nó s không kh thi khi tri n khai trong các t p dủ ế ẽ ả ể ậ ữ liệu kích thướ ấc r t l n. ớ
Trong bài báo “Template based Question Answering over RDF Data” - [134], Unger và các đồng nghi p trình bày m t cách ti p cệ ộ ế ận cũng dựa trên phân tích c u trúc ng pháp c a câu truy ấ ữ ủ vấn đầu vào. Ý tưởng đề xu t là ti n hành phân tích c u trúc cây c a câu truy vấ ế ấ ủ ấn để sinh ra m t m u truy vộ ẫ ấn SPARQL. Bước này bao gồm bước con nh n d ng th c th ậ ạ ự ểthống kê và bước con phát hi n v ng . M c dù h ệ ị ữ ặ ệthống AutoSparql này có th x ể ử lý được nh ng câu truy vữ ấn có c u trúc ph c tấ ứ ạp như hỏ ề ố lượng, so sánh hơn, so sánh hơn nhấi v s t, nó vẫn chưa xử lý được nh ng d ng câu có nhi u ch ữ ạ ề ủthể, nhi u tân ng ề ữ hay câu có đề cập đến ng c nh th i gian. ữ ả ờ M t s công trình d a trên ngôn ng t nhiên có kiộ ố ự ữ ự ểm soát, như GFMed [135] và GiNSENG [43], thường xem xét m t t p h p con h n ch và rõ ràng c a ngôn ng t nhiên mà có th ộ ậ ợ ạ ế ủ ữ ự ể được d ch tr c tiị ự ếp sang SPARQL. GFMed đề xu t m t ngôn ng dấ ộ ữ ựa trên khung văn phạm GF (Grammatical Framework) cho h ệthống hỏi đáp t ự động v ề lĩnh vực y sinh. Các văn phạm giới thi u các c m t d ng ngôn ng h c l n SPARQL v thu c, b nh, và quan h gi a chúng. Ngoài ệ ụ ừ ạ ữ ọ ẫ ề ộ ệ ệ ữ ra t v ng v thu c, b nh, gen, và các hiừ ự ề ố ệ ệu ứng ph ụ được trích xu t t ba t p d ấ ừ ậ ữliệu DrugBank, Diseasome, và SIDER được h tr trong GF. ỗ ợ Phương pháp này ến đổ bi i các câu h i ti ng Anh ỏ ế thành các truy vấn SPARQL bằng cách phân tích cú pháp đầu vào, t o ra m t bi u di n cú pháp ạ ộ ể ễ trừu tượng mà sau đó có thể được tuy n tính hóa b ng cú pháp c ế ằ ụthể SPARQL. Mặc dù đem lại độ ính xác cao, cách ti p c n này có h n ch s linh ho t và khó có kh ch ế ậ ạ ế ở ự ạ ả năng áp dụng ở một lĩnh vực khác. Tương tự GFMed, Squall2Sparql [42] đề xu t ngôn ng SQUALL tuy nhiên ấ ữ có nhược điểm là yêu c u chú thích th công cho các URI. ầ ủ
74
Các nghiên c u trên cho thứ ấy ý nghĩa của vi c th c hiệ ự ện tính năng tìm kiếm ng ữ nghĩa thông qua hình th c truy v n diứ ấ ễn đạt b ng ngôn ng t nhiên. ằ ữ ự Trong đó, nhi u h ề ệthống như PANTO, QuestIO, AutoSparql chỉ ậ t p trung vào mi n ng dề ứ ụng chung hơn là các miề ứn ng dụng đặc thù, m t s ộ ố khác như GFMed hướng đến lĩnh vực khác như y sinh. Tuy nhiên, việc tri n khai ể áp d ng các h ụ ệthống này sang một lĩnh vực khác không d dàng. Khi ng dễ ứ ụng vào lĩnh vực đặc biệt như ểth thao, v i nhớ ững đặc tính riêng - k t qu tìm kiế ả ếm thu được là chưa chính xác.
Các d ng câu truy v n mà các h ạ ấ ệthống trên nh n biậ ết được cũng có cấu trúc thường là đơn giản, chưa diễ ả đượn t c h t nhu c u thông tin cế ầ ủa độc gi . Trong b i c nh phát tri n h ả ố ả ể ệthống BKSport, vấn đề chính c n quan tâm là tìm ki m tin t c th thao liên quan t i nhu cầ ế ứ ể ớ ầu độc gi ả rồi sau đó mớ ới t i hi n th thông tin b ể ị ổtrợ. Do đó, cần có ti p cế ận riêng để ả c i thiện hơn nữa k t qu tìm kiế ả ếm. Để làm điều đó, việc chuyển đổi truy v n sang d ng có ng ấ ạ ữ nghĩa cần được nâng cao độ chính xác. Tác gi xu t mả đề ấ ột phương pháp mớ ồi g m nhiều giai đoạn nh m th c ằ ự hiện điều này trong lĩnh vực tin t c th thao, v i kh ứ ể ớ ả năng xử lý được nhi u d ng câu hề ạ ỏi như câu h i so sánh, câu h i v i nhi u ch ng và tân ng , câu h i v i c u trúc ng pháp bỏ ỏ ớ ề ủ ữ ữ ỏ ớ ấ ữ ất thường, câu h i v i ràng bu c th i gianỏ ớ ộ ờ . Trong đó việc mô hình hóa câu h i, phân tích nh n bi t cỏ ậ ế ấu trúc ng pháp và chuyữ ển đổi sang d ng bi u di n ng ạ ể ễ ữ nghĩa tương ứng đóng vai trò quyết định.