Liên quan đến vấn đề biểu diễn kiến thức địa lý, các nghiên cứu và các phân tích về những định nghĩa khái niệm địa lý geographic concept definitions đóng vai trò quan trọng trong nổ lực
Trang 1I Giới thiệu 1
II Các nghiên cứu liên quan 1
III Định nghĩa các khái niệm 2
IV Giải thuật biểu diễn 4
IV.1 Gán nhãn 4
IV.2 Phân tích cú pháp 5
IV.2.1 Phân tích cú pháp phần định danh và phần thuộc tính 5
IV.2.2 Phân tích phần thứ cấp (parsing secondary part) 6
IV.3 Kết hợp 7
V Thuật toán so sánh 8
V.1 Xây dựng CG1 (cho sea) và CG2 (cho lake) 9
V.2 Xác định các phần giao (intersections) I1, I2, … In của CG1 và CG2 11
V.3 Áp dụng công thức tính độ tương đồng cho I1, I2, … In 11
VI Kết luận và hướng phát triển 13
Trang 2I Giới thiệu
Đồ thị khái niệm (Conceptual Graphs – CG) là một phương pháp biểu diễn kiến thức hình thức, dựa trên những kiến thức ngôn ngữ học và hướng đối tượng Đồ thị khái niệm cung cấp phương tiện để thu thập và thể hiện kiến thức về thế giới thật
Liên quan đến vấn đề biểu diễn kiến thức địa lý, các nghiên cứu và các phân tích về những định nghĩa khái niệm địa lý (geographic concept definitions) đóng vai trò quan trọng trong nổ lực đạt được kiến thức một cách có hệ thống về các khái niệm; đồng thời phục vụ cho việc so sánh những phân loại địa lý nhằm xác định những tương đồng và không đồng nhất giữa chúng Do đó, việc khai thác các phương pháp hiệu quả cho việc biểu diễn các định nghĩa địa lý đóng vai trò nền tảng cho các nghiên cứu về phân tích ngữ nghĩa địa lý, nhằm mục đích hệ thống hóa ý nghĩa
và trích xuất thông tin
Mục đích của nghiên cứu là phát triển một giải thuật để biểu diễn tri thức địa lý sử dụng đồ thị khái niệm Sau đó dựa trên những phương pháp, các đặc tính, và cấu trúc của đồ thị khái niệm, đưa ra một qui trình cho việc so sánh hai khái niệm địa lý để đo lường định lượng sự tương đồng giữa chúng Qui trình so sánh sẽ xem xét cấu trúc của những đồ thị khái niệm tương ứng và cho
ra kết quả là mức độ tương đồng ngữ nghĩa giữa hai khái niệm địa lý và từ đó xác định những khái niệm nào là tương đồng với nhau hơn Bằng việc giới thiệu một giải thuật bằng cách dùng định nghĩa khái niệm địa lý là đầu vào và đưa ra biểu diễn đồ thì khái niệm tương ứng, bài nghiên cứu đã phá bỏ những giới hạn và trở ngại trong việc trích xuất thông tin ngữ nghĩa của khái niệm địa lý
II Các nghiên cứu liên quan
Những năm gần đây đã có những nghiên cứu về biểu diễn và trích xuất thông tin các khái niệm địa lý Phương pháp tiếp cận về biểu diễn tri thức địa lý bao gồm các phương pháp được dựa trên phân tích các định nghĩa khái niệm địa lý và tìm kiếm các biểu diễn hiệu quả
CG là phương pháp biểu diễn tri thức bằng biểu đồ trực quan, đầu tiên được giới thiệu dùng cho việc biểu diễn ngôn ngữ tự nhiên Theo lý thuyết về CG, một CG là một mạng các node khái niệm (concept node) và các node quan hệ (relation node) Các concept node là những thực thể (entities), thuộc tích (attribute), và sự kiện (events) Các relation node dùng để định ra các mối liên hệ giữa các concept node
Trang 3CG được định nghĩa bởi một cú pháp trừu tượng độc lập với các ký hiệu, nhưng hình thức có thể được thể hiện trong các ký hiệu đồ họa hoặc dựa trên ký tự Bằng các ký hiệu đồ họa, concepts node được thể hiện bởi các hình chữ nhật, và relation node là những hình tròn liên kết với các concepts node bằng các mũi tên Dạng tuyến tính (linear form) thì ngắn gọn hơn dạng đồ thị, bằng cách sử dụng các ký hiệu “[” thay cho ô vuông, “{” thay cho vòng tròn
Các nghiên cứu xây dựng phương pháp so sánh sự giống nhau giữa hai CG Mục đích chính của phương pháp tiếp cận được đề xuất là để xác định xem một đồ thị truy vấn là hoàn toàn chứa trong một CG
Mặc khác, trong nhiều ứng dụng dạng text, các phương pháp so sánh việc biểu diễn text được đề xuất và áp dụng Trong số đó, hệ số Jaccard, hệ số Cosine và hệ số Dice thường được sử dụng vì tính phổ dụng và đơn giản
Giải thuật so sánh sự tương đồng trong bài nghiên cứu dựa trên hệ số Dice:
𝑆𝐷1,𝐷2= 2𝐶(𝐷1,2)/(𝐶(𝐷1) + 𝐶(𝐷2)) Trong đó 𝐶(𝐷1,2) là số dữ kiện (term) chung, tương đồng giữ D1, D2 𝐶(𝐷1), 𝐶(𝐷2) là tổng số các term tương ứng trong D1 và D2
Công thức trên được áp dụng với những thay đổi phù hợp với đặc điểm của CG dùng trong việc định nghĩa các khái niệm địa lý
III Định nghĩa các khái niệm
Các định nghĩa khái niệm địa lý thường là một vài câu bao gồm 2 loại thông tin: chủng loại (genus) và đặc tính (differentia) Genus là một định nghĩa khái quát hóa (hypernym), chứa thông tin phân lớp của khái niệm, và thông tin đó thường xuyên được sử dụng để xây dựng phân loại khái niệm Với differentia, differentia xác định mức độ khác nhau của các khái niệm trong cùng phân lớp Nó là một tập các tính từ chỉ thuộc tính (như dài, ngắn, rộng) và cụm giới từ khác nhau của cùng một genus Nó cung cấp mục đích, vị trí, vẻ bề ngoài, và những khía cạnh khác nhau thông qua một hoặc nhiều mệnh đề phụ, mỗi mệnh đề cung cấp một thông tin khác nhau
Ví dụ, trong bảng sau là genus và differentia của định nghĩa “A canal is a long and narrow strip
of water made for boats and irrigation”
Trang 4Genus Strip
Differentia Long , narrow (attributive adjectives)
Of water (prepositional phrase) Made for boats and irrigation (sub-clause)
Mỗi định nghĩa được xem xét có dạng bao gồm hai phần: phần chính (main part) và phần thứ cấp (secondary part) Main part là mệnh đề bao gồm genus, các tính từ thuộc tính, và các cụm giới từ
mô tả cho genus Secondary part chứa các mệnh đề phụ (sub-clause) mô tả thêm thông tin cho khái niệm địa lý
Phần chính bao gồm các thành phần định danh (determinant section) và phần thuộc tính
(attributes section) Determinant section cấu trúc tổng quát:
[{article}+{concept name}+{is}]
Attributes section là các mệnh đề mô tả của phần chính, bao gồm genus, tính từ chỉ thuộc tính và cụm giới từ Attributes section có cấu trúc tổng quát:
[{attributive adjective}*+{genus}+{prepositional phrase}*]
Dấu hoa thị trong công thức mô tả có một hoặc nhiều
(determinant section)
Phần thuộc tính (Attributes section)
water Secondary part (phần thứ
cấp)
Made for boats and irrigation (sub-clause)
Phần thứ cấp gồm một hoặc nhiều mệnh đề cung cấp các thông tin khác nhau (như mục đích, vị trí, …) Mỗi câu trong phần thứ cấp chứa một cụm từ dành riêng (reserved phrase) (ví dụ như là used for, located at, made for …) để chỉ mối liên hệ ngữ nghĩa cộng với thông tin được cung cấp Trong ví dụ trên, phần thứ cấp bao gồm một câu “made for boats and irrigation” với cụm từ
“made for” dùng để mô tả mục đích sử dụng
Trang 5IV Giải thuật biểu diễn
Phương pháp được đề xuất là chuyển đổi định nghĩa của khái niệm địa lý sang CG tương ứng không mất thông tin Giải thuật biểu diễn gồm 2 bước chính là dán nhãn (tagging) và phân tích (parsing)
Bước đầu tiên (tagging) tuân thủ các qui định để đánh dấu tất cả các từ của định nghĩa khái niệm Bước thứ hai (parsing) áp dụng giải thuật để phân tích những định nghĩa được dánh dấu ở bước một và tạo ra một CG tương ứng
Bài nghiên cứu sử dụng phương pháp phân tích (parse) câu định nghĩa địa lý trước khi chuyển nó thành CG và sau đó thực hiện một số thao tác ở cấp độ đồ thị Có sự tách biệt trong việc đánh dấu và phân tích phần thức cấp của định nghĩa khái niệm địa lý Bằng cách này, sẽ có hai CG được tạo ra tương ứng với phần chính và phần thứ cấp Sau khi kết hợp lại, kết quả sẽ có là một
CG hoàn chỉnh cho một khái niệm địa lý
IV.1 Gán nhãn
Mỗi định nghĩa được tạo bởi các thành phần (tokens) Ở bảng bên dưới tóm tắt các thành phần của câu có liên quan đến các từ trong phần chính và phần thứ cấp của thông tin địa lý Khác nhau giữa ‘vb’ và ‘v’ là ‘vb’ luôn thuộc về phần định danh (determinant section) của phần chính và một động từ đặc biệt dùng để giới thiệu định nghĩa của khái niệm địa lý
“be”
Verb Adjective preposition Conjuntion Reserved
phrase
Phần định danh luôn bao gồm một mạo từ {article}, tên khái niệm {concept name} và động từ {is}, ví dụ: “A Canal is” Nó được dán nhãn sử dụng ‘art’, ‘n’, ‘vb’ Kết quả của quá trình
tagging của “A canal is” là:
{A (art) Canal (n)} {is (vb)}
Phần thuộc tính chứa genus, tính từ chỉ thuộc tính, và một hoặc nhiều cụm giới từ, được phân lớp thành dạng tổng quát:
[{attributive adjective}*+{genus}+{prepositional phrase}*]
Trang 6Nó được tagging bằng cách sử dụng ‘adj’ cho tính từ chỉ thuộc tính, ‘n’ cho genus, ‘prep’ và ‘n’ cho mệnh đề giới từ “A long and narrow strip of water” được tagging thành:
{a (art) long (adj)} {and (conj)} {narrow (adj)} {strip (n)} {of (prep)} {water (n)}
Cuối cùng, phần thứ cấp gồm một hoặc nhiều câu cũng được tiến hành tagging Reserved pharse được dán nhãn ‘rp’ và các thành phần khác được dánh dấu với ‘n’, ‘adj’, ‘conj’ tương ứng Kết quả tagging của “A canal is a long and narrow strip of water made for boats and irrigation” là:
{A Canal (n)} {is (vb)} {a long (adj)} {and (conj)} {narrow (adj)} {strip (n)} {of (prep)} {water (n)} {made for (rp)} {boats (n)} {and (conj)} {irrigation (n)}
IV.2 Phân tích cú pháp
Quá trình phân tích cú pháp bao gồm 3 giai đoạn Giai đoạn đầu tiên, phần định danh và phần thuộc tính của phần chính sau quá trình tagging sẽ được xử lý trước để tạo ra CG tương ứng Sau
đó, áp dụng các luật parsing cho tất cả các mệnh đề của phần thứ cấp đã tagging Mỗi mệnh đề tạo thành môt CG Cuối cùng là kết hợp các CG được tạo thành một CG chung duy nhất thể hiện định nghĩa khái niệm địa lý
IV.2.1 Phân tích cú pháp phần định danh và phần thuộc tính
CG của phần định danh ({article (art) concept name (n)}{is (vb)}) luôn tuân theo dạnh chung của hình 1 bên dưới Khái niệm {genus} dùng để chỉ genus trong phần thuộc tính
Hình 2 là CG cho phần định danh của mệnh đề “A Canal is a …strip…”
Hình 1: CG cho phần định danh (determinant section)
Hình 2: CG cho phần định danh của định nghĩa Canal
Trang 7Phần tính từ chỉ thuộc tính (attributive adjective – được tag bằng ‘adj’) trong phần thuộc tính, ta định nghĩa một loại khái niệm (concept type) cho từng cái, được kết nối với genus thông qua relation node ‘atr’ (hình 3)
Với mỗi cụm giới từ được tag, ta định nghĩa một relation node loại ‘preposition’ Nói chung, một cụm giới từ được tag bao gồm một giới từ (‘prep’), một hoặc nhiều tính từ chỉ thuộc tính (‘adj’)
và danh từ (‘n’)
{preposition}{attributive adjectives}*{noun}*
Tính từ chỉ thuộc tính nếu có thể hiện một đặc tính cho danh từ, ví dụ : ‘a strip of water’ hoặc ‘a strip of cold water’ Hình 4 là dạng tổng quát của CG tương ứng với cụm giới từ:
Từ đó, với định nghĩa Canal ở trên phần chính được mô hình hóa như sau:
IV.2.2 Phân tích phần thứ cấp (parsing secondary part)
Mỗi câu trong phần thứ cấp sau khi thực hiện tagging bao gồm cụm dành riêng (reserved phrase) Trong quá trình parsing, các reserved phrase được chuyển đổi thành node concept tương ứng (ví dụ ‘made for’) Concept node này liên hệ với genus node thông qua khái niệm relation
agent
{concept name}:
atr atr
{atr adj.1} {atr adj.1}
Hình 3: CG tổng quát của cho attributive adjective
{prep}
Hình 4: CG tổng quát cho các preposition pharse
agent
atr atr
long narrow
Hình 5: CG của phần chính của khái niệm Canal
Trang 8node loại agent và concept node, và với concept node tùy theo thành phần cấu trúc của câu thông qua relation node loại ‘object’ Hình 6 biểu diễn một CG tổng quát của phần thứ cấp Giả định rằng dạng tổng quát của mỗi câu trong phần thứ cấp là:
{reserved phrase}({attributive adjectives}{information})*
Trong đó, ‘information’ được đại diện với các khái niệm ‘info 1’, ‘info 2’
Hình 7 là dạng CG cho phần thứ cấp của khái niệm Canal
IV.3 Kết hợp
Ở bước này, CG của phần chính và CG của thứ cấp được kết hợp với nhau để tạo ra một CG thống nhất cho định nghĩa khái niệm địa lý Việc kết hợp này đơn giản khi cả hai CG đều có
phrase}
object
object
{info 1}
{info 2}
atr
atr
atr
atr
{atr adj 1}
{atr adj 2}
{atr adj 1}
{atr adj 2}
Hình 6: CG tổng quát cho secondary part
object
object
boat
irrigation
Hình 7: CG cho phần thứ cấp của khái niệm Canal
Trang 9‘genus’ Hình 8 bên dưới là một CG đầy đủ cho định nghĩa “A Canal is a long and narrow strip
of water made for boats and irrigation”
V Thuật toán so sánh
Dựa trên những giải thuật đề xuất cho việc trình diễn kiến thức địa lý sử dụng CG, bài nghiên cứu trình bày một phương pháp so sánh ngữ nghĩa hai CG Phương pháp này cần dữ kiện đầu vào là hai CG của hai định nghĩa khái niệm địa lý, và theo các bước sau:
(1) Xây dựng các CG tương ứng với hai định nghĩa (CG1 và CG2)
(2) Xác định các phần giao (intersections) của CG1 và CG2 (gọi là các I1, I2, …., In)
(3) Áp dụng công thức cho từng phần giao có liên quan để đo mức độ tương đồng của hai
CG Kết quả cho ra là một số thực có giá trị từ 0 đến 1 phản ánh mức độ tương đồng giữa hai CG
(4) Tổng hợp các giá trị đầu ra của bước 3 để tính giá trị tương đồng tổng hợp
Trong phần tiếp theo, bài nghiên cứu trình bày cách áp dụng giải thuật so sánh trên ví dụ thực tế
là so sánh định nghĩa hai khái niệm Sea và Lake
Sea: “A large body of salt water partially enclosed by land”
Lake: “A body of fresh water surrounded by land”
agent
atr atr
long narrow
object
object
boat
irrigation
Hình 8: CG cho định nghĩa khái niệm Canal
Trang 10V.1 Xây dựng CG1 (cho sea) và CG2 (cho lake)
Việc chuyển đổi các định nghĩa sea, lake từ khái niệm địa lý sang dạng CG tuân theo giải thuật
đã trình bày ở trên Sau khi áp dụng hai bước tagging và parsing ta có được kết quả như hình bên dưới (hình 9, hình 10)
of
Agent
large
water
Enclosed by
object
atr
land
partial
Hình 9: CG cho định nghĩa Sea (CG1)
Trang 11Trong bước này, tiến hành tìm các từ đồng nghĩa (synonyms) và khái quát (hypernyms) cho các nhóm thuật ngữ (term) và khái niệm (concept) Bước này cần có sự tham khảo các tài liệu như từ điển, sách bách khoa toàn thư, …, hoặc nhận định chủ quan để đánh giá
Trong ví dụ trên, đối với “enclosed by” và “surrounded by” có thể xem là từ đồng nghĩa và nó cùng chỉ một khái niệm (tra cứu từ WordNet và Merriam-Webster)
Sau khi đưa ra được mô hình CG cho hai định nghĩa, tiến hành phân tích, ta nhận thấy cả hai CGs có chung genus hay hypernym là ‘body’ Điều này có nghĩa là 2 khái niệm này thuộc cùng một lớp Tuy nghiên, chúng có những đặc điểm (differentia) khác nhau, mô tả những khía cạnh khác nhau của một khái niệm trong cùng một phân lớp ‘Sea’ được đặc tả bởi tính chất ‘large’,
‘of water’ và ‘enclosed by land’ Trong khi đó ‘Lake’ được đặc tả bởi ‘of water’ và ‘surrounded
by land’ Tính từ ‘fresh’ bổ sung ngữ nghĩa cho ‘water’ Ở bảng sau là tổng hợp những điểm khác nhau của các phần trong hai định nghĩa:
Agent
water
surrounded by
Hình 10: CG cho định nghĩa khái niệm Lake (CG2)
Trang 12V.2 Xác định các phần giao (intersections) I1, I2, … In của CG1 và CG2
Sau khi so sánh CG1 và CG2, tiến hành xác định những phần giao (những điểm chung) giữa chúng dựa trên cấu trúc, các concept node và các relation node Các CG con này được đặt tên lần lượt là I1, I2, … In Mỗi phần giao bao gồm tất cả các concept node và relation node liên quan xuất hiện trong cả CG1 và CG2 Khi một phần giao bao gồm một concept node đơn, thì sẽ không
có relation node đi cùng Do đó, để so sánh các CG cho định nghĩa Sea và Lake, cần xây dựng
các giao I1, I2 như sau:
Một điều quan trọng là không xem xét phần giao của hình 13 vì đó là dạng chung tổng quát của tất cả các CG đại diện cho định nghĩa khái niệm địa lý như đã trình bày ở trên:
V.3 Áp dụng công thức tính độ tương đồng cho I1, I2, … In
Để xem xét CG1 và CG2 giống nhau đến mức nào, dựa vào những phần giao giữa chúng, ta áp dụng công thức xác định (deterministic formula) cho ra kết quả trong đoạn [0, 1] Theo đó ‘0’ tức
là hoàn toàn khác nhau, và ‘1’ là hoàn toàn giống nhau Hơn nữa, độ tương đồng giữa hai khái niệm địa lý thể hiện bằng CG phụ thuộc vào các loại concept node và vị trí của chúng trong CG1
và CG2 Do đó, cần có một phương pháp đo lường đảm bảo cả hai tính chất trên Giải thuật được
đề xuất dựa trên hệ số Dice (Dice coefficient) để đo lường mức độ tương đồng của CG1 và CG2, trong đó có tính đến các loại concept node chung ở hai CGs Ví dụ, hai CGs có cùng genus sẽ
Surrounded by
Hình 11: Mô hình I1 của CG1 và CG2
Hình 12: Mô hình I2 của CG1 và CG2
{concept name}:{article}
Hình 13: Dạng intersection thông dụng