1. Trang chủ
  2. » Luận Văn - Báo Cáo

Thuật toán so sánh biểu diễn đồ thì khái niệm tương ứng

14 998 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 890,86 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Liên quan đến vấn đề biểu diễn kiến thức địa lý, các nghiên cứu và các phân tích về những định nghĩa khái niệm địa lý geographic concept definitions đóng vai trò quan trọng trong nổ lực

Trang 1

I Giới thiệu 1

II Các nghiên cứu liên quan 1

III Định nghĩa các khái niệm 2

IV Giải thuật biểu diễn 4

IV.1 Gán nhãn 4

IV.2 Phân tích cú pháp 5

IV.2.1 Phân tích cú pháp phần định danh và phần thuộc tính 5

IV.2.2 Phân tích phần thứ cấp (parsing secondary part) 6

IV.3 Kết hợp 7

V Thuật toán so sánh 8

V.1 Xây dựng CG1 (cho sea) và CG2 (cho lake) 9

V.2 Xác định các phần giao (intersections) I1, I2, … In của CG1 và CG2 11

V.3 Áp dụng công thức tính độ tương đồng cho I1, I2, … In 11

VI Kết luận và hướng phát triển 13

Trang 2

I Giới thiệu

Đồ thị khái niệm (Conceptual Graphs – CG) là một phương pháp biểu diễn kiến thức hình thức, dựa trên những kiến thức ngôn ngữ học và hướng đối tượng Đồ thị khái niệm cung cấp phương tiện để thu thập và thể hiện kiến thức về thế giới thật

Liên quan đến vấn đề biểu diễn kiến thức địa lý, các nghiên cứu và các phân tích về những định nghĩa khái niệm địa lý (geographic concept definitions) đóng vai trò quan trọng trong nổ lực đạt được kiến thức một cách có hệ thống về các khái niệm; đồng thời phục vụ cho việc so sánh những phân loại địa lý nhằm xác định những tương đồng và không đồng nhất giữa chúng Do đó, việc khai thác các phương pháp hiệu quả cho việc biểu diễn các định nghĩa địa lý đóng vai trò nền tảng cho các nghiên cứu về phân tích ngữ nghĩa địa lý, nhằm mục đích hệ thống hóa ý nghĩa

và trích xuất thông tin

Mục đích của nghiên cứu là phát triển một giải thuật để biểu diễn tri thức địa lý sử dụng đồ thị khái niệm Sau đó dựa trên những phương pháp, các đặc tính, và cấu trúc của đồ thị khái niệm, đưa ra một qui trình cho việc so sánh hai khái niệm địa lý để đo lường định lượng sự tương đồng giữa chúng Qui trình so sánh sẽ xem xét cấu trúc của những đồ thị khái niệm tương ứng và cho

ra kết quả là mức độ tương đồng ngữ nghĩa giữa hai khái niệm địa lý và từ đó xác định những khái niệm nào là tương đồng với nhau hơn Bằng việc giới thiệu một giải thuật bằng cách dùng định nghĩa khái niệm địa lý là đầu vào và đưa ra biểu diễn đồ thì khái niệm tương ứng, bài nghiên cứu đã phá bỏ những giới hạn và trở ngại trong việc trích xuất thông tin ngữ nghĩa của khái niệm địa lý

II Các nghiên cứu liên quan

Những năm gần đây đã có những nghiên cứu về biểu diễn và trích xuất thông tin các khái niệm địa lý Phương pháp tiếp cận về biểu diễn tri thức địa lý bao gồm các phương pháp được dựa trên phân tích các định nghĩa khái niệm địa lý và tìm kiếm các biểu diễn hiệu quả

CG là phương pháp biểu diễn tri thức bằng biểu đồ trực quan, đầu tiên được giới thiệu dùng cho việc biểu diễn ngôn ngữ tự nhiên Theo lý thuyết về CG, một CG là một mạng các node khái niệm (concept node) và các node quan hệ (relation node) Các concept node là những thực thể (entities), thuộc tích (attribute), và sự kiện (events) Các relation node dùng để định ra các mối liên hệ giữa các concept node

Trang 3

CG được định nghĩa bởi một cú pháp trừu tượng độc lập với các ký hiệu, nhưng hình thức có thể được thể hiện trong các ký hiệu đồ họa hoặc dựa trên ký tự Bằng các ký hiệu đồ họa, concepts node được thể hiện bởi các hình chữ nhật, và relation node là những hình tròn liên kết với các concepts node bằng các mũi tên Dạng tuyến tính (linear form) thì ngắn gọn hơn dạng đồ thị, bằng cách sử dụng các ký hiệu “[” thay cho ô vuông, “{” thay cho vòng tròn

Các nghiên cứu xây dựng phương pháp so sánh sự giống nhau giữa hai CG Mục đích chính của phương pháp tiếp cận được đề xuất là để xác định xem một đồ thị truy vấn là hoàn toàn chứa trong một CG

Mặc khác, trong nhiều ứng dụng dạng text, các phương pháp so sánh việc biểu diễn text được đề xuất và áp dụng Trong số đó, hệ số Jaccard, hệ số Cosine và hệ số Dice thường được sử dụng vì tính phổ dụng và đơn giản

Giải thuật so sánh sự tương đồng trong bài nghiên cứu dựa trên hệ số Dice:

𝑆𝐷1,𝐷2= 2𝐶(𝐷1,2)/(𝐶(𝐷1) + 𝐶(𝐷2)) Trong đó 𝐶(𝐷1,2) là số dữ kiện (term) chung, tương đồng giữ D1, D2 𝐶(𝐷1), 𝐶(𝐷2) là tổng số các term tương ứng trong D1 và D2

Công thức trên được áp dụng với những thay đổi phù hợp với đặc điểm của CG dùng trong việc định nghĩa các khái niệm địa lý

III Định nghĩa các khái niệm

Các định nghĩa khái niệm địa lý thường là một vài câu bao gồm 2 loại thông tin: chủng loại (genus) và đặc tính (differentia) Genus là một định nghĩa khái quát hóa (hypernym), chứa thông tin phân lớp của khái niệm, và thông tin đó thường xuyên được sử dụng để xây dựng phân loại khái niệm Với differentia, differentia xác định mức độ khác nhau của các khái niệm trong cùng phân lớp Nó là một tập các tính từ chỉ thuộc tính (như dài, ngắn, rộng) và cụm giới từ khác nhau của cùng một genus Nó cung cấp mục đích, vị trí, vẻ bề ngoài, và những khía cạnh khác nhau thông qua một hoặc nhiều mệnh đề phụ, mỗi mệnh đề cung cấp một thông tin khác nhau

Ví dụ, trong bảng sau là genus và differentia của định nghĩa “A canal is a long and narrow strip

of water made for boats and irrigation”

Trang 4

Genus Strip

Differentia Long , narrow (attributive adjectives)

Of water (prepositional phrase) Made for boats and irrigation (sub-clause)

Mỗi định nghĩa được xem xét có dạng bao gồm hai phần: phần chính (main part) và phần thứ cấp (secondary part) Main part là mệnh đề bao gồm genus, các tính từ thuộc tính, và các cụm giới từ

mô tả cho genus Secondary part chứa các mệnh đề phụ (sub-clause) mô tả thêm thông tin cho khái niệm địa lý

Phần chính bao gồm các thành phần định danh (determinant section) và phần thuộc tính

(attributes section) Determinant section cấu trúc tổng quát:

[{article}+{concept name}+{is}]

Attributes section là các mệnh đề mô tả của phần chính, bao gồm genus, tính từ chỉ thuộc tính và cụm giới từ Attributes section có cấu trúc tổng quát:

[{attributive adjective}*+{genus}+{prepositional phrase}*]

Dấu hoa thị trong công thức mô tả có một hoặc nhiều

(determinant section)

Phần thuộc tính (Attributes section)

water Secondary part (phần thứ

cấp)

Made for boats and irrigation (sub-clause)

Phần thứ cấp gồm một hoặc nhiều mệnh đề cung cấp các thông tin khác nhau (như mục đích, vị trí, …) Mỗi câu trong phần thứ cấp chứa một cụm từ dành riêng (reserved phrase) (ví dụ như là used for, located at, made for …) để chỉ mối liên hệ ngữ nghĩa cộng với thông tin được cung cấp Trong ví dụ trên, phần thứ cấp bao gồm một câu “made for boats and irrigation” với cụm từ

“made for” dùng để mô tả mục đích sử dụng

Trang 5

IV Giải thuật biểu diễn

Phương pháp được đề xuất là chuyển đổi định nghĩa của khái niệm địa lý sang CG tương ứng không mất thông tin Giải thuật biểu diễn gồm 2 bước chính là dán nhãn (tagging) và phân tích (parsing)

Bước đầu tiên (tagging) tuân thủ các qui định để đánh dấu tất cả các từ của định nghĩa khái niệm Bước thứ hai (parsing) áp dụng giải thuật để phân tích những định nghĩa được dánh dấu ở bước một và tạo ra một CG tương ứng

Bài nghiên cứu sử dụng phương pháp phân tích (parse) câu định nghĩa địa lý trước khi chuyển nó thành CG và sau đó thực hiện một số thao tác ở cấp độ đồ thị Có sự tách biệt trong việc đánh dấu và phân tích phần thức cấp của định nghĩa khái niệm địa lý Bằng cách này, sẽ có hai CG được tạo ra tương ứng với phần chính và phần thứ cấp Sau khi kết hợp lại, kết quả sẽ có là một

CG hoàn chỉnh cho một khái niệm địa lý

IV.1 Gán nhãn

Mỗi định nghĩa được tạo bởi các thành phần (tokens) Ở bảng bên dưới tóm tắt các thành phần của câu có liên quan đến các từ trong phần chính và phần thứ cấp của thông tin địa lý Khác nhau giữa ‘vb’ và ‘v’ là ‘vb’ luôn thuộc về phần định danh (determinant section) của phần chính và một động từ đặc biệt dùng để giới thiệu định nghĩa của khái niệm địa lý

“be”

Verb Adjective preposition Conjuntion Reserved

phrase

Phần định danh luôn bao gồm một mạo từ {article}, tên khái niệm {concept name} và động từ {is}, ví dụ: “A Canal is” Nó được dán nhãn sử dụng ‘art’, ‘n’, ‘vb’ Kết quả của quá trình

tagging của “A canal is” là:

{A (art) Canal (n)} {is (vb)}

Phần thuộc tính chứa genus, tính từ chỉ thuộc tính, và một hoặc nhiều cụm giới từ, được phân lớp thành dạng tổng quát:

[{attributive adjective}*+{genus}+{prepositional phrase}*]

Trang 6

Nó được tagging bằng cách sử dụng ‘adj’ cho tính từ chỉ thuộc tính, ‘n’ cho genus, ‘prep’ và ‘n’ cho mệnh đề giới từ “A long and narrow strip of water” được tagging thành:

{a (art) long (adj)} {and (conj)} {narrow (adj)} {strip (n)} {of (prep)} {water (n)}

Cuối cùng, phần thứ cấp gồm một hoặc nhiều câu cũng được tiến hành tagging Reserved pharse được dán nhãn ‘rp’ và các thành phần khác được dánh dấu với ‘n’, ‘adj’, ‘conj’ tương ứng Kết quả tagging của “A canal is a long and narrow strip of water made for boats and irrigation” là:

{A Canal (n)} {is (vb)} {a long (adj)} {and (conj)} {narrow (adj)} {strip (n)} {of (prep)} {water (n)} {made for (rp)} {boats (n)} {and (conj)} {irrigation (n)}

IV.2 Phân tích cú pháp

Quá trình phân tích cú pháp bao gồm 3 giai đoạn Giai đoạn đầu tiên, phần định danh và phần thuộc tính của phần chính sau quá trình tagging sẽ được xử lý trước để tạo ra CG tương ứng Sau

đó, áp dụng các luật parsing cho tất cả các mệnh đề của phần thứ cấp đã tagging Mỗi mệnh đề tạo thành môt CG Cuối cùng là kết hợp các CG được tạo thành một CG chung duy nhất thể hiện định nghĩa khái niệm địa lý

IV.2.1 Phân tích cú pháp phần định danh và phần thuộc tính

CG của phần định danh ({article (art) concept name (n)}{is (vb)}) luôn tuân theo dạnh chung của hình 1 bên dưới Khái niệm {genus} dùng để chỉ genus trong phần thuộc tính

Hình 2 là CG cho phần định danh của mệnh đề “A Canal is a …strip…”

Hình 1: CG cho phần định danh (determinant section)

Hình 2: CG cho phần định danh của định nghĩa Canal

Trang 7

Phần tính từ chỉ thuộc tính (attributive adjective – được tag bằng ‘adj’) trong phần thuộc tính, ta định nghĩa một loại khái niệm (concept type) cho từng cái, được kết nối với genus thông qua relation node ‘atr’ (hình 3)

Với mỗi cụm giới từ được tag, ta định nghĩa một relation node loại ‘preposition’ Nói chung, một cụm giới từ được tag bao gồm một giới từ (‘prep’), một hoặc nhiều tính từ chỉ thuộc tính (‘adj’)

và danh từ (‘n’)

{preposition}{attributive adjectives}*{noun}*

Tính từ chỉ thuộc tính nếu có thể hiện một đặc tính cho danh từ, ví dụ : ‘a strip of water’ hoặc ‘a strip of cold water’ Hình 4 là dạng tổng quát của CG tương ứng với cụm giới từ:

Từ đó, với định nghĩa Canal ở trên phần chính được mô hình hóa như sau:

IV.2.2 Phân tích phần thứ cấp (parsing secondary part)

Mỗi câu trong phần thứ cấp sau khi thực hiện tagging bao gồm cụm dành riêng (reserved phrase) Trong quá trình parsing, các reserved phrase được chuyển đổi thành node concept tương ứng (ví dụ ‘made for’) Concept node này liên hệ với genus node thông qua khái niệm relation

agent

{concept name}:

atr atr

{atr adj.1} {atr adj.1}

Hình 3: CG tổng quát của cho attributive adjective

{prep}

Hình 4: CG tổng quát cho các preposition pharse

agent

atr atr

long narrow

Hình 5: CG của phần chính của khái niệm Canal

Trang 8

node loại agent và concept node, và với concept node tùy theo thành phần cấu trúc của câu thông qua relation node loại ‘object’ Hình 6 biểu diễn một CG tổng quát của phần thứ cấp Giả định rằng dạng tổng quát của mỗi câu trong phần thứ cấp là:

{reserved phrase}({attributive adjectives}{information})*

Trong đó, ‘information’ được đại diện với các khái niệm ‘info 1’, ‘info 2’

Hình 7 là dạng CG cho phần thứ cấp của khái niệm Canal

IV.3 Kết hợp

Ở bước này, CG của phần chính và CG của thứ cấp được kết hợp với nhau để tạo ra một CG thống nhất cho định nghĩa khái niệm địa lý Việc kết hợp này đơn giản khi cả hai CG đều có

phrase}

object

object

{info 1}

{info 2}

atr

atr

atr

atr

{atr adj 1}

{atr adj 2}

{atr adj 1}

{atr adj 2}

Hình 6: CG tổng quát cho secondary part

object

object

boat

irrigation

Hình 7: CG cho phần thứ cấp của khái niệm Canal

Trang 9

‘genus’ Hình 8 bên dưới là một CG đầy đủ cho định nghĩa “A Canal is a long and narrow strip

of water made for boats and irrigation”

V Thuật toán so sánh

Dựa trên những giải thuật đề xuất cho việc trình diễn kiến thức địa lý sử dụng CG, bài nghiên cứu trình bày một phương pháp so sánh ngữ nghĩa hai CG Phương pháp này cần dữ kiện đầu vào là hai CG của hai định nghĩa khái niệm địa lý, và theo các bước sau:

(1) Xây dựng các CG tương ứng với hai định nghĩa (CG1 và CG2)

(2) Xác định các phần giao (intersections) của CG1 và CG2 (gọi là các I1, I2, …., In)

(3) Áp dụng công thức cho từng phần giao có liên quan để đo mức độ tương đồng của hai

CG Kết quả cho ra là một số thực có giá trị từ 0 đến 1 phản ánh mức độ tương đồng giữa hai CG

(4) Tổng hợp các giá trị đầu ra của bước 3 để tính giá trị tương đồng tổng hợp

Trong phần tiếp theo, bài nghiên cứu trình bày cách áp dụng giải thuật so sánh trên ví dụ thực tế

là so sánh định nghĩa hai khái niệm Sea và Lake

 Sea: “A large body of salt water partially enclosed by land”

 Lake: “A body of fresh water surrounded by land”

agent

atr atr

long narrow

object

object

boat

irrigation

Hình 8: CG cho định nghĩa khái niệm Canal

Trang 10

V.1 Xây dựng CG1 (cho sea) và CG2 (cho lake)

Việc chuyển đổi các định nghĩa sea, lake từ khái niệm địa lý sang dạng CG tuân theo giải thuật

đã trình bày ở trên Sau khi áp dụng hai bước tagging và parsing ta có được kết quả như hình bên dưới (hình 9, hình 10)

of

Agent

large

water

Enclosed by

object

atr

land

partial

Hình 9: CG cho định nghĩa Sea (CG1)

Trang 11

Trong bước này, tiến hành tìm các từ đồng nghĩa (synonyms) và khái quát (hypernyms) cho các nhóm thuật ngữ (term) và khái niệm (concept) Bước này cần có sự tham khảo các tài liệu như từ điển, sách bách khoa toàn thư, …, hoặc nhận định chủ quan để đánh giá

Trong ví dụ trên, đối với “enclosed by” và “surrounded by” có thể xem là từ đồng nghĩa và nó cùng chỉ một khái niệm (tra cứu từ WordNet và Merriam-Webster)

Sau khi đưa ra được mô hình CG cho hai định nghĩa, tiến hành phân tích, ta nhận thấy cả hai CGs có chung genus hay hypernym là ‘body’ Điều này có nghĩa là 2 khái niệm này thuộc cùng một lớp Tuy nghiên, chúng có những đặc điểm (differentia) khác nhau, mô tả những khía cạnh khác nhau của một khái niệm trong cùng một phân lớp ‘Sea’ được đặc tả bởi tính chất ‘large’,

‘of water’ và ‘enclosed by land’ Trong khi đó ‘Lake’ được đặc tả bởi ‘of water’ và ‘surrounded

by land’ Tính từ ‘fresh’ bổ sung ngữ nghĩa cho ‘water’ Ở bảng sau là tổng hợp những điểm khác nhau của các phần trong hai định nghĩa:

Agent

water

surrounded by

Hình 10: CG cho định nghĩa khái niệm Lake (CG2)

Trang 12

V.2 Xác định các phần giao (intersections) I1, I2, … In của CG1 và CG2

Sau khi so sánh CG1 và CG2, tiến hành xác định những phần giao (những điểm chung) giữa chúng dựa trên cấu trúc, các concept node và các relation node Các CG con này được đặt tên lần lượt là I1, I2, … In Mỗi phần giao bao gồm tất cả các concept node và relation node liên quan xuất hiện trong cả CG1 và CG2 Khi một phần giao bao gồm một concept node đơn, thì sẽ không

có relation node đi cùng Do đó, để so sánh các CG cho định nghĩa Sea và Lake, cần xây dựng

các giao I1, I2 như sau:

Một điều quan trọng là không xem xét phần giao của hình 13 vì đó là dạng chung tổng quát của tất cả các CG đại diện cho định nghĩa khái niệm địa lý như đã trình bày ở trên:

V.3 Áp dụng công thức tính độ tương đồng cho I1, I2, … In

Để xem xét CG1 và CG2 giống nhau đến mức nào, dựa vào những phần giao giữa chúng, ta áp dụng công thức xác định (deterministic formula) cho ra kết quả trong đoạn [0, 1] Theo đó ‘0’ tức

là hoàn toàn khác nhau, và ‘1’ là hoàn toàn giống nhau Hơn nữa, độ tương đồng giữa hai khái niệm địa lý thể hiện bằng CG phụ thuộc vào các loại concept node và vị trí của chúng trong CG1

và CG2 Do đó, cần có một phương pháp đo lường đảm bảo cả hai tính chất trên Giải thuật được

đề xuất dựa trên hệ số Dice (Dice coefficient) để đo lường mức độ tương đồng của CG1 và CG2, trong đó có tính đến các loại concept node chung ở hai CGs Ví dụ, hai CGs có cùng genus sẽ

Surrounded by

Hình 11: Mô hình I1 của CG1 và CG2

Hình 12: Mô hình I2 của CG1 và CG2

{concept name}:{article}

Hình 13: Dạng intersection thông dụng

Ngày đăng: 10/04/2015, 11:08

HÌNH ẢNH LIÊN QUAN

Hình 3: CG tổng quát của cho attributive adjective - Thuật toán so sánh biểu diễn đồ thì khái niệm tương ứng
Hình 3 CG tổng quát của cho attributive adjective (Trang 7)
Hình 4: CG tổng quát cho các preposition pharse - Thuật toán so sánh biểu diễn đồ thì khái niệm tương ứng
Hình 4 CG tổng quát cho các preposition pharse (Trang 7)
Hình 6: CG tổng quát cho secondary part - Thuật toán so sánh biểu diễn đồ thì khái niệm tương ứng
Hình 6 CG tổng quát cho secondary part (Trang 8)
Hình 8: CG cho định nghĩa khái niệm Canal - Thuật toán so sánh biểu diễn đồ thì khái niệm tương ứng
Hình 8 CG cho định nghĩa khái niệm Canal (Trang 9)
Hình 9: CG cho định nghĩa Sea (CG1) - Thuật toán so sánh biểu diễn đồ thì khái niệm tương ứng
Hình 9 CG cho định nghĩa Sea (CG1) (Trang 10)
Hình 10: CG cho định nghĩa khái niệm Lake (CG2) - Thuật toán so sánh biểu diễn đồ thì khái niệm tương ứng
Hình 10 CG cho định nghĩa khái niệm Lake (CG2) (Trang 11)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w