phân lớp câu hỏi tìm kiếm ngữ nghĩa tiếng Việt trong lĩnh vực y tế

luận văn về phân lớp câu hỏi tìm kiếm ngữ nghĩa tiếng Việt trong lĩnh vực y tế

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

HÀ NỘI - 2008

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Cán bộ hướng dẫn: PGS TS Hà Quang Thụy

Cán bộ đồng hướng dẫn: Th.S Nguyễn Việt Cường

HÀ NỘI - 2008

Trang 3

Lời cảm ơn

Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến

sĩ Hà Quang Thụy và Thạc sỹ Nguyễn Việt Cường, người đã tận tình chỉ bảo và hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp

Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để học tập và nghiên cứu tại trường Đại Học Công Nghệ

Tôi xin gửi lời cảm ơn chân thành tới Thạc Sỹ Nguyễn Cẩm Tú và Cử Nhân Nguyễn Thu Trang những đã tận tình hỗ trợ về kiến thức chuyên môn, giúp đỡ tôi hoàn thành khóa luận

Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm “Khai phá dữ liệu” đã giúp tôi rất nhiều trong việc thu thập và xử lý dữ liệu

Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp

Tôi xin chân thành cảm ơn !

Sinh viên Nguyễn Minh Tuấn

Trang 4

Khóa luận này tập trung nghiên cứu phương pháp phân loại câu hỏi trong lĩnh vực y

tế tiếng Việt dựa trên hướng tiếp cận cực đại hóa Entropy (maxent) Dựa trên việc khảo sát các đặc trưng tiếng Việt và các hướng tiếp cận trong phân lớp câu hỏi trên tiếng Anh, khóa luận đã tích hợp các đặc trưng này vào quá trình phân lớp với Maxent và thu được kết quả khả quan Những nội dung này có thể coi là những nghiên cứu đầu tiên trong vấn

đề này trên tiếng Việt

Trang 5

Mục lục

Tóm tắt i

Mục lục ii

Danh sách các bảng iv

Danh sách các hình v

Lời mở đầu 1

Chương I Tổng quan về tìm kiếm ngữ nghĩa 2

1.1 Nhu cầu về máy tìm kiếm ngữ nghĩa 2

1.2 Cấu trúc tổng thể của một máy tìm kiếm ngữ nghĩa 2

1.2.1 Nền tảng cho tìm kiếm ngữ nghĩa 2

1.2.2.1 Web ngữ nghĩa 3

1.2.2.2 Ontology 4

1.2.2 Kiến trúc cơ bản của một máy tìm kiếm ngữ nghĩa 9

1.2.2.3 Giao diện người dùng 10

1.2.2.4 Kiến trúc bên trong 10

Chương 2 Tìm kiếm ngữ nghĩa trong tiếng Việt 14

2.1 Tổng quan về cơ sở cho tìm kiếm ngữ nghĩa tiếng Việt 14

2.2 Một số đặc trưng của tiếng Việt 15

2.2.1 Đặc điểm ngữ âm 15

2.2.2 Đặc điểm từ vựng: 15

2.2.3 Đặc điểm ngữ pháp 16

2.3 Tìm kiếm ngữ nghĩa trong lĩnh vực y tế 16

2.3.1 Ontology Y tế trong tiếng Việt 16

2.3.2 Bộ phân lớp câu hỏi Y tế trong tiếng Việt 18

Chương 3 Các phương pháp phân lớp câu hỏi 19

3.1 Giới thiệu về phân lớp câu hỏi 19

3.2 Các phương pháp phân lớp câu hỏi 19

3.3 Hướng tiếp cận dựa trên xác suất 20

3.3.2 Các hướng tiếp cận theo phương pháp học máy 21

Trang 6

3.3.1.1 Support Vector Machines (SVM) 21

3.3.1.2 Một số phương pháp khác 27

3.3.1.3 Thực nghiệm khi tiến hành phân lớp câu hỏi 28

3.3.3 Hướng tiếp cận dựa trên mô hình hình ngôn ngữ 31

3.3.3.1 Hướng tiếp cận Entropy cực đại 33

Chương 4 Thực nghiệm và đánh giá 37

4.1 Dữ liệu của thực nghiệm 37

4.2 Thiết kế thử nghiệm 38

4.3 Kết quả thực nghiệm 39

4.4 Đánh giá kết quả thực nghiệm 43

Kết luận 45

Tài liệu tham khảo 46

Tiếng Việt 46

Tiếng Anh 46

Trang 7

Danh sách các bảng

Bảng 1: taxonomy của tập lớp câu hỏi thử nghiệm của Zhang 28

Bảng 2 Độ chính xác trên năm phân lớp Cha với các giải thuật khác nhau trong học máy, sử dụng vector đặc trưng bag-of-words .29

Bảng 3 Độ chính xác trên năm phân lớp Cha với các giải thuật khác nhau trong học máy, sử dụng vector đặc trưng bag-of-Ngrams 30

Bảng 4 Độ chính xác trên các phân lớp con với các giải thuật khác nhau trong học máy, sử dụng vector đặc trưng bag-of-words .30

Bảng 5 Độ chính xác trên các phân lớp con với các giải thuật khác nhau trong học máy, sử dụng vector đặc trưng bag-of-Ngrams 31

Bảng 6.Tập dữ liệu huấn luyện 37

Bảng 7 Tập dữ liệu kiểm tra 38

Bảng 8 Tham số huấn luyện mô hình SVM 39

Bảng 9 Tham số huấn luyện mô hình Entropy cực đại 39

Bảng 10 kết quả huấn luyện với SVM 39

Bảng 11 Kết quả 10 lần huấn luyện với Entropy cực đại 40

Bảng 12 Kết quả của bước lặp thứ 6 41

Trang 8

Danh sách các hình

Hình 1 Ví dụ về Web ngữ nghĩa 3

Hình 2 Ví dụ về Ontology Y tế 6

Hình 3 Sơ đồ của máy tìm kiếm ngữ nghĩa 9

Hình 5 Mối quan hệ giữa các siêu phẳng phân cách 23

Hình 6 Siêu phẳng tối ưu và biên .24

Hình 7 Sơ đồ phân lớp câu hỏi với SVM 26

Hình 8 Đồ thị biểu diễn sự phụ thuộc của F1 vào số lần lặp 42

Hình 9 Tổng hợp độ đo 10 lần huấn luyện 42

Trang 9

Lời mở đầu

Sự ra đời của Web ngữ nghĩa và các Ontology dẫn tới sự ra đời của các hệ thống tìm kiếm với sự hộ trợ của dạng thông tin mới này – hệ thống tìm kiếm ngữ nghĩa Một hệ thống tìm kiếm ngữ nghĩa thông thường được xây dựng trên một miền và ngôn ngữ cụ thể Cấu trúc nội tại của một hệ thống tìm kiếm ngữ nghĩa điển hình bao gồm hai thành phần quan trọng mang đặc trưng ngôn ngữ đó là: (1) phân lớp câu hỏi và (2) cơ sở dữ liệu tri thứ (mạng ngữ nghĩa) Trong vài năm gần đây nhiều công trình nghiên cứu giải quyết bài toán phân lớp câu hỏi đã được công bố [16], [15], [19], [36], [42]

Ta có thể chia các thuật toán phân lớp câu hỏi thành hai hướng tiếp cận chính: (1) hướng tiếp cận theo regular expression (biểu thức chính qui) [35] và (2) hướng tiếp cận dựa trên xác suất [16], [15], [19], [36], [42] Mỗi hướng tiếp cận có những ưu và nhược điểm riêng và sẽ được xem xét trong các phần sau đây

Khóa luận này tiến hành phân tích cấu trúc tổng thể của một máy tìm kiếm ngữ nghĩa Qua đó chỉ ra các module ảnh hưởng bởi đặc trưng ngôn ngữ và tiến hành khảo sát các phương pháp giải quyết bài toán phân lớp câu hỏi phổ biến hiện nay Từ đó đề xuất giải pháp thích hợp khi áp dụng vào tiếng Việt

Khóa luận gồm bốn chương nội dung được mô tả sơ bộ dưới đây:

Chương 1 Tổng quan về tìm kiếm ngữ nghĩa giới thiệu những thành phần cơ

bản về một hệ thống tìm kiếm ngữ nghĩa: nhu cầu về tìm kiếm ngữ nghĩa và các nền tảng cho tìm kiếm ngữ nghĩa hình thành Đồng thời, chương này cũng giới thiệu kiến trúc tổng thể của một hệ thống tìm kiếm ngữ nghĩa và chỉ ra các module chịu ảnh hưởng bởi đặc trưng của ngôn ngữ

Chương 2 Tìm kiếm ngữ nghĩa trong tiếng Việt trình bày về hiện trạng của tìm

kiếm ngữ nghĩa trong tiếng Việt hiện nay Qua đó, chỉ ra những cơ sở cần thiết để xây dựng một hệ thống tìm kiếm ngữ nghĩa trong tiếng Việt Đồng thời, chương này cũng giới thiệu quá trình phân tích và xây dựng hai module mang đặc trưng ngôn ngữ, tạo tiền đề xây dựng mộ hệ thống tìm kiếm ngữ nghĩa trong lĩnh vực Y tế tiếng Việt

Chương 3 Các phương pháp phân lớp câu hỏi khảo sát và phân tích kỹ lưỡng

các thuật toán cho bài toán phân lớp câu hỏi, chỉ ra ưu nhược điểm của từng phương pháp Qua đó lựa, chọn phương pháp tốt nhất để thử nghiệm trong tiếng Việt

Chương 4 Thực nghiệm và đánh giá hai thuật toán Support Vector Machine

và nguyên lý Entropy cực đại trên tập dữ liệu câu hỏi Y tế tiếng Việt Kết quả thử nghiệm cho thấy hiệu của của từng phương pháp và chỉ rõ phương pháp nào thích hơn khi áp dụng cho tiếng Việt

Phần kết luận tổng kết và tóm lược nội dung chính của khóa luận

Trang 10

Chương I Tổng quan về tìm kiếm ngữ nghĩa

1.1 Nhu cầu về máy tìm kiếm ngữ nghĩa

Lượng thông tin khổng lồ và phát triển mạnh mẽ theo từng ngày trên World Wide

Web (thường được gọi tắt là Web) đưa ra thách thức để khai thác được thông tin trên Web một cách hiệu quả Các máy tìm kiếm như Google, Yahoo… ra đời nhằm hỗ trợ người dùngtrong quá trình tìm kiếm và sử dụng thông tin Tuy kết quả trả về của các máy tìm kiếm này ngày càng được cải thiện về chất và lượng nhưng vẫn đơn thuần là danh sách các tài liệu chứa những từ xuất hiện trong câu truy vấn Những thông tin từ các kết quả trả

về này chỉ được hiểu bởi con người, máy tính không thể “hiểu” được, điều này gây những khó khăn cho quá trình xử lý thông tin tìm kiếm được về sau

Sự ra đời của Web ngữ nghĩa (hay Semantic Web được W3C (The World Wide Web Consortium) giới thiệu trong [40]) đã mở ra một bước tiến của công nghệ Web những thông tin trong Web ngữ nghĩa có cấu trúc hoàn chỉnh và mang ngữ nghĩa mà máy tính có thể “hiểu” được Những thông tin này, có thể được sử dụng lại mà không cần qua các bước tiền xử lý Khi sử dụng các máy tìm kiếm thông thường (Google, Yahoo…), tìm kiếm thông tin trên Web ngữ nghĩa sẽ không tận dụng được những ưu điểm vượt trội của Web ngữ nghĩa, kết quả trả về không có sự thay đổi Nói theo một cách khác thì với các máy tìm kiếm hiện tại Web ngữ nghĩa hay Web thông thường chỉ là một Do vậy, cần thiết có một hệ thống tìm kiếm ngữ nghĩa (Semantic Search) tìm kiếm trên Web ngữ nghĩa hay trên một mạng tri thức mang ngữ nghĩa, kết quả trả về là các thông tin có cấu trúc hoàn chỉnh mà máy tính có thể “hiểu” được, nhờ đó việc sử dụng hay xử lý thông tin trở nên dễ dàng hơn[27][29] Ngoài ra, việc xây dựng được một hệ thống tìm kiếm ngữ nghĩa cụ thể sẽ tạo tiền đề cho việc mở rộng xây dựng các hệ thống hỏi đáp tự động trên từng lĩnh vực cụ thể như : Y tế, văn hóa … điều này mang một ý nghĩa thiết thực trong đời sống

1.2 Cấu trúc tổng thể của một máy tìm kiếm ngữ nghĩa

Máy tìm kiếm ngữ nghĩa được xây dựng dựa trên những công nghệ, kỹ thuật mới của khoa học Mỗi công nghệ phát triển trên những nền tảng nhất định Do vậy để mô tả cấu

trúc của một máy tìm kiếm ngữ nghĩa một cách chi tiết nhất, trước tiên cần đề cập các nền tảng cho tìm kiếm ngữ nghĩa

1.2.1 Nền tảng cho tìm kiếm ngữ nghĩa

Có hai nền tảng cho tìm kiếm ngữ nghĩa đó là:

(1) Web ngữ nghĩa : là sự phát triển mở rộng của Web hiện tại

(2) Ontology : dùng để mô tả các tài nguyên thông tin có ngữ nghĩa

Trang 11

1.2.2.1 Web ngữ nghĩa

Web ngữ nghĩa hay còn gọi là Semantic Web theo Tim Berners-Lee [34] là bước phát triển mở rộng của công nghệ Word Wide Web hiện tại, chứa các thông tin được định nghĩa rõ ràng sao cho con người và máy tính làm việc với nhau hiệu quả hơn Mục tiêu của Web ngữ nghĩa là phát triển dựa trên những chuẩn và công nghệ chung, cho phép máy tính có thể hiểu thông tin chứa trong các trang Web nhiều hơn nhằm hỗ trợ tốt con người trong khai phá dữ liệu, tổng hợp thông tin, hay trong việc xây dựng các hệ thống tự động khác… Không giống như công nghệ Web thông thường, nội dung chỉ bao hàm các tài nguyên văn bản, liên kết, hình ảnh, video mà Web ngữ nghĩa có thể bao gồm những tài nguyên thông tin trừu tượng hơn như: địa điểm, con người, tổ chức… thậm chí là một sự kiện trong cuộc sống Ngoài ra, liên kết trong Web ngữ nghĩa không chỉ đơn thuần là các siêu liên kết (hyperlink) giữa các tài nguyên mà còn chứa nhiều loại liên kết, quan hệ khác Những đặc điểm này khiến nội dung của Web ngữ nghĩa đa dạng hơn, chi tiết và đầy đủ hơn Đồng thời, những thông tin chứa trong Web ngữ nghĩa có một mối liên hệ chặt chẽ với nhau Với sự chặt chẽ này, người dùng dễ dàng hơn trong việc sử dụng, và tìm kiếm thông tin Đây cũng là ưu điểm lớn nhất của Web ngữ nghĩa so với công nghệ Web thông thường

Hình 1 Ví dụ về Web ngữ nghĩa [27]

Hình 1 là một ví dụ mô tả về một trang Web ngữ nghĩa chứa thông tin của một người tên

là Yo-Yo Ma Trang Web có cấu trúc như một đồ thị có hướng mang trọng số, mà mỗi đỉnh của đồ thị mô tả một kiểu tài nguyên chứa trong trang Web Các cạnh của đồ thị thể hiện một kiểu liên kết (hay còn gọi là thuộc tính của tài nguyên) giữa các tài nguyên, trọng số của các liên kết đó thể hiện tên của liên kết (tên của thuộc tính) đó Cụ thể ta thấy

Yo-Yo Ma có thuộc tính ngày sinh là “10/07/55” có nơi sinh ở “Paris, France”, “Paris,

France” có nhiệt độ là “62 F” …

Trang 12

Như vậy, mỗi tài nguyên được mô tả trong Web ngữ nghĩa là một đối tượng Đối tượng này có tên gọi, thuộc tính, giá trị của thuộc tính (giá trị có thể là một đối tượng khác) và liên kết với các tài nguyên (đối tượng) khác (nếu có) Để xây dựng được một trang Web ngữ nghĩa cần phải có tập dữ liệu đầy đủ, nói một cách khác là cần phải xây dựng một tập các đối tượng mô tả tài nguyên cho Web ngữ nghĩa Các đối có quan hệ với

nhau hình thành một mạng liên kết rộng, được gọi là mạng ngữ nghĩa

Mạng ngữ nghĩa được chia sẻ rộng khắp do vậy các đối tượng trong một mạng ngữ nghĩa cần phải mô tả theo một chuẩn chung nhất Ontology [25][23] được sử dụng để mô

tả về đối tượng, tài nguyên cho Web ngữ nghĩa

1.2.2.2 Ontology

Trong những năm gần đây, thuật ngữ “Ontology” không chỉ được sử dụng ở trong các phòng thì nghiệm trên lĩnh vực trí tuệ nhân tạo mà đã trở nên phổ biến đối với nhiều miền lĩnh vực trong đời sống Đứng trên quan điểm của ngành trí tuệ nhân tạo, một Ontology là sự môt tả về những khái niệm và những quan hệ của các khái niệm đó nhằm mục đích thể hiện một góc nhìn về thế giới Trên miền ứng dụng khác của khoa học, một Ontology bao gồm tập các từ vựng cơ bản hay một tài nguyên trên một miền lĩnh vực cụ thể, nhờ đó những nhà nghiên cứu có thể lưu trữ, quản lý và trao đổi tri thức cho nhau theo một cách tiện lợi nhất [25]

a Khái niệm và cấu trúc của Ontology

Hiện nay tồn tại nhiều khái niệm về Ontology, trong đó có nhiều khái niệm mâu thuẫn với các khác niệm khác, khóa luận này chỉ giới thiệu một định nghĩa mang tính khái quát và được sử dụng khá phổ biến được Kincho H Law đưa ra: “Ontology là biểu hiện một tập các khái niệm (đối tượng), trong một miền cụ thể và những mối quan hệ giữa các khái niệm này” [18]

Một Ontology có bốn thành phần chính: cá thể (individuals), lớp (classes), thuộc tính (attributes) và các mối quan hệ (relationships) Với cấu trúc này, Ontology được sử dụng rộng rãi như một mô hình phân lớp thông tin trong việc phát triển thông tin trên Web Ngoài ra một Taxonomy [33] có thể được coi như là một Ontology khuyết (không

có thành phần thuộc tính, tính chất trong mô tả)

Cụ thể hơn về cấu trúc của một Ontology được mô tả thông qua các thành phần của nó như sau:

• Cá thể (individuals): là một thể hiện (hay đối tượng) cụ thể của Ontology, bao gồm

đầy đủ các thuộc tính, liên kết của Ontology Một cá thể là một đối tượng thực như con người, xe cộ, động vật … nhưng cũng có thể là một khái niệm trừu tượng như chữ số, sự kiện … Về mặt lý thuyết, một Ontology có thể không có một thể hiện nào, nhưng một trong những mục đích của Ontology là cung cấp ngữ nghĩa cho những lớp cá thể riêng biệt, vì vậy thể hiện của một Ontology là cần thiết

Trang 13

• Lớp (classes): hay còn được gọi là khái niệm, kiểu hay loại, là một nhóm trừu

tượng của các đối tượng Một lớp có thể bao gồm các thể hiện của lớp đó hay bao

gồm một lớp con khác Ví dụ về một lớp Ontology như: Person (lớp mô tả về con người) , Vehicle (lớp mô tả về các phương tiện vận chuyển)…

• Thuộc tính (Attributes): Các thể hiện trong một Ontology có thể được gán cho

chúng những thuộc tính riêng, nhằm biểu thị các đặc trưng riêng và phân biệt với

các thể hiện khác Mỗi một thuộc tính của Ontology đều có hai thành phần gồm tên của thuộc tính và giá trị được gán cho thuộc tính đó Ví dụ cá thể có tên là K49HTTT có các thuộc tính sau:

• Quan hệ (relationships): Được thể hiện bằng các thuộc tính của Ontology Một

quan hệ được hình thành khi giá trị của một thuộc tính là một cá thể của một Ontology Các mối quan hệ này thể hiện sự liên kết giữa các đối tượng trong Ontology Mối quan hệ “xếp gộp” (Subsumption) là một liên kết chủ đạo trong các Ontology, thể hiện các kiểu quan hệ: là lớp cha (is_superclass_of), là (is_a), là lớp con (is_subclass_of) Với liên kết “xếp gộp” Ontology sẽ có cấu trúc như một cây phân cấp Ngoài liên kết chủ đạo trên, một Ontology cụ thể có thể có nhiều liên kết khác

Trang 14

tả một quan hệ giữa lớp Nguyên_nhân và lớp Bệnh… Trong ví dụ trên chưa có sự hiện

diện cụ thể của các cá thể (thể hiện) trong các lớp, nhưng những thể hiện cụ thể của các

lớp có thể được thêm vào bởi các chuyên gia trên lĩnh vực Y tế (ví dụ như Chuột

gây_ra dịch_hạch …)

b Ngôn ngữ mô tả tài nguyên Web ngữ nghĩa và Ontology

Một Ontology cần được mô tả bằng một cấu trúc chặt chẽ và theo những chuẩn chung nhất để người sử dụng có thể chia sẻ (với người sử dụng khác) hoặc sử dụng lại

Trang 15

những Ontology đã có sẵn Trong phần này trình bày về RDF (Resource Description Framework )[30] một framework cho việc mô hình hóa, mô tả tài nguyên trên Web và OWL [38] (Web Ontology Language) đang được sử dụng rộng rãi hiện nay

• RDF – Resouce Description Framework : là một mô hình được W3C đề xuất là mở rộng của công nghệ XML [37] với mục tiêu đưa đưa ra một chuẩn chung trong việc mô hình hóa và mô tả các tài nguyên trên Web Ngoài ra RDF còn là một cấu trúc để thể hiện dữ liệu

RDF có tập các từ khóa, tập ngữ pháp và tập luật riêng được giới thiệu cụ thể ở [39]

Ví dụ mô tả về tài nguyên http://www.coltech.vnu.edu.vn/courses bằng RDF như sau:

• OWL (Web Ontology Language) : là một ngôn ngữ biểu diễn tri thức dựa trên

RDF, được xây dựng để mô tả Web ngữ nghĩa OWL có những đặc điểm sau:

o OWL là một chuẩn của Web

o OWL được viết dưới dạng XML

o OWL dùng để xử lý thông tin trên Web

o OWL là một ngôn ngữ được thông dịch bởi máy tính

Về cơ bản OWL và RDF có nhiều đặc điểm giống nhau, tuy nhiên OWL có tập từ vựng (từ khóa) lớn hơn RDF, và là một ngôn ngữ được máy tính thông dịch tốt hơn RDF OWL được chia thành ba loại khác nhau, đáp ứng với từng nhu cầu sử dụng

Trang 16

(3) OWL full : Hướng tới những người dùng đòi hỏi tối đa những tính năng của OWL mà không bị ràng buộc bởi cấu trúc ngữ pháp phức tạp OWL full có cấu trúc lỏng lẻo như RDF, ví dụ : một lớp trong OWL full có thể đồng thời được coi như là một tập các thể hiện hoặc là một thể hiện của chính lớp đó

Giữa ba loại của ngôn ngữ OWL có quan hệ bao hàm nhau Tức là: tất các các qui tắc cấu trúc hợp lệ của OWL lite thì đều hợp lệ với OWL dl, và mọi qui tắc, cấu trúc hợp lệ của OWL dl thì đều hợp lệ với OWL full

Một ví dụ về OWL lite:

Với OWL việc truy xuất, xử lý và chia sẻ Ontology giữa những người sử dụng trở nên dễ dàng hơn Nhờ đó giảm bớt những khó khăn khi xây dựng cơ sở tri thức và nguồn tài nguyên cho Web ngữ nghĩa, tạo tiền đề cho Web ngữ nghĩa phát triển

< owl:Ontology rdf:about= "" >

< owl:versionInfo >Version 0.1</ owl:versionInfo >

< rdfs:comment >Countries Ontology, Created by Jenz & Partner GmbH, Version 0.1, 28-FEB-2004</ rdfs:comment >

Trang 17

1.2.2 Kiến trúc cơ bản của một máy tìm kiếm ngữ nghĩa

Xét về cơ bản, một máy tìm kiếm ngữ nghĩa có cấu trúc tương tự với một máy tìm kiếm thông thường cũng bao gồm hai thành phần chính:

(1) Phần giao diện người dùng (front end) có hai chức năng chính:

- Giao diện truy vấn: cho phép người dùng nhập câu hỏi, truy vấn

- Hiển thị câu trả lời, kết quả

(2) Phần kiến trúc bên trong (back end) là phần hạt nhân của máy tìm kiếm bao gồm

ba thành phần chính đó là:

- Phân tích câu hỏi

- Tìm kiếm kết quả cho truy vấn hay câu hỏi

- Tập tài liệu, dữ liệu tìm kiếm/ mạng ngữ nghĩa

Sự khác biệt trong cấu trúc của máy tìm kiếm ngữ nghĩa so với máy tìm kiếm thông thường nằm ở phần kiến trúc bên trong, cụ thể ở hai thành phần: phân tích câu hỏi và tập

dữ liệu tìm kiếm

Về cơ bản, một máy tìm kiếm có kiến trúc như sau:

Hình 3 Sơ đồ của máy tìm kiếm ngữ nghĩa

Mạng ngữ nghĩa

Semantic

Web/Ontology

Search Services

1.Nhập truy vấn

5.Kết quả trả về

2.Phân lớp câu hỏi

3.Biển đổi dạng câu hỏi

4.Tìm kiếm

Trang 18

1.2.2.3 Giao diện người dùng

Như đã giới thiệu ở trên, giao diện người dùng có hai chức năng đó là cho phép người dùng nhập câu hỏi hoặc truy vấn tìm kiếm và hiện thị kết quả trả về So với các máy tìm kiếm thông thường thì phần này không có sự khác biệt lớn và có thể tùy biến, thay đổi dễ dàng Tuy vậy, để phục vụ cho mục đích là tìm kiếm ngữ nghĩa, phía giao diện người dùng cần cung cấp cho người sử dụng những lựa chọn khi tìm kiếm:

• Cung cấp lựa chọn tìm kiếm theo từng miền lĩnh vực cụ thể, nếu một máy tìm kiếm ngữ nghĩa có cơ sở tìm kiếm ngữ nghĩa bao gồm nhiều lĩnh vực

• Gợi ý các từ để hỏi ví dụ như (what, where, when…) khi người dùng nhập câu hỏi Điều này giúp ích cho việc phân lớp câu hỏi và giới hạn được loại câu trả lời phù hợp cho truy vấn người dùng đưa vào, tiết kiệm thời gian tìm kiếm

1.2.2.4 Kiến trúc bên trong

Như mô tả ở hình 3, các thành phần của kiến trúc bên trong bao gồm bốn module chính:

phân lớp câu hỏi, biến đổi dạng câu hỏi, tìm kiếm và mạng ngữ nghĩa

Các bước xử lý một câu hỏi/truy vấn của người dùng như sau:

- Bước (1) người dùng nhập câu hỏi/ truy vấn của mình ở giao diện

- Bước (2) câu hỏi/ truy vấn ở (1) đưa qua bộ phân tích câu hỏi để xác định câu hỏi thuộc về lĩnh vực miền nào và thuộc về phần nào trong lĩnh vực đó Ví dụ câu hỏi “Bệnh Lao phổi chữa như thế nào?” được phân về domain Y tế

- Bước (3) câu hỏi được biển đổi về dạng chuẩn (biểu thức logic) để có thể tiến hành tìm kiếm

- Bước (4) câu hỏi/truy vấn được tìm kiếm trên mạng ngữ nghĩa của máy tìm kiếm

- Bước (5) hiện thị kết quả trả về của câu hỏi/truy vấn đưa vào

Một máy tìm kiếm ngữ nghĩa sẽ xử lý câu hỏi của người dùng qua năm bước cơ bản như trên Và tùy thuộc vào từng đặc điểm của loại máy tìm kiếm định xây dựng, mà có thể có thêm những module khác Ví dụ một số máy tìm kiếm có có phần lựa chọn câu trả lời thích hợp nhất do người dùng lựa chọn nhằm xây dựng tập câu trả lời mẫu

a Phân lớp câu hỏi

Phân lớp câu hỏi là một trong hai thành phần quan trọng nhất của một máy tìm kiếm ngữ nghĩa Phần này đảm nhiệm vai trò phân loại câu hỏi theo chủ đề và lĩnh vực Quá trình phân lớp có thể tiến hành qua hai bước:

(1) Phân lớp xác định miền câu hỏi: Yêu cầu này xuất phát từ cơ sở dữ liệu của máy

tìm kiếm ngữ nghĩa (mạng ngữ nghĩa) Các mạng này về cơ bản được xây dựng từ các Ontology, mà Ontology được xây dựng theo từng miền lĩnh vực riêng rẽ Do vậy cần tiến hành phân loại truy vấn theo miền câu hỏi nhằm xác định miền

Trang 19

Ontology của câu hỏi để giới hạn không gian tìm kiếm, giảm thời gian tìm kiếm Phân lớp miền câu hỏi có ảnh hưởng quyết định tới chất lượng của kết quả trả về Một ví dụ minh chứng cho điều này: Giả sử người dùng đưa vào câu hỏi : “bệnh sởi có chữa được không” và cơ sở mạng ngữ nghĩa trong máy tìm kiếm bao gồm 4 miền : Y tế, Du lịch, Văn hóa và Chính trị Qua bộ phân lớp miền câu hỏi, nếu kết quả trả về là thuộc miền Y tế thì máy tìm kiếm sẽ đưa ra kết quả trả lời phù hợp hơn, còn nếu xác định một miền miền khác không phải Y tế thì sẽ không có kết quả trả hoặc sai về mặt ý nghĩa

(2) Phân loại loại câu hỏi trong một miền: cấu trúc nội tại của một Ontology có sự

phân cấp rất lớn: một Ontogy được chia thành nhiều phần, nhiều tầng, lớp bao hàm nhau, mỗi tầng của Ontology cũng có thể coi là một miền nhỏ bao hàm một miền tri thức nhỏ có mối quan hệ mật thiết với nhau Do đó để có thể tối ưu tìm kiếm còn cần phân lớp trên nội tại một miền Bước này tiến hành phân lớp câu hỏi trên nội tại một miền, phân lớp câu hỏi theo những lĩnh vực khác nhau của một miền Chúng ta coi Ontology là một cây có cấu trúc phân tầng, mỗi lớp trong Ontology

sẽ thuộc một tầng nhất định, và trong mỗi tầng các đối tượng có độ liên quan đến nhau lớn, và độ liên quan này giảm đi khi các đối tượng ở những tầng khác nhau Tiến hành phần loại nội miền chính là việc chỉ ra câu hỏi người dùng đưa vào thuộc tầng nào hoặc cụm nào của Ontology Bước này làm giới hạn tối đa không gian tìm kiếm, mang lại kết quả chính xác hơn và nhanh hơn

Sự khác biết giữa phân loại miền câu hỏi và phân loại nội miền chỉ ở không gian phân loại Trong khi phân loại miền câu hỏi không gian là toàn bộ tập Ontology của mạng ngữ nghĩa,thì phân loại nội miền tiến hành trên một miền Ontology cụ thể, còn về thuật toán tiến hành phân loại thì như nhau

Phụ thuộc vào máy tìm kiếm ngữ nghĩa cần xây dựng, mà một trong hai bước phân loại câu hỏi trên có thể được bỏ qua Ví dụ: khi xây dựng một hệ thống tìm kiếm ngữ nghĩa cho một miền cụ thể (hệ thống hỏi đáp) thì việc phân loại miền câu hỏi là không cần thiết, chỉ cần thiết phân loại nội miền

Hiện nay đã có nhiều phương pháp để phân lớp câu hỏi trong đó nổi bật là hai hướng tiếp cận: dựa vào biểu thức chính qui (regular expression) và hướng tiếp cận dựa trên xác suất Mỗi phương pháp có những ưu và nhược điểm riêng Với hướng tiếp cận biểu thức chính qui, câu hỏi đưa vào được so sánh các mẫu câu hỏi có sẵn, do đó phương pháp này đòi hỏi các chuyên gia khi xây dựng bộ câu hỏi mẫu và thường khó xác định hết được các trường hợp nhập nhằng nên kết quả phân lớp câu hỏi thường không được như ý muốn…

Cụ thể về các phương pháp sẽ được trình bày ở chương 3

Trang 20

b Biến đổi dạng câu hỏi

Theo Maria Vargas-Vera, Enrico Motta và John Domingue [21], sau khi qua bộ phân lớp câu hỏi truy vấn của người dung được chuyển từ dạng ngôn ngữ tự nhiên sang dạng ngôn ngữ lo-gic (Question Logic Language - QLL)

QLL là một ngôn ngữ thể hiện câu hỏi/ truy vấn thuộc ngôn ngữ tự nhiên theo dạng logic học Mỗi một câu thuộc QLL chứa các terms (biểu thức, biến, thủ tục…) của ngôn ngữ Prolog , nói một các khác QLL là một ngôn ngữ con của Prolog [5]

Theo [21] có một số qui tắc khi chuyển đổi từ một câu S1 ở dạng ngôn ngữ tự nhiên sang câu S2 thuộc QLL như sau:

(1) Một danh từ đơn (theo đơn vị từ) của S1 sẽ tạo nên một vị từ đơn trong S2 Ví dụ:

S1 “ Hà Nội là thành phố vì hòa bình”, thì trong S2 sẽ chứa vị từ sau

thành_phố(Hà Nội)

(2) Cụm danh từ của S1 tạo nên một vị phức trong S2 với số tham số bằng số lượng từ đơn chứa trong cụm danh từ của S1 cộng thêm 1 Ví dụ S1 “Số lượng sinh viên của

số_lượng_sinh_viên(đại_học_công_nghệ, X) ở đây X là số lượng sinh viên

(3) Một động từ của S1 sẽ tạo nên một vị từ phức với một hoặc nhiều tham số, tham

số đầu tiên là chủ ngữ của S1, tham số thứ hai là vị ngữ chính của S1, tham số thứ

ba là vị ngữ phụ của S1 (nếu có), tham số thứ tư là các bổ ngữ (nếu có)… Ví dụ:

S1 “Torres ghi bàn vào lưới ManU”, thì S2 sẽ chứa vị từ ghi_bàn(Torres, ManU)

(4) Một giới từ trong S1 tạo nên một vị từ phức với hai tham số là hai từ được nối bởi giới từ đó Ví dụ S1 “Cái bút nằm trên bàn học”, S2 sẽ chứa vị từ

nằm_trên(bút,bàn_học)

(5) Một tính từ định tính có thể tạo nên một vị từ với một hoặc hai tham số Ví dụ S1

“diện tích của Hà nội là bao nhiêu?” trong S2 sẽ chứa vị từ diện_tích(Hà_Nội, X)

– X là diện tích

Với 5 qui tắc biến đổi trên, một câu hỏi bất kỳ đều được chuyển sang dạng QLL, với lợi thế về suy luận và tối ưu xử lý, câu hỏi dưới dạng QLL sẽ mang lại tốc độ tốt hơn và mang đặc thù ngữ nghĩa nhiều hơn

c Tìm kiếm câu trả lời

Sau khi câu hỏi/truy vấn của người dùng được chuyển sang dạng QLL, hệ thống tiến hành tìm kiếm câu trả lời sẽ được thực hiện qua các phép toán logic với dữ liệu là các Ontology (mạng ngữ nghĩa) được xây dựng từ trước

Giả sử S2 là một câu truy vấn dạng QLL, hệ thống cần tìm ra câu trả lời cho S2 Chiến lược giải quyết như sau:

Trang 21

(1) Với mỗi một vị từ trong S2, xác định Ontology để tìm kiếm (sử dụng kết quả từ bước phân lớp câu hỏi ở trên), tìm ra đối tượng chứa câu trả lời từ tập các đối tượng thuộc miền Ontology đã chỉ ra, trong đó:

o Đối tượng chứa câu trả lời phải có một thuộc tính có độ tương đồng với một

trong các tham số của vị từ Ví dụ: với vị từ diện_tích(Hà_Nôi), trong Ontology về địa lý đối tượng chứa câu trả lời sẽ là thành_phố.Hà_Nội - ở

đây có sự tương đồng về tên của đối tượng với tham số của vị từ

o Thông tin trả lời cho vị từ hoặc thông tin về vị từ được mô tả bằng tên gọi của lớp hay bằng thuộc tính của một lớp có trong Ontology Ví dụ : với vị từ

diện_tích (Hà_Nội) thì câu trả lời được chứa trong một thuộc tính của đối

tượng thành_phố.Hà_Nội

(2) Lặp lại bước (1) cho đến khi tìm được đối tượng chứa thông tin trả lời, hoặc đã tìm qua tất cả các đối tượng mà không có câu trả lời Vị từ nào không đưa lại kết quả (không xác định được giá trị) sẽ được loại bỏ ra khỏi S2 Câu trả lời của truy vấn sẽ

là phép tính tổ hợp giá trị của các vị từ

Thay vì đưa ra câu trả lời chính xác hoặc khi không tìm được câu trả lời chính xác cho câu hỏi đưa vào, hệ thống có thể trả về thông tin của đối tượng được xác định là có thể trả lời cho câu hỏi

d Mạng ngữ nghĩa

Mạng ngữ nghĩa là cơ sở dữ liệu cho hệ thống tìm kiếm ngữ nghĩa Về cơ bản, một mạng ngữ được hình thành từ một tập các thông tin mang ngữ nghĩa có quan hệ với nhau

có thể là tập các Ontology hay tập các trang Web ngữ nghĩa

Với các máy tìm kiếm thông thường, cơ sở dữ liệu cho tìm kiếm được thu thập tự động từ các trang Web hiện có trên internet Và quá trình xử lý các thông tin của các trang Web lấy về không gặp nhiều khó khăn Trái lại, đối với máy tìm kiếm ngữ nghĩa thì công việc xây cơ sở cho tìm kiếm không đơn giản bởi hai nguyên nhân sau:

• Số lượng các trang Web ngữ nghĩa còn hạn chế

• Việc xây dựng Ontology cho từng miền đòi hỏi sự hợp tác của nhiều chuyên gia miền trong thời gian lớn

Hiện nay có một số công cụ hỗ trợ việc xây dựng Ontology như: Protégé hay GATE…

Trang 22

Chương 2 Tìm kiếm ngữ nghĩa trong tiếng Việt

2.1 Tổng quan về cơ sở cho tìm kiếm ngữ nghĩa tiếng Việt

Từ cấu trúc cơ bản của một hệ thống tìm kiếm ngữ nghĩa đã được trình bày ở trên cho thấy để xây dựng được một hệ thống tìm kiếm ngữ nghĩa trong tiếng Việt trước tiên phải giải quyết hai bai toán:

(1) Xây dựng bộ phân lớp câu hỏi tiếng Việt

(2) Xây dựng một mạng ngữ nghĩa tiếng Việt

Hai bài toán trên đều chịu sự chi phối của yếu tố ngôn ngữ Tiếng Việt có những đặc trưng riêng biệt về: chữ viết – chính tả, âm tiết và từ … do vậy đối với bài toán (1) và (2) phải tích hợp được những đặc trưng này

Hiện nay chưa có hệ thống tìm kiếm ngữ nghĩa tiếng Việt nào được công bố Nguyên nhân chính là do tập cơ sở dữ liệu về ngữ nghĩa tiếng Việt còn ít không như tiếng Anh, Pháp… Trên thế giới có rất nhiều tổ chức, viện nghiên cứu, trường đại học đã đưa ra các Ontology trong những miền lĩnh vực khác nhau, có thể kể đến như:

• Miền Y tế có các Ontology như : Semantic Mining1 một Ontology về khai phá dữ liệu trong Y tế, hay Disease Ontology là Ontology về các từ khóa chuyên ngành y khoa được phát triển bởi khoa Tin sinh tại Center for Genetic Medicine2

• Miền thương mại, kinh doanh: điển hình là Ontology-Based Business Process Management được nghiên cứu và phát triển bởi Jenz & Partner GmbH [16]

• Miền khoa học phổ thông: có Ontology về vật lý (Physical-Concepts được phát triển bởi Laboratory for Applied Ontology3)…

• Và nhiều miền lĩnh vực khác

Có một số ít Ontolgy được công bố, điển hình là Ontology VN–KIM [4] Ontology này bao gồm 347 lớp thực thể và 114 quan hệ và thuộc tính Cơ sở tri thức của VN-KIM là một tập hợp các thực thể có tên phổ biến ở Việt Nam và Quốc tế, các thực thể chủ yếu thuộc các miền như:

- Con người (Các nhà lãnh đạo quốc gia, giám đốc công ty, bác sỹ, nhà giáo, văn nghệ sỹ…)

- Tổ chức, công ty (Các tổ chức xã hội, giáo dục, công ty…)

Trang 23

- Đơn vị hành chính (các tỉnh, thành phố, quận, huyện, phường, xã ở Việt Nam và các thành phố lớn trên thế giới)

- Sông, núi (các sông, núi lớn ở Việt Nam và trên thế giới)

- Đường (các đường ở TPHCM, Hà Nội, các tỉnh lộ, quốc lộ)

Điều này cho thấy, tập các Ontology miền trong Tiếng Việt còn ít, đây là một trong những khó khăn cần giải quyết để sớm, tạo tiền đề phát triển những hệ thống mang ngữ nghĩa

2.2 Một số đặc trưng của tiếng Việt

Tiếng Việt thuộc ngôn ngữ đơn lập, tức là mỗi một tiếng (âm tiết) được phát âm tách rời nhau và được thể hiện bằng một chữ viết Đặc điểm này thể hiện rõ rệt ở tất cả các mặt ngữ âm, từ vựng, ngữ pháp Dưới đây trình bày một số đặc điểm của tiếng Việt theo các tác giả ở Trung tâm ngôn ngữ học Việt Nam đã trình bày [3]

2.2.1 Đặc điểm ngữ âm

Tiếng Việt có một loại đơn vị đặc biệt gọi là "tiếng", về mặt ngữ âm, mỗi tiếng là một

âm tiết Hệ thống âm vị tiếng Việt phong phú và có tính cân đối, tạo ra tiềm năng của ngữ

âm tiếng Việt trong việc thể hiện các đơn vị có nghĩa Nhiều từ tượng hình, tượng thanh

có giá trị gợi tả đặc sắc Khi tạo câu, tạo lời, người Việt rất chú ý đến sự hài hoà về ngữ

âm, đến nhạc điệu của câu văn

2.2.2 Đặc điểm từ vựng:

Mỗi tiếng nói chung là một yếu tố có nghĩa Tiếng là đơn vị cơ sở của hệ thống các đơn vị có nghĩa của tiếng Việt Từ tiếng, người ta tạo ra các đơn vị từ vựng khác để định danh sự vật, hiện tượng , chủ yếu nhờ phương thức ghép và phương thức láy

Việc tạo ra các đơn vị từ vựng ở phương thức ghép luôn chịu sự chi phối của quy luật kết hợp ngữ nghĩa, ví dụ: đất nước, máy bay, nhà lầu xe hơi, nhà tan cửa nát Hiện nay, đây là phương thức chủ yếu để sản sinh ra các đơn vị từ vựng Theo phương thức này, tiếng Việt triệt để sử dụng các yếu tố cấu tạo từ thuần Việt hay vay mượn từ các ngôn ngữ

khác để tạo ra các từ, ngữ mới, ví dụ như tiếp thị, karaoke, thư điện tử (e-mail), thư thoại (voice mail), phiên bản (version), xa lộ thông tin, siêu liên kết văn bản, truy cập ngẫu nhiên, v.v

Việc tạo ra các đơn vị từ vựng ở phương thức láy thì quy luật phối hợp ngữ âm chi

phối chủ yếu việc tạo ra các đơn vị từ vựng, chẳng hạn như chôm chỉa, chỏng chơ, đỏng

đa đỏng đảnh, thơ thẩn, lúng lá lúng liếng, v.v

Vốn từ vựng tối thiểu của tiếng Việt phần lớn là các từ đơn tiết (một âm tiết, một tiếng) Sự linh hoạt trong sử dụng, việc tạo ra các từ ngữ mới một cách dễ dàng đã tạo điều kiện thuận lợi cho sự phát triển vốn từ, vừa phong phú về số lượng, vừa đa dạng trong hoạt động Cùng một sự vật, hiện tượng, một hoạt động hay một đặc trưng, có thể

có nhiều từ ngữ khác nhau biểu thị Tiềm năng của vốn từ ngữ tiếng Việt được phát huy cao độ trong các phong cách chức năng ngôn ngữ, đặc biệt là trong phong cách ngôn ngữ

Trang 24

nghệ thuật Hiện nay, do sự phát triển vượt bậc của khoa học-kĩ thuật, đặc biệt là công nghệ thông tin, thì tiềm năng đó còn được phát huy mạnh mẽ hơn

2.2.3 Đặc điểm ngữ pháp:

Từ của tiếng Việt không biến đổi hình thái Đặc điểm này sẽ chi phối các đặc điểm ngữ pháp khác Khi từ kết hợp từ thành các kết cấu như ngữ, câu, tiếng Việt rất coi trọng phương thức trật tự từ và hư từ

Việc sắp xếp các từ theo một trật tự nhất định là cách chủ yếu để biểu thị các quan hệ cú pháp Trong tiếng Việt khi nói “Anh ta lại đến” là khác với “Lại đến anh ta” Khi các từ cùng loại kết hợp với nhau theo quan hệ chính phụ thì từ đứng trước giữ vai trò chính, từ đứng sau giữ vai trò phụ Nhờ trật tự kết hợp của từ mà "củ cải" khác với "cải củ", "tình cảm" khác với "cảm tình" Trật tự chủ ngữ đứng trước, vị ngữ đứng sau là trật tự phổ biến của kết cấu câu tiếng Việt

Phương thức hư từ cũng là phương thức ngữ pháp chủ yếu của tiếng Việt Nhờ hư từ mà

tổ hợp “anh của em” khác với tổ hợp “anh và em”, “anh vì em” Hư từ cùng với trật tự từ cho phép tiếng Việt tạo ra nhiều câu cùng có nội dung thông báo cơ bản như nhau nhưng khác nhau về sắc thái biểu cảm Ví dụ, so sánh các câu sau đây:

- Ông ấy không hút thuốc

- Thuốc, ông ấy không hút

- Thuốc, ông ấy cũng không hút

Ngoài trật tự từ và hư từ, tiếng Việt còn sử dụng phương thức ngữ điệu Ngữ điệu giữ vai trò trong việc biểu hiện quan hệ cú pháp của các yếu tố trong câu, nhờ đó nhằm đưa ra nội dung muốn thông báo Trên văn bản, ngữ điệu thường được biểu hiện bằng dấu câu Sự khác nhau trong nội dung thông báo được nhận biệt khi so sánh hai câu sau:

- Đêm hôm qua, cầu gãy

- Đêm hôm, qua cầu gãy

Qua một số đặc điểm nổi bật vừa nêu trên đây, chúng ta có thể hình dung được phần nào bản sắc và tiềm năng của tiếng Việt

2.3 Tìm kiếm ngữ nghĩa trong lĩnh vực y tế

Trong phần này, khóa luận sẽ trình bày những bước đầu của việc xây dựng một máy tìm kiếm ngữ nghĩa trên lĩnh vực Y tế cho tiếng Việt

2.3.1 Ontology Y tế trong tiếng Việt

Với các dữ liệu về y tế thu thập được từ các trang Web và Ontology BioCaster [1], tiến hành liệt kê các thuật ngữ (term) quan trọng nhằm có thể nêu định nghĩa cho người dùng với hướng nghiên cứu tiếp theo là tự động liên kết đến các định nghĩa có sẵn trên

Trang 25

trang wikipedia Từ các thuật ngữ trên, sẽ định nghĩa các thuộc tính của chúng Việc xây dựng Ontology là một quá trình lặp lại được bắt đầu bằng việc định nghĩa các khái niệm trong hệ thống lớp và mô tả thuộc tính của các khái niệm đó Qua khảo sát Ontology BioCaster với các thuật ngữ trong tiếng Việt, cùng với một số luợng lớn các trang Web về

y tế hiện nay ở Việt Nam, chúng tôi đã xây dựng nên một tập các thuật ngữ, các mối quan

hệ cơ bản nhất để từ đó để xuất ra Ontology thử nghiệm ban đầu, với những khái niệm cơ bản sau:

- Thuốc: bao gồm hai loại Đông y và Tây y Ví dụ, thuốc 5-Fluorouracil Ebewe chống ung thư (ung thư đại trực tràng, vú, thực quản, dạ dày), hay là thuốc Ciloxan sát trùng, chống nhiễm khuẩn ở mắt Thuốc đông y ngũ gia bì chữa bệnh phong thấp, tráng gân cốt …

- Bệnh, hội chứng: Các loại bệnh như cúm gà, viêm loét dạ dày, các hội chứng mất ngủ, suy tim …

- Triệu chứng : Ví dụ như triệu chứng của cúm H5N1 là sốt cao, nhức đầu, đau mỏi toàn thân,

- Nguyên nhân: Tác nhân (virut, vi khuẩn muỗi, gà, chim ), và các nguyên khác như là thiếu ngủ, lười tập thể dục, hút thuốc lá thụ động …

- Thực phẩm: Bao gồm các món ăn có lợi hoặc gây hại cho sức khỏe con nguời cũng như phù hợp với một số loại bệnh nào đó

- Người: Bao gồm bác sỹ, giáo sư mà người bệnh có thể tìm kiếm để khám bênh, xin giúp đỡ khi mắc bệnh

- Tổ chức: Bệnh viện, phòng khám, hiệu thuốc … là các địa điểm để bệnh nhân có thể tìm đến khi mắc bệnh

- Địa điểm: Địa chỉ của một tổ chức nào đó mà bệnh nhân có thể tìm đến, các nơi dịch đang phát sinh và lan rộng

- Cơ thể người: Là tất cả các bộ phận cơ thể người có thể thể bị nhiễm bệnh: mắt, mũi, gan, tim …

- Hoạt động: Chẩn trị, xét nghiệm, hồi cứu, hô hấp nhân tạo, phòng tránh, tiêm phòng

- Hóa chất: Vitamin, khoáng chất …gây tác động xấu, tốt đến cơ thể con người, ví

dụ vitamin A có lợi cho mắt, Vitamin C, E làm giảm các nguy cơ bệnh tim… Giữa các khái niệm cơ bản trên có các mỗi quan hệ như sau:

- Sự tương tác thuốc – thuốc : Thuốc này có thể gây tác dụng phụ cho thuốc kia,

hay có thể kết hợp các loại thuốc với nhau để chữa bệnh Ví dụ thuốc chống ung

Trang 26

thư Alexan không nên dùng chung với methotrexate hay 5-fluorouracil

<tương_tác_thuốc>

có rủi ro mắc các bệnh rối loạn trao đổi chất, tăng vòng bụng, tăng huyết

áp…<tác_động>

- Quan hệ bệnh – thuốc: <chữa_bằng>(<chữa>)

- Quan hệ nguyên nhân gây ra bệnh, hay bệnh có nguyên nhân: <gây_ra> (<bị_gây_ra_bởi>)

- Quan hệ bệnh – triệu chứng: <biểu_hiện_bởi> (<liên_quan>)

- Quan hệ bệnh biến chứng thành bệnh khác: <biến_chứng>

Ví dụ minh họa thể hiện Mô hình của Ontology Y tế này ở hình 2

2.3.2 Bộ phân lớp câu hỏi Y tế trong tiếng Việt

Với Ontology Y tế giới thiệu ở phần trên, để giải quyết được hai bài toán mang đặc trưng của tiếng Việt cần xây dựng một bộ phân lớp câu hỏi Y tế trong tiếng Việt Bộ phân lớp câu hỏi này là bộ phân lớp nội miền (trong miền Ontology Y tế), tức là với các câu hỏi/truy vấn của người dùng đưa vào, bộ phân lớp phải xác định chúng thuộc về các khái niệm nào Chương 3 sẽ cụ thể hóa các phương pháp phân lớp câu hỏi

Trang 27

Chương 3 Các phương pháp phân lớp câu hỏi

3.1 Giới thiệu về phân lớp câu hỏi

Trong hầu hết các hệ thống tìm kiếm ngữ nghĩa, bước đầu tiên là xử lý câu hỏi nhằm xác định câu hỏi đó hỏi về cái gì? Phân chia truy vấn của người dùng ra thành một số lớp định nghĩa trước như hỏi địa điểm (ở đâu ?), thời gian (khi nào ?)… Thông thường ở phần lớn các trường hợp để xác định được điều này, hệ thống thường sử dụng một số thông tin hay đặc trưng của câu hỏi để xác định kiểu của câu trả lời Ví dụ với câu hỏi “ai là người phát hiện ra vacxin phòng bệnh dại?” thì mục đích của câu hỏi là muốn tìm hiểu thông tin

về một người Hệ thống cần xác định được kiểu của câu trả lời (trong ví dụ này là thông tin về một người) để có thể trả về thong tin mong muốn cho người dùng

Trong các hệ thống tìm kiếm ngữ nghĩa, đối tượng được tìm kiếm là các thông tin mang ngữ nghĩa, do vậy việc phân lớp câu hỏi còn được gọi là phân lớp ngữ nghĩa cho câu hỏi (semantic question classification) có hai vai trò quan trọng sau đây:

(1) Giảm không gian tìm kiếm, chẳng hạn với câu hỏi “thuốc nào chữa bệnh viêm họng?” hệ thống chỉ cần tìm kiếm trên các lớp thuốc của miền Y tế để có câu trả lời, thay vì tìm kiếm trên toàn bộ cơ sở dữ liệu

(2) Nâng cao độ chính xác của câu trả lời

Đối với các hệ thống tìm kiếm ngữ nghĩa lớn tìm kiếm trên nhiều miền Ontology, thường

có bộ phân lớp câu hỏi kép gồm :

(1) phân lớp để xác định miền Ontology của câu hỏi (phân lớp nội miền)

(2) phân lớp để xác định câu hỏi thuộc lĩnh vực nào (lớp nào) trong miền Ontology đã

xác định ở phân lớp nội miền

Ngược lại đối với các máy tìm kiếm ngữ nghĩa trên một miền Ontology, chỉ cần xây dựng

bộ phân lớp đơn (2)

3.2 Các phương pháp phân lớp câu hỏi

Hiện nay, có một số nghiên cứu tập trung vào hướng tiếp cận biểu thức chính qui dựa vào những luật ngữ pháp viết tay (hand-written grammar rulers) để xác định lớp của câu hỏi đầu vào như các tác giả B., Huang, Y., Kupsc, A và Nyberg, E năm 2003 [35] giới thiệu Mặc dù hướng tiếp cận này cũng đạt được những thành công đáng kể, nhưng vẫn có những hạn chế mà đã được Li, Roth 2002[19] và Hacioglu, Ward 2003[16] chỉ ra

Trang 28

Cụ thể, các tác giả [14] đã chỉ ra bốn hạn chế của hướng tiếp cận này:

(1) Xây dựng mô hình cho phương pháp này rất tốn thời gian và công sức, cần có sự cộng tác của những chuyên gia trong lĩnh vực ngôn ngữ học khi xây dựng các mẫu câu hỏi và văn phạm cho từng loại câu hỏi đó

(2) Các luật ngữ pháp viết tay và văn phạm của từng loại câu hỏi rất cứng nhắc, không linh động Khi một dạng câu hỏi mới xuất hiện, mô hình theo hướng này không thể

xử lý Muốn xử lý được mô hình cần phải được cung cấp những luật mới

(3) Vấn đề nhập nhằng của các văn phạm ngữ pháp rất khó xử lý, kiểm soát và phụ thuộc vào đặc điểm của từng ngôn ngữ

(4) Khi tập câu trả lời được mở rộng hoặc thay đổi kéo theo việc phải viết lại hoàn toàn các luật trước đó nên hệ thống rất khó mở rộng

Với các hạn chế như trên dẫn đến số lớp của bộ phân lớp theo hướng này là nhỏ (khoảng 8-10 lớp) không thích hợp khi tích hợp vào một hệ thống tìm kiếm ngữ nghĩa có qui mô lớn

Một hướng tiếp cận khác để giải quyết bài toán phân lớp câu hỏi là theo hướng tiếp cận xác suất được Jonathan Brown năm 2004 tổng hợp lại [15], bao gồm hai cách tiếp cận chính đó là:

(1) Tiếp cận theo hướng học máy (machine learning)

(2) Tiếp cận theo mô hình ngôn ngữ (language modeling)

Không giống như hướng tiếp cận biểu thức chính quy (thực hiện việc so sánh mẫu), các phương pháp theo hướng tiếp cận dựa trên xác suất sẽ xây dựng một mô hình phân lớp tự động từ tập dữ liệu học cho trước Các thuật toán của hướng tiếp cận này sẽ tính toán xác suất phân lớp cho câu hỏi vào dựa trên những đặc trưng hay những mối quan hệ của các

từ trong câu hỏi/truy vấn đưa vào Nhờ đó phương pháp này khắc phục những nhược điểm của hướng tiếp cận biểu thức chính quy [15] Do vậy, hướng tiếp cận này không những phù hợp với các hệ thống tìm kiếm ngữ nghĩa lớn mà còn phù hợp với các hệ thống nhỏ hơn (do khả năng linh hoạt cao dễ dàng mở rộng tập dữ liệu và số phân lớp)

Khóa luận sẽ tập trung trình bày các phương pháp phân lớp câu hỏi dựa trên hướng tiếp cận xác suất để xây dựng bộ phân lớp câu hỏi trong Tiếng Việt

3.3 Hướng tiếp cận dựa trên xác suất

Bên cạnh hướng tiếp cận dựa trên biểu thức chính quy thì hướng tiếp cận dựa trên xác suất cũng là một hướng tiếp cận được nhiều nhà khoa học lựa chọn khi nghiên cứu về phân lớp câu hỏi Như đã được giới thiệu, hướng tiếp cận dựa trên xác suất bao gồm hai hướng con là hướng học máy và hướng dựa trên mô hình ngôn ngữ [15]

Hướng tiếp cận học máy sử dụng những thuật toán và kỹ thuật cho phép máy tính có thể “học” 1 được Cụ thể, trong bài toán phân lớp câu hỏi hướng tiếp cận học máy sử dụng các thuật toán như : Support Vector Machines (SVM), láng giềng gần nhất (Nearest

Tiêu đề	Phân lớp câu hỏi hướng tới tìm kiếm ngữ nghĩa tiếng Việt trong lĩnh vực y tế
Tác giả	Nguyễn Minh Tuấn
Người hướng dẫn	PGS. TS. Hà Quang Thụy, Th.S Nguyễn Việt Cường
Trường học	Đại học Quốc gia Hà Nội Trường Đại học Công nghệ
Chuyên ngành	Công nghệ thông tin
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2008
Thành phố	Hà Nội

Định dạng
Số trang	56
Dung lượng	724,77 KB