XÂY DỰNG WEBSITE ỨNG DỤNG CHƯƠNG TRÌNH tư vấn DU LỊCH

Mục tiêu của luận văn này là xây dựng được một hệ thống tư vấn du lịch thông minh dựa trên các giải thuật tính toán và tìm kiếm tour phù hợp trên nền tảng ứng dụng web... Để làm được điề

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Trang 2

TRƯỜNG ĐẠI HỌC

CÔNG NGHỆ THÔNG TIN

Độc lập – Tự do – Hạnh phúc

-

BÁO CÁO LUẬN VĂN THẠC SỸ

Họ và tên giảng viên hướng dẫn: PGS.TS QUẢN THÀNH THƠ

Cơ quan công tác: Trường Đại học Bách Khoa

Đề tài luận văn đối với học viên cao học ngành: Công nghệ thông tin

1 Tên hướng nghiên cứu: Khai phá dữ liệu

2 Tên đề tài luận văn: Xây dựng website ứng dụng chương trình tư vấn du

Trang 3

1

LỜI CẢM ƠN

Trên thực tế một sự thành công luôn đi đôi với sự hỗ trợ, giúp đỡ dù ít hay nhiều, dù trực tiếp hay gián tiếp Có được kết quả báo cáo này, tôi rất trân trọng và biết ơn sự tận tình hướng dẫn, giúp đỡ và định hướng từ các thầy, cô thuộc Phòng sau Đại học và các Thầy thuộc Khoa Công nghệ thông tin trường Đại học Công Nghệ Thông Tin.

Đặc biệt, tôi xin gởi lời tri ân và cảm ơn sâu sắc nhất đến thầy hướng dẫn luận văn của tôi: PGS.TS Quản Thành Thơ Thầy đã tận tình hướng dẫn chúng tôi từ những ý tưởng thực hiện, hướng giải quyết các vấn đề lớn nhỏ đến việc chỉnh sử và gợi ý những ý tưởng báo cáo chi tiết nhất nhằm cho ra một báo cáo tốt Một lần nữa tôi xin gửi lời cảm ơn sâu sắc nhất tới thầy.

Đồng thời cũng xin gửi lời cảm ơn gia đình, bạn bè đã tiếp động lực cho tôi trong thời gian vừa qua, và cũng không quên gửi lời cảm ơn đến các bạn trong nhóm nghiên cứu đã tạo điều kiện, giúp đỡ, và đồng hành cùng tôi trong quá trình nghiên cứu thực hiện luận văn vừa qua.

Trong quá trình nghiên cứu và làm bài báo cáo khó tránh khỏi những thiếu sót, sai sót không mong muốn Rất mong nhận được thông cảm và ý kiến đóng góp quý báo từ các Thầy, Cô.

Trang 4

2

Tôi xin cam đoan luận văn này do chính tôi thực hiện dưới sự hướng dẫn khoa học của PGS TS Quản Thành Thơ, giảng viên Trường Đại học Bách Khoa TP.HCM.

Các dữ liệu nghiên cứu trong luận văn là trung thực, do tôi lập trình, phân tích, thiết kế

Các thông tin trích dẫn trong luận văn này đều đã được chỉ rõ nguồn gốc Nếu sai, tôi xin chịu hoàn toàn trách nhiệm

Tác giả luận văn

Trần Xuân thanh Phúc

Trang 5

3

Xã hội ngày càng phát triển, kéo theo những nhu cầu về mặt tinh thần cũng đang cần thiết hơn đối với mỗi con người Đặc biệt là sau một khoảng thời gian dài làm việc căng thẳng và mệt mỏi, mỗi người luôn muốn tìm cho bản thân mình một khoảng thời gian thư giãn thật thoải mái, và du lịch là một trong những hình thức được lựa chọn phổ biến

Cùng với sự phát triển mạnh mẽ của Internet, thì việc đi du lịch càng trở nên

dễ dàng hơn khi mà họ có thể nhanh chóng có được một Tour du lịch phù hợp cho mình chỉ với vài bước tìm kiếm trên Internet mà không phải mất nhiều thời gian và công sức Từ việc tìm kiếm, đặt Tour và thanh toán đều có thể thực hiện dễ dàng thông qua Internet

Được sự hỗ trợ của nhà trường, thầy hướng dẫn, cùng với sự phối hợp hỗ trợ của nhóm nghiên cứu Tôi đã quyết định phát triển một hệ thống tư vấn du lịch thông minh trên nền tảng ứng dụng web, mục đích để góp phần hỗ trợ người dùng tìm kiếm được những chuyến du lịch ưng ý mà không phải mất quá nhiều thời gian và công sức

Để xây dựng hệ thống “Tư vấn du lịch thông minh”, tôi đã tham khảo và đưa

ra các bài toán, tình huống xảy ra trong thực tế, rồi từ đó tìm ra giải pháp để giải quyết cho từng vấn đề cụ thể, cố gắng tối ưu hóa và đưa chúng vào hệ thống

Mục tiêu của luận văn này là xây dựng được một hệ thống tư vấn du lịch thông minh dựa trên các giải thuật tính toán và tìm kiếm tour phù hợp trên nền tảng ứng dụng web

Trang 6

4

Trang 7

5

LỜI CẢM ƠN 1

MỞ ĐẦU 3

DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT 4

DANH MỤC CÁC HÌNH VẼ 8

CHƯƠNG 1 : TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU 9

1.1 Giới thiệu đề tài nghiên cứu 9

1.2 Mục tiêu nghiên cứu 15

1.3 Đối tượng và phạm vi nghiên cứu 16

1.3.1 Đối tượng nghiên cứu 16

1.3.2 Phạm vi nghiên cứu 16

CHƯƠNG 2 : CƠ SỞ LÝ THUYẾT 18

2.1 Giới thiệu các hệ thống tư vấn 18

2.2 Hệ thống tư vấn du lịch 22

2.3 Ontology 26

2.4 Ngôn ngữ OWL 28

2.5 Công cụ Protégé 29

CHƯƠNG 3 : HIỆN THỰC VÀ XÂY DỰNG GIẢI THUẬT 31

3.1 Mô tả thuật ngữ 31

3.1.1 Thuộc tính tour 31

3.1.2 Trọng số 32

3.1.3 Điểm tương tác 32

3.1.4 Độ tương tự 33

3.2 Ứng dụng độ tương tự trên Ontology để tăng độ chính xác cho hệ thống tư vấn 33

3.2.1 Phương pháp tính độ tương tự giữa 2 khái niệm trên Ontology 33

3.2.2 Giải thuật tính toán độ tương tự giữa hai thuộc tính trên Ontology 41

3.3 Giải thuật tính điểm các thuộc tính và chiến lược đặt câu hỏi 43

3.3.1 Luật kết hợp trong khai phá dữ liệu 43

3.3.2 Các khái niệm cơ bản 44

3.3.3 Thuật toán FP-Growth 45

3.3.4 Giải thuật xây dựng ma trận IM 50

Trang 8

6

3.3.6 Chiến lược đặt câu hỏi 52

3.4 Giải thuật tính điểm các thuộc tính và chiến lược đặt câu hỏi 55

3.4.1 Các thành phần hệ thống 55

3.4.2 Giải thuật 56

CHƯƠNG 4 : THIẾT KẾ VÀ HIỆN THỰC ỨNG DỤNG 58

4.1 Mô hình hoạt động của hệ thống 58

4.2 Lược đồ Use case 59

4.3 Chức năng chính: tìm kiếm tour 60

4.4 Thiết kế Ontology 61

4.5 Hiện thực thuật toán FP-Growth 63

4.5.1 Sơ đồ giải thuật 63

4.5.2 Thiết kế mã giả 63

4.6 Hiện thực thuật toán tính độ tương tự và mở 64

4.6.1 Sơ đồ giải thuật 64

4.6.2 Thiết kế mã giả 64

4.7 Thiết kế ứng dụng web 65

CHƯƠNG 5 : THỰC NGHIỆM NGHIÊN CỨU 67

5.1 Phương pháp kiểm thử hệ thống 67

6.1 Môi trường kiểm thử hệ thống 67

5.2 Đánh giá hệ thống 67

5.3 Kiểm tra, đánh giá giải thuật 68

5.3.1 Đánh giá giải thuật Generate Transaction dựa trên độ tương tự 68

5.3.2 Đánh giá IM được xây dựng bởi Fp-Growth 70

5.3.3 Giải thuật tìm kiếm tour 72

5.3.4 Chạy thực nghiệm và so sánh với hệ thống cũ 73

CHƯƠNG 6 : KẾT LUẬN VÀ KHUYẾN NGHỊ 78

6.1 Kết luận 78

6.2 Hạn chế 78

6.3 Thuận lợi và khó khăn 78

6.3.1 Thuận lợi 78

Trang 9

7 6.4 Khuyến nghị và hướng phát triển 79 TÀI LIỆU THAM KHẢO 80

Trang 10

8

Hình 1.1: Mô tả hệ thống câu hỏi chương trình đưa ra cho người dùng 10

Hình 1.4: Mô tả kết quả đề xuất tour của chương trình tư vấn 11

Hình 1.5: IM 12

Hình 1.6: Chiến lược đặt câu hỏi trong hệ thống có sẵn của công ty DeNA Travel 12 Hình 1.7: Mô tả ma trận điểm tương tác (interaction matrix) 13

Hình 1.8 Mô tả bảng bảng dữ liệu từ người dùng 14

Hình 1.9 Mô hình toàn thể hệ thống cải tiến 15

Hình 3.1: Bảng danh sách các thuộc tính tour 31

Hình 3.2: Ví dụ Ontology 33

Hình 3.3: Hai phương pháp tiếp cận node-based và edge-based 34

Hình 3.4: Phương pháp tiếp cận MICA (node-based) 35

Hình 3.5: Phương pháp tiếp cận CDA (node-based) 36

Hình 3.6: Minh họa cách tính của công thức 𝑠𝑖𝑚𝑊&𝑃 38

Hình 3.7: Minh họa cách tính của Pekar và Staab 39

Hình 3.8: Mô tả bài toán ví dụ Ontology 40

Hình 3.9: Hình Ontology các thuộc tính của Tour 41

Hình 3.10: Ví dụ cây FP 49

Hình 3.11: Biểu đồ đánh giá Tour của giải thuật tìm kiếm Tour 56

Hình 4.1: Mô hình hoạt động của hệ thống 58

Hình 4.2: Mô tả Use case của hệ thống tư vấn du lịch 59

Hình 4.3: Sơ đồ mô tả hoạt động đặt câu hỏi 60

Hình 4.4: Sơ đồ mô tả hoạt động chức năng tìm Tour 61

Hình 4.5: Thứ tự sắp xếp các Attribute trên Ontology 62

Hình 4.6: Dữ liệu Ontology 62

Hình 4.7: Mô hình hóa giải thuật Fp-Growth 63

Hình 4.8: Giao diện màn hình khảo sát 65

Hình 4.9: Giao diện màn hình kết quả 66

Hình 5.1: Hình biểu diễn độ tương thích của tour tìm được so với nhu cầu của user 73

Trang 11

9

* http://au.skygate-global.com

CHƯƠNG 1 : TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU

1.1 Giới thiệu đề tài nghiên cứu

Ngày nay khi xã hội ngày càng phát triển thì nhu cầu du lịch của nhiều người đang dần trở nên phổ biến hơn Việc quá bận rộn với công việc và cuộc sống hằng ngày thì những chuyến du lịch là phương án rất cần thiết để giúp thư giãn đầu óc, phục hồi lại năng lượng Tuy nhiên, làm cách nào để có được những chuyến du lịch phù hợp nhất, với chi phí hợp lí nhất? Câu trả lời là có thể nhờ

tư vấn từ người thân, bạn bè cũng như những người quen biết xung quanh hoặc thậm chí là đến những công ty du lịch nhờ tư vấn, nhưng điều đó dường như đã làm mất quá nhiều thời gian Và hiện nay, trong thời điểm mà Internet và thông tin số đang phát triển và bùng nổ mạnh mẽ, thì việc sử dụng những lợi ích này

để tìm kiếm cho mình một chuyến đi ưng ý là điều khả dĩ Do đó, người dùng

có thể tìm đến những trang web hay những ứng dụng để giúp họ tìm được một

kế hoạch du lịch phù hợp và nhanh chong thông qua Internet Tuy nhiên, với sự xuất hiện tràn lan của những trang web cũng như ứng dụng trên Internet thì làm thế nào để người dùng tin tưởng và sử dụng ứng dụng của bạn xây dựng? Để làm được điều này thì bạn cần phải xây dựng một hệ thống tư vấn du lịch thông minh giúp người dùng có thể tìm được những tour du lịch ưng ý nhất với giá cả hợp lý nhất mà không phải tốn quá nhiều thời gian

Vậy như thế nào là một hệ thống tư vấn du lịch thông minh? Đầu tiên là

nó phải hỗ trợ người dùng tìm ra Tour du lịch phù hợp nhất trong thời gian nhanh nhất, thứ hai là phải có một chiến lược đặt câu hỏi phù hợp dựa trên nhu cầu của người dùng, giúp người dùng tiết kiệm được nhiều thời gian mà vẫn tìm kiếm được những Tour du lịch hợp lý thông qua các câu trả lời của họ cho các câu hỏi

mà hệ thống đưa ra

DeNA Travel* là một trong những công ty du lịch đã ứng dụng thành công hệ thống tư vấn thông minh vào hoạt động tư vấn du lịch của mình Ứng với hệ thống tư vấn du lịch thông minh sẵn có của công ty DeNA Travel Tôi đã

Trang 12

10

có dịp tiếp cận, tìm hiểu và nghiên cứu hệ thống này khi tham gia nhóm nghiên cứu do PGS.TS Quản Thành Thơ hướng dẫn

Hệ thống tư vấn du lịch của Công ty DeNA hoạt động cơ bản như sau:

 Khi người dùng truy cập vào hệ thống, hệ thống sẽ đưa ra câu hỏi đầu tiên

Hình 1.1: Mô tả hệ thống câu hỏi chương trình đưa ra cho người dùng

 Sau khi người dùng trả lời câu hỏi này hệ thống sẽ tính toán và đưa ra tiếp câu hỏi thứ 2

 Khi người dùng trả lời câu hỏi thứ 2 hệ thống sẽ ghi nhận, tính toán và các câu hỏi tiếp theo được đưa ra để thu thập thông tin người dùng Quá trình này lặp đi lặp lại cho đến khi hết số câu hỏi hoặc khi đã thu thập đầy đủ thông tin của người dùng cần

tư vấn

Trang 13

11

 Cuối cùng hệ thống sẽ tiến hành tính toán và sẽ đề xuất cho người dùng các tour

du lịch được xem là phù hợp và gần nhất với nhu cầu của người dùng

Hình 1.4: Mô tả kết quả đề xuất tour của chương trình tư vấn

 Các câu hỏi lần lượt được đưa ra (câu trước  câu sau) dựa vào mối quan hệ đã

được định nghĩa sẵn Quan hệ đó được thể hiện trong bảng ma trận tương quan

(Interaction Matrix - IM):

Trang 14

12

Hình 1.5: IM

 Hoạt động cụ thể của hệ thống được mô hình hóa cơ bản như sau:

Người dùng chọn câu trả lời

Hệ thống Đưa ra câu hỏi A

Hệ thống tính toán điểm cho các thuộc tính dựa trên bảng điểm tương quan

Câu hỏi nào có số thuộc tính chưa

được tính điểm nhiều nhất sẽ được

chọn làm câu hỏi tiếp theo

Hệ thống

Đưa ra câu hỏi E

Hệ thống tính toán điểm cho các thuộc tính dựa trên bảng điểm tương quan

VD người dùng chọn 1

Người dùng chọn câu trả lời

END

Quá trình này lập lại cho đến khi tất

cả các thuộc tính được tính điểm

Hoặc hết số lượng câu hỏi được quy định cho mỗi người dùng

.

Giải thích:

Các thuộc tính đã được tính điểm

Các thuộc tính chưa được tính điểm

Trang 15

13

Từ phương thức hoạt động như mô tả trên, và qua quá trình tìm hiểu, nghiên cứu đánh giá cho thấy: Hệ thống tư vấn vẫn còn một vấn đề tồn tại cần giải quyết đó là: IM hiện tại còn thưa và chưa hợp lý, cũng như chưa được phát sinh một cách tự động mà được tạo ra theo cảm tính của nhà phát triển và đây cũng là một nguyên nhân ảnh hưởng đến độ chính xác cao của hệ thống

Hình 1.7: Mô tả ma trận điểm tương tác (interaction matrix)

Ý tưởng được đưa ra để giải quyết vấn đề tồn tại trên, đó là:

Thứ nhất: Sử dụng bảng khảo sát để thu thập những sở thích cũng như

thói quen du lịch của người dùng Từ đó ta rút trích ra được tập dữ liệu thể hiện thói quen du lịch của họ Bảng khảo sát là tập hợp các câu hỏi được đúc kết trong

8 thói quen phổ biến nhất của người dùng, đây cũng là các câu hỏi sẽ được dùng

để thu thập dữ liệu tư vấn nhằm tìm ra các tour du lịch phù hợp:

4 đến 6 triệu, 6 đến 10 triệu, trên 10 triệu

Trang 16

14

quê, Thành thị

6 Loại hình du lịch Nghĩ dưỡng, sinh thái, tham quan, giải trí

7 Hoạt động tour Spa, mua sắm, ngắm cảnh, thể thao, văn

Hình 1.8 Mô tả bảng bảng dữ liệu từ người dùng

Thứ hai: Sau khi khảo sát, thu được tập dữ liệu thể hiện những thói quen

phổ biến của người dùng khi chọn các tour du lịch thỏa các nhu cầu đề ra Nhưng

vì người khảo sát họ chỉ chú ý đến những nhu cầu họ mong muốn nhất, mà bỏ

qua yếu tố gần đúng khác, vì thế tác giả sẽ dùng Ontology để mở rộng tập dữ

liệu trên dựa vào mối quan hệ tương tự của hai thuộc tính gần nhau

Trang 17

15

Ý tưởng: A1A5B1B2 xuất hiện 2 lần  Áp dụng tính cánh tính độ tương

tự giữa 2 thuộc tính cho Ontology

A1  A2 tương tự: 0.5  A2A5B1B2 xuất hiện 1 lần

VD: Chi phí 1 triệu  có thể đi được Hồ Tràm Dùng độ tương tự giữa

các thuộc tính  Chi phí 1 triệu  cũng có thể đi Vũng Tàu

Thứ ba: Dựa trên tập dữ liệu đã xử lý qua Ontology, ta xây dựng IM

bằng cách sử dụng thuật toán Fp-Growth

Hình 1.9 Mô hình toàn thể hệ thống cải tiến

1.2 Mục tiêu nghiên cứu

- Xây dựng lại hệ thống tư vấn Tour du lịch theo hướng cải tiến giải

thuật

- Ứng dụng Ontology để mở rộng tập dữ liệu dựa vào mối quan hệ

tương tự của 2 thuộc tính gần nhau

- Ứng dụng Thuật toán Fp-Growth để phát sinh các giá trị điểm tương

tác trong IM một cách tự động

Đề tài này sử dụng hai kỹ thuật chính là khai phá dữ liệu và Ontology

Khai phá dữ liệu giúp dự đoán kết quả dựa vào tập lịch sử dữ liệu có sẵn

Trang 18

16

Ontology dựa vào sơ đồ tri thức, giúp tìm điểm tương đồng giữa hai khái niệm,

hỗ trợ cho việc khảo sát sở thích du lịch của người dùng, những yếu tố quyết định đến sự lựa chọn của họ Việc làm này có hai ý nghĩa:

- Về mặt học thuật: nâng cao độ chính xác của việc đề xuất tour phù hợp với nhu cầu sở thích người dùng mục tiêu là thách thức mà các

hệ thống tư vấn hướng đến

- Về mặt thực tiễn: Du lịch là một nhu cầu thiết thực trong cuộc sống ngày nay, nhưng đôi khi có những người họ muốn đi, nhưng lại không biết chọn lựa điểm đến nào Việc xây dựng hệ thống tư vấn du lịch dựa trên hai nền tẳng khoa học kỹ thuật trên, sẽ giúp đỡ cho những đối tượng này dựa vào sở thích và kinh nghiệm của những người đi trước, giúp họ tiết kiệm thời gian hơn và tìm được cho mình những tour du lịch ưng ý nhất Mặc khác nó giúp cho doanh nghiệp có thể tiết kiệm được chi phí lao động để đảm nhiệm vai trò tư vấn, vì tất cả đều được vận hành một cách tự động, và cập nhật liên tục

1.3 Đối tượng và phạm vi nghiên cứu

1.3.1 Đối tượng nghiên cứu

Đối tượng đầu tiên là nghiên cứu các kỹ thuật, kiến thức xây dựng ontology du lịch để phản ánh đúng tri thức hoạt động ngành

Áp dụng các kỹ thuật khai phá dữ liệu người dùng, Sử dụng kỹ thuật tính toán độ tương tự giữa các khái niệm trong Ontology kết hợp với thuật toán Fp-Growth khai phá luật kết hợp, xây dựng IM trong hệ thống tư vấn Nhằm mục đích hoàn thiện khả năng tính toán, xử lý dữ liệu và tăng độ chính xác trong việc

tư vấn và đề xuất tour Kiểm thử kết quả với các luật suy diễn phù hợp, làm cơ

sở đánh giá hiệu quả hoạt động của hệ thống

1.3.2 Phạm vi nghiên cứu

- Tìm hiểu các yếu tố đánh giá một tour du lịch

Trang 19

Đề tài sẽ bỏ qua các yếu tố khách quan như: thời tiết, kinh tế, chính trị…

Trang 20

18

* http://au.skygate-global.com

CHƯƠNG 2 : CƠ SỞ LÝ THUYẾT

2.1 Giới thiệu các hệ thống tư vấn

Cùng với sự phát triển của Internet thì các công cụ tìm kiếm ngày nay (như: Google, bing, yahoo…) cũng hỗ trợ rất mạnh Người dùng có thể tìm được một lượng lớn thông tin liên quan trong khoảng thời gian ngắn Cũng chính vì vậy, Người dùng phải bỏ ra quá nhiều thời gian để lọc những thông tin tìm kiếm được phù hợp với yêu cầu của mình nhất Thêm nữa, đôi khi người dùng cũng không hiểu hết nhu cầu của mình, không biết được từ khóa chính xác mình muốn tìm kiếm, do đó rất khó để tìm được thông tin mình cần

Thực trạng cho thấy, rất cần có một hệ thống tư vấn, đề xuất để tính toán

và dự đoán khả năng một sản phẩm hay thông là phù hợp để đưa ra các gợi ý cho người dùng một cách nhanh chóng dựa trên các thông tin đã được cung cấp

Recommender Systems (RS) là hệ thống chọn lọc thông tin cần thiết nhằm đưa ra gợi ý, dự báo phù hợp cho người dùng về vấn đề thông tin (như là sách, âm nhạc, phim) hoặc vấn đề xã hội (là người, nhóm người) mà người đó

có thể chưa xem xét Các hệ thống RS giới thiệu các khuyến nghị có thể phù hợp tốt hơn với thị hiếu, cá nhân người dùng và hạn chế việc thông tin tràn ngập, quá tải làm rối người dùng

Hệ thống tư vấn là một công cụ mới, tạo ra nền tảng, hướng phát triển mới và mạnh mẽ cho các nhóm ngành cụ thể như: thương mại điện tử về hàng hóa, dịch vụ, tư vấn, du lịch, đào tạo Hệ thống tư vấn được nghiên cứu, phát triển với hình thức khá đa dạng, tuy nhiên dựa vào mục tiêu ứng dụng, tri thức được sử dụng, giải thuật xử lý, và cách hệ thống hóa các khuyến nghị, RS có thể được phân thành 6 loại (Gavalas, 2014):

 Collaborative filtering _ Breece, 1998 [15] (Chọn lọc theo cộng tác),

loại này được dùng nhiều trong ecommerce, social media Người dùng mục tiêu được gợi ý các món hàng, tiết mục, item tương tự với các thứ được chọn bởi những người khác có tương đồng về sở thích, thị hiếu, các cá nhân có tương quan (correlate) với nhau Về cơ bản,

Trang 21

19

2 người có sự tương quan với nhau sẽ có mức độ tương đồng nhau về

cá tính, sở thích, qua sự đánh giá, sự lựa chọn của quá khứ

 Content-based filtering _ Pazzani, 1999 [15] (Chọn lọc theo nội

dung), hệ thống tư vấn loại này dựa trên nội dung các món hàng, tiết mục mà người dùng mục tiêu đã từng lựa chọn trong các lần thao tác trước đó Cụ thể là các sản phẩm đề cử được so sánh với các sản phẩm được đánh giá (rate) trước đó bởi người dùng, và món hàng phù hợp nhất được chọn để đưa ra gợi ý

 Knowledged-based filtering _ Trewin, 2000 [15] (Chọn lọc theo tri

thức), loại này dựa trên cơ sở tri thức để tạo một tư vấn bằng cách suy diễn về các món hàng đáp ứng được nhu cầu người dùng (ví dụ một

tư vấn về một chiếc xe hơi sẽ xem xét dựa trên tiêu chí nào trọng yếu hơn đối với người dùng mục tiêu như: tính kinh tế, tiết kiệm xăng hay tính tiện nghi, thoải mái, sang trọng) Tri thức được xây dựng từ việc thu thập từ các lựa chọn, sở thích người dùng, hoặc qua hỏi đáp người dùng để cung cấp thông tin liên quan đến các lựa chọn Một hàm tương tự được sử dụng để thể hiện mức độ nhu cầu của người dùng tương quan với nội dung của các món hàng tùy chọn (item options) Giá trị của hàm tương tự thường thể hiện mức độ hữu ích của mỗi gợi

ý

 Demographic filtering¬ _ Pazzani, 1999 [15] (Lựa chọn theo số liệu

biểu diễn), hệ thống này được dùng nhiều trong ngành marketing để gợi ý món hàng dựa trên dữ liệu nhân khẩu học của user Thông tin của dữ liệu này cụ thể như là số lần xem một món hàng cụ thể liên quan đến vùng miền, ngôn ngữ, tuổi, giới tính, sở thích

 Matrix factorization ¬_ Koren, 2008 [18] (Phân rã ma trận), loại này

là biến thể của collaborative filtering kết hợp với thông số đường cơ

sở (baseline parameter) cho mỗi user và món hàng Baseline là các tham số mô hình cộng thêm mô tả cho mỗi user và món hàng, chúng thể hiện độ lệch tổng quát của mức đánh giá (rating) người dùng hay

Trang 22

20

món hàng so với trung bình toàn cục (global average) Ví dụ, đường

cơ sở người dùng, user baseline của một người có xu hướng mức đánh giá (rate) cao hơn trung bình dân số sẽ là số dương (positive number)

 Hybrid RSs _ Burke, 2002 (Hệ thống kết hợp), loại này dùng kết hợp

các phương pháp trên bằng cách khai thác điểm mạnh của kỹ thuật này để bù đắp điểm yếu của cái kia, vì vậy nâng cao hiệu quả hiệu suất tổng thể Lai ghép hóa có thể được thực hiện bằng nhiều cách, ví

dụ tạo dự đoán theo cách content-based và collaborative-based độc lập rồi kết hợp kết quả lại; hoặc thêm khả năng của content-based vào collaborative-based và ngược lại; hợp nhất các phương pháp lại thành một mô hình tổng thể

Mỗi loại RS có khác nhau về ưu nhược điểm, tùy vào đặc thù ngành nghề, mức độ chính xác mà RS phù hợp được chọn Trên thực tế có 3 loại RS được quan tâm áp dụng nhiều, và ta đánh giá rõ hơn về ưu nhược điểm như bảng dưới đây:

Kỹ thuật Dữ liệu nền Quy trình Ưu điểm Nhược điểm

Collaborative

Đánh giá, bình chọn của users

Không cần thu thập đặc trưng items

Nhận diện users profile trong hệ thống giống với users mục tiêu

Có thể gợi ý Items đến các người dùng tương đồng trong nhóm

Không gặp trở ngại dù

có thay đổi

sở thích của user

Khó khăn với items mới, users mới vì chưa

có dữ liệu rating

Content-based

Các đặc trưng của

Phân lớp các items nhằm

Không trở ngại với

Khó khăn với users

Trang 23

21

hàng hóa, items

Dữ liệu đánh giá, bình chọn của users

làm khớp với bình chọn, hành

vi của users

items mới

Có thể giới thiệu chính xác items hợp với profile

mới chưa có profile

Khó khăn nếu user có nhiều sở thích đa dạng, trung

du

Thiếu đột phá vì không thể gợi ý items nằm ngoài user profile

Knowledged

Đặc trưng items tri thức về tính đáp ứng nhu cầu user của items đó

Tìm kiếm sự phù hợp giữa người dùng và đặc trưng item

Không cần thống kê dữ liệu profile người dùng

Thích nghi với sở thích,

cá tính user nếu có thay đổi

Kỹ thuật xử

lý tri thức phức tạp Khả năng khuyến nghị là tĩnh (static), không ảnh hưởng trên các tập dữ liệu nhiều item

Trang 24

22

2.2 Hệ thống tư vấn du lịch

Hệ thống tư vấn du lịch (TRS - Tourism Recommender Systems) là một nhánh cụ thể của hệ thống tư vấn, có khả năng xử lý dữ liệu đầu vào là hồ sơ người dùng, đặc điểm cá nhân, sở thích, mối quan hệ cá nhân trong mạng xã hội (social networking), thông tin ngữ cảnh về thời tiết, khí hậu, lễ hội, vị trí địa lý vùng miền, GPS thu được từ nhiều nguồn như internet, mobile phone, facebook, blog, social network,… nhằm đưa ra các gợi ý về chuyến du lịch, lời khuyên về chuyến đi, các điểm quan tâm (POI – Points of Interest), đề xuất về gói du lịch đang có, theo các tiêu chí phù hợp với cá nhân về độ hấp dẫn, giá cả, khoảng thời gian, chi phí phù hợp ngân sách người dùng

Thách thức đối với TRS là dữ liệu đầu vào liên quan tới người dùng có tường minh (explicitly) và ngầm định (implicitly) qua xử lý khai thác dữ liệu từ hoạt động trực tuyến của người dùng (user online activity), cảm xúc, ý kiến người dùng theo từng thời điểm khác nhau Sự thay đổi sở thích của người dùng

có thể thay đổi theo ngữ cảnh, tâm trạng, môi trường kinh tế xã hội, khí hậu, thời tiết…

Cùng với sự phổ dụng của thiết bị di động như điện thoại thông minh, thiết bị di động nhỏ gọn tích hợp sẵn các cảm biến, định vị địa lý, suy diễn user, môi trường xã hội và ngữ cảnh, là điều kiện thuận lợi khai thác thông tin, đã có khá nhiều nghiên cứu trong vài năm gần đây đã có được các kết quả đáng giá khi gợi ý người dùng theo các môi trường ngữ cảnh, đặc trưng cá nhân hóa Các

hệ thống cụ thể như: VISIT (Mehaan, 2013), EnoSigTur (Simó, 2012), DieToRecs (Bauernfeind, 2003), TripMatcher MePrint (Ricci, 2002), TripAdvisor (2012), TripSay (2012)

Dựa theo các đặc điểm về kiến trúc hệ thống (web application, mobile), mức độ quan tâm và nhu cầu người dùng (user involvement), tiêu chí nguồn cơ

sở tư vấn (deriving recommendation), các hệ thống này được xếp vào loại hình dịch vụ khác nhau Dù không tách bạch, rõ ràng và thấu đáo, nhưng ta có thể phân loại tương đối, các mục tiêu, dịch vụ được cung cấp gồm có 5 loại chính

Trang 25

- Ba là Collaborative Filtering Recommendations, loại hệ thống này nhắm đến các gợi ý có tính khám phá, mới lạ vượt mong đợi, ngạc nhiên cho người dùng từ ý kiến, sở thích, nhận định của nhiều người khác chia sẽ Nguồn dữ liệu xử lý từ kho tàng thông tin cá nhân của mạng xã hội, nơi chia sẽ, kho lưu trữ trên thiết bị của người dùng

- Bốn là Routes and Tours Recommendations, dựa trên trích lọc thông tin vị trí có từ thiết bị như GPS, Wi-Fi, cell-id, RFID, hệ thống này gợi ý giúp người dùng đường đi từ điểm hiện tại đến nơi quan tâm

- Năm là Personalized Multiple-days Tour Tour Planning, người du lịch

có thể muốn tham quan, trải nghiệm tối đa nhiều nơi, nhiều ngày, nhưng do có giới hạn về thời gian, ngân sách, hệ thống này gợi ý giúp người dùng tham quan chọn các điểm (POIs) hấp dẫn nhất, xứng đáng nhất phù hợp điều kiện cho phép và thông tin cá nhân, sở thích của

họ Ý tưởng này dẫn đến bài toán thiết kế tour khách du lịch (TTDP, tourist trip design problem), các giải thuật heuristic hiệu quả được dùng để giải bài toán này cho các ứng dụng trực tuyến vì không thể giải trong thời gian đa thức (Vansteenwegen, 2011) Các nghiên cứu

cố gắng đơn giản hóa bài toán TTDP đã được thực hiện như mô hình TTDP đơn giản nhất là bài toán chạy định hướng (OP, orienteering problem) được giới thiệu năm 1984 bởi Tsiligirides, các mở rộng là bài toán TOP (Team Orienteering Problem) năm 1996 bởi Chao, TOP with Time Windows (TOPTW) bởi Vansteenwegen, 2009, và nghiên cứu gần đây là Timedependent TOPTW bởi Garcia, 2013

Trang 26

24

Trong các phần dưới đây, tôi sẽ đề cập đến một số nghiên cứu liên quan trong lĩnh vực này trong hội thảo TouRS được tổ chức tại Vienna vào tháng 9 năm 2015 trong RecSys-2015 (Hội nghị ACM lần thứ 9 về Hệ thống các nhà tư vấn) Địa điểm khoa học quốc tế hàng đầu để nghiên cứu các phương pháp, kỹ thuật và ứng dụng

Các hệ thống tư vấn cổ điển cố gắng lọc các mục trong dữ liệu có thể có liên quan hơn với người dùng cụ thể, với dữ liệu nhân khẩu học, lịch sử mua hàng và sở thích của người dùng Cách tiếp cận này có thể rất phù hợp để giới thiệu các mục cụ thể như sách, bài hát hoặc phim Tuy nhiên, du lịch là một hoạt động thường được thực hiện theo nhóm người (cặp vợ chồng, gia đình, bạn bè, đồng nghiệp); Do đó, cần phải tính đến sở thích và thị hiếu của tất cả các du khách khi đưa ra các khuyến nghị Đó là hướng giải quyết của García và các cộng sự đã mang lại [20]

Khuyến nghị nhóm: Có hai lựa chọn cơ bản để giải quyết các khuyến nghị nhóm: hợp nhất danh sách các mục được đề nghị với từng thành viên nhóm hoặc bắt đầu bằng cách kết hợp các sở thích cá nhân vào một nhóm hồ sơ người dùng và sau đó tính một danh sách các khuyến nghị nhóm Hai tác phẩm trình bày trong hội thảo TouRS và cách giải quyết được đưa ra là phương án thứ nhất

Trong hệ thống TravelWithFriends, bước đầu tiên là xây dựng một danh sách khuyến nghị cho mỗi người dùng và hợp nhất chúng (sử dụng tính trung)

để có được một danh sách điểm đến Sau đó, mỗi thành viên trong nhóm đánh giá tất cả các lựa chọn này và tính Borda được sử dụng để xác định năm điểm đến tốt nhất được đề nghị Công việc thứ hai liên quan đến khuyến nghị nhóm trong hội thảo trình bày hệ thống CLG-REJA, là một phần mở rộng của nhà tư vấn nhà hàng REJA cho thành phố Jaén ở Tây Ban Nha [21] Trong trường hợp này bước đầu tiên cũng là xây dựng một danh sách các khuyến nghị cho từng thành viên trong nhóm, có tính đến xếp hạng Trong bước thứ hai, tiến trình đạt được sự đồng thuận tự động được áp dụng [22] Đây là một quá trình lặp đi lặp lại trong đó các sở thích cá nhân được cập nhật liên tục cho đến khi đạt đến mức

độ thỏa thuận cao giữa các thành viên trong nhóm

Trang 27

25

Trong các hệ thống trước Các trang web Du lịch chúng ta có thể thấy rằng chỉ có một số hệ thống hiện có cung cấp các dịch vụ mà vượt quá chức năng của

hệ thống đặt phòng thuần túy Cách tiếp cận phổ biến nhất của hệ thống các nhà

tư vấn đã được sử dụng rộng rãi là phương pháp Collaborative filtering (CF) Các mô hình CF tác dựa trên việc thu thập và tính toán một lượng lớn thông tin

về hành vi, hoạt động hoặc sở thích lịch sử của người dùng và dự đoán những gì người dùng sẽ thích dựa trên sự tương đồng với người dùng khác Một lợi thế quan trọng của phương pháp tiếp cận CF là nó thực sự không dựa vào nội dung

có thể phân tích được của máy và do đó nó có khả năng đề xuất chính xác những mặt hàng phức tạp như phim mà không đòi hỏi sự hiểu biết về mặt hàng Đối với chủ đề giới thiệu thông tin du lịch, vấn đề cốt lõi là đề xuất phải có tính thu hút

Trong một nghiên cứu mới đây của P A Manjare [23] và các cộng sự, ông cũng đề xuất một hệ thống tư vấn du lịch dựa trên nền tảng kỹ thuật khai thác dữ liệu Giải pháp được đưa ra là thu thập cơ sở dữ liệu về sở thích cho các mục của người dùng Kết hợp CF, chọn lọc dựa trên sự tương đồng giữa sở thích của người dùng và của những người dùng khác

Bên cạnh đó, Emili [24] cũng đã cho ra một hệ thống tư vấn du lịch dựa trên nền tảng Ontology Ông thu thập tri thức từ những dịch vụ vui chơi giải trí liên quan đến du lịch như ẩm thực, văn hóa, thiên nhiên… từ đó điềm điểm tương đồng giữa các dịch vụ, địa điểm để đưa ra gợi ý cho người dùng

Vài năm gần đây, các kết quả của công trình nghiên cứu đã cho ra đời nhiều hệ thống Tư vấn du lịch (TRS: Tourism Recommender System), một số được tích hợp và hoạt động trên các cổng thông tin du lịch uy tín, có tên tuổi lớn Chẳng hạn như:

 TripAdvisor (2012), là website du lịch cung cấp tư vấn các chuyến

đi chơi, vị trí, hoạt động cho mỗi người, và có một thành phần xã hội (social component) cho phép nhiều yếu tố được reviewed, commented, rated bởi các người dùng khác để trợ giúp quy trình ra quyết định phức tạp liên quan ngành du lịch

Trang 28

26

 DieToRecs (2012), hỗ trợ sự lựa chọn các sản phẩm du lịch (hotel,

museum, climbing school) và tạo một giỏ du lịch (travel bag) là một nhóm các sản phẩm du lịch hài hòa nhau

 Heracle (2012), hiện thực content-based filtering dựa trên thông tin

du lịch khai phá từ nhiều nguồn dữ liệu online và search engine

 TripSay (2012), dùng phương pháp collaborative filtering để kết hợp

điểm đến, nơi, cảnh quan, nội dung và hoạt động, dựa vào mạng kết nối bạn bè người dùng có tham gia như social networking hoặc tương

tự

Từ những công trình nghiên cứu và các kết quả của việc ứng dụng các hệ thống TRS trong thực tế của ngành du lịch cho thấy vai trò của các hệ thống TRS trong thực tế và việc nghiên cứu để cho ra đời các hệ thống TRS mới tối

ưu hơn, thông minh hơn, nhanh hơn và chính xác hơn là một xu thế hết sức cấp thiết Nhưng với những nghiên cứu trên, vẫn chưa có một hệ thống nào vừa tận dụng khai phá dữ liệu và Ontology vào cùng một hệ thống Vì thế tôi quyết định xây dựng một hệ thống tư vấn du lịch dựa trên nền tảng hai kỹ thuật trên để tận dụng tối đa khả năng mà chúng đem lại

2.3 Ontology

Ontology là một thuật ngữ mượn từ triết học nhằm chỉ khoa học mô tả các loại thực thể trong thế giới thực và cách chúng liên kết với nhau Trong khoa học máy tính, một cách khái quát, Ontology là một mô hình dữ liệu biểu diễn một lĩnh vực và được sử dụng để suy luận về các đối tượng trong lĩnh vực đó và mối quan hệ giữa chúng

Ontology cung cấp một bộ từ vựng chung bao gồm các khái niệm, các thuộc tính quan trọng và các định nghĩa về các khái niệm và các thuộc tính này Ngoài bộ từ vựng, ontology còn cung cấp các ràng buộc, đôi khi các ràng buộc này được coi như các giả định cơ sở về ý nghĩa mong muốn của bộ từ vựng, nó được sử dụng trong một miền mà có thể được giao tiếp giữa người và các hệ

Trang 29

27

thống ứng dụng phân tán hỗn tạp khác Ontology được xây dựng nhằm các mục đích:

- Hình thành ngôn ngữ chung để chia sẻ - tái sử dụng tri thức

- Chia sẻ hiểu biết chung về cấu trúc thông tin giữa con người và các ứng dụng

- Sử dụng lại tri thức về một miền lĩnh vực đã được xây dựng từ trước Việc xây dựng, phát triển ontology có thể độc lập với việc lập trình Các ontology được sử dụng như là một biểu mẫu trình bày tri thức về thế giới hay một phần của nó Các thành phần của Ontology thường bao gồm:

- Các lớp (Classes): Là trung tâm của hầu hết các ontology, mô tả các

khái niệm trong miền lĩnh vực, các đối tượng Các lớp thường được

tổ chức phân cấp và áp dụng kỹ thuật thừa kế Một lớp có thể có các lớp con biểu diễn khái niệm cụ thể hơn so với lớp cha

- Các thuộc tính (property hay role): Mô tả các đặc tính, thuộc tính,

đặc trưng, tính chất khác nhau của khái niệm và mỗi thuộc tính đều

có giá trị Thuộc tính được phân biệt với quan hệ (relation) dựa trên giá trị là một kiểu dữ liệu (string, number, boolean ) Một thuộc tính bản thân nó cũng có các thuộc tính con và cũng có các ràng buộc trên

nó

- Các quan hệ (relations): Biểu diễn các kiểu quan hệ giữa các khái

niệm Các quan hệ nhị phân được sử dụng để biểu diễn thuộc tính

cá thể, mặc dù các cá thể này không thực sự là một phần của ontology

Trang 30

28

- Hàm (function): Là một loại thuộc tính hay quan hệ đặc biệt, trong

đó phần tử thứ n là duy nhất đối với n-1 phần tử còn lại

- Các tiền đề (axioms): Biểu diễn các phát biểu luôn đúng mà không

cần phải chứng minh hay giải thích Axioms được sử dụng để kiểm chứng sự nhất quán của ontology hoặc cơ sở tri thức Cả hai thành phần hàm và tiên đề góp phần tạo nên khả năng suy diễn trên ontology

- Luật (rules): Mỗi luật cho ta một quy tắc suy diễn để từ các sự kiện

giả thiết đang viết suy ra sự kiện mới thông qua định luật, định lý, quy tắc tính toán nào đó

- Sự kiện (Facts): Mỗi sự kiện thể hiện một tính chất hay liên hệ nào

đó trên các đối tượng hay trên thuộc tính của đối tượng

Bộ từ vựng ontology được xây dựng trên cơ sở tầng RDF và RDFS, cung cấp khả năng biểu diễn ngữ nghĩa mềm dẻo cho tài nguyên Web và có khả năng hỗ trợ lập luận

Hình 2.1: Ví dụ về một Ontology

2.4 Ngôn ngữ OWL

Trang 31

29

OWL (The Web Ontology Language) là một ngôn ngữ gần như XML dùng để mô tả các hệ cơ sở tri thức OWL là một ngôn ngữ đánh dấu dùng để xuất bản và chia sẻ dữ liệu trên Internet thông qua những mô hình dữ liệu gọi là

“ontology” Ontology mô tả một lĩnh vực (domain) và diễn tả những đối tượng trong lĩnh vực đó cùng những mối quan hệ giữa các đối tượng này OWL là phần

mở rộng về từ vựng của RDF và được kế thừa từ ngôn ngữ DAML+OIL Web ontology – một dự án được hỗ trợ bởi W3C OWL biểu diễn ý nghĩa của các thuật ngữ trong các từ vựng và mối liên hệ giữa các thuật ngữ này để đảm bảo phù hợp với quá trình xử lý bởi các phần mềm

OWL được xem như là một kỹ thuật trọng yếu để cài đặt cho Semantic Web trong tương lai OWL được thiết kế đặc biệt để cung cấp một cách thức thông dụng trong việc xử lý nội dung thông tin của Web Ngôn ngữ này được

kỳ vọng rằng sẽ cho phép các hệ thống máy tính có thể đọc được thay thế cho con người Vì OWL được viết bởi XML, các thông tin OWL có thể dễ dàng trao đổi giữa các kiểu hệ thống máy tính khác nhau, sử dụng các hệ điều hành và các ngôn ngữ ứng dụng khác nhau Mục đích chính của OWL là sẽ cung cấp các chuẩn để tạo ra một nền tảng để quản lý tài sản, tích hợp mức doanh nghiệp và

để chia sẻ cũng như tái sử dụng dữ liệu trên Web OWL được phát triển bởi nó

có nhiều tiện lợi để biểu diễn ý nghĩa và ngữ nghĩa hơn so với XML, RDF và RDFS, và vì OWL ra đời sau các ngôn ngữ này, nó có khả năng biểu diễn các nội dung mà máy có thể biểu diễn được trên Web

2.5 Công cụ Protégé

Protégé là một phần mềm miễn phí Nó là một công cụ xây dựng Ontology mã nguồn mở và là một hệ thống thu thập kiến thức Protégé cung cấp một giao diện đồ họa người dùng để xác định Ontology

Nó cũng bao gồm các phân loại suy diễn để xác định các mô hình phù hợp và để suy luận ra thông tin mới dựa trên phân tích của một Ontology Giống như Eclipse, Protégé là một framework được đề xuất cho các project khác Công

cụ này được viết bằng Java và chủ yếu sử dụng Swing để tạo ra các user

Trang 32

30

interface Protégé đã có hơn 300.000 người đăng ký Theo một cuốn sách năm

2009, nó là "Công cụ hàng đầu hỗ trợ các kỹ thuật trên Ontology"

Protégé là công cụ phần mềm biên tập ontology mã nguồn mở (được phát triển tại Trường ĐH Stanford) sử dụng đối với việc xây dựng các hệ thống thông minh Protégé được hỗ trợ bởi cộng đồng lớn bao gồm: các viện nghiên cứu, các

tổ chức chính phủ và những người sử dụng cộng tác

Trang 33

Qua khảo sát, nghiên cứu và được tư vấn từ những người làm trong lĩnh vực du lịch Sau quá trinh đánh giá và sàn lọc Các thuộc tính của một Tour được thiết kế và phân chia thành các nhóm như sau:

Hình 3.1: Bảng danh sách các thuộc tính tour

Trang 34

32

3.1.2 Trọng số

Theo những nghiên cứu gần đây trong ngành du lịch, có ba yếu tố nổi cộm ảnh hưởng đến tâm lý khi chọn các tour du lịch của người dùng, bao gồm: tuổi tác, giới tính và công việc Do đó sở thích, quan tâm của con người đối với một vấn đề là khác nhau Để đánh giá mức độ quan tâm của người dùng đối với từng thuộc tính trong Tour như người đi với, hoạt động, giá tiền… thuộc tính nào được họ quan tâm cao hơn Trọng số được dùng để đánh giá điều đó

Mỗi kiểu người dùng sẽ có điểm trọng số khác nhau ứng với thuộc từng thuộc tính mà họ quan tâm Hiện tại có 3 thông tin để phân loại người dùng

Dưới 30 tuổi

Từ 30 đến 50 tuổi Trên 50 tuổi

Việc phân nhóm người dùng nhằm gom nhóm các đối tượng với các trọng

số quan tâm về các thuộc tính khác nhau

VD: với nhóm người dùng có thu nhập cao, có độ tuổi dưới 30 và giới tính nam, họ sẽ ưu tiên quan tâm đến các tour có giá cao, đi nhiều ngày, có các hoạt động như thể thao, cảm giác mạnh v.v…

3.1.3 Điểm tương tác

Thông qua khảo sát đánh giá, ta có thể xác định được các thuộc tính có liên quan, ảnh hưởng đến nhau

Trang 35

Độ tương tự được dùng để định lượng sự tương đồng ngữ nghĩa giữa các

từ ngữ hoặc các thực thể, các thuộc tính được chú thích trong một Ontology

Trang 36

34

Có 2 Phương pháp phổ biến được dùng để so sánh các đối tượng trong

một Ontology là: edge-based (tính dựa trên cạnh), node-based (tính dựa trên

node)

Edge-based: Phương pháp này chủ yếu đếm số cạnh của đồ thị đường đi

nối 2 đối tượng so sánh Đây là kỹ thuật được sử dụng phổ biến nhất, tính khoảng

cách, chọn giá trị khoảng cách ngắn nhất hoặc giá trị khoảng cách trung bình,

khi có nhiều hơn 01 khoảng cách tồn tại Kỹ thuật này cho ta một thước đo để

xác định khoảng các giữa 2 đối tương và có thể dễ dàng chuyển đổi sang đo

lường độ tương tự (Khoảng cách càng nhỏ thì độ tương tự càng cao)

Node-based: Là phương pháp tiếp cận dựa trên việc so sánh các tính chất

của bản thân, tổ tiên hoặc con cháu của đối tượng Một khái niệm được dùng

phổ biến trong phương pháp này là: IC (information content), chỉ ra và cụ thể

hóa thông tin của đối tượng IC của một đối tượng c có thể định lượng bằng công

thức:

IC(a)= - log p(a)

Trong đó: p(a) là xác suất xuất hiện của a trong ontology

Trang 37

35

Nguồn: Semantic Similarity in Biomedical Ontologies 2009 [19]

Khái niệm IC có thể áp dụng để đo lường số lượng thông tin chia sẽ cho

tổ tiên chung của 2 nút đang xét và từ đó đo độ tương đồng ngữ nghĩa của chúng

Có 2 phương pháp tiếp cận chính:

MICA (Most Informative Common Ancestor), trong đó chỉ có tổ tiên

chung ở mức cao nhất mới được xem xét IC

DCA (Disjiont Common ancestor), trong đó tất cả tổ tiên chung rời nhau

(tổ tiên chung mà không bao hàm nút tổ tiên chung nào khác) mới được xem

xét

Hình 3.4: Phương pháp tiếp cận MICA (node-based)

Nguồn: GraSM (Couto 2005)

Trang 38

36

Hình 3.5: Phương pháp tiếp cận CDA (node-based)

3.2.1.1 Phương pháp tính độ tương tự giữa 2 khái niệm trên Ontology

Phương pháp đo lường độ tương tự ngữ nghĩa phổ biến nhất được sử dụng

đó là phương pháp của Resnik’s, Lin’s, Jiang and Conrath’s:

Trang 39

37

Phương pháp này cũng chỉ mang tính chất tương đối, simLin và simJC được thay thế từ đồ thị, có nghĩa là các phương pháp này tỷ lệ thuận với các IC khác biệt giữa đối tượng và tổ tiên chung của họ, độc lập với các IC tuyệt đối của tổ tiên

Để khắc phục hạn chế này, schlicker đã đề xuất phương pháp liên quan

đo lường độ tương tự, cũng dựa trên phương pháp của Lin, nhưng sử dụng các khả năng chú thích của MICA là một yếu tố trọng số để cung cấp vị trí đồ thị:

simRel(c1,c2)=simLin(c1,c2) x (1-p(cA))

Một hạn chế mà tất cả các biện pháp này gặp phải là họ chỉ nhìn vào một tổ tiên chung duy nhất (MICA) mặc dù thực tế rằng các đối tượng có thể có nhiều DCA Để tránh các hạn chế này, Couto đã đề xuất cách tiếp cận GraSM, nó có thể được áp dụng cho bất kỳ biện pháp nào đã được mô tả trước đó, và IC của MICA được thay thế bởi

IC trung bình của tất cả các DCA

3.2.1.2 Tính độ tương tự giữa 2 khái niệm theo Edge-base

Một phương pháp đơn giản để tính toán độ tương tự của 2 khái niệm

trong Ontology là tính toán độ dài đường đi ngắn nhất giữa chúng (Rada, Mili,

Bichnell, & Blettner, 1989)

Ta định nghĩa path(a,b)=l1,l2,…, lk là một tập các đường đi kết nối a với

b

Đặt |path(a,b)|=k là độ dài của đường đi

Trang 40

họ (tức là, tổ tiên chung thấp nhất của cả 2) và lượng liên kết của các LCS đến nút gốc (N3) của Ontology

Hình 3.6: Minh họa cách tính của công thức 𝑠𝑖𝑚𝑊&𝑃

𝒔𝒊𝒎𝑾&𝑷(𝒂, 𝒃) = 𝟐𝒙𝑵𝟑

𝑵𝟏+ 𝑵𝟐+ 𝟐𝒙𝑵𝟑Pekar và Staab đề xuất một phương pháp dựa trên chiều dài con đường dài nhất giữa tổ tiên chung thấp nhất của 2 đối tượng tính từ gốc (tối đa chiều sâu tổ tiên chung), và chiều dài của con đường dài nhất của mỗi đối tượng với

tổ tiên chung của chúng

𝜹(𝒄𝒂, 𝒓𝒐𝒐𝒕) + 𝜹(𝒄𝟏, 𝒄𝒂) + 𝜹(𝒄𝟐, 𝒄𝒂)

Định dạng
Số trang	84
Dung lượng	11,15 MB