1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu các phương pháp thu thập và phân tích ý kiến cảm xúc từ các trang mạng xã hội

29 28 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 29
Dung lượng 791,07 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mục tiêu đề tài Mục tiêu tìm hiểu của đề tài là khai thác và tổng hợp lại những ý kiến bày tỏ, nhận xét của khách hàng về những sản phẩm hoặc dịch vụ được thu thập từ internet nhằm đạt

Trang 2

LỜI CÁM ƠN

Trong khoảng thời gian học tập và rèn luyện tại trường Đại học Vinh, em xin chân thành cảm ơn tất cả thầy cô trong trường nói chung và trong Khoa Công nghệ thông tin nói riêng đã tận tình giảng dạy, hướng dẫn, truyền đạt những kiến thức, kinh nghiệm quý báu cho em Với những kiến thức đó, em thực sự tự tin trở thành một kỹ sư công nghệ thông tin

Đặc biệt, em xin gửi lời cảm ơn chân thành đến cô giáo Nguyên Thị Uyên, người

đã tận tình hướng dẫn, định hướng, giúp đỡ và truyền đạt những kinh nghiệm, phương pháp nghiên cứu khoa học cho em trong suốt quá trình thực hiện đề tài đồ án tốt nghiệp này

Cuối cùng, tôi cũng xin gửi lời cảm ơn đến người thân, bạn bè đã luôn đứng bên cạnh tôi để động viên, ủng hộ về vật chất lẫn tinh thần trong suốt thời gian qua

Em xin chân thành cảm ơn !

Vinh, ngày 10 tháng 12 năm 2014

Người viết báo cáo

Nguyễn Thị Thảo

Trang 3

LỜI MỞ ĐẦU

Trong thời đại kinh tế thị trường cùng với sự phát triển như vũ bão của Công nghệ thông tin đã làm thay đổi thế giới, đặc biệt về lĩnh vực kinh doanh Khi mà thương mại điện tử ra đời thì khoảng cách giữa khánh hàng và người bán dường như xích lại gần nhau hơn, hiểu nhau dễ dàng hơn bằng cách người bán hàng luôn luôn phải biết được khách hàng tiềm năng của mình đang muốn gì để đưa vào sản xuất các sản phẩm theo như mong muốn của họ Như vậy, trong một ngày cả người mua lẫn người bán phải đọc hàng trăm, hàng triệu lời nhận xét về các sản phẩm mới có được những thông tin cần thiết trước khi đưa ra quyết định mua sản phẩm hoặc sản xuất sản phẩm Việc làm này mất rất nhiều thời gian và không hiệu quả khi con người không thể đọc và phân loại hết được những lời nhận xét đó

Có rất nhiều nghiên cứu về khai thác ý kiến đã được thực hiện Tuy nhiên, các nghiên cứu này đều tập trung vào việc xử lý tiếng Anh trên những tập dữ liệu lớn Các nghiên cứu về tự động phân tích ý kiến của người dùng từ các tài liệu tiếng Việt còn khá

ít, gây khó khăn cho việc xây dựng các ứng dụng thực tế, cũng như kiểm chứng các kỹ thuật đã được áp dụng thành công trong phân tích ý kiến trên tiếng Anh

Vì vậy,đồ án này với nội dung “Tìm hiểu các phương pháp thu thập và phân tích ý kiến cảm xúc từ các trang mạng xã hội “Đề tài tập trung nghiên cứu những

vấn đề và phương pháp được dùng trong phân tích ý kiến Từ đó xây dựng và kiểm nghiệm một vài mô hình thực nghiệm cho mục đích phân tích ý kiến và khả năng áp dụng cho tiếng Việt

Đồ án gồm 4 chương:

Chương 1:Giới thiệu đề tài

Chương 2: Tổng quan về phân tích ý kiến chủ quan

Chương 3: Các phương pháp phân tích ý kiến sử dụng kỹ thuật phân loại và xử

lý ngôn ngữ tự nhiên

Chương 4: Thử nghiệm

Trang 4

MỤC LỤC

LỜI CÁM ƠN 1

LỜI MỞ ĐẦU 3

MỤC LỤC 4

CHƯƠNG I:GIỚI THIỆU ĐỀ TÀI 6

1.1.Lý do chọn đề tài 6

1.2.Mục tiêu đề tài 6

1.3.Phạm vi đề tài 6

CHƯƠNG II: TỔNG QUAN VỀ PHÂN TÍCH Ý KIẾN CHỦ QUAN 7

2.1 Phân tích ý kiến 7

2.1.1 Khái niệm và mô hình phân tích ý kiến 7

2.1.2.Các ứng dụng với phân tích ý kiến 9

2.2 Một số dạng phân tích ý kiến 9

2.2.1 Phân loại ý kiến khách quan-chủ quan,tích cực-tiêu cực 9

2.2.2 Tổng hợp phân tích ý kiến dựa trên đặc tính sản phẩm 9

2.2.3 Phân tích ý kiến dựa trên các câu so sánh 10

2.3 Một số ví dụ 10

2.3.1.Ví dụ 1 10

2.3.2.Ví dụ 2 10

2.3.2.Ví dụ 3 10

2.4.Các nghiên cứu liên quan 11

2.4.1.Khai thác và đánh giá những lời bình phẩm của khách hàng 11

2.4.2 Phân tích những ý kiến dự đoán trên trang Web 12

2.4.3 Xây dựng một miền Ontology tự động từ một mạng ngữ nghĩa 13

CHƯƠNG I I I : CÁC PHƯƠNG PHÁP PHÂN TÍCH Ý KIẾN SỬ DỤNG KỸ THUẬT PHÂN LOẠI VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN 18

3.1 Phân loại ý kiến 18

3.2.Các phương pháp phân loại ý kiến 18

3.2.1.Các phương pháp phân loại ý kiến mức văn bản 18

2.2.2.Phương pháp phân loại ý kiến ở mức câu 23

Trang 5

2.3 Phân loại dựa trên thông tin quan hệ 24

2.3.1 Quan hệ giữa các câu và các văn bản 24

2.3.2 Quan hệ giữa các thành phần thảo luận 24

2.3.3 Quan hệ giữa các đặc tính của sản phẩm 24

CHƯƠNG IV: THỬ NGHIỆM 26

3.1.Kỹ thuật giải quyết bài toán 26

3.1.1 Kỹ thuật tiếp cận dựa trên từ điển 26

3.1.2 Kỹ thuật tiếp cận dựa vào kho ngữ liệu 26

3.2 Chương trình minh họa 26

3.2.1 Bài toán 26

3.2.2 Ý tưởng giải quyết bài toán 26

3.3.3.Chương trình 26

KẾT LUẬN 28

TÀI LIỆU THAM KHẢO 29

Trang 6

CHƯƠNG I: GIỚI THIỆU ĐỀ TÀI

1.1 Lý do chọn đề tài

 Khi đưa ra quyết định sử dụng một dịch vụ hay mua một món hàng nào đó thì

đa số chúng ta ai cũng muốn tham khảo ý kiến của những người đã sử dụng dich vụ hay sản phẩm này

 Do vậy, nhu cầu về một hệ thống tập trung xử lí,phân tích ý kiến trở nên rõ ràng và thiết yếu

 Phân tích ý kiến và cảm xúc là một bài toán mới trong lĩnh vực Xử lý ngôn ngữ tự nhiên

1.2 Mục tiêu đề tài

Mục tiêu tìm hiểu của đề tài là khai thác và tổng hợp lại những ý kiến bày tỏ, nhận xét của khách hàng về những sản phẩm hoặc dịch vụ được thu thập từ internet nhằm đạt được kết quả như sau:

 Xây dựng một hệ thống xử lý nhằm phân tích mức tình cảm trong một đoạn bình luận bao gồm nhiều câu nhận xét, sau đó đánh giá xem ứng với mỗi câu trong đoạn nhận xét là tích cực hay không tích cực

 Loại trừ được những câu nhận xét vô nghĩa không liên quan tới sản phẩm hoặc dịch vụ liên quan

 Tìm hiểu giải thuật về vấn đề khai thác ý kiến và phân tích tình cảm (Opinion Mining and Sentiment Analysis)

Các phương pháp được sử dụng cho việc khai thác và tổng hợp trong phạm vi của

đề tài này tôi đề cập đến việc dùng Ontology kết hợp với một số kỹ thuật xử lý ngôn

ngữ tự nhiên là một cách để giải quyết vấn đề

Trang 7

CHƯƠNG II: TỔNG QUAN VỀ PHÂN TÍCH Ý KIẾN CHỦ QUAN

Chương 1 giới thiệu tổng quan về vấn đề phân tích ý kiến, khái niệm và một

số dạng phân tích ý kiến như: phân loại ý kiến, phân tích cảm nhận của người dùng trên từng đặc tính của sản phẩm, xác định xu hướng tình cảm từ các câu so sánh giữa các sản phẩm, và một số nghiên cứu thực tế về các dạng này đã được công bố

2.1 Phân tích ý kiến

2.1.1 Khái niệm và mô hình phân tích ý kiến

Giống bất kỳ vấn đề khoa học nào, trước khi giải quyết nó chúng ta cần định nghĩa hoặc mô hình hóa vấn đề Việc mô hình hóa này sẽ đưa ra các định nghĩa cơ bản, khái niệm cốt lõi và các vấn đề cũng như các đối tượng mục tiêu Chúng ta sử dụng thuật ngữ đối tượng để gọi thực thể mục tiêu được nhận xét Một đối tượng có thể có một tập hợp các thành phần, và thuộc tính, chúng ta gọi chung là đặc tính của nó

Đối tượng: một đối tượng là một thực thể, có thể là sản phẩm, con người, sự

kiện, tổ chức hoặc một chủ đề

Gọi một tài liệu ý kiến là d, có thể là nhận xét sản phẩm, một bài viết trên diễn đàn, hoặc một bài nhật ký cá nhân, đánh giá một tập các đối tượng Trong trường hợp tổng quát nhất, d bao gồm một chuỗi các câu d = < S1, S2, S3…,Sm>

Đoạn ý kiến về một đặc tính: một đoạn ý kiến về đặc tính của đối tượng đánh

giá trong một nhóm các câu nối tiếp nhau trong d thể hiện ý kiến tích cực hoặc tiêu cực về đối tượng đó

Đặc tính ẩn và đặc tính rõ ràng: nếu một đặc tính hoặc từ đồng nghĩa của

nó xuất hiện trong một câu, đặc tính đó được gọi là đặc tính rõ ràng Nếu không có đặc tính hay từ đồng nghĩa của nó xuất hiện, nhưng lại ám chỉ đặc tính thì nó được gọi là một đặc tính ẩn trong câu

Người giữ ý kiến: là một người hoặc tổ chức đưa ra ý kiến đó Người giữ ý

kiến cũng được gọi là nguồn ý kiến

Câu chủ quan: Một câu khách quan thể hiện một vài thông tin thực tế về thế

giới, trong khi câu chủ quan thể hiện cảm giác hoặc niềm tin của một cá nhân

Ý kiến rõ ràng và ý kiến không rõ ràng: Một ý kiến rõ ràng về đặc tính f là

một ý kiến được thể hiện một cách rõ ràng về f trong một câu chủ quan Một ý kiến không rõ ràng về đặc tính f là một ý kiến được ám chỉ trong một câu khách quan

Câu có ý kiến: một câu có ý kiến là câu thể hiện rõ ràng hoặc ám chỉ ý kiến

tích cực hay tiêu cực

Trang 8

• s ijkl : Ý kiến về khía cạnh aij của thực thể ei(đặc tính)

• h k : Người nêu ý kiến

• t l: Thời điểm đưa ra ý kiến của người h k

Xác định thực thể Ví dụ : cameras

Xác định các khía cạnh của thực thể Ví dụ: picture, image, and photo

Xác định cách biểu diễn rõ khía cạnh thực thể: Ví dụ, " picture quality” in “The

picture quality of this camera is great” "là một biểu hiện khía cạnh rõ ràng

 Phân tích mục đích của ý kiến dựa vào 5 thành phần trong tài liệu

d(document)

Xác định cách biểu diễn ẩn khía cạnh của thực thể Ví dụ: “expensive” ngụ ý

nói “This camera is expensive” là một biểu hiện ẩn khía cảnh của thực thể máy ảnh

Mô hình một văn bản ý kiến:

Mô hình thực thể (Model of entity): ei đại diện cho một tập các khía cạnh ai j: Ai= {ai 1, ai 2, …, ai n} Với mỗi ai j єAi của thực thể eithì ta có thể biểu diễn {aei j 1, aei j 2, …, aei j m}

Mô hình ý kiến tài liệu(Model of opinion document ): Là một tập

hợp các thực thể {e1, e2, …,er} và một tập hợp các đối tượng đưa

ra ý kiến tại một thời điểm xác định cụ thể : {h1, h2, …,hp}

 Để tổng hợp các ý kiến ta thực hiện các nhiệm vụ(Task) sau đây:

- Task1: Xác định thực thể và nhóm lại thành một nhóm

- Task2: Xác định các khía cạnh liên quan và nhóm thành một nhóm

- Task 3: Xác định người đưa ý kiến và người nhận ý kiến

- Task 4:Xác định thời gian đưa ra ý kiến và chuẩn hóa các định dạng

thời gian khác nhau

- Task 5: Xác định cảm xúc của các câu ý kiến trong tài liệu

Trang 9

- Task 6: Xác định 5 thành phần: (ei, aij, sijkl, hk, tl)

Mục đích của việc phai phá các ý kiến trực tiếp:

Cho một tài liệu ý kiến d:

 Phát hiện ra tất cả các bộ 5 ý kiến (ei, aij, sijkl, hk, tl) trong d

 Xác định tất cả những từ đồng nghĩa và các từ chỉ đặc tính sijkl của mỗi khía cạnh trong d

2.1.2.Các ứng dụng với phân tích ý kiến

 Trong thực tế, các doanh nghiệp và tổ chức luôn luôn muốn tìm hiểu người tiêu dùng hoặc ý kiến của họ về họ sản phẩm và dịch vụ của công ty Còn người tiêu dùng cũng cần tham khảo ý kiến của người khác về sản phẩm trước khi mua sản phẩm đó

 Với sự phát triển của công nghệ như hiện nay thì việc tham khảo ý kiến của người khác trên các diễn dàn mạng xã hội là rất phổ biển và mang lại nhiều lợi ích cho người sử dụng dịch vụ và công ty sản xuất

 Hiện nay có rất nhiều ứng dụng về lĩnh vực Phân tích cảm xúc và tham khảo ý kiến (“Sentiment Analysis and Opinion Mining”) được triển khai trên thế giới

2.2 Một số dạng phân tích ý kiến

2.2.1 Phân loại ý kiến khách quan-chủ quan,tích cực-tiêu cực

Dạng này xem phân tích ý kiến như là một vấn đề phân loại văn bản Hai chủ

đề nhỏ đã được nghiên cứu mở rộng gồm:

1 – Phân loại văn bản chứa ý kiến có thể hiện ý kiến tích cực hay tiêu cực,

2 – Phân loại một câu hoặc một mệnh đề của câu là chủ quan hay khách quan, và một câu hoặc một mệnh đề chủ quan xem nó thể hiện ý kiến tích cực, tiêu cực, hay trung lập

2.2.2 Tổng hợp phân tích ý kiến dựa trên đặc tính sản phẩm

Mô hình này trước tiên sẽ khám phá các đối tượng được thể hiện ý kiến trong một câu, và sau đó xác định xem ý kiến là tích cực, tiêu cực, hay trung lập Mục tiêu nhận xét là các đối tượng và thành phần của nó, đặc tính chức năng… Một đối tượng có thể là một sản phẩm, dịch vụ, một cá nhân hay tổ chức nào đó, một

sự kiện, một chủ đề Cụ thể, trong một câu nhận xét một sản phẩm, nó xác định các đặc điểm của sản phẩm đã được nhận xét và xác định xem nhận xét đó tích cực hay tiêu cực

Trang 10

2.2.3 Phân tích ý kiến dựa trên các câu so sánh

Việc đánh giá đối tượng có thể thực hiện theo hai cách chính, trực tiếp thẩm định hoặc so sánh Trực tiếp thẩm định, gọi là ý kiến trực tiếp, đưa ra ý kiến tích cực, tiêu cực và đối tượng mà không nhắc tới các đối tượng tương tự khác So sánh có nghĩa là so sánh đối tượng với các đối tượng tương tự ( như các sản phẩm cạnh tranh)

2.3 Một số ví dụ

2.3.1 Ví dụ 1

Ví dụ câu:“Chất lượng của điện thoại iPhone gọi thì tốt, nhưng tuổi thọ pin của

lại ngắn“

• Đánh giá hai khía cạnh, chất lượng cuộc gọi và pin, của iPhone (thực thể)

• Tình cảm trên chất lượng cuộc gọi iPhone là tích cực, nhưng tình cảm về tuổi thọ pin của nó là tiêu cực Chất lượng cuộc gọi và Tuổi thọ pin của iPhone là mục tiêu cần đánh giá

• Dựa trên mức độ phân tích thì cấp độ Entity and Aspect bao gồm cả hai cấp độ

là Document và Sentence

2.3.2 Ví dụ 2

1 This camera sucks,” nhưng cũng có thể hiểu theo ví dụ này “This vacuum

cleaner really sucks

2 Can you tell me which Sony camera is good?” and “If I can find a good camera

in the shop, I will buy it.” Nhưng cả hai câu đều không nêu rõ là tình cảm tiêu

cực hay tiêu cực mà chỉ nêu ý kiến chung chung dạng câu hỏi

3 What a great car! It stopped working in two days Ngụ ý chê bai chiếc xe có

chất lượng kém, nhưng lại nghe theo kiểu châm biếm

4 This washer uses a lot of water Mặc dù trong câu không có yếu tố từ vững tình cảm nhưng nói lên ý tiêu cực về cái máy giặt rất tốn nước

2.3.2 Ví dụ 3

Posted by: bigJohn Date: Sept 15, 2011

(1) I bought a Samsung camera and my friends brought a Canon camera yesterday (2) In the past week, we both used the cameras a lot (3) The photos from

my Samy are not that great, and the battery life is short too (4) My friend was very happy with his camera and loves its picture quality (5) I want a camera that can take good photos (6) I am going to return it tomorrow

Trang 11

• Task 1: Samsung, Canon

• Task 2: Photos, picture, battery life

• Task 3: bigJohn , bigJohn‟s friend

• Task 4: Sept-15-2011

• Task 5: sentence (3), battery life-negative, Sentence (4), picture

quality-positive, Sentence (5), his camera- positive

• Task 6: Xác định 5 thành phần (ei, aij, sijkl, hk, tl)

- (Samsung, picture_quality, negative, bigJohn, Sept-15-2011)

- (Samsung, battery_life, negative, bigJohn, Sept-15-2011)

- (Canon, general, positive, bigJohn‟s_friend, Sept-15-2011)

- (Canon, picture_quality, positive, bigJohn‟s_friend, Sept-15-2011)

2.4 Các nghiên cứu liên quan

2.4.1 Khai thác và đánh giá những lời bình phẩm của khách hàng

Nhu cầu của con người trong cuộc sống ngày càng được nâng cao, cùng với sự phát triển mạnh mẽ của mạng internet đã đem đến cho con người những dịch vụ hoặc những sản phẩm tiện ích, nó làm khoảng cách giữa người tiêu dùng và nhà cung cấp ngày một xích lại gần hơn

Trên thị trường hiện nay, đối với một sản phẩm như là điện thoại, máy tính, … người tiêu dùng không chỉ quan tâm tới giá cả mà còn đặc biệt quan tâm tới những tính năng, chức năng cơ bản của nó có thỏa mãn được nhu cầu của mình hay không?

Chính vì lẽ đó, trong bài nghiên cứu [Hu, M và Liu, B, 2004] đã đưa ra phương pháp xác định các ý kiến của những khách hàng về những tính năng của những sản phẩm mà mình đã từng sử dụng, qua đó sẽ giúp cho những khách hàng tiềm năng cũng như là nhà sản xuất biết được những đánh giá tích cực hay là không tích cực về một tính năng nào đó của sản phẩm mà họ đang quan tâm để họ có những quyết định dễ dàng hơn

Ví dụ về việc đánh giá về những tính năng của một máy ảnh như là: độ phân giải cao hay thấp, chức năng quay camera tốt hay không, đèn flash có hoạt động tốt hay không, …

Một phương pháp trong bài nghiên cứu [Hu, M và Liu, B, 2004] đã đưa ra để thực hiện những công việc nêu trên là:

(1) Trước hết tác giả dùng hai kỹ thuật khai phá dữ liệu (Data Mining) và xử lý ngôn ngữ tự nhiên (Natural Language Processing) để thu thập những tính

Trang 12

năng trên một sản phẩm, mà những tính năng này được nhắc tới trong các bình luận của khách hàng [Nicolas Nicolov, Franco Salvetti và Steliana Ivanova, 2008]

(2) Tiến hành nhận định những câu ý kiến trong mỗi đoạn bình luận và đánh giá liệu rằng mỗi câu ý kiến đó là tích cực (positive) hay không tích cực (negative) Chú ý rằng những câu ý kiến này phải chứa ít nhất một tính năng

đã được xác định ở trên Để đánh giá mức độ tích cực của mỗi câu tác giả đã tiến hành như sau:

 Đầu tiên, tác giả sử dụng phương pháp xử lý ngôn ngữ tự nhiên để tìm ra một tập hợp danh sách các tính từ (những từ thông thường để bày tỏ tình cảm)

 Tiếp theo, đối với mỗi tính từ trong tập hợp được xác định ở trên, tác giả tiến hành xác định ngữ nghĩa của đối tượng (tích cực hoặc là không tích cực) Tác giả đã sử dụng kỹ thuật Bootstrapping kết hợp với WordNet

 Cuối cùng, tác giả đánh giá mức độ tích cực trong mỗi câu

(3) Tổng hợp ra kết quả

Như vậy, tác giả không kết luận một cách tổng quát của một tập bình luận mà

đã đi sâu vào từng tính năng của sản phẩm Vì thế có thể đánh giá được nhiều thông tin hơn của một sản phẩm cụ thể, từ đó giúp cho những khách hàng tiềm năng hiểu rõ hơn

về sản phẩm mà mình muốn mua

2.4.2 Phân tích những ý kiến dự đoán trên trang Web

Trong thời đại bùng nổ công nghệ thông tin như hiện nay, việc các công ty hay một tổ chức tự xây dựng cho mình một trang Web là rất phổ biến, trang Web này như

là một kênh thông tin riêng Ở đó, họ có thể giới thiệu những gì mà họ đang làm như là các sản phẩm, các dịch vụ, các cuộc thảo luận về vấn đề xã hội, buôn bán, thu thập ý kiến của khách hàng …

Trong bài nghiên cứu [Hu M, và Liu B, 2004] tác giả thường phân tích và khai thác các ý kiến đánh giá của khách hàng trên các sản phẩm như là điện thoại, máy ảnh, máy tính, sách, phim ảnh,… Những ý kiến này thường thể hiện là thích hay không thích các sản phẩm đó, người ta gọi những ý kiến này là những ý kiến nhận định hoặc phán xét Và trong bài nghiên cứu [Soo – Min Kim và Eduard Hovy, 2007] tác giả đề cập tới một ý kiến khác với những nghiên cứu trên mà tác giả gọi là ý kiến dự đoán Ta

đã nghe khá nhiều về những ý kiến dự đoán về tương lai của một chủ đề như là về thị trường bất động sản, kết quả của các trận đấu bóng đá hay là các cuộc bầu cử,…

Trang 13

Những dự đoán này thường dựa trên niềm tin và kiến thức của người đưa ra dự đoán là chính (thường là các chuyên gia) Ví dụ trong câu: “Giá của bất động sản sẽ được giảm xuống trong vài tháng tới”, như ta thấy đây là một câu dự đoán ở tương lai về thị trường bất động sản và trong câu này nó cũng thể hiện mặt tích cực trong vế “giá bất động sản sẽ giảm”

Cụ thể, trong bài [Soo – Min Kim và Eduard Hovy, 2007] tác giả đã thí nghiệm trên tập các ý kiến dự đoán trên Web của một cuộc bầu cử Mục đích của tác giả là phân tích tự động tập ý kiến rất lớn từ những người dùng đã bày tỏ trên Web, từ đó rút

ra được Đảng nào đang chiếm ưu thế về niềm tin của người dân và đưa ra được con số phần trăm thắng cử của mỗi Đảng tham gia vào cuộc bầu cử này Vì thế tác giả đã đưa

ra mô hình đánh giá như sau:

ElectionPredictionOpinion = (Party, Valence)

Party: là Đảng mà người bình luận đang muốn nói đến

Valence: là tỷ lệ phần trăm thắng cử mà hệ thống tính toán được

Tác giả cũng xây dựng hệ thống này gồm có ba bước chính được huấn luyện bởi học máy sử dụng chức năng n-gram và SVM để lượng giá:

(1) Chức năng tổng quát hóa: chức năng này làm công việc xác định những ai liên quan đến Đảng mà đang nói đến trong câu thì quy về tên của Đảng mà người đó đang làm việc

(2) Phân loại và đánh giá từng câu ý kiến dự đoán sử dụng kỹ thuật SVM dựa trên mô hình (Party, Valence)

(3) Tổng hợp lại tất cả các phân loại mà bước (2) đã làm và đưa ra được kết quả

là phần trăm của Đảng được dự đoán là thắng cuộc

Như vậy, ưu điểm của hệ thống trên là việc tổng quát hóa các đối tượng liên quan lại thành một đối tượng để đánh giá, việc này giúp cho việc đánh giá được chính xác hơn

2.4.3 Xây dựng một miền Ontology tự động từ một mạng ngữ nghĩa

 Khái niệm Ontology

Ontology là một thuật ngữ mượn từ triết học nhằm chỉ khoa học mô tả các loại thực thể trong thế giới thực và cách chúng liên kết với nhau Trong khoa học máy tính, một cách khái quát, “Ontology là mô hình khái niệm trong phạm vi ứng dụng nhất định, có thể chia sẻ và thực thi trên máy tính” [A Maedche & B.Motick & L.Stojanvic, 2003] Nó cung cấp một bộ từ vựng chung bao gồm các khái niệm, các thuộc tính quan trọng và các định nghĩa về các khái niệm và các thuộc tính này

Trang 14

Ngoài bộ từ vựng, Ontology còn cung cấp các ràng buộc, đôi khi các ràng buộc này được coi như các giả định cơ sở về ý nghĩa mong muốn của bộ từ vựng, nó được sử dụng trong một miền mà có thể được giao tiếp giữa người và các hệ thống ứng dụng phân tán khác

Ngoài ra, từ vựng trong một Ontology có thể được biểu diễn bằng các khái niệm và các quan hệ được đặt tên và các định nghĩa khái niệm có thể được biểu diễn bằng các giới thiệu tương đương Các giả định cơ sở có thể được biểu diễn bằng các tiên đề khái niệm và quan hệ khái quát Đôi khi một Ontology tương ứng với một cơ

sở tri thức logic mô tả Một Ontology cũng chứa các trường hợp của các khái niệm và các mối quan hệ quan trọng của các cá thể này, nó được biểu diễn bằng các khẳng định của logic mô tả

Như vậy, Ontology có khuynh hướng xuất hiện ở mọi nơi Ontology được sử dụng trong các lĩnh vực trí tuệ nhân tạo, Web ngữ nghĩa, kỹ thuật phần mềm, sinh-y tin học, khoa học thư viện và kiến trúc thông tin như một dạng biểu diễn tri thức về thế giới hay một phần của nó Ontology là một giải pháp đơn giản nhưng hiệu quả cho nhiều ứng dụng như tích hợp thông tin, các hệ thống ngang hàng, thương mại điện tử, các dịch vụ Web ngữ nghĩa, các mạng xã hội, … Chúng thực sự là những phương tiện thiết thực để khái niệm hóa những thứ cần được biểu diễn theo định dạng của máy tính

 Các phần tử trong Ontology

Các Ontology hiện nay đều có nhiều điểm tương tự về mặt cấu trúc, bất kể ngôn ngữ được dùng để biểu diễn Hầu hết các Ontology đều mô tả các đối tượng (thể hiện), lớp (khái niệm), thuộc tính và các quan hệ

a) Các cá thể (Individuals)

Các cá thể là các thành phần cơ bản, nền tảng của một Ontology Các cá thể trong một Ontology có thể bao gồm các đối tượng cụ thể như con người, nơi chốn, sản phẩm, tổ chức… cũng như các cá thể trừu tượng như các thành viên hay các từ Một Ontology có thể không cần bất kỳ một cá thể nào, nhưng một trong những lý do chính của một Ontology là để cung cấp một ngữ nghĩa của việc phân lớp các cá thể, mặc dù các cá thể này không thực sự là một phần của Ontology

b) Các lớp (Classes)

Các lớp là các nhóm, tập hợp các đối tượng trừu tượng Chúng có thể chứa các

cá thể, các lớp khác, hay là sự phối hợp của cả hai.Các Ontology biến đổi tùy thuộc vào cấu trúc và nội dung của nó: Một lớp có thể chứa các lớp con, có thể là một lớp tổng quan chứa tất cả mọi thứ, có thể là lớp chỉ chứa những cá thể riêng lẻ Một lớp có

Ngày đăng: 25/08/2021, 15:33

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w