Mục tiêu đề tài Mục tiêu tìm hiểu của đề tài là khai thác và tổng hợp lại những ý kiến bày tỏ, nhận xét của khách hàng về những sản phẩm hoặc dịch vụ được thu thập từ internet nhằm đạt
Trang 2LỜI CÁM ƠN
Trong khoảng thời gian học tập và rèn luyện tại trường Đại học Vinh, em xin chân thành cảm ơn tất cả thầy cô trong trường nói chung và trong Khoa Công nghệ thông tin nói riêng đã tận tình giảng dạy, hướng dẫn, truyền đạt những kiến thức, kinh nghiệm quý báu cho em Với những kiến thức đó, em thực sự tự tin trở thành một kỹ sư công nghệ thông tin
Đặc biệt, em xin gửi lời cảm ơn chân thành đến cô giáo Nguyên Thị Uyên, người
đã tận tình hướng dẫn, định hướng, giúp đỡ và truyền đạt những kinh nghiệm, phương pháp nghiên cứu khoa học cho em trong suốt quá trình thực hiện đề tài đồ án tốt nghiệp này
Cuối cùng, tôi cũng xin gửi lời cảm ơn đến người thân, bạn bè đã luôn đứng bên cạnh tôi để động viên, ủng hộ về vật chất lẫn tinh thần trong suốt thời gian qua
Em xin chân thành cảm ơn !
Vinh, ngày 10 tháng 12 năm 2014
Người viết báo cáo
Nguyễn Thị Thảo
Trang 3LỜI MỞ ĐẦU
Trong thời đại kinh tế thị trường cùng với sự phát triển như vũ bão của Công nghệ thông tin đã làm thay đổi thế giới, đặc biệt về lĩnh vực kinh doanh Khi mà thương mại điện tử ra đời thì khoảng cách giữa khánh hàng và người bán dường như xích lại gần nhau hơn, hiểu nhau dễ dàng hơn bằng cách người bán hàng luôn luôn phải biết được khách hàng tiềm năng của mình đang muốn gì để đưa vào sản xuất các sản phẩm theo như mong muốn của họ Như vậy, trong một ngày cả người mua lẫn người bán phải đọc hàng trăm, hàng triệu lời nhận xét về các sản phẩm mới có được những thông tin cần thiết trước khi đưa ra quyết định mua sản phẩm hoặc sản xuất sản phẩm Việc làm này mất rất nhiều thời gian và không hiệu quả khi con người không thể đọc và phân loại hết được những lời nhận xét đó
Có rất nhiều nghiên cứu về khai thác ý kiến đã được thực hiện Tuy nhiên, các nghiên cứu này đều tập trung vào việc xử lý tiếng Anh trên những tập dữ liệu lớn Các nghiên cứu về tự động phân tích ý kiến của người dùng từ các tài liệu tiếng Việt còn khá
ít, gây khó khăn cho việc xây dựng các ứng dụng thực tế, cũng như kiểm chứng các kỹ thuật đã được áp dụng thành công trong phân tích ý kiến trên tiếng Anh
Vì vậy,đồ án này với nội dung “Tìm hiểu các phương pháp thu thập và phân tích ý kiến cảm xúc từ các trang mạng xã hội “Đề tài tập trung nghiên cứu những
vấn đề và phương pháp được dùng trong phân tích ý kiến Từ đó xây dựng và kiểm nghiệm một vài mô hình thực nghiệm cho mục đích phân tích ý kiến và khả năng áp dụng cho tiếng Việt
Đồ án gồm 4 chương:
Chương 1:Giới thiệu đề tài
Chương 2: Tổng quan về phân tích ý kiến chủ quan
Chương 3: Các phương pháp phân tích ý kiến sử dụng kỹ thuật phân loại và xử
lý ngôn ngữ tự nhiên
Chương 4: Thử nghiệm
Trang 4MỤC LỤC
LỜI CÁM ƠN 1
LỜI MỞ ĐẦU 3
MỤC LỤC 4
CHƯƠNG I:GIỚI THIỆU ĐỀ TÀI 6
1.1.Lý do chọn đề tài 6
1.2.Mục tiêu đề tài 6
1.3.Phạm vi đề tài 6
CHƯƠNG II: TỔNG QUAN VỀ PHÂN TÍCH Ý KIẾN CHỦ QUAN 7
2.1 Phân tích ý kiến 7
2.1.1 Khái niệm và mô hình phân tích ý kiến 7
2.1.2.Các ứng dụng với phân tích ý kiến 9
2.2 Một số dạng phân tích ý kiến 9
2.2.1 Phân loại ý kiến khách quan-chủ quan,tích cực-tiêu cực 9
2.2.2 Tổng hợp phân tích ý kiến dựa trên đặc tính sản phẩm 9
2.2.3 Phân tích ý kiến dựa trên các câu so sánh 10
2.3 Một số ví dụ 10
2.3.1.Ví dụ 1 10
2.3.2.Ví dụ 2 10
2.3.2.Ví dụ 3 10
2.4.Các nghiên cứu liên quan 11
2.4.1.Khai thác và đánh giá những lời bình phẩm của khách hàng 11
2.4.2 Phân tích những ý kiến dự đoán trên trang Web 12
2.4.3 Xây dựng một miền Ontology tự động từ một mạng ngữ nghĩa 13
CHƯƠNG I I I : CÁC PHƯƠNG PHÁP PHÂN TÍCH Ý KIẾN SỬ DỤNG KỸ THUẬT PHÂN LOẠI VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN 18
3.1 Phân loại ý kiến 18
3.2.Các phương pháp phân loại ý kiến 18
3.2.1.Các phương pháp phân loại ý kiến mức văn bản 18
2.2.2.Phương pháp phân loại ý kiến ở mức câu 23
Trang 52.3 Phân loại dựa trên thông tin quan hệ 24
2.3.1 Quan hệ giữa các câu và các văn bản 24
2.3.2 Quan hệ giữa các thành phần thảo luận 24
2.3.3 Quan hệ giữa các đặc tính của sản phẩm 24
CHƯƠNG IV: THỬ NGHIỆM 26
3.1.Kỹ thuật giải quyết bài toán 26
3.1.1 Kỹ thuật tiếp cận dựa trên từ điển 26
3.1.2 Kỹ thuật tiếp cận dựa vào kho ngữ liệu 26
3.2 Chương trình minh họa 26
3.2.1 Bài toán 26
3.2.2 Ý tưởng giải quyết bài toán 26
3.3.3.Chương trình 26
KẾT LUẬN 28
TÀI LIỆU THAM KHẢO 29
Trang 6CHƯƠNG I: GIỚI THIỆU ĐỀ TÀI
1.1 Lý do chọn đề tài
Khi đưa ra quyết định sử dụng một dịch vụ hay mua một món hàng nào đó thì
đa số chúng ta ai cũng muốn tham khảo ý kiến của những người đã sử dụng dich vụ hay sản phẩm này
Do vậy, nhu cầu về một hệ thống tập trung xử lí,phân tích ý kiến trở nên rõ ràng và thiết yếu
Phân tích ý kiến và cảm xúc là một bài toán mới trong lĩnh vực Xử lý ngôn ngữ tự nhiên
1.2 Mục tiêu đề tài
Mục tiêu tìm hiểu của đề tài là khai thác và tổng hợp lại những ý kiến bày tỏ, nhận xét của khách hàng về những sản phẩm hoặc dịch vụ được thu thập từ internet nhằm đạt được kết quả như sau:
Xây dựng một hệ thống xử lý nhằm phân tích mức tình cảm trong một đoạn bình luận bao gồm nhiều câu nhận xét, sau đó đánh giá xem ứng với mỗi câu trong đoạn nhận xét là tích cực hay không tích cực
Loại trừ được những câu nhận xét vô nghĩa không liên quan tới sản phẩm hoặc dịch vụ liên quan
Tìm hiểu giải thuật về vấn đề khai thác ý kiến và phân tích tình cảm (Opinion Mining and Sentiment Analysis)
Các phương pháp được sử dụng cho việc khai thác và tổng hợp trong phạm vi của
đề tài này tôi đề cập đến việc dùng Ontology kết hợp với một số kỹ thuật xử lý ngôn
ngữ tự nhiên là một cách để giải quyết vấn đề
Trang 7CHƯƠNG II: TỔNG QUAN VỀ PHÂN TÍCH Ý KIẾN CHỦ QUAN
Chương 1 giới thiệu tổng quan về vấn đề phân tích ý kiến, khái niệm và một
số dạng phân tích ý kiến như: phân loại ý kiến, phân tích cảm nhận của người dùng trên từng đặc tính của sản phẩm, xác định xu hướng tình cảm từ các câu so sánh giữa các sản phẩm, và một số nghiên cứu thực tế về các dạng này đã được công bố
2.1 Phân tích ý kiến
2.1.1 Khái niệm và mô hình phân tích ý kiến
Giống bất kỳ vấn đề khoa học nào, trước khi giải quyết nó chúng ta cần định nghĩa hoặc mô hình hóa vấn đề Việc mô hình hóa này sẽ đưa ra các định nghĩa cơ bản, khái niệm cốt lõi và các vấn đề cũng như các đối tượng mục tiêu Chúng ta sử dụng thuật ngữ đối tượng để gọi thực thể mục tiêu được nhận xét Một đối tượng có thể có một tập hợp các thành phần, và thuộc tính, chúng ta gọi chung là đặc tính của nó
Đối tượng: một đối tượng là một thực thể, có thể là sản phẩm, con người, sự
kiện, tổ chức hoặc một chủ đề
Gọi một tài liệu ý kiến là d, có thể là nhận xét sản phẩm, một bài viết trên diễn đàn, hoặc một bài nhật ký cá nhân, đánh giá một tập các đối tượng Trong trường hợp tổng quát nhất, d bao gồm một chuỗi các câu d = < S1, S2, S3…,Sm>
Đoạn ý kiến về một đặc tính: một đoạn ý kiến về đặc tính của đối tượng đánh
giá trong một nhóm các câu nối tiếp nhau trong d thể hiện ý kiến tích cực hoặc tiêu cực về đối tượng đó
Đặc tính ẩn và đặc tính rõ ràng: nếu một đặc tính hoặc từ đồng nghĩa của
nó xuất hiện trong một câu, đặc tính đó được gọi là đặc tính rõ ràng Nếu không có đặc tính hay từ đồng nghĩa của nó xuất hiện, nhưng lại ám chỉ đặc tính thì nó được gọi là một đặc tính ẩn trong câu
Người giữ ý kiến: là một người hoặc tổ chức đưa ra ý kiến đó Người giữ ý
kiến cũng được gọi là nguồn ý kiến
Câu chủ quan: Một câu khách quan thể hiện một vài thông tin thực tế về thế
giới, trong khi câu chủ quan thể hiện cảm giác hoặc niềm tin của một cá nhân
Ý kiến rõ ràng và ý kiến không rõ ràng: Một ý kiến rõ ràng về đặc tính f là
một ý kiến được thể hiện một cách rõ ràng về f trong một câu chủ quan Một ý kiến không rõ ràng về đặc tính f là một ý kiến được ám chỉ trong một câu khách quan
Câu có ý kiến: một câu có ý kiến là câu thể hiện rõ ràng hoặc ám chỉ ý kiến
tích cực hay tiêu cực
Trang 8• s ijkl : Ý kiến về khía cạnh aij của thực thể ei(đặc tính)
• h k : Người nêu ý kiến
• t l: Thời điểm đưa ra ý kiến của người h k
Xác định thực thể Ví dụ : cameras
Xác định các khía cạnh của thực thể Ví dụ: picture, image, and photo
Xác định cách biểu diễn rõ khía cạnh thực thể: Ví dụ, " picture quality” in “The
picture quality of this camera is great” "là một biểu hiện khía cạnh rõ ràng
Phân tích mục đích của ý kiến dựa vào 5 thành phần trong tài liệu
d(document)
Xác định cách biểu diễn ẩn khía cạnh của thực thể Ví dụ: “expensive” ngụ ý
nói “This camera is expensive” là một biểu hiện ẩn khía cảnh của thực thể máy ảnh
Mô hình một văn bản ý kiến:
Mô hình thực thể (Model of entity): ei đại diện cho một tập các khía cạnh ai j: Ai= {ai 1, ai 2, …, ai n} Với mỗi ai j єAi của thực thể eithì ta có thể biểu diễn {aei j 1, aei j 2, …, aei j m}
Mô hình ý kiến tài liệu(Model of opinion document ): Là một tập
hợp các thực thể {e1, e2, …,er} và một tập hợp các đối tượng đưa
ra ý kiến tại một thời điểm xác định cụ thể : {h1, h2, …,hp}
Để tổng hợp các ý kiến ta thực hiện các nhiệm vụ(Task) sau đây:
- Task1: Xác định thực thể và nhóm lại thành một nhóm
- Task2: Xác định các khía cạnh liên quan và nhóm thành một nhóm
- Task 3: Xác định người đưa ý kiến và người nhận ý kiến
- Task 4:Xác định thời gian đưa ra ý kiến và chuẩn hóa các định dạng
thời gian khác nhau
- Task 5: Xác định cảm xúc của các câu ý kiến trong tài liệu
Trang 9- Task 6: Xác định 5 thành phần: (ei, aij, sijkl, hk, tl)
Mục đích của việc phai phá các ý kiến trực tiếp:
Cho một tài liệu ý kiến d:
Phát hiện ra tất cả các bộ 5 ý kiến (ei, aij, sijkl, hk, tl) trong d
Xác định tất cả những từ đồng nghĩa và các từ chỉ đặc tính sijkl của mỗi khía cạnh trong d
2.1.2.Các ứng dụng với phân tích ý kiến
Trong thực tế, các doanh nghiệp và tổ chức luôn luôn muốn tìm hiểu người tiêu dùng hoặc ý kiến của họ về họ sản phẩm và dịch vụ của công ty Còn người tiêu dùng cũng cần tham khảo ý kiến của người khác về sản phẩm trước khi mua sản phẩm đó
Với sự phát triển của công nghệ như hiện nay thì việc tham khảo ý kiến của người khác trên các diễn dàn mạng xã hội là rất phổ biển và mang lại nhiều lợi ích cho người sử dụng dịch vụ và công ty sản xuất
Hiện nay có rất nhiều ứng dụng về lĩnh vực Phân tích cảm xúc và tham khảo ý kiến (“Sentiment Analysis and Opinion Mining”) được triển khai trên thế giới
2.2 Một số dạng phân tích ý kiến
2.2.1 Phân loại ý kiến khách quan-chủ quan,tích cực-tiêu cực
Dạng này xem phân tích ý kiến như là một vấn đề phân loại văn bản Hai chủ
đề nhỏ đã được nghiên cứu mở rộng gồm:
1 – Phân loại văn bản chứa ý kiến có thể hiện ý kiến tích cực hay tiêu cực,
2 – Phân loại một câu hoặc một mệnh đề của câu là chủ quan hay khách quan, và một câu hoặc một mệnh đề chủ quan xem nó thể hiện ý kiến tích cực, tiêu cực, hay trung lập
2.2.2 Tổng hợp phân tích ý kiến dựa trên đặc tính sản phẩm
Mô hình này trước tiên sẽ khám phá các đối tượng được thể hiện ý kiến trong một câu, và sau đó xác định xem ý kiến là tích cực, tiêu cực, hay trung lập Mục tiêu nhận xét là các đối tượng và thành phần của nó, đặc tính chức năng… Một đối tượng có thể là một sản phẩm, dịch vụ, một cá nhân hay tổ chức nào đó, một
sự kiện, một chủ đề Cụ thể, trong một câu nhận xét một sản phẩm, nó xác định các đặc điểm của sản phẩm đã được nhận xét và xác định xem nhận xét đó tích cực hay tiêu cực
Trang 102.2.3 Phân tích ý kiến dựa trên các câu so sánh
Việc đánh giá đối tượng có thể thực hiện theo hai cách chính, trực tiếp thẩm định hoặc so sánh Trực tiếp thẩm định, gọi là ý kiến trực tiếp, đưa ra ý kiến tích cực, tiêu cực và đối tượng mà không nhắc tới các đối tượng tương tự khác So sánh có nghĩa là so sánh đối tượng với các đối tượng tương tự ( như các sản phẩm cạnh tranh)
2.3 Một số ví dụ
2.3.1 Ví dụ 1
Ví dụ câu:“Chất lượng của điện thoại iPhone gọi thì tốt, nhưng tuổi thọ pin của
lại ngắn“
• Đánh giá hai khía cạnh, chất lượng cuộc gọi và pin, của iPhone (thực thể)
• Tình cảm trên chất lượng cuộc gọi iPhone là tích cực, nhưng tình cảm về tuổi thọ pin của nó là tiêu cực Chất lượng cuộc gọi và Tuổi thọ pin của iPhone là mục tiêu cần đánh giá
• Dựa trên mức độ phân tích thì cấp độ Entity and Aspect bao gồm cả hai cấp độ
là Document và Sentence
2.3.2 Ví dụ 2
1 This camera sucks,” nhưng cũng có thể hiểu theo ví dụ này “This vacuum
cleaner really sucks
2 Can you tell me which Sony camera is good?” and “If I can find a good camera
in the shop, I will buy it.” Nhưng cả hai câu đều không nêu rõ là tình cảm tiêu
cực hay tiêu cực mà chỉ nêu ý kiến chung chung dạng câu hỏi
3 What a great car! It stopped working in two days Ngụ ý chê bai chiếc xe có
chất lượng kém, nhưng lại nghe theo kiểu châm biếm
4 This washer uses a lot of water Mặc dù trong câu không có yếu tố từ vững tình cảm nhưng nói lên ý tiêu cực về cái máy giặt rất tốn nước
2.3.2 Ví dụ 3
Posted by: bigJohn Date: Sept 15, 2011
(1) I bought a Samsung camera and my friends brought a Canon camera yesterday (2) In the past week, we both used the cameras a lot (3) The photos from
my Samy are not that great, and the battery life is short too (4) My friend was very happy with his camera and loves its picture quality (5) I want a camera that can take good photos (6) I am going to return it tomorrow
Trang 11• Task 1: Samsung, Canon
• Task 2: Photos, picture, battery life
• Task 3: bigJohn , bigJohn‟s friend
• Task 4: Sept-15-2011
• Task 5: sentence (3), battery life-negative, Sentence (4), picture
quality-positive, Sentence (5), his camera- positive
• Task 6: Xác định 5 thành phần (ei, aij, sijkl, hk, tl)
- (Samsung, picture_quality, negative, bigJohn, Sept-15-2011)
- (Samsung, battery_life, negative, bigJohn, Sept-15-2011)
- (Canon, general, positive, bigJohn‟s_friend, Sept-15-2011)
- (Canon, picture_quality, positive, bigJohn‟s_friend, Sept-15-2011)
2.4 Các nghiên cứu liên quan
2.4.1 Khai thác và đánh giá những lời bình phẩm của khách hàng
Nhu cầu của con người trong cuộc sống ngày càng được nâng cao, cùng với sự phát triển mạnh mẽ của mạng internet đã đem đến cho con người những dịch vụ hoặc những sản phẩm tiện ích, nó làm khoảng cách giữa người tiêu dùng và nhà cung cấp ngày một xích lại gần hơn
Trên thị trường hiện nay, đối với một sản phẩm như là điện thoại, máy tính, … người tiêu dùng không chỉ quan tâm tới giá cả mà còn đặc biệt quan tâm tới những tính năng, chức năng cơ bản của nó có thỏa mãn được nhu cầu của mình hay không?
Chính vì lẽ đó, trong bài nghiên cứu [Hu, M và Liu, B, 2004] đã đưa ra phương pháp xác định các ý kiến của những khách hàng về những tính năng của những sản phẩm mà mình đã từng sử dụng, qua đó sẽ giúp cho những khách hàng tiềm năng cũng như là nhà sản xuất biết được những đánh giá tích cực hay là không tích cực về một tính năng nào đó của sản phẩm mà họ đang quan tâm để họ có những quyết định dễ dàng hơn
Ví dụ về việc đánh giá về những tính năng của một máy ảnh như là: độ phân giải cao hay thấp, chức năng quay camera tốt hay không, đèn flash có hoạt động tốt hay không, …
Một phương pháp trong bài nghiên cứu [Hu, M và Liu, B, 2004] đã đưa ra để thực hiện những công việc nêu trên là:
(1) Trước hết tác giả dùng hai kỹ thuật khai phá dữ liệu (Data Mining) và xử lý ngôn ngữ tự nhiên (Natural Language Processing) để thu thập những tính
Trang 12năng trên một sản phẩm, mà những tính năng này được nhắc tới trong các bình luận của khách hàng [Nicolas Nicolov, Franco Salvetti và Steliana Ivanova, 2008]
(2) Tiến hành nhận định những câu ý kiến trong mỗi đoạn bình luận và đánh giá liệu rằng mỗi câu ý kiến đó là tích cực (positive) hay không tích cực (negative) Chú ý rằng những câu ý kiến này phải chứa ít nhất một tính năng
đã được xác định ở trên Để đánh giá mức độ tích cực của mỗi câu tác giả đã tiến hành như sau:
Đầu tiên, tác giả sử dụng phương pháp xử lý ngôn ngữ tự nhiên để tìm ra một tập hợp danh sách các tính từ (những từ thông thường để bày tỏ tình cảm)
Tiếp theo, đối với mỗi tính từ trong tập hợp được xác định ở trên, tác giả tiến hành xác định ngữ nghĩa của đối tượng (tích cực hoặc là không tích cực) Tác giả đã sử dụng kỹ thuật Bootstrapping kết hợp với WordNet
Cuối cùng, tác giả đánh giá mức độ tích cực trong mỗi câu
(3) Tổng hợp ra kết quả
Như vậy, tác giả không kết luận một cách tổng quát của một tập bình luận mà
đã đi sâu vào từng tính năng của sản phẩm Vì thế có thể đánh giá được nhiều thông tin hơn của một sản phẩm cụ thể, từ đó giúp cho những khách hàng tiềm năng hiểu rõ hơn
về sản phẩm mà mình muốn mua
2.4.2 Phân tích những ý kiến dự đoán trên trang Web
Trong thời đại bùng nổ công nghệ thông tin như hiện nay, việc các công ty hay một tổ chức tự xây dựng cho mình một trang Web là rất phổ biến, trang Web này như
là một kênh thông tin riêng Ở đó, họ có thể giới thiệu những gì mà họ đang làm như là các sản phẩm, các dịch vụ, các cuộc thảo luận về vấn đề xã hội, buôn bán, thu thập ý kiến của khách hàng …
Trong bài nghiên cứu [Hu M, và Liu B, 2004] tác giả thường phân tích và khai thác các ý kiến đánh giá của khách hàng trên các sản phẩm như là điện thoại, máy ảnh, máy tính, sách, phim ảnh,… Những ý kiến này thường thể hiện là thích hay không thích các sản phẩm đó, người ta gọi những ý kiến này là những ý kiến nhận định hoặc phán xét Và trong bài nghiên cứu [Soo – Min Kim và Eduard Hovy, 2007] tác giả đề cập tới một ý kiến khác với những nghiên cứu trên mà tác giả gọi là ý kiến dự đoán Ta
đã nghe khá nhiều về những ý kiến dự đoán về tương lai của một chủ đề như là về thị trường bất động sản, kết quả của các trận đấu bóng đá hay là các cuộc bầu cử,…
Trang 13Những dự đoán này thường dựa trên niềm tin và kiến thức của người đưa ra dự đoán là chính (thường là các chuyên gia) Ví dụ trong câu: “Giá của bất động sản sẽ được giảm xuống trong vài tháng tới”, như ta thấy đây là một câu dự đoán ở tương lai về thị trường bất động sản và trong câu này nó cũng thể hiện mặt tích cực trong vế “giá bất động sản sẽ giảm”
Cụ thể, trong bài [Soo – Min Kim và Eduard Hovy, 2007] tác giả đã thí nghiệm trên tập các ý kiến dự đoán trên Web của một cuộc bầu cử Mục đích của tác giả là phân tích tự động tập ý kiến rất lớn từ những người dùng đã bày tỏ trên Web, từ đó rút
ra được Đảng nào đang chiếm ưu thế về niềm tin của người dân và đưa ra được con số phần trăm thắng cử của mỗi Đảng tham gia vào cuộc bầu cử này Vì thế tác giả đã đưa
ra mô hình đánh giá như sau:
ElectionPredictionOpinion = (Party, Valence)
Party: là Đảng mà người bình luận đang muốn nói đến
Valence: là tỷ lệ phần trăm thắng cử mà hệ thống tính toán được
Tác giả cũng xây dựng hệ thống này gồm có ba bước chính được huấn luyện bởi học máy sử dụng chức năng n-gram và SVM để lượng giá:
(1) Chức năng tổng quát hóa: chức năng này làm công việc xác định những ai liên quan đến Đảng mà đang nói đến trong câu thì quy về tên của Đảng mà người đó đang làm việc
(2) Phân loại và đánh giá từng câu ý kiến dự đoán sử dụng kỹ thuật SVM dựa trên mô hình (Party, Valence)
(3) Tổng hợp lại tất cả các phân loại mà bước (2) đã làm và đưa ra được kết quả
là phần trăm của Đảng được dự đoán là thắng cuộc
Như vậy, ưu điểm của hệ thống trên là việc tổng quát hóa các đối tượng liên quan lại thành một đối tượng để đánh giá, việc này giúp cho việc đánh giá được chính xác hơn
2.4.3 Xây dựng một miền Ontology tự động từ một mạng ngữ nghĩa
Khái niệm Ontology
Ontology là một thuật ngữ mượn từ triết học nhằm chỉ khoa học mô tả các loại thực thể trong thế giới thực và cách chúng liên kết với nhau Trong khoa học máy tính, một cách khái quát, “Ontology là mô hình khái niệm trong phạm vi ứng dụng nhất định, có thể chia sẻ và thực thi trên máy tính” [A Maedche & B.Motick & L.Stojanvic, 2003] Nó cung cấp một bộ từ vựng chung bao gồm các khái niệm, các thuộc tính quan trọng và các định nghĩa về các khái niệm và các thuộc tính này
Trang 14Ngoài bộ từ vựng, Ontology còn cung cấp các ràng buộc, đôi khi các ràng buộc này được coi như các giả định cơ sở về ý nghĩa mong muốn của bộ từ vựng, nó được sử dụng trong một miền mà có thể được giao tiếp giữa người và các hệ thống ứng dụng phân tán khác
Ngoài ra, từ vựng trong một Ontology có thể được biểu diễn bằng các khái niệm và các quan hệ được đặt tên và các định nghĩa khái niệm có thể được biểu diễn bằng các giới thiệu tương đương Các giả định cơ sở có thể được biểu diễn bằng các tiên đề khái niệm và quan hệ khái quát Đôi khi một Ontology tương ứng với một cơ
sở tri thức logic mô tả Một Ontology cũng chứa các trường hợp của các khái niệm và các mối quan hệ quan trọng của các cá thể này, nó được biểu diễn bằng các khẳng định của logic mô tả
Như vậy, Ontology có khuynh hướng xuất hiện ở mọi nơi Ontology được sử dụng trong các lĩnh vực trí tuệ nhân tạo, Web ngữ nghĩa, kỹ thuật phần mềm, sinh-y tin học, khoa học thư viện và kiến trúc thông tin như một dạng biểu diễn tri thức về thế giới hay một phần của nó Ontology là một giải pháp đơn giản nhưng hiệu quả cho nhiều ứng dụng như tích hợp thông tin, các hệ thống ngang hàng, thương mại điện tử, các dịch vụ Web ngữ nghĩa, các mạng xã hội, … Chúng thực sự là những phương tiện thiết thực để khái niệm hóa những thứ cần được biểu diễn theo định dạng của máy tính
Các phần tử trong Ontology
Các Ontology hiện nay đều có nhiều điểm tương tự về mặt cấu trúc, bất kể ngôn ngữ được dùng để biểu diễn Hầu hết các Ontology đều mô tả các đối tượng (thể hiện), lớp (khái niệm), thuộc tính và các quan hệ
a) Các cá thể (Individuals)
Các cá thể là các thành phần cơ bản, nền tảng của một Ontology Các cá thể trong một Ontology có thể bao gồm các đối tượng cụ thể như con người, nơi chốn, sản phẩm, tổ chức… cũng như các cá thể trừu tượng như các thành viên hay các từ Một Ontology có thể không cần bất kỳ một cá thể nào, nhưng một trong những lý do chính của một Ontology là để cung cấp một ngữ nghĩa của việc phân lớp các cá thể, mặc dù các cá thể này không thực sự là một phần của Ontology
b) Các lớp (Classes)
Các lớp là các nhóm, tập hợp các đối tượng trừu tượng Chúng có thể chứa các
cá thể, các lớp khác, hay là sự phối hợp của cả hai.Các Ontology biến đổi tùy thuộc vào cấu trúc và nội dung của nó: Một lớp có thể chứa các lớp con, có thể là một lớp tổng quan chứa tất cả mọi thứ, có thể là lớp chỉ chứa những cá thể riêng lẻ Một lớp có