1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân lớp đa nhãn, đa thể hiện và áp dụng trong quản lý danh tiếng

11 376 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 11
Dung lượng 512,15 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Thị Thơm PHÂN LỚP ĐA NHÃN, ĐA THỂ HIỆN VÀ ÁP DỤNG TRONG QUẢN LÝ DANH TIẾNG LUẬN VĂN THẠC SỸ HÀ NỘI - 2015... ĐẠI HỌC QUỐC GIA H

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phan Thị Thơm

PHÂN LỚP ĐA NHÃN, ĐA THỂ HIỆN VÀ ÁP DỤNG

TRONG QUẢN LÝ DANH TIẾNG

LUẬN VĂN THẠC SỸ

HÀ NỘI - 2015

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phan Thị Thơm

PHÂN LỚP ĐA NHÃN, ĐA THỂ HIỆN VÀ ÁP DỤNG

TRONG QUẢN LÝ DANH TIẾNG

Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin

Mã số: 60.48.01.04

LUẬN VĂN THẠC SỸ

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy

HÀ NỘI – 2015

Trang 3

Lời cảm ơn

Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc tới Thầy giáo, PGS.TS Hà Quang Thụy đã tận tình chỉ bảo, hướng dẫn, động viên và giúp đỡ em trong suốt quá trình thực hiện đề tài luận văn

Em xin gửi lời cảm ơn sâu sắc tới các Thầy Cô trong Khoa Công nghệ thông tin

đã truyền đạt kiến thức quý báu cho em trong sáu năm học vừa qua

Em cũng xin gửi lời cảm ơn tới các thầy cô, các anh chị, các bạn, các em sinh viên trong nhóm “Khai phá dữ liệu” phòng thí nghiệm KT-Sislab và đề tài cấp ĐHQGHN GQ.14.13 đã giúp em rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt luận văn

Con xin nói lên lòng biết ơn vô hạn đối với Cha Mẹ luôn là nguồn động viên, chăm sóc và khích lệ con trên mỗi bước đường học vấn

Cuối cùng, xin chân thành cảm ơn các Anh Chị và Bạn Bè, các thành viên lớp K53CB, K53CLC và K19HTTT đã ủng hộ, giúp đỡ tôi trong suốt thời gian tôi học tập trên giảng đường và thực hiện đề tài luận văn này

Tôi xin chân thành cảm ơn!

Học viên

Phan Thị Thơm

Trang 4

PHÂN LỚP ĐA NHÃN, ĐA THỂ HIỆN VÀ ÁP DỤNG TRONG

QUẢN LÝ DANH TIẾNG Phan Thị Thơm

Khóa K19HTTT, ngành công nghệ thông tin

Tóm tắt Luận văn:

Hệ thống quản lý danh tiếng là một hệ thống quan trọng trong việc quản lý

thương hiệu, đã được sử dụng rộng rãi trong nhiều công ty và tổ chức khác nhau Đối

với mỗi công ty hay sản phẩm, hệ thống quản lý danh tiếng tiến hành thu thập các

nhận xét của người dùng, phân tích quan điểm trong những nhận xét đấy, và tạo ra một

bản tổng kết quan điểm của người dùng về từng lớp đặc trưng của sản phẩm hay công

ty Tuy nhiên, trong một số nhận xét của người dùng thường có chứa nhiều nội dung,

và đa phần là dữ liệu đa nhãn đa thể hiện Vì vậy, vấn đề trọng tâm của hệ thống quản

lý danh tiếng là việc xử lý dữ liệu đa nhãn đa thể hiện

Theo Zhou và cộng sự, 2012 [2], hướng tiếp cận để giải quyết bài toán phân lớp

dữ liệu đa nhãn, đa thể hiện (MIML) là sử dụng phương pháp phân rã bài toán MIML

thành những bài toán đơn giản Trong đó các thuật toán học máy MIML được phát

triển dựa trên các thuật toán học máy nền (SVM, Bayes, Boost, ) như MIMLSVM,

MIML Bayes, MIMLBoost Từ đây luận văn đề xuất một mô hình phân lớp quan điểm

người dùng trong bài toán quản lý danh tiếng bằng cách áp dụng MIMLSVM

Thực nghiệm trên miền dữ liệu là tập nhận xét của người dùng về 1000 khách sạn

ở Việt Nam ở website (http://chudu24.com ) Kết quả phân lớp khi áp dụng phương

pháp phân lớp thông thường SVM là 84.84% và kết quả khi áp dụng mô hình phân lớp

quan điểm luận văn đề xuất là 85.76% Kết quả trên cho thấy phương pháp xây dựng

mô hình phân lớp quan điểm áp dụng MIMLSVM là có tính hiệu quả cao

Trang 5

Lời cam đoan

Tôi xin cam đoan mô hình phân lớp quan điểm người dùng trong bài toán quản lý

thực hiện dưới sự hướng dẫn của PGS.TS Hà Quang Thụy

Tất cả những tham khảo từ các nghiên cứu liên quan đề được nêu nguồn gốc một các rõ ràng từ danh mục tài liệu tham khảo trong luận văn Trong luận văn, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo

Hà Nội, ngày 09 tháng 04 năm 2015

Tác giả

Phan Thị Thơm

Trang 6

Mục lục

Mở đầu Error! Bookmark not defined Chương 1: Giới thiệu chung về quản lý danh tiếng Error! Bookmark not defined 1.1 Tổng quan về hệ thống quản lý danh tiếng Error! Bookmark not defined

1.1.1 Hệ thống quản lý danh tiếng Error! Bookmark not defined 1.1.2 Tầm quan trọng của hệ thống quản lý danh tiếng Error! Bookmark not

defined

1.2 Bài toán phân lớp dữ liệu đa nhãn đa thể hiện trong quản lý danh tiếng Error! Bookmark not defined

Tổng kết chương một Error! Bookmark not defined Chương 2 : Tổng quan về phân lớp đa nhãn đa thể hiện MIML Error! Bookmark not defined

2.1 Phân lớp đa nhãn đa thể hiện Error! Bookmark not defined 2.2 Phương pháp chuyển đổi bài toán học máy MIML Error! Bookmark not defined

2.2.1 MIMLSVM Error! Bookmark not defined 2.2.2 MIMLBOOST Error! Bookmark not defined

Tổng kết chương hai Error! Bookmark not defined

Chương 3: Áp dụng phương pháp MIMLSVM trong bài toán quản lý danh tiếng

Error! Bookmark not defined 3.1 Mô tả phương pháp Error! Bookmark not defined 3.2 Mô hình đề xuất Error! Bookmark not defined 3.3 Pha 1: Huấn luyện mô hình Error! Bookmark not defined

3.3.1 Tiền xử lý và xây dựng vector đặc trưng Error! Bookmark not defined 3.3.2 Chuyển đổi từ MIML thành SIML Error! Bookmark not defined 3.3.3 Chuyển đổi từ SIML thành SISL Error! Bookmark not defined

3.4 Pha 2: Phân lớp sử dụng mô hình huấn luyện Error! Bookmark not defined Tổng kết chương ba Error! Bookmark not defined Chương 4 Thực nghiệm và đánh giá Error! Bookmark not defined 4.1 Môi trường và các công cụ sử dụng thực nghiệm Error! Bookmark not defined

4.1.1 Cấu hình phần cứng Error! Bookmark not defined

Trang 7

4.1.2 Các phần mềm sử dụng Error! Bookmark not defined

4.2 Xây dựng tập dữ liệu thử nghiệm Error! Bookmark not defined 4.3 Thử nghiệm Error! Bookmark not defined 4.4 Kết quả thực nghiệm Error! Bookmark not defined 4.5 Đánh giá hệ thống Error! Bookmark not defined Kết luận Error! Bookmark not defined

Tài liệu tham khảo 11

Trang 8

Danh sách hình vẽ

Hình 1.1 : Sơ đồ phân loại danh tiếng Error! Bookmark not defined Hình 1.2: Hai mô hình hệ thống Error! Bookmark not defined Hình 1.2: Mô hình 3(a) và 3(b) trong thực tế Error! Bookmark not defined Hình 2.1: Dữ liệu đa nhãn đa thể hiện Error! Bookmark not defined Hình 3.1: Mô hình đề xuất Error! Bookmark not defined Hình 3.2 : Bốn tập dữ liệu được tổ chức phân lớp theo chuyển đổi nhị phân Error! Bookmark not defined

Hình 4.1: So sánh 2 thực nghiệm Error! Bookmark not defined

Trang 9

Danh sách bảng biểu

Bảng 4.1 Cấu hình hệ thống thử nghiệm Error! Bookmark not defined Bảng 4.2: Công cụ phần mềm sử dụng Error! Bookmark not defined Bảng 4.3 : Tập dữ liệu thực nghiệm Error! Bookmark not defined Bảng 4.4: Tập dữ liệu huấn luyện Error! Bookmark not defined Bảng 4.5: Kết quả của thực nghiệm 1 Error! Bookmark not defined Bảng 4.6: Kết quả thực nghiệm 2 Error! Bookmark not defined

Trang 10

Danh sách các từ viết tắt

MIML Multi instance multi label

SVM Support Vector Machine

MISL Multi-instance, single-label learning SISL Single-instance single-label learning SIML Single-instance, multi-label learning MIMLSVM Multi instance multi label Support Vector

Machine MIMLBOOST Multi instance multi label boost

Trang 11

Tài liệu tham khảo

[1] Pierce, J “The world internet project report 2009” Technical report, The

World Internet Project, 2008

[2] Z.-H Zhou, M.-L Zhang, S.-J Huang, and Y.-F Li “Multi-instance

multi-label learning” Artificial Intelligence, 2012, 176(1): 2291-2320

[3] Jianjun He, Hong Gu, Zhelong Wang (2012) “Bayesian instance

multi-label learning using Gaussian process prior” Machine Learning, 88 (1-2): 273-295,

July 2012

[4] Yao Wang “Trust and Reputation Management in Decentralized

Systems” A Thesis Submitted to the College of Graduate Studies and Research, 2010

[5] Resnick P and Zeckhauser R., “Trust among Strangers in Internet

Transactions: Empirical Analysis of eBay’s Reputation System” NBER Workshop

on Empirical Studies of Electronic Commerce, 2000

[6] Bing Liu “Opinion Mining & Summarization - Sentiment Analysis”,

Tutorial given at WWW-2008, April 21, 2008 in Beijing

[7] Laudon, J and Laudon, K “Management Information Systems: Managing the

Digital Firm & Multimedia” Prentice Hall, 2007, 10th edition

[8] Stair, R M., Reynolds, G and Reynolds, G W “Principles of Information

System” Course Technology, 2010, 9th edition

[9] Hoffman, K., Zage, D and Nita-Rotaru, C “A survey of attack and defense

techniques for reputation systems” ACM Computing Surveys, 2009 42(1), 1-31

[10] Zheng, W and Jin, L “Online reputation systems in web 2.0 era” In Americas

Conference on Information Systems (AMCIS) Proceedings, 2009 296-306

[11] Grigorios Tsoumakas , Ioannis Katakis “Multi-label Classification : An

Overview” International Journal of Data Warehousing & Mining, 3(3), 1-13,

July-September 2007

[12] Fabrizio Sebastiani “Machine Learning in Automated Text Categorization”

ACM Computing Survey, 34(1) pages 1-47, 2002.

[13] Thi-Ngan Pham, Thi-Thom Phan, Phuoc-Thao Nguyen, Quang-Thuy Ha (2013)."Hidden Topic Models for Multi-label Review Classification: An Experimental

Study", Computational Collective Intelligence Technologies and Applications, Lecture Notes in Computer Science Volume 8083:603-611.

Ngày đăng: 27/08/2016, 22:35

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm