1. Trang chủ
  2. » Kinh Doanh - Tiếp Thị

Khai phá dữ liệu phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập của sinh viên

15 234 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 15
Dung lượng 1,75 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN THÀNH KHAI PHÁ DỮ LIỆU PHƯƠNG TIỆN TRUYỀN THÔNG XÃ HỘI ĐỂ HIỂU KINH NGHIỆM HỌC TẬP CỦA SINH VIÊN LUẬN VĂN THẠC SĨ HỆ THỐNG T

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN VĂN THÀNH

KHAI PHÁ DỮ LIỆU PHƯƠNG TIỆN TRUYỀN THÔNG XÃ HỘI ĐỂ HIỂU KINH NGHIỆM HỌC TẬP CỦA SINH VIÊN

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Hà Nội - 2016

Hà Nội - 2016

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN VĂN THÀNH

KHAI PHÁ DỮ LIỆU PHƯƠNG TIỆN TRUYỀN THÔNG XÃ HỘI

ĐỂ HIỂU KINH NGHIỆM HỌC TẬP CỦA SINH VIÊN

Ngành: Hệ thống Thông Tin Chuyên ngành: Hệ thống Thông Tin

Mã số chuyên ngành: 60480104

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Trần Thị Oanh

Hà Nội – 2016

Trang 3

i

LỜI CAM ĐOAN

Tôi xin cam đoan:

1 Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn của

TS Trần Thị Oanh

2 Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả, thời gian, địa điểm công bố

3 Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, tôi xin chịu hoàn toàn trách nhiệm

Hà Nội, ngày tháng năm 2016

HỌC VIÊN

Nguyễn Văn Thành

Trang 4

ii

LỜI CẢM ƠN

Trước hết, tôi xin bày tỏ lòng biết ơn sâu sắc và chân thành đến giáo viên hướng dẫn TS Trần Thị Oanh, người đã tận tình chỉ bảo tôi trong định hướng nghiên cứu, đề xuất các ý tưởng và giúp đỡ về mặt phương pháp luận cũng như việc kiểm tra cuối cùng đối với luận văn này

Tôi xin chân thành cảm ơn các thày cô trong khoa Công nghệ Thông tin – Đại học Công nghệ - Đại học Quốc gia Hà Nội, khoa Công nghệ Thông tin - Viện Đại học Mở Hà Nội đã giúp đỡ tôi rất nhiều trong quá trình học tập, nghiên cứu và tạo điều kiện giúp tôi trong công tác để tôi có thời gian thực hiện việc học tập và hoàn thành luận văn

Cuối cùng, tôi xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới bố mẹ những người động viên tôi về mặt tinh thần và hỗ trợ nhiều về mọi mặt

HỌC VIÊN

Nguyễn Văn Thành

Trang 5

iii

MỤC LỤC

DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT vi

DANH MỤC CÁC BẢNG vii

DANH MỤC HÌNH VẼ, ĐỒ THỊ viii

MỞ ĐẦU 1

Chương 1: Tổng quan về vấn đề nghiên cứu 3

Khai phá dữ liệu 3

1.1.1 Khái niệm 3

1.1.2 Quy trình khai phá dữ liệu 4

Bài toán khai phá quan điểm trên mạng truyền thông 5

1.2.1 Khái quát khai phá quan điểm 6

1.2.2 Khai phá quan điểm với mạng truyền thông 7

Khai phá quan điểm sinh viên trên phương tiện truyền thông xã hội 8

1.3.1 Giới thiệu bài toán 8

1.3.2 Tình hình nghiên cứu trên thế giới 9

1.3.3 Tình hình nghiên cứu tại Việt Nam 10

1.3.4 Ý nghĩa và mục tiêu của bài toán 11

Kết luận chương 1 12

Chương 2: Các kiến thức nền tảng 13

Giới thiệu 13

2.1.1 Tổng quan về bài toán phân loại 13

2.1.2 Các bước giải quyết bài toán phân loại 13

2.1.3 Bài toán phân lớp văn bản 14

Bài toán phân lớp đa nhãn 14

Một số phương pháp phân lớp đa nhãn 15

2.3.1 Phương pháp chuyển đổi bài toán 16

2.3.2 Phương pháp thích nghi thuật toán 18

Một số mô hình học máy được sử dụng cho bài toán 20

Trang 6

iv

2.4.1 Phân lớp Bayes 20

2.4.2 Cây quyết định 22

Kết luận chương 2 26

Chương 3: Một mô hình giải quyết bài toán khai phá dữ liệu mạng truyền thông để hiểu kinh nghiệm học tập sinh viên 27

Mô hình hoá bài toán 27

3.1.1 Xác định vấn đề và không gian dữ liệu 27

3.1.2 Phát biểu bài toán theo góc độ toán học 27

Một mô hình giải quyết bài toán 28

3.2.1 Mô hình tổng thể 28

3.2.2 Môi trường thực nghiệm 31

Kết luận chương 3 32

Chương 4: Kết quả thực nghiệm 33

Thu thập và tiền xử lý dữ liệu 33

4.1.1 Thu thập dữ liệu 33

4.1.2 Tiền xử lý dữ liệu 34

4.1.3 Lựa chọn tập nhãn và gán nhãn dữ liệu 36

4.1.4 Một số thống kê về bộ dữ liệu 38

Các công cụ phân tích được sử dụng trong luận văn 42

4.2.1 MEKA 42

4.2.2 vnTokenizer 42

Thiết lập thực nghiệm 43

4.3.1 Chuyển đổi dữ liệu 43

4.3.2 Chia tách dữ liệu cho mục đích tập huấn và thử nghiệm 44

4.3.3 Các độ đo đánh giá thực nghiệm 45

Huấn luyện mô hình và kiểm tra 46

4.4.1 Thực nghiệm với Zero Rule để làm cơ sở cho bộ phân lớp 46

4.4.2 Thực nghiệm với Binary Relevance 46

4.4.3 Thực nghiệm với Label Combination 47

Trang 7

v

Kết quả thực nghiệm 47

4.5.1 Thực nghiệm với Zero Rule để làm cơ sở cho bộ phân lớp 47

4.5.2 Thực nghiệm với Binary Relevance 48

4.5.3 Thực nghiệm với Label Combination 50

Phân tích lỗi 52

Kết luận chương 4 53

Chương 5: Kết luận và hướng phát triển tiếp theo 54

TÀI LIỆU THAM KHẢO 56

Trang 8

vi

DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT

1 Tiếng Việt

2 Tiếng Anh

Trang 9

vii

DANH MỤC CÁC BẢNG

Bảng 1.1 So sánh phân lớp đa lớp và phân lớp đa nhãn 9

Bảng 2.1 Mẫu bộ dữ liệu đa nhãn 16

Bảng 2.2 Dữ liệu được chuyển đổi bẳng phương pháp Select Transformation 16

Bảng 2.3 Dữ liệu được chuyển đổi bẳng phương pháp Ignore Transformation 17

Bảng 2.4 So sánh kết quả đầu ra của AdaBoost.MH và AdaBoost.MR 19

Bảng 3.1 Thông số phần cứng môi trường thực nghiệm 32

Trang 10

viii

DANH MỤC HÌNH VẼ, ĐỒ THỊ

Hình 1.1: Quá trình khám phá tri thức 4

Hình 1.2: Quy trình khai phá dữ liệu 4

Hình 2.1: Phương pháp chuyển đổi với Binary Relevance 17

Hình 2.2: Phân phối xác suất bởi LP 18

Hình 3.1: Mơ hình khai phá dữ liệu trao đổi, thảo luận của sinh viên trên diễn đàn 28

Hình 3.2 Mơ hình xử lý của chương trình Crawler 29

Hình 3.3 Mơ tả quá trình chuyển đổi dữ liệu sang định dạng ARFF 30

Hình 4.1: Dữ liệu sau khi tách từ 35

Hình 4.2: Cấu trúc tệp tin CSV chứa dữ liệu đã gán nhãn 37

Hình 4.3: Biểu đồ thống kê các nhãn trong bộ dữ liệu 39

Hình 4.4: Giao diện cơng cụ MEKA 42

Hình 4.5: Cấu trúc tệp tin ARFF của bộ dữ liệu 43

Hình 4.6: Cấu trúc tệp tin ARFF đã được chuyển sang dạng vector 44

Hình 4.7: Minh hoạ cross-validation với k=5 45

Hình 4.8: Giao diện chức năng phân lớp văn bản của cơng cụ MEKA với phương pháp k-fold và Zero Rule 46

Hình 4.9: Giao diện chức năng phân lớp văn bản của cơng cụ MEKA với phương pháp k-fold 47

Hình 4.10: Giao diện chức năng phân lớp văn bản của cơng cụ MEKA với phương pháp k-fold 47

Hình 4.11: Thống kê kết quả phương pháp k-fold với Label Combination và Zero Rule 48 Hình 4.12: Thống kê kết quả phương pháp k-fold với Binary Relevance và Multinomial Nạve Bayes 48

Hình 4.13 Thống kê độ đo của từng nhãn (Threshold=0.9) với Binary Relevance và Multinomial Nạve Bayes 49

Hình 4.14: Thống kê kết quả phương pháp k-fold với Binary Relevance và J48 49

Hình 4.15 Thống kê độ đo của từng nhãn (Threshold=0.1) với Binary Relevance và J48 50 Hình 4.16: Thống kê kết quả phương pháp k-fold với Label Combination và Multinomial Nạve Bayes 50

Hình 4.17 Thống kê độ đo từng nhãn với Label Combination và Multinomial Nạve Bayes 51

Hình 4.18: Thống kê kết quả phương pháp k-fold với Label Combination và J48 51

Hình 4.19 Thống kê độ đo từng nhãn với Label Combination và J48 52

Trang 11

1

MỞ ĐẦU

Trong việc ứng dụng khai phá dữ liệu vào nhiều lĩnh vực khác nhau của đời sống, khai phá dữ liệu trong lĩnh vực giáo dục đang dần có được sự quan tâm đúng mức Cần phải nhìn nhận thẳng rằng giáo dục là nhân tố quyết định sự phát triển của đất nước về nhiều mặt Mục tiêu phát triển xã hội một cách bền vững đang đặt ra cho giáo dục những yêu cầu mới Giáo dục đào tạo có nhiệm vụ định hướng và hoạch định chính sách cho đối tượng chính của giáo dục là thế hệ trẻ, là lực lượng kế thừa của việc xây dựng, bảo vệ và phát triển đất nước trong tương lai một cách đúng đắn và kịp thời

Sự phát triển bùng nổ của Internet trong thế kỷ 21 mang tới sự đa dạng về các phương tiện trao đổi, thảo luận và chia sẻ các hoạt động xã hội trên toàn thế giới Các trang web truyền thông xã hội như Twitter, Facebook, YouTube và các diễn đàn cung cấp địa điểm tuyệt vời cho sinh viên để chia sẻ niềm vui, nỗi buồn cũng như giải toả cảm xúc

và tìm kiếm sự trợ giúp từ mọi người Trên nhiều trang web truyền thông xã hội, sinh viên thảo luận và chia sẻ các vấn đề học tập hàng ngày của họ một cách không gò bó và rất chân thực Các dấu chân kỹ thuật số của sinh viên cung cấp một số lượng lớn các kiến thức tiềm ẩn và một quan điểm hoàn toàn mới cho các nhà nghiên cứu giáo dục để hiểu được kinh nghiệm của sinh viên bên ngoài môi trường lớp học có kiểm soát Sự phong phú của dữ liệu truyền thông xã hội cung cấp cơ hội để hiểu kinh nghiệm của sinh viên, nhưng cũng đặt ra những khó khăn về phương pháp luận trong việc đưa ra ý nghĩa của dữ liệu truyền thông xã hội cho mục đích giáo dục Việc phân tích bằng tay thuần tuý không thể đối phó với quy mô ngày càng tăng của dữ liệu, trong khi các thuật toán tự động thuần tuý thường không thể nắm bắt được ý nghĩa sâu sắc trong dữ liệu Qua việc quan sát và đánh giá dữ liệu từ các trang diễn đàn của sinh viên, chúng tôi nhận thấy các vấn đề mà sinh viên gặp phải trong học tập rơi vào một số loại nhất định như các vấn đề về áp lực thi

cử học hành, thiếu nguồn tài liệu tham khảo, lo lắng về định hướng nghề nghiệp, các cảm xúc tiêu cực và tâm lý đời sống Căn cứ vào điều này để thấy được sự cần thiết của việc

áp dụng một thuật toán phân lớp đa nhãn đối với miền dữ liệu đa dạng về ngữ nghĩa trên các phương tiện truyền thông xã hội

Việc phân lớp dữ liệu có 3 hướng tiếp cận chính là thông qua quy luật, mô hình hóa và học máy Trong phương pháp tiếp cận thì học máy có nhiều ưu điểm như không mất thời gian đưa ra các luật, học từ dữ liệu huấn luyện, dễ dàng mở rộng và tái cấu trúc Các bộ phân loại thường sử dụng trong phương pháp học máy là Support Vector Machine(SVM), Naive Bayes, Maximum Entropy, Decision Tree, Nearest-Neighbors, Sparse Network of Winnows(SNoW)

Dựa trên sự hiểu biết về các vấn đề, khó khăn trong cuộc sống và kinh nghiệm học tập của sinh viên, các nhà hoạch định chính sách và các nhà giáo dục có thể đưa ra quyết định chính xác hơn về sự can thiệp kịp thời và các dịch vụ thích hợp giúp sinh viên vượt

qua rào cản trong học tập Do đó, chúng tôi tiến hành nghiên cứu đề tài “Khai phá dữ liệu

phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập của sinh viên”, với mục đích

đề xuất một mô hình khai phá dữ liệu hiệu quả cho phân tích các quan điểm, kinh nghiệm

và vấn đề gặp phải trong học tập, đời sống của sinh viên Dữ liệu cho bài toán này được

Trang 12

2

lấy từ diễn đàn sinh viên của trường Đại học Bách khoa Hà Nội Bố cục luận văn gồm 4 chương:

Chương 1: Tổng quan về vấn đề nghiên cứu

Giới thiệu khái quát bài toán khai phá quan điểm và bài toán cụ thể với miền tin tức từ các phương tiện truyền thông xã hội

Chương 2: Các kiến thức nền tảng

Giới thiệu về các kiến thức nền tảng của bài toán khai phá quan điểm trên thế giới

và phương pháp phân lớp văn bản dựa trên mô hình học máy

Chương 3: Một mô hình giải quyết bài toán khai phá dữ liệu mạng truyền thông để hiểu kinh nghiệm học tập sinh viên

Trên các kiến thức cơ sở đã trình bày ở chương 2, đưa ra mô hình áp dụng cho bài toán khai phá kinh nghiệm học tập của sinh viên trên phương tiện truyền thông xã hội

Chương 4: Kết quả thực nghiệm

Trình bày quá trình thực nghiệm với công cụ Meka trong gán nhãn dữ liệu và các kết quả thực nghiệm thu được Bên cạnh đó, đưa ra các nhận định về nghiên cứu và các phân tích ưu nhược cũng như các trường hợp lỗi của kết quả thực nghiệm

Chương 5: Kết luận và hướng phát triển tiếp theo

Tóm lược những nội dung chính đã đạt được của luận văn , đồng thời chỉ ra những hướng cần khắc phục và đưa ra định hướng nghiên cứu tiếp theo

Trang 13

56

TÀI LIỆU THAM KHẢO

Tiếng Việt

1 Hà Quang Thuỵ, Đặng Thanh Hải, Nguyễn Cẩm Tú, Nguyễn Việt Cường, Nguyễn Thu Trang, Nguyễn Thị Thuỳ Linh, Nguyễn Thị Hương Thảo, Trần Thị Oanh

(2006), Nghiên cứu, phân tích và đánh giá các thuật toán lọc văn bản theo nội

dung

2 Hà Quang Thuỵ, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu

Trang, Nguyễn Cẩm Tú (2009), Giáo trình khai phá dữ liệu Web, Nhà xuất bản

Giáo dục Việt Nam

Tiếng Anh

3 Amanda Clare, Ross D King (2003), "Knowledge Discovery in Multi-Label

Phenotype Data," Principles of Data Mining and Knowledge Discovery, vol 19,

no 2, pp 42-49

4 Ashraf M Kibriya, Eibe Frank, Bernhard Pfahringer, Geoffrey Holmes (2005), AI

2004: Advances in Artificial Intelligence, Springer Berlin Heidelberg, Berlin,

Germany

5 Bing Liu (2012), Sentiment Analysis and Opinion Mining, Morgan & Claypool

Publishers, Chicago, United States of America

6 C Shearer, (2000), "The CRISP-DM model: the new blueprint for data mining,"

Journal of Data Warehousing, vol 5, no 4, pp 13-22

7 David M W Powers (2011), "Evaluation: From Precision, Recall and F-Factor to

ROC, Informedness, Markedness & Correlation," Journal of Machine Learning

Technologies, vol 2, no 1, pp 37-63

8 David Taniar, Frank Dehne, Ada Wai Chee Fu, Feng Ling, Graeme Shanks,

Chengqi Zhang (2005), International Journal of Data Warehousing and Mining,

vol 1, no 3, pp 1-14

9 Ed Greengrass (2000), Information Retrieval: A Survey, University of Maryland,

United States of America

10 F¨urnkranz, Johannes (1998), A Study Using n-gram Features for Text

Categorization, Austrian Institute for Artificial Intelligence, Austria

11 Grigorios Tsoumakas, Ioannis Katakis, Ioannis (2005), Data Mining and

Knowledge Discovery Handbook, Springer, New York

12 Hiteshri Modi, Mahesh Panchal (2012), "Experimental Comparison of Different Problem Transformation Methods for Multi-Label Classification using MEKA,"

Trang 14

57

International Journal of Computer Applications (0975 – 8887), vol 59, no 15, pp

10-15

13 James Petterson, Tiberio Caetano (2010), "Reverse Multi-Label Learning,” Neural

Information Processing Systems Conference, vol 23, no 1, pp 1912-1920

14 Jesse ReadEmail, Bernhard Pfahringer, Geoff Holmes, Eibe Frank (2009),

"Classifier chains for multi-label classification," Journal Machine Learning, vol

85, no 3, pp 333-359

15 Ji Zhu, Hui Zou, Saharon Rosset, Trevor Hastie (2009), "Multi-class AdaBoost," Statistics and Its Interface, vol 2, no 3, pp 349-360

16 Karina Gibert, Miquel Sànchez-Marrè, Víctor Codina (2010), "Choosing the Right Data Mining Technique: Classification of Methods and Intelligent

Recommendation," International Environmental Modelling and Software Society

(iEMSs), vol 2, no 3, pp 1933-1940

17 Klaus Krippendorff (2004), "Realiability in content analysis," Human

Communication Research, vol 30, no 3, pp 411-433

18 Krzysztof Dembczy´nski, Weiwei Cheng, Eyke H¨ullermeier (2010), "Bayes

Optimal Multilabel Classification via Probabilistic Classifier Chains," Proceedings

of the 27th International Conference on Machine Learning (ICML-10), vol 27, pp

279-286

19 Matthew Lombard, Jenifer Snyder-Duch, Cheryl Campanella Bracken (2006),

"Content analysis in mass communication: Assesment and reporting of intercoder

reliability," Human Communication Research, vol 28, no 4, pp 587-604

20 Marco L Better (2007), Data Mining Techniques for Prediction and Classification

in Discrete Data Application, ProQuest, United States of America

21 Mohamed J Zaki, Wagner Meira JR (2014), Data Mining and Analysis:

Fundamental Concepts and Algorithms, Cambridge University Press, New York,

United States of America

22 Mohammad S Sorower (2010), A literature survey on algorithms for multi-label

learning, Oregon State University, Corvallis, United States of America

23 Rodrigo C Barros, Márcio P Basgalupp, Alex A Freitas (2014), "Evolutionary Design of Decision-Tree Algorithms Tailored to Microarray Gene Expression Data

Sets," IEEE Transactions on Evolutionary Computation, vol 18, no 6, pp

873-892

24 Ronald E Walpole, Raymond H Myers, Sharon L Myers, Keying Ye (2012),

Probability & Statistics for Engineering and the Sciences Eighth Edition, Duxbury

Press, United States of America

Ngày đăng: 03/03/2017, 18:12

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm