1. Trang chủ
  2. » Kinh Doanh - Tiếp Thị

Khai phá dữ liệu phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập của sinh viên

14 336 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 1,13 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN THÀNH KHAI PHÁ DỮ LIỆU PHƯƠNG TIỆN TRUYỀN THÔNG XÃ HỘI ĐỂ HIỂU KINH NGHIỆM HỌC TẬP CỦA SINH VIÊN LUẬN VĂN THẠC SĨ HỆ THỐNG T

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN VĂN THÀNH

KHAI PHÁ DỮ LIỆU PHƯƠNG TIỆN TRUYỀN THÔNG XÃ HỘI ĐỂ HIỂU KINH NGHIỆM HỌC TẬP CỦA SINH VIÊN

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Hà Nội - 2016

Hà Nội - 2016

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN VĂN THÀNH

KHAI PHÁ DỮ LIỆU PHƯƠNG TIỆN TRUYỀN THÔNG XÃ HỘI ĐỂ HIỂU KINH NGHIỆM

HỌC TẬP CỦA SINH VIÊN

Ngành: Hệ thống Thông Tin

Chuyên ngành: Hệ thống Thông Tin

Mã số chuyên ngành: 60480104

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Trần Thị Oanh

Hà Nội – 2016

Trang 3

i

LỜI CAM ĐOAN

Tôi xin cam đoan:

1 Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn của TS Trần Thị Oanh

2 Mọi tham khảo dùng trong luận văn đều được trích dẫn

rõ ràng tên tác giả, thời gian, địa điểm công bố

3 Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, tôi xin chịu hoàn toàn trách nhiệm

Hà Nội, ngày tháng năm 2016

HỌC VIÊN

Nguyễn Văn Thành

Trang 4

ii

LỜI CẢM ƠN

Trước hết, tôi xin bày tỏ lòng biết ơn sâu sắc và chân thành đến giáo viên hướng dẫn TS Trần Thị Oanh, người đã tận tình chỉ bảo tôi trong định hướng nghiên cứu, đề xuất các ý tưởng và giúp

đỡ về mặt phương pháp luận cũng như việc kiểm tra cuối cùng đối với luận văn này

Tôi xin chân thành cảm ơn các thày cô trong khoa Công nghệ Thông tin – Đại học Công nghệ - Đại học Quốc gia Hà Nội, khoa Công nghệ Thông tin - Viện Đại học Mở Hà Nội đã giúp đỡ tôi rất nhiều trong quá trình học tập, nghiên cứu và tạo điều kiện giúp tôi trong công tác để tôi có thời gian thực hiện việc học tập

và hoàn thành luận văn

Cuối cùng, tôi xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới bố mẹ những người động viên tôi về mặt tinh thần và hỗ trợ nhiều về mọi mặt

HỌC VIÊN

Nguyễn Văn Thành

Trang 5

iii

MỤC LỤC

DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT vii

DANH MỤC CÁC BẢNG viii

DANH MỤC HÌNH VẼ, ĐỒ THỊ ix

MỞ ĐẦU 1

Chương 1: Tổng quan về vấn đề nghiên cứu 4

Khai phá dữ liệu 4

1.1.1 Khái niệm 4

1.1.2 Quy trình khai phá dữ liệu 4

Bài toán khai phá quan điểm trên mạng truyền thông 5

1.2.1 Khái quát khai phá quan điểm 5

1.2.2 Khai phá quan điểm với mạng truyền thông 5

Khai phá quan điểm sinh viên trên phương tiện truyền thông xã hội 6

1.3.1 Giới thiệu bài toán 6

1.3.2 Tình hình nghiên cứu trên thế giới 6

1.3.3 Tình hình nghiên cứu tại Việt Nam 7

1.3.4 Ý nghĩa và mục tiêu của bài toán 8

Kết luận chương 1 8

Chương 2: Các kiến thức nền tảng 9

Giới thiệu 9

Trang 6

iv

2.1.1 Tổng quan về bài toán phân loại 9

2.1.2 Các bước giải quyết bài toán phân loại 9

2.1.3 Bài toán phân lớp văn bản 9

Bài toán phân lớp đa nhãn 10

Một số phương pháp phân lớp đa nhãn 10

2.3.1 Phương pháp chuyển đổi bài toán 10

2.3.2 Phương pháp thích nghi thuật toán 13

Một số mô hình học máy được sử dụng cho bài toán 14

2.4.1 Phân lớp Bayes 14

2.4.2 Cây quyết định 14

Kết luận chương 2 16

Chương 3: Một mô hình giải quyết bài toán khai phá dữ liệu mạng truyền thông để hiểu kinh nghiệm học tập sinh viên 17

Mô hình hoá bài toán 17

3.1.1 Xác định vấn đề và không gian dữ liệu 17

3.1.2 Phát biểu bài toán theo góc độ toán học 17

Một mô hình giải quyết bài toán 18

3.2.1 Mô hình tổng thể 18

3.2.2 Môi trường thực nghiệm 20

Kết luận chương 3 21

Chương 4: Kết quả thực nghiệm 22

Thu thập và tiền xử lý dữ liệu 22

Trang 7

v

4.1.1 Thu thập dữ liệu 22

4.1.2 Tiền xử lý dữ liệu 22

4.1.3 Lựa chọn tập nhãn và gán nhãn dữ liệu 23

4.1.4 Một số thống kê về bộ dữ liệu 24

Các công cụ phân tích được sử dụng trong luận văn 24

4.2.1 MEKA 24

4.2.2 vnTokenizer 25

Thiết lập thực nghiệm 25

4.3.1 Chuyển đổi dữ liệu 25

4.3.2 Chia tách dữ liệu cho mục đích tập huấn và thử nghiệm 26

4.3.3 Các độ đo đánh giá thực nghiệm 26

Huấn luyện mô hình và kiểm tra 27

4.4.1 Thực nghiệm với Zero Rule để làm cơ sở cho bộ phân lớp 27 4.4.2 Thực nghiệm với Binary Relevance 27

4.4.3 Thực nghiệm với Label Combination 27

Kết quả thực nghiệm 28

4.5.1 Thực nghiệm với Zero Rule để làm cơ sở cho bộ phân lớp 28 4.5.2 Thực nghiệm với Binary Relevance 28

4.5.3 Thực nghiệm với Label Combination 29

Trang 8

vi

Phân tích lỗi 31

Kết luận chương 4 31

Chương 5: Kết luận và hướng phát triển tiếp theo 32

TÀI LIỆU THAM KHẢO 34

Trang 9

vii

DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT

Chữ viết tắt Ý nghĩa

1 Tiếng Việt

2 Tiếng Anh

BP-MLL Backpropagation for Multi-Label Learning

Trang 10

viii

DANH MỤC CÁC BẢNG

Bảng 1.1 So sánh phân lớp đa lớp và phân lớp đa nhãn 6 Bảng 2.1 Mẫu bộ dữ liệu đa nhãn 10 Bảng 2.2 Dữ liệu được chuyển đổi bẳng phương pháp Select Transformation 11 Bảng 2.3 Dữ liệu được chuyển đổi bẳng phương pháp Ignore Transformation 12 Bảng 2.4 So sánh kết quả đầu ra của AdaBoost.MH và AdaBoost.MR 13 Bảng 3.1 Thông số phần cứng môi trường thực nghiệm 21

Trang 11

22

Chương 4: Kết quả thực nghiệm

Trong chương này, luận văn trình bày nội dung liên quan tới thực nghiệm phân tích các ý kiến phản hồi của sinh viên dưới dạng ngôn ngữ tự nhiên bằng các phương pháp học máy và khai phá dữ liệu Để tiến hành thực nghiệm, đầu tiên chúng tôi tiến hành xây dựng một bộ dữ liệu cho tiếng Việt từ diễn đàn của sinh viên Đại học BK Hà Nội Sau đó, chúng tôi tiến hành bóc tách, gán nhãn dữ liệu, thiết lập các tham số và cách thức tiến hành thực nghiệm Trong chương này, chúng tôi cũng trình bày một số

độ đo để đánh giá mô hình phân tích Cuối cùng, chúng tôi trình bày các kết quả thực nghiệm dựa trên mô hình đã đề xuất ở chương 3 và một số phân tích lỗi của hệ thống

Thu thập và tiền xử lý dữ liệu

4.1.1 Thu thập dữ liệu

Tuy người dùng của diễn đàn SVBK chủ yếu là sinh viên của trường Đại học Bách Khoa Hà Nội, nhưng không vì thế mà các trao đổi thảo luận tất cả đều có chủ đề về học tập Đó là một thử thách với chúng tôi khi làm nhiệm vụ thu thập dữ liệu từ một nguồn có tính chất như mạng xã hội, mang trong mình rất nhiều

dữ liệu không liên quan hoặc sự đa dạng về ngôn ngữ sử dụng

4.1.2 Tiền xử lý dữ liệu

4.1.2.1 Loại bỏ hoặc thay thế các từ và ký tự nhiễu

Các cuộc trao đổi trên diễn đàn thường không chính thức

và chứa trong nó rất nhiều các loại diễn đạt khác nhau Do đó, chúng tôi đã thực hiện bước làm sạch dữ liệu trước khi đưa vào tập huấn với mô hình phân lớp

4.1.2.2 Tách từ

Tách từ là một quá trình nhằm xử lý mục đích xác định ranh giới của các từ trong câu văn, cũng có thể hiểu đơn giản răng tách từ là quá trình xác định các từ đơn, từ ghép … có trong câu Một ví dụ về kết quả xử lý sau khi tách từ được cho ở Hình 4.1

Trang 12

23

Hình 4.1: Dữ liệu sau khi tách từ 4.1.2.3 Loại bỏ từ dừng

Từ dừng (stop-words) là các từ mà tần suất xuất hiện quá nhiều trong các câu văn bản của toàn tập kết quả, thường thì không giúp ích gì trong việc phân biệt nội dung của các tài liệu văn bản Ví dụ, những từ “và”, “hoặc”, “cũng”, “là”, “mỗi”, “bởi”,

… [21]

4.1.3 Lựa chọn tập nhãn và gán nhãn dữ liệu

4.1.3.1 Lựa chọn tập nhãn

Chúng tôi chia các dữ liệu 7 chủ đề chính như sau: áp lực thi cử học hành, học ngoại ngữ, nguồn tài liệu tham khảo, tâm lí tình cảm, cảm xúc tiêu cực, định hướng nghề nghiệp và loại khác

4.1.3.2 Gán nhãn dữ liệu

Với bộ dữ liệu 1834 bài đăng trên diễn đàn SVBK đã thu thập và tiền xử lý ở các bước trên, chúng tôi gồm hai người nghiên cứu A và B tiến hành gán nhãn lần lượt 500 mẫu ngẫu nhiên từ bộ

dữ liệu này vào 7 nhãn trên

Hình 4.2: Cấu trúc tệp tin CSV chứa dữ liệu đã gán nhãn

Trang 13

24

4.1.3.3 Độ đo Inter-rater agreement

Độ đo F1 giữa hai người nghiên cứu A, B là F1AB= 0.82 Với 500 dữ liệu ngẫu nhiên, chúng tôi thu lại được 420 dữ liệu có

sự giao thoa đồng thuận về tập đã gán, nếu không đạt được điều kiện này các dữ liệu sẽ bị loại bỏ khỏi tập dữ liệu của nghiên cứu

4.1.4 Một số thống kê về bộ dữ liệu

Từ bộ dữ liệu đã được gán nhãn, số lượng mẫu dữ liệu của mỗi nhãn được thể hiện như ở Hình 4.3 bên dưới Các thống kê của các loại gồm: Loại khác (462), Nguồn tài liệu tham khảo (353), Tâm lí tình cảm (293), Học ngoại ngữ (231), Định hướng nghề nghiệp (142), Cảm xúc tiêu cực (136), Áp lực thi cử học hành (449)

Hình 4.3: Biểu đồ thống kê các nhãn trong bộ dữ liệu Các công cụ phân tích được sử dụng trong luận văn 4.2.1 MEKA

MEKA là một công cụ học máy mã nguồn mở, dựa trên nền công cụ WEKA của trường đại học Waikato, NewZeland MEKA cung cấp các tính năng huấn luyện và đánh giá mô hình của phân lớp đa nhãn (là các tính năng mà WEKA thiếu)

444

348

236

458

0

100

200

300

400

500

ÁP LỰC

THI CỬ

HỌC

HÀNH

CẢM XÚC TIÊU CỰC

ĐỊNH HƯỚNG NGHỀ NGHIỆP

HỌC NGOẠI NGỮ

NGUỒN TÀI LIỆU THAM KHẢO

TÂM LÍ TÌNH CẢM

LOẠI KHÁC

Thống kê các nhãn

Trang 14

25

Hình 4.4: Giao diện công cụ MEKA 4.2.2 vnTokenizer

vnTokenizer là công cụ chuyên dùng để tách từ và gán nhãn

từ loại cho tiếng Việt, được phát triển bởi tác giả Lê Hồng Phương vnTokenizer có thể sử dụng với cả giao diện dòng lệnh hoặc nhúng vào ứng dụng như một thư viện độc lập

Thiết lập thực nghiệm

4.3.1 Chuyển đổi dữ liệu

4.3.1.1 Vector hoá dữ liệu thông thường

Công cụ MEKA chỉ chấp nhận đầu vào của bộ dữ liệu dưới định dạng file ARFF Việc chuyển đổi dữ liệu từ dạng file CSV sang file ARFF được thực thi bằng chức năng lọc với CSVLoader của MEKA Sau khi thực hiện bước này ta thu được file arff có cấu trúc như ở Hình 4.5 sau:

Hình 4.5: Cấu trúc tệp tin ARFF của bộ dữ liệu

Sau khi chạy với công cụ MEKA, ta có được tập dữ liệu như ở Hình 4.6 dưới đây:

Ngày đăng: 01/03/2017, 06:58

HÌNH ẢNH LIÊN QUAN

Hình 4.1: Dữ liệu sau khi tách từ - Khai phá dữ liệu phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập của sinh viên
Hình 4.1 Dữ liệu sau khi tách từ (Trang 12)
Hình 4.3: Biểu đồ thống kê các nhãn trong bộ dữ liệu - Khai phá dữ liệu phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập của sinh viên
Hình 4.3 Biểu đồ thống kê các nhãn trong bộ dữ liệu (Trang 13)
Hình 4.4: Giao diện công cụ MEKA - Khai phá dữ liệu phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập của sinh viên
Hình 4.4 Giao diện công cụ MEKA (Trang 14)
Hình 4.5: Cấu trúc tệp tin ARFF của bộ dữ liệu - Khai phá dữ liệu phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập của sinh viên
Hình 4.5 Cấu trúc tệp tin ARFF của bộ dữ liệu (Trang 14)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm