i ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐÀO HUY HIỆU NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB VÀ ỨNG DỤNG VÀO WEBSITE GIỚI THIỆU VIỆC LÀM CHO S
Trang 1i
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
ĐÀO HUY HIỆU
NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB VÀ ỨNG DỤNG VÀO WEBSITE GIỚI
THIỆU VIỆC LÀM CHO SINH VIÊN
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Th¸i Nguyªn - 2012
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 2ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
ĐÀO HUY HIỆU
NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB VÀ ỨNG DỤNG VÀO WEBSITE GIỚI
THIỆU VIỆC LÀM CHO SINH VIÊN
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: TS Phạm Việt Bình
Th¸i Nguyªn - 2012
Trang 3iii
LUẬN VĂN THẠC SỸ
Tên đề tài:
Nghiên cứu một số kỹ thuật khai phá dữ liệu web và ứng dụng vào
website giới thiệu việc làm cho sinh viên
Giáo viên hướng dẫn: TS Phạm Việt Bình
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 4MỤC LỤC
MỤC LỤC i
DANH MỤC HÌNH iii
MỞ ĐẦU 1
CHƯƠNG 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU 4
1.1 Giới thiệu chung 4
1.2 Khai phá dữ liệu là gì ? 5
1.3 Quá trình khám phá tri thức trong CSDL 6
1.4 Các kỹ thuật áp dụng trong Data Mining 8
1.4.1 Các kỹ thuật tiếp cận trong Data Mining 8
1.4.2 Các dạng dữ liệu có thể khai phá 9
1.5 Ứng dụng của Data Mining 10
1.6 Phân cụm dữ liệu và ứng dụng 11
1.7 Khai phá dữ liệu web 12
CHƯƠNG 2: MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB 18
2.1 Khai phá nội dung Web 18
2.1.1 Khai phá kết quả tìm kiếm 19
2.1.2 Khai phá văn bản Web 20
2.2 Khai phá theo sử dụng Web 23
2.2.1 Ứng dụng của khai phá theo sử dụng Web 24
2.2.2 Các kỹ thuật được sử dụng trong khai phá dữ liệu Web 24
2.2.3 Những vấn đề trong khai phá theo sử dụng Web 25
2.2.4 Quá trình khai phá theo sử dụng Web 27
2.3 Khai phá cấu trúc Web 32
2.3.1 Tiêu chuẩn đánh giá độ tương tự 33
2.3.2 Khai phá và quản lý cộng đồng Web 34
CHƯƠNG 3: CHƯƠNG TRÌNH THỬ NGHIỆM 47
3.1 Quy trình hoạt động của Hệ thống cung cấp dữ liệu việc làm 47
3.1.1 Lựa chọn các Url và lọc cấu trúc HTML 50
Trang 5ii
3.1.2 Khai phá cấu trúc HTML 50
3.1.3 Thu thập dữ liệu về kho cơ sở dữ liệu 52
3.1.4 Hiển thị dữ liệu 53
3.2 Một số giao diện chính của hệ thống 54
3.2.1 Quản trị hệ thống 54
3.2.2 Hệ thống thu thập thông tin tự động trên Internet 60
KẾT LUẬN 62
TÀI LIỆU THAM KHẢO 65
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 6DANH MỤC HÌNH
Hình 1.1 7
Hình 1.2 8
Hình 1.3 17
Hình 2.1 18
Hình 2.2 26
Hình 2.3 31
Hình 2.4 31
Hình 2.5 33
Hình 2.6 34
Hình 2.7 34
Hình 2.8 34
Hình 2.9 35
Hình 2.10 36
Hình 2.11 37
Hình 2.12 38
Hình 2.13 39
Hình 2.14 40
Hình 2.15 40
Hình 3.1 47
Hình 3.2 49
Hình 3.3 50
Hình 3.4 52
Hình 3.5 53
Hình 3.6 54
Hình 3.7 55
Hình 3.8 56
Hình 3.9 56
Hình 3.10 57
Trang 7iv
Hình 3.11 57
Hình 3.12 58
Hình 3.13 58
Hình 3.14 59
Hình 3.15 59
Hình 3.16 60
Hình 3.17 61
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 8MỞ ĐẦU
Từ vài thập niên trở lại đây, với những tác động mạnh mẽ của các tiến
bộ trong công nghệ phần cứng và truyền thông, các hệ thống dữ liệu phục vụ cho các lĩnh vực kinh tế - xã hội đã phát triển bùng nổ, lượng dữ liệu được tạo
ra ngày càng lớn Sự phong phú về dữ liệu, thông tin cùng với khả năng kịp thời khai thác chúng đã mang đến những năng suất và chất lượng mới cho công tác quản lý, hoạt động kinh doanh, … Nhưng rồi các yêu cầu về thông tin trong các lĩnh vực hoạt động đó, đặc biệt trong lĩnh vực ra quyết định, ngày càng đòi hỏi cao hơn, người quyết định không những cần dữ liệu mà còn cần có thêm nhiều hiểu biết, nhiều tri thức để hỗ trợ cho việc ra quyết định của mình Cho đến những năm 90 của thế kỷ trước, nhu cầu khám phá tri thức mới thực sự bùng nổ, theo đó, hàng loạt các lĩnh vực nghiên cứu về tổ chức các kho dữ liệu và kho thông tin, các hệ trợ giúp quyết định, các thuật toán nhận dạng mẫu và phân lớp mẫu … và đặc biệt là khai phá dữ liệu ra đời
Từ khi ra đời, khai phá dữ liệu đã trở thành một trong những hướng nghiên cứu phổ biến trong lĩnh vực khoa học máy tính và công nghệ tri thức Nhiều kết quả nghiên cứu, ứng dụng của khai phá dữ liệu trong các lĩnh vực khoa học, kinh tế, xã hội Khai phá dữ liệu bao hàm nhiều hướng nghiên cứu quan trọng, một trong số đó là kỹ thuật khai phá dữ liệu web Khai phá dữ liệu web là quá trình tìm kiếm và phát hiện ra các cụm hoặc các mẫu dữ liệu tự nhiên trong cơ sở dữ liệu lớn Các kỹ thuật chính được áp dụng trong khai phá
dữ liệu web phần lớn được kế thừa từ lĩnh vực thống kê, học máy, nhận dạng, lượng hoá, Đến nay, đã có nhiều ứng dụng khai phá dữ liệu web cho việc giải quyết các vấn đề trong các lĩnh vực như tài chính, thông tin địa lý, sinh học, nhận dạng ảnh, … Trong thời gian gần đây, trong lĩnh vực Khai phá dữ
Trang 92
liệu, người ta tập trung chủ yếu vào nghiên cứu, phân tích các mô hình dữ liệu phức tạp như dữ liệu văn bản, Web, hình ảnh, và đặc biệt là mô hình dữ liệu hỗn hợp để áp dụng chúng trong Khai phá dữ liệu
Ở Việt Nam, trong những năm trở lại đây, nhu cầu về tự động khám phá tri thức từ các dữ liệu sẵn có nhằm tăng năng lực cạnh tranh của các
ngành kinh tế đang phát triển nhanh Vì vậy, tôi chọn hướng nghiên cứu về
các kỹ thuật khai phá dữ liệu web làm đề tài nghiên cứu cho luận văn của
mình Luận văn trình bày một khảo cứu hệ thống về các họ thuật toán Khai phá dữ liệu, bao gồm các cách tiếp cận và đặc điểm ứng dụng Trên cơ sở đó tôi đi sâu vào tìm hiểu, phân tích, đánh giá họ các thuật toán khai phá dữ liệu Tiếp đến, tôi lựa chọn và đi sâu vào phân tích, thiết kế và xây dựng ứng dụng cho bài toán xây dựng website giới thiệu việc làm cho sinh viên, đây là một bài toán Khai phá dữ liệu áp dụng cho dữ liệu có thuộc tính hỗn hợp giữa kiểu
số và hạng mục và đưa ra mô hình xử lý song song cho bài toán xây dựng website giới thiệu việc làm cho sinh viên này
Ngoài phần mở đầu và kết luận, cấu trúc nội dung của luận văn bao gồm có 3 chương:
Chương 1 Tập trung trình bày khái quát về lĩnh vực khai phá dữ liệu và
một số khái niệm liên quan, đồng thời chỉ ra các giai đoạn thực hiện trong quá trình khám phá tri thức Phần tiếp theo của chương là trình bày ngắn gọn, có
hệ thống về các kỹ thuật, các dạng dữ liệu thường được sử dụng trong khai phá dữ liệu
Chương 2 Hệ thống hóa các kỹ thuật khai phá dữ liệu web, khai phá
theo nội dung web, khai phá theo sử dụng web, khai phá theo cấu trúc web Qua đó, đi sâu phân tích chi tiết các kỹ thuật, giải pháp trong Khai phá dữ liệu
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 10web và ý nghĩa của Khai phá dữ liệu web, các kỹ thuật được sử dụng trong quá trình khai phá dữ liệu web, quy trình khai phá dữ liệu web theo thuật toán Crawler, Hits, Phần cuối của chương trình bày vắn tắt, tổng kết về các đặc trưng của các phương pháp khai phá dữ liệu web đồng thời nêu các kỹ thuật đánh giá kết quả khai phá dữ liệu web
Chương 3 Giới thiệu chương trình giới thiệu việc làm, quy trình hoạt
động của hệ thống cung cấp dữ liệu việc làm, thu thập dữ liệu về kho cơ sở dữ liệu và các hình ảnh chức năng của chương trình thu thập giới thiệu thông tin việc làm
Phần kết luận, phần này trình bày tóm tắt về các nội dung thực hiện trong luận văn này, đồng thời đưa ra những vấn đề dự định sẽ nghiên cứu tiếp theo cho tương lai
Trang 11data error !!! can't not
read
Trang 12data error !!! can't not
read
Trang 13data error !!! can't not
read
Trang 14data error !!! can't not
read
Trang 15data error !!! can't not
read
Trang 17data error !!! can't not
read
Trang 18data error !!! can't not
read
Trang 19data error !!! can't not
read
Trang 20data error !!! can't not
read
Trang 21data error !!! can't not
read
Trang 22data error !!! can't not
read
data error !!! can't not
read
Trang 23data error !!! can't not
read
data error !!! can't not
read
Trang 24data error !!! can't not
read
data error !!! can't not
read
Trang 26read
Trang 27data error !!! can't not
read