1. Trang chủ
  2. » Kinh Doanh - Tiếp Thị

Nghiên cứu một số kỹ thuật khai phá dữ liệu Web và ứng dụng vào website giới thiệu việc làm cho sinh viên

27 278 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 297,4 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

i ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐÀO HUY HIỆU NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB VÀ ỨNG DỤNG VÀO WEBSITE GIỚI THIỆU VIỆC LÀM CHO S

Trang 1

i

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

ĐÀO HUY HIỆU

NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB VÀ ỨNG DỤNG VÀO WEBSITE GIỚI

THIỆU VIỆC LÀM CHO SINH VIÊN

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Th¸i Nguyªn - 2012

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Trang 2

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

ĐÀO HUY HIỆU

NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB VÀ ỨNG DỤNG VÀO WEBSITE GIỚI

THIỆU VIỆC LÀM CHO SINH VIÊN

Chuyên ngành: Khoa học máy tính

Mã số: 60 48 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS Phạm Việt Bình

Th¸i Nguyªn - 2012

Trang 3

iii

LUẬN VĂN THẠC SỸ

Tên đề tài:

Nghiên cứu một số kỹ thuật khai phá dữ liệu web và ứng dụng vào

website giới thiệu việc làm cho sinh viên

Giáo viên hướng dẫn: TS Phạm Việt Bình

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Trang 4

MỤC LỤC

MỤC LỤC i

DANH MỤC HÌNH iii

MỞ ĐẦU 1

CHƯƠNG 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU 4

1.1 Giới thiệu chung 4

1.2 Khai phá dữ liệu là gì ? 5

1.3 Quá trình khám phá tri thức trong CSDL 6

1.4 Các kỹ thuật áp dụng trong Data Mining 8

1.4.1 Các kỹ thuật tiếp cận trong Data Mining 8

1.4.2 Các dạng dữ liệu có thể khai phá 9

1.5 Ứng dụng của Data Mining 10

1.6 Phân cụm dữ liệu và ứng dụng 11

1.7 Khai phá dữ liệu web 12

CHƯƠNG 2: MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB 18

2.1 Khai phá nội dung Web 18

2.1.1 Khai phá kết quả tìm kiếm 19

2.1.2 Khai phá văn bản Web 20

2.2 Khai phá theo sử dụng Web 23

2.2.1 Ứng dụng của khai phá theo sử dụng Web 24

2.2.2 Các kỹ thuật được sử dụng trong khai phá dữ liệu Web 24

2.2.3 Những vấn đề trong khai phá theo sử dụng Web 25

2.2.4 Quá trình khai phá theo sử dụng Web 27

2.3 Khai phá cấu trúc Web 32

2.3.1 Tiêu chuẩn đánh giá độ tương tự 33

2.3.2 Khai phá và quản lý cộng đồng Web 34

CHƯƠNG 3: CHƯƠNG TRÌNH THỬ NGHIỆM 47

3.1 Quy trình hoạt động của Hệ thống cung cấp dữ liệu việc làm 47

3.1.1 Lựa chọn các Url và lọc cấu trúc HTML 50

Trang 5

ii

3.1.2 Khai phá cấu trúc HTML 50

3.1.3 Thu thập dữ liệu về kho cơ sở dữ liệu 52

3.1.4 Hiển thị dữ liệu 53

3.2 Một số giao diện chính của hệ thống 54

3.2.1 Quản trị hệ thống 54

3.2.2 Hệ thống thu thập thông tin tự động trên Internet 60

KẾT LUẬN 62

TÀI LIỆU THAM KHẢO 65

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Trang 6

DANH MỤC HÌNH

Hình 1.1 7

Hình 1.2 8

Hình 1.3 17

Hình 2.1 18

Hình 2.2 26

Hình 2.3 31

Hình 2.4 31

Hình 2.5 33

Hình 2.6 34

Hình 2.7 34

Hình 2.8 34

Hình 2.9 35

Hình 2.10 36

Hình 2.11 37

Hình 2.12 38

Hình 2.13 39

Hình 2.14 40

Hình 2.15 40

Hình 3.1 47

Hình 3.2 49

Hình 3.3 50

Hình 3.4 52

Hình 3.5 53

Hình 3.6 54

Hình 3.7 55

Hình 3.8 56

Hình 3.9 56

Hình 3.10 57

Trang 7

iv

Hình 3.11 57

Hình 3.12 58

Hình 3.13 58

Hình 3.14 59

Hình 3.15 59

Hình 3.16 60

Hình 3.17 61

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Trang 8

MỞ ĐẦU

Từ vài thập niên trở lại đây, với những tác động mạnh mẽ của các tiến

bộ trong công nghệ phần cứng và truyền thông, các hệ thống dữ liệu phục vụ cho các lĩnh vực kinh tế - xã hội đã phát triển bùng nổ, lượng dữ liệu được tạo

ra ngày càng lớn Sự phong phú về dữ liệu, thông tin cùng với khả năng kịp thời khai thác chúng đã mang đến những năng suất và chất lượng mới cho công tác quản lý, hoạt động kinh doanh, … Nhưng rồi các yêu cầu về thông tin trong các lĩnh vực hoạt động đó, đặc biệt trong lĩnh vực ra quyết định, ngày càng đòi hỏi cao hơn, người quyết định không những cần dữ liệu mà còn cần có thêm nhiều hiểu biết, nhiều tri thức để hỗ trợ cho việc ra quyết định của mình Cho đến những năm 90 của thế kỷ trước, nhu cầu khám phá tri thức mới thực sự bùng nổ, theo đó, hàng loạt các lĩnh vực nghiên cứu về tổ chức các kho dữ liệu và kho thông tin, các hệ trợ giúp quyết định, các thuật toán nhận dạng mẫu và phân lớp mẫu … và đặc biệt là khai phá dữ liệu ra đời

Từ khi ra đời, khai phá dữ liệu đã trở thành một trong những hướng nghiên cứu phổ biến trong lĩnh vực khoa học máy tính và công nghệ tri thức Nhiều kết quả nghiên cứu, ứng dụng của khai phá dữ liệu trong các lĩnh vực khoa học, kinh tế, xã hội Khai phá dữ liệu bao hàm nhiều hướng nghiên cứu quan trọng, một trong số đó là kỹ thuật khai phá dữ liệu web Khai phá dữ liệu web là quá trình tìm kiếm và phát hiện ra các cụm hoặc các mẫu dữ liệu tự nhiên trong cơ sở dữ liệu lớn Các kỹ thuật chính được áp dụng trong khai phá

dữ liệu web phần lớn được kế thừa từ lĩnh vực thống kê, học máy, nhận dạng, lượng hoá, Đến nay, đã có nhiều ứng dụng khai phá dữ liệu web cho việc giải quyết các vấn đề trong các lĩnh vực như tài chính, thông tin địa lý, sinh học, nhận dạng ảnh, … Trong thời gian gần đây, trong lĩnh vực Khai phá dữ

Trang 9

2

liệu, người ta tập trung chủ yếu vào nghiên cứu, phân tích các mô hình dữ liệu phức tạp như dữ liệu văn bản, Web, hình ảnh, và đặc biệt là mô hình dữ liệu hỗn hợp để áp dụng chúng trong Khai phá dữ liệu

Ở Việt Nam, trong những năm trở lại đây, nhu cầu về tự động khám phá tri thức từ các dữ liệu sẵn có nhằm tăng năng lực cạnh tranh của các

ngành kinh tế đang phát triển nhanh Vì vậy, tôi chọn hướng nghiên cứu về

các kỹ thuật khai phá dữ liệu web làm đề tài nghiên cứu cho luận văn của

mình Luận văn trình bày một khảo cứu hệ thống về các họ thuật toán Khai phá dữ liệu, bao gồm các cách tiếp cận và đặc điểm ứng dụng Trên cơ sở đó tôi đi sâu vào tìm hiểu, phân tích, đánh giá họ các thuật toán khai phá dữ liệu Tiếp đến, tôi lựa chọn và đi sâu vào phân tích, thiết kế và xây dựng ứng dụng cho bài toán xây dựng website giới thiệu việc làm cho sinh viên, đây là một bài toán Khai phá dữ liệu áp dụng cho dữ liệu có thuộc tính hỗn hợp giữa kiểu

số và hạng mục và đưa ra mô hình xử lý song song cho bài toán xây dựng website giới thiệu việc làm cho sinh viên này

Ngoài phần mở đầu và kết luận, cấu trúc nội dung của luận văn bao gồm có 3 chương:

Chương 1 Tập trung trình bày khái quát về lĩnh vực khai phá dữ liệu và

một số khái niệm liên quan, đồng thời chỉ ra các giai đoạn thực hiện trong quá trình khám phá tri thức Phần tiếp theo của chương là trình bày ngắn gọn, có

hệ thống về các kỹ thuật, các dạng dữ liệu thường được sử dụng trong khai phá dữ liệu

Chương 2 Hệ thống hóa các kỹ thuật khai phá dữ liệu web, khai phá

theo nội dung web, khai phá theo sử dụng web, khai phá theo cấu trúc web Qua đó, đi sâu phân tích chi tiết các kỹ thuật, giải pháp trong Khai phá dữ liệu

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Trang 10

web và ý nghĩa của Khai phá dữ liệu web, các kỹ thuật được sử dụng trong quá trình khai phá dữ liệu web, quy trình khai phá dữ liệu web theo thuật toán Crawler, Hits, Phần cuối của chương trình bày vắn tắt, tổng kết về các đặc trưng của các phương pháp khai phá dữ liệu web đồng thời nêu các kỹ thuật đánh giá kết quả khai phá dữ liệu web

Chương 3 Giới thiệu chương trình giới thiệu việc làm, quy trình hoạt

động của hệ thống cung cấp dữ liệu việc làm, thu thập dữ liệu về kho cơ sở dữ liệu và các hình ảnh chức năng của chương trình thu thập giới thiệu thông tin việc làm

Phần kết luận, phần này trình bày tóm tắt về các nội dung thực hiện trong luận văn này, đồng thời đưa ra những vấn đề dự định sẽ nghiên cứu tiếp theo cho tương lai

Trang 11

data error !!! can't not

read

Trang 12

data error !!! can't not

read

Trang 13

data error !!! can't not

read

Trang 14

data error !!! can't not

read

Trang 15

data error !!! can't not

read

Trang 17

data error !!! can't not

read

Trang 18

data error !!! can't not

read

Trang 19

data error !!! can't not

read

Trang 20

data error !!! can't not

read

Trang 21

data error !!! can't not

read

Trang 22

data error !!! can't not

read

data error !!! can't not

read

Trang 23

data error !!! can't not

read

data error !!! can't not

read

Trang 24

data error !!! can't not

read

data error !!! can't not

read

Trang 26

read

Trang 27

data error !!! can't not

read

Ngày đăng: 21/04/2017, 13:41

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm