1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khảo sát đánh giá xu hướng hành vi sử dụng web của khách hàng ứng dụng tại công ty cp làm việc thông minh

61 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 61
Dung lượng 1,97 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

TÓM TẮT LUẬN VĂN THẠC SĨ Mục tiêu nghiên cứu của đề tài này nhằm khám phá tri thức có ý nghĩa từ cơ sở dữ liệu trình tự là Web Log, từ đó xác định xu hướng hành vi phổ biến của khách hàn

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

-

TRƯƠNG NGUYỄN TRÚC MAI

KHẢO SÁT ĐÁNH GIÁ XU HƯỚNG HÀNH VI

SỬ DỤNG WEB CỦA KHÁCH HÀNG - ỨNG DỤNG TẠI CÔNG TY CP LÀM VIỆC THÔNG MINH

Chuyên ngành: HỆ THỐNG THÔNG TIN QUẢN LÝ

Mã số: 60.34.48

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH, tháng 12 năm 2014

Trang 2

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

-

TRƯƠNG NGUYỄN TRÚC MAI

KHẢO SÁT ĐÁNH GIÁ XU HƯỚNG HÀNH VI

SỬ DỤNG WEB CỦA KHÁCH HÀNG - ỨNG DỤNG TẠI CÔNG TY CP LÀM VIỆC THÔNG MINH

Chuyên ngành: HỆ THỐNG THÔNG TIN QUẢN LÝ

Mã số: 60.34.48

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH, tháng 12 năm 2014

Trang 3

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG -HCM

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)

1 TS Lê Thành Sách

2 TS Lê Thanh Vân

3 TS Lê Lam Sơn

4 TS Nguyễn Tuấn Đăng

Trang 4

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Trương Nguyễn Trúc Mai MSHV: 11326115

Ngày, tháng, năm sinh: 18/11/1989 Nơi sinh: TP Hồ Chí Minh Chuyên ngành: Hệ thống thông tin quản lý Mã số: 60.34.48

I TÊN ĐỀ TÀI: Khảo sát đánh giá xu hướng hành vi sử dụng Web của khách hàng

- Ứng dụng tại công ty cổ phần Làm Việc Thông Minh

II NHIỆM VỤ VÀ NỘI DUNG: Khai phá tri thức có ý nghĩa từ cơ sở dữ liệu

Web Log – dạng nhật ký dùng để ghi dấu lịch sử hành vi truy cập vào Web của tất cả người dùng Từ đó xác định được các luật giá trị thể hiện xu hướng hành vi phổ biến của khách hàng trên Web và mối quan hệ giữa các loại dịch vụ của công

ty Sau đó đề xuất ứng dụng kết quả tìm được nhằm cải thiện Website và đánh giá mức độ hiệu quả của web điều chỉnh từ nhận xét của chính các người dùng

III NGÀY GIAO NHIỆM VỤ: 07/07/2014

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 07/12/2014

V CÁN BỘ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên): TS Phạm Trần Vũ

Trang 5

và định hướng đúng đắn cho tôi trong quá trình thực hiện luận văn

Cuối cùng, tôi xin cảm ơn các anh/chị đồng nghiệp, gia đình và bạn bè đã động viên, giúp đỡ, tạo điều kiện thuận lợi cho tôi trong suốt quá trình tôi tham gia học tập và hoàn thành luận văn

Chân thành cảm ơn Tp.HCM, ngày 07 tháng 12 năm 2014

Trương Nguyễn Trúc Mai

Trang 6

TÓM TẮT LUẬN VĂN THẠC SĨ

Mục tiêu nghiên cứu của đề tài này nhằm khám phá tri thức có ý nghĩa từ cơ sở

dữ liệu trình tự là Web Log, từ đó xác định xu hướng hành vi phổ biến của khách hàng trên Web và mối quan hệ giữa các loại dịch vụ của công ty, sau đó ứng dụng kết quả tìm được để cải thiện Website, loại bỏ khó khăn cho khách hàng khi phải duyệt qua nhiều liên kết đặt trên Web để tìm kiếm chính xác thông tin cần xem Ngoài ra, nghiên cứu sẽ là một case study bổ ích cho những doanh nghiệp có Website và cần tìm hiểu hành vi của các khách hàng trực tuyến có điều kiện học hỏi, tham khảo để ứng dụng kết quả nghiên cứu để phân tích dữ liệu thực tế của doanh nghiệp mình

Nghiên cứu được thực hiện theo hai giai đoạn chính như sau:

- Giai đoạn 1: Từ tháng 04 đến 13/10/2014

 Chuyển đổi cơ sở dữ liệu Web Log thu thập được từ Website công ty thành cơ sở dữ liệu trình tự

 Khai phá cơ sở dữ liệu trình tự vừa tạo, áp dụng thuật toán RuleGrowth

 Điều chỉnh Website công ty dựa trên tập luật giá trị khai phá được bằng cách thêm vào box gợi ý dịch vụ có liên quan trong trang dịch vụ khách hàng vào xem trước tiên

- Giai đoạn 2: Từ 15/10/2014 đến 12/11/2014

 Đánh giá kết quả bằng cách khảo sát nhân viên các phòng ban của công

ty, yêu cầu họ cho điểm đánh giá hiệu quả của Website trước và sau khi điều chỉnh

 Ngoài ra tiến hành làm lại các bước thu thập web log từ sau khi Website điều chỉnh, khởi tạo cơ sở dữ liệu trình tự, khai phá tìm ra tập luật để khẳng định lại tính tin cậy của tập luật

Trang 7

ABSTRACT

The main purpose of this study is to exploit knowledge from sequence database – Web log, so that determine common behavior of online customer and the relationship of all company’s services Then using result to improve company’s Website, remove the present difficulty that customer have to browse many links to search exactly needed information Besides, this study is also an useful case study for many companies that own Website and need to learn online customer’s behavior will have chance to refer and apply to analyze on their own data

This study has two main phases as follows:

- Phase 1: From early April to 13/10/2014

 Convert Web Log database collecting from company’s Website to sequence database by bulding a program

 Then mining sequence database by using RuleGrowth algorithm

 After that, applying valid rule to edit Website by adding suggested menu box services that customer can interest and find on web

- Phase 2: From 15/10/2014 to 12/11/2014

 Assess result of study by interviewing all company’s staffs, require them

to give single point to review the effect of pre-Website and post-Website

 Besides, do all steps mining new Web Log file collected to find valid rule again and prove the reliability of them

Trang 8

LỜI CAM ĐOAN

Tôi xin cam đoan rằng toàn bộ nội dung và số liệu trong luận văn do tôi tự nghiên cứu, khảo sát và thực hiện Những dữ liệu thu thập được khảo sát một cách khách quan và trung thực

Trang 9

MỤC LỤC

MỞ ĐẦU 1

1 Sơ nét về ưu thế Internet trong kinh doanh và doanh nghiệp 1

2 Giới thiệu sơ lược về Website của công ty Làm Việc Thông Minh 1

3 Lý do chọn đề tài 5

4 Ý nghĩa khoa học 6

5 Tính cấp thiết và tính khả thi của đề tài 6

6 Mục tiêu đề tài 7

7 Đối tượng và phạm vi nghiên cứu 8

8 Phương pháp nghiên cứu 9

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT CỦA NGHIÊN CỨU 10

1.1 Giới thiệu chương 10

1.2 Cơ sở lý thuyết liên quan đến khai phá dữ liệu tuần tự Web Log 10

1.3 Cơ sở lý thuyết chứng minh thuật toán RuleGrowth sử dụng trong đề tài tốt hơn những thuật toán khác 12

1.4 Kết luận chương 14

CHƯƠNG 2: PHƯƠNG PHÁP THỰC HIỆN PHÂN TÍCH HÀNH VI KHÁCH HÀNG THÔNG QUA DỮ LIỆU WEB LOG 15

2.1 Giới thiệu chương 15

2.2 Phương pháp thu thập dữ liệu Web Log 15

2.3 Phương pháp lựa chọn thuật toán khai phá dữ liệu Web Log 16

2.4 Phương pháp chuyển đổi cơ sở dữ liệu Web Log thu thập thành cơ sở dữ liệu tuần tự (Sequence Database) 18

2.4.1 Mô tả cấu hình máy chạy thực nghiệm 18

2.4.2 Mô tả các bước xây dựng cơ sở dữ liệu trình tự 19

2.4.3 Cơ sở dữ liệu trình tự 21

2.5 Áp dụng thuật toán RuleGrowth và phân tích kết quả 22

2.5.1 Nội dung thuật toán RuleGrowth 22

2.5.2 Áp dụng RuleGrowth khai phá tập dữ liệu Web Log 24

Trang 10

2.5.3 Phân tích kết quả thực nghiệm 25

2.6 Kết luận chương 28

CHƯƠNG 3: ỨNG DỤNG KẾT QUẢ ĐIỀU CHỈNH WEBSITE VÀ ĐÁNH GIÁ KẾT QUẢ 29

3.1 Điều chỉnh Website 29

3.2 Đánh giá hiệu quả điều chỉnh Website 30

3.2.1 Đánh giá kết quả bằng kiểm nghiệm thuật toán 30

3.2.2 Đánh giá kết quả bằng khảo sát 32

3.3 Kết luận 34

CHƯƠNG 4: KẾT LUẬN VÀ KIẾN NGHỊ 36

4.1 Kết luận 36

4.1.1 Kết luận 36

4.1.2 Kết quả đạt được trong trường hợp các kiểu thiết kế Web khác 37

4.1.3 So sánh chức năng chương trình của đề tài với các chức năng gợi ý mua hàng trên các trang mua sắm trực tuyến khác 37

4.2 Kiến nghị 38

4.3 Hạn chế và hướng phát triển tương lai 38

DANH MỤC CÁC TÀI LIỆU THAM KHẢO 40

PHỤ LỤC A: BẢNG CÂU HỎI KHẢO SÁT 42

Trang 11

DANH MỤC HÌNH ẢNH

Hình 1 Trang chủ Website www.lvtm.vn 3

Hình 2 Trang chi tiết một dịch vụ trên Website lvtm.vn 4

Hình 3 Hình minh họa kết quả link thu gọn của cơ sở dữ liệu tuần tự mẫu 16

Hình 4 Sơ đồ so sánh mức độ tiêu tốn thời gian và bộ nhớ của 03 thuật toán áp dụng khai phá tập dữ liệu Web Log của công ty 18

Hình 5 Hình chụp cấu hình của máy thực tế dùng để chạy các chương trình thực nghiệm theo nghiên cứu của đề tài 18

Hình 6 Hình minh họa kết quả truy vấn 200 IP truy cập Website nhiều nhất thông qua tập dữ liệu Web Log bằng Log Parser 19

Hình 7 Hình minh họa kết quả thực nghiệm thu được khi chạy thuật toán RuleGrowth khai phá cơ sở dữ liệu tuần tự Web log trước khi điều chỉnh Web 25

Hình 8 Hình minh họa kết quả thực nghiệm 1 (minsup=0.2, minconf=0.75) 26

Hình 9 Hình minh họa kết quả thực nghiệm 2 (minsup=0.2, minconf=0.5) 26

Hình 10 Hình minh họa kết quả thực nghiệm 3 (minsup=0.1, minconf=1) 27

Hình 11 Trang web dịch vụ đăng ký kinh doanh sau khi được điều chỉnh 30

Hình 12 Trang web dịch vụ đăng ký nhãn hiệu sau khi được điều chỉnh 30

Hình 13 Hình minh họa cơ sở dữ liệu tuần tự được tạo ra từ các Web Log thu được sau khi điều chỉnh web 31

Hình 14 Hình minh họa một kết quả thực nghiệm thu được khi chạy thuật toán RuleGrowth khai phá cơ sở dữ liệu tuần tự Web log sau khi điều chỉnh Web 31

Trang 12

DANH MỤC BẢNG BIỂU

Bảng 1 Bảng minh họa một cơ sở dữ liệu tuần tự 7 Bảng 2 Bảng minh họa vài luật được tìm ra sau khi khai phá CSDL tuần tự 7 Bảng 3 Bảng thống kê các công trình nghiên cứu có liên quan đến phân tích hành

vi người dùng bằng khai phá dữ liệu Web Log 12 Bảng 4 Bảng liệt kê các thuộc tính thành phần dữ liệu Web Log thu thập được 15 Bảng 5 Bảng so sánh mức độ tiêu tốn thời gian và bộ nhớ của 03 thuật toán áp dụng khai phá tập dữ liệu Web Log của công ty 17 Bảng 6 Bảng liệt kê một số giá trị minsup và minconf không tìm được tập luật kết quả 25 Bảng 7 Bảng so sánh kết quả đạt được của web trước và sau khi điều chỉnh 32 Bảng 8 Bảng thống kê kết quả thu được từ các câu hỏi 1, 2, 3 của khảo sát 33 Bảng 9 Bảng thống kê kết quả so sánh điểm đánh giá Web trước và sau khi điều chỉnh của câu hỏi từ 4 đến 11 trong bảng khảo sát 34

Trang 14

MỞ ĐẦU

1 Sơ nét về ưu thế Internet trong kinh doanh và doanh nghiệp

Trong kinh doanh truyền thống thì đối với nhiều doanh nghiệp, Internet chỉ là một kênh thêm để truyền bá thông tin, trang Web của doanh nghiệp được đưa lên cũng chỉ là để diễn tả lại cho hấp dẫn nội dung tài liệu giới thiệu về công ty

Tuy nhiên tính đến thời điểm hiện tại, với tốc độ phát triển không ngừng của công nghệ Internet cùng kỹ thuật hiện đại, việc tạo ra một trang Web không chỉ đơn giản là giới thiệu về công ty nữa mà còn phải là nơi cung cấp một lượng thông tin thích đáng cho người truy cập Nếu một doanh nghiệp muốn gầy dựng được ấn tượng ban đầu và mối quan hệ lâu dài với khách hàng truy cập vào trang Web của mình thì doanh nghiệp phải đảm bảo tính thân thiện và mức độ cập nhật đều đặn của thông tin trên trang

Website ngày nay đã được xem như là một cửa hàng của doanh nghiệp, giúp doanh nghiệp có khả năng quảng bá không giới hạn, mở rộng giao dịch kinh doanh toàn cầu 24h/ngày, 7 ngày/tuần, 365 ngày/năm Trong khi đó, chi phí để thiết kế và vận hành Website thì thật sự rất nhỏ bé so với toàn bộ chi phí mà doanh nghiệp cần phải bỏ ra để quảng bá các hoạt động của mình bằng những phương tiện truyền thống Tóm lại, nếu tận dụng được lợi ích từ Internet và Website thì sẽ đem lại cho doanh nghiệp lợi thế cạnh tranh riêng biệt so với các đối thủ khác

2 Giới thiệu sơ lược về Website của công ty Làm Việc Thông Minh

Công ty Cổ phần Làm Việc Thông Minh là công ty cung cấp dịch vụ đa dạng nhằm phục vụ đối tượng là doanh nghiệp Đối tượng khách hàng của công ty là các doanh nghiệp vừa mới thành lập hoặc đang hoạt động và cần đối tác nhiều kinh nghiệm để hỗ trợ bước đầu khởi nghiệp, kinh doanh thành công Nhằm đáp ứng được nhu cầu đó của khách hàng và các đối tác kinh doanh bận rộn, Làm Việc Thông Minh đã xây dựng nhiều gói dịch vụ hoàn chỉnh và chọn kênh tương tác chính là Website tại địa chỉ www.lvtm.vn Chức năng chính của trang Web là đưa thông tin giới thiệu các dịch vụ mà Làm Việc Thông Minh cung cấp cho khách hàng doanh nghiệp, bao gồm:

- Tư vấn và làm dịch vụ đăng ký kinh doanh trong và ngoài nước, tư vấn vốn tùy theo từng loại hình doanh nghiệp

- Hỗ trợ tra mã ngành nghề trước khi doanh nghiệp đăng ký kinh doanh

- Tư vấn luật và đăng ký bảo hộ nhãn hiệu độc quyền

- Tư vấn và làm dịch vụ kế toán – thuế theo tháng/quý, xử lý các vấn đề liên quan đến bảo hiểm, nhân sự, quyết toán thuế năm

Trang 15

2

- Cho thuê văn phòng giúp chia sẻ chi phí đầu tư cơ sở vật chất, hạ tầng cho doanh nghiệp mới thành lập, nhiều gói văn phòng đáp ứng từng nhu cầu cụ thể của doanh nghiệp, ví dụ văn phòng đại diện tại trung tâm thành phố cho các xí nghiệp có nhà máy ở các tỉnh thành trên khắp cả nước

- Cho thuê xe hơi, phòng họp, nhân viên linh hoạt theo ngày/giờ

- Đăng ký tên miền, hosting

- Thiết kế Website và biên soạn nội dung Website

- Tiếp thị và quảng bá Web trực tuyến thông qua các hình thức Email, SMS, Google, Mạng xã hội (Facebook, Twitter,…)

- Thiết kế quảng cáo (Flash, Banner,…) và thiết kế in ấn

- Và nhiều tiện ích khác nhằm tạo môi trường tiện lợi hỗ trợ doanh nghiệp khởi nghiệp giảm chi phí hoạt động, đạt hiệu quả kinh doanh nhanh chóng Trên đầu Website có đặt thêm hai liên kết trỏ đến chuyên trang khác của công ty

là Tim30s.com (trỏ về trang www.tim30s.com) và PR & Marketing (trỏ về trang www.marketingpro.vn) Các danh mục dịch vụ chính của công ty thì được bố trí đầy đủ trên thanh Menu ngang của Website

Trong trang giới thiệu chi tiết từng dịch vụ của công ty sẽ xuất hiện thêm các Menu bên tay trái gồm: Các gói dịch vụ - giúp khách hàng có thêm chọn lựa đáp ứng nhu cầu riêng, Các vấn đề cần biết - tư vấn hỗ trợ khách hàng quyết định đúng, Các câu hỏi thường gặp - hỗ trợ giải đáp các thắc mắc của khách hàng để có sự chuẩn bị tốt hơn

Trang 16

Hình 1 Trang chủ Website www.lvtm.vn

Trang 17

4

Hình 2 Trang chi tiết một dịch vụ trên Website lvtm.vn

Với môi trường hỗ trợ kinh doanh linh động và giải pháp dịch vụ hiệu quả, công

ty Làm Việc Thông Minh đã nhận được sự ủng hộ của trên 2000 khách hàng trong năm 2013 Tuy nhiên, để có thể làm hài lòng khách hàng hơn nữa và tận dụng triệt

để lợi ích mà kênh Website đem lại, công ty không ngừng tìm kiếm thêm các phương pháp tin cậy và nhanh chóng giúp hỗ trợ xác định hành vi khách hàng, từ đó hiểu được nhu cầu của họ và có kế hoạch cải thiện các kênh truyền thông tiếp cận với khách ngay từ ban đầu như Website đáp ứng chính xác hơn nhu cầu đó

Trang 18

3 Lý do chọn đề tài

Hiện nay do ngày càng có nhiều doanh nghiệp tận dụng được lợi ích từ Internet

và Website đem lại nên đã dẫn đến việc tạo nên một môi trường cạnh tranh khốc liệt giữa các đối thủ cùng ngành Thêm vào đó, Internet hỗ trợ khách hàng tìm kiếm và tiếp cận thông tin ngày càng nhanh chóng, thậm chí chỉ sau một vài nhấp chuột nên khách hàng có rất nhiều cơ hội tìm hiểu và lựa chọn trước khi đưa ra quyết định liên

hệ với nơi cung cấp dịch vụ cho mình Chính vì vậy, việc có thể lắng nghe nhu cầu thật sự của khách hàng thông qua hành vi truy cập của họ sẽ là các thông tin quý báu đem lại lợi thế cạnh tranh không tưởng cho doanh nghiệp Trước đây, doanh nghiệp chỉ có thể đánh giá mức độ hài lòng của khách hàng khi có điều tra cụ thể tại từng cửa hàng của mình, dẫn đến mất nhiều thời gian, chi phí Giờ đây lãnh đạo doanh nghiệp được bổ sung thêm một nguồn báo cáo đáng tin cậy trong các chiến lược tìm hiểu, phân tích hành vi khách hàng mà các kênh truyền thống thì không thể

hỗ trợ, ngoài ra còn có thể làm nảy sinh những suy nghĩ về thay đổi hay phát hiện ra những thị trường chưa được khám phá khi nắm bắt được hành vi chung của khách hàng truy cập Web

Tuy nhiên, do Vậy làm sao có thể hỗ trợ khách hàng tốt hơn trong việc duyệt Web? Làm sao để nắm bắt được xu hướng duyệt Web phổ biến của các khách hàng

là gì để thay đổi trang Web phù hợp hơn với xu hướng này Một khi doanh nghiệp

đa dạng hóa số lượng sản phẩm, dịch vụ cung cấp cho khách hàng để gia tăng cạnh tranh cùng đối thủ thì số lượng các liên kết đặt trên trang Web của công ty cũng theo đó mà tăng lên, dẫn đến tình trạng khách hàng gặp khó khăn khi định vị vị trí của mình trên trang Web Họ không thể biết cũng như xem được hết tất cả dịch vụ của công ty cung cấp và cũng không có cơ sở gì để tìm kiếm dịch vụ, hoặc họ phải duyệt qua nhiều liên kết, sàng lọc nhiều thông tin mới có thể tìm được dịch vụ đáp ứng đúng nhu cầu Giải pháp cụ thể hướng tới là việc đề xuất gợi ý những dịch vụ

có liên quan đến nhau trên Website bằng cách đặt liên kết của dịch vụ liên quan vào trang dịch vụ mà khách hàng có xu hướng truy cập nhiều Và nên đặt bao nhiêu liên kết trong một trang dịch vụ là tốt nhất để chắc chắn rằng khách hàng sẽ quan tâm

Để nắm bắt được xu hướng hành vi phổ biến của khách hàng sử dụng Web thì việc ghi lại lịch sử truy cập của người duyệt Web vào từng thời điểm cụ thể giống như kiểu định dạng nhật ký của server hay còn gọi là Web Log và sau đó tiến hành phân tích cơ sở dữ liệu này là rất cần thiết Website của công ty Làm Việc Thông Minh có hỗ trợ ghi lại lịch sử các hành vi truy cập của người dùng Web Web Log

là cơ sở dữ liệu có dạng trình tự theo thời gian nên đề tài đề xuất nghiên cứu các thuật toán khai phá cơ sở dữ liệu gần đây (từ năm 2010 đến nay), sau đó so sánh hiệu quả khai phá của các thuật toán này thông qua dữ liệu công ty rồi lựa chọn

Trang 19

6

thuật toán tối ưu nhất để phân tích nhằm thu được kết quả là các tập luật giá trị thể hiện hành vi phổ biến củangười duyệt Web, xác định mối quan hệ giữa các dịch vụ đặt trên Web, từ đó tối ưu hóa Website, bố trí lại các dịch vụ có trên Web hiệu quả hơn sao cho khách hàng tìm đúng dịch vụ thích hợp nhất đáp ứng nhu cầu, mong muốn của họ một cách nhanh nhất Tất cả chính là mục tiêu nghiên cứu của đề tài này

4 Ý nghĩa khoa học

Nghiên cứu tìm hiểu những thuật toán khai phá cơ sở dữ liệu tuần tự phổ biến từ năm 2010 đến nay bao gồm:

- Thuật toán ERMiner (Fournier-Viger et al., 2014): Chưa công bố tài liệu

- Thuật toán RuleGrowth (Fournier-Viger et al., 2011)

- Thuật toán CMRules (Fournier-Viger et al., 2010)

- Thuật toán CMDeo (Fournier-Viger et al., 2010)

Thử nghiệm khai phá trên cơ sở dữ liệu Web Log đề tài đã thu thập được, sau đó

so sánh kết quả khai phá của các tập luật này để có sự trải nghiệm về mức độ cải thiện của các thuật toán qua thời gian

Thử nghiệm áp dụng thuật toán RuleGrowth – một thuật toán mới trong lĩnh vực khai phá cơ sở dữ liệu trình tự Web Log nhằm khám phá tri thức có ý nghĩa từ các liên kết đặt trên Website và hành vi phổ biến của người dùng Web thông qua các IP truy cập

Góp phần vào công cuộc nghiên cứu và phát triển những ứng dụng hỗ trợ khai phá dữ liệu Web

5 Tính cấp thiết và tính khả thi của đề tài

Hỗ trợ các doanh nghiệp tiếp cận và nắm bắt nhu cầu của khách hàng một cách

dễ dàng hơn

Hỗ trợ tự động hóa quá trình khai thác tri thức từ lượng dữ liệu khổng lồ mà nhật ký Web log ghi nhận lại theo thời gian, tiết kiệm được nhiều thời gian cho doanh nghiệp bằng cách xây dựng phần mềm áp dụng thuật toán nghiên cứu, rồi đổ

cơ sở dữ liệu vào và tìm ra kết quả nhanh chóng hơn rất nhiều so với phân tích thủ công

Hỗ trợ doanh nghiệp hiểu nhu cầu khách hàng tốt hơn thông qua kênh Website bằng cách chỉnh sửa bố cục Web thân thiện hơn, đề xuất đúng dịch vụ liên quan mà khách hàng có nhu cầu tìm kiếm dựa trên mối quan hệ tìm được từ các liên kết dịch

vụ có trên Website và hành vi truy cập phổ biến của khách hàng Từ đó giúp khách hàng duyệt Web của công ty tiết kiệm nhiều thời gian và công sức khi phải định vị

vị trí của mình trên trang Web để tìm kiếm, tiếp cận thông tin dịch vụ nhanh chóng

và thuận lợi hơn

Trang 20

6 Mục tiêu đề tài

Mục tiêu nghiên cứu của đề tài:

Tìm hiểu phương pháp hỗ trợ truy vấn cơ sở dữ liệu Web Log để lấy ra tập hợp các IP khách hàng kèm theo thời gian truy cập và các liên kết mà họ đã từng ghé thăm

Tìm hiểu và áp dụng thuật toán RuleGrowth (Fournier-Viger, 2011), đây là thuật toán hỗ trợ khai phá các luật tuần tự (sequential rules) xuất hiện trong các cơ sở dữ liệu tuần tự (sequence databases) Đầu vào của RuleGrowth là một cơ sở dữ liệu tuần tự và hai giá trị do người dùng cài đặt là minsup và minconf có dạng phần trăm với giá trị từ 0 đến 1 Cơ sở dữ liệu tuần tự là một tập các chuỗi (sequences), mỗi chuỗi gồm nhiều itemsets được sắp xếp theo thứ tự thời gian, mỗi itemsets gồm nhiều item (các ký tự - symbols) không sắp xếp thứ tự và xem như là chúng xảy ra đồng thời [1,3] Trong trường hợp trang Web, tập cơ sở dữ liệu sẽ gồm nhiều dòng, mỗi dòng là một IP người dùng, mỗi người dùng sẽ có một tập các liên kết mà họ từng ghé thăm trên Website, ví dụ như:

IP1 Link 1, Link 3, Link 4, Link 10, Link 8 IP2 Link 1, Link 3, Link 4, Link 10, Link 6 IP3 Link 1, Link 3, Link 8, Link 10, Link 7

Bảng 1 Bảng minh họa một cơ sở dữ liệu tuần tự

Áp dụng RuleGrowth có thể khai phá tất cả các tập luật tuần tự với độ hỗ trợ và

độ tin cậy cao hơn minsup và minconf đặt ra trong yêu cầu ban đầu của người dùng Một luật tuần tự (sequential rule) X⇒Y chính là mối quan hệ tuần tự giữa hai item

X và Y Độ hỗ trợ của tập luật X⇒Y được tính bằng tổng số lượng dòng có chứa X∪Y chia cho tổng số dòng trong cơ sở dữ liệu Độ tin cậy của tập luật xác định bằng tổng số dòng có chứa X∪Y chia cho tổng số dòng có chứa X Trong ví dụ trên,

ta đưa vào RuleGrowth hai giá trị minsup=75%, minconf=50% Một trong các tập luật tuần tự khai phá được sẽ có dạng như sau:

Link 1 ⇒ Link 3 100% (3 trong 3 sequence) 100%

Link 1 ⇒ Link 3 ⇒ Link 4 66% (2 trong 3 sequence) 66%

(Link 1, Link 3) ⇒ Link 4 66% (2 trong 3 sequence) 66%

Bảng 2 Bảng minh họa vài luật được tìm ra sau khi khai phá CSDL tuần tự

Trong tập luật cuối cùng có thể giả định hiểu rằng Link 1 và 3 không quan tâm đến thứ tự xuất hiện trước hay sau, mà chỉ cần biết là theo sau chúng là Link 4 Vậy

từ những tập luật vừa rút ra, ta hoàn toàn có thể xác định được:

Trang 21

8

- Xu hướng sử dụng Web của khách hàng: Theo ví dụ bên trên thì có thể thấy các dịch vụ ở Link 1, 3 và 10 được đa số khách hàng quan tâm Vậy nếu chính sách của công ty là muốn khách hàng biết thêm các dịch vụ ở Link 6,

7, 8 thì có thể bố trí các dịch vụ này ở trang đầu tiên, ở vị trí dễ thấy để tạo thế cân đối giữa các loại dịch vụ với nhau

- Mối quan hệ giữa các loại dịch vụ: Một khách hàng vào xem dịch vụ ở Link

1 thì khả năng sau đó sẽ vào xem tiếp các dịch vụ ở Link 3, rồi dịch vụ ở Link 4 là bao nhiêu phần trăm Từ đó ta có thể tái cấu trúc trang Web, bố trí lại vị trí và sắp đặt liên kết giữa các loại dịch vụ trên hệ thống Website của mình hiệu quả hơn và thân thiện hơn với người dùng Ví dụ dựa vào cụm xu hướng 2 là Link 1 ⇒ Link 3 ⇒ Link 4 thì trang dịch vụ Link 1 sẽ đặt các liên kết trỏ đến dịch vụ ở Link 3 và Link 4 Hoặc cũng có thể đặt liên kết tuần tự theo thứ tự mối quan hệ giữa chúng, trang dịch vụ Link 1 đặt liên kết đến trang dịch vụ Link 3, rồi sau đó trong trang dịch vụ Link 3 lại đặt liên kết trỏ đến trang dịch vụ Link 4 Như vậy sẽ tiết kiệm được nhiều thời gian cho người dùng để định vị vị trí của mình khi tìm kiếm các dịch vụ phù hợp với nhu cầu của họ

Sử dụng kết quả tìm được để cải thiện Website của công ty Làm Việc Thông Minh bằng cách bố trí thêm danh mục gợi ý các liên kết dịch vụ có liên quan đến nhau dựa theo xu hướng duyệt Web phổ biến của người dùng mà thuật toán tìm ra được Website sẽ thân thiện hơn với người dùng, giúp họ tiết kiệm nhiều thời gian tìm kiếm dịch vụ mà họ có thể quan tâm

Đánh giá kết quả đạt được để hiểu rõ tầm quan trọng của dữ liệu lịch sử duyệt Web của người dùng, cần thiết có công cụ hỗ trợ tự động phân tích dữ liệu này để ban lãnh đạo công ty Làm Việc Thông Minh nắm bắt được xu hướng hành vi phổ biến của khách hàng, nhu cầu thật sự của họ để có thể điều chỉnh kênh truyền thông Website của mình nhằm tiếp cận chính xác và phục vụ khách hàng tốt hơn, kinh doanh hiệu quả hơn

7 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu là Website lvtm.vn của công ty Làm Việc Thông Minh với số lượng dịch vụ phong phú, đa dạng gây nhiều khó khăn cho khách hàng phải

duyệt qua nhiều liên kết đặt trên Web để tìm kiếm

Nghiên cứu các phương pháp khai phá dữ liệu trình tự (Web Log) giúp khám

phá tri thức có ý nghĩa từ các liên kết của Website

Triển khai các điều chỉnh cho Website dựa trên tập luật khai phá được

Đánh giá kết quả sau khi điều chỉnh Website

Trang 22

8 Phương pháp nghiên cứu

Thu thập, tìm hiểu các tài liệu và thông tin có liên quan đến đề tài luận văn, cụ thể nghiên cứu các thuật toán khai phá cơ sở dữ liệu tuần tự phổ biến từ năm 2010 đến nay bao gồm:

- Thuật toán RuleGrowth (Fournier-Viger et al., 2011)

- Thuật toán CMRules (Fournier-Viger et al., 2010)

- Thuật toán CMDeo (Fournier-Viger et al., 2010)

Sử dụng Log Parser để tạo câu truy vấn dữ liệu Web Log, hỗ trợ đưa vào chương trình được xây dựng trong môi trường lập trình C# để chuyển đổi dữ liệu Web Log thành cơ sở dữ liệu trình tự để làm đầu vào cho thuật toán RuleGrowth

Áp dụng thử nghiệm thuật toán khai phá dữ liệu RuleGrowth, một trong những thuật toán hỗ trợ khám phá tri thức có ý nghĩa từ cơ sở dữ liệu trình tự là Web Log,

từ đó có thể xác định xu hướng hành vi duyệt Web phổ biến của khách hàng và mối quan hệ giữa các loại dịch vụ của công ty đặt trên Web

Đánh giá Website sau khi điều chỉnh bằng cả hai cách sau:

- Cách 1: Phát phiếu khảo sát thu thập ý kiến đồng tình về việc điều chỉnh Website của tất cả nhân viên công ty Làm Việc Thông Minh Phiếu dùng để xác định đánh giá thực tế của nhân viên về Website trước và sau khi được điều chỉnh Cần thiết phải đánh giá bằng hình thức này vì nhân viên là người tiếp xúc và thực hiện dịch vụ cho khách hàng nên sẽ có mức độ thấu hiểu riêng về xu hướng nhu cầu thực tế của các khách hàng

- Cách 2: Tiếp tục thu thập các Web Log File tính từ ngày bắt đầu cài đặt các box gợi ý dịch vụ liên quan dựa trên các tập luật kết quả tìm được sau khi chạy thuật toán Sau đó chạy lại thuật toán cho các Log này để tìm ra kết quả

và so sánh với kết quả ban đầu tìm được để có đánh giá về hiệu quả cải thiện Website

Trang 23

10

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT CỦA NGHIÊN CỨU

1.1 Giới thiệu chương

Web Log là một cơ sở dữ liệu lớn và có giá trị cao vì có chức năng ghi nhận lịch

sử hành vi truy cập Web của nhiều người dùng, hiển thị bằng các địa chỉ IP cụ thể truy cập các liên kết trên Web tại một mốc thời gian xác định Web Log được cài đặt tại Server và tự động ghi dấu tất cả sự kiện xảy ra khi bất kỳ ai đó có hành vi truy cập vào trang Web được theo dõi Công việc này diễn ra liên tục, thường xuyên, một công ty được thành lập và ngày càng phát triển thì nhật ký Web Log có thể xem như là Big Data của họ

Vì vậy, việc khám phá được các tri thức có ý nghĩa từ cơ sở dữ liệu khổng lồ này để có thêm cơ sở xác định chính xác nhu cầu của khách hàng thông qua xu hướng hành vi phổ biến của họ thể hiện từ lịch sử truy cập các liên kết Web để tìm kiếm, xem thông tin là một lĩnh vực khá mới mẻ và đang thu hút được nhiều sự quan tâm từ các tổ chức có Website kinh doanh

1.2 Cơ sở lý thuyết liên quan đến khai phá dữ liệu tuần tự Web Log

Dựa vào tập dữ liệu Web Log thu thập được, đề tài tìm hiểu các thuật toán hỗ trợ khai phá các tri thức có ý nghĩa từ chúng Đầu vào của các thuật toán này đều là một tập dữ liệu chứa các item (các liên kết) đặt cách nhau bởi khoảng trắng (ví dụ: thuật toán Apriori) hoặc kí hiệu khác (ví dụ -1 trong thuật toán RuleGrowth) và được sắp xếp theo thứ tự (thời gian hoặc giảm dần), với điều kiện là các item này không được lặp lại trong cùng một dòng

Khai phá các luật phổ biến (Mining Frequent Itemsets) sử dụng thuật toán Apriori (Agrawal & Srikant, 1993) Đầu vào của thuật toán này là một transaction database và tham số minsup (có giá trị từ 0 đến 100 %) do người dùng truyền vào Đầu ra của thuật toán là nhóm các frequent itemsets (phải lớn hơn hoặc bằng minsup) Như vậy, trong tập kết quả trả về, mỗi itemset được chú thích bằng giá trị support, giá trị này thể hiện tổng số lần xuất hiện của itemset này trong bộ dữ liệu ban đầu Thuật toán Apriori được đánh giá là thuật toán đơn giản và dễ sử dụng, tuy nhiên vấn đề là nó khá chậm và tiêu tốn nhiều bộ nhớ Phiên bản Apriori_with_hash_tree cho tốc độ cải thiện hơn trong một vài trường hợp (gấp hai lần so với phiên bản thường) nhưng lại tốn nhiều bộ nhớ hơn Và một vấn đề khác quan trọng hơn là thuật toán này bị hạn chế khả năng dự báo vì chỉ hỗ trợ tính toán

số lần xuất hiện của các tập luật, mỗi luật gồm một hoặc nhiều item có xuất hiện trong cơ sở dữ liệu ban đầu mà không quan tâm đến mối quan hệ giữa các item với nhau

Trang 24

Khai phá các luật tuần tự (sequential rules) từ cơ sở dữ liệu tuần tự (sequence databases) Có khá nhiều những thuật toán hỗ trợ việc khai phá các tập luật tuần tự

và chúng được chia thành hai nhánh chính:

- Thứ nhất là các thuật toán hỗ trợ việc khai phá các tập luật tuần tự xuất hiện trong một dãy (chuỗi) đơn lẻ của nhiều sự kiện, phương pháp được biết đến nhiều nhất chính là Mannila et al [2] Các thuật toán khác có thể kể đến nữa

là Hamilton & Karimi [5], Hsieh et al [6] và Deogun & Jiang [7]

- Nhánh thứ hai gồm các thuật toán hỗ trợ khai phá những tập luật trong một tập nhiều dãy (chuỗi), gồm hai nhánh phụ: (1) Các thuật toán hỗ trợ khai phá các luật xuất hiện thường xuyên trong dãy (chuỗi), không quan tâm luật đó xuất hiện trong một dãy (chuỗi) hay nhiều dãy (chuỗi), ví dụ là thuật toán Harms et al [8] (2) Các thuật toán tìm kiếm các tập luật phổ biến trên nhiều dãy (chuỗi) Không giống các thuật toán khác, mục tiêu của thuật toán này không phải để khám phá các tập luật xuất hiện thường xuyên trong các dãy (chuỗi) mà là tìm ra các tập luật phổ biến trên nhiều dãy (chuỗi) Ví dụ như

hệ thống e-learning sử dụng CTS để dự báo hành vi của người học kế tiếp nhằm giao tiếp tốt hơn Nhóm này hiện tại được biết đến có bốn thuật toán

hỗ trợ gồm Lo et al [11], CMRules và CMDeo [4], cuối cùng là RuleGrowth [1,3]

Đầu vào của thuật toán CMRules là một sequence database và hai tham số minsup (có giá trị từ 0 đến 100%), minconf do người dùng truyền vào Đầu ra của thuật toán là các luật tuần tự (sequential rules) có độ hỗ trợ (support) và độ tin cậy (confidence) cao hơn hai giá trị minsup và minconf truyền vào ban đầu Ưu điểm của các sequential rule dạng X⇒Y là thể hiện được mối quan hệ tuần tự giữa hai item khác biệt và không sắp xếp theo thứ tự

Ngoài ra, đề tài cũng ghi nhận lại những nghiên cứu khác có liên quan đến chủ

đề phân tích hành vi người dùng thông qua việc khai phá tập dữ liệu Web Log Bảng dưới đây liệt kê danh sách các công trình nghiên cứu có liên quan:

+ Apriori + Cài đặt thử nghiệm trên

máy cục bộ localhost dung ngôn ngữ JSP (Jave Server Page)

+ Chưa có những đánh giá

cụ thể sau khi xác định các

Trang 25

12

tập luật thu được để đánh giá hành vi khách hàng khi viếng thăm các liên kết trên Website

2 An application

for clickstream

analysis

Claudia Elena DINUCĂ

+ Growth + Luật kết hợp (Agraval và Srikant, 1994)

FP-+ Trình bày tương đối chi tiết những mối liên quan giữa các liên kết và xác định độ tin cậy và độ hỗ trợ của các luật được tìm thấy từ các Web log file thực tế

Đề xuất:

+ Các lý thuyết về Web log

+ Một số phương pháp phân tích mẫu phục vụ cho khám phá hành vi người dùng

+ Không đưa ra các thực nghiệm cụ thể

+ Nghiên cứu về số lần và thời gian viếng thăm trang Web để xác định mức độ học sinh quan tâm đến nội dung các khóa học

Bảng 3 Bảng thống kê các công trình nghiên cứu có liên quan đến phân tích hành

vi người dùng bằng khai phá dữ liệu Web Log

1.3 Cơ sở lý thuyết chứng minh thuật toán RuleGrowth sử dụng trong đề tài tốt hơn những thuật toán khác

Luận điểm 1: thuật toán RuleGrowth tốt hơn thuật toán CMRules và CMDeo [1,3]

- CMRules và CMDeo là hai thuật toán đều hỗ trợ khai phá các luật tuần tự, trong đó CMRules dựa trên khai phá luật kết hợp (association rule) cho nên

Trang 26

nó có thể cho ra cả hai luật sequential lẫn association cùng một lúc, còn CMDeo dựa trên Apriori để khai phá các luật tuần tự

- Hạn chế chung của cả hai thuật toán CMRules và CMDeo là chúng sử dụng phương pháp «generate candidate-and-test», có nghĩa là tạo ứng viên và kiểm thử Vấn đề của cách tiếp cận này là nó thường phát sinh một số lượng lớn các luật ứng viên mà phần lớn thì không hợp lệ và không xuất hiện trong

cơ sở dữ liệu Như vậy, các thuật toán này tốn nhiều thời gian để tách rời các luật hợp lệ khỏi các luật không hợp lệ

- Thuật toán RuleGrowth tránh vấn đề của việc tạo ứng viên này bằng cách thay thế dựa trên một cách tiếp cận “tăng trưởng mẫu” (pattern-growth) RuleGrowth đầu tiên tìm các luật có kích cỡ 1*1 và sau đó tăng trưởng đệ quy chúng bằng cách duyệt các chuỗi trình tự chứa chúng để tìm những phần

tử đơn lẻ mà có thể mở rộng các phần bên trái hay bên phải của các luật này Chiến lược này bảo đảm rằng chỉ có các luật xuất hiện trong cơ sở dữ liệu được xem xét như là các luật hợp lệ tiềm năng bởi thuật toán

Luận điểm 2: thuật toán CMRules và CMDeo tốt hơn những thuật toán khác Trong [4], các tác giả đã đặt câu hỏi “Tại sao sử dụng CMRules hay CMDeo trong CTS (Conscious Tutoring System) thay vì sử dụng các thuật toán khai phá luật tuần

tự khác?”, sau đó trả lời cho câu hỏi này như sau:

- Đầu tiên, do mục tiêu của CTS đề ra là muốn khai phá các luật phổ biến trên nhiều chuỗi, vì vậy không thể sử dụng các thuật toán Hamilton & Karimi [5], Hsieh et al [6] và Deogun & Jiang [7] do chúng chỉ hỗ trợ khai phá luật từ một chuỗi đơn (single sequence) Ngoài ra, các thuật toán Harms et al [8] và Gas et al [10] cũng không được sử dụng vì chúng không hỗ trợ khai phá các luật phổ biến từ nhiều chuỗi (several sequences)

- Tính tới thời điểm hiện tại mà các tác giả nghiên cứu thì chỉ có các thuật toán

Lo et al [9], Pitman and Zanker [13] and Zhao et al [11,12] là có thể khai phá các luật tuần tự phổ biến trên nhiều chuỗi Các luật tuần tự có dạng X⇒Y, trong đó X và Y là các mẫu tuần tự (sequential patterns - ordered lists

of itemsets) Tuy nhiên, dạng này có hạn chế bởi vì chúng quan tâm đến sự sắp xếp các thành phần (elements) của X hoặc Y Mục tiêu của CTS đề ra là chỉ cần biết cái gì gây ra các sự kiện, mà không cần quan tâm đến mối liên hệ

về thứ tự của các nguyên nhân và các sự kiện Vì vậy cũng không sử dụng các thuật toán như Lo et al., Pitman and Zanker or Zhao et al mà thay vào đó các tác giả định nghĩa một hình thức tổng quát hơn của luật tuần tự X⇒Y là các item trong phần bên trái và bên phải của mỗi luật đều không cần sắp xếp thứ tự và gọi đây là thuật toán RuleGrowth

Trang 27

14

1.4 Kết luận chương

Các tài liệu nói trên đều có chung mục tiêu là phân tích các tập tin Web Log, sau

đó khai thác chúng để tìm ra mối liên quan giữa các liên kết và xác định độ tin cậy,

độ hỗ trợ của các tập luật được tìm thấy để xác định hành vi của người sử dụng Web nhằm mục tiêu phục vụ cho kinh doanh hoặc cho lĩnh vực giáo dục

Tuy nhiên, các thuật toán mà các nghiên cứu trên áp dụng đã khá cũ như Apriori (Agrawal & Srikant, 1993) và có những hạn chế nhất định như thuật toán Apriori chạy khá chậm và tiêu tốn nhiều bộ nhớ, các phiên bản cập nhật của thuật toán cũng gặp phải nhiều hạn chế khác như đã phân tích ở các mục 1.2 và 1.3 Vì vậy, đề tài tập trung tìm hiểu một thuật toán mới và vượt trội hơn các thuật toán khác – đó là RuleGrowth

Ngoài ra, RuleGrowth còn phù hợp với mục đích nghiên cứu của đề tài là nhằm tìm được các tập luật tuần tự phổ biến trên nhiều dãy (chuỗi) thông qua cơ sở dữ liệu Web Log Trong lĩnh vực này, RuleGrowth đặc biệt hiệu quả hơn các thuật toán khác khi giúp gia tăng các tập luật hợp lệ trong kết quả trả về cũng là một trong những lý do mà tác giả đề tài quan tâm và muốn tìm hiểu thuật toán này

Các chương tiếp theo của đề tài sẽ trình bày kết quả thực nghiệm khi áp dụng với tập dữ liệu thật của bài toán nhằm chứng minh thêm về tính ưu việt của thuật toán RuleGrowth được lựa chọn Sau đó sẽ trình bày chi tiết các bước thực hiện phân tích xác định hành vi khách hàng thông qua bộ dữ liệu Web Log thu thập được

từ công ty, liệt kê các kết quả đạt được sau khi phân tích Tiếp đó ứng dụng kết quả này vào việc điều chỉnh cải thiện Website trong thực tế Cuối cùng là đánh giá lại kết quả đạt được của đề tài

Trang 28

CHƯƠNG 2: PHƯƠNG PHÁP THỰC HIỆN PHÂN TÍCH HÀNH VI

KHÁCH HÀNG THÔNG QUA DỮ LIỆU WEB LOG

2.1 Giới thiệu chương

Nội dung chương này trình bày làm rõ tính khả thi của phương pháp lấy dữ liệu

đủ, phù hợp thông qua Web Log của công ty (quyền và cấu hình dữ liệu thu thập được) Tiếp đó, tiến hành so sánh kết quả khai phá của thuật toán RuleGrowth và hai thuật toán CMRules, CMDeo trên tập dữ liệu mẫu thu thập được từ Web Log của công ty Sau khi khẳng định lại lần nữa về việc lựa chọn thuật toán RuleGrowth

để thực hiện nghiên cứu của đề tài, ta sẽ tiến hành xử lý chuyển đổi tập dữ liệu Web Log thu thập được từ công ty thành dạng cơ sở dữ liệu trình tự để làm đầu vào của RuleGrowth Công việc tiếp theo là trình bày nội dung chính của RuleGrowth và ứng dụng thuật toán vào việc hỗ trợ khai phá tri thức ý nghĩa từ các chuỗi liên kết của tập dữ liệu Web Log, thu về các kết quả thực nghiệm Cuối cùng, tiến hành phân tích và đánh giá sơ bộ về tập luật tuần tự giá trị thu được

2.2 Phương pháp thu thập dữ liệu Web Log

Dữ liệu đề tài thu thập là nhật ký của server Website www.lvtm.vn, được quản trị của công ty Làm Việc Thông Minh cấu hình trong IIS 7/7.5, cài đặt theo định dạng W3C, sau đó chỉ lọc lấy các dữ liệu có tính chất ghi dấu hành vi truy cập Web của người dùng và đặt tại http://www.lvtm.vn/images/log/

Khi truy cập vào liên kết trên, thư mục cha chứa các thông tin: ngày xuất file, tổng số dòng có trong file và các file log định dạng txt được đặt tên theo kiểu YYYY-MM-DD Nội dung các file log txt này đã được nhân viên quản trị Web của công ty xử lý từ các log file định dạng W3C, lọc giữ các trường được mô tả trong bảng sau để phục vụ cho công việc nghiên cứu của đề tài:

Time time Thời gian hành động xảy ra

URI Stem cs-uri-stem Nguồn tài nguyên truy cập (ví dụ như trang

Web Default.htm) Client IP

Address c-ip Địa chỉ IP của máy khách truy cập vào server

Bảng 4 Bảng liệt kê các thuộc tính thành phần của dữ liệu Web Log thu thập được

Dưới đây là 1 dòng ví dụ lấy trong một tập tin log có định dạng W3C xuất ra từ IIS 7.5 được cài đặt cho trang Web www.lvtm.vn

Trang 29

2.3 Phương pháp lựa chọn thuật toán khai phá dữ liệu Web Log

Căn cứ trên cơ sở lý thuyết của các nghiên cứu có liên quan đã chứng minh thuật toán RuleGrowth tốt hơn những thuật toán khác ở chương 1, đề tài lần lượt áp dụng các thuật toán nêu trên để khai phá dữ liệu Web Log mẫu thu thập được từ công ty, bao gồm:

- The RuleGrowth algorithm [1,3]

- The CMRules algorithm [4,14]

- The CMDeo algorithm [4]

Do các liên kết Web hơi dài nên ta sẽ thu gọn các link thu được ngay sau khi chạy ứng dụng xử lý tạo cơ sở dữ liệu tuần tự từ các Web Log của Website công ty như mục 2.2 trình bày Kết quả thu được như sau:

Hình 3 Hình minh họa kết quả link thu gọn của cơ sở dữ liệu tuần tự mẫu

Sau đó tiến hành chạy các thuật toán nêu trên để khai phá các luật giá trị từ cơ sở

dữ liệu tuần tự trên thì thu được kết quả như sau:

- CMDEO 7 rules; Total time: 65 ms; Max memory: 11.407485961914062

1 ⇒ 10 #SUP: 4 #CONF: 0.6666666666666666

3 ⇒ 10 #SUP: 4 #CONF: 0.5714285714285714

Trang 30

Bảng 5 Bảng so sánh mức độ tiêu tốn thời gian và bộ nhớ của 03 thuật toán áp

dụng khai phá tập dữ liệu Web Log của công ty

- Mô hình so sánh:

Ngày đăng: 27/01/2021, 00:10

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w