CƠ SỞ LÝ THUYẾT
Khai phá dữ liệu
1.1.1 Định nghĩa Đóng vai trò quan trọng trong tiến trình phát hiện tri thức, khai phá dữliệu đang chiếm vị thếcao và có nhiều ưu điểm vượt bậc Sự phát triển vềtrí tuệ của con người đang giúp cho kiến thức vềthế giới được mở rộng nhanh chóng Bắt nguồn từ đó, thị trường Internet cũng là một chủ đề nóng được mọi người quan tâm Từ Internet con người có thểtìm kiếm và học hỏi nhiều thứ, thông qua đó các dữliệu vềcác quá trình đó được lưu lại và cập nhật từng ngày Vì nguyên nhân này mà kho dữliệu đang ngày một lớn hơn Để hiểu hơn về khai phá dữ liệu đã có rất nhiều nghiên cứu được tiến hành.
Khai phá dữ liệu là một lĩnh vực mới mẻ xuất hiện từ đầu thế kỷ 20, với nhiều định nghĩa được đưa ra từ các khía cạnh khác nhau Dưới đây là ba định nghĩa chính về khai phá dữ liệu.
Theo Amy Cross, khai phá dữ liệu là phương pháp tìm kiếm và khai thác thông tin từ các nguồn khác nhau, bao gồm con người, khái niệm, hành vi và thiết bị phục vụ nhu cầu cá nhân Quá trình này giúp chắt lọc thông tin hữu ích từ khối lượng dữ liệu lớn và phát hiện các mẫu để dự đoán kết quả trong tương lai.
Khai phá dữ liệu, theo David J Tay, là quá trình khám phá các cấu trúc có ích trong các cơ sở dữ liệu lớn Nghiên cứu khai phá dữ liệu tập trung vào hai khía cạnh: tìm kiếm các cấu trúc toàn cầu quy mô lớn và mô hình hóa các hình dạng hoặc đặc điểm từ bộ dữ liệu Mục tiêu chính của khai phá dữ liệu là phân tích mối liên quan giữa các cấu trúc bất thường được phát hiện và đánh giá khả năng xảy ra của chúng trong thực tế.
Trường Đại học Kinh tế Huế
Khai phá dữ liệu là quá trình chắt lọc thông tin hữu ích từ nhiều nguồn cơ sở dữ liệu khác nhau Quá trình này bao gồm việc tích hợp các mô hình và mối liên hệ giữa các cơ sở dữ liệu, nhằm phát hiện những điều mới mẻ Từ đó, nó giúp dự đoán các kết quả trong tương lai.
Quá trình khai phá dữ liệu là một tập hợp các phương pháp đa dạng nhằm tìm kiếm và chắt lọc tri thức từ các bộ dữ liệu lớn, mang lại nhiều lợi ích cho con người Bên cạnh đó, việc sử dụng các mô hình tìm kiếm giúp đưa ra dự đoán chính xác, giảm thiểu sai sót trong tương lai.
1.1.2 Quá trình khai phá dữ liệu
Khai phá dữ liệu là một quá trình quan trọng trong việc tìm kiếm thông tin với độ chính xác cao Để đạt được kết quả tốt, cần thực hiện nghiêm ngặt từng giai đoạn, bao gồm: chọn lọc dữ liệu, tiền xử lý dữ liệu, chuyển đổi dữ liệu, khai phá dữ liệu và đánh giá Mỗi giai đoạn có phương pháp riêng nhưng hỗ trợ lẫn nhau trong toàn bộ quy trình khai phá.
Hình vẽ 1: Mô tả quá trình khai phá dữ liệu
(Nguồn: www.bienuit.wordpress.com)
Bước 1: Chọn lọc dữ liệu (Selection) là bước khởi đầu quan trọng trong quá trình khai phá dữ liệu Tại bước này, chúng ta tiến hành tìm kiếm và khai thác các dữ liệu liên quan đến bài toán quan tâm, bao gồm cả việc sử dụng kho dữ liệu hoặc cơ sở dữ liệu từ nhiều nguồn khác nhau.
Trường Đại học Kinh tế Huế
Trong quá trình khai phá dữ liệu, bước tiền xử lý đóng vai trò quan trọng quyết định đến chất lượng mô hình và kết quả Dữ liệu thường gặp phải các vấn đề như không đầy đủ, nhiễu hoặc thiếu sự nhất quán Do đó, giai đoạn này cần áp dụng các kỹ thuật làm sạch, thu gọn, tích hợp và chuyển dạng dữ liệu nhằm nâng cao chất lượng và tính chính xác, từ đó hỗ trợ cho các giai đoạn tiếp theo diễn ra thuận lợi hơn.
Bước 3: Chuyển đổi dữ liệu (Transformation) là quá trình quan trọng để chuyển đổi và chuẩn hóa dữ liệu Việc định dạng dữ liệu phù hợp sẽ hỗ trợ quá trình khai phá, từ đó nâng cao độ chính xác của kết quả khai thác dữ liệu.
Bước 4 trong quy trình khai phá dữ liệu bao gồm ba nội dung chính: lựa chọn bài toán phù hợp, xác định phương pháp khai phá dữ liệu thích hợp và thực hiện các thuật toán khai phá dữ liệu.
Bước 5: Đánh giá (Interpretation Evaluation) là giai đoạn cuối cùng trong quy trình khai phá dữ liệu, nhằm xác định độ chính xác của kết quả Do kết quả khai phá không phải lúc nào cũng đúng, việc sử dụng các tiêu chuẩn mô hình là cần thiết để đánh giá mức độ hữu ích của nó.
1.1.3 Kiến trúc một hệ thống khai phá dữ liệu
Theo JA Zachman, sự bùng nổ thông tin hiện nay đã làm gia tăng độ phức tạp và dung lượng dữ liệu, gây khó khăn trong việc tìm kiếm và khai thác thông tin Do đó, cần thiết phải có một hệ thống khai phá dữ liệu với nhiều thuật toán và cấu trúc logic để phát triển một hệ thống thông minh Hệ thống này sẽ mang lại cho người dùng nhiều cơ hội hơn trong quá trình khai thác dữ liệu.
Từ đó mô hình kiến trúc của hệthống khai phá dữliệu được mô tả như sau:
Trường Đại học Kinh tế Huế
Hình vẽ 2: Kiến trúc một hệ thống khai phá dữ liệu
- Cơ sởdữliệu (Database): trong một hệthống khai phá dữliệu có đầu vào là các cơ sởdữliệu, kho dữliệu, các dữliệu Wold Wide Web và các nguồn dữ liệu khác.
- Kho dữliệu (Database or Data Warehouse Server): có nhiệm vụ lấy các dữ liệu theo yêu cầu của người dùng.
Cơ sở tri thức là tập hợp các tri thức nhằm nâng cao hiệu quả cho các thành phần trong hệ thống khai thác dữ liệu Nó cũng đóng vai trò quan trọng trong việc đánh giá các mẫu sau quá trình khai thác, giúp kiểm tra tính hữu ích của chúng và bổ sung vào miền tri thức hiện có.
Động cơ khai phá dữ liệu là thành phần chính trong quá trình khai thác dữ liệu, bao gồm các mô đun thực hiện phân tích dữ liệu, khai phá luật kết hợp, phân lớp, phân cụm và dự đoán.
Phát biểu bài toán nghiên cứu
Bài toán này giúp theo dõi ý định mua hàng trực tuyến, từ đó thông báo sớm nhu cầu của khách hàng và phân tích hành động mua sắm để phân loại khách hàng một cách cụ thể.
Cho U là tập hợp dữliệu mô tảhành vi mua hàng của khách hàng U = { u i | i =1, }, n∈ℕ.
Trường Đại học Kinh tế Huế
Cho C là tập nhãn phân loại ý định mua sắm của khách hàng C = { c j | j = 1,2 }, trong đóc j là một nhãn dán phân loại khách hàng.
Biết với mỗi ý định mua hàng của khách hàng u i luôn được dán một nhãn dán cụthểc j
Gọi f là mô hình phân lớp kết hợp dạng Bagging, mô hình phân lớp được biểu diễn như sau: f : U→C f(u i )↦ c j
Các công trình liên quan
1.3.1 Các công trình ở trong nước
Nguyễn Thị Lan Anh [6] đã áp dụng thuật toán học máy Support Vector Machines (SVM) để khai thác ý kiến phản hồi của khách hàng trên các trang web thương mại điện tử Sự phát triển của Internet và thương mại điện tử đã tạo cơ hội cho người tiêu dùng chia sẻ ý kiến về sản phẩm, từ đó cung cấp thông tin quan trọng giúp người mua có cái nhìn toàn diện hơn Dữ liệu phản hồi của khách hàng được thu thập và phân loại bằng SVM, một bước quan trọng trong quá trình phân tích Nghiên cứu này mang lại lợi ích cho doanh nghiệp, giúp họ hiểu rõ hơn về ý kiến khách hàng và phát triển các chiến lược sản phẩm và dịch vụ hiệu quả hơn.
Theo Trần Thị Bích Đào, việc ứng dụng khai phá dữ liệu để tìm ra các luật kết hợp đáng tin cậy trong hệ thống bán hàng tại công ty dược TW3 là rất cần thiết trong bối cảnh cạnh tranh ngày càng khốc liệt Doanh nghiệp cần có các chiến lược linh hoạt để phát triển, với mục tiêu hàng đầu là phục vụ khách hàng Sự đa dạng trong nhu cầu sản phẩm của khách hàng khiến cho việc tiếp cận ngày càng khó khăn, buộc các doanh nghiệp phải tăng cường quảng bá sản phẩm để hiểu rõ hơn về nhu cầu của từng nhóm khách hàng theo độ tuổi khác nhau Nhu cầu của khách hàng vì vậy đóng vai trò vô cùng quan trọng trong chiến lược kinh doanh.
Trường Đại học Kinh tế Huế cung cấp các dự đoán giúp doanh nghiệp xây dựng chính sách hợp lý Tác giả áp dụng thuật toán phân lớp với cây quyết định để tìm ra luật kết hợp dựa trên doanh thu và các loại hàng hóa được bán, nhằm hiểu rõ hơn về hành vi mua sắm của người tiêu dùng Kết quả từ nghiên cứu này sẽ hỗ trợ doanh nghiệp trong việc đánh giá và dự đoán, mang lại lợi ích tối ưu cho công ty.
1.3.2 Các công trình ở nước ngoài
Theo nghiên cứu của Sujoy Bag, Manoj Kumar Tiwari và các cộng sự, khai phá dữ liệu đã được sử dụng để phân lớp khách hàng nhằm dự đoán ý định mua hàng của người tiêu dùng Một mô hình dự báo đã được phát triển để tạo ra nền tảng thương mại điện tử phù hợp với nhu cầu của khách hàng Để xây dựng mô hình này, các tác giả đã phân tích nhận thức xã hội về các thương hiệu và tính phân biệt giữa các lớp khách hàng Tiếp theo, họ triển khai phân tích hồi quy phù hợp và xác định các trường hợp cho từng thuộc tính sản phẩm Kết quả phân tích này mang lại lợi ích cho các nhà bán lẻ và giúp tối ưu hóa nền tảng tìm kiếm hiệu quả cho khách hàng trong việc tiếp cận hàng hóa theo nhu cầu.
Theo nghiên cứu của Jyoti Prakash Singh và các cộng sự, họ đã áp dụng phương pháp khai phá văn bản để dự đoán tính hữu ích của đánh giá người tiêu dùng trực tuyến Mua sắm trực tuyến ngày càng trở thành lựa chọn phổ biến do tính tiện lợi trong việc chọn sản phẩm dựa trên đánh giá Tuy nhiên, lượng lớn đánh giá được đăng tải liên tục tạo ra thách thức cho người tiêu dùng trong việc đưa ra quyết định mua hàng Nghiên cứu đã phát triển các mô hình khai phá văn bản để tự động gán giá trị hữu ích cho các đánh giá ngay khi chúng được đăng, giúp tăng khả năng hiển thị của đánh giá cho người mua khác Kết quả nghiên cứu không chỉ hỗ trợ người tiêu dùng viết đánh giá tốt hơn mà còn giúp các doanh nghiệp cải thiện trang web của họ.
Trường Đại học Kinh tế Huế
Theo nghiên cứu của Marta Frasquet, Alejandro Mollá và các cộng sự, phương pháp phân cụm và hồi quy đã được sử dụng để xác định các mẫu trong việc sử dụng kênh ở các giai đoạn tìm kiếm, mua và chăm sóc sau mua sắm của khách hàng Người tiêu dùng hiện nay sử dụng nhiều kênh khác nhau để hoàn tất quy trình mua hàng, với các mục tiêu khác nhau ở từng giai đoạn Các tác giả phân biệt hai loại động lực sử dụng kênh: nội tại và bên ngoài, dựa trên mô hình động lực Họ cũng sử dụng chi phí giao dịch kinh tế để giải thích sự khác biệt trong việc sử dụng kênh ở các giai đoạn mua sắm và cho các loại sản phẩm khác nhau Phân tích hồi quy và phân tích cụm được thực hiện trên dữ liệu khảo sát từ 1533 người mua sắm đa kênh bán lẻ tại hai loại sản phẩm (hàng may mặc và điện tử gia dụng) ở Anh và Tây Ban Nha.
Theo Satoshi Nakano và Fumiyo N Kondo, nghiên cứu của họ áp dụng phương pháp phân cụm trong khai phá dữ liệu để phân tích cách khách hàng tương tác với nhiều kênh và phương tiện trong môi trường bán lẻ hiện đại Họ phân đoạn khách hàng dựa trên phân tích cụm các giá trị tiềm ẩn, tập trung vào các kênh mua hàng và cửa hàng trực tuyến Điểm tiếp xúc truyền thông của khách hàng bao gồm máy tính, điện thoại di động, và phương tiện truyền thông xã hội, cùng với các đặc điểm nhân khẩu học và tâm lý Nghiên cứu này mở rộng khuôn khổ các nghiên cứu trước đó bằng cách phân tích dữ liệu từ 2,595 người.
Nhật Bản tham gia vào các hoạt động mua sắm trên nhiều kênh khác nhau, với dữ liệu khảo sát được phân tích thành bảy phân đoạn dựa trên thuộc tính của người mua sắm Nghiên cứu xác định hai phương pháp phân khúc khách hàng đa kênh: một là dựa trên dữ liệu hành vi thực tế và hai là hiểu rõ các đặc điểm của khách hàng trong mỗi phân đoạn thông qua việc kết hợp dữ liệu khảo sát Kết quả nghiên cứu cung cấp những hàm ý quản lý quan trọng cho việc thiết kế các chiến lược khách hàng trong môi trường tiếp thị hiện đại.
Trường Đại học Kinh tế Huế
Theo nghiên cứu của Shu-hsien Liao, Yin-ju Chen và các cộng sự, việc sử dụng khai phá dữ liệu để phân cụm khách hàng nhằm tối ưu hóa trải nghiệm mua sắm trực tuyến và giao hàng tận nhà đang ngày càng trở nên quan trọng Sự gia tăng dân số Internet toàn cầu, đặc biệt là trong nhóm khách hàng trẻ, đã thúc đẩy xu hướng mua sắm trực tuyến với tiêu chí tiện lợi và tốc độ Thị trường giao hàng tận nhà từ doanh nghiệp đến khách hàng cũng đang phát triển mạnh mẽ nhờ sự gia tăng của các cửa hàng ảo và các hình thức tiếp thị như thương mại điện tử Nghiên cứu này kết hợp mua sắm trực tuyến và giao hàng tận nhà, đồng thời áp dụng các quy tắc kết hợp để xác định cách đóng gói sản phẩm tươi và không tươi trong siêu thị Khách hàng được phân nhóm dựa trên sở thích tiêu thụ, từ đó siêu thị có thể thiết kế danh mục sản phẩm hấp dẫn hơn Mô hình kinh doanh này không chỉ giúp thu hút khách hàng mà còn mở ra nhiều cơ hội thị trường và tăng lợi nhuận cho siêu thị.
Silvia Vázquez đề xuất phương pháp phân lớp dữ liệu và khai phá văn bản để theo dõi quá trình quyết định mua hàng của người tiêu dùng Sự gia tăng tài liệu về hành vi người dùng trong những thập kỷ qua đã ảnh hưởng lớn đến hành vi mua sắm truyền thống Khách hàng hiện nay sử dụng các kênh truyền thông mới như microblog và mạng xã hội để tìm kiếm ý kiến từ bạn bè và người lạ trong quá trình ra quyết định Việc khám phá cảm nhận của khách hàng về sản phẩm và thương hiệu, cũng như thói quen mua sắm và sở thích, thường tốn kém và mất thời gian khi sử dụng các phương pháp truyền thống như nhóm tập trung và khảo sát Do đó, nghiên cứu này cần một đánh giá sâu sắc về các kỹ thuật nghiên cứu thị trường hiện đại để đạt được mục tiêu giải thích và thu thập dữ liệu hiệu quả.
Tại Trường Đại học Kinh tế Huế, tác giả phân tích và phân lớp hành vi của người dùng thông qua việc sử dụng một kho văn bản ngắn bằng tiếng Anh và tiếng Tây Ban Nha từ các phương tiện truyền thông xã hội Tác giả xác định các mẫu ngôn ngữ cho từng giai đoạn trong quá trình mua hàng, phục vụ cho việc phân lớp dựa trên quy tắc Cuối cùng, tác giả áp dụng thuật toán học máy để tự động xác định các chỉ số kinh doanh, bao gồm các yếu tố tiếp thị kết hợp.
McCarthy và Brogowicz (1981) đã chỉ ra rằng việc phân lớp các giai đoạn mua hàng đạt được độ chính xác trung bình là 74% Ngoài ra, việc khai phá văn bản dựa vào các yếu tố tiếp thị kết hợp cho thấy độ chính xác trung bình lên tới 75% cho tất cả các yếu tố được phân tích.
Theo Mario Macías, Jordo Guitart [14], họ đã sử dụng khai phá dữ liệu để lập mô hình phân lớp khách hàng dưới dạng mục tiêu doanh nghiệp (Business-level
Mô hình này nhằm tối đa hóa doanh thu cho các nhà cung cấp dịch vụ đám mây, nơi chủ sở hữu tài nguyên máy tính thương lượng với khách hàng để bán điện toán Các điều khoản về chất lượng dịch vụ và điều kiện kinh tế được quy định trong thỏa thuận mức dịch vụ Mục tiêu chính của nhà cung cấp đám mây là tối đa hóa lợi nhuận kinh tế, tuy nhiên, họ cần phân biệt thỏa thuận mức dịch vụ cho các loại khách hàng khác nhau Điều này đặc biệt quan trọng khi tài nguyên phần cứng được chia sẻ giữa người dùng nội bộ và người dùng bên ngoài Tiêu chí phân loại khách hàng dựa trên mối quan hệ giữa khách hàng và nhà cung cấp, bao gồm người dùng bên ngoài, nội bộ và mối quan hệ đặc quyền.
Theo nghiên cứu của Theo Sungjoo Lee, Seunghoon Lee và các cộng sự, một mô hình dự đoán thành công cho các dịch vụ thương mại điện tử đã được xây dựng thông qua việc sử dụng cây quyết định Nghiên cứu này tập trung vào thái độ của khách hàng đối với dịch vụ trực tuyến để xác định các đặc điểm của dịch vụ có khả năng khuyến khích khách hàng mua sắm trực tuyến Đồng thời, mô hình cũng phát triển dựa trên sự thành công của các yếu tố này.
Trường Đại học Kinh tế Huế đã tiến hành khảo sát khách hàng tiềm năng để đánh giá dịch vụ thương mại điện tử Dữ liệu thu thập từ các trang web Portal được sử dụng để phát triển mô hình dự đoán bằng cây quyết định, cho thấy độ chính xác cao hơn so với các kỹ thuật thông thường Kết quả nghiên cứu sẽ giúp dự đoán sự chấp nhận của khách hàng và hiểu rõ hơn về lợi ích của việc áp dụng dịch vụ trong tương lai trong lĩnh vực thương mại điện tử.
PHƯƠNG PHÁP XÂY DỰNG MÔ HÌNH
Giới thiệu về phần mềm Weka
2.1.1 Tổng quan Được viết bởi ngôn ngữ Java, Weka (Waikato Environment for Knowledge
Analysis) là một phần mềm rất phổ biến được dùng trong khai phá dữ liệu và học máy.
Nó bao gồm các thuật toán và các phương pháp chọn dữ liệu, phân lớp, phân cụm và khai phá kết hợp.
Hình vẽ 7: Giao diện chính phần mềm Weka 2.1.2 Các ứng dụng chính trong Weka
Explorer là ứng dụng hỗ trợ các chức năng quan trọng trong khai phá dữ liệu, bao gồm tiền xử lý dữ liệu, khai phá luật kết hợp, phân lớp, phân cụm, chọn thuộc tính và hình dung mô hình.
- Experimenter: là ứng dụng dùng để thực hiện các thí nghiệp các mô hình và so sánh các mô hình với nhau để đánh giá.
- KnowlegedFlow: là ứng dụng cho phép người dùng thiết kế đồ họa từ các nguồn dữ liệu và kết quả được đánh giá.
Trường Đại học Kinh tế Huế
- Workbench: là một ứng dụng kết hợp tất cả các giao diện GUI vào một ứng dụng.
Simple CLI là ứng dụng với giao diện dòng lệnh đơn giản, giúp người dùng dễ dàng thực hiện thí nghiệm và đưa ra dự đoán trong Weka thông qua các lệnh.
Các phương pháp nghiên cứu
Mô hình phân lớp được xây dựng bằng phương pháp kết hợp Bagging, sử dụng bộ phân lớp cơ sở là cây quyết định, nhằm so sánh hiệu quả với các phương pháp phân lớp Nạve.
Bayes, cây quyết định, mạng nơ-ron nhân tạo và k lân cận.
Bắt nguồn từ bài toán ước tính phân bổ liên tục trong các phân loại Bayesian,
George H John và Pat Langley đã tiến hành nghiên cứu thuật tốn phân lớp Nạve
Thuật toán Bayes, đặc biệt là phân lớp Nạve Bayes, sử dụng các lớp và giá trị chính xác số ước lượng dựa trên phân tích dữ liệu huấn luyện Phương pháp này thuộc phân lớp thống kê và dựa trên xác suất có điều kiện, giúp tiết kiệm thời gian nhờ quá trình xây dựng mô hình nhanh chóng.
Bayes đã thành công trong việc thực hiện phân lớp nhị phân cũng như giải quyết các vấn đề đa lớp Mô hình Nạve Bayes dựa vào các tỷ lệ phần trăm, ngay cả khi rất nhỏ, để xây dựng các mô hình dự đoán với độ chính xác cao.
Trường Đại học Kinh tế Huế
Hình vẽ 8: Mơ hình Nạve Bayes
Cho X là một tập dữ liệu được tạo ra trên n thuộc tính, X được xem là một chứng cứ Cho H là một giảthiết đểX thuộc vềmột lớp C cụthể Đối với các bài toán phân lớp, mục tiêu cần phải thực hiện là xác định P(H|X) Với
P(H|X) là xác suất xảy ra của giả thuyết H khi X xảy ra, P(H|X) là một xác suất hậu nghiệm Dựa vào định lý Bayes, xác suất này được tính như sau:
Và các xác suất này có thể được thiết lập từtập dữliệu cho trước. Ưu điểm của thuật tốn phân lớp Nạve Bayes:
- Mô hình dễdàng càiđặt, học nhanh và dễhiểu.
- Thời gian tiến hành tương tựvới mô hình cây quyết định.
- Trong thực tế Nạve Bayes cho kết quả khá chính xác mặc dù chịu nhiều giả thiết về tính độc lập thống kê của các thuộc tính.
- Chỉ cần sử dụng một khối lượng nhỏ dữ liệu huấn luyện để ước lượng tham số cần thiết để phân lớp.
Cây quyết định, được nghiên cứu bởi Ross Quinlan và xuất bản bởi Morgan Kaufmann vào năm 1993, là một cấu trúc dạng cây với mỗi nút trung gian đại diện cho một phép thử trên thuộc tính Các nhánh biểu thị kết quả của phép thử, trong khi các nút lá đại diện cho nhãn lớp Nút trên cùng gọi là nút gốc, và đường đi từ nút gốc đến nút lá thể hiện dự đoán phân lớp cho dữ liệu Cây quyết định có khả năng chuyển đổi dễ dàng thành các phân lớp.
Trường Đại học Kinh tế Huế
Hình vẽ 9: Mô hình cây quyết định
So với các phương pháp khai phá dữliệu khác, cây quyết định có các ưu điểm sau:
- Dễ hiểu cho người dùng.
- Không cần kiến thức chuyên ngành hay thiết lập tham số ban đầu.
- Cây quyết định có thể xử lý cả các tập dữ liệu có số chiều lớn.
- Có thể biểu diễn dễ dàng các tri thức dưới dạng cây
- Cây quyết định có thể xử lý tốt một lượng dữ liệu lớn rất nhanh chóng.
2.2.3 Mô hình k-lân cận (k-NN)
Mô hình k-NN, được nghiên cứu bởi D Aha và D Kibler vào năm 1991, là một thuật toán học máy dựa trên thể thức Giá trị thích hợp của k có thể được xác định thông qua xác nhận chéo, và khoảng cách cũng có thể được điều chỉnh bằng trọng số.
Phương pháp này dựa trên các phân tử lân cận trong tập dữ liệu huấn luyện để xác định nhãn phân lớp của một phần tử Nó tìm kiếm K phần tử lân cận để quyết định phân loại cho phần tử cần phân tích.
Trường Đại học Kinh tế Huế đã gán nhãn cho phân tử bên cạnh Để xác định láng giềng gần nhất, chúng ta sử dụng độ đo khoảng cách Euclid.
Hình vẽ 10: Mô hình k-NN
Ta có thể tìm các phần tử láng giềng gần nhất bằng các định nghĩa độ đo trong đó có độ đo khoảng cách Euclide:
Nhãn lớp phổ biến trong sốk lân cận sẽ là nhãn lớp của bộ dữ liệu X.
Khi các thuộc tính có miền giá trị khác nhau, độ đo sẽ không chính xác Để cải thiện độ chính xác, cần chuẩn hóa dữ liệu về khoảng [0, 1].
Trường Đại học Kinh tế Huế
Giá trị nhỏ nhất và lớn nhất của thuộc tính A được ký hiệu lần lượt là min A và max A Dựa vào các tiêu thức này, chúng ta có thể dự đoán về tập dữ liệu thông qua các láng giềng của nó.
2.2.4 Mạng nơ-ron nhân tạo (MultilayerPerceptron)
Mạng nơ-ron nhân tạo là một bộ phân loại sử dụng phương pháp đẩy lùi để phân loại các thể hiện Phương pháp này có thể được xây dựng một cách thủ công, tự động hóa hoặc kết hợp cả hai, và có khả năng được theo dõi và điều chỉnh trong quá trình phát triển.
Hình vẽ 11: Mô hình mạng noron
Dựa vào mô hìnhđược mô tả ở hình vẽ 11 cho thấy mạng nơ-ron nhân tạo([10]
Mạng nơ-ron (Nguyễn Hà Nam, 2016) là một cấu trúc gồm các đơn vị kết nối từ đầu vào đến đầu ra, trong đó mỗi nút mang một trọng số riêng Trong quá trình học, mạng nơ-ron điều chỉnh các trọng số để dự đoán kết quả phù hợp với dữ liệu huấn luyện thực tế Tuy nhiên, thời gian huấn luyện thường kéo dài và việc giải thích quyết định của mạng nơ-ron gặp nhiều khó khăn Có nhiều kiến trúc mạng nơ-ron khác nhau, mỗi kiến trúc sử dụng các kết nối và chiến lược học khác nhau để thực hiện các nhiệm vụ cụ thể.
2.2.5 Mô hình kết hợp theo phương pháp Bagging
Trường Đại học Kinh tế Huế
Phương pháp Bagging xây dựng mô hình kết hợp từ nhiều mô hình phân lớp cơ sở cùng loại như cây quyết định, Naive Bayes, k-lân cận và mạng nơ-ron nhân tạo Quyết định phân lớp nào chiếm đa số sẽ được chọn làm kết quả cuối cùng của mô hình Bagging Phương pháp này được áp dụng rộng rãi, đặc biệt trong dự đoán bệnh tật tại bệnh viện.
Phương pháp Bagging nhằm mục đích giảm phương sai, đồng thời cải thiện và tăng độ chính xác cho các kỹ thuật phân lớp và hồi quy.
Các phương pháp chuẩn bị dữ liệu
Các tập dữ liệu nhỏ rất phù hợp cho phương pháp holdout, trong đó dữ liệu được chia thành hai tập với tỷ lệ nhất định Tỷ lệ giữa tập huấn luyện và tập kiểm thử thường được chọn theo quy định cụ thể.
Phương pháp cross-validation là kỹ thuật kiểm tra độ chính xác của tập dữ liệu bằng cách sử dụng toàn bộ dữ liệu thay vì chỉ một phần cho quá trình học.
Hình vẽ 12: Phương pháp cross-validation
Xác nhận chéo k-fold crossvalidation đối với một tập dữ liệu D được thực hiện
Trường Đại học Kinh tế Huế thực hiện quá trình huấn luyện và kiểm thử nhiều lần Ở mỗi bước lặp thứ i, phân mảnh D_i sẽ được giữ lại làm tập kiểm thử, trong khi phần còn lại sẽ được sử dụng để huấn luyện.
Các phương pháp đánh giá mô hình phân lớp
Trước khi áp dụng kết quả phân lớp vào thực tế, cần tiến hành đánh giá độ chính xác của nó Không phải lúc nào kết quả thu được cũng đạt độ chính xác cao và dễ dàng áp dụng.
Trong lớp phân biệt, bộ phân lớp M được thiết kế để phân loại dữ liệu vào các lớp cụ thể Phương pháp đánh giá các thuật toán dựa trên nhãn gán cho tập dữ liệu rất quan trọng, giúp đánh giá chất lượng của các thuật toán phân cụm bằng cách so sánh dữ liệu gán nhãn với kết quả của thuật toán Các chỉ số thường được sử dụng để đánh giá bao gồm độ chính xác, tỷ lệ lỗi và độ hồi tưởng.
(recall), F-measure Để phân tích khả năng dự đoán của một bộ phận phân lớp M, người ta thường sửdụng ma trận hỗn hợp (confusion matrix).
Bảng 1: Ma trận hỗn hợp (confustion matrix)
+ TP (true positive) là số lượng các phần tử được dự đoán đúng lớp +1.
+ FN (false negative) là số lượng các phần tử được dự đoán nhầm từ-1 sang +1.
+ FP (false positive) là số lượng các phần tửbị đoán nhầm từlớp +1 sang -1.
C1 TP (True positives) FN (False negatives)
Trường Đại học Kinh tế Huế
+ TN (true negative) là số lượng phần tử được dự đoán đúng thuộc lớp -1.
Dựa vào ma trận, nhiều phép đo đã được đề xuất để đánh giá hiệu suất của bộ phân lớp M Tuy nhiên, trong một số trường hợp, việc dự đoán chính xác nhãn lớp không mang lại ý nghĩa nhiều Đối với trường hợp có hai lớp, các công thức độ đo được tính toán như đã trình bày trong bảng.
- Tỉ lệ lỗi tổng thể:
Error TP FP TN FN 100%
Accuracy TP FP TN FN 100%
- Đối với từng lớp có thể dùng thêm hai độ đo đánh giá sau:
Đường ROC là một công cụ hữu ích để so sánh hiệu suất của nhiều mô hình phân loại một cách trực quan Để vẽ đường ROC, cần sắp xếp dữ liệu kiểm thử theo thứ tự giảm dần của kết quả dự đoán Mô hình có đường ROC nằm trên cùng thể hiện hiệu suất cao hơn so với các mô hình khác.
- False positive (FP) chia trên trục X.
- True positive (TP) (TP) trên trục Y.
Mỗi bộphân loại được đại diện bởi một điểm trong ROC không gian tương ứng với cặp (FP, TP) Các thông số thay đổi liên tục:
Trường Đại học Kinh tế Huế
Các công thức đánh giá đã hỗ trợ quá trình đo lường độ chính xác của mô hình xây dựng Không phải tất cả các mô hình thành công đều mang lại lợi ích cao, do đó, việc thảo luận về các metric là rất cần thiết.
Điểm Precision, Recall và F1 Acc là những yếu tố quan trọng để đánh giá độ chính xác của các mô hình Điểm F1 thể hiện sự cân bằng giữa độ chính xác và thu hồi, thường gần với giá trị thấp nhất giữa Precision và Recall Thông thường, điểm F1 chỉ đạt cao khi cả hai chỉ số này đều cao, và sẽ giảm nếu một trong hai chỉ số thấp Do đó, có thể áp dụng trọng số để xác định mức độ ưu tiên giữa độ chính xác và thu hồi.
Trường Đại học Kinh tế Huế
Điểm F1 là chỉ số trung bình hài hòa giữa độ chính xác và độ thu hồi, rất quan trọng trong các nhiệm vụ phân loại hai lớp, trong đó một lớp biểu thị thành công và lớp còn lại biểu thị thất bại Độ chính xác, độ thu hồi và điểm F1 đặc biệt phù hợp với các tập dữ liệu có sự mất cân bằng lớp Khi dữ liệu bị mất cân bằng, việc phân loại có thể đạt được độ chính xác cao chỉ bằng cách chọn lớp đa số trong mỗi lần xây dựng Chính vì những lợi ích này, phương pháp phân lớp ngày càng trở nên phổ biến.
Trường Đại học Kinh tế Huế
THÍ NGHIỆM VÀ KẾT LUẬN
Thiết lập thí nghiệm
Với sự gia tăng nhu cầu mua sắm trực tuyến, các doanh nghiệp đang khai thác khách hàng tiềm năng để tối đa hóa lợi nhuận Bằng cách phân tích dữ liệu về ý định và nhu cầu mua hàng của khách, họ có thể phân loại khách hàng thành các nhóm khác nhau, từ đó cung cấp dịch vụ và sản phẩm phù hợp.
Dữliệu sau quá trình khảo sát, muốn dữliệu có thểhoạt động trên chương trình
Weka yêu cầu dữ liệu phải được chuẩn hóa Sau khi trải qua quá trình lọc, dữ liệu sẽ được chuẩn hóa và lưu dưới dạng file CSV để có thể sử dụng trong Weka Explorer.
Dưới đây là file dữ liệu về hành vi người mua sắm trực tuyến có tên online_shoppers_intention.csv:
Hình vẽ 13: Dữ liệu hành vi người mua sắm trực tuyến
Dữ liệu mô tả ý định mua hàng của khách hàng được lấy từ nguồn: https://archive.ics.uni.edu/.
Trường Đại học Kinh tế Huế
The dataset consists of 18 attributes, including administrative, administrative_duration, informational, informational_duration, productrelated, productrelated_duration, bouncerates, exitrates, pagevalues, specialday, month, operatingsystems, browser, region, traffictype, visitortype, weekend, and revenue The meanings of these attributes are detailed in Table 2.
Bảng 2: Mô tả các thuộc tính dữ liệu
Tên thuộc tính Ý nghĩa Mô tả
Administrative Hành chính Thuộc tính này mô tả các công việc quản lý kế toán qua việc bán hàng trực tuyến của doanh nghiệp
Administrative_duration Thời hạn hành chính
Thuộc tính này mô tả thời hạn công việc quản lý kế toán qua việc bán hàng trực tuyến của doanh nghiệp
Informational Thông tin Thuộc tính này mô tả các thông tin thu được từkhách hàng qua quá trình mua sắm trực tuyến
Informational_duration Thời lượng thông tin
Thuộc tính này mô tả thời lượng thông tin thu được là bao nhiêu từkhách hàng
Productrelated Sản phẩm liên quan
Thuộc tính này mô tả các sản phẩm được khách hàng chọn mua
Productrelated_duration Thời gian liên quan đến sản
Thuộc tính này mô tả các sản phẩm nào được muaởthời gian nào từkhách hàng
Trường Đại học Kinh tế Huế phẩm
Bouncerates Tỷlệthoát Thuộc tính này mô tảtỷlệthoát khỏi trang bán hàng trực tuyến, ngừng mọi hoạt động mua sắm trên trang của khách hàng
Exitrates Tỷlệthoát khỏi giá rẻ
Thuộc tính này mô tả tỷ lệ các khách hàng thoát khỏi các sản phẩm giá rẻ để mua sắm các sản phẩm đắt hơn
Pagevalues Giá trị trang Thuộc tính này mô tả giá trị các trang mà khách đã vàđang mua hàng trực tuyến
Thuộc tính này mô tả lượng mua của khách hàng vào các ngày đặc biệt
Month Tháng Thuộc tính này mô tả các sản phẩm được khách hàng muaở các tháng
Operatingsystems Các hệ điều hàng
Thuộc tính này mô tả các hệ điều hành được khách hàng sử dụng để mua hàng trực tuyến
Browser Trình duyệt Thuộc tính này mô tảcác trình duyệt khách hàng sử dùng đểgiao dịch
Region Khu vực Thuộc tính này mô tả các khu vực có khách hàng mua sắm
Thuộc tính này mô tả các loại lưu lượng lưu trữthông tin khách hàng
Visitortype Loại khách truy cập
Thuộc tính này mô tả các loại khách hàng mua sắm trên trang bán hàng
Trường Đại học Kinh tế Huế
Thuộc tính này mô tả hành vi mua hàng của khách hàng vào ngày cuối tuần
Revenue Kết quảgiao dịch mua bán
Thuộc tính này được sử dụng để xác định nhãn lớp, trong đó giá trị False biểu thị việc kết thúc quá trình duyệt website mà không thực hiện giao dịch, trong khi giá trị True cho thấy quá trình mua bán trên website đã diễn ra thành công.
Mở Weka → Chọn Explorer → Chọn Open File → Chọn online_shoppers_intention.csv và kết quảhiển thị như sau:
Hình vẽ 14: Giao diện dữ liệu trong Explorer
Chọn Choose → Chọn filters → Chọn unsupervised → Chọn instance → Chọn
Trong mục RemovePercentage, ở mục percentage chọn 20% có nghĩa là dùng
80% dữliệu gốc đểhuấn luyện và 20% dữliệu còn lại dùng đểkiểm thử.
Trường Đại học Kinh tế Huế
Hình vẽ 15: Giao diện chia dữ liệu
Tiếp tục, chọn OK → Chọn Apply → Chọn Save để lưu lại tập dữ liệu huấn luyện có tên là online_shoppers_intention_train.arff.
Using the test dataset, select Undo and perform the same actions as with the training dataset, but change the invertSelection parameter from False to True The test data is saved as online_shoppers_intention_test.arff.
3.1.4.1 Phân lớp bằng phương pháp Nạve Bayes
Phương pháp phân lớp Nạve Bayes được chạy trên cả2 tập dữliệu huấn luyện và kiểm thửnên quá trình thực hiện gồm có 2 bước:
- Bước 1: Mở Weka → Chọn Explorer → Chọn Open File → Chọn tập dữ liệu online_shoppers_intention_train.arff → Chọn Classify → Chọn Choose →
Chọn weka → Chọn classifiers → Chọn bayes→ Chọn Nạve Bayes → Chọn
Start thu được kết quả như sau:Trường Đại học Kinh tế Huế
Hình vẽ 16: Kết quả phân lớp tập dữ liệu huấn luyện bằng phương pháp Nạve
+Trường hợp phân lớp chính xác: 80.1399%
+ Trường hợp phân lớp chưa chính xác: 19.8601%
- Bước 2: Tiếp tục bước trên chọn Supplied test set → Chọn Set → Chọn Open
File → Chọn tập dữliệu online_shoppers_intention_test.arff→ Chọn Close →
Kích chuột phải vào mô hình trên chọn Re-evaluate model on current test set thu được kết quả như sau:
Hình vẽ 17: Kết quả phân lớp tập dữ liệu kiểm thử bằng phương pháp Nạve Bayes
Trường Đại học Kinh tế Huế
+ Trường hợp phân lớp chính xác: 71.9789%
+ Trường hợp phân lớp chưa chính xác: 28.0211%
3.1.4.2 Phân lớp bằng phương pháp cây quyết định (J48)
Phương pháp phân lớp J48 được chạy trên cả2 tập dữ liệu huấn luyện và kiểm thửnên quá trình thực hiện gồm có 2 bước:
Bước 1: Mở Weka → Chọn Explorer → Chọn Open File → Chọn tập dữ liệu online_shoppers_intention_train.arff→ Chọn Classify→ Chọn Choose→ Chọn weka→
Chọn classifiers→ Chọn trees→ Chọn J48→ Chọn Start thu được kết quả như sau:
Hình vẽ 18: Kết quả phân lớp tập dữ liệu huấn luyện bằng phương pháp J48
+Trường hợp phân lớp chính xác: 88.1488%
+ Trường hợp phân lớp chưa chính xác: 11.8512%
- Bước 2: Tiếp tục bước trên chọn Supplied test set → Chọn Set → Chọn Open
File → Chọn tập dữliệu online_shoppers_intention_test.arff→ Chọn Close →
Kích chuột phải vào mô hình trên chọn Re-evaluate model on current test set thu được kết quả như sau:
Trường Đại học Kinh tế Huế
Hình vẽ 19: Kết quả phân lớp tập dữ liệu kiểm thử bằng phương pháp J48
+Trường hợp phân lớp chính xác: 93.7551%
+ Trường hợp phân lớp chưa chính xác: 6.2449%
3.1.4.3 Phân lớp bằng phương pháp k-lân cận
Phương pháp phân lớp k-lân cận được chạy trên cả2 tập dữliệu huấn luyện và kiểm thửnên quá trình thực hiện gồm có 2 bước:
- Bước 1: Mở Weka → Chọn Explorer → Chọn Open File → Chọn tập dữ liệu online_shoppers_intention_train.arff → Chọn Classify → Chọn Choose →
Chọn weka → Chọn classifiers → Chọn lazy → Chọn IBK → Chọn K = 5 →
Chọn OK→ Chọn Start thu được kết quả như sau:
Hình vẽ 20: Kết quả phân lớp tập dữ liệu huấn luyện bằng phương pháp k-lân cận
Trường Đại học Kinh tế Huế
+ Trường hợp phân lớp chính xác: 83.8098%
+ Trường hợp phân lớp chưa chính xác: 16.1902%
- Bước 2: Tiếp tục bước trên chọn Supplied test set → Chọn Set → Chọn Open
File → Chọn tập dữliệu online_shoppers_intention_test.arff→ Chọn Close →
Kích chuột phải vào mô hình trên chọn Re-evaluate model on current test set thu được kết quả như sau:
Hình vẽ 21: Kết quả phân lớp tập dữ liệu kiểm thử bằng phương pháp k-lân cận
+Trường hợp phân lớp chính xác: 90.7948%
+ Trường hợp phân lớp chưa chính xác: 9.2052%
3.1.4.4 Phân lớp bằng phương pháp mạng nơ-ron nhân tạo
Phương pháp phân lớp mạng nơ-ron nhân tạo được chạy trên cả 2 tập dữ liệu huấn luyện và kiểm thửnên quá trình thực hiện gồm có 2 bước:
To begin using Weka, open the application and navigate to the Explorer Next, select 'Open File' to load the dataset named 'online_shoppers_intention_train.arff.' After that, go to the 'Classify' tab, click on 'Choose,' and select 'weka' followed by 'classifiers.' From there, choose 'functions' and finally select 'MultilayerPerceptron.'
Start thu được kết quả như sau:
Trường Đại học Kinh tế Huế
Hình vẽ 22: Kết quả phân lớp tập dữ liệu huấn luyện bằng phương pháp mạng nơ-ron
+ Trường hợp phân lớp chính xác: 87.8954%
+ Trường hợp phân lớp chưa chính xác: 12.1046%
- Bước 2: Tiếp tục bước trên chọn Supplied test set → Chọn Set → Chọn Open
File → Chọn tập dữliệu online_shoppers_intention_test.arff→ Chọn Close →
Kích chuột phải vào mô hình trên chọn Re-evaluate model on current test set thu được kết quả như sau:
Hình vẽ 23: Kết quả phân lớp tập dữ liệu kiểm thử bằng phương pháp mạng nơ- ron nhân tạo
Trường Đại học Kinh tế Huế
+ Trường hợp phân lớp chính xác: 34.4688%
+ Trường hợp phân lớp chưa chính xác: 65.5312%
3.1.4.5 Phân lớp theo phương pháp kết hợp Bagging
Mô hình phân lớp theo phương pháp kết hợp Bagging được triển khai trên cả hai tập dữ liệu huấn luyện và kiểm thử, với quy trình thực hiện chia thành hai bước.
To begin using Weka, open the application and navigate to the Explorer Select "Open File" and choose the dataset "online_shoppers_intention_train.arff." Next, go to the "Classify" tab and click on "Choose." From there, select "weka," then "classifiers," followed by "meta," and finally choose "Bagging." Under the classifiers, opt for the J48 method and click "Start" to obtain the results.
Hình vẽ 24: Kết quả phân lớp tập dữ liệu huấn luyện bằng phương pháp kết hợp
+ Trường hợp phân lớp chính xác: 88.1387%
+ Trường hợp phân lớp chưa chính xác: 11.8613%
Trường Đại học Kinh tế Huế
- Bước 2: Tiếp tục bước trên chọn Supplied test set → Chọn Set → Chọn Open
File → Chọn tập dữliệu online_shoppers_intention_test.arff→ Chọn Close →
Kích chuột phải vào mô hình trên chọn Re-evaluate model on current test set thu được kết quả như sau:
Hình vẽ 25: Kết quả phân lớp tập dữ liệu kiểm thử bằng phương pháp kết hợp
+ Trường hợp phân lớp chính xác: 94.6472%
+ Trường hợp phân lớp chưa chính xác: 5.3528%
3.1.4.6 Xây dựng đường ROC Đường ROC là một trong những công cụ dùng để so sánh hiệu năng giữa các mô hình khác nhau để kiểm tra được độ chính xác của mô hình đó có cao hơn hay không.
Cách xây dựng mô hình ROC:
Trường Đại học Kinh tế Huế
Hình vẽ 26: Xây dựng đường ROC
Quá trình xây dựng đường ROC sử dụng dữ liệu kiểm thử và mô hình từ các phương pháp phân lớp như Nạve Bayes, J48, k-NN, Multilayer Perceptron và phương pháp kết hợp Bagging với J48 làm bộ phân lớp cơ sở Kết quả của quá trình này cung cấp những đánh giá hữu ích cho các mô hình.
Kết quả thí nghiệm
3.2.1 Hiệu năng của các mô hình
Sau khi thí nghiệm thực hiện hoàn thành và kết quả được thểhiện dưới đây:
Bảng 3: Kết quả phân lớp dữ liệu kiểm thử chính xác
Trải qua thí nghiệm về dữ liệu mua hàng trực tuyến theo các phương pháp
Nạve Bayes, J48, k-NN, MultilayerPerceptron và xây dựng mơ hình phân lớp theo phương pháp kết hợp Bagging dựa trên bộ phân lớp cơ sở J48, ta thấy được phương
Phương pháp Bagging dựa trên bộ phân lớp cơ sở J48 tại Trường Đại học Kinh tế Huế đạt kết quả cao nhất với tỷ lệ 94.6472% Theo sau là J48 với 93.7551%, Multilayer Perceptron 90.7948%, k-NN 83.8098%, và Nạve Bayes 71.9789% Kết quả cho thấy phương pháp Bagging với J48 rất vượt trội và thành công Mặc dù thí nghiệm được thực hiện trên tập dữ liệu gồm 18 thuộc tính và 12330 lượt theo dõi có thể chưa đủ lớn, nhưng không ảnh hưởng đến kết quả.
3.2.2 Đường ROC của các mô hình phân lớp
Theo sơ đồ ROC, phương pháp Bagging sử dụng bộ phân lớp cơ sở J48 đạt được hiệu suất cao nhất so với các mô hình phân lớp khác như Naive Bayes.
NN, MultilayerPerceptron và J48 Từ kết quả này cho thấy được phương pháp
Bagging được thực hiện thành công nhất.
Hình vẽ 27: Sơ đồ ROC xây dựng mô hình
Ngoài đường ROC của phương pháp Bagging, các mô hình khác như J48, Nạve Bayes và IBK cũng đạt được kết quả cao và được xếp hạng theo thứ tự giảm dần.
Multilayer Perceptron là một phương pháp học máy, nhưng với trường nhãn lớp mô tả kết quả quá trình mua sắm của khách hàng, phương pháp Bagging đã đạt được thành công vượt trội Dựa vào kết quả này, mô hình Bagging có thể được sử dụng để phân loại khách hàng theo hành vi mua sắm trên các trang bán hàng trực tuyến.
Trường Đại học Kinh tế Huế