Trong bối cảnh hội nhập có rất nhiều các cửa hàng, chuỗi cửa hàng mọc lên nên sự cạnh tranh cũng gia tăng , lúc này sự hài lòng của khách hàng đối với sản phẩm và chất lượng sản phẩm của
Trang 1VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC
BÁO CÁO MÔN HỌC
HỆ HỖ TRỢ QUYẾT ĐỊNH
Đề tài: Hệ thống phân tích mức độ hài lòng về thời
trang phụ nữ
Hà Nội, tháng 6/2020
Giảng viên hướng dẫn:
Sinh viên thực hiện:
Mã số sinh viên:
Lớp:
TS Lê Chí Ngọc Phạm Thị Thanh Hằng
20173512
Hệ thống thông tin quản lý K62
Trang 2Mục Lục
Danh mục hình vẽ 2
Lời nĩi đầu 3
Chương 1 Điều tra, khảo sát 4
1.1 Khảo sát hiện trạng 4
1.2 Mơ hình nghiệp vụ 5
1.3 Đặc tả yêu cầu phần mềm 5
1.4 Tổng quan về Nạve Bayes Classifier 6
Multinomial Naive Bayes 8
1.5 Dữ liệu 9
Chương 2 Phân tích hệ thống 11
2.1 Biểu đồ phân cấp chức năng 11
2.2 Sơ đồ luồng dữ liệu 12
2.2.1 Biểu đồ luồng dữ liệu mức cảnh 12
2.2.2 Biểu đồ luồng dữ liệu mức đỉnh 12
2.2.3 Biểu đồ luồng dưa liệu mức dưới đỉnh 13
Chương 3 Xây dựng chương trình 14
3.1 Ngơn ngữ viết chương trình 14
3.2 Giao diện Website 16
3.2.1 Giao diện trang chủ 16
3.2.2 Giao diện upload dữ liệu 18
3.2.3 Giao diện Đăng nhập 18
Kết luận 19
Danh mục tài liệu tham khảo: 20
Trang 3Danh mục hình vẽ
Trang
Hình 1.2 Mô hình hóa nghiệp vụ 5 Hình 2.1 Biểu đồ phân cấp chức năng 11 Hình 2.2.1 Biểu đồ luồng dữ liệu mức ngữ cảnh 12 Hình 2.2.2 Biểu đồ luồng dữ liệu mức đỉnh 12 Hình 2.2.3a Biểu đồ luồng dữ liệu mức dưới đỉnh chức năng thống kê 13 Hình 2.2.3b Biểu đồ luồng dữ liệu mức dưới đỉnh chức năng đăng nhập 13 Hình 3.2.1a Giao diện trang chủ 16 Hình 3.2.1b Giao diện trang chủ 16 Hình 3.2.1c Giao diện trang chủ 17 Hình 3.2.1d Giao diện trang chủ 17 Hình 3.2.2 Giao diện upload dữ liệu 18 Hình 3.2.3 Giao diện đăng nhập 18
Trang 4Lời nói đầu
Thời đại kinh tế thị trường hiện nay, một doanh nghiệp có thể phát triển hay
không đều phụ thuộc vào nhiều yếu tố như sản phẩm, chiến lược marketing và đặc
biệt là mức độ hài lòng khách hàng
Cùng với việc kinh tế xã hội phát triển thì nhu cầu về thời trang may mặc của người dân cũng tăng theo và kéo theo nhu cầu làm đẹp Trong bối cảnh hội nhập có rất nhiều các cửa hàng, chuỗi cửa hàng mọc lên nên sự cạnh tranh cũng gia tăng ,
lúc này sự hài lòng của khách hàng đối với sản phẩm và chất lượng sản phẩm của
các doanh nghiệp ngày càng trở nên quan trọng
Tuy nhiên với lượng khách hàng lớn và đa dạng cùng với việc thiếu công cụ
phân tích và quản lý hiệu quả
Báo cáo gồm 3 chương chính:
• Chương 1: Điều tra khảo sát
• Chương 2: Phân tích hệ thống
• Chương 3: Xây dựng chương trình
Em xin chân thành cảm ơn Thầy Lê Chí Ngọc đã tận tình chỉ dạy và các bạn đã nhiệt tình giúp đỡ để em có thể hoàn thành báo cáo này
Do có nhiều hạn chế về mặt kiến thức nên báo cáo có thể không tránh khỏi một
số sai sót về mặt chủ quan và khách quan Vì vậy em rất mong nhận được sự góp ý, đánh giá của Thầy và các bạn để báo cáo cũng như hệ thống được hoàn thiện hơn
Em xin chân thành cảm ơn!
Hà Nội, ngày 15 tháng 06 năm 2020
Sinh Viên thực hiệnfasfasfa Phạm Thị Thanh Hằng.ádsd
Trang 5Chương 1 Điều tra, khảo sát
này sự hài lòng của khách hàng đối với sản phẩm và chất lượng sản phẩm của các
doanh nghiệp ngày càng trở nên quan trọng
Trong môi trường cạnh tranh hiện nay, khách hàng là nhân tố quyết định sự tồn tại của doanh nghiệp Doanh nghiệp nào dành được mối quan tâm và sự trung thành của khách hàng, doanh nghiệp đó sẽ thắng lợi và phát triển Chiến lược kinh doanh hướng đến khách hàng đang trở thành chiến lược quan trọng hàng đầu của các doanh nghiệp Làm thế nào để đem đến cho khách hàng sự hài lòng tốt nhất luôn là vấn đề mà các ngân hàng cố gắng thực hiện với tất cả khả năng của mình Vì vậy, nghiên cứu sự hài lòng của khách hàng đối với doanh nghiệp là một công việc quan trọng phải thực hiện thường xuyên và liên tục để có thể đáp ứng kịp thời nhu cầu của họ Từ đó, chúng ta có thể phục vụ khách hàng tốt hơn, làm cho họ luôn được thỏa mãn khi sử dụng các sản phẩm dịch vụ của doanh nghiệp
Tuy nhiên, với lượng khách hàng lớn và đa dạng, cùng với việc chưa có công cụ quản lý hiệu quả dẫn đến doanh nghiệp không nắm bắt được các mặt hàng được quan tâm cũng như mức độ hài lòng của khách hàng về các mặt hàng này như nào, và độ tuổi phổ biến quan tâm các mặt hàng sản phẩm là bao nhiêu Đây cũng là lý do nên
Trang 6có 1 hệ thống hỗ trợ phân tích mức độ hài lòng về thời trang của các khách hàng ( ở đây đề cập đến là các khách hàng nữ) Giúp cho nhà quản lý đưa ra được quyết định đúng đắn kịp thời và hiệu quả
1.2 Mô hình nghiệp vụ
Dữ liệu có được thông qua các đánh giá được viết bởi khách hàng với hệ thống Mọi thông tin của đánh giá hay thông tin của người đánh giá (tuổi) được nhân viên, phòng ban thu thập và lưu trữ trong cơ sở dữ liệu hệ thống Thông qua những dữ liệu thu thập được hệ thống sẽ phân tích hành vi của người sử dụng Các dữ liệu này sẽ phản ánh mức độ hài lòng, quan tâm về các mặt hàng sản phẩm của khách hàng
Vì thế thu thập các thông tin về đánh giá, reviews sản phẩm của khách hàng là cơ
sở quan trọng để phân tích mức độ hài lòng của khách hàng
Hình 1.2: Mô hình hóa nghiệp vụ
1.3 Đặc tả yêu cầu phần mềm
Trang 7Hệ thống được xây dựng với mục đích hỗ trợ nhà quản lý ra quyết định, nhằm đưa
ra những mơ hình phân tích cụ thể, trực quan về mức độ hài lịng về thời trang của phụ nữ
- Người quản lý được tồn quyền quản lý dữ liệu bên trong, sẽ nhìn thấy tất cả
số liệu trong cơ sở dữ liệu
- Trang chủ sẽ hiển thị về các mơ hình trực quan được sinh ra, đưa ra cái nhìn trực quan khái quát cho nhà quản lý bao gồm: những ID sản phẩm được nhắc đến nhiều nhất, Tên những mặt hàng được nhắc đến nhiều nhất, thống kê số lần xuất hiện của tên bộ phận ( general, general petite, initmates), thống kê các tên bộ phẩn sản phẩm được nhắc đến nhiều nhất ở Department Name, Đếm số lượng từ xuất hiện nhiều trong class name, trong reviews text, ngồi
ra cịn cĩ các biểu đồ thể hiện quan hệ giữa trung bình số tuổi khách hàng với ratings, đếm số lượng rating, giữa rating trung bình và tên lớp hay trung bình
số tuổi khách hàng và tên lớp sản phẩm, Biểu đồ 3D về xếp hạng trung bình giữa lớp sản phẩm và số lượng bán ra Cuối cùng là đánh giá mơ hình
1.4 Tổng quan về Nạve Bayes Classifier
Xét bài tốn classification với C classes 1,2,…, C Giả sử cĩ một điểm dữ liệu 𝑥 ∈𝑅𝑑 Hãy tính xác suất để điểm dữ liệu này rơi vào class c Nĩi cách khác, hãy tính:
Tức tính xác suất để đầu ra là class c biết rằng đầu vào là vector x
Trang 8Biểu thức này, nếu tính được, sẽ giúp chúng ta xác định được xác suất để điểm dữ liệu rơi vào mỗi class Từ đó có thể giúp xác định class của điểm dữ liệu đó bằng cách chọn ra class có xác suất cao nhất:
Biểu thức (2) thường khó được tính trực tiếp Thay vào đó, quy tắc Bayes thường được sử dụng, trong đó (argmax là các đối số cực đại)
Từ (3) sang (4) là vì quy tắc Bayes Từ (4) sang (5) là vì mẫu số p(x) không phụ thuộc vào c
Tiếp tục xét biểu thức (5), p(c) có thể được hiểu là xác suất để một điểm rơi vào class c, tỉ lệ số điểm dữ liệu trong tập training rơi vào class này chia cho tổng số lượng dữ liệu trong tập traing
Thành phần còn lại p(x|c), tức phân phối của các điểm dữ liệu trong class c, thường rất khó tính toán vì x là một biến ngẫu nhiên nhiều chiều, cần rất rất nhiều dữ liệu training để có thể xây dựng được phân phối đó Để giúp cho việc tính toán được đơn giản, người ta thường giả sử một cách đơn giản nhất rằng các thành phần của biến ngẫu nhiên x là độc lập với nhau, nếu biết c (given c Tức là:
Trang 9Ở bước training, các phân phối p(c) và p(xi|c),i=1,…,d sẽ được xác định dựa vào
training data
Ở bước test, với một điểm dữ liệu mới xx, class của nó sẽ được xác đinh bởi:
Khi d lớn và các xác suất nhỏ, biểu thức ở vế phải của (7) sẽ là một số rất nhỏ, khi tính toán có thể gặp sai số Để giải quyết việc này, ( 7) thường được viết lại dưới dạng tương đương bằng cách lấy log của vế phải:
Việc này không ảnh hưởng tới kết quả vì log là một hàm đồng biến trên tập các số dương
➢ Multinomial Naive Bayes
Mô hình này chủ yếu được sử dụng trong phân loại văn bản mà feature vectors được tính bằng Bags of Words Lúc này, mỗi văn bản được biểu diễn bởi một vector có
độ dài d chính là số từ trong từ điển Giá trị của thành phần thứ i trong mỗi vector chính là số lần từ thứ i xuất hiện trong văn bản đó
Khi đó, p(xi|c) tỉ lệ với tần suất từ thứ ii (hay feature thứ i cho trường hợp tổng quát) xuất hiện trong các văn bản của class c Giá trị này có thể được tính bằng cách:
Trang 10Trong đó:
• Nci là tổng số lần từ thứ i xuất hiện trong các văn bản của class c, nó được tính là tổng của tất cả các thành phần thứ i của các feature vectors ứng với class c
• Nc là tổng số từ (kể cả lặp) xuất hiện trong class c Nói cách khác, nó bằng tổng độ dài của toàn bộ các văn bản thuộc vào class c Có thể suy ra rằng
𝑁𝑐 = ∑𝑑𝑖=1𝑁𝑐𝑖 từ đó ∑𝑑𝑖=1𝜆𝑐𝑖 = 1
Cách tính này có một hạn chế là nếu có một từ mới chưa bao giờ xuất hiện trong class cc thì biểu thức trên sẽ bằng 0, điều này dẫn đến vế phải của (7) bằng 0 bất kể các giá trị còn lại có lớn thế nào Việc này sẽ dẫn đến kết quả không chính xác
Để giải quyết việc này, một kỹ thuật được gọi là Laplace smoothing được áp dụng:
Với αα là một số dương, thường bằng 1, để tránh trường hợp tử số bằng 0 Mẫu số được cộng với dαdα để đảm bảo tổng xác suất∑𝑑𝑖=1λ𝑐𝑖 = 1
Như vậy, mỗi class cc sẽ được mô tả bởi bộ các số dương có tổng bằng 1:
Trang 11• Clothing ID: Số nguyên Biến phân loại đề cập đến phần cụ thể đang được xem xét
• Age: Biến số nguyên dương tuổi của người đánh giá
• Title: Biến chuỗi cho tiêu đề của đánh giá
• Review Text: Biến chuỗi cho cơ quan đánh giá
• Rating: Biến số nguyên dương cho điểm số sản phẩm được khách hàng cấp từ
• Division Name: Tên phân loại của bộ phận sản phẩm cấp cao
• Department Name: Tên phân loại của tên bộ phận sản phẩm
• Class Name: Tên phân loại của tên lớp sản phẩm
Trang 12Chương 2 Phân tích hệ thống
2.1 Biểu đồ phân cấp chức năng
Hình 2.1: Biểu đồ phân cấp chức năng
Trang 132.2 Sơ đồ luồng dữ liệu
2.2.1 Biểu đồ luồng dữ liệu mức cảnh
Hình 2.2.1: Biểu đồ luồng dữ liệu mức cảnh
2.2.2 Biểu đồ luồng dữ liệu mức đỉnh
Hình 2.2.2 Hình 2.2.2: Biểu đồ luồng dữ liệu mức đỉnh
Trang 142.2.3 Biểu đồ luồng dưa liệu mức dưới đỉnh
Hình 2.2.3a: Biểu đồ luồng dưa liệu mức dưới đỉnh chức năng thống kê
Hình 2.2.3b: Biểu đồ luồng dưa liệu mức dưới đỉnh chức năng quản lý tài khoản
Trang 15Chương 3 Xây dựng chương trình
3.1 Ngôn ngữ viết chương trình
➢ HTML
HTML là từ viết tắt của HyperText Markup Language (ngôn ngữ đánh dấu siêu văn bản) dùng mô tả cấu trúc của các trang Web và tạo ra các loại tài liệu có thể xem được trong trình duyệt
HTML được tạo ra và phát triển bởi tổ chức W3C (World Wide Web Consortium) Hiện nay phiên bản mới nhất của HTML là HTML5 với nhiều tính năng ưu việt so với các phiên bản cũ
➢ CSS
CSS (viết tắt của Cascading Style Sheets) là một ngôn ngữ định dạng được
sử dụng để mô tả trình bày các trang Web, bao gồm màu sắc, cách bố trí và phông chữ CSS cho phép chúng hiển thị nội dung tương thích trên các loại thiết bị có kích thước màn hình khác nhau, chẳng hạn như màn hình lớn, màn hình nhỏ như
điện thoại hay máy tính bản
CSS là độc lập với HTML và có thể được sử dụng với bất kỳ ngôn ngữ đánh
dấu nào xây dựng dựa trên XML CSS tuân theo chuẩn chung do W3C quy định
➢ Ngôn ngữ PHP
PHP là viết tắt của từ Hypertext Preprocessor Ngôn ngữ này được phát triển từ năm
1994 và cho đến nay đã được nhiều người sử dụng để phát triển các ứng dụng phần mềm thông qua lập trình web Đặc điểm của ngôn ngữ lập trình này là sử dụng mã nguồn mở, dễ dàng nhúng vào HTML và tích hợp với web
Ưu điểm của ngôn ngữ lập trình PHP là cú pháp đơn giản, tốc độ xử lý nhanh, tính cộng đồng cao Chính vì vậy mà lập trình PHP được sử dụng chủ yếu để thiết kế
Trang 16web Để tạo ra các ứng dụng web bằng ngôn ngữ PHP, người lập trình phải sử dụng các dòng lệnh cơ bản
Ứng dụng của các ngôn ngữ lập trình PHP hiện nay rất lớn Bạn có thể sử dụng PHP
để tạo ra những trang báo điện tử, trang mạng xã hội, thậm chí như cài đặt các ứng dụng trên các trang mạng xã hội như Zalo, Facebook,
Ngôn ngữ PHP có thể sử dụng trên mọi hệ điều hành, dễ dàng kết hợp với các cơ sở
dữ liệu và được sử dụng rộng rãi
Tài liệu học PHP rất nhiều, cộng đồng PHP lớn nên khi gặp bất kỳ khó khăn nào cần giải đáp bạn sẽ được hỗ trợ Đây chính là ưu điểm nổi bật khiến nhiều người lựa chọn ngôn ngữ PHP
Cơ sở dữ liệu của PHP rất lớn nên khi thiết kế website bạn có thể sử dụng nhiều hệ
cơ sở dữ liệu khác nhau
➢ Python
Python là một ngôn ngữ lập trình thông dịch (interpreted), hướng đối tượng oriented), và là một ngôn ngữ bậc cao (high-level) ngữ nghĩa động (dynamic semantics) Python hỗ trợ các module và gói (packages), khuyến khích chương trình
Trang 17(object-module hóa và tái sử dụng mã Trình thông dịch Python và thư viện chuẩn mở rộng
có sẵn dưới dạng mã nguồn hoặc dạng nhị phân miễn phí cho tất cả các nền tảng chính và có thể được phân phối tự do Được sử dụng để chạy model của bài toán
3.2 Giao diện Website
3.2.1 Giao diện trang chủ
Hình 3.2.1a Giao diện trang chủ
Hình 3.2.1b Giao diện trang chủ
Trang 18Hình 3.2.1c Giao diện trang chủ
Hình 3.2.1d Giao diện trang chủ
Trang 193.2.2 Giao diện upload dữ liệu
Hình 3.2.2 Giao diện upload dữ liệu
3.2.3 Giao diện Đăng nhập
Hình 3.2.2 Giao diện đăng nhập
Trang 21Danh mục tài liệu tham khảo:
(1) https://machinelearningcoban.com/2017/08/08/nbc/
(2) https://web.stanford.edu/class/cs124/lec/naivebayes.pdf
(3)
https://helpex.vn/article/phan-loai-van-ban-duoc-ap-dung-trong-loc-thu-rac-email-phan-1-5c663958ae03f60128764e9e