1. Trang chủ
  2. » Kinh Doanh - Tiếp Thị

Cửa hàng bán hàng trực tuyến

50 620 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Cửa Hàng Bán Hàng Trực Tuyến
Tác giả Lê Hoàng Việt, Lê Anh Văn
Trường học Trường Đại Học Khoa Học Tự Nhiên
Chuyên ngành Khoa Học Máy Tính
Thể loại báo cáo cuối kỳ
Thành phố Thành Phố Hồ Chí Minh
Định dạng
Số trang 50
Dung lượng 0,93 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Cửa hàng bán hàng trực tuyến kinh doanh thương mại điện tử

Trang 1

Data Mining

Final ReportClassification – Ebook Store

Trang 2

Member of Group

• Lê Hoàng Việt

• Lê Anh Văn

Trang 3

• Các giải thuật Data Mining

• Giải thuật Classification

• Thực hiện chương trình

• Tổng kết

• Reference

Trang 4

Tìm hiểu đề tài

• Requirement:

Cho CSDL bán hàng của cửa hàng sách trực tuyến, phân loại khách hàng thành các dạng khách hàng tiềm năng khác nhau

Trang 5

• Xác định tiêu chí phân loại.

• Xác định kết quả phân loại

• Kiểm tra kết quả training với dữ liệu mẫu

Trang 6

• Cửa hàng sách trực tuyến: là một website trình bày các loại sách cho phép người mua thông

qua mạng Internet để xem, chọn mua, thanh

toán qua mạng và được giao tận nơi CSDL của cửa hàng bán sách như vậy sẽ lưu trữ lại các

thông tin, dữ liệu chi tiết về các loại sách,

những khách hàng đã đặt mua, đã chọn xem(có thể có hoặc không) và các thông tin liên quan….

Trang 7

• Lợi ích(kết quả) của cửa hàng(End User):

• Giảm chi phí mua không hiệu quả(ví dụ sách ít người đọc, ít người mua, bán chậm hoặc tồn kho…).

• Lợi nhuận tăng(nhiều người mua nhiều độ tuổi, nhiều thể loại,

nhiều người vào website tham khảo…do đưa ra những gợi ý liên quan hiệu quả cho người dùng phù hợp).

• Hiển thị kết quả(thống kê, dự báo), gợi ý trực quan góp phần vào quyết định hướng đi đúng đắn(chiến lược kinh doanh thời gian tới, nguồn hàng nào cần tăng, nguồn hàng nào cần giảm bớt…).

• Quản lý dữ liệu một cách hiệu quả hơn.

Trang 8

• Kết quả đạt được(dự định của sinh viên):

• Nắm vững lý thuyết, giải thuật phân lớp(Classification).

• Xây dựng phần mềm thực hiện được các chức năng:

– Đọc dữ liệu đầu vào(kết nối CSDL hoặc đọc từ file)

– Máy học(huấn luyện)

– Chạy giải thuật đúng đắn.

– Đưa ra kết quả + dự báo + gợi ý(nếu có thể).

– Kết xuất trực quan kết quả.

• Hoàn thành mục tiêu môn học với phần mềm thực hiện chức năng

cụ thể.

Trang 9

• Tìm hiểu đề tài

• Giải thuật Classification

• Thực hiện chương trình

• Tổng kết

• Reference

Trang 10

Các giải thuật Data Mining

Trang 11

Khái niệm:Là quá trình trích xuất dữ liệu từ lượng lớn dữ liệu Một quá trình không dễ trích xuất thông tin ẩn, hữu ích chưa được biết

trước về dữ liệu.

Trang 12

• Phân tích kết hợp(association analysic)

• VD: buys(X; “computer”) => buys(X; “software”)

[support = 1%; confidence = 50%]

• X: biến biểu diễn khách hàng Độ chắc

chắn(confidence) 50% là khách hàng X sẽ mua máy tính(computer) thì sẽ mua phần mềm(software)… 1% support thể hiện tỉ lệ mua máy tính và mua phần

mềm cùng nhau trong tất cả quá trình mua hàng…

Trang 13

• Phân lớp: là quá trình tìm mẫu(model) thích

hợp mà mô tả và phân biệt các lớp dữ liệu và các khái niệm, sữ dụng kiểu để tiên đoán lớp của những đối tượng mà chưa biết các

nhãn(class label)… Các mẫu dẫn xuất thì dựa trên sự phân tích các tập dữ liệu được huấn luyện(training data)…

Trang 15

• Gom cụm:

• Không như quá trình phân loại, mà phân tích các

nhãn(class label), gom cụm(clustering) phân tích dữ liệu mà cần quan tâm đến các nhãn lớp đã được biết Nói chung các nhãn lớp không được biểu diễn thông qua dữ liệu huấn luyện, đơn giản vì chúng không biết bắt đầu như thế nào Việc gom cụm có thể được

dùng để tạo nhãn lớp…

Trang 16

• Phân tích xu hướng

• Phân tích độ lệch và phần tử biên

• Phân tích độ tương tự

• …

Trang 17

• Kiến trúc của hệ thống khai phá dữ liệu:

Trang 18

• Tìm hiểu đề tài

• Các giải thuật Data Mining

• Giải thuật Classification

• Thực hiện chương trình

• Tổng kết

• Reference

Trang 19

Giải thuật phân lớp

• Khái niệm: Phân lớp là quá trình mà classifier

được tạo để tiên đoán các nhãn lớp xác định Những lớp này có thể mang giá trị rời rạc hoặc liên tục

Trang 20

• Việc phân loại dữ liệu được diễn ra theo 2 bước sau:

• Bước đầu tiên:

– Một bộ phân loại(classifier) được xây dựng và thiết lập trước các lớp dữ liệu cần phân loại Đây là quá trình học(learning), giải thuật phân loại xây dựng một bộ phân loại bằng cách phân tích hoặc học từ tập huấn luyện(training set) được tạo bởi các tập thuộc tính

dữ liệu(data tuples) liên kết với các nhãn lớp đã được thiết lập.

– Một tập thuộc tính(tuple X) được biểu diễn bằng một vector thuộc tính n chiều X = (x1, x2, …, xn) tương ứng với thuộc tính của cơ sở dữ liệu A1, A2, …, An.

• Mỗi tuple X được gán vào một lớp được xác định trước bởi một thuộc tính cơ sở

dữ liệu khác gọi là thuộc tính class label.

Trang 22

• Bước 2: tiến hành phân loại Trước tiên dự

đoán độ chính xác của bộ phân loại(classifier)

Sữ dụng một tập kiểm tra(test set) để tiến hành phân loại và so sánh kết quả đầu ra của bộ phân loại với giá trị thực tế của tập kiểm tra Độ chính xác là tỉ lệ phần trăm số tuple trong tập kiểm tra được phân loại đúng Tập test set phải độc lập với training set nếu không thì hiện tượng over- fitting xảy ra.

Trang 24

• Các giải thuật phân lớp:

– Decision tree:

Trang 25

• Bayesian classification:

Trang 26

– Rule-Based:

• R1: IF age = youth AND student = no THEN buys computer = no

• R2: IF age = youth AND student = yes THEN buys computer = yes

• R3: IF age = middle aged THEN buys computer = yes

• R4: IF age = senior AND credit rating = excellent THEN buys computer

= yes

• R5: IF age = senior AND credit rating = fair THEN buys computer = no

Trang 27

• Neural network:

Trang 28

• Lựa chọn Giải thuật phân lớp Nạve Bayesian:

• P(C) = tần số liên quan của các mẫu thuộc lớp C

• C sao cho P(C|X) lớn nhất = C sao cho P(X|C)·P(C) lớn nhất

• Vấn đề: tính P(X|C) là khơng khả thi!

Trang 29

– Nạve Bayesian:

• Phân lớp NaiveBayes ra đời giúp cho việc tính đơn giản hơn dựa trên việc ứng dụng lý thuyết Bayes Tính tốn các xác suất đĩ với giả thiết là các thuộc tính độc lập với nhau(khơng phụ

thuộc nhau).

• Thừa nhận Nạve: sự độc lập thuộc tính

• P(x1,…,xk|C) = P(x1|C)·…·P(xk|C)

Trang 31

–Cấu trúc chương trình:

• Presentation + Business Layer

• Data Access Layer(DAL): sử dụng ADO.NET

Trang 32

• Tìm hiểu đề tài

• Các giải thuật Data Mining

• Giải thuật Classification

• Tổng kết

• Reference

Trang 33

– Cust_Sex

– Cust_Major

– Cust_District

– Cust_BirthDay -> Age

Trang 34

• Enum TypeCustomerClass: gồm 4 phần tượng trưng cho 4 lớp(Class C – tức nhãn C, không phải class trong C#) cần phân loại VD Khách trung bình:

CustomerClass.Average…

– Rare : khách vãng lai (trong 10% ng` có số tiền thấp nhất) – Normal: khách bình thường(11 – 20%)

– Frequent: khách thường xuyên(21– 50%)

– Special: khách đặc biệt(số còn lại)

Trang 35

• Class NaiveBayes: tính các xác xuất cần thiết cho quá trình phân loại Gồm các method:

– CalculateProduct(Class C):

• tính tỉ lệ của những thực thể thuộc class C trong training set…

• return total(C) / total training set.

– CalculateProduct(Customer customer, class C):

• Xác xuất của khách hàng customer thuộc lớp C…

• return calculate(customer.Cust_Sex, C) *calculate(customer.Cust_Major,

C)*calculate(customer.Cust_Country, C)*calculate(age, C).

– Calculate(Customer.xi, Class C):

• Xác xuất khách hàng mang thuộc tính xi thuộc lớp C…

• Return total(class C, xi) / total(class C)

– Total(class C): tính số lượng thực thể thuộc lớp C.

• Total(class C, Customer.xi): số lượng khách hàng mang thuộc tính xitrong lớp C.

Trang 36

• Class CustomerClass(Class C): class dùng để chứa index gồm các thành phần trong enum TypeCustomerClass…

– Tìm ra lớp thích hợp nhất(xác xuất cao nhất) để đặt khách hàng customer vào.

– Với mỗi lớp Ci trong list L tính giá trị: Pi = NaiveBayes.Calculate(class

Ci)*NaiveBayes.Calculate(tuple X, class Ci)…

• Xác định giá trị lớn nhất của Pi… Và tìm ra Ci ứng với giá trị đó.

Trang 37

Giao diện – Chức năng

• Người sử dụng kết nối đến cơ sở dữ liệu

• Thông báo lỗi hiện ra nếu kết nối thất bại

Trang 38

• Form mới xuất hiện liệt kê thông tin tất cả khách hàng hiện có.

Trang 39

• Người sử dụng xem và chỉnh sửa mô hình chuẩn hóa dữ liệu: button Xu ly mo hinh

Trang 40

– Tab Age: chuẩn hóa dữ liệu tuổi của khách hàng – Tab Class: cho biết thông tin về các lớp, cách thức

để phân loại vào lớp đó.

Trang 41

• Người sử dụng tiến hành trainning bằng giải thuật phân lớp Bayes Nạve: button Training

– Form mới xuất hiện với thơng tin dùng để phân lớp một khách hàng:4 thuoc tinh.

Trang 42

• Xử lý mô hình: chạy giải thuật để xuất ra kết quả phân loại của các khách hàng với các thông tin bổ sung vào Form sau khi tính toán ra.

Trang 43

• Người sử dụng dự đoán một khách hàng mới: các dữ liệu

từ dropdown list được lấy từ csdl, không chấp nhận dữ liệu mới.

– Form mới xuất hiện cho phép người sử dụng nhập vào thông tin của khách hàng.

Trang 44

– Nhằm tạo sự thuận tiện, cho phép nhập tuổi hoặc năm sinh khách hàng Cho phép reset để nhập lại dữ liệu.

• Kết quả xuất ra cho biết khách hàng đó thuộc lớp nào!

Trang 45

• Tìm hiểu đề tài

• Các giải thuật Data Mining

• Giải thuật Classification

• Thực hiện chương trình

• Reference

Trang 47

• Đánh giá thực hiện đề tài(nghiệm thu của

nhóm):

– Teamworking tốt!

– Hoàn thành đúng tiến độ, đạt được scope yêu cầu

đề ra.

– Free bugs(trong ngưỡng chấp nhận được).

– Task phân công hợp lý, hoàn thành tốt.

Trang 48

• Hướng phát triển:

– Có thể phát triển chương trình để tiếp tục dự đoán xu hướng mua sách của người dùng dựa trên dữ liệu về những đầu sách đã được mua của các đối tượng khách hàng cũ Bên cạnh đó, với dữ liệu sách được tiêu thụ mạnh, khi một đầu sách mới vừa phát hành, ta cũng có thể xây

dựng để chương trình nhận biết sách đó có thuộc loại tiêu thụ mạnh hay không mà nhập về với số lượng phù hợp.

– Cũng trên cơ sở đó, những lời khuyên sẽ được đưa ra để tư vấn người đầu tư về loại sách nào cần phải nhập thêm nhiều, sách nào cần hạn chế…rồi đưa ra những đầu sách mà chương trình dự đoán khách hàng với những dữ liệu như vậy sẽ quan tâm đến…

Trang 49

• Tìm hiểu đề tài

• Các giải thuật Data Mining

• Giải thuật Classification

• Thực hiện chương trình

• Tổng kết

Trang 50

Tài liệu Tham khảo:

Ngày đăng: 24/01/2013, 09:41

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w