Đề tài phân tích dữ liệu về các dự án kickstarter để đưa ra hướng đi tốt nhất cho các nhà đầu tư bằng phần mềm orange

Bằng cách phân tích bộ dữ liệu này, có thể hiểu rõ hơn về đặc điểm của các dự án Kickstarter thành công và không thành công, chẳng hạn như mục tiêu tài trợ, danh mục dự án và nguồn tài t

Trang 1

ĐẠI HỌC UEH

BÁO CÁO CUỐI KỲ

để đưa ra hướng đi tốt nhất cho các nhà đầu

3 Huỳnh Hoàng Trâm

4 Nguyễn Tích Duy Tuyến

5 Hồ Thị Yến Vy (Nhóm trưởng)

Hồ Chí Minh, ngày 05 tháng 05 năm 2023

Trang 2

LỜI CẢM ƠN

Nhóm em xin gửi lời cảm ơn chân thành và sâu sắc đến thầy Đặng Ngọc Hoàng Thành - Giảng viên bộ môn Khoa học dữ liệu của trường Đại học Kinh Tế TP HCM Trong quá trình tìm hiểu và học tập, nhóm em đã nhận được sự giảng dạy và hướng dẫn rất tận tình, tâm huyết của thầy Thầy đã giúp nhóm em tích lũy thêm nhiều kiến thức hay và bổ ích

Trong quá trình thực hiện tiểu luận, do chưa có nhiều kinh nghiệm làm đề tài cũng như những hạn chế về mặt kiến thức chuyên môn nên bài báo cáo không thể tránh khỏi những thiếu sót Nhóm em rất mong nhận được ý kiến đóng góp của thầy để bài dự án của nhóm em được hoàn thiện hơn

Cuối cùng, Nhóm kính chúc thầy thật nhiều sức khỏe, hạnh phúc và gặt hái nhiều thành công trên con đường giảng dạy của thầy

Nhóm 04 xin chân thành cảm ơn!

Trang 3

NHẬN XÉT CỦA GIẢNG VIÊN

………

BẢNG ĐÁNH GIÁ MỨC ĐỘ THAM GIA

Trần Thị Thùy Dương 31211025065 100%

Tạ Thị Khánh Hòa 31211026368 100%

Huỳnh Hoàng Trâm 31211027345 100%

Nguyễn Tích Duy Tuyến 31211025841 100%

Hồ Thị Yến Vy (Nhóm trưởng) 31211026127 100%

Trang 4

MỤC LỤC

DANH MỤC HÌNH 5

DANH MỤC BẢNG 6

LỜI CẢM ƠN 2

CÁC BÀI TOÁN LIÊN QUAN 7

Bài toán 1: 7

Bài toán 2: 7

Bài toán 3: 7

CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 8

1.1 Lý do chọn đề tài 8

1.1.1 Kickstarter là gì? 8

1.1.2 Lý do cụ thể 8

1.2 Mục tiêu nghiên cứu 8

1.3 Đối tượng và phạm vi nghiên cứu 8

1.3.1 Đối tượng nghiên cứu 8

1.3.2 Phạm vi nghiên cứu 8

1.4 Mô tả dữ liệu và cấu trúc dữ liệu 9

CHƯƠNG 2: LÝ THUYẾT TỔNG QUAN 10

2.1 Phân lớp dữ liệu 10

2.2 Phân cụm dữ liệu 13

CHƯƠNG 3: QUY TRÌNH THỰC HIỆN & KẾT QUẢ 16

3.1 Tìm hiểu về dữ liệu 16

3.1.1 Phân tích cách sử dụng tập dữ liệu 16

3.1.2 Tiền xử lý dữ liệu 16

3.2 Thực nghiệm 17

3.2.1 Bài toán 1: Phát hiện các đặc điểm đặc thù liên quan đến sự thành công và thất bại của dự án dựa vào lược đồ và các công cụ thống kê 17

3.2.2 Bài toán 2: Dự đoán rủi ro thành công của các dự án khởi nghiệp (Bài toán phân lớp) 23

3.2.3 Bài toán 3: Phân loại các nhóm dự án theo khoảng thời gian bắt đầu dự án (Bài toán phân cụm) 28

CHƯƠNG 4 KẾT LUẬN 36

TÀI LIỆU THAM KHẢO 38

Trang 5

DANH MỤC HÌNH

Hình 1: Giới thiệu về phân lớp dữ liệu 10

Hình 2: Quá trình phân lớp dữ liệu 11

Hình 3: Mô hình quá trình phân cụm dữ liệu 13

Hình 4: Quá trình thu gọn dữ liệu 17

Hình 5: Số lượng dự án trong từng lĩnh vực 18

Hình 6: Số lượng dự án thành công và thất bại trong từng lĩnh vực 19

Hình 7: Tỷ lệ dự án thành công qua từng năm 20

Hình 8: Tỷ lệ các dự án thành công dựa trên mối quan hệ Goals & Backers 20

Hình 9: Số lượng dự án khởi nghiệp ở các quốc gia 21

Hình 10: Tỷ lệ các dự án thành công ở các quốc gia 22

Hình 11: Tỷ lệ dự án thành công theo số vốn cần thiết 22

Hình 12: Chia tách dữ liệu 23

Hình 13: Mô hình phân lớp 24

Hình 14: Kết quả Test and Score 24

Hình 15: Kết quả Tree 25

Hình 16: Kết quả SVM 25

Hình 17: Kết quả Logistic Regression 26

Hình 18: Kết quả dự báo bằng Prediction 27

Hình 19: Kết quả dự báo từ Prediction sang Data Table (2) 27

Hình 20: Kết quả dự báo bằng Excel 28

Hình 21: Quá trình lọc dữ liệu 29

Hình 23: Kết quả K-means và biểu đồ Silhouette Plot 30

Hình 24: Hai chỉ số Silhouette Scores cao nhất của 2 cụm 30

Hình 25: Biểu đồ Scatter Plot bài toán phân cụm 31

Hình 26: Biểu đồ thể hiện dự án thành công và thất bại của 2 cụm 31

Hình 27: Biểu đồ thể hiện số dự án từng ngành của 2 cụm 32

Hình 28: Biểu đồ thể hiện số dự án từng nước của 2 cụm 33

Hình 29: Phân bố cụm theo số nhà đầu tư 33

Hình 30: Phân bố cụm theo số vốn đầu tư 34

Hình 31: Phân bố cụm theo số vốn mục tiêu 34

Trang 6

DANH MỤC BẢNG

Bảng 1: Mô tả bộ dữ liệu Kickstarter Projects 9 Bảng 2: Kết quả từ mô hình Confusion Matrix 26 Bảng 3: Kết quả K-means phân cụm 30

Trang 7

CÁC BÀI TOÁN LIÊN QUAN Bài toán 1:

Phát hiện các đặc điểm đặc thù thành công của dự án Ở bài toán này nhóm đã phân tích các đặc tính liên quan đến thành công và thất bại của các dự án, từ đó đưa ra những đề xuất cho nhà đầu tư tham khảo Việc các nhà đầu tư hiểu và phân tích được các đặc tính nổi bật từ các thị trường đầu tư là rất quan trọng và cần thiết để thấu hiểu vào lĩnh vực mà mình đầu tư từ đó có một sự đầu tư hiệu quả

Bài toán 2:

Dự đoán thành công của các dự án khởi nghiệp (bài toán phân lớp dữ liệu) Bài toán này là bài toán quan trọng nhất của đề tài nghiên cứu, nó cho ra một sự dự báo thành công và thất bại dựa trên các yếu tố ảnh hưởng đến sự thành công và thất bại của dự

án Sau khi sử dụng 3 phương pháp SVM, Tree và hồi quy Logistic trong phần mềm Orange để thực hiện phân lớp, nhóm đã chọn hồi quy Logistics để dự báo và phân tích các yếu tố ảnh hưởng đến sự thành công của dự án Việc xây dựng đúng mô hình dữ báo rất quan trọng với các nhà đầu tư để hỗ trợ trong việc nghiên cứu các

dự án và các thị trường đầu tư để có thể thấy được các yếu tố tác động đến vấn đề nghiên cứu và từ đó đưa ra hướng giải quyết hợp lý

Bài toán 3:

Phân loại các nhóm dự án theo khoảng thời gian bắt đầu dự án (Bài toán phân cụm) Bài toán gom nhóm các dự án vào thành từng cụm sao cho các dự án trong cùng một cụm có sự tương đồng về khoảng thời gian bắt đầu Nhóm đã sử dụng hai phương pháp là Clustering và K-Means phân cụm các dự án thành 2 khoảng, từ đó dựa vào đặc điểm của từng khoảng thời gian để thấy được xu hướng phát triển của các dự án trên nền tảng Kickstarters Các nhà đầu tư cũng rất đề cao việc thấu hiểu được xu hướng của thị trường, để có thể lập một kế hoạch đầu tư tốt và chuẩn bị hiệu quả cho những xu hướng biến động trong tương lai

Trang 8

CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 1.1 Lý do chọn đề tài

1.1.1 Kickstarter là gì?

Kickstarter là 1 nền tảng phổ biến cho phép nhà kinh doanh hoặc nhà sáng tạo huy động vốn thông qua việc trình bày dự án của mình trên phạm vi là toàn cầu (crowdfunding) Người dùng sẽ tìm thấy ở Kickstarter những dự án phù hợp và góp vốn cho dự án đó

Đây là một sản phẩm thuộc lĩnh vực Fintech (công nghệ tài chính) với lượng người dùng đa dạng ở các quốc gia, độ tuổi và lĩnh vực dự án trải dài từ: thời trang, phim ảnh cho đến công nghệ

Từ đó, đưa ra giải pháp, lời khuyên cho người dùng một cách thực tế và hiệu quả cho quyết định đầu tư

1.2 Mục tiêu nghiên cứu

Trong tập dữ liệu này, thu thập thông tin về một số lượng lớn các dự án Kickstarter

và liệu cuối cùng chúng có thành công hay không đạt được mục tiêu tài trợ hay không Dữ liệu này thể đóng vai trò là nguồn tài nguyên quý giá cho bất kỳ ai quan tâm đến việc hiểu động lực huy động vốn từ cộng đồng và các yếu tố góp phần vào

sự thành công hay thất bại của dự án Bằng cách phân tích bộ dữ liệu này, có thể hiểu rõ hơn về đặc điểm của các dự án Kickstarter thành công và không thành công, chẳng hạn như mục tiêu tài trợ, danh mục dự án và nguồn tài trợ Thông tin này có thể được sử dụng để thông báo các quyết định đầu tư và hướng dẫn các chiến dịch gây quỹ cộng đồng trong tương lai

1.3 Đối tượng và phạm vi nghiên cứu

1.3.1 Đối tượng nghiên cứu

Nghiên cứu các dự án trên nền tảng Kickstarter, từ đó đưa ra các hướng đi tốt nhất cho các nhà đầu tư

1.3.2 Phạm vi nghiên cứu

Thông tin về một số lượng lớn các dự án Kickstarter, bao gồm khởi nghiệp công nghệ, nỗ lực nghệ thuật sáng tạo và sáng kiến tác động xã hội, cùng nhiều loại khác Phạm vi dữ liệu từ năm 2009 đến 2018

Trang 9

1.4 Mô tả dữ liệu

ID Mã định danh dự án 1 chuỗi ký tự số Name Tên dự án 1 chuỗi ký tự chữ

Category Thể loại của sản phẩm

Giờ, ngày, tháng, năm

Deadline Hạn hoàn tất dự án Ngày tháng năm

Goal Số vốn cần thiết để dự

án thành công chưa quy đổi thành USD

Số tự nhiên

Pledged Số vốn được đầu tư vào

dự án chưa quy đổi thành USD

Số thập phân

State Tình trạng Successful = Thành công

Failed = Thất Bại Cancelled = Bị hủy Live = Đang gọi vốn Suspended = Bị hoãn Undefined = Không xác

định

Backers Nhà đầu tư Số tự nhiên

Bảng 1: Mô tả bộ dữ liệu Kickstarter Projects

Trang 10

CHƯƠNG 2: LÝ THUYẾT TỔNG QUAN 2.1 Phân lớp dữ liệu

Phương pháp phân lớp (classification) là quá trình phân một đối tượng dữ liệu vào

một hay nhiều lớp (loại) đã cho trước nhờ một mô hình phân lớp Mô hình này

được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (thuộc về lớp nào)

Hình 1: Giới thiệu về phân lớp dữ liệu

Quá trình phân lớp dữ liệu sẽ bao gồm nhiều phương pháp phân lớp, nhưng ở bài báo cáo này sử dụng các phương pháp sau:

 Logistic Regression: Là một mô hình xác suất dự đoán giá trị đầu ra rời rạc

từ một tập các giá trị đầu vào (biểu diễn dưới dạng vector)

 Decision tree: Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết

định cùng các kết quả khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô

tả, phân loại và tổng quát hóa tập dữ liệu cho trước

 SVM (Support Vector Machine): là một thuật toán có giám sát, SVM nhận

dữ liệu vào, xem chúng như những các vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau

Trang 11

Hình 2: Quá trình phân lớp dữ liệu

Cụ thể từng phương pháp như sau:

a) Thuật toán cây quyết định

Khái niệm: Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng

các kết quả khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định

Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật Các thuộc tính của đối tượng có thể thuộc các kiểu dữ liệu khác nhau như Nhị phân (Binary), Định danh (Nominal), Thứ

Tự (Ordinal), Số lượng (Quantitative) trong khi đó thuộc tính phân lớp phải có kiểu

dữ liệu là Binary hoặc Ordinal Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước

Quy trình:

1 Chọn thuộc tính tốt nhất bằng cách sử dụng các biện pháp lựa chọn thuộc tính (ASM) để phân chia

2 Biến nó thành một nút quyết định và chia tập dữ liệu thành các tập nhỏ hơn

3 Bắt đầu tạo cây bằng cách lặp lại quy trình này một cách tuần tự cho đến khi một trong các điều kiện phù hợp:

 Tất cả các bộ giá trị có thể được phân loại thành cùng một giá trị thuộc tính

 Không còn thuộc tính nào còn lại

 Không có trường hợp nào nữa

Ưu điểm:

 Dễ hiểu

 Không đòi hỏi việc chuẩn hóa dữ liệu

 Có thể xử lý trên nhiều kiểu dữ liệu khác nhau

 Xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn

Khuyết điểm:

 Khó giải quyết trong tình huống dữ liệu phụ thuộc thời gian

Trang 12

 Chi phí xây dựng mô hình cao

b) Thuật toán SVM

Khái niệm: SVM là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem

chúng như những các vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu

Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể

SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau

 Tiết kiệm bộ nhớ (do quá trình test chỉ cần so điểm dữ liệu mới với mặt siêu

phẳng tìm được mà không cần tính toán lại

 Linh hoạt: vừa có thể phân lớp tuyến tính và phi tuyến ( sử dụng các Kernel khác nhau)

 Xử lý được trong không gian nhiều chiều

Nhược điểm

 Trong trường hợp số chiều dữ liệu lớn hơn số dòng dữ liệu thì SVM cho kết quả không tốt

 Chưa thể hiện tính xác suất trong phân lớp

c) Thuật toán Logistic Regression

Khái niệm: Hồi quy logistic là một kỹ thuật phân tích dữ liệu sử dụng toán học để

tìm ra mối quan hệ giữa hai yếu tố dữ liệu Sau đó, kỹ thuật này sử dụng mối quan

hệ đã tìm được để dự đoán giá trị của những yếu tố đó dựa trên yếu tố còn lại Dự đoán thường cho ra một số kết quả hữu hạn, như có hoặc không

3 Tìm bộ hệ số(trọng số): w0, w1, w2 , để phù hợp với ước lượng (vì bộ hệ số này

sẽ được điều chỉnh và tính toán trong giai đoạn huấn luyện)

Trang 13

Ưu điểm

 Hồi quy logistic dễ thực hiện hơn nhiều so với các phương pháp khác

 Hồi quy logistic hoạt động tốt đối với các trường hợp tập dữ liệu có thể phân tách tuyến tính

Nhược điểm

 Hồi quy logistic không dự đoán được kết quả liên tục

 Hồi quy logistic có thể không chính xác nếu kích thước mẫu quá nhỏ

2.2 Phân cụm dữ liệu

Clustering là phương pháp phân tích dữ liệu, gom cụm dữ liệu là quá trình mà trong

đó tập dữ liệu được phân tích sẽ được phân tách thành nhiều cụm/nhóm khác nhau, trong mỗi cụm được phân tách ra sẽ có các điểm dữ liệu có sự tương đồng với nhau Các cụm được phân ra sẽ có sự tương đồng giữa những phần tử có cùng cụm và

khác biệt với những phần tử của những cụm khác

Clustering là phương pháp phân loại không giám sát (Unsupervised classification) đây là một phương pháp của cách học không giám sát (Unsupervised learning) - phương pháp xây dựng các model phân tích - dựa trên tập dữ liệu "không có nhãn", các điểm dữ liệu chưa được phân loại - mục đích tìm hiểu và trích xuất được những thông tin giá trị về đặc điểm, tính chất của những quan sát bên trong

Clustering không cố gắng phân loại, ước lượng hay dự báo giá trị của biến mục tiêu

Hình 3: Mô hình quá trình phân cụm dữ liệu

2.2.1 Phương pháp phân cụm Hierarchical Clustering (phân cụm phân cấp): Agnes, Diana

 Quá trình này lặp lại cho đến khi tất cả các phần tử cùng thuộc một cụm lớn

 Kết quả quá trình phát là một dendrogram (cây phân cấp)

Là sơ đồ/cây biểu diễn sự phân rã các phần tử dữ liệu thành nhiều cấp độ lồng nhau

Diana

Theo chiến lược top down:

Trang 14

 Không cần tham số đầu vào

 Không quay lui được

 Tốc độ chậm, không thích hợp trên dữ liệu lớn

 Không xử lý được trên dữ liệu bị thiếu, nhạy cảm với nhiễu

 Hạn chế trên dữ liệu có các cụm lớn và có hình dáng không lồi

2.2.2 Phương pháp phân cụm Partitioning Clustering (phân cụm phân

hoạch): K-means, Fuzzy C-means

K-means

Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch

Tư tưởng chính: Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian

d chiều (với d là số lượng thuộc tính của đối tượng)

Bước 1: Chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm

Bước 2: Phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất Nếu các điểm dữ liệu ở từng cụm vừa được phân chia không thay đổi so với kết quả của lần phân chia trước nó thì ta dừng thuật toán

Bước 3: Cập nhật lại trung tâm cho từng cụm bằng cách lấy trung bình cộng của tất các các điểm dữ liệu đã được gán vào cụm đó sau khi phân chia ở bước 2

Bước 4: Quay lại bước 2

Đánh giá thuật toán K-means

 Cần biết trước số lượng cụm k

 Nhạy cảm với nhiễu và ngoại biên (outliers)

 Không phù hợp với phân bố dữ liệu dạng không lồi (non-convex)

 Kết quả (nghiệm) bài toán phụ thuộc vào cách khởi tạo các trung tâm cụm ban đầu

Trang 15

Fuzzy C - Means

Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch

Là biến thể của K-mean nên có cùng tư tưởng với K-means:

 FCM được đề xuất bởi Bezdek năm 1974

 FCM là phân cụm dữ liệu mờ tức là một đối tượng dữ liệu có thể được phân vào 1 hoặc nhiều nhóm

 Có xét đến yếu tố quan hệ giữa các phần tử và các cụm trong ma trận trọng số biểu diễn bậc của các đối tượng trong cụm

 Mỗi phần tử có một độ đo mức độ thành viên (xác suất là thành viên) đối với từng cụm

 FCM phân N phần tử dữ liệu thành C cụm mờ (1<C<N) Mỗi cụm ci có 1 tâm cụm

zi tương ứng Cụm mờ của các đối tượng này được biểu diễn bởi một ma trận mờ μ

(kích thước N x C)

Bước 1: Khởi tạo ma trận độ đo thành viên

Bước 2: Tính toán lại tâm cụm

Bước 3: Tính độ sai khác giữa mỗi điểm dữ liệu với tâm cụm bằng khoảng cách Euclid

Với d là số thuộc tính của mỗi đối tượng dữ liệu (số chiều)

Bước 4: Cập nhật ma trận độ đo thành viên

Bước 5: Nếu các trung tâm cụm không đổi thì dừng, ngược lại thì quay lại bước 2

Đánh giá thuật toán FCM

 Là thuật toán gom cụm mềm, khắc phục được vấn đề các cụm chồng lên nhau trong dữ liệu có kích thước lớn, nhiều chiều

 Phụ thuộc vào tham số khởi tạo: tham số mờ m; ma trận độ đo mức độ thành viên

Trang 16

 Vẫn có thể gặp vấn đề cực trị địa phương

 Nhạy cảm với nhiễu và ngoại biên

Bài báo cáo sử dụng phương pháp K-Means:

Có tham số đầu vào của thuật toán là số cụm k và tham số đầu ra của thuật toán là các trọng tâm của các cụm dữ liệu Áp dụng cho dữ liệu và xuất ra một tập dữ liệu mới trong đó chỉ mục cụm được sử dụng làm thuộc tính lớp Thuộc tính lớp gốc, nếu nó tồn tại, được chuyển sang thuộc tính meta

Tư tưởng chính của K-Means là tìm cách phân nhóm các đối tượng đã cho vào k cụm sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm cụm là nhỏ nhất

CHƯƠNG 3: QUY TRÌNH THỰC HIỆN & KẾT QUẢ 3.1 Tìm hiểu về dữ liệu

3.1.1 Phân tích cách sử dụng tập dữ liệu

Dữ liệu có những điểm cần hiểu như sau:

 Mỗi hàng đại diện cho 1 dự án trên nền tảng Kickstarters và mỗi cột là một

 thuộc tính của dự án

 Dữ liệu thô chưa được xử lý gồm 374,853 dự án và 11 cột đặc trưng

 Trong cột dữ liệu state (trạng thái của dự án) có 5 trạng thái là: Successful (Thành công), Failed (Thất bại), Cancelled (Bị hủy), Live (Đang gọi vốn), Suspended (Bị hoãn)

Nhìn tổng thể, khi dự án đạt đủ mức vốn cần thiết trước thời hạn deadline thì dự án

sẽ đạt được trạng thái Successful (Thành công) Điều này có thể được xác định trong tập dữ liệu khi mức vốn từ cột Pledged vượt qua mức vốn cần đạt tại cột Goal trước khoảng thời gian tại cột deadline Nếu không thỏa được điều kiện đã nêu trên trước deadline thì dự án sẽ có trạng thái Failed (Thất bại)

Vì tập dữ liệu quá lớn gồm 374,853 dòng và 11 cột, vì vậy để có thể sử dụng Orange

để phân tích dữ liệu một cách hiệu quả, nhóm đã thu gọn dữ liệu còn lại 30,000 dòng bằng công cụ Data Sampler của Orange và lưu lại dữ liệu được giảm vào file excel với tên “Sample Data.xlsx”

Trang 17

Hình 4: Quá trình thu gọn dữ liệu

Sau khi có Sample Data, nhóm sử dụng chức năng Filter của excel để lọc ra các dự

án có state (Trạng thái) Successful (Thành công) và Failed (Thất bại) vì đây là những trạng thái mà các nhà đầu tư cũng như nhóm quan tâm và muốn nghiên cứu (Không thể sử dụng Select Rows của phần mềm Orange được vì Select Rows chỉ cho phép lọc theo một điều kiện hoặc Thành công hoặc Thất bại)

Sau đó lưu lại dữ liệu vào file excel và đặt tên là “Preprocess Data.xlsx”

Xác định biến độc lập và phụ thuộc:

 Biến phụ thuộc là “State”

 Biến độc lập là các biến còn lại

3.2 Thực nghiệm

3.2.1 Bài toán 1: Phát hiện các đặc điểm đặc thù liên quan đến sự thành công

và thất bại của dự án dựa vào lược đồ và các công cụ thống kê

3.2.1.1 Mô tả bài toán:

 Mỗi hàng đại diện cho một dự án khác nhau thuộc nhiều loại khác nhau, mỗi cột là các thuộc tính tương ứng của các đối tượng

 Bài toán tìm ra các đặc điểm đặc thù, một số điểm khác biệt giữa các dự án quyết định sự thành công và đạt được mục tiêu tài trợ Qua đó, thể hiện một cách trực quan các thuộc tính giữa dự án thành công và dự án thất bại

 Các thuộc tính được xem xét và đánh giá sự phân bổ bằng biểu đồ để xác định mức độ ảnh hưởng của thuộc tính đến kết quả “successful” hay “failed” của dự án

Trang 18

3.2.1.2 Các phương pháp thể hiện - đánh giá dữ liệu:

Biểu đồ hộp (Box Plot): Hiển thị sự phân phối 1 thuộc tính Phương pháp này kiểm

tra bất kỳ dữ liệu mới nào để nhanh chóng phát hiện bất kỳ sự bất thường nào, chẳng hạn như các giá trị trùng lặp, ngoại lệ và tương tự Có thể biểu diễn nó ở dạng thanh

cho các giá trị dữ liệu phân loại hoặc phạm vi lượng tử cho dữ liệu số

Biểu đồ phân phối (Distributions): Hiển thị phân phối của các thuộc tính rời rạc,

hoặc liên tục một cách trực quan nhất sự chênh lệch của các thuộc tính (đặc điểm

dữ liệu) dựa trên số lần mỗi giá trị thuộc tính xuất hiện trong dữ liệu Nếu dữ liệu chứa một biến lớp, phân phối có thể được điều chỉnh trên lớp Biểu đồ cho biết số

lần mỗi giá trị thuộc tính xuất hiện trong dữ liệu

Biểu đồ khảm (Mosaic Display): biểu diễn đồ họa của bảng tần suất hai chiều hoặc

bảng dự phòng, trực quan hóa dữ liệu từ hai hoặc nhiều biến định tính, nhận ra mối quan hệ giữa các biến khác nhau một cách hiệu quả hơn

Biểu đồ phân tán điểm (Scatter plot): trực quan hóa biểu đồ phân tán 2 chiều, dữ

liệu được hiển thị dưới dạng tập hợp các điểm, mỗi điểm có giá trị của thuộc tính trục x xác định vị trí trên trục hoành và giá trị của thuộc tính trục y xác định vị trí trên trục tung Các thuộc tính khác nhau của biểu đồ, chẳng hạn như màu sắc, kích thước và hình dạng của các điểm, tiêu đề trục, kích thước điểm tối đa và độ rung có thể được điều chỉnh ở phía bên trái của tiện ích thể hiện mối tương quan giữa 2 thuộc tính, đưa ra cái nhìn khái quát của mối liên hệ giữa 2 thuộc tính dữ liệu đó

3.2.1.3 Phân tích dữ liệu:

a) Category

Hình 5: Số lượng dự án trong từng lĩnh vực

Ở đây nhóm sử dụng phương pháp Box Plot để thể hiện thứ tự giảm dần về số lượng

dự án của từng lĩnh vực Qua biểu đồ phân phối trên, ta thấy các lĩnh vực như Film

& Video, Music, Publishing là các lĩnh vực có đa số các dự án tham gia (đạt trên

10% so với các lĩnh vực còn lại) Do đó, đây là các lĩnh vực thu hút được nhiều nhà đầu tư nhất, hiện là những lĩnh vực nổi trội và là xu hướng trên nền tảng Kickstarter

Trang 19

Hình 6: Số lượng dự án thành công và thất bại trong từng lĩnh vực

Ở đây, nhóm tiếp tục sử dụng phương pháp Box Plot để biểu diễn về tỷ lệ thành

công cũng như thất bại của các dự án trong từng lĩnh vực Qua biểu đồ trên, có thể thấy tỉ lệ thành công và thất bại giữa các dự án có sự chênh lệch trong từng lĩnh vực

Có thể thấy, các lĩnh vực có nhiều dự án tham gia như Film & Video, Music,

Publishing như đề cập ở Hình trên lại có tỷ lệ thất bại khá cao so với các lĩnh vực

còn lại Lĩnh vực Film & Video có tỷ lệ thất bại 57,7%, Music 45,85%, Publishing

có tỷ lệ lên đến 65,3% Bởi lẽ các lĩnh vực này nhận được nhiều sự quan tâm, thu hút nên sự cạnh tranh khốc liệt hơn, mức độ cạnh tranh nguồn vốn cao, nếu không

đủ khả năng dự án rất dễ thất bại Bên cạnh đó, các nhà đầu tư nên cân nhắc khi

quyết định đầu tư vào các lĩnh vực như: Crafts, Fashion, Food, Journalism,

Technology vì đây là các lĩnh vực có các dự án thất bại hơn 70% ( Craft: 76,26%, Fashion: 73,4%, Food: 73%, Journalism: 76,1%, Technology: 76,73%)

Ngược lại, các nhà đầu tư nên quan tâm đến các lĩnh vực có ít dự án tham gia hơn

để giảm bớt tính cạnh tranh Có thể chú ý đến các dự án có tỉ lệ thành công trên 50%

như: Theater: 65,34%, Dance: 67,28%, Comic: 59,9% Có thể thấy, đây là hướng

đầu tư an toàn cho các nhà đầu tư

b) Launched

Tiêu đề	Phân tích dữ liệu về các dự án Kickstarter để đưa ra hướng đi tốt nhất cho các nhà đầu tư bằng phần mềm Orange
Người hướng dẫn	Đặng Ngọc Hoàng Thành PTS
Trường học	Trường Đại học Kinh Tế TP. HCM
Chuyên ngành	Khoa học Dữ liệu
Thể loại	Báo cáo cuối kỳ
Năm xuất bản	2023
Thành phố	Hồ Chí Minh

Định dạng
Số trang	38
Dung lượng	2,86 MB