Ở bài toán này nhóm đã phân tích các đặc tính liên quan đến thành công và thất bại của các dự án, từ đó đưa ra những đề xuất cho nhà đầu tư tham khảo.. Bài toán 2: Dự đoán thành công củ
Trang 1ĐẠI HỌC UEH
TIỂU LUẬN
Môn học Khoa học Dữ liệu
Đề tài Phân tích dữ liệu về các dự án Kickstarter để đưa ra hướng đi
tốt nhất cho các nhà đầu tư bằng phần mềm Orange
Giảng viên Đặng Ngọc Hoàng Thành
Mã lớp học phần 23D1INF50905922
Thành viên 1 Trần Thị Thùy Dương
2 Tạ Thị Khánh Hòa
3 Huỳnh Hoàng Trâm
4 Nguyễn Tích Duy Tuyến
Trang 2DANH MỤC BẢNG 3
LỜI CẢM ƠN 5
CÁC BÀI TOÁN LIÊN QUAN 6
Bài toán 1: 6
Bài toán 2: 6
Bài toán 3: 6
CHƯƠNG 1: TỔNG QUAN 7
1.1 Lý do chọn đề tài 7
1.1.1 Kickstarter là gì? 7
1.1.2 Lý do cụ thể 7
1.2 Mục tiêu nghiên cứu 7
1.3 Đối tượng và phạm vi nghiên cứu 7
1.3.1 Đối tượng nghiên cứu 7
1.3.2 Phạm vi nghiên cứu 8
1.4 Mô tả dữ liệu và cấu trúc dữ liệu 8
CHƯƠNG 2: QUY TRÌNH THỰC HIỆN & KẾT QUẢ 9
2.1 Các phương pháp dự đoán 9
2.1.1 Phân lớp dữ liệu 9
2.1.2 Phân cụm dữ liệu 11
2.2 Tìm hiểu về dữ liệu 13
2.2.1 Phân tích cách sử dụng tập dữ liệu 13
2.2.2 Tiền xử lý dữ liệu 14
2.3 Thực nghiệm 15
2.3.1 Bài toán 1: Phát hiện các đặc điểm đặc thù liên quan đến sự thành công và thất bại của dự án dựa vào lược đồ và các công cụ thống kê 15
2.3.2 Bài toán 2: Dự đoán rủi ro thành công của các dự án khởi nghiệp (Bài toán phân lớp) 21
2.3.3 Bài toán 3: Phân loại các nhóm dự án theo khoảng thời gian bắt đầu dự án (Bài toán phân cụm) 28
CHƯƠNG 3 KẾT LUẬN 36
DANH MỤC HÌNH Hình 1: Quá trình thu gọn dữ liệu 14
Hình 2 : Số lượng dự án trong từng lĩnh vực 16
Hình 3 : Số lượng dự án thành công và thất bại trong từng lĩnh vực 16
Trang 3Hình 4: Tỷ lệ dự án thành công qua từng năm 17
Hình 5: Tỷ lệ các dự án thành công dựa trên mối quan hệ Goals & Backers 18
Hình 6: Số lượng dự án khởi nghiệp ở các quốc gia 19
Hình 7: Tỷ lệ các dự án thành công ở các quốc gia 19
Hình 8: Tỷ lệ dự án thành công theo số vốn cần thiết 20
Hình 9 :Giới thiệu về phân lớp dữ liệu 21
Hình 10 : Quá trình phân lớp dữ liệu 22
Hình : Chia tách dữ liệu 22
Hình 11: Mô hình phân lớp 23
Hình 11: Kết quả Test and Score 23
Hình 12: Kết quả Tree 24
Hình 13: Kết quả SVM 24
Hình 14 : Kết quả Logistic Regression 25
Hình 15: Kết quả dự báo bằng Prediction 26
Hình 16 : Kết quả dự báo từ Prediction sang Data Table (2) 26
Hình 17: Kết quả dự báo bằng Excel 27
Hình 18: Mô hình quá trình phân cụm dữ liệu 28
Hình 19: Quá trình lọc dữ liệu 29
Hình 20: Mô hình quá trình xử lý bài toán phân cụm 29
Hình 21: Kết quả K-means và biểu đồ Silhouette Plot 30
Hình 22: Hai chỉ số Silhouette Scores cao nhất của 2 cụm 30
Hình 23: Biểu đồ Scatter Plot bài toán phân cụm 31
Hình 24: Biểu đồ thể hiện dự án thành công và thất bại của 2 cụm 31
Hình 25: Biểu đồ thể hiện số dự án từng ngành của 2 cụm 32
Hình 26: Biểu đồ thể hiện số dự án từng nước của 2 cụm 33
Hình 27: Phân bố cụm theo số nhà đầu tư 33
Hình 28: Phân bố cụm theo số vốn đầu tư 34
Hình 29: Phân bố cụm theo số vốn mục tiêu 34
Trang 4DANH MỤC BẢNG
Bảng 1: Mô tả bộ dữ liệu Kickstarter Projects 8 Bảng 2: Kết quả từ mô hình Confusion Matrix 25 Bảng 3: Kết quả K-means phân cụm 30
Trang 5LỜI CẢM ƠN
Nhóm em xin gửi lời cảm ơn chân thành và sâu sắc đến thầy Đặng Ngọc Hoàng Thành - giảng viên bộ môn Khoa học dữ liệu của trường Đại học Kinh Tế TP HCM Trong quá trình tìm hiểu và học tập, nhóm em đã nhận được sự giảng dạy và hướng dẫn rất tận tình, tâm huyết của thầy Thầy đã giúp nhóm em tích lũy thêm nhiều kiến thức hay và bổ ích
Trong quá trình thực hiện tiểu luận, do chưa có nhiều kinh nghiệm làm đề tài cũng như những hạn chế về mặt kiến thức chuyên môn nên bài báo cáo không thể tránh khỏi những thiếu sót Nhóm em rất mong nhận được ý kiến đóng góp của thầy để bài dự án của nhóm em được hoàn thiện hơn
Cuối cùng, Nhóm kính chúc thầy thật nhiều sức khỏe, hạnh phúc và gặt hái nhiều thành công trên con đường giảng dạy của thầy
Nhóm em xin chân thành cảm ơn!
Trang 6CÁC BÀI TOÁN LIÊN QUAN
Bài toán 1:
Phát hiện các đặc điểm đặc thù thành công của dự án Ở bài toán này nhóm đã phân tích các đặc tính liên quan đến thành công và thất bại của các dự án, từ đó đưa ra những đề xuất cho nhà đầu tư tham khảo Việc các nhà đầu tư hiểu và phân tích được các đặc tính nổi bật từ các thị trường đầu tư là rất quan trọng và cần thiết để thấu hiểu vào lĩnh vực mà mình đầu tư
từ đó có một sự đầu tư hiệu quả
Bài toán 2:
Dự đoán thành công của các dự án khởi nghiệp (bài toán phân lớp dữ liệu) Bài toán này
là bài toán quan trọng nhất của đề tài nghiên cứu, nó cho ra một sự dự báo thành công và thất bại dựa trên các yếu tố ảnh hưởng đến sự thành công và thất bại của dự án Sau khi sử dụng 3 phương pháp SVM, Tree và hồi quy Logistic trong phần mềm Orange để thực hiện phân lớp, nhóm đã chọn hồi quy Logistics để dự báo và phân tích các yếu tố ảnh hưởng đến sự thành công của dự án Việc xây dựng đúng mô hình dữ báo rất quan trọng với các nhà đầu tư để hỗ trợ trong việc nghiên cứu các dự án và các thị trường đầu tư để có thể thấy được các yếu tố tác động đến vấn đề nghiên cứu và từ đó đưa ra hướng giải quyết hợp lý
Bài toán 3:
Phân loại các nhóm dự án theo khoảng thời gian bắt đầu dự án (Bài toán phân cụm) Bài toán gom nhóm các dự án vào thành từng cụm sao cho các dự án trong cùng một cụm có
sự tương đồng về khoảng thời gian bắt đầu Nhóm đã sử dụng hai phương pháp là Clustering
và K-Means phân cụm các dự án thành 2 khoảng, từ đó dựa vào đặc điểm của từng khoảng thời gian để thấy được xu hướng phát triển của các dự án trên nền tảng Kickstarters Các nhà đầu tư cũng rất đề cao việc thấu hiểu được xu hướng của thị trường, để có thể lập một kế hoạch đầu tư tốt và chuẩn bị hiệu quả cho những xu hướng biến động trong tương lai
Trang 7Đây là một sản phẩm thuộc lĩnh vực Fintech (công nghệ tài chính) với lượng người dùng đa dạng ở các quốc gia, độ tuổi và lĩnh vực dự án trải dài từ: thời trang, phim ảnh cho đến công nghệ
Từ đó, đưa ra giải pháp, lời khuyên cho người dùng một cách thực tế và hiệu quả cho quyết định đầu tư
1.2 Mục tiêu nghiên cứu
Trong tập dữ liệu này, thu thập thông tin về một số lượng lớn các dự án Kickstarter và liệu cuối cùng chúng có thành công hay không đạt được mục tiêu tài trợ hay không Dữ liệu này thể đóng vai trò là nguồn tài nguyên quý giá cho bất kỳ ai quan tâm đến việc hiểu động lực huy động vốn từ cộng đồng và các yếu tố góp phần vào sự thành công hay thất bại của dự
án Bằng cách phân tích bộ dữ liệu này, có thể hiểu rõ hơn về đặc điểm của các dự án Kickstarter thành công và không thành công, chẳng hạn như mục tiêu tài trợ, danh mục dự án và nguồn tài trợ Thông tin này có thể được sử dụng để thông báo các quyết định đầu tư và hướng dẫn các chiến dịch gây quỹ cộng đồng trong tương lai
1.3 Đối tượng và phạm vi nghiên cứu
1.3.1 Đối tượng nghiên cứu
Nghiên cứu các dự án trên nền tảng Kickstarter, từ đó đưa ra các hướng đi tốt nhất cho các nhà đầu tư
Trang 81.3.2 Phạm vi nghiên cứu
Thông tin về một số lượng lớn các dự án Kickstarter, bao gồm khởi nghiệp công nghệ,
nỗ lực nghệ thuật sáng tạo và sáng kiến tác động xã hội, cùng nhiều loại khác
Phạm vi dữ liệu từ năm 2009 đến 2018
1.4 Mô tả dữ liệu và cấu trúc dữ liệu
- Bộ dữ liệu: Kickstarter Projects | Kaggle
ID Mã định danh dự án 1 chuỗi ký tự số
Category Thể loại của sản phẩm dự
Giờ, ngày, tháng, năm
Deadline Hạn hoàn tất dự án Ngày tháng năm
Goal Số vốn cần thiết để dự án
thành công chưa quy đổi
thành USD
Số tự nhiên
Pledged Số vốn được đầu tư vào
dự án chưa quy đổi thành
USD
Số thập phân
State Tình trạng Successful = Thành công
Failed = Thất Bại Cancelled = Bị hủy Live = Đang gọi vốn Suspended = Bị hoãn Undefined = Không xác
định
Bảng 1: Mô tả bộ dữ liệu Kickstarter Projects
Trang 9CHƯƠNG 2: QUY TRÌNH THỰC HIỆN & KẾT QUẢ
2.1 Các phương pháp dự đoán
2.1.1 Phân lớp dữ liệu
1 Thuật toán cây quyết định
Khái niệm: Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả
khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định
Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật Các thuộc tính của đối tượng có thể thuộc các kiểu dữ liệu khác nhau như Nhị phân (Binary) , Định danh (Nominal), Thứ Tự(Ordinal), Số lượng (Quantitative) trong khi đó thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước
Quy trình:
1 Chọn thuộc tính tốt nhất bằng cách sử dụng các biện pháp lựa chọn thuộc tính (ASM)
để phân chia
2 Biến nó thành một nút quyết định và chia tập dữ liệu thành các tập nhỏ hơn
3 Bắt đầu tạo cây bằng cách lặp lại quy trình này một cách tuần tự cho đến khi
một trong các điều kiện phù hợp:
o Tất cả các bộ giá trị có thể được phân loại thành cùng một giá trị thuộc tính
o Không còn thuộc tính nào còn lại
o Không có trường hợp nào nữa
Ưu điểm:
● Dễ hiểu
● Không đòi hỏi việc chuẩn hóa dữ liệu
● Có thể xử lý trên nhiều kiểu dữ liệu khác nhau
● Xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn
Khuyết điểm:
● Khó giải quyết trong tình huống dữ liệu phụ thuộc thời gian
● Chi phí xây dựng mô hình cao
2 Thuật toán SVM
Khái niệm: SVM là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như
những các vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu
Trang 10Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể
SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau
● Linh hoạt: vừa có thể phân lớp tuyến tính và phi tuyến ( sử dụng các Kernel khác nhau)
● Xử lý được trong không gian nhiều chiều
Nhược điểm
● Trong trường hợp số chiều dữ liệu lớn hơn số dòng dữ liệu thì SVM cho kết quả không tốt
● Chưa thể hiện tính xác suất trong phân lớp
3 Thuật toán Logistic Regression
Khái niệm: Hồi quy logistic là một kỹ thuật phân tích dữ liệu sử dụng toán học để tìm ra mối
quan hệ giữa hai yếu tố dữ liệu Sau đó, kỹ thuật này sử dụng mối quan hệ đã tìm được để dự đoán giá trị của những yếu tố đó dựa trên yếu tố còn lại Dự đoán thường cho ra một số kết quả hữu hạn, như có hoặc không
Tìm bộ hệ số(trọng số): w0, w1, w2 , để phù hợp với ước lượng (vì bộ hệ số này sẽ
được điều chỉnh và tính toán trong giai đoạn huấn luyện)
Ưu điểm
● Hồi quy logistic dễ thực hiện hơn nhiều so với các phương pháp khác
● Hồi quy logistic hoạt động tốt đối với các trường hợp tập dữ liệu có thể phân tách tuyến tính
Trang 11Nhược điểm
● Hồi quy logistic không dự đoán được kết quả liên tục
● Hồi quy logistic có thể không chính xác nếu kích thước mẫu quá nhỏ
● Quá trình này lặp lại cho đến khi tất cả các phần tử cùng thuộc một cụm lớn
● Kết quả quá trình phát là một dendrogram (cây phân cấp)
Là sơ đồ/cây biểu diễn sự phân rã các phần tử dữ liệu thành nhiều cấp độ lồng nhau
Diana
Theo chiến lược top down:
● Bắt đầu với 1 cụm gồm tất cả phần tử
● Ở mỗi bước, chia cụm ban đầu thành 2 cụm
Khoảng cách giữa 2 cụm là khoảng cách giữa 2 điểm gần nhất từ hai cụm, hoặc khoảng cách trung bình
● Thực hiện đệ quy trên các cụm mới được tách ra và lặp lại cho đến khi mỗi phần tử là
• Không cần tham số đầu vào
• Không quay lui được
• Tốc độ chậm, không thích hợp trên dữ liệu lớn
• Không xử lý được trên dữ liệu bị thiếu, nhạy cảm với nhiễu
• Hạn chế trên dữ liệu có các cụm lớn và có hình dáng không lồi
Trang 122.1.2.2 Phương pháp phân cụm Partitioning Clustering (phân cụm phân hoạch): means, Fuzzy C-means
K-K-means
Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch
Tư tưởng chính: Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (với d là số lượng thuộc tính của đối tượng)
Bước 1: Chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm
Bước 2: Phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất Nếu các điểm dữ liệu ở từng cụm vừa được phân chia không thay đổi so với kết quả của lần phân chia trước nó thì ta dừng thuật toán
Bước 3: Cập nhật lại trung tâm cho từng cụm bằng cách lấy trung bình cộng của tất các các điểm dữ liệu đã được gán vào cụm đó sau khi phân chia ở bước 2
Bước 4: Quay lại bước 2
Đánh giá thuật toán K-means
• Cần biết trước số lượng cụm k
• Nhạy cảm với nhiễu và ngoại biên (outliers)
• Không phù hợp với phân bố dữ liệu dạng không lồi (non-convex)
• Kết quả (nghiệm) bài toán phụ thuộc vào cách khởi tạo các trung tâm cụm ban đầu
Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch
Là biến thể của K-mean nên có cùng tư tưởng với K-means:
• FCM được đề xuất bởi Bezdek năm 1974
• FCM là phân cụm dữ liệu mờ tức là một đối tượng dữ liệu có thể được phân vào 1 hoặc nhiều nhóm
• Có xét đến yếu tố quan hệ giữa các phần tử và các cụm trong ma trận trọng số biểu diễn bậc của các đối tượng trong cụm
• Mỗi phần tử có một độ đo mức độ thành viên (xác suất là thành viên) đối với từng cụm
Trang 13• FCM phân N phần tử dữ liệu thành C cụm mờ (1<C<N) Mỗi cụm ci có 1 tâm cụm zi
tương ứng Cụm mờ của các đối tượng này được biểu diễn bởi một ma trận mờ μ (kích
thước N x C)
Bước 1: Khởi tạo ma trận độ đo thành viên
Bước 2: Tính toán lại tâm cụm
Bước 3: Tính độ sai khác giữa mỗi điểm dữ liệu với tâm cụm bằng khoảng cách Euclid
Với d là số thuộc tính của mỗi đối tượng dữ liệu (số chiều)
Bước 4: Cập nhật ma trận độ đo thành viên
Bước 5: Nếu các trung tâm cụm không đổi thì dừng, ngược lại thì quay lại bước 2
Đánh giá thuật toán FCM
• Là thuật toán gom cụm mềm, khắc phục được vấn đề các cụm chồng lên nhau trong dữ liệu có kích thước lớn, nhiều chiều
• Phụ thuộc vào tham số khởi tạo: tham số mờ m; ma trận độ đo mức độ thành viên
• Vẫn có thể gặp vấn đề cực trị địa phương
• Nhạy cảm với nhiễu và ngoại biên
2.2 Tìm hiểu về dữ liệu
2.2.1 Phân tích cách sử dụng tập dữ liệu
Dữ liệu có những điểm cần hiểu như sau:
• Mỗi hàng đại diện cho 1 dự án trên nền tảng Kickstarters và mỗi cột là một
thuộc tính của dự án
• Dữ liệu thô chưa được xử lý gồm 374,853 dự án và 11 cột đặc trưng
Trang 14• Trong cột dữ liệu state (trạng thái của dự án) có 5 trạng thái là: Successful (Thành công), Failed (Thất bại), Cancelled (Bị hủy), Live (Đang gọi vốn), Suspended (Bị hoãn)
Nhìn tổng thể, khi dự án đạt đủ mức vốn cần thiết trước thời hạn deadline thì dự
án sẽ đạt được trạng thái Successful (Thành công) Điều này có thể được xác định trong tập dữ liệu khi mức vốn từ cột Pleged vượt qua mức vốn cần đạt tại cột
Goal trước khoảng thời gian tại cột deadline Nếu không thỏa được điều kiện
đã nêu trên trước deadline thì dự án sẽ có trạng thái Failed (Thất bại)
2.2.2 Tiền xử lý dữ liệu
Xử lý dữ liệu:
Bài nghiên cứu này sử dụng bộ dữ liệu được tổng hợp từ trang: Kickstarter Projects | Kaggle Trong tập dữ liệu này tác giả đã xử lý các dữ liệu bị thiếu, dữ liệu bị nhiễu và dữ liệu không nhất quán vì thế nhóm sẽ bỏ qua công đoạn xử lý lỗi dữ liệu
Thu gọn dữ liệu:
Vì tập dữ liệu quá lớn gồm 374,853 dòng và 11 cột, vì vậy để có thể sử dụng Orange để phân tích dữ liệu một cách hiệu quả, nhóm đã thu gọn dữ liệu còn lại 30,000 dòng bằng công cụ Data Sampler của Orange và lưu lại dữ liệu được giảm vào file excel với tên “Sample Data.xlsx”
Quá trình thu gọn dữ liệu
Hình 1: Quá trình thu gọn dữ liệu
Sau khi có Sample Data, nhóm sử dụng chức năng Filter của excel để lọc ra các dự án
có state (Trạng thái) Successful (Thành công) và Failed (Thất bại) vì đây là những trạng thái
mà các nhà đầu tư cũng như nhóm quan tâm và muốn nghiên cứu (Không thể sử dụng Select
Trang 15Rows của phần mềm Orange được vì Select Rows chỉ cho phép lọc theo một điều kiện hoặc Thành công hoặc Thất bại)
Sau đó lưu lại dữ liệu vào file excel và đặt tên là “Preprocess Data.xlsx” Preprocess Data mới nhất
Xác định biến độc lập và phụ thuộc
• Biến phụ thuộc là “State”
• Biến độc lập là các biến còn lại
2.3 Thực nghiệm
2.3.1 Bài toán 1: Phát hiện các đặc điểm đặc thù liên quan đến sự thành công và thất bại của dự án dựa vào lược đồ và các công cụ thống kê
2.3.1.1 Mô tả bài toán:
● Mỗi hàng đại diện cho một dự án khác nhau thuộc nhiều loại khác nhau, mỗi cột là các thuộc tính tương ứng của các đối tượng
● Bài toán tìm ra các đặc điểm đặc thù, một số điểm khác biệt giữa các dự án quyết định
sự thành công và đạt được mục tiêu tài trợ Qua đó, thể hiện một cách trực quan các thuộc tính giữa dự án thành công và dự án thất bại
● Các thuộc tính được xem xét và đánh giá sự phân bổ bằng biểu đồ để xác định mức độ ảnh hưởng của thuộc tính đến kết quả “successful” hay “failed” của dự án
2.3.1.2 Các phương pháp thể hiện - đánh giá dữ liệu:
● Biểu đồ hộp (Box Plot): Hiển thị sự phân phối 1 thuộc tính Phương pháp này kiểm tra
bất kỳ dữ liệu mới nào để nhanh chóng phát hiện bất kỳ sự bất thường nào, chẳng hạn như các giá trị trùng lặp, ngoại lệ và tương tự Có thể biểu diễn nó ở dạng thanh cho các
giá trị dữ liệu phân loại hoặc phạm vi lượng tử cho dữ liệu số
● Biểu đồ phân phối (Distributions): Hiển thị phân phối của các thuộc tính rời rạc, hoặc
liên tục một cách trực quan nhất sự chênh lệch của các thuộc tính (đặc điểm dữ liệu) dựa trên số lần mỗi giá trị thuộc tính xuất hiện trong dữ liệu Nếu dữ liệu chứa một biến lớp, phân phối có thể được điều chỉnh trên lớp Biểu đồ cho biết số lần mỗi giá trị thuộc
tính xuất hiện trong dữ liệu
● Biểu đồ khảm (Mosaic Display): biểu diễn đồ họa của bảng tần suất hai chiều hoặc
bảng dự phòng, trực quan hóa dữ liệu từ hai hoặc nhiều biến định tính, nhận ra mối quan
hệ giữa các biến khác nhau một cách hiệu quả hơn
● Biểu đồ phân tán điểm (Scatter plot): trực quan hóa biểu đồ phân tán 2 chiều, dữ liệu
được hiển thị dưới dạng tập hợp các điểm, mỗi điểm có giá trị của thuộc tính trục x xác định vị trí trên trục hoành và giá trị của thuộc tính trục y xác định vị trí trên trục tung Các thuộc tính khác nhau của biểu đồ, chẳng hạn như màu sắc, kích thước và hình dạng của các điểm, tiêu đề trục, kích thước điểm tối đa và độ rung có thể được điều chỉnh ở
Trang 16phía bên trái của tiện ích thể hiện mối tương quan giữa 2 thuộc tính, đưa ra cái nhìn khái quát của mối liên hệ giữa 2 thuộc tính dữ liệu đó
2.3.1.3 Phân tích dữ liệu:
1 Category
Hình 2 : Số lượng dự án trong từng lĩnh vực
Ở đây nhóm sử dụng phương pháp Box Plot để thể hiện thứ tự giảm dần về số lượng
dự án của từng lĩnh vực Qua biểu đồ phân phối trên, ta thấy các lĩnh vực như Film & Video, Music, Publishing là các lĩnh vực có đa số các dự án tham gia (đạt trên 10% so với các lĩnh
vực còn lại) Do đó, đây là các lĩnh vực thu hút được nhiều nhà đầu tư nhất, hiện là những lĩnh vực nổi trội và là xu hướng trên nền tảng Kickstarter
Hình 3 : Số lượng dự án thành công và thất bại trong từng lĩnh vực
Trang 17Ở đây, nhóm tiếp tục sử dụng phương pháp Box Plot để biểu diễn về tỷ lệ thành công
cũng như thất bại của các dự án trong từng lĩnh vực Qua biểu đồ trên, có thể thấy tỉ lệ thành công và thất bại giữa các dự án có sự chênh lệch trong từng lĩnh vực Có thể thấy, các lĩnh vực
có nhiều dự án tham gia như Film & Video, Music, Publishing như đề cập ở Hình trên lại có
tỷ lệ thất bại khá cao so với các lĩnh vực còn lại Lĩnh vực Film & Video có tỷ lệ thất bại 57,7%, Music 45,85%, Publishing có tỷ lệ lên đến 65,3% Bởi lẽ các lĩnh vực này nhận được nhiều sự
quan tâm, thu hút nên sự cạnh tranh khốc liệt hơn, mức độ cạnh tranh nguồn vốn cao, nếu không đủ khả năng dự án rất dễ thất bại Bên cạnh đó, các nhà đầu tư nên cân nhắc khi quyết
định đầu tư vào các lĩnh vực như: Crafts, Fashion, Food, Journalism, Technology vì đây là các lĩnh vực có các dự án thất bại hơn 70% ( Craft: 76,26%, Fashion: 73,4%, Food: 73%, Journalism: 76,1%, Technology: 76,73%)
Ngược lại, các nhà đầu tư nên quan tâm đến các lĩnh vực có ít dự án tham gia hơn để giảm
bớt tính cạnh tranh Có thể chú ý đến các dự án có tỉ lệ thành công trên 50% như: Theater: 65,34%, Dance: 67,28%, Comic: 59,9% Có thể thấy, đây là hướng đầu tư an toàn cho các nhà
đầu tư
2 Launched
Hình 4: Tỷ lệ dự án thành công qua từng năm
Ở đây nhóm sử dụng phương pháp Distributions để xem xét tỷ lệ các dự án thành công
từ năm 2009 – 2018 Nhìn vào biểu đồ trên, ta thấy đều có sự thay giữa các dự án thành công
và thất bại
Tuy nhiên, trong những năm 2009 – 2015, số lượng các dự án tăng lên theo từng năm bởi lẽ do tỷ lệ dự án thành công cao hơn tỷ lệ của các dự án thất bại Nhưng, từ những 2015 về sau, số lượng dự án tham gia có xu hướng giảm dần bởi lẽ sự chênh lệch tỷ lệ giữa các dự án
Trang 18thành công và các dự án thất bại là khá lớn Trong năm 2016, tỷ lệ các dự án thành công là 31,42% trong khi đó tỷ lệ thất bại lên đến 68,58% ( cao hơn gấp 2 lần so với các dự án thành công) Các con số không biết nói dối đã cho thấy một sự khủng hoảng về khởi nghiệp
Có thể các nhà khởi nghiệp đang nuôi dưỡng các dự án, nghiên cứu thị trường để lựa chọn thời điểm thích hợp để có nhiều cơ hội và đạt nhiều thành công hơn
3 Goal & Backer
Hình 5: Tỷ lệ các dự án thành công dựa trên mối quan hệ Goals & Backers
Ở đây, nhóm sử dụng phương pháp Mosaic Display để tìm ra mối liên hệ giữa 2 yếu tố
Goals và Backers đến sự thành công hay thất bại của các dự án Khi nhìn vào biểu đồ Mosaic,
ta thấy rằng các dự án có mức goal cần đạt được càng cao thì dễ đạt được tỉ lệ thành công cao, các dự án này cần phải có nhiều nhà đầu tư tham gia vào Nhìn vào biểu đồ, những dự án có Goal lớn hơn 15006,5 đa số sẽ thất bại gần như là 100% nếu số nhà đầu tư ít hơn 2.5 người Tuy nhiên, nếu số nhà đầu tư nhiều hơn 66.5 người thì tỉ lệ thành công tăng lên khá cao Những
dự án có mức Goal thấp hơn 1999,5 thì khi số nhà đầu tư thì khi có từ 15,5 đến 65,5 người đầu
tư vào thì tỷ lệ thành công của các dự án này là khá cao
Đúc kết lại, một dự án có mức Goal thấp thì nó sẽ dễ thành công hơn các dự án có mức goal cao nếu có các dự án có cùng số nhà đầu tư Ngược lại, khi một lại dự án có nhà đầu tư