Bằng cách phân tích bộ dữ liệu này, có thể hiểu rõ hơn về đặc điểm của các dự án Kickstarter thành công và không thành công, chẳng hạn như mục tiêu tài trợ, danh mục dự án và nguồn tài t
Trang 1ĐẠI HỌC UEH
BÁO CÁO CUỐI KỲ
để đưa ra hướng đi tốt nhất cho các nhà đầu
3 Huỳnh Hoàng Trâm
4 Nguyễn Tích Duy Tuyến
5 Hồ Thị Yến Vy (Nhóm trưởng)
Hồ Chí Minh, ngày 05 tháng 05 năm 2023
Trang 2LỜI CẢM ƠN
Nhóm em xin gửi lời cảm ơn chân thành và sâu sắc đến thầy Đặng Ngọc Hoàng Thành - Giảng viên bộ môn Khoa học dữ liệu của trường Đại học Kinh Tế TP HCM Trong quá trình tìm hiểu và học tập, nhóm em đã nhận được sự giảng dạy và hướng dẫn rất tận tình, tâm huyết của thầy Thầy đã giúp nhóm em tích lũy thêm nhiều kiến thức hay và bổ ích
Trong quá trình thực hiện tiểu luận, do chưa có nhiều kinh nghiệm làm đề tài cũng như những hạn chế về mặt kiến thức chuyên môn nên bài báo cáo không thể tránh khỏi những thiếu sót Nhóm em rất mong nhận được ý kiến đóng góp của thầy để bài dự án của nhóm em được hoàn thiện hơn
Cuối cùng, Nhóm kính chúc thầy thật nhiều sức khỏe, hạnh phúc và gặt hái nhiều thành công trên con đường giảng dạy của thầy
Nhóm 04 xin chân thành cảm ơn!
Trang 3NHẬN XÉT CỦA GIẢNG VIÊN
………
………
………
………
………
………
………
………
………
………
………
………
BẢNG ĐÁNH GIÁ MỨC ĐỘ THAM GIA
Trần Thị Thùy Dương 31211025065 100%
Tạ Thị Khánh Hòa 31211026368 100%
Huỳnh Hoàng Trâm 31211027345 100%
Nguyễn Tích Duy Tuyến 31211025841 100%
Hồ Thị Yến Vy (Nhóm trưởng) 31211026127 100%
Trang 4MỤC LỤC
DANH MỤC HÌNH 5
DANH MỤC BẢNG 6
LỜI CẢM ƠN 2
CÁC BÀI TOÁN LIÊN QUAN 7
Bài toán 1: 7
Bài toán 2: 7
Bài toán 3: 7
CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 8
1.1 Lý do chọn đề tài 8
1.1.1 Kickstarter là gì? 8
1.1.2 Lý do cụ thể 8
1.2 Mục tiêu nghiên cứu 8
1.3 Đối tượng và phạm vi nghiên cứu 8
1.3.1 Đối tượng nghiên cứu 8
1.3.2 Phạm vi nghiên cứu 8
1.4 Mô tả dữ liệu và cấu trúc dữ liệu 9
CHƯƠNG 2: LÝ THUYẾT TỔNG QUAN 10
2.1 Phân lớp dữ liệu 10
2.2 Phân cụm dữ liệu 13
CHƯƠNG 3: QUY TRÌNH THỰC HIỆN & KẾT QUẢ 16
3.1 Tìm hiểu về dữ liệu 16
3.1.1 Phân tích cách sử dụng tập dữ liệu 16
3.1.2 Tiền xử lý dữ liệu 16
3.2 Thực nghiệm 17
3.2.1 Bài toán 1: Phát hiện các đặc điểm đặc thù liên quan đến sự thành công và thất bại của dự án dựa vào lược đồ và các công cụ thống kê 17
3.2.2 Bài toán 2: Dự đoán rủi ro thành công của các dự án khởi nghiệp (Bài toán phân lớp) 23
3.2.3 Bài toán 3: Phân loại các nhóm dự án theo khoảng thời gian bắt đầu dự án (Bài toán phân cụm) 28
CHƯƠNG 4 KẾT LUẬN 36
TÀI LIỆU THAM KHẢO 38
Trang 5DANH MỤC HÌNH
Hình 1: Giới thiệu về phân lớp dữ liệu 10
Hình 2: Quá trình phân lớp dữ liệu 11
Hình 3: Mô hình quá trình phân cụm dữ liệu 13
Hình 4: Quá trình thu gọn dữ liệu 17
Hình 5: Số lượng dự án trong từng lĩnh vực 18
Hình 6: Số lượng dự án thành công và thất bại trong từng lĩnh vực 19
Hình 7: Tỷ lệ dự án thành công qua từng năm 20
Hình 8: Tỷ lệ các dự án thành công dựa trên mối quan hệ Goals & Backers 20
Hình 9: Số lượng dự án khởi nghiệp ở các quốc gia 21
Hình 10: Tỷ lệ các dự án thành công ở các quốc gia 22
Hình 11: Tỷ lệ dự án thành công theo số vốn cần thiết 22
Hình 12: Chia tách dữ liệu 23
Hình 13: Mô hình phân lớp 24
Hình 14: Kết quả Test and Score 24
Hình 15: Kết quả Tree 25
Hình 16: Kết quả SVM 25
Hình 17: Kết quả Logistic Regression 26
Hình 18: Kết quả dự báo bằng Prediction 27
Hình 19: Kết quả dự báo từ Prediction sang Data Table (2) 27
Hình 20: Kết quả dự báo bằng Excel 28
Hình 21: Quá trình lọc dữ liệu 29
Hình 23: Kết quả K-means và biểu đồ Silhouette Plot 30
Hình 24: Hai chỉ số Silhouette Scores cao nhất của 2 cụm 30
Hình 25: Biểu đồ Scatter Plot bài toán phân cụm 31
Hình 26: Biểu đồ thể hiện dự án thành công và thất bại của 2 cụm 31
Hình 27: Biểu đồ thể hiện số dự án từng ngành của 2 cụm 32
Hình 28: Biểu đồ thể hiện số dự án từng nước của 2 cụm 33
Hình 29: Phân bố cụm theo số nhà đầu tư 33
Hình 30: Phân bố cụm theo số vốn đầu tư 34
Hình 31: Phân bố cụm theo số vốn mục tiêu 34
Trang 6DANH MỤC BẢNG
Bảng 1: Mô tả bộ dữ liệu Kickstarter Projects 9 Bảng 2: Kết quả từ mô hình Confusion Matrix 26 Bảng 3: Kết quả K-means phân cụm 30
Trang 7CÁC BÀI TOÁN LIÊN QUAN Bài toán 1:
Phát hiện các đặc điểm đặc thù thành công của dự án Ở bài toán này nhóm đã phân tích các đặc tính liên quan đến thành công và thất bại của các dự án, từ đó đưa ra những đề xuất cho nhà đầu tư tham khảo Việc các nhà đầu tư hiểu và phân tích được các đặc tính nổi bật từ các thị trường đầu tư là rất quan trọng và cần thiết để thấu hiểu vào lĩnh vực mà mình đầu tư từ đó có một sự đầu tư hiệu quả
Bài toán 2:
Dự đoán thành công của các dự án khởi nghiệp (bài toán phân lớp dữ liệu) Bài toán này là bài toán quan trọng nhất của đề tài nghiên cứu, nó cho ra một sự dự báo thành công và thất bại dựa trên các yếu tố ảnh hưởng đến sự thành công và thất bại của dự
án Sau khi sử dụng 3 phương pháp SVM, Tree và hồi quy Logistic trong phần mềm Orange để thực hiện phân lớp, nhóm đã chọn hồi quy Logistics để dự báo và phân tích các yếu tố ảnh hưởng đến sự thành công của dự án Việc xây dựng đúng mô hình dữ báo rất quan trọng với các nhà đầu tư để hỗ trợ trong việc nghiên cứu các
dự án và các thị trường đầu tư để có thể thấy được các yếu tố tác động đến vấn đề nghiên cứu và từ đó đưa ra hướng giải quyết hợp lý
Bài toán 3:
Phân loại các nhóm dự án theo khoảng thời gian bắt đầu dự án (Bài toán phân cụm) Bài toán gom nhóm các dự án vào thành từng cụm sao cho các dự án trong cùng một cụm có sự tương đồng về khoảng thời gian bắt đầu Nhóm đã sử dụng hai phương pháp là Clustering và K-Means phân cụm các dự án thành 2 khoảng, từ đó dựa vào đặc điểm của từng khoảng thời gian để thấy được xu hướng phát triển của các dự án trên nền tảng Kickstarters Các nhà đầu tư cũng rất đề cao việc thấu hiểu được xu hướng của thị trường, để có thể lập một kế hoạch đầu tư tốt và chuẩn bị hiệu quả cho những xu hướng biến động trong tương lai
Trang 8CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 1.1 Lý do chọn đề tài
1.1.1 Kickstarter là gì?
Kickstarter là 1 nền tảng phổ biến cho phép nhà kinh doanh hoặc nhà sáng tạo huy động vốn thông qua việc trình bày dự án của mình trên phạm vi là toàn cầu (crowdfunding) Người dùng sẽ tìm thấy ở Kickstarter những dự án phù hợp và góp vốn cho dự án đó
Đây là một sản phẩm thuộc lĩnh vực Fintech (công nghệ tài chính) với lượng người dùng đa dạng ở các quốc gia, độ tuổi và lĩnh vực dự án trải dài từ: thời trang, phim ảnh cho đến công nghệ
Từ đó, đưa ra giải pháp, lời khuyên cho người dùng một cách thực tế và hiệu quả cho quyết định đầu tư
1.2 Mục tiêu nghiên cứu
Trong tập dữ liệu này, thu thập thông tin về một số lượng lớn các dự án Kickstarter
và liệu cuối cùng chúng có thành công hay không đạt được mục tiêu tài trợ hay không Dữ liệu này thể đóng vai trò là nguồn tài nguyên quý giá cho bất kỳ ai quan tâm đến việc hiểu động lực huy động vốn từ cộng đồng và các yếu tố góp phần vào
sự thành công hay thất bại của dự án Bằng cách phân tích bộ dữ liệu này, có thể hiểu rõ hơn về đặc điểm của các dự án Kickstarter thành công và không thành công, chẳng hạn như mục tiêu tài trợ, danh mục dự án và nguồn tài trợ Thông tin này có thể được sử dụng để thông báo các quyết định đầu tư và hướng dẫn các chiến dịch gây quỹ cộng đồng trong tương lai
1.3 Đối tượng và phạm vi nghiên cứu
1.3.1 Đối tượng nghiên cứu
Nghiên cứu các dự án trên nền tảng Kickstarter, từ đó đưa ra các hướng đi tốt nhất cho các nhà đầu tư
1.3.2 Phạm vi nghiên cứu
Thông tin về một số lượng lớn các dự án Kickstarter, bao gồm khởi nghiệp công nghệ, nỗ lực nghệ thuật sáng tạo và sáng kiến tác động xã hội, cùng nhiều loại khác Phạm vi dữ liệu từ năm 2009 đến 2018
Trang 91.4 Mô tả dữ liệu
ID Mã định danh dự án 1 chuỗi ký tự số Name Tên dự án 1 chuỗi ký tự chữ
Category Thể loại của sản phẩm
Giờ, ngày, tháng, năm
Deadline Hạn hoàn tất dự án Ngày tháng năm
Goal Số vốn cần thiết để dự
án thành công chưa quy đổi thành USD
Số tự nhiên
Pledged Số vốn được đầu tư vào
dự án chưa quy đổi thành USD
Số thập phân
State Tình trạng Successful = Thành công
Failed = Thất Bại Cancelled = Bị hủy Live = Đang gọi vốn Suspended = Bị hoãn Undefined = Không xác
định
Backers Nhà đầu tư Số tự nhiên
Bảng 1: Mô tả bộ dữ liệu Kickstarter Projects
Trang 10CHƯƠNG 2: LÝ THUYẾT TỔNG QUAN 2.1 Phân lớp dữ liệu
Phương pháp phân lớp (classification) là quá trình phân một đối tượng dữ liệu vào
một hay nhiều lớp (loại) đã cho trước nhờ một mô hình phân lớp Mô hình này
được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (thuộc về lớp nào)
Hình 1: Giới thiệu về phân lớp dữ liệu
Quá trình phân lớp dữ liệu sẽ bao gồm nhiều phương pháp phân lớp, nhưng ở bài báo cáo này sử dụng các phương pháp sau:
Logistic Regression: Là một mô hình xác suất dự đoán giá trị đầu ra rời rạc
từ một tập các giá trị đầu vào (biểu diễn dưới dạng vector)
Decision tree: Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết
định cùng các kết quả khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô
tả, phân loại và tổng quát hóa tập dữ liệu cho trước
SVM (Support Vector Machine): là một thuật toán có giám sát, SVM nhận
dữ liệu vào, xem chúng như những các vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau
Trang 11Hình 2: Quá trình phân lớp dữ liệu
Cụ thể từng phương pháp như sau:
a) Thuật toán cây quyết định
Khái niệm: Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng
các kết quả khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định
Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật Các thuộc tính của đối tượng có thể thuộc các kiểu dữ liệu khác nhau như Nhị phân (Binary), Định danh (Nominal), Thứ
Tự (Ordinal), Số lượng (Quantitative) trong khi đó thuộc tính phân lớp phải có kiểu
dữ liệu là Binary hoặc Ordinal Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước
Quy trình:
1 Chọn thuộc tính tốt nhất bằng cách sử dụng các biện pháp lựa chọn thuộc tính (ASM) để phân chia
2 Biến nó thành một nút quyết định và chia tập dữ liệu thành các tập nhỏ hơn
3 Bắt đầu tạo cây bằng cách lặp lại quy trình này một cách tuần tự cho đến khi một trong các điều kiện phù hợp:
Tất cả các bộ giá trị có thể được phân loại thành cùng một giá trị thuộc tính
Không còn thuộc tính nào còn lại
Không có trường hợp nào nữa
Ưu điểm:
Dễ hiểu
Không đòi hỏi việc chuẩn hóa dữ liệu
Có thể xử lý trên nhiều kiểu dữ liệu khác nhau
Xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn
Khuyết điểm:
Khó giải quyết trong tình huống dữ liệu phụ thuộc thời gian
Trang 12 Chi phí xây dựng mô hình cao
b) Thuật toán SVM
Khái niệm: SVM là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem
chúng như những các vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu
Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể
SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau
Tiết kiệm bộ nhớ (do quá trình test chỉ cần so điểm dữ liệu mới với mặt siêu
phẳng tìm được mà không cần tính toán lại
Linh hoạt: vừa có thể phân lớp tuyến tính và phi tuyến ( sử dụng các Kernel khác nhau)
Xử lý được trong không gian nhiều chiều
Nhược điểm
Trong trường hợp số chiều dữ liệu lớn hơn số dòng dữ liệu thì SVM cho kết quả không tốt
Chưa thể hiện tính xác suất trong phân lớp
c) Thuật toán Logistic Regression
Khái niệm: Hồi quy logistic là một kỹ thuật phân tích dữ liệu sử dụng toán học để
tìm ra mối quan hệ giữa hai yếu tố dữ liệu Sau đó, kỹ thuật này sử dụng mối quan
hệ đã tìm được để dự đoán giá trị của những yếu tố đó dựa trên yếu tố còn lại Dự đoán thường cho ra một số kết quả hữu hạn, như có hoặc không
3 Tìm bộ hệ số(trọng số): w0, w1, w2 , để phù hợp với ước lượng (vì bộ hệ số này
sẽ được điều chỉnh và tính toán trong giai đoạn huấn luyện)
Trang 13Ưu điểm
Hồi quy logistic dễ thực hiện hơn nhiều so với các phương pháp khác
Hồi quy logistic hoạt động tốt đối với các trường hợp tập dữ liệu có thể phân tách tuyến tính
Nhược điểm
Hồi quy logistic không dự đoán được kết quả liên tục
Hồi quy logistic có thể không chính xác nếu kích thước mẫu quá nhỏ
2.2 Phân cụm dữ liệu
Clustering là phương pháp phân tích dữ liệu, gom cụm dữ liệu là quá trình mà trong
đó tập dữ liệu được phân tích sẽ được phân tách thành nhiều cụm/nhóm khác nhau, trong mỗi cụm được phân tách ra sẽ có các điểm dữ liệu có sự tương đồng với nhau Các cụm được phân ra sẽ có sự tương đồng giữa những phần tử có cùng cụm và
khác biệt với những phần tử của những cụm khác
Clustering là phương pháp phân loại không giám sát (Unsupervised classification) đây là một phương pháp của cách học không giám sát (Unsupervised learning) - phương pháp xây dựng các model phân tích - dựa trên tập dữ liệu "không có nhãn", các điểm dữ liệu chưa được phân loại - mục đích tìm hiểu và trích xuất được những thông tin giá trị về đặc điểm, tính chất của những quan sát bên trong
Clustering không cố gắng phân loại, ước lượng hay dự báo giá trị của biến mục tiêu
Hình 3: Mô hình quá trình phân cụm dữ liệu
2.2.1 Phương pháp phân cụm Hierarchical Clustering (phân cụm phân cấp): Agnes, Diana
Quá trình này lặp lại cho đến khi tất cả các phần tử cùng thuộc một cụm lớn
Kết quả quá trình phát là một dendrogram (cây phân cấp)
Là sơ đồ/cây biểu diễn sự phân rã các phần tử dữ liệu thành nhiều cấp độ lồng nhau
Diana
Theo chiến lược top down:
Trang 14 Không cần tham số đầu vào
Không quay lui được
Tốc độ chậm, không thích hợp trên dữ liệu lớn
Không xử lý được trên dữ liệu bị thiếu, nhạy cảm với nhiễu
Hạn chế trên dữ liệu có các cụm lớn và có hình dáng không lồi
2.2.2 Phương pháp phân cụm Partitioning Clustering (phân cụm phân
hoạch): K-means, Fuzzy C-means
K-means
Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch
Tư tưởng chính: Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian
d chiều (với d là số lượng thuộc tính của đối tượng)
Bước 1: Chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm
Bước 2: Phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất Nếu các điểm dữ liệu ở từng cụm vừa được phân chia không thay đổi so với kết quả của lần phân chia trước nó thì ta dừng thuật toán
Bước 3: Cập nhật lại trung tâm cho từng cụm bằng cách lấy trung bình cộng của tất các các điểm dữ liệu đã được gán vào cụm đó sau khi phân chia ở bước 2
Bước 4: Quay lại bước 2
Đánh giá thuật toán K-means
Cần biết trước số lượng cụm k
Nhạy cảm với nhiễu và ngoại biên (outliers)
Không phù hợp với phân bố dữ liệu dạng không lồi (non-convex)
Kết quả (nghiệm) bài toán phụ thuộc vào cách khởi tạo các trung tâm cụm ban đầu
Trang 15Fuzzy C - Means
Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch
Là biến thể của K-mean nên có cùng tư tưởng với K-means:
FCM được đề xuất bởi Bezdek năm 1974
FCM là phân cụm dữ liệu mờ tức là một đối tượng dữ liệu có thể được phân vào 1 hoặc nhiều nhóm
Có xét đến yếu tố quan hệ giữa các phần tử và các cụm trong ma trận trọng số biểu diễn bậc của các đối tượng trong cụm
Mỗi phần tử có một độ đo mức độ thành viên (xác suất là thành viên) đối với từng cụm
FCM phân N phần tử dữ liệu thành C cụm mờ (1<C<N) Mỗi cụm ci có 1 tâm cụm
zi tương ứng Cụm mờ của các đối tượng này được biểu diễn bởi một ma trận mờ μ
(kích thước N x C)
Bước 1: Khởi tạo ma trận độ đo thành viên
Bước 2: Tính toán lại tâm cụm
Bước 3: Tính độ sai khác giữa mỗi điểm dữ liệu với tâm cụm bằng khoảng cách Euclid
Với d là số thuộc tính của mỗi đối tượng dữ liệu (số chiều)
Bước 4: Cập nhật ma trận độ đo thành viên
Bước 5: Nếu các trung tâm cụm không đổi thì dừng, ngược lại thì quay lại bước 2
Đánh giá thuật toán FCM
Là thuật toán gom cụm mềm, khắc phục được vấn đề các cụm chồng lên nhau trong dữ liệu có kích thước lớn, nhiều chiều
Phụ thuộc vào tham số khởi tạo: tham số mờ m; ma trận độ đo mức độ thành viên
Trang 16 Vẫn có thể gặp vấn đề cực trị địa phương
Nhạy cảm với nhiễu và ngoại biên
Bài báo cáo sử dụng phương pháp K-Means:
Có tham số đầu vào của thuật toán là số cụm k và tham số đầu ra của thuật toán là các trọng tâm của các cụm dữ liệu Áp dụng cho dữ liệu và xuất ra một tập dữ liệu mới trong đó chỉ mục cụm được sử dụng làm thuộc tính lớp Thuộc tính lớp gốc, nếu nó tồn tại, được chuyển sang thuộc tính meta
Tư tưởng chính của K-Means là tìm cách phân nhóm các đối tượng đã cho vào k cụm sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm cụm là nhỏ nhất
CHƯƠNG 3: QUY TRÌNH THỰC HIỆN & KẾT QUẢ 3.1 Tìm hiểu về dữ liệu
3.1.1 Phân tích cách sử dụng tập dữ liệu
Dữ liệu có những điểm cần hiểu như sau:
Mỗi hàng đại diện cho 1 dự án trên nền tảng Kickstarters và mỗi cột là một
thuộc tính của dự án
Dữ liệu thô chưa được xử lý gồm 374,853 dự án và 11 cột đặc trưng
Trong cột dữ liệu state (trạng thái của dự án) có 5 trạng thái là: Successful (Thành công), Failed (Thất bại), Cancelled (Bị hủy), Live (Đang gọi vốn), Suspended (Bị hoãn)
Nhìn tổng thể, khi dự án đạt đủ mức vốn cần thiết trước thời hạn deadline thì dự án
sẽ đạt được trạng thái Successful (Thành công) Điều này có thể được xác định trong tập dữ liệu khi mức vốn từ cột Pledged vượt qua mức vốn cần đạt tại cột Goal trước khoảng thời gian tại cột deadline Nếu không thỏa được điều kiện đã nêu trên trước deadline thì dự án sẽ có trạng thái Failed (Thất bại)
Vì tập dữ liệu quá lớn gồm 374,853 dòng và 11 cột, vì vậy để có thể sử dụng Orange
để phân tích dữ liệu một cách hiệu quả, nhóm đã thu gọn dữ liệu còn lại 30,000 dòng bằng công cụ Data Sampler của Orange và lưu lại dữ liệu được giảm vào file excel với tên “Sample Data.xlsx”
Trang 17Hình 4: Quá trình thu gọn dữ liệu
Sau khi có Sample Data, nhóm sử dụng chức năng Filter của excel để lọc ra các dự
án có state (Trạng thái) Successful (Thành công) và Failed (Thất bại) vì đây là những trạng thái mà các nhà đầu tư cũng như nhóm quan tâm và muốn nghiên cứu (Không thể sử dụng Select Rows của phần mềm Orange được vì Select Rows chỉ cho phép lọc theo một điều kiện hoặc Thành công hoặc Thất bại)
Sau đó lưu lại dữ liệu vào file excel và đặt tên là “Preprocess Data.xlsx”
Xác định biến độc lập và phụ thuộc:
Biến phụ thuộc là “State”
Biến độc lập là các biến còn lại
3.2 Thực nghiệm
3.2.1 Bài toán 1: Phát hiện các đặc điểm đặc thù liên quan đến sự thành công
và thất bại của dự án dựa vào lược đồ và các công cụ thống kê
3.2.1.1 Mô tả bài toán:
Mỗi hàng đại diện cho một dự án khác nhau thuộc nhiều loại khác nhau, mỗi cột là các thuộc tính tương ứng của các đối tượng
Bài toán tìm ra các đặc điểm đặc thù, một số điểm khác biệt giữa các dự án quyết định sự thành công và đạt được mục tiêu tài trợ Qua đó, thể hiện một cách trực quan các thuộc tính giữa dự án thành công và dự án thất bại
Các thuộc tính được xem xét và đánh giá sự phân bổ bằng biểu đồ để xác định mức độ ảnh hưởng của thuộc tính đến kết quả “successful” hay “failed” của dự án
Trang 183.2.1.2 Các phương pháp thể hiện - đánh giá dữ liệu:
Biểu đồ hộp (Box Plot): Hiển thị sự phân phối 1 thuộc tính Phương pháp này kiểm
tra bất kỳ dữ liệu mới nào để nhanh chóng phát hiện bất kỳ sự bất thường nào, chẳng hạn như các giá trị trùng lặp, ngoại lệ và tương tự Có thể biểu diễn nó ở dạng thanh
cho các giá trị dữ liệu phân loại hoặc phạm vi lượng tử cho dữ liệu số
Biểu đồ phân phối (Distributions): Hiển thị phân phối của các thuộc tính rời rạc,
hoặc liên tục một cách trực quan nhất sự chênh lệch của các thuộc tính (đặc điểm
dữ liệu) dựa trên số lần mỗi giá trị thuộc tính xuất hiện trong dữ liệu Nếu dữ liệu chứa một biến lớp, phân phối có thể được điều chỉnh trên lớp Biểu đồ cho biết số
lần mỗi giá trị thuộc tính xuất hiện trong dữ liệu
Biểu đồ khảm (Mosaic Display): biểu diễn đồ họa của bảng tần suất hai chiều hoặc
bảng dự phòng, trực quan hóa dữ liệu từ hai hoặc nhiều biến định tính, nhận ra mối quan hệ giữa các biến khác nhau một cách hiệu quả hơn
Biểu đồ phân tán điểm (Scatter plot): trực quan hóa biểu đồ phân tán 2 chiều, dữ
liệu được hiển thị dưới dạng tập hợp các điểm, mỗi điểm có giá trị của thuộc tính trục x xác định vị trí trên trục hoành và giá trị của thuộc tính trục y xác định vị trí trên trục tung Các thuộc tính khác nhau của biểu đồ, chẳng hạn như màu sắc, kích thước và hình dạng của các điểm, tiêu đề trục, kích thước điểm tối đa và độ rung có thể được điều chỉnh ở phía bên trái của tiện ích thể hiện mối tương quan giữa 2 thuộc tính, đưa ra cái nhìn khái quát của mối liên hệ giữa 2 thuộc tính dữ liệu đó
3.2.1.3 Phân tích dữ liệu:
a) Category
Hình 5: Số lượng dự án trong từng lĩnh vực
Ở đây nhóm sử dụng phương pháp Box Plot để thể hiện thứ tự giảm dần về số lượng
dự án của từng lĩnh vực Qua biểu đồ phân phối trên, ta thấy các lĩnh vực như Film
& Video, Music, Publishing là các lĩnh vực có đa số các dự án tham gia (đạt trên
10% so với các lĩnh vực còn lại) Do đó, đây là các lĩnh vực thu hút được nhiều nhà đầu tư nhất, hiện là những lĩnh vực nổi trội và là xu hướng trên nền tảng Kickstarter
Trang 19Hình 6: Số lượng dự án thành công và thất bại trong từng lĩnh vực
Ở đây, nhóm tiếp tục sử dụng phương pháp Box Plot để biểu diễn về tỷ lệ thành
công cũng như thất bại của các dự án trong từng lĩnh vực Qua biểu đồ trên, có thể thấy tỉ lệ thành công và thất bại giữa các dự án có sự chênh lệch trong từng lĩnh vực
Có thể thấy, các lĩnh vực có nhiều dự án tham gia như Film & Video, Music,
Publishing như đề cập ở Hình trên lại có tỷ lệ thất bại khá cao so với các lĩnh vực
còn lại Lĩnh vực Film & Video có tỷ lệ thất bại 57,7%, Music 45,85%, Publishing
có tỷ lệ lên đến 65,3% Bởi lẽ các lĩnh vực này nhận được nhiều sự quan tâm, thu hút nên sự cạnh tranh khốc liệt hơn, mức độ cạnh tranh nguồn vốn cao, nếu không
đủ khả năng dự án rất dễ thất bại Bên cạnh đó, các nhà đầu tư nên cân nhắc khi
quyết định đầu tư vào các lĩnh vực như: Crafts, Fashion, Food, Journalism,
Technology vì đây là các lĩnh vực có các dự án thất bại hơn 70% ( Craft: 76,26%, Fashion: 73,4%, Food: 73%, Journalism: 76,1%, Technology: 76,73%)
Ngược lại, các nhà đầu tư nên quan tâm đến các lĩnh vực có ít dự án tham gia hơn
để giảm bớt tính cạnh tranh Có thể chú ý đến các dự án có tỉ lệ thành công trên 50%
như: Theater: 65,34%, Dance: 67,28%, Comic: 59,9% Có thể thấy, đây là hướng
đầu tư an toàn cho các nhà đầu tư
b) Launched