LỜI MỞ ĐẦU Sự phát triển mạnh mẽ của cuộc cách mạng khoa học và công nghệ, đặc biệt là của công nghệ thông tin và truyền thông đã tác động sâu sắc đến sự phát triển kinh tế thế giới. Thế giới đang chuyển dần từ xã hội công nghiệp sang xã hội thông tin với nền kinh tế chi thức. Toàn cầu hóa kinh tế được xác định là một xu thế khách quan, tạo cơ hội cho phát triển. Khoa học và công nghệ (KH&CN) sẽ có bước nhảy vọt và những đột phá lớn, tác động nhều mặt đến tất cả các quốc gia Những năm gần đây, vai trò của các hệ thống thông tin trong doanh nghiệp đã ngày càng lớn mạnh. Từ chỗ chỉ được sử dụng để hỗ trợ một số hoạt động trong văn phòng, hệ thống thông tin đã trở nên có vai trò chiến lược trong doanh nghiệp. Đặc biệt những thành tựu trong công nghệ thông tin (CNTT) đã khiến doanh nghiệp ngày càng chú ý hơn tới việc áp dụng những nó để gia tăng thế cạnh tranh và tạo cơ hội cho mình. Thành tựu CNTT không chỉ giới hạn trong các doanh nghiệp lớn, tầm cỡ đa quốc gia mà còn lan rộng trong tất cả các doanh nghiệp, kể cả những doanh nghiệp vừa và nhỏ ở những nước đang phát triển. Tuy nhiên, việc ứng dụng thành tựu CNTT một ứng dụng thành công trong các lĩnh vực hiện nay cũng còn mới ở nước ta. Vì vậy, đồ án của nhóm đó là tìm hiểu về “Khoa học dữ liệu (Data science)” để có cái nhìn sâu hơn, thực tế hơn về việc ứng dụng hệ thống thông tin trong các lĩnh vực đời sống. Vì thời gian thực hiện không nhiều nên chắc chắn còn nhiều thiếu sót, mong được thầy cô chỉ dẫn thêm Chương 1./ Giới thiệu ngành Data Sciense 1./ Data Sciense là gì? Data science còn được biết đến với tên gọi là Khoa học dữ liệu. Đúng với tên gọi của nó, về mặt bản chất, đây chính là công việc thu thập và phân tích dữ liệu. Data science là một lĩnh vực liên ngành mà trong đó, những bộ dữ liệu được xử lý, sắp xếp và giải mã bằng các mô hình thống kê hay phương pháp toán học. Khoa học dữ liệu là lĩnh vực nghiên cứu dữ liệu nhằm khai thác những thông tin chuyên sâu có ý nghĩa đối với hoạt động kinh doanh. Đây là một phương thức tiếp cận đa ngành, kết hợp những nguyên tắc và phương pháp thực hành của các lĩnh vực toán học, thống kê, trí tuệ nhân tạo và kỹ thuật máy tính để phân tích khối lượng lớn dữ liệu. Nội dung phân tích này sẽ giúp các nhà khoa học dữ liệu đặt ra và trả lời những câu hỏi như sự kiện gì đã xảy ra, tại sao nó xảy ra, sự kiện gì sẽ xảy ra và có thể sử dụng kết quả thu được cho mục đích gì.
Trang 1TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH
KHOA CÔNG NGHỆ THÔNG TIN
ĐỒ ÁN CƠ SỞ
Tên đề tài: Tìm hiểu Khoa học dữ liệu (Data Science)
Giảng viên hướng dẫn: VƯƠNG XUÂN CHÍ
Sinh viên thực hiện: NGUYỄN MINH ĐĂNG
Trang 2TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH
KHOA CÔNG NGHỆ THÔNG TIN
ĐỒ ÁN CƠ SỞ
Tên đề tài: Tìm hiểu Khoa học dữ liệu (Data Science)
Giảng viên hướng dẫn: VƯƠNG XUÂN CHÍ
Sinh viên thực hiện: NGUYỄN MINH ĐĂNG
Trang 3
Trường Đại học Nguyễn Tất Thành
Khoa Công Nghệ Thông Tin
Họ và tên: Nguyễn Minh Đăng MSSV: 2011549718
Chuyên ngành: Khoa học Dữ Liệu Lớp:20DTH2A
Tên đề tài: Tìm hiểu Khoa học dữ liệu (Data science)
Giáo viên hướng dẫn: Vương Xuân Chí
Thời gian thực hiện: 20/06/2022 đến 20/09/2022
MÔ TẢ ĐỀ TÀI: Data Science được định nghĩa là tất cả những gì về thu thập, khai thác
và phân tích dữ liệu để tìm ra insight giá trị Sau đó trực quan hóa các Insight cho các bênliên quan, để chuyển hóa Insight thành hành động Đây là lĩnh vực đa ngành sử dụng cácphương pháp và quy trình khoa học để rút ra insight từ dữ liệu
NỘI DUNG VÀ PHƯƠNG PHÁP:
- Giới thiệu ngành Data science
- Phân tích dữ liệu, tạo Data và truy vấn SQL
- Áp dụng Machine learning vào ngành học
- Kiến thức rút ra rừ ngành Khoa học dữ liệu
YÊU CẦU:
- Có kiến thức, đam mê, hiểu biết về công nghệ mới như Mạng neural, MachineLearning, Deep Learning… Đọc hiểu tài liệu tiếng Anh, kỹ năng trình bày văn bản trênmáy tính tốt
- Có tác phong làm việc chăm chỉ, tinh thần trách nhiệm cao, có khả năng làm việc độclập hoặc làm việc trong nhóm tốt
Nội dung và yêu cầu đã được thông qua Bộ môn.
Trang 4LỜI MỞ ĐẦU
Sự phát triển mạnh mẽ của cuộc cách mạng khoa học và công nghệ, đặc biệt là của côngnghệ thông tin và truyền thông đã tác động sâu sắc đến sự phát triển kinh tế thế giới Thếgiới đang chuyển dần từ xã hội công nghiệp sang xã hội thông tin với nền kinh tế chithức Toàn cầu hóa kinh tế được xác định là một xu thế khách quan, tạo cơ hội cho pháttriển Khoa học và công nghệ (KH&CN) sẽ có bước nhảy vọt và những đột phá lớn, tácđộng nhều mặt đến tất cả các quốc gia
Những năm gần đây, vai trò của các hệ thống thông tin trong doanh nghiệp đã ngày cànglớn mạnh Từ chỗ chỉ được sử dụng để hỗ trợ một số hoạt động trong văn phòng, hệthống thông tin đã trở nên có vai trò chiến lược trong doanh nghiệp Đặc biệt nhữngthành tựu trong công nghệ thông tin (CNTT) đã khiến doanh nghiệp ngày càng chú ý hơntới việc áp dụng những nó để gia tăng thế cạnh tranh và tạo cơ hội cho mình Thành tựuCNTT không chỉ giới hạn trong các doanh nghiệp lớn, tầm cỡ đa quốc gia mà còn lanrộng trong tất cả các doanh nghiệp, kể cả những doanh nghiệp vừa và nhỏ ở những nướcđang phát triển Tuy nhiên, việc ứng dụng thành tựu CNTT một ứng dụng thành côngtrong các lĩnh vực hiện nay cũng còn mới ở nước ta Vì vậy, đồ án của nhóm đó là tìmhiểu về “Khoa học dữ liệu (Data science)” để có cái nhìn sâu hơn, thực tế hơn về việcứng dụng hệ thống thông tin trong các lĩnh vực đời sống Vì thời gian thực hiện khôngnhiều nên chắc chắn còn nhiều thiếu sót, mong được thầy cô chỉ dẫn thêm
ii
Trang 5LỜI CẢM ƠN
Em xin gửi lời cảm ơn chân thành đến thầy Vương Xuân Chí giảng viên khoa Công nghệthông tin trường Đại học Nguyễn Tất Thành đã trang bị giúp em những kỹ năng cơ bản
và kiến thức cần thiết để hoàn thành được đồ án cơ sở này
Tuy nhiên, trong quá trình làm đồ án cơ sở do kiến thức chuyên ngành của em còn hạnchế nên không thể tránh khỏi một vài thiếu sót khi trình bày và đánh giá vấn đề Rấtmong nhận được sự góp ý, đánh giá của các thầy cô bộ môn để đề tài của em thêm hoànthiện hơn
Em xin chân thành cảm ơn!
iii
Trang 6TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH
TRUNG TÂM KHẢO THÍ
KỲ THI KẾT THÚC HỌC PHẦN
HỌC KỲ … … NĂM HỌC …… - ….…
PHIẾU CHẤM THI TIỂU LUẬN/ĐỒ ÁN Môn thi:Đồ án cơ sở Khoa học Dữ Liệu Lớp học phần:20DTH2A Nhóm sinh viên thực hiện: 1 Nguyễn Tiến Thành
2 Nguyễn Minh Đăng
Ngày thi: 22/09/2022 Phòng thi: Đề tài tiểu luận/báo cáo của sinh viên : Tìm hiểu Khoa học Dữ Liệu (Data Science) Phần đánh giá của giảng viên (căn cứ trên thang rubrics của môn học): Tiêu chí (theo CĐR HP) Đánh giá của GV Điểm tối đa Điểm đạt được Cấu trúc của báo cáo
Nội dung - Các nội dung thành phần
- Lập luận
- Kết luận
Trình bày
TỔNG ĐIỂM
Giảng viên chấm thi
(ký, ghi rõ họ tên)
iv BM-ChT-11
Trang 7MỤC LỤC
LỜI MỞ ĐẦU ii
LỜI CẢM ƠN iii
Chương 1./ Giới thiệu ngành Data Sciense 1
1./ Data Sciense là gì? 1
2./ Tầm quan trọng của Data Sciense 1
2.1./ Tại sao khoa học dữ liệu lại quan trọng? 2
3./ Lợi ích của Data Science 3
3.1./ Khám phá các mẫu biến đổi tiềm ẩn 3
3.2./ Sáng tạo các sản phẩm và giải pháp mới 4
3.3./ Tối ưu hóa trong thời gian thực 4
4./ Ứng dụng của Khoa học Dữ Liệu 4
4.1./ Ứng dụng trong ngành ngân hàng 4
4.2./ Ứng dụng trong ngành tài chính 5
4.3./ Ứng dụng trong ngành sản xuất 5
4.4./ Ứng dụng trong ngành vận tải 5
4.5./ Ứng dụng trong ngành y tế – chăm sóc sức khỏe 5
5./ Lịch sử và tương lai của Khoa học Dữ Liệu 6
5.1./ Lịch sử lĩnh vực khoa học dữ liệu 6
5.2./ Tương lai của lĩnh vực khoa học dữ liệu 6
6./ Công dụng của Khoa học Dữ Liệu 7
6.1./ Phân tích mô tả 7
6.2./ Phân tích chẩn đoán 7
6.3./ Phân tích dự đoán 8
6.4./ Phân tích đề xuất 8
7./ Quy trình khoa học dữ liệu là gì? 8
7.1./ O – Thu thập dữ liệu (Obtain data) 9
7.2./ S – Làm sạch dữ liệu (Scrub data) 9
7.3./ E – Khám phá dữ liệu (Explore data) 9
7.4./ M – Mô hình hóa dữ liệu (Model data) 9
7.5./ N – Diễn giải kết quả (Interpret results) 9
8./ Các kỹ thuật khoa học dữ liệu là gì? 10
v
Trang 88.1./ Phân loại 10
8.2./ Hồi quy 10
8.3./ Phân nhóm 10
8.4./ Nguyên tắc cơ bản đằng sau các kỹ thuật khoa học dữ liệu 11
9./ Những công nghệ khoa học dữ liệu khác nhau là gì? 11
9.1./ Trí tuệ nhân tạo 11
9.2./ Điện toán đám mây 11
9.3./ Internet vạn vật 11
9.4./ Máy tính lượng tử 12
10./ Khoa học dữ liệu có gì khác biệt so với các lĩnh vực dữ liệu khác có liên quan? 12
10.1./ Điểm khác biệt giữa khoa học dữ liệu và phân tích dữ liệu là gì? 12
10.2./ Điểm khác biệt giữa khoa học dữ liệu và phân tích kinh doanh là gì? 13
10.3./ Điểm khác biệt giữa khoa học dữ liệu và kỹ thuật dữ liệu là gì? 13
10.4./ Điểm khác biệt giữa khoa học dữ liệu và máy học là gì? 14
10.5./ Điểm khác biệt giữa khoa học dữ liệu và thống kê là gì? 14
Chương 2./ Machine Learning trong ngành học 14
1./ Machine Learning là gì? 14
2./ Sự phát triển của Machine Learning 17
3./ Thế nào để có những hệ thống Machine Learning tốt? 18
4./ Những đối tượng sử dụng Machine Learning 19
4.1./ Các dịch vụ tài chính 19
4.2./ Chính phủ 20
4.3./ Chăm sóc sức khỏe 20
4.4./ Chăm sóc sức khỏe 20
4.5./ Dầu khí 20
4.6./ Vận tải 20
5./ Một số Methods Machine Learning 21
5.1/ Supervised Learning (SL) 21
5.2./ Unsupervised learning (UL) 21
6./ Tầm quan trọng của Machine Learning 22
7./ Quy trình làm việc của Machine Learning 23
vi
Trang 97.1./ Một Quy trình Quyết định (Decision Process) 24
7.2./ Một Hàm So lỗi (Error Function) 24
7.3./ Một Quy trình Tối ưu hóa Mô hình (Model Optimization Procress) 24
8./ Một số phương pháp Máy Học phổ biến 24
8.1./ Học có giám sát (Supervised learning) 25
8.2./ Học không giám sát (Unsupervised learning) 25
8.3./ Học bán giám sát (Semi-supervised learning) 25
8.4./ Học tăng cường (Reinforcement learning) 26
Chương 3./ Kết luận 26
1./ Môi trường nào cần tới Khoa học Dữ Liệu 26
2./ Kiến thức rút ra từ ngành Khoa học Dữ liệu 27
Tài liệu tham khảo 28
vii
Trang 10Chương 1./ Giới thiệu ngành Data Sciense
1./ Data Sciense là gì?
Data science còn được biết đến với tên gọi là Khoa học dữ liệu Đúng với tên gọi của nó,
về mặt bản chất, đây chính là công việc thu thập và phân tích dữ liệu Data science là mộtlĩnh vực liên ngành mà trong đó, những bộ dữ liệu được xử lý, sắp xếp và giải mã bằngcác mô hình thống kê hay phương pháp toán học
Khoa học dữ liệu là lĩnh vực nghiên cứu dữ liệu nhằm khai thác những thông tin chuyênsâu có ý nghĩa đối với hoạt động kinh doanh Đây là một phương thức tiếp cận đa ngành,kết hợp những nguyên tắc và phương pháp thực hành của các lĩnh vực toán học, thống kê,trí tuệ nhân tạo và kỹ thuật máy tính để phân tích khối lượng lớn dữ liệu Nội dung phântích này sẽ giúp các nhà khoa học dữ liệu đặt ra và trả lời những câu hỏi như sự kiện gì đãxảy ra, tại sao nó xảy ra, sự kiện gì sẽ xảy ra và có thể sử dụng kết quả thu được cho mụcđích gì
Hình 1.1 Data Science và các lĩnh vực liên quan
viii
Trang 112./ Tầm quan trọng của Data Sciense
Các công ty phụ thuộc vào nền tảng dữ liệu để cấu trúc, phát triển và cải tiến doanhnghiệp Các Data Scientist làm việc với các con số, phân tích một một khối lượng lớnData để xuất ra những Insight ý nghĩa Những insight này rất hữu ích khi phân tích công
ty và các hoạt động của công ty trên thị trường từ đó đưa ra các quyết định đúng đắn.Cũng như các ngành công nghiệp thương mại khác, ngành chăm sóc sức khỏe cũng ứngdụng Data Science Nơi mà công nghệ đang có nhu cầu rất lớn để nhận dạng các khối usiêu nhỏ ngay từ giai đoạn đầu
Thống kê chỉ ra số lượng vai trò của các Data Scientist đã tăng trưởng 650% kể từ năm
2012 Khoảng 11,5 triệu việc làm liên quan đến chức danh này sẽ được tạo ra đến năm
2026 (theo U.S Bureau of Labor Statistics) Bên cạnh đó công việc của các DataScientist được xếp hạng top các công việc nổi bật trên LinkedIn
Khoa học dữ liệu quan trọng bởi vì lĩnh vực này kết hợp các công cụ, phương pháp vàcông nghệ để rút ra ý nghĩa từ dữ liệu Các tổ chức hiện đại chìm ngập trong dữ liệu vàhiện có vô vàn thiết bị có thể tự động thu thập và lưu trữ dữ liệu Các hệ thống và cổngthanh toán trực tuyến đang dần thu thập nhiều dữ liệu hơn trong những lĩnh vực thươngmại điện tử, y tế, tài chính cũng như mọi khía cạnh khác của đời sống con người Chúng
ta có sẵn khối lượng đồ sộ dữ liệu dưới dạng văn bản, âm thanh, video và hình ảnh Đáng tiếc thay, dữ liệu thô chẳng có giá trị trừ khi chúng có thể được sử dụng để giảiquyết vấn đề Các nhà khoa học dữ liệu có thể chuyển đổi dữ liệu thô thành những đềxuất có ý nghĩa Họ có thể phát hiện và giải quyết các vấn đề mà doanh nghiệp còn khôngbiết là chúng tồn tại Các tổ chức có thể sử dụng những đề xuất này để khiến khách hànghài lòng hơn, tối ưu hóa chuỗi cung ứng hoặc cho ra mắt các sản phẩm mới
2.1./ Tại sao khoa học dữ liệu lại quan trọng?
Khoa học dữ liệu quan trọng bởi vì lĩnh vực này kết hợp các công cụ, phương pháp vàcông nghệ để rút ra ý nghĩa từ dữ liệu Các tổ chức hiện đại chìm ngập trong dữ liệu vàhiện có vô vàn thiết bị có thể tự động thu thập và lưu trữ dữ liệu Các hệ thống và cổngthanh toán trực tuyến đang dần thu thập nhiều dữ liệu hơn trong những lĩnh vực thương
ix
Trang 12mại điện tử, y tế, tài chính cũng như mọi khía cạnh khác của đời sống con người Chúng
ta có sẵn khối lượng đồ sộ dữ liệu dưới dạng văn bản, âm thanh, video và hình ảnh Đáng tiếc thay, dữ liệu thô chẳng có giá trị trừ khi chúng có thể được sử dụng để giảiquyết vấn đề Các nhà khoa học dữ liệu có thể chuyển đổi dữ liệu thô thành những đềxuất có ý nghĩa Họ có thể phát hiện và giải quyết các vấn đề mà doanh nghiệp còn khôngbiết là chúng tồn tại Các tổ chức có thể sử dụng những đề xuất này để khiến khách hànghài lòng hơn, tối ưu hóa chuỗi cung ứng hoặc cho ra mắt các sản phẩm mới
Hình 1.2 Tại sao Data Science lại quan trọng?
3./ Lợi ích của Data Science
Khoa học dữ liệu đang cách mạng hóa phương thức hoạt động của các công ty Nhiềudoanh nghiệp, bất kể quy mô, đều cần một chiến lược khoa học dữ liệu hiệu quả để thúcđẩy tăng trưởng và duy trì lợi thế cạnh tranh Một số lợi ích chính bao gồm:
3.1./ Khám phá các mẫu biến đổi tiềm ẩn
Khoa học dữ liệu cho phép các doanh nghiệp phát hiện ra những mẫu và mối quan hệ mới
có tiềm năng biến đổi toàn bộ tổ chức Nó có thể hé lộ những thay đổi với chi phí thấp
x
Trang 13trong việc quản lý nguồn lực để tạo ra tác động tối đa đến tỷ suất lợi nhuận Ví dụ: mộtcông ty thương mại điện tử sử dụng khoa học dữ liệu để phát hiện ra rằng có rất nhiềutruy vấn của khách hàng được tạo sau giờ làm việc Các cuộc điều tra cho thấy rằngkhách hàng có nhiều khả năng mua hàng hơn nếu họ được phản hồi nhanh chóng thay vìnhận được câu trả lời trong ngày làm việc tiếp theo Bằng cách triển khai dịch vụ kháchhàng 24/7, doanh thu của doanh nghiệp đã tăng thêm 30%.
3.2./ Sáng tạo các sản phẩm và giải pháp mới
Khoa học dữ liệu có thể hé lộ những lỗ hổng và vấn đề thường bị bỏ sót Thông tinchuyên sâu hơn về quyết định mua hàng, phản hồi của khách hàng và quy trình kinhdoanh có thể thúc đẩy sự đổi mới sáng tạo trong hoạt động nội bộ cũng như các giải phápbên ngoài Ví dụ: giải pháp thanh toán trực tuyến sử dụng khoa học dữ liệu để đối chiếu
và phân tích đánh giá của khách hàng về công ty trên mạng xã hội Phân tích cho thấyrằng khách hàng quên mật khẩu trong giai đoạn mua sắm cao điểm và không hài lòng với
hệ thống khôi phục mật khẩu hiện tại Công ty có thể sáng tạo ra một giải pháp tốt hơn vànhận thấy mức độ hài lòng của khách hàng tăng lên đáng kể
3.3./ Tối ưu hóa trong thời gian thực
Các doanh nghiệp, đặc biệt là những doanh nghiệp quy mô lớn, gặp rất nhiều thách thứctrong việc phản ứng với những điều kiện thay đổi trong thời gian thực Điều này có thểgây ra những tổn thất hoặc gián đoạn đáng kể trong hoạt động kinh doanh Khoa học dữliệu có thể hỗ trợ các công ty dự đoán thay đổi và phản ứng một cách tối ưu với nhữngtình huống khác nhau Ví dụ: một công ty vận chuyển bằng xe tải sử dụng khoa học dữliệu để giảm thời gian ngừng hoạt động khi xe bị hỏng hóc Họ xác định được các mẫutuyến đường và ca làm việc khiến xe hỏng nhanh hơn và thay đổi lịch trình vận chuyển
Họ cũng thiết lập một kho phụ tùng thay thế phổ biến cần thay thường xuyên để sửa chữa
xe tải nhanh chóng hơn
xi
Trang 144./ Ứng dụng của Khoa học Dữ Liệu
Data Science được coi là một trong những mảng có tính ảnh hưởng đến sự phát triển của các doanh nghiệp và có tính ứng dụng trong thực tế rất cao Dưới đây là 6 ứng dụng thực
tế nhất của Data Science
4.1./ Ứng dụng trong ngành ngân hàng
Đầu tiên phải nhắc đến chính là ngành ngân hàng, Data Science giúp cho các ngân hàngphân tích các dữ liệu trong Big Data của mình để tìm ra vòng đời giá trị khách hàng, phântích hành động của các nhóm khách hàng, phân tích chống gian lận, Chính những dữliệu sau khi được phân tích sẽ giúp các ngân hàng có kế hoạch phát triển, và có sức cạnhtranh với các đối thủ khác
4.2./ Ứng dụng trong ngành tài chính
Đối với ngành tài chính, ngành Data Science có vai trò quan trọng để giúp các công ty tựđộng hóa các công việc trong nghiệp vụ tài chính kế toán Hoặc dựa vào các thông tin cánhân của khách hàng để phân tích dự đoán nhu cầu của khách hàng trong tương lai, từ đóđưa ra những dịch vụ, sản phẩm phù hợp
4.3./ Ứng dụng trong ngành sản xuất
Đối với ngành sản xuất, Data Science sẽ giúp cho doanh nghiệp có thể tự động hóa quytrình sản xuất, từ đó cải thiện được khả năng sản xuất ra sản phẩm với chi phí thấp hơn,hiệu suất cao hơn đồng thời tăng doanh thu và lợi nhuận
4.4./ Ứng dụng trong ngành vận tải
Ứng dụng của Data Science trong ngành giao thông vận tải là bằng cách phân tích dữ liệu
từ bản đồ, đường phố, hành vi người lái, công ty sẽ tạo ra những công nghệ như xe tự lái,
tự động cảnh báo nguy hiểm,
Ngoài ra, nhiều công ty vận tải như Grab, Goviet, cũng đang sử dụng Data Science đểđiều chỉnh giá cả, nâng cao trải nghiệm khách hàng Những công cụ dự đoán qua số liệucực kỳ hiệu quả đã giúp họ nắm bắt thông tin về người truy cập, giá dịch vụ qua đồng hồ
đo và mật độ lưu thông trên đường
xii
Trang 154.5./ Ứng dụng trong ngành y tế – chăm sóc sức khỏe
Ứng dụng của Data Science trong ngành y tế – chăm sóc sức khỏe: nhờ sự phát triển củangành Data Science mà các nhà khoa học có thể phân loại được những bệnh bẩm sinh dogen quyết định, các phản ứng của cơ thể và gen đối với thuốc chữa bệnh
Cũng nhờ những dữ liệu phân tích được mà họ có thể điều chế ra những loại thuốc mớitrong thời gian ngắn, với tỉ lệ thành công cao Data Science cũng hỗ trợ phân tích vàchuẩn đoán các bệnh nhờ việc tổng hợp, phân tích dữ liệu của dấu hiệu bệnh
5./ Lịch sử và tương lai của Khoa học Dữ Liệu
5.1./ Lịch sử lĩnh vực khoa học dữ liệu
Tuy rằng thuật ngữ khoa học dữ liệu không có gì mới, ý nghĩa và hàm ý của thuật ngữnày đã thay đổi theo thời gian Thuật ngữ này lần đầu xuất hiện vào khoảng thập niên 60,trong vai trò là tên gọi khác của thống kê Đến cuối thập niên 90, các chuyên gia khoahọc máy tính đã chính thức hóa thuật ngữ này Một định nghĩa được đề xuất cho khoahọc dữ liệu mô tả lĩnh vực này như một ngành riêng biệt gồm 3 khía cạnh: thiết kế, thuthập và phân tích dữ liệu Vẫn phải mất thêm một thập niên nữa thì thuật ngữ này mớiđược sử dụng ngoài giới học thuật
5.2./ Tương lai của lĩnh vực khoa học dữ liệu
Những đột phá về trí tuệ nhân tạo và máy học đã giúp hoạt động xử lý dữ liệu nhanh vàhiệu quả hơn Nhu cầu trong ngành đã tạo ra một hệ sinh thái các khóa học, bằng cấp và
vị trí việc làm trong lĩnh vực khoa học dữ liệu Do đòi hỏi trình độ chuyên môn và bộ kỹnăng đa ngành nghề, lĩnh vực khoa học dữ liệu cho thấy sự phát triển mạnh mẽ được dựkiến trong những thập niên tới
xiii
Trang 16Hình 1.3 Khoa học dữ liệu (kỷ nguyên số của tương lai)
6./ Công dụng của Khoa học Dữ Liệu
Khoa học dữ liệu được sử dụng để nghiên cứu dữ liệu theo 4 phương pháp chính:
6.1./ Phân tích mô tả
Phân tích mô tả xem xét dữ liệu để thu thập thông tin chuyên sâu về những sự kiện đãhoặc đang xảy ra trong môi trường dữ liệu Đặc trưng của phương pháp này là sự trựcquan hóa dữ liệu, chẳng hạn như bằng biểu đồ tròn, biểu đồ cột, biểu đồ đường, bảnghoặc văn bản thuyết minh Ví dụ: một dịch vụ đặt vé máy bay có thể ghi lại dữ liệu như
số lượng vé được đặt mỗi ngày Phân tích mô tả sẽ chỉ ra mức tăng giảm đột biến trong sốlượng vé được đặt và các tháng hoạt động hiệu quả cao của dịch vụ này
Trang 17vận hành và chuyển đổi dữ liệu có thể được thực hiện trên một tập dữ liệu nhất định đểphát hiện ra những mẫu độc đáo trong từng kỹ thuật này Ví dụ: dịch vụ đặt vé máy bay
có thể sẽ truy sâu vào một tháng hoạt động đặc biệt hiệu quả để hiểu rõ hơn về mức tăngđột biến trong số lượng vé được đặt Điều này có thể dẫn tới việc phát hiện ra rằng nhiềukhách hàng ghé thăm một thành phố nhất định để tham dự một sự kiện thể thao hàngtháng
6.3./ Phân tích dự đoán
Phân tích dự đoán sử dụng dữ liệu lịch sử để đưa ra các dự báo chính xác về mẫu dữ liệu
có thể xảy ra trong tương lai Đặc trưng của phương pháp này là các kỹ thuật như máyhọc, dự báo, so khớp mẫu và lập mô hình dự đoán Trong mỗi kỹ thuật, máy tính đượcđào tạo để thiết kế ngược các mối quan hệ nguyên nhân-kết quả trong dữ liệu Ví dụ: độingũ dịch vụ đặt vé máy bay có thể sử dụng khoa học dữ liệu để dự đoán mẫu đặt vé trongnăm tới vào thời điểm đầu mỗi năm Chương trình hoặc thuật toán máy tính có thể xemxét dữ liệu trong quá khứ và dự đoán mức tăng đột biến trong số lượng vé được đặt chocác điểm đến nhất định trong tháng 5 Khi đã dự đoán được nhu cầu du lịch trong tươnglai của khách hàng, công ty sẽ có thể bắt đầu quảng cáo nhắm mục tiêu cho các thành phố
đó từ tháng 2
6.4./ Phân tích đề xuất
Phân tích đề xuất đưa dữ liệu dự đoán lên một tầm cao mới Phương pháp này không chỉ
dự đoán sự kiện gì sẽ xảy ra mà còn đề xuất một phản ứng tối ưu cho kết quả đó Nó cóthể phân tích tác động tiềm ẩn của các lựa chọn khác nhau và đề xuất hướng hành độngtốt nhất Nó sử dụng phân tích đồ thị, mô phỏng, xử lý sự kiện phức tạp, mạng nơ-ron vàcông cụ đề xuất từ máy học
Quay lại ví dụ về dịch vụ đặt vé máy bay, phân tích đề xuất có thể xem xét các chiến dịchtiếp thị trước đây để tăng tối đa lợi thế của mức tăng đột biến sắp tới trong số lượng véđược đặt Nhà khoa học dữ liệu có thể dự đoán kết quả đặt vé cho các mức chi tiêu tiếpthị khác nhau trên những kênh tiếp thị đa dạng Những dự báo này sẽ giúp công ty đặt vémáy bay tự tin hơn khi đưa ra các quyết định tiếp thị
xv
Trang 187./ Quy trình khoa học dữ liệu là gì?
Quy trình khoa học dữ liệu thường được bắt đầu bởi một vấn đề kinh doanh Nhà khoahọc dữ liệu sẽ làm việc với các bên liên quan để tìm hiểu nhu cầu của doanh nghiệp Mộtkhi vấn đề đã được xác định, nhà khoa học dữ liệu sẽ giải quyết nó bằng cách sử dụngquy trình khoa học dữ liệu OSEMN:
7.1./ O – Thu thập dữ liệu (Obtain data)
Dữ liệu có thể tồn tại từ trước, mới được thu thập hoặc là một kho dữ liệu có thể tảixuống từ Internet Các nhà khoa học dữ liệu có thể trích xuất dữ liệu từ những cơ sở dữliệu nội bộ hoặc bên ngoài, phần mềm CRM của công ty, nhật ký máy chủ web, mạng xãhội hoặc mua dữ liệu từ các nguồn bên thứ ba đáng tin cậy
7.2./ S – Làm sạch dữ liệu (Scrub data)
Làm sạch dữ liệu là quy trình chuẩn hóa dữ liệu dựa theo một định dạng được định trước.Quy trình này bao gồm xử lý dữ liệu còn thiếu, sửa lỗi dữ liệu và loại bỏ mọi dữ liệungoại lai Một số ví dụ về làm sạch dữ liệu:·
- Thay đổi toàn bộ các giá trị ngày thành một định dạng tiêu chuẩn phổ biến
- Sửa lỗi chính tả hoặc thừa khoảng trống
- Sửa lỗi tính toán không chính xác hoặc xóa dấu phẩy khỏi các số lớn
7.3./ E – Khám phá dữ liệu (Explore data)
Khám phá dữ liệu là thao tác phân tích sơ bộ dữ liệu được sử dụng để lập kế hoạch kỹhơn cho các chiến lược mô hình hóa dữ liệu Các nhà khoa học dữ liệu nắm được hiểubiết ban đầu về dữ liệu bằng cách sử dụng thống kê mô tả và các công cụ trực quan hóa
dữ liệu Sau đó họ khám phá dữ liệu để xác định các mẫu thú vị có thể được nghiên cứuhoặc tận dụng
7.4./ M – Mô hình hóa dữ liệu (Model data)
Phần mềm và các thuật toán máy học được sử dụng để thu thập thông tin chuyên sâu hơn,
dự đoán kết quả và đề xuất hướng hành động tốt nhất Các kỹ thuật máy học như liên kết,phân loại và phân nhóm được áp dụng cho tập dữ liệu đào tạo Mô hình có thể được thử
xvi