1. Trang chủ
  2. » Giáo Dục - Đào Tạo

ĐỒ án cơ sở các ỨNG DỤNG KHOA học dữ LIỆU (DATA SCIENCE APPLICATIONS)

46 17 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 46
Dung lượng 0,97 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trường Đại học Nguyễn Tất Thành Khoa Công Nghệ Thông Tin Sinh viên phải đóng tờ này vào báo cáo Tên đề tài: Các ứng dụng khoa học dữ liệu Data Science Applications Giáo viên hướng dẫn:

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH

KHOA CÔNG NGHỆ THÔNG TIN

ĐỒ ÁN CƠ SỞ

CÁC ỨNG DỤNG KHOA HỌC DỮ LIỆU (DATA SCIENCE APPLICATIONS)

Giảng viên hướng dẫn: PHẠM ĐÌNH TÀI

Sinh viên thực hiện: CHU DOÃN ĐỨC

MSSV: 2000003917

Chuyên ngành: Khoa học dữ liệu

Môn học: Đồ án cơ sở Khoa học Dữ liệu

Khóa: 2022

Tp.HCM, 22 tháng 9 năm 2022

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH

KHOA CÔNG NGHỆ THÔNG TIN

ĐỒ ÁN CƠ SỞ

CÁC ỨNG DỤNG KHOA HỌC DỮ LIỆU (DATA SCIENCE APPLICATIONS)

Giảng viên hướng dẫn: PHẠM ĐÌNH TÀI

Sinh viên thực hiện: CHU DOÃN ĐỨC

MSSV: 2000003917

Chuyên ngành: Khoa học dữ liệu

Môn học: Đồ án cơ sở Khoa học Dữ liệu

Khóa: 2022

Tp.HCM, 22 tháng 9 năm 2022

Trang 3

Trường Đại học Nguyễn Tất Thành

Khoa Công Nghệ Thông Tin

(Sinh viên phải đóng tờ này vào báo cáo)

Tên đề tài: Các ứng dụng khoa học dữ liệu (Data Science Applications)

Giáo viên hướng dẫn: Phạm Đình Tài

Thời gian thực hiện: 20 / 06 /2021 đến 20 / 09 /2021

Nhiệm vụ/nội dung (mô tả chi tiết nội dung, yêu cầu, phương pháp… ):

MÔ TẢ ĐỀ TÀI:

- Data Science được định nghĩa là tất cả những gì về thu thập, khai thác và phân tích

dữ liệu để tìm ra insight giá trị Sau đó trực quan hóa các Insight cho các bên liên quan, để chuyển hóa Insight thành hành động Đây là lĩnh vực đa ngành sử dụng các phương pháp và quy trình khoa học để rút ra insight từ dữ liệu

NỘI DUNG VÀ PHƯƠNG PHÁP:

- Tìm hiểu về data Science trong kỷ nguyên số, vai trò và tầm quan trọng của Data Science

- Các ứng dụng Data Science trong lĩnh vực ngân hàng, tài chính, sản xuất, giao thông vận tải, chăm sóc sức khỏe …

Trang 4

LỜI CẢM ƠN

Đầu tiên, em xin gửi lời cảm ơn chân thành đến Trường Đại học Nguyễn Tất Thành đãđưa môn học “đồ án cơ sở Khoa học dữ liệu” vào trương trình giảng dạy Đặc biệt, emxin gửi lời cảm ơn sâu sắc đến giảng viên bộ môn – Thầy Phạm Đình Tài trực tiếp hướngdẫn, dạy dỗ, truyền đạt những kiến thức quý báu cho em trong suốt thời gian học tập vừaqua Trong thời gian tham gia lớp học của thầy, em đã có thêm cho mình nhiều kiến thức

bổ ích, tinh thần học tập hiệu quả, nghiêm túc và đã cho em chắc chắn được hoạch địnhtrong tương lai của mình

“Đồ án cơ sở Khoa học dữ liệu” là môn học thú vị, vô cùng bổ ích và có tính thực tế cao.Đảm bảo cung cấp đủ kiến thức, gắn liền với nhu cầu thực tiễn của sinh viên nói chung

và riêng bản thân em nói riêng Tuy nhiên, do vốn kiến thức còn nhiều hạn chế và khảnăng tiếp thu thực tế còn nhiều bỡ ngỡ và hạn hẹp Mặc dù em đã cố gắng hết sức nhưngchắc chắn bài báo cáo của em khó có thể tránh khỏi những thiếu sót và nhiều chỗ cònchưa chính xác, kính mong các thầy/cô chấm bài xem xét và góp ý để bài tiểu luận của

em được hoàn thiệt hơn

Kính chúc thầy có nhiều sức khỏe, hạnh phúc, thành công trên con đường giảng dạy

Em xin chân thành cảm ơn!

Trang 5

LỜI MỞ ĐẦU

Cách đây khoảng một thập niên, hình ảnh những chiệc máy tính bàn cồng kềnh thườnggắn liền với góc làm việc của mỗi người mõi dữ liệu được lưu trên ổ cứng của máy tínhhoặc đĩa CD Thế nhưng hiện nay với thời đại công nghệ số dữ liệu của mọi cá nhân hay

tổ chức được lưu trữ hoặc xuất hiện trên các phương tiện số như điện toán đám mây,mạng xã hội, website, thiết bị di động và các thiết bị cảm biến Chính sự bùng nổ của dữliệu lớn (Big Data) đòi hỏi phải có những phương pháp khoa học và công nghệ hiện đại

để khai thác và ứng dụng trong nhiều lĩnh vực khác nhau Việc hiểu rõ bản chất của dữliệu Big giúp phát triển nhiều lĩnh vực như kinh doanh, thương mại, kỹ thuật, ngân hàng,

y tế, v.v… Chính vì vậy ngành khoa học dữ liệu là một trong những ngành chủ chốt có

ưu thế đi đầu hiện nay

Những năm gần đây, vai trò của việc ứng dụng khoa học dữ liệu vào đời sống đã ngàycàng lớn mạnh Từ chỗ chỉ được sử dụng để hỗ trợ một số hoạt động trong văn phòng,các doanh nghiệp, Đã trở nên có vai trò chiến lược trong hầu hết tất cả các ngành nghềhiện nay Đặc biệt những ứng dụng trong khoa học dữ liệu đã khiến đời sống ngày càng

dễ dàng và tiền nghi hơn cũng như các doanh nghiệp chú ý hơn tới việc áp dụng nó đểgia tăng ưu thế cạnh tranh và tạo cơ hội cho mình Hiện nay, trào lưu áp dụng ứng dụngkhoa học dữ liệu không chỉ giới hạn trong các ngành nghề lớn, những nghiên cứu tầm cỡ

đa quốc gia mà còn lan rộng trong tất cả các tiên nghi đời sống

Tuy nhiên việc ứng dụng khoa học dữ liệu vào đời sống không phải đơn giản ngay cả vớinhững doanh nghiệp lớn, dồi dào về nguồn lực, nhân lực và kinh nghiệm Một ứng dụngthành công trong doanh nghiệp này cũng chưa chắc thành công tương tự trong doanhnghiệp khác Vì vậy, hôm nay nhóm em sẽ tìm hiểu về “các ứng dụng Khoa học dữ liệu”

để có cái nhìn sâu hơn, thực tế hơn về việc ứng dụng khoa học dữ liệu vào các ngànhnghề cũng như đời sống Vì thời gian thực hiện không nhiều cũng như còn yếu kém vềmặt kiến thức chuyên ngành nên chắc chắn còn nhiều thiếu sót, mong được thầy hướngdẫn thêm Trân trọng cảm ơn thầy/cô!

Trang 6

PHẦN NHẬN XÉT + CHẤM ĐIỂM CỦA GIẢNG VIÊN

Điểm giáo viên hướng dẫn:

Điểm giảng viên chấm vòng 2:

TPHCM, Ngày …… tháng …… năm

Giáo viên chấm vòng 2 Giáo viên hướng dẫn

Trang 8

MỤC LỤC

CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU 1

1.1 – KHOA HỌC DỮ LIỆU LÀ GÌ? 1

1.2 – TẠI SAO KHOA HỌC DỮ LIỆU LẠI QUAN TRỌNG? 3

1.3 – LỊCH SỬ VÀ TƯƠNG LAI CỦA KHOA HỌC DỮ LIỆU? 4

1.3.1 – Lịch sử: 4

1.3.2 – Tương lai: 4

1.4 – KHOA HỌC DỮ LIỆU CÓ CÔNG DỤNG GÌ? 4

1.4.1 – Phân tích mô tả: 5

1.4.2 – Phân tích chuẩn đoán: 5

1.4.3 – Phân tích dự đoán: 5

1.4.4 – Phân tích đề xuất: 6

1.5 – KHOA HỌC DỮ LIỆU MANG TỚI CHO DOANH NGHIỆP NHỮNG LỢI ÍCH GÌ? 6

1.5.1 – Khám phá các mẫu biến đổi tiềm ẩn: 6

1.5.2 – Sáng tạo các sản phẩm và giải pháp mới: 7

1.5.3 – Tối ưu hóa trong thời gian thực: 7

1.6 – QUY TRÌNH LÀM VIỆC CỦA KHOA HỌC DỮ LIỆU: 8

1.6.1: O – Thu thập dữ liệu (Obtain data): 10

1.6.2: S – Làm sạch dữ liệu (Scrub data): 10

1.6.3: E – Khám phá dữ liệu (Explore data): 10

1.6.4: M – Mô hình hóa dữ liệu (Model data): 11

1.6.5: N – Diễn giải kết quả (Interpret results): 11

1.7 – CÁC KỸ THUẬT KHOA HỌC DỮ LIỆU LÀ GÌ? 11

1.7.1 – Phân loại: 11

1.7.2 – Hồi quy: 12

1.7.3 – Phân nhóm: 12

Trang 9

1.8.1 – Mô hình Data: 13

1.9 – NHỮNG TỐ CHẤT VÀ KỸ NĂNG CẦN CÓ CỦA NHÀ KHOA HỌC DỮ LIỆU: 14

1.9.1 – Tố chất: 14

1.9.2 – Kỹ năng cần có: 16

CHƯƠNG 2: CÁC ỨNG DỤNG CỦA KHOA HỌC DỮ LIỆU 19

1.1 – ỨNG DỤNG TRONG Y TẾ: 19

1.1.1 – Xây dựng hệ thống trợ lý chăm sóc sức khỏe ảo: 19

1.1.2 – Nghiên cứu về gen và di truyền: 21

1.1.3 – Điều chế thuốc: 21

1.2 – ỨNG DỤNG TRONG TÌM KIẾM THÔNG TIN: 22

1.3 – ỨNG DỤNG TRONG LÍNH VỰC QUẢNG CÁO: 22

1.4 – ỨNG DỤNG TRONG THƯƠNG MẠI ĐIỆN TỬ VÀ DỊCH VỤ SỐ: 23

1.5 – ỨNG DỤNG TRONG TÀI CHÍNH – NGÂN HÀNG: 25

1.5.1 – Ngân hàng: 26

1.5.2 – Tài chính: 27

1.6 – ỨNG DỤNG TRONG SẢN XUẤT: 28

1.7 – ỨNG DỤNG TRONG GIAO THÔNG VẪN TẢI: 29

CHƯƠNG 3: KẾT LUẬN 32

Trang 10

DANH MỤC CÁC BẢNG BIỂU

Trang 11

DANH MỤC CÁC BẢNG HÌNH

Hình 1 1: Khoa học dữ liệu là gì? 2

Hình 1 2: Quy trình làm việc của nhà khoa học dữ liệu 8

Hình 1 3: Kỹ năng giao tiếp tốt 15

Hình 1 4: Thích tìm hiểu và thử cái mới 16

Hình 1 5: Kiến thức toán học 17

Hình 1 6: Khả năng lập trình phần mềm 18

Hình 2 1: Các ứng dụng hữu ích của Data Science hiện nay .

19 Hình 2 2: Ứng dụng của khoa học dữ liệu trong y tế 20

Hình 2 3: Ứng dụng của khoa học dữ liệu trong tìm kiếm thông tin 22

Hình 2 4: Ứng dụng của khoa học dữ liệu trong quảng cáo 23

Hình 2 5: Ứng dụng của khoa học dữ liệu trong thương mại điên tử 24

Hình 2 6: Ứng dụng của khoa học dữ liệu trong tài chính - ngân hàng 26

Hình 2 7: Ứng dụng của khoa học dữ liệu trong sản xuất 29

Hình 2 8: Ứng dụng của khoa học dữ liệu trong vận tải 30

Trang 12

DANH MỤC CÁC BẢNG CHỨ VIẾT TẮT

Trang 13

CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU

1.1 – KHOA HỌC DỮ LIỆU LÀ GÌ?

Hầu hết các ngành khoa học từ xưa đến nay đều giải quyết vấn đề dựa trên lập luận và trithức:

 Ngành toán: dựa trên các mệnh đề, công thức, lập luận… để chứng minh bài toán

 Ngành vật lý: dựa trên các quan sát, thực nghiệm, tính toán, … kiểm chứng cácgiả thiết

 Ngành hóa học

 Ta gọi các ngành khoa học này là “knowledge-driven” (dẫn dắt bởi tri thức)

 Với quan điểm như vậy, tất cả những quan sát mà không được chứng minh chặtchẽ thường được cho là “không khoa học”

 Chẳng hạn: chuồn chuồn bay thấp thì mưa

 Khoa học dữ liệu ≠ Khoa học thông thường ở quan điểm: tìm tri thức từ dữ liệu(dẫn dắt bởi dữ liệu – “data-driven”)

- Chúng ta rút ra tri thức bằng việc tìm tòi từ dữ liệu chứ không nhất thiết phải chứngminh nó

- Tất nhiên tri thức tìm ra phải có tính ổn định (luôn có cùng kết quả nếu sử dụng cùngmột phương pháp)

Khoa học dữ liệu là lĩnh vực nghiên cứu dữ liệu nhằm khai thác những thông tin chuyênsâu có ý nghĩa đối với hoạt động kinh doanh Đây là một phương thức tiếp cận đa ngành,kết hợp những nguyên tắc và phương pháp thực hành của các lĩnh vực toán học, thống

kê, trí tuệ nhân tạo và kỹ thuật máy tính để phân tích khối lượng lớn dữ liệu Nội dungphân tích này sẽ giúp các nhà khoa học dữ liệu đặt ra và trả lời những câu hỏi như sự

Trang 14

kiện gì đã xảy ra, tại sao nó xảy ra, sự kiện gì sẽ xảy ra và có thể sử dụng kết quả thuđược cho mục đích gì.

Hình 1 1: Khoa học dữ liệu là gì?

Theo cách hiểu đơn giản nhất, Khoa học dữ liệu là ngành khoa học về việc quản trị vàphân tích dữ liệu, trích xuất các giá trị từ dữ liệu nhằm mục đích tìm ra các hiểu biết, cáctri thức hành động, các quyết định dẫn dắt hành động

Ngành khoa học dữ liệu gồm 3 phần chính:

 Tạo và quản trị dữ liệu

 Phân tích dữ liệu

 Chuyển kết quả phân tích thành giá trị của hành động

Trong đó, việc phân tích và dùng dữ liệu được dựa vào ba nguồn tri thức bao gồm : toánhọc (thống kê toán học), công nghệ thông tin (máy học) và tri thức từ lĩnh vực ứng dụng

cụ thể

Trang 15

1.2 – VAI TRÒ CỦA NHÀ KHOA HỌC DỮ LIỆU:

Một nhà khoa học dữ liệu phải xử lý cả dữ liệu có cấu trúc và phi cấu trúc Dữ liệu phicấu trúc được thể hiện dưới dạng dữ liệu thô, yêu cầu phải xử lý, làm sạch và tổ chức lại

dữ liệu để tạo ra một cấu trúc có ý nghĩa cho bộ dữ liệu

Theo đó các nhà Khoa học dữ liệu sẽ nghiên cứu các dữ liệu đã được tổ chức và phântích kỹ lưỡng để trích xuất thông tin bằng cách sử dụng nhiều phương pháp thống kêkhác nhau Họ sẽ sử dụng các phương pháp thống kê để mô tả, trực quan hóa và đưa racác thông tin giả thuyết từ dữ liệu đó

Sau đó các nhà khoa học dữ liệu sẽ sử dụng thuật toán máy học (Machine learning) để

dự đoán các sự kiện sẽ xảy ra và đưa ra quyết định dựa trên các data đó Những nhà khoahọc dữ liệu sẽ triển khai các mảng lớn công cụ và thực tiễn để nhận ra các mẫu dư thừatrong dữ liệu Các công cụ này bao gồm SQL, Hadoop, Weka, R và Python

Họ thường đóng vai trò nhà tư vấn trong công ty, tham gia vào các quá trình ra quyếtđịnh khác nhau và tạo ra các chiến lược Nhờ vào sự hiểu biết từ dữ liệu, họ hỗ trợ cáccông ty đưa ra quyết định kinh doanh thông minh hơn

Điển hình như các công ty công nghệ như Google, Netflix, và Amazon đang sử dụngKhoa học dữ liệu, để phát triển hệ thống các đề xuất tích cực cho người dùng Tương tự,các công ty tài chính khác nhau đang sử dụng các phương pháp phân tích và dự báo để

dự đoán giá cổ phiếu

Khoa học dữ liệu đã giúp tạo ra một hệ thống thông minh hơn có thể đưa ra các quyếtđịnh tự trị dựa trên các dữ liệu lịch sử Thông qua sự đồng hóa với các công nghệ mớinổi như Thị giác máy tính, Xử lý công nghệ tự nhiên, Reinforcement Learning (một lĩnhvực thuộc Machine Learning)

1.3 – TẠI SAO KHOA HỌC DỮ LIỆU LẠI QUAN TRỌNG?

Khoa học dữ liệu quan trọng bởi vì lĩnh vực này kết hợp các công cụ, phương pháp vàcông nghệ để rút ra ý nghĩa từ dữ liệu Các tổ chức hiện đại chìm ngập trong dữ liệu vàhiện có vô vàn thiết bị có thể tự động thu thập và lưu trữ dữ liệu Các hệ thống và cổng

Trang 16

thanh toán trực tuyến đang dần thu thập nhiều dữ liệu hơn trong những lĩnh vực thươngmại điện tử, y tế, tài chính cũng như mọi khía cạnh khác của đời sống con người Chúng

ta có sẵn khối lượng đồ sộ dữ liệu dưới dạng văn bản, âm thanh, video và hình ảnh Đáng tiếc thay, dữ liệu thô chẳng có giá trị trừ khi chúng có thể được sử dụng để giảiquyết vấn đề Các nhà khoa học dữ liệu có thể chuyển đổi dữ liệu thô thành những đềxuất có ý nghĩa Họ có thể phát hiện và giải quyết các vấn đề mà doanh nghiệp cònkhông biết là chúng tồn tại Các tổ chức có thể sử dụng những đề xuất này để khiếnkhách hàng hài lòng hơn, tối ưu hóa chuỗi cung ứng hoặc cho ra mắt các sản phẩm mới

1.4 – LỊCH SỬ VÀ TƯƠNG LAI CỦA KHOA HỌC DỮ LIỆU?

1.4.1 – Lịch sử:

Tuy rằng thuật ngữ khoa học dữ liệu không có gì mới, ý nghĩa và hàm ý của thuật ngữnày đã thay đổi theo thời gian Thuật ngữ này lần đầu xuất hiện vào khoảng thập niên 60,trong vai trò là tên gọi khác của thống kê Đến cuối thập niên 90, các chuyên gia khoahọc máy tính đã chính thức hóa thuật ngữ này Một định nghĩa được đề xuất cho khoahọc dữ liệu mô tả lĩnh vực này như một ngành riêng biệt gồm 3 khía cạnh: thiết kế, thuthập và phân tích dữ liệu Vẫn phải mất thêm một thập niên nữa thì thuật ngữ này mớiđược sử dụng ngoài giới học thuật

1.5 – KHOA HỌC DỮ LIỆU CÓ CÔNG DỤNG GÌ?

Khoa học dữ liệu được sử dụng để nghiên cứu giữ liệu theo 4 phương pháp chính:

Trang 17

1.5.1 – Phân tích mô tả:

Phân tích mô tả xem xét dữ liệu để thu thập thông tin chuyên sâu về những sự kiện đãhoặc đang xảy ra trong môi trường dữ liệu Đặc trưng của phương pháp này là sự trựcquan hóa dữ liệu, chẳng hạn như bằng biểu đồ tròn, biểu đồ cột, biểu đồ đường, bảnghoặc văn bản thuyết minh Ví dụ: một dịch vụ đặt vé máy bay có thể ghi lại dữ liệu như

số lượng vé được đặt mỗi ngày Phân tích mô tả sẽ chỉ ra mức tăng giảm đột biến trong

số lượng vé được đặt và các tháng hoạt động hiệu quả cao của dịch vụ này

1.5.2 – Phân tích chuẩn đoán:

Phân tích chẩn đoán là một phương pháp phân tích chuyên sâu hoặc chi tiết dữ liệu đểnắm được nguyên nhân khiến một sự kiện xảy ra Đặc trưng của phương pháp này là các

kỹ thuật như truy sâu, khám phá dữ liệu, khai thác dữ liệu và đối chiếu Nhiều thao tácvận hành và chuyển đổi dữ liệu có thể được thực hiện trên một tập dữ liệu nhất định đểphát hiện ra những mẫu độc đáo trong từng kỹ thuật này Ví dụ: dịch vụ đặt vé máy bay

có thể sẽ truy sâu vào một tháng hoạt động đặc biệt hiệu quả để hiểu rõ hơn về mức tăngđột biến trong số lượng vé được đặt Điều này có thể dẫn tới việc phát hiện ra rằng nhiềukhách hàng ghé thăm một thành phố nhất định để tham dự một sự kiện thể thao hàngtháng

1.5.3 – Phân tích dự đoán:

Phân tích dự đoán sử dụng dữ liệu lịch sử để đưa ra các dự báo chính xác về mẫu dữ liệu

có thể xảy ra trong tương lai Đặc trưng của phương pháp này là các kỹ thuật như máyhọc, dự báo, so khớp mẫu và lập mô hình dự đoán Trong mỗi kỹ thuật, máy tính đượcđào tạo để thiết kế ngược các mối quan hệ nguyên nhân-kết quả trong dữ liệu Ví dụ: độingũ dịch vụ đặt vé máy bay có thể sử dụng khoa học dữ liệu để dự đoán mẫu đặt vétrong năm tới vào thời điểm đầu mỗi năm Chương trình hoặc thuật toán máy tính có thểxem xét dữ liệu trong quá khứ và dự đoán mức tăng đột biến trong số lượng vé được đặtcho các điểm đến nhất định trong tháng 5 Khi đã dự đoán được nhu cầu du lịch trongtương lai của khách hàng, công ty sẽ có thể bắt đầu quảng cáo nhắm mục tiêu cho cácthành phố đó từ tháng 2

Trang 18

1.5.4 – Phân tích đề xuất:

Phân tích đề xuất đưa dữ liệu dự đoán lên một tầm cao mới Phương pháp này không chỉ

dự đoán sự kiện gì sẽ xảy ra mà còn đề xuất một phản ứng tối ưu cho kết quả đó Nó cóthể phân tích tác động tiềm ẩn của các lựa chọn khác nhau và đề xuất hướng hành độngtốt nhất Nó sử dụng phân tích đồ thị, mô phỏng, xử lý sự kiện phức tạp, mạng nơ-ron vàcông cụ đề xuất từ máy học

Quay lại ví dụ về dịch vụ đặt vé máy bay, phân tích đề xuất có thể xem xét các chiếndịch tiếp thị trước đây để tăng tối đa lợi thế của mức tăng đột biến sắp tới trong số lượng

vé được đặt Nhà khoa học dữ liệu có thể dự đoán kết quả đặt vé cho các mức chi tiêutiếp thị khác nhau trên những kênh tiếp thị đa dạng Những dự báo này sẽ giúp công tyđặt vé máy bay tự tin hơn khi đưa ra các quyết định tiếp thị

1.6 – KHOA HỌC DỮ LIỆU MANG TỚI CHO DOANH NGHIỆP NHỮNG LỢI ÍCH GÌ?

Khoa học dữ liệu đang cách mạng hóa phương thức hoạt động của các công ty Nhiềudoanh nghiệp, bất kể quy mô, đều cần một chiến lược khoa học dữ liệu hiệu quả để thúcđẩy tăng trưởng và duy trì lợi thế cạnh tranh Một số lợi ích chính bao gồm:

1.6.1 – Khám phá các mẫu biến đổi tiềm ẩn:

Khoa học dữ liệu cho phép các doanh nghiệp phát hiện ra những mẫu và mối quan hệmới có tiềm năng biến đổi toàn bộ tổ chức Nó có thể hé lộ những thay đổi với chi phíthấp trong việc quản lý nguồn lực để tạo ra tác động tối đa đến tỷ suất lợi nhuận Ví dụ:một công ty thương mại điện tử sử dụng khoa học dữ liệu để phát hiện ra rằng có rấtnhiều truy vấn của khách hàng được tạo sau giờ làm việc Các cuộc điều tra cho thấyrằng khách hàng có nhiều khả năng mua hàng hơn nếu họ được phản hồi nhanh chóngthay vì nhận được câu trả lời trong ngày làm việc tiếp theo Bằng cách triển khai dịch vụkhách hàng 24/7, doanh thu của doanh nghiệp đã tăng thêm 30%

Trang 19

1.6.2 – Sáng tạo các sản phẩm và giải pháp mới:

Khoa học dữ liệu có thể hé lộ những lỗ hổng và vấn đề thường bị bỏ sót Thông tinchuyên sâu hơn về quyết định mua hàng, phản hồi của khách hàng và quy trình kinhdoanh có thể thúc đẩy sự đổi mới sáng tạo trong hoạt động nội bộ cũng như các giải phápbên ngoài Ví dụ: giải pháp thanh toán trực tuyến sử dụng khoa học dữ liệu để đối chiếu

và phân tích đánh giá của khách hàng về công ty trên mạng xã hội Phân tích cho thấyrằng khách hàng quên mật khẩu trong giai đoạn mua sắm cao điểm và không hài lòngvới hệ thống khôi phục mật khẩu hiện tại Công ty có thể sáng tạo ra một giải pháp tốthơn và nhận thấy mức độ hài lòng của khách hàng tăng lên đáng kể

1.6.3 – Tối ưu hóa trong thời gian thực:

Các doanh nghiệp, đặc biệt là những doanh nghiệp quy mô lớn, gặp rất nhiều thách thứctrong việc phản ứng với những điều kiện thay đổi trong thời gian thực Điều này có thểgây ra những tổn thất hoặc gián đoạn đáng kể trong hoạt động kinh doanh Khoa học dữliệu có thể hỗ trợ các công ty dự đoán thay đổi và phản ứng một cách tối ưu với nhữngtình huống khác nhau Ví dụ: một công ty vận chuyển bằng xe tải sử dụng khoa học dữliệu để giảm thời gian ngừng hoạt động khi xe bị hỏng hóc Họ xác định được các mẫutuyến đường và ca làm việc khiến xe hỏng nhanh hơn và thay đổi lịch trình vận chuyển

Họ cũng thiết lập một kho phụ tùng thay thế phổ biến cần thay thường xuyên để sửachữa xe tải nhanh chóng hơn

Trang 20

1.7 – QUY TRÌNH LÀM VIỆC CỦA KHOA HỌC DỮ LIỆU:

Hình 1 2: Quy trình làm việc của nhà khoa học dữ liệu.

 Bước 1: Input

Workflow bắt đầu từ một yêu cầu hoặc nhiệm vụ: “Nhu cầu tìm kiếm hình ảnh củaGoogle: đưa cho máy 1 bức ảnh, trả về những bức ảnh tương tự”

+ Nhu cầu này có thể bắt nguồn từ:

+ Do bộ phận business thu thập phản hồi từ người dùng và đề nghị có thêm tính năngABC

+ Hoặc, do chính nhà khoa học dữ liệu khi làm việc với dữ liệu, nghiên cứu đặc tính củasản phẩm/ công ty cũng như kiểu/ lượng data hiện có… thì nảy sinh thêm sáng kiến phátminh tính năng XYZ

 Bước 2: Lên kế hoạch

Làm tính năng này có khả thi hay không?

+ Sẽ cần loại dữ liệu gì? Ở đâu? Bao nhiêu là đủ? Lấy dữ liệu như thế nào?

+ Cần bao nhiêu resource (nhân lực, thời gian)

Trang 21

+ Tính năng này sẽ được gắn vào đâu trong sản phẩm cuối cùng và sẽ giúp ích được gìcho người dùng.

 Bước 3: Thu thập và làm sạch dữ liệu

+ Để dạy cho máy biết phân biệt chó/mèo, nó càng phải học nhiều hình ảnh càng tốt.Nên phải đi “gom dữ liệu”

+ Dữ liệu gom xong sẽ còn lộn xộn và nhiều rác thì phải “làm sạch dữ liệu”

+ Hình ảnh không cần thì loại bỏ; Hình mờ thì làm cho rõ …

+ Nếu vấn đề chưa có sẵn giải pháp

+ Cần làm nghiên cứu: tìm hiểu xem trước mình đã có ai từng làm về vấn đề này haychưa

+ Sau đó, chọn ra một hoặc một loạt các phương pháp để thử nghiệm

 Bước 5: Máy học

+ Chạy thử mô hình và đánh giá hiệu năng

+ Tưởng tượng bạn điều khiển bảng điều khiển với nhiều nút

+ Thử chỉnh nút này 1 chút, thấy kết quả ra tốt hơn chút xíu thì giữ lại và chỉnh thử nútkhác

Trang 22

+ Nhận diện các yếu tố ảnh hưởng đến kết quả Điều chỉnh dấu hiệu ưu tiên để ra đượckết quả tốt nhất.

1.7.1: O – Thu thập dữ liệu (Obtain data):

Dữ liệu có thể tồn tại từ trước, mới được thu thập hoặc là một kho dữ liệu có thể tảixuống từ Internet Các nhà khoa học dữ liệu có thể trích xuất dữ liệu từ những cơ sở dữliệu nội bộ hoặc bên ngoài, phần mềm CRM của công ty, nhật ký máy chủ web, mạng xãhội hoặc mua dữ liệu từ các nguồn bên thứ ba đáng tin cậy

1.7.2: S – Làm sạch dữ liệu (Scrub data):

Làm sạch dữ liệu là quy trình chuẩn hóa dữ liệu dựa theo một định dạng được địnhtrước Quy trình này bao gồm xử lý dữ liệu còn thiếu, sửa lỗi dữ liệu và loại bỏ mọi dữliệu ngoại lai Một số ví dụ về làm sạch dữ liệu:·

Thay đổi toàn bộ các giá trị ngày thành một định dạng tiêu chuẩn phổ biến

Sửa lỗi chính tả hoặc thừa khoảng trống

Sửa lỗi tính toán không chính xác hoặc xóa dấu phẩy khỏi các số lớn

1.7.3: E – Khám phá dữ liệu (Explore data):

Trang 23

biết ban đầu về dữ liệu bằng cách sử dụng thống kê mô tả và các công cụ trực quan hóa

dữ liệu Sau đó họ khám phá dữ liệu để xác định các mẫu thú vị có thể được nghiên cứuhoặc tận dụng

1.7.4: M – Mô hình hóa dữ liệu (Model data):

Phần mềm và các thuật toán máy học được sử dụng để thu thập thông tin chuyên sâuhơn, dự đoán kết quả và đề xuất hướng hành động tốt nhất Các kỹ thuật máy học nhưliên kết, phân loại và phân nhóm được áp dụng cho tập dữ liệu đào tạo Mô hình có thểđược thử nghiệm so với dữ liệu thử nghiệm định trước để đánh giá độ chính xác của kếtquả Mô hình dữ liệu có thể được tinh chỉnh nhiều lần để cải thiện kết quả thu được

1.7.5: N – Diễn giải kết quả (Interpret results):

Các nhà khoa học dữ liệu hợp tác cùng các chuyên gia phân tích và doanh nghiệp đểchuyển đổi thông tin chi tiết về dữ liệu thành hành động Họ tạo ra các sơ đồ, đồ thị vàbiểu đồ để thể hiện những xu hướng và dự đoán Tóm tắt dữ liệu giúp các bên liên quanhiểu rõ và triển khai kết quả một cách hữu hiệu

1.8 – CÁC KỸ THUẬT KHOA HỌC DỮ LIỆU LÀ GÌ?

Các chuyên gia khoa học dữ liệu sử dụng hệ thống máy tính để giám sát quy trình khoahọc dữ liệu Những kỹ thuật hàng đầu được sử dụng bởi các nhà khoa học dữ liệu là:

 Phân loại sản phẩm theo phổ biến hoặc không phổ biến

 Phân loại đơn bảo hiểm theo rủi ro cao hoặc rủi ro thấp

 Phân loại bình luận trên mạng xã hội thành tích cực, tiêu cực hoặc trung lập

Ngày đăng: 01/11/2022, 05:20

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w