1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tăng tốc việc phân tích chuỗi thời gian với phương pháp máy học tự động hóa

12 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tăng tốc việc phân tích chuỗi thời gian với phương pháp máy học tự động hóa
Tác giả Bùi Mạnh Trường
Trường học Trường Đại học Tài chính – Marketing
Chuyên ngành Khoa Công nghệ Thông tin
Thể loại Báo cáo nghiên cứu
Năm xuất bản 2023
Thành phố Hồ Chí Minh
Định dạng
Số trang 12
Dung lượng 405,94 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài viết Tăng tốc việc phân tích chuỗi thời gian với phương pháp máy học tự động hóa giới thiệu các công cụ của phương pháp máy học tự động cung cấp các lợi thế quan trọng so với các công cụ phân tích truyền thống như tính đơn giản, nhanh & khả năng diễn giải kết quả thu được. Mời các bạn cùng tham khảo!

Trang 1

TĂNG TỐC VIỆC PHÂN TÍCH CHUỖI THỜI GIAN VỚI PHƯƠNG PHÁP MÁY HỌC TỰ ĐỘNG HÓA

Bùi Mạnh Trường

Khoa Công nghệ Thông tin Trường Đại học Tài chính – Marketing

Email bmtruong@ufm.edu.vn

Tóm tắt: Thời gian (Time) là một trong những nhân tố quan trọng nhất cần xem xét và đánh

giá để đảm bảo thành công trong kinh doanh và cũng rất khó khăn để bắt kịp tốc độ của thời gian Công nghệ đã và đang phát triển cùng với các phương pháp mạnh mẽ giúp biết trước sự việc trước khi thời gian kịp tới thời điểm sự việc diễn ra Dữ liệu chuỗi thời gian nâng cao hiệu quả kinh doanh bằng việc đưa ra các cách nhìn sâu sắc hơn về kết quả hoạt động kinh doanh trong tương lai Các công cụ của phương pháp máy học tự động cung cấp các lợi thế quan trọng so với các công cụ phân tích truyền thống như tính đơn giản, nhanh & khả năng diễn giải kết quả thu được

Từ khóa: data, time series, machine learning, automated machine learning, AutoML

GIỚI THIỆU

Phân tích chuỗi thời gian (Time series) có nhiều mục tiêu khác nhau, tùy thuộc vào

lĩnh vực được ứng dụng Các mục tiêu bao gồm dự đoán giá trị tương lai của chuỗi, trích xuất tín hiệu ẩn dấu trong dữ liệu pha tạp, khám phá cơ chế mà dữ liệu được tạo ra, mô phỏng kết quả độc lập trong thực tế của chuỗi để hiểu dữ liệu sẽ thay đổi thế nào trong tương lai Trong tất cả các ứng dụng, phân tích chuỗi thời gian ban đầu thường cố gắng tìm

ra được mô hình toán học để giúp tìm ra được hình thức trực quan tốt nhất đối với dữ liệu quan sát được Nhiều năm qua, số lượng các dòng dữ liệu đổ vào các kho dữ liệu phân tích tăng đáng kể liên tục để hỗ trợ phạm vi rộng lớn hơn cho các nhu cầu kinh doanh Sự gia tăng này đã làm thay đổi sâu sắc các loại hình phân tích theo yêu cầu, từ các công việc phân tích tổng hợp mô tả về kết quả hoạt động kinh doanh trong lịch sử cho tới việc tập trung nhiều hơn vào kết quả hoạt động kinh doanh hiện tại và tương lai trong đó có sử dụng các phương pháp đo lường với độ chi tiết cao

Sự gia tăng này cũng tạo áp lực cho các tổ chức đầu tư vào công nghệ để quản lý & phân tích dữ liệu chuỗi thời gian Những dữ liệu này phản ánh tất cả các mặt của quy trình kinh doanh, hành vi khách hàng & việc sử dụng tài sản doanh nghiệp cùng với việc phân tích để nhanh chóng xác định những sai lệch so với quy chuẩn mà có thể ảnh hưởng tiêu cực tới kết quả hoạt động kinh doanh hoặc giúp phát hiện ra những cơ hội mới

Trang 2

Việc phát triển mô hình Máy học theo cách truyền thống đòi hỏi nhiều tài nguyên, đòi hỏi kiến thức chuyên môn cao và thời gian rất lâu để xây dựng mô hình và khi so sánh nhiều mô hình với nhau Khi các công cụ thống kê truyền thống gặp khó khăn trong việc

xử lý các dữ liệu đầu vào đa biến, bỏ sót những tiềm năng mang lợi thế cạnh tranh để nắm bắt & ảnh hưởng tiêu cực tới các hoạt động kinh doanh thực tế thì các công cụ Máy học tự động có thể giúp tăng cường việc phân tích, xây dựng mô hình & dự đoán dựa vào dữ liệu chuỗi thời gian để đề xuất cho doanh nghiệp những cơ hội dễ hiểu & khả thi một cách đơn giản và nhanh chóng

Máy học tự động (Automated Machine Learning) sử dụng các thuật toán m học được

tự động hóa và quá trình thiết kế có cấu trúc của mô hình đã được xác định Máy học tự động cung cấp các công cụ phân tích dữ liệu có cấu trúc một cách có hệ thống được thiết

kế sẵn để hỗ trợ các lĩnh vực như bán lẻ, chuyển đổi, y tế nhằm thu được kinh nghiệm thực tiễn tốt nhất khi áp dụng các thuật toán Máy học để giải quyết các bài toán dự đoán chính xác với chi phí thấp và nhanh chóng

Máy học tự động thực hiện quy trình tự động hóa các tác vụ và liên tục lặp lại một phần hoặc toàn bộ quy trình này để phát triển mô hình máy học nên mất nhiều thời gian để thực hiện Nó cho phép các nhà khoa học dữ liệu, nhà phân tích và nhà phát triển để xây dựng các mô hình Máy học có khả năng phát triển quy mô khi ứng dụng với hiệu quả và năng suất cao nhưng vẫn đảm bảo chất lượng của mô hình Máy học tự động đang được ứng dụng trong dịch vụ Máy học Azure được phát triển từ thành công mang tính đột phá của bộ phận nghiên cứu trong tập đoàn Microsoft

ĐẶC TRƯNG CỦA CHUỖI THỜI GIAN & CÁC ỨNG DỤNG

Mọi hoạt động của thế giới, con người & thiên nhiên đều thay đổi theo thời gian Chuỗi thời gian có thể định nghĩa là một chuỗi các dữ liệu tại các thời điểm được đánh dấu tạo thành các mốc thời gian cách xa đều nhau Phân tích chuỗi thời gian là việc sử dụng các phương pháp thống kê hoặc Máy học để phân tích dữ liệu tại một hoặc nhiều mốc thời gian bằng cách trích xuất được các mẫu có đầy đủ ý nghĩa trong các biến đầu ra như là xu hướng

(nhu cầu sử dụng laptop nhiều hơn máy tính để bàn, thanh toán bằng ví điện tử nhiều hơn thanh toán tiền mặt, mua hàng online ngày càng phát triển ), mùa kinh doanh (mùa hè, tháng nhập học, Tết Nguyên đán ) hoặc các sự kiện đặc biệt (ngày mua sắm cao điểm Black Friday, lễ giáng sinh, ngày lễ tình nhân 14/02 ) và mối quan hệ hoặc tương tác

Trang 3

giữa các biến đầu vào giúp việc dự đoán các biến đầu vào sẽ thay đổi như thế nào để ảnh hưởng đến các biến đầu ra

Có nhiều ứng dụng của phân tích chuỗi thời gian, trong số đó là nhu cầu về việc dự báo tương lai giúp cải thiện công tác hoạch định sản xuất tối ưu hơn Điều này cho phép dự đoán về tình hình nhà đất của một địa phương trong năm tới, nhu cầu về phòng khách sạn tại Phú Quốc trong tuần tới, số lượng người sẽ đổ về phố đi bộ trong vài giờ tới, khối lượng công việc của bộ định tuyến trong vài phút tới & thậm chí số lượng click chuột & sự chuyển đổi của một cổng thanh toán mua sắm trực tuyến trong 30 giây tiếp theo Ngoài việc đưa ra các dự đoán, phân tích chuỗi thời gian cũng có thể cung cấp các góc nhìn cho các hệ thống phức tạp, ví dụ như để xác định các yếu tố gây ra thời gian chết của thiết bị trong khu vực sản xuất hoặc phát hiện ra các tín hiệu bất thường từ nhật ký theo dõi hệ thống tin học Việc

sử dụng siêu dữ liệu ngữ cảnh hoặc chuỗi thời gian phụ có liên quan với chuỗi thời gian đang xem xét sẽ giúp thúc đẩy việc phân tích nhanh hơn, cho phép thực hiện các câu hỏi

tình huống (Nếu Thì ), ví dụ như ảnh hưởng của cơn bão sắp tới lên nhà máy phát điện

sử dụng năng lượng gió hoặc tác động của việc quảng cáo tới công tác bán hàng

Giả thiết đặt ra là có tồn tại một cấu trúc bên trong dữ liệu cho phép sử dụng từng phần tối thiểu theo sự thay đổi của thời gian hoặc các biến không liên quan mà bản thân chúng cũng thay đổi Các biến này có thể độc lập như theo mùa kinh doanh, thời tết, ngày nghỉ lễ, các sự kiện đã lên kế hoạch, thời khóa biểu làm việc hoặc thậm chí phức tạp hơn là các biến độc lập như kinh tế vĩ mô, nguồn cung cấp năng lượng hoặc ảnh hưởng của thị trường chứng khoán

BÀI TOÁN CHUỖI THỜI GIAN RẤT KHÓ

Bài toán chuỗi thời gian thường rất khó giải quyết vì bài toán này cố gắng để khám phá cấu trúc tiềm ẩn sẵn sàng bộc lộ ra từ dữ liệu trong lịch sử & ngoại suy trong tương lai Các đặc tính cốt lõi của bài toán chuỗi thời gian sau đây được minh họa trong hình 1 :

1 Các khoảng thời gian được phân chia thành các khoảng bằng nhau là đặc trưng quan trọng của bất kỳ chuỗi thời gian nào Khi các khoảng thời gian được phân đoạn khác nhau, theo ngày hoặc theo tuần hoặc theo tháng thì cùng một thuật toán có thể thu được các

mô hình khác nhau & khả năng dự đoán khác nhau tương ứng

Trang 4

2 Ta có thể sử dụng một hoặc nhiều chuỗi thời gian làm các biến đầu vào, các biến đầu vào này được nắm bắt trong quá trình lựa chọn các đặc trưng được xác định trong khoảng thời gian khám phá các đặc trưng

3 Trong giai đoạn dự đoán của chuỗi thời gian, giai đoạn này thường là quá trình tiếp diễn của chuỗi thời gian đầu ra đã đặt mục tiêu, trong đó việc phát triển mô hình từ chuỗi thời gian đầu vào được sử dụng để dự đoán trạng thái tương lai của mục tiêu, ví dụ, doanh

số bán hàng quý đầu tiên trong năm tới hoặc số lượng click chuột trong 30 phút tới của chương trình khuyến mãi trực tuyến, số lượng và chủng loại hàng hóa cũng như sức mua trong tháng mua sắm, mùa mua sắm trong khoảng thời gian cụ thể của tương lai

Hình 1: Các đặc tính quan trọng của bài toán Chuỗi thời gian

Quá trình xây dựng mô hình chuỗi thời gian nỗ lực để khám phá sự thay đổi các kết quả từ chuỗi thời gian đầu ra như thế nào đối với chuỗi thời gian đầu ra Quá trình này phức tạp và lặp lại, nó bắt đầu bằng việc xác định chuỗi thời gian đầu vào nào sẽ được sử dụng

và có thể tham gia vào việc chuẩn bị dữ liệu bằng cách chia tách, làm sạch và phân đoạn

dữ liệu Tiếp theo là việc trích xuất các đặc trưng, xây dựng mô hình và kiểm tra ngược cho tới khi thu được kết quả có thể chấp nhận được, tùy thuộc vào các tiêu chuẩn được xác định chính xác ban đầu Tiếp theo là việc diễn giải mô hình và đánh giá mô hình, cuối cùng là triển khai áp dụng mô hình, đây là bước thường được đánh giá thấp khi mô hình đã ổn định,

mở rộng quy mô ứng dụng và đưa vào ứng dụng trong các hoạt động nghiệp vụ nội bộ để tạo ra các đầu ra và sự can thiệp hữu ích Theo định kỳ, toàn bộ quá trình xây dựng mô hình chuỗi thời gian cần lặp lại khi dữ liệu mới xuất hiện

Trang 5

CÁCH TIẾP CẬN TRUYỀN THỐNG KHI PHÂN TÍCH CHUỖI THỜI GIAN

Phân tích chuỗi thời gian không phải mới mẻ Các kỹ thuật thống kê cổ điển được áp dụng cho việc phân tích kinh tế lượng các xu hướng, các chu kỳ và tính ngẫu nhiên đã tồn tại bền vững qua nhiều thập kỷ Từ khi xuất hiện công nghệ tin học, các kỹ thuật như là

ARIMA (Tự phục hồi (Auto-Regressive), Tích hợp (Integrated), Các giá trị trung bình liên

tiếp (Moving Average)) và các biến thể của chúng (VARIMA dành cho véc tơ, GARCH dành cho sự biến động khi thời gian thay đổi ) đã được sử dụng rộng rãi để giải quyết các bài

toán kinh tế lượng, kinh doanh & điều hành

Đây là những mô hình tham số tiêu biểu, thường là đơn biến tạo ra những giả thuyết đáng tin cậy về việc phân phối biến ngẫu nhiên và độ ổn định của mô hình theo thời gian – những mô hình này có cấu trúc cao, dễ hiểu, đòi hỏi dữ liệu vừa đủ và tạo ra độ xấp xỉ tương đối từ các tập dữ liệu mẫu Trong khi đó, các phương pháp cổ điển cũng có những giới hạn như sau :

1 Phụ thuộc vào các giả thuyết thống kê

Tính hợp lệ của các giả thuyết bao gồm tính tuyến tính, tính thông thường và tính ổn định là rất quan trọng trong phân tích thống kê cổ điển khi áp dụng vào các bước triển khai trong thực tế Những tính chất này phải được thực hiện nghiêm ngặt giúp cho mô hình hoạt động đúng đắn, như vậy sẽ đòi hỏi lặp lại nhiều lần các bước làm sạch dữ liệu, lấy mẫu và kiểm tra mô hình

2 Khả năng tương thích yếu khi phân tích đa biến

Bài toán đa biến bao gồm nhiều chuỗi thời gian là biến đầu vào và khi khi xử lý các chuỗi thời gian, các phương pháp thống kê cổ điển thường có năng lực dự đoán kém và tính chính xác thấp Chính điều này đã hạn chế khả năng ứng dụng phân tích chuỗi tích thời gian trong các hệ thống độc lập phức tạp trong thực tế

3 Năng lực dự đoán kém trong các thời điểm có những sự kiện đặc biệt hoặc đặc biệt quan trọng được xác định nguyên nhân là do có nhiều hạn chế trong dữ liệu lịch sử

5 NHU CẦU VỀ PHÂN TÍCH CHUỖI THỜI GIAN TĂNG CAO

Yêu cầu lưu kho hỗ trợ giao hàng tức thời cùng sự phát triển mạnh mẽ và rộng khắp thế giới của lĩnh vực thương mại điện tử đã buộc các doanh nghiệp nâng tầm cuộc chơi của mình khi phân tích và đáp ứng nhu cầu của khách hàng Hơn nữa, các phong trào chuyển

Trang 6

đổi số như là Internet vạn vật (IoT – Internet of Thing) và các dự án chuyển đổi số đã và

đang đẩy mạnh tính khả thi và sự dư dả về dữ liệu chuỗi thời gian phục vụ các nhu cầu và hoạt động của mọi tổ chức Xu hướng này vẫn đang được tiếp tục và buộc các doanh nghiệp nâng cao năng lực chủ đạo về chuỗi thời gian của mình xuyên suốt các ngành nghề đa dạng Các ngành nghề nổi bật nhất có thể kể như sau :

1 Bán lẻ

Từ năm 2013, chuỗi các đại siêu thị lớn nhất thế giới Wal-Mart đã bắt đầu chia sẻ dữ liệu theo thời gian thực về số lượng hàng hóa đang được bày bán tại các siêu thị của mình với các nhà cung cấp hàng hóa để các nhà cung cấp có thể xử lý dữ liệu nhanh chóng kịp thời theo tình hình thực tế và cung cấp hàng hóa nhanh chóng Các nhà cung cấp sẽ sử dụng

dữ liệu được chia sẻ này để dự đoán khoảng thời gian cung cấp hàng hóa tiếp theo và bổ sung số lượng hàng hóa kịp thời với độ chính xác về thời gian phải là 85% hoặc sẽ bị phạt 3% giá trị hợp đồng theo các điều khoản đã ký kết

2 Vận tải

Uber dựa vào dự đoán chuỗi thời gian để dự đoán Cung và Cầu khi phân tích cả về không gian và thời gian với độ chi tiết cao để hướng dẫn tài xế đi đến những khu vực dự đoán sẽ có nhu cầu vận chuyển tăng cao trước khi nhu cầu vận chuyển đó tăng lên Điều này rất cần thiết cho mô hình kinh doanh của Uber là kết nối tài xế và khách hàng kịp thời nhanh chóng thông qua dịch vụ nền tảng của Uber

3 Năng lượng

Một trong những công ty cung cấp điện lớn nhất châu Âu đã tích hợp hơn 80 thiết bị cảm biến trong đồng hồ điện tại mỗi hộ gia đình để đọc và lưu trữ dữ liệu nhật ký hoạt động của đồng hồ điện để từ đó dự đoán chất lỏng niêm phong có bị phá hoại hay không hoặc lỗi không phát hiện rung động khi đồng hồ điện bị phá hoại cùng các bất thường khác Ứng dụng phân tích chuỗi thời gian của công ty đã hỗ trợ người dân và các nhà quản lý xử lý các tình huống xấu sớm hơn 03 tuần so với thời điểm các tình huống xấu này sẽ xảy ra với

độ tin cậy cao và không xảy ra các cảnh báo sai

4 Sản xuất

Tập đoàn điện tử và điện gia dụng Haier sử dụng công cụ điều phối hoạt động được tin học hóa để phân tích dữ liệu nhật ký từ hệ thống tin học gồm các chuỗi thời gian Công

Trang 7

cụ này sẽ giúp giảm thời gian cần thiết để xác định các sự cố và điều tra nguồn gốc của sự

cố theo từng ngày, từng giờ, thậm chí theo từng phút trong một số tình huống cần thiết

6 TRIỂN VỌNG VÀ THÁCH THỨC CỦA MÁY HỌC

Các bài toán phức tạp trong thực tế về chuỗi thời gian thực kể trên đã khái quát về các tập dữ liệu khổng lồ chứa đựng nhiều đặc trưng tiềm năng đã và đang được thu thập trong thời gian dài vừa qua Đa số các bài toán này về bản chất là các bài toán đa biến mà các phương pháp cổ điển có thể sử dụng nhưng có độ chính xác và năng lực dự đoán không cao, nhưng các kỹ thuật của Máy học có thể giải quyết những hạn chế này ví dụ như phương

pháp hồi quy Ridge (Ridge regressors), Cây tăng cường (Boosted tree) và mạng nơ rôn

(Neural network)

Các phương pháp của Máy học không những khắc phục được tính tuyến tính, các giả thuyết phân phối và ổn định tiêu biểu trong việc xây dựng mô hình cổ điển mà còn có thể xây dựng được các mô hình khả thi với độ thích nghi cao hơn khi phân tích đa biến và hạn

chế rủi ro về độ trùng khớp giữa tập dữ liệu và mẫu dữ liệu (Overfitting) Đặc biệt, các

phương pháp Máy học rất phù hợp với những tập dữ liệu chứa nhiều đặc trưng Theo đánh giá của các chuyên gia IBM dự đoán rằng năm 2022, khi ứng dụng các phương pháp Máy học trong các hoạt động tin học, 75% các hoạt động này sẽ được thay thế bằng các chức năng và hoạt động phân tích và tự động hóa dựa trên các phương pháp Máy học, giúp giảm được hơn 25% chi phí vận hành và hoạt động của các hệ thống tin học

Tuy nhiên, Máy học cũng có một số thách thức sau :

1 Thiếu nhân sự có kỹ năng

Có lẽ khó khăn lớn nhất là nguồn nhân lực thực hiện các thuật toán máy học áp dụng cho chuỗi thời gian Các nhà khoa học dữ liệu và chuyên gia máy học vẫn còn thiếu hụt

trong nhiều tổ chức, ví dụ trong nhóm các nước châu Á – Thái Bình Dương (APEJ, trừ

Nhật), chỉ có 23,7% tổ chức có các nhà khoa học dữ liệu, trong số các nhà khoa học dữ liệu

ít ỏi này cũng chỉ có 20,5% có nền tảng trình độ mở rộng gồm cả Khoa học máy tính và Máy học

2 Quy trình phức tạp

Các tổ chức gặp nhiều khó khăn trong các bước triển khai khi xây dựng mô hình máy học phức tạp và có tính lặp lại, trong đó bao gồm các giai đoạn khác nhau về chuẩn bị dữ

Trang 8

liệu, xây dựng các đặc trưng, xây dựng mô hình, đánh giá mô hình và triển khai mô hình vào thực tế Hình 2 minh họa dòng công việc, cần phải biết rằng tính lặp lại không chỉ cần thiết giữa các bước mà còn cần thiết ở bên trong mỗi bước

Hình 2: Quy trình phát triển mô hình Máy học

3 Nhiều công cụ thiếu tính liên kết

Các phần mềm công cụ khác nhau thường chỉ thực hiện một giai đoạn của quy trình phát triển mô hình máy học phức tạp Không giống như việc phát triển phần mềm truyền thống, các nhà phát triển xây dựng một công cụ để thực hiện nhiều giai đoạn, các nhà phát triển máy học thường sử dụng các công cụ và thuật toán khác nhau để xác định hiệu quả của chúng về độ chính xác và kết quả thực hiện Tất yếu điều này sẽ dẫn tới việc tinh chỉnh

và điều chỉnh sao cho phù hợp nhất nhưng lại khó khăn khi hệ thống hóa và lặp lại

4 Quản lý các kết quả thực nghiệm

Mỗi thuật toán Máy học có nhiều tham số cấu hình vì thế sẽ tốn thời gian và chi phí

để theo dõi tập tham số nào đã được tinh chỉnh trong thực nghiệm nào đề từ đó tập trung vào mô hình tối ưu nhất Nhiều tổ chức đã phải nỗ lực cố gắng phát triển nhanh các phương pháp luận cần thiết để đạt hiệu quả

5 Triển khai mô hình Máy học

Cũng như khả năng mở rộng, tăng quy mô ứng dụng của mô hình để xử lý số lượng lớn dữ liệu thì việc chú trọng xem xét khi triển khai các mô hình Máy học trong khi thực hiện là khả năng tương tác giữa các nền tảng nội bộ khác nhau đang có sẵn và phạm vi ứng

dụng rộng lớn của các công cụ triển khai cũng như môi trường để hoạt động (khả năng phục

vụ của kiến trúc phần mềm REST, thời gian thực hiện truy vấn theo lô hoặc các ứng dụng

di động)

Trang 9

NHỮNG THÁCH THỨC CỦA RIÊNG CHUỖI THỜI GIAN

1 Giai đoạn chuẩn bị dữ liệu

Chuẩn bị dữ liệu cho chuỗi thời gian có thể khó khăn và nên bao gồm không chỉ các vấn đề phổ biến như dữ liệu không đầy đủ, dữ liệu không được chuẩn hóa, dữ liệu đầu vào sai, dữ liệu dị thường mà còn phải quan tâm đến khoảng cách thời gian đúng theo quy ước Các khoảng cách thời gian không theo quy ước có thể phát sinh thiếu hoặc dư các đặc trưng khiến cho việc xây dựng mô hình thất bại

2 Dễ sai lầm khi kiểm tra và đánh giá

Việc đánh giá các mô hình của chuỗi thời gian cũng rất khó khăn Một mô hình chuỗi thời gian khi sử dụng một hoặc nhiều phép đo có thể có độ chính xác cao nhưng lại có thể không đủ năng lực để thực hiện dự đoán Nói chung, các tiêu chí đánh giá phải được lựa chọn cẩn thận theo từng trường hợp cụ thể

3 Khả năng diễn giải mô hình

Khả năng diễn giải mô hình đối với dữ liệu chuỗi thời gian có tầm quan trọng hơn so với các loại dữ liệu khác vì phân tích chuỗi thời gian thường gắn bó chặt chẽ với các quyết định kinh doanh quan trọng Người sử dụng hiếm khi ra quyết định mà không hiểu biết rõ ràng về các giả thuyết được đưa vào mô hình Chính điều này đã tạo ra thách thức to lớn cho các phương pháp Máy học vì nếu không giải quyết được thách thức này thì các phương pháp Máy học sẽ được xem là mơ hồ, không rõ ràng và thiếu minh bạch

SỰ TRỖI DẬY CỦA MÁY HỌC TỰ ĐỘNG

Theo khảo sát gần đây của tạp chí InfoWorld, hơn 46% công ty ở Tây Âu thừa nhận rằng họ đang gặp khó khăn trong nhiều bước của quy trình xây dựng mô hình Máy học, bao gồm các giai đoạn như chuẩn bị dữ liệu, xây dựng các đặc trưng, xây dựng mô hình và đánh giá mô hình Cũng không có gì ngạc nhiên khi các nhà cung cấp giải pháp đã bắt đầu giảm bớt độ phức tạp của quá trình phát triển mô hình Máy học bằng cách sắp xếp lại một cách hợp lý các bước trong quy trình hoặc tự động hóa quy trình xây dựng mô hình

Phần lớn các nhà cung cấp giải pháp tập trung nhiều vào chức năng “Máy học tự động” bằng việc cung cấp các công cụ và mô hình đã được cấu hình sẵn để hỗ trợ các nhiệm

vụ khác nhau trong quy trình phát triển mô hình Máy học từ giai đoạn đầu đến giai đoạn cuối Một số nhà cung cấp giải pháp tích hợp một phương pháp mới cho “Máy học tự động”

Trang 10

là tự động tìm kiếm trong không gian một hoặc nhiều mô hình tiềm năng phù hợp với tập

dữ liệu có sẵn và tự động lựa chọn mô hình phù hợp nhất với các tiêu chí được định nghĩa ban đầu, quy trình đó được minh họa trong hình 3 sau :

Hình 3 : Quy trình phát triển mô hình Máy học

Các phương pháp này không loại trừ lẫn nhau, các mô hình Máy học tự động có thể

sử dụng chế độ thủ công để chuyển đổi qua lại nhằm công nhận kết quả xử lý của nhau Cả hai phương pháp trên hứa hẹn sẽ giúp tăng năng suất của các nhà khoa học dữ liệu khi họ phát triển các mô hình Máy học phức tạp Tuy nhiên, phần lớn các nhà cung cấp giải pháp vẫn còn tồn tại nhiều hạn chế trong việc xây dựng tính năng Máy học tự động, đặc biệt là đối với dữ liệu chuỗi thời gian

LỢI ÍCH CỦA MÁY HỌC TỰ ĐỘNG

Các nhà khoa học dữ liệu thường mất 19% thời gian để thu thập các tập dữ liệu, 60% thời gian để làm sạch dữ liệu và tổ chức các tập dữ liệu Việc chuẩn bị dữ liệu tốn kém thời gian như vậy đã làm cho các nhà khoa học dữ liệu còn rất ít thời gian để giải quyết các bài toán khó Máy học tự động thay đổi việc xây dựng và sử dụng các mô hình Máy học dễ dàng bằng các hệ thống đã được phát triển, điều này giúp các nhà khoa học dữ liệu của các

tổ chức tập trung hơn vào các bài toán phức tạp

Khi xây dựng các mô hình máy học, nhà khoa học dữ liệu tuần tự thực hiện các bước theo kiểu truyền thống như thu thập dữ liệu thô, phân tích và lọc dữ liệu thô, lựa chọn thuật toán giải quyết bài toán, huấn luyện và điều chỉnh thuật toán, kiểm tra chức năng của thuật toán để thu được kết quả và lặp lại quy trình đến khi tìm được thuật toán tốt nhất Khi không tìm được thuật toán tốt nhất để giải quyết bài toán, đội ngũ nhà khoa học dữ liệu cần tìm ra những thuật toán đúng để sử dụng dữ liệu đang có Nếu các nhà khoa học dữ liệu không được có nền tảng chuyên môn đúng và phù hợp hoặc không đánh giá đúng các kỹ thuật giải

Ngày đăng: 31/12/2022, 12:42

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w