KHAI THÁC DỮ LIỆU, HỌC MÁY VÀ PHÂN TÍCH DỮ LIỆU LỚN Bài báo này phân tích các phương pháp học sâu, khai thác dữ liệu truyền thống và học máy; so sánh ưu nhược điểm của các phương pháp truyền thống; gi.
Trang 1KHAI THÁC DỮ LIỆU, HỌC MÁY VÀ PHÂN TÍCH DỮ LIỆU LỚN
Bài báo này phân tích các phương pháp học sâu, khai thác dữ liệu truyền thống và học máy; so sánh ưu nhược điểm của các phương pháp truyền thống; giới thiệu nhu cầu doanh nghiệp, hệ thống và dữ liệu, thách thức CNTT và Dữ liệu lớn trong cơ
sở hạ tầng dịch vụ mở rộng Tính khả thi và thách thức của các ứng dụng học sâu
và phương pháp khai thác dữ liệu truyền thống và học máy trong phân tích Dữ liệu lớn cũng được phân tích và trình bày
1 Giới thiệu
Khai phá dữ liệu tập trung vào khám phá tri thức của dữ liệu Học máy tập trung vào dự đoán dựa trên đào tạo và học tập Khai thác dữ liệu sử dụng nhiều phương pháp học máy; học máy cũng sử dụng các phương pháp khai thác dữ liệu làm tiền
xử lý để học tốt hơn và chính xác hơn Học máy bao gồm cả phương pháp học có giám sát và không giám sát Khai thác dữ liệu có sáu nhiệm vụ chính: phân cụm, phân loại, hồi quy, phát hiện bất thường hoặc ngoại lệ, học quy tắc kết hợp và tóm tắt Tính khả thi và thách thức của các ứng dụng khai thác dữ liệu và học máy trong
dữ liệu lớn đã là một chủ đề nghiên cứu mặc dù còn nhiều thách thức Giảm kích thước dữ liệu là một trong những vấn đề trong xử lý dữ liệu lớn
Dữ liệu chiều cao có thể gây ra các vấn đề cho việc khai thác dữ liệu và học máy mặc dù tính chiều cao có thể giúp ích trong một số tình huống nhất định, chẳng hạn như phân loại phi tuyến tính Tuy nhiên, điều quan trọng là phải kiểm tra xem có thể giảm số chiều trong khi vẫn bảo toàn các thuộc tính cơ bản của ma trận dữ liệu đầy đủ hay không.1 Giảm kích thước tạo điều kiện thuận lợi cho việc phân loại, giao tiếp, trực quan hóa và lưu trữ dữ liệu nhiều chiều Phương pháp được sử dụng rộng rãi nhất trong việc giảm kích thước là phân tích thành phần chính (PCA) PCA là một phương pháp đơn giản tìm hướng có phương sai lớn nhất trong tập dữ liệu và biểu thị từng điểm dữ liệu theo tọa độ của nó dọc theo từng hướng này2 Hướng có phương sai dự kiến lớn nhất được gọi là thành phần chính đầu tiên Hướng trực giao thu được phương sai dự kiến lớn thứ hai được gọi là thành phần chính thứ hai, v.v.1 PCA rất hữu ích khi có một số lượng lớn biến trong dữ liệu và có một số dư thừa trong các biến đó Trong tình huống này, dự phòng có nghĩa là một số biến có tương quan với nhau Do sự dư thừa này, PCA có thể được
sử dụng để giảm các biến quan sát thành một số lượng nhỏ hơn các thành phần chính3
Phân tích nhân tố là một phương pháp khác để giảm kích thước Nó rất hữu ích để
hiểu những lý do cơ bản cho mối tương quan giữa một nhóm các biến Các ứng
Trang 2dụng chính của phân tích nhân tố là giảm số lượng biến và phát hiện cấu trúc trong mối quan hệ giữa các biến Do đó, phân tích nhân tố thường được sử dụng như một phương pháp phát hiện cấu trúc hoặc giảm dữ liệu Cụ thể, nó được sử dụng để tìm
ra các nhân tố ẩn đằng sau các biến quan sát và làm giảm số lượng các biến tương quan Trong phân tích nhân tố, người ta giả định rằng một số biến tiềm ẩn không quan sát được tạo ra dữ liệu quan sát được Dữ liệu được giả định là sự kết hợp tuyến tính của các biến tiềm ẩn và một số nhiễu Số lượng biến tiềm ẩn có thể ít hơn số lượng biến trong dữ liệu được quan sát, đáp ứng việc giảm kích thước4 5 Trong các ứng dụng thực tế, tỷ lệ 75% và 25% thường được sử dụng tương ứng cho tập dữ liệu huấn luyện và kiểm chứng Tuy nhiên, phương pháp được sử dụng thường xuyên nhất, đặc biệt là trong lĩnh vực mạng thần kinh, là chia tập dữ liệu thành ba khối: đào tạo, xác nhận và kiểm tra Dữ liệu thử nghiệm sẽ không được sử dụng trong giai đoạn lập mô hình6 Kỹ thuật xác thực chéo k -fold là một kỹ thuật
phổ biến được sử dụng để ước tính hiệu suất của bộ phân loại vì nó khắc phục được vấn đề khớp quá mức7 Trong xác thực chéo k -fold, dữ liệu ban đầu được phân chia ngẫu nhiên thành k tập con loại trừ lẫn nhau hoặc "các nếp gấp" Đào tạo
và kiểm tra được thực hiện k lần Mỗi mẫu được sử dụng cùng một số lần để huấn
luyện và một lần để kiểm tra8 Chuẩn hóa đặc biệt hữu ích cho các thuật toán phân loại liên quan đến mạng thần kinh hoặc các phép đo khoảng cách như phân loại và phân cụm lân cận gần nhất Đối với các phương pháp dựa trên khoảng cách, chuẩn hóa giúp ngăn các thuộc tính có phạm vi lớn ban đầu (ví dụ: thu nhập) vượt trội so với các thuộc tính có phạm vi ban đầu nhỏ hơn (ví dụ: thuộc tính nhị phân) Có nhiều phương pháp để chuẩn hóa dữ liệu như chuẩn hóa tối thiểu-tối đa, chuẩn hóa
điểm số z và chuẩn hóa theo tỷ lệ thập phân
Mục đích của bài báo này là 1) phân tích học sâu và các phương pháp học máy và
khai thác dữ liệu truyền thống (bao gồm k -mean , k -hàng xóm gần nhất, máy
vectơ hỗ trợ, cây quyết định, hồi quy logistic, Naive Bayes, mạng nơ-ron, đóng bao, tăng cường , và rừng ngẫu nhiên); 2) so sánh những ưu điểm và nhược điểm của các phương pháp truyền thống; 3) giới thiệu các nhu cầu, hệ thống và dữ liệu của doanh nghiệp, các thách thức CNTT và Dữ liệu lớn trong cơ sở hạ tầng dịch vụ
mở rộng; và 4) thảo luận về tính khả thi và thách thức của các ứng dụng học sâu và phương pháp khai thác dữ liệu truyền thống và học máy trong phân tích Dữ liệu lớn
2 Một số phương pháp trong Data Mining và Machine Learning
2.1 k -means , k - mode, k -prototypes và phân tích cụm
Trang 3Các phương pháp phân cụm có thể được phân loại thành các loại sau: phương pháp phân vùng, phương pháp phân cấp, phương pháp dựa trên mô hình, phương pháp dựa trên lưới, phương pháp dựa trên mật độ và phương pháp dựa trên ràng buộc Ưu điểm chính của phân cụm so với phân loại là khả năng thích ứng với các thay đổi và giúp chọn ra các tính năng hữu ích để phân biệt các nhóm khác nhau9 Một phương pháp phân cụm tốt sẽ tạo ra các cụm chất lượng cao với độ tương tự trong lớp cao và độ tương tự giữa các lớp thấp Chất lượng của việc phân cụm phụ thuộc vào sự phù hợp của phương pháp đối với tập dữ liệu, thước đo độ tương tự (không) được sử dụng và việc thực hiện nó Chất lượng của một phương pháp phân cụm cũng được đo bằng khả năng khám phá một số hoặc tất cả các mẫu
ẩn Các loại dữ liệu trong phân tích phân cụm bao gồm danh nghĩa (phân loại), biến theo tỷ lệ khoảng, biến nhị phân, biến thứ tự và các loại hỗn hợp10
k -means sử dụng phương pháp lặp đi lặp lại tham lam để tìm phân cụm giúp giảm
thiểu tổng lỗi bình phương (SSE) Nó có thể hội tụ đến một tối ưu cục bộ thay vì tối ưu toàn cầu1 Các thuộc tính quan trọng của thuật toán k -means bao gồm11 : 1) hiệu quả trong việc xử lý các tập dữ liệu lớn; 2) chỉ hoạt động trên các giá trị số; 3)
cụm có dạng lồi Người dùng cần chỉ định trước k (số cụm) Phương pháp có thể
kết thúc tại một địa phương tối ưu Tối ưu toàn cầu có thể được tìm thấy bằng cách
sử dụng các kỹ thuật như ủ xác định và thuật toán di truyền Phương pháp k -means không áp dụng cho dữ liệu phân loại trong khi k- mode là phương pháp dành cho
dữ liệu phân loại sử dụng các chế độ k -mode sử dụng các biện pháp khác biệt mới
để xử lý các đối tượng phân loại và sử dụng phương pháp dựa trên tần số để cập
nhật các chế độ của cụm Phương pháp nguyên mẫu k có thể xử lý hỗn hợp dữ liệu
phân loại và số10
2.2 k -Hàng xóm gần nhất
Phân loại k -hàng xóm gần nhất ( k -NN) tìm một nhóm gồm k đối tượng trong tập
huấn luyện gần nhất với đối tượng thử nghiệm và dựa trên việc gán nhãn dựa trên
ưu thế của một lớp cụ thể trong vùng lân cận này k -NN liên quan đến việc gán
cho một đối tượng một lớp của hàng xóm gần nhất của nó hoặc của phần lớn các
hàng xóm gần nhất của nó Nói một cách cụ thể, phân loại k -NN tìm thấy k phiên
bản huấn luyện gần nhất với phiên bản chưa nhìn thấy và lấy phân loại thường xảy
ra nhất cho k phiên bản này Có một số vấn đề chính ảnh hưởng đến hiệu suất của k -NN Một là sự lựa chọn của k Nếuk quá nhỏ, kết quả có thể nhạy cảm với các điểm nhiễu Mặt khác, nếu k quá lớn, lân cận có thể bao gồm quá nhiều điểm từ các lớp khác Ước tính giá trị tốt nhất cho k có thể thu được bằng xác thực chéo Cho đủ mẫu, giá trị lớn hơn của k có khả năng chống nhiễu tốt
Trang 4hơn12 , 13 Thuật toán k -NN để phân loại là một thuật toán học 'dựa trên cá thể' rất
đơn giản Mặc dù đơn giản nhưng nó có thể mang lại hiệu quả rất tốt đối với một
số bài toán3 Các thuộc tính quan trọng của thuật toán k -NN là11 : 1) dễ triển khai
và sử dụng; 2) nó cần rất nhiều không gian để lưu trữ tất cả các đối tượng
2.3 Máy véc tơ hỗ trợ
Máy vectơ hỗ trợ (SVM) là một phương pháp học có giám sát được sử dụng cho các tác vụ phân loại và hồi quy3 SVM đã được chứng minh là hoạt động tốt trên các bài toán thưa thớt, phi tuyến tính và nhiều chiều Một lợi thế của phương pháp
là việc xây dựng mô hình chỉ sử dụng các vectơ hỗ trợ chứ không phải toàn bộ tập
dữ liệu huấn luyện Do đó, kích thước của tập huấn luyện thường không phải là vấn đề Ngoài ra, mô hình ít bị ảnh hưởng bởi các ngoại lệ do chỉ sử dụng các vectơ hỗ trợ để xây dựng mô hình Một nhược điểm là thuật toán nhạy cảm với việc lựa chọn tùy chọn điều chỉnh (ví dụ: loại phép biến đổi sẽ thực hiện) Điều này làm cho nó tốn thời gian và khó sử dụng hơn cho mô hình tốt nhất Một nhược điểm khác là các phép biến đổi được thực hiện trong cả quá trình xây dựng mô hình và tính điểm dữ liệu mới Điều này làm cho nó tốn kém về mặt tính toán SVM hoạt động với các giá trị số và danh nghĩa; phân loại SVM hỗ trợ cả mục tiêu nhị phân và đa lớp14
2.4 Cây và hồi quy logistic
Cây quyết định được sử dụng trong khai thác dữ liệu bao gồm hai loại chính: 1) cây phân loại để dự đoán lớp mà dữ liệu thuộc về; và 2) cây hồi quy để dự đoán kết quả là một số thực Cây phân loại và cây hồi quy cung cấp các cách tiếp cận khác nhau để dự đoán15 Khi xây dựng một cây, các biện pháp như ý nghĩa thống kê, thu được thông tin, chỉ số Gini, v.v có thể được sử dụng để đánh giá hiệu quả của việc phân tách Khi một cây quyết định được xây dựng, nhiều nhánh sẽ phản ánh sự bất thường trong dữ liệu huấn luyện do nhiễu hoặc ngoại lệ Các phương pháp cắt tỉa cây giải quyết vấn đề ghi đè dữ liệu này Cây được cắt tỉa có xu hướng nhỏ hơn và
ít phức tạp hơn, do đó dễ hiểu hơn Chúng thường nhanh hơn và tốt hơn trong việc phân loại chính xác dữ liệu thử nghiệm độc lập8 Có hai cách cắt tỉa cây: 1) cắt tỉa
trước — cây được cắt tỉa bằng cách tạm dừng quá trình xây dựng của nó sớm; 2) cắt tỉa sau — phương pháp này loại bỏ một cây con khỏi một cây trưởng
thành9 Chiến lược cắt tỉa sau (đôi khi được gọi là cắt tỉa ngược) thay vì cắt tỉa trước (hoặc tỉa trước) thường được áp dụng sau khi xây dựng một cây hoàn
chỉnh16 Cả cây phân vùng đệ quy và cây suy luận có điều kiện đều không theo tham số, hoạt động trên cả bài toán phân loại và hồi quy, đồng thời rất linh hoạt và
Trang 5dễ diễn giải trong khi chúng cĩ xu hướng khớp quá mức Cây suy luận cĩ điều kiện
ít bị sai lệch hơn cây phân vùng đệ quy7 Hồi quy logistic là một mơ hình hồi quy trong đĩ biến phụ thuộc là phân loại Nĩ khơng tốn kém về mặt tính tốn, dễ thực hiện, biểu diễn tri thức tốt và dễ diễn giải Tuy nhiên, nĩ dễ bị thiếu và cĩ thể cĩ độ chính xác thấp5
2.5 Nạve Bayes
Bộ phân loại Nạve Bayes là một phương pháp phân loại khơng sử dụng các quy tắc, cây quyết định hoặc bất kỳ biểu diễn rõ ràng nào khác của bộ phân loại Thay vào đĩ, nĩ sử dụng lý thuyết xác suất để tìm ra các phân loại khả thi nhất13 Nạve Bayes hoạt động với một lượng nhỏ dữ liệu và giá trị danh nghĩa5 Các thuộc tính quan trọng của thuật tốn Naive Bayes là11 : 1) rất dễ xây dựng và đào tạo cũng dễ dàng và nhanh chĩng; và 2) nĩ cĩ khả năng mở rộng cao
Vẻ đẹp của bộ phân loại Naive Bayes nằm ở sự đơn giản, hiệu quả tính tốn, hiệu suất phân loại tốt Trên thực tế, nĩ thường vượt trội so với các bộ phân loại tinh vi hơn ngay cả khi giả định cơ bản về các yếu tố dự báo độc lập là khơng đúng Ưu điểm này đặc biệt dành cho tình huống khi số lượng người dự đốn là rất lớn Cĩ nhiều tính năng hơn về Naive Bayes Đầu tiên, bộ phân loại Naive Bayes yêu cầu
số lượng bản ghi rất lớn để thu được kết quả tốt Thứ hai, khi danh mục cơng cụ dự đốn khơng cĩ trong dữ liệu huấn luyện, Naive Bayes giả định rằng một bản ghi mới với danh mục cơng cụ dự đốn đĩ cĩ xác suất bằng khơng Đây cĩ thể là một vấn đề nếu giá trị dự đốn hiếm này là quan trọng Cuối cùng, hiệu suất tốt đạt được khi mục tiêu là phân loại hoặc xếp hạng các hồ sơ theo xác suất thuộc về một
lớp nhất định Tuy nhiên, khi mục tiêu là thực sự ước tính xác suất thành viên của
lớp, phương pháp này cung cấp kết quả rất sai lệch Vì lý do này, phương pháp Naive Bayes hiếm khi được sử dụng trong chấm điểm tín dụng17
2.6 Mạng thần kinh
Mạng nơ-ron hay cịn gọi là mạng nơ-ron nhân tạo, là mơ hình để phân loại và dự đốn17 Các thuật tốn mạng thần kinh vốn đã song song Các phương pháp song song hĩa cĩ thể được sử dụng để tăng tốc quá trình tính tốn Ngồi ra, một số kỹ thuật gần đây đã được phát triển để trích xuất các quy tắc từ các mạng thần kinh được đào tạo Điều này gĩp phần ứng dụng mạng nơ-ron để phân loại và dự đốn trong khai thác dữ liệu6 Các thuộc tính quan trọng của mạng nơ-ron như sau17 :
• Thứ nhất, mặc dù mạng nơ-ron cĩ khả năng khái quát hĩa từ một tập hợp các ví
dụ, phép ngoại suy vẫn là một mối nguy hiểm nghiêm trọng Nếu mạng chỉ nhìn
Trang 6thấy các trường hợp trong một phạm vi nhất định, thì dự đoán của nó bên ngoài phạm vi này có thể hoàn toàn không hợp lệ
• Thứ hai, mạng nơ-ron không có cơ chế chọn biến tích hợp Điều này có nghĩa là cần phải xem xét cẩn thận các yếu tố dự báo Sự kết hợp với cây phân loại và cây hồi quy và các kỹ thuật giảm kích thước khác (ví dụ: phân tích thành phần chính) thường được sử dụng để xác định các yếu tố dự đoán chính
• Thứ ba, tính linh hoạt cao của mạng thần kinh phụ thuộc rất nhiều vào việc có đủ
dữ liệu cho mục đích đào tạo Mạng thần kinh hoạt động kém khi kích thước tập huấn luyện không đủ, ngay cả khi mối quan hệ giữa phản hồi và yếu tố dự đoán là rất đơn giản
• Thứ tư, một vấn đề kỹ thuật là nguy cơ đạt được các trọng số dẫn đến tối ưu cục
bộ hơn là tối ưu toàn cục
• Cuối cùng, mạng thần kinh liên quan đến nhiều tính toán và yêu cầu thời gian chạy lâu hơn so với các bộ phân loại khác Thời gian chạy tăng lên rất nhiều khi số lượng bộ dự đoán tăng lên
Thuật toán mạng thần kinh phổ biến nhất là lan truyền ngược Backpropagation sử
dụng phương pháp giảm dần độ dốc Giá trị đích có thể là nhãn lớp đã biết của bộ
dữ liệu huấn luyện (đối với bài toán phân loại) hoặc giá trị liên tục (đối với dự đoán)6 Sự đánh đổi phải nằm giữa phù hợp quá mức và phù hợp để quyết định kích thước của lớp ẩn Sử dụng quá ít nút có thể không đủ để nắm bắt các mối quan
hệ phức tạp Mặt khác, quá nhiều nút có thể dẫn đến trang bị quá mức Một nguyên
tắc chung là bắt đầu với các nút p (số lượng dự đoán) và giảm dần/tăng lên một
chút trong khi kiểm tra xem có trang bị quá mức không17
Ưu điểm của mạng thần kinh bao gồm hiệu suất dự đoán tốt, khả năng chịu đựng
dữ liệu nhiễu cũng như khả năng phân loại các mẫu mà chúng chưa được đào tạo Chúng có thể được sử dụng khi bạn có ít kiến thức về mối quan hệ giữa các thuộc tính và lớp Chúng rất phù hợp với các đầu vào và đầu ra có giá trị liên tục, không giống như hầu hết các thuật toán cây quyết định6 17 Mạng lưới thần kinh rất chung chung và có thể ước tính các mối quan hệ phức tạp Điểm yếu nhất của chúng là cung cấp cái nhìn sâu sắc về cấu trúc của mối quan hệ, và do đó mang tiếng là “hộp đen” của chúng Người dùng mạng thần kinh phải đưa ra nhiều giả định mô hình hóa, chẳng hạn như số lớp ẩn và số đơn vị trong mỗi lớp ẩn lớp, và thường có rất ít hướng dẫn về cách thực hiện điều này.Hơn nữa, lan truyền ngược
có thể khá chậm nếu hằng số học không được chọn chính xác17 , 18
Trang 7Việc giảm kích thước dữ liệu có thể được thực hiện với các mạng thần kinh Dữ liệu chiều cao có thể được chuyển đổi thành mã chiều thấp bằng cách huấn luyện mạng thần kinh nhiều lớp với một lớp trung tâm nhỏ để tái tạo lại các vectơ đầu vào chiều cao Độ dốc gốc có thể được sử dụng để tinh chỉnh các trọng số trong các mạng ''bộ mã hóa tự động'' như vậy, nhưng điều này chỉ hoạt động tốt nếu các trọng số ban đầu gần với một giải pháp tốt Một cách hiệu quả để khởi tạo các trọng số cho phép các mạng bộ mã hóa tự động sâu học các mã có chiều thấp đã được đề xuất Nó hoạt động tốt hơn so với phân tích thành phần chính như một công cụ để giảm kích thước của dữ liệu2
2.7 Học kĩ càng
Học sâu là một lĩnh vực mới trong nghiên cứu máy học, đã được giới thiệu với mục tiêu đưa máy học đến gần hơn với một trong những mục tiêu ban đầu của nó -trí tuệ nhân tạo Học sâu là về việc học nhiều cấp độ biểu diễn và trừu tượng giúp hiểu dữ liệu19 Máy sâu hiệu quả hơn để biểu diễn các lớp chức năng nhất định; đặc biệt đối với những người liên quan đến nhận dạng hình ảnh, chúng có thể biểu diễn các chức năng phức tạp hơn với ít “phần cứng” hơn SVM và các phương thức Kernel không sâu Cây phân loại cũng không sâu vì không có phân cấp tính năng Học sâu liên quan đến các hàm mất mát không lồi và học có giám sát sâu là không lồi20 Học sâu có tiềm năng xử lý dữ liệu lớn mặc dù có những thách thức Một số phương pháp đã được đề xuất để sử dụng dữ liệu chưa được gắn nhãn trong các kiến trúc dựa trên mạng thần kinh sâu Các phương pháp này hoặc thực hiện đào tạo trước các trọng số theo lớp tham lam chỉ sử dụng dữ liệu không được gắn nhãn, sau đó là tinh chỉnh có giám sát hoặc tìm hiểu các mã hóa không được giám sát ở nhiều cấp độ kiến trúc cùng với tín hiệu được giám sát Đối với phần sau, thiết lập cơ bản như sau: 1) chọn thuật toán học không giám sát; 2) chọn một mô hình có kiến trúc sâu; 3) học không giám sát được cắm vào bất kỳ (hoặc tất cả) lớp nào của kiến trúc như một nhiệm vụ phụ trợ; và 4) đào tạo đồng thời các nhiệm vụ được giám sát và không được giám sát sử dụng cùng một kiến trúc21
2.8 So sánh các phương pháp khác nhau và phương pháp tập hợp
Bảng 1 so sánh những ưu điểm và nhược điểm của phương pháp khai thác dữ liệu truyền thống (DM) và học máy (ML)
Bảng 1 Ưu điểm và nhược điểm của các phương pháp DM/ML truyền thống
Trang 8Các phương pháp tập hợp làm tăng độ chính xác của phân loại hoặc dự đoán Đóng gói, tăng cường và rừng ngẫu nhiên là ba phương pháp phổ biến nhất trong học tập đồng bộ Bộ phân loại bootstrap (hoặc đóng gói) thường tốt hơn một bộ phân loại duy nhất có nguồn gốc từ tập huấn luyện ban đầu Độ chính xác tăng lên xảy ra do
mô hình tổng hợp làm giảm phương sai của các bộ phân loại riêng lẻ Để dự đoán, một công cụ dự đoán đóng gói cải thiện độ chính xác so với một công cụ dự đoán duy nhất Nó mạnh mẽ đối với dữ liệu quá mức và ồn ào Các phương pháp Bootstrap có thể được sử dụng không chỉ để đánh giá sự khác biệt của mô hình mà còn cải thiện độ chính xác Các phương pháp đóng gói và tăng tốc sử dụng kết hợp các mô hình và kết hợp kết quả của nhiều phương pháp Cả đóng gói và tăng tốc đều có thể được sử dụng để phân loại cũng như dự đoán6 7 8 18
Đóng gói, viết tắt của tập hợp bootstrap, là một phương pháp phân loại đồng bộ sử dụng nhiều mẫu bootstrap (có thay thế) từ dữ liệu huấn luyện đầu vào để tạo các
Trang 9tập huấn luyện hơi khác nhau1 Đóng gói là ý tưởng thu thập một mẫu quan sát ngẫu nhiên vào một cái túi Nhiều túi được tạo thành từ các quan sát được chọn ngẫu nhiên thu được từ các quan sát ban đầu từ tập dữ liệu huấn luyện14 Đóng gói
là một phương pháp bỏ phiếu sử dụng bootstrap cho các tập huấn luyện khác nhau
và sử dụng các tập huấn luyện để tạo ra những người học cơ sở khác nhau Phương pháp đóng bao sử dụng sự kết hợp của những người học cơ sở để đưa ra dự đoán tốt hơn7
Tăng cường cũng là một phương pháp tập hợp cố gắng xây dựng các thuật toán học tốt hơn bằng cách kết hợp nhiều thuật toán đơn giản hơn24 Tăng cường tương tự như phương pháp đóng bao Đầu tiên nó xây dựng việc học cơ sở theo trình tự, trong đó mỗi người học kế tiếp được xây dựng cho phần dư dự đoán của người học trước đó Với phương tiện để tạo ra một người học bổ sung, nó sử dụng những sai lầm của những người học trước đó để đào tạo người học cơ sở tiếp theo Tăng
cường đào tạo các bộ phân loại cơ sở trên các mẫu khác nhau1 7 Việc tăng tốc có thể không thực hiện được nếu không có đủ dữ liệu hoặc nếu các mô hình yếu quá phức tạp Boosting cũng dễ bị nhiễu14 Thuật toán thúc đẩy phổ biến nhất là AdaBoost “thích ứng” AdaBoost cực kỳ đơn giản để sử dụng và triển khai (đơn giản hơn nhiều so với SVM) và thường mang lại kết quả rất hiệu quả24 AdaBoost hoạt động với các giá trị số và giá trị danh nghĩa Nó có lỗi tổng quát hóa thấp, dễ viết mã, hoạt động với hầu hết các bộ phân loại và không có tham số để điều chỉnh Tuy nhiên, nó rất nhạy cảm với các ngoại lệ5
Mặc dù đóng gói và sắp xếp ngẫu nhiên mang lại kết quả tương tự nhau, nhưng đôi khi sẽ đáng để kết hợp chúng vì chúng tạo ra tính ngẫu nhiên theo những cách khác nhau và có lẽ bổ sung cho nhau Một thuật toán phổ biến để học các khu rừng ngẫu nhiên xây dựng một cây quyết định ngẫu nhiên trong mỗi lần lặp lại của thuật toán đóng bao và thường tạo ra các dự đoán xuất sắc16 Phương pháp rừng ngẫu nhiên
là một cách tiếp cận tập hợp dựa trên cây thực sự là sự kết hợp của nhiều mô hình1 15 Nó là một bộ phân loại tập hợp bao gồm nhiều cây quyết định25 Một khu rừng ngẫu nhiên mọc nhiều cây phân loại, thu được nhiều kết quả từ một đầu vào Nó sử dụng phần lớn phiếu bầu từ tất cả các cây quyết định để phân loại dữ liệu hoặc sử dụng đầu ra trung bình để hồi quy7
Các mô hình rừng ngẫu nhiên thường rất cạnh tranh với các bộ phân loại phi tuyến tính như mạng lưới thần kinh nhân tạo và máy vectơ hỗ trợ Mô hình rừng ngẫu nhiên là một lựa chọn tốt để xây dựng mô hình vì rất ít quá trình xử lý trước dữ liệu, không yêu cầu chuẩn hóa dữ liệu và có khả năng phục hồi trước các giá trị ngoại lệ Không cần phải lựa chọn biến vì thuật toán tự thực hiện một cách hiệu
Trang 10quả Bởi vì nhiều cây được xây dựng bằng cách sử dụng hai cấp độ ngẫu nhiên (quan sát và biến), mỗi cây thực sự là một mô hình độc lập Thuật toán rừng ngẫu nhiên xây dựng nhiều cây quyết định bằng cách sử dụng một khái niệm gọi là đóng bao để đưa việc lấy mẫu ngẫu nhiên vào toàn bộ quy trình Khi xây dựng từng cây quyết định, thuật toán rừng ngẫu nhiên thường không thực hiện bất kỳ thao tác cắt tỉa cây quyết định nào Các mô hình được trang bị quá mức có xu hướng không hoạt động tốt trên dữ liệu mới Tuy nhiên, một rừng ngẫu nhiên các cây được trang
bị quá mức có thể mang lại một mô hình rất tốt, hoạt động tốt trên dữ liệu mới14
3 Dữ liệu lớn trong cơ sở hạ tầng dịch vụ và thách thức CNTT
Khi các thách thức về dữ liệu doanh nghiệp tiếp tục gia tăng (xem Bảng 2 26 ), các công nghệ truyền thống có những thách thức trong việc xử lý các nguồn Dữ liệu lớn, Đám mây và Phi cấu trúc bàn số 3 Hình 27 cho thấy Dữ liệu lớn là một phần của
cơ sở hạ tầng dịch vụ ảo hóa Hạ tầng phần cứng được ảo hóa bằng công nghệ điện toán đám mây; Trên cơ sở hạ tầng dựa trên đám mây này, Phần mềm dưới dạng Dịch vụ (SaaS); và trên SaaS, có thể xây dựng Quy trình kinh doanh dưới dạng dịch vụ (BPaaS) Song song, Dữ liệu lớn sẽ được cung cấp dưới dạng dịch vụ và được nhúng làm điều kiện tiên quyết cho các dịch vụ Kiến thức, ví dụ: tích hợp Công nghệ ngữ nghĩa để phân tích dữ liệu tổng hợp và phi cấu trúc Dữ liệu lớn dưới dạng Dịch vụ có thể được coi là lớp mở rộng giữa PaaS và SaaS Công nhân tri thức hoặc nhà khoa học dữ liệu là cần thiết để chạy Dữ liệu lớn và Tri thức
Bảng 2 Nhu cầu Doanh nghiệp, Hệ thống và Dữ liệu và Thách thức CNTT
Bảng 3 Dữ liệu lớn trong cơ sở hạ tầng dịch vụ mở rộng