Nội dung chính của luận văn trình bày việc phân tích hành vi sử dụng dịch vụ viễn thông của khách hàng dựa trên thuật toán phân cụm đưa ra chính sách khuyến mại về sản phẩm và theo phân khúc khách hàng. Mời các bạn tham khảo!
Giới thiệu
Trong thời đại hiện nay, dữ liệu trở thành nguồn lực thiết yếu cho sự phát triển của doanh nghiệp bên cạnh vốn và nhân lực Khi mua sắm trực tuyến trên các trang thương mại điện tử như eBay, Amazon, Sendo hay Tiki, người tiêu dùng thường nhận được những gợi ý sản phẩm liên quan và phù hợp với nhu cầu của mình, cho thấy tầm quan trọng của việc khai thác dữ liệu trong kinh doanh.
Khi bạn duyệt điện thoại, các trang mua sắm trực tuyến thường gợi ý những sản phẩm bổ sung như ốp lưng và pin dự phòng Ví dụ, khi bạn mua áo thun, hệ thống sẽ đề xuất thêm quần jean và thắt lưng để hoàn thiện bộ trang phục của bạn.
Các trang web thông minh sử dụng dữ liệu lớn để phân tích sở thích và thói quen của khách hàng, từ đó phân loại các nhóm khách hàng khác nhau Dữ liệu này được thu thập từ hành vi của người dùng trên website hoặc mua từ các công ty cung cấp dữ liệu Việc này không chỉ giúp doanh nghiệp tăng lợi nhuận mà còn nâng cao trải nghiệm mua sắm của người tiêu dùng Doanh nghiệp có thể phát triển sản phẩm phù hợp với nhu cầu khách hàng và tối ưu hóa chính sách phân phối Người tiêu dùng cũng được lợi khi tiết kiệm thời gian và có trải nghiệm mua sắm an tâm hơn Ở cấp độ ngành và vĩ mô, việc ứng dụng dữ liệu lớn giúp các tổ chức và chính phủ dự đoán xu hướng kinh tế, quản lý chi tiêu và có kế hoạch phòng ngừa dịch bệnh hiệu quả.
Việc khai thác hiệu quả nền tảng Big Data mang lại lợi thế cạnh tranh và hiệu quả lớn trong nhiều lĩnh vực, đặc biệt là trong thị trường dịch vụ tài chính đang bão hòa Phân tích ứng dụng của Big Data và các điều kiện cần thiết giúp tối ưu hóa nguồn tài nguyên, tối đa hóa doanh thu và liên kết các mục tiêu kinh doanh với hành vi của khách hàng.
8 khách hàng, nhằm mang lại cho doanh nghiệp phương án kinh doanh hiệu quả nhất
Việc khai thác dữ liệu lớn như một nguồn tài nguyên quý giá giúp doanh nghiệp tiếp cận người dùng hiệu quả, đồng thời hỗ trợ hoàn thiện chính sách kinh doanh, tối đa hóa lợi ích cho khách hàng và thúc đẩy tăng trưởng doanh thu bền vững.
Đề tài "Phân Tích Hành Vi Sử Dụng Dịch Vụ Viễn Thông Của Khách Hàng Dựa Trên Thuật Toán Phân Cụm" nhằm ứng dụng Big Data vào việc khai thác dữ liệu khách hàng Bằng cách sử dụng các công cụ như Hadoop để lưu trữ và vận hành hệ thống Big Data, cùng với Spark và Zeppelin cho xử lý dữ liệu lớn, nghiên cứu này áp dụng các kỹ thuật học máy và phân tích hành vi khách hàng Mục tiêu là đưa ra các chính sách khuyến mại sản phẩm phù hợp theo từng phân khúc khách hàng, từ đó tối ưu hóa trải nghiệm dịch vụ viễn thông.
Phần còn lại của luận văn được trình bày theo cấu trúc như sau
Chương 2 giới thiệu các khái niệm cơ bản liên quan đến nghiên cứu đề tài Big Data, bao gồm các công cụ cần thiết cho việc xây dựng hệ cơ sở dữ liệu khách hàng 360 Đây là khung dữ liệu quan trọng cho việc phát triển và đánh giá các mô hình học máy Bài viết cũng đề cập đến các thuật toán sẽ được áp dụng trong quá trình thực hiện, nhấn mạnh tính ứng dụng của thư viện Spark ML và những ưu điểm nổi bật của Spark trong việc triển khai thuật toán rừng ngẫu nhiên song song.
Chương 3 sẽ trình bày về quá trình thực hiện, các phiên bản xây dựng mô hình và kết quả thực nghiệm
Cuối cùng sẽ là phần kết luận, ý nghĩa phương pháp triển khai, các kết quả đạt được và định hướng nghiên cứu tiếp theo
Công cụ, nền tảng, thuật toán sử dụng và ứng dụng Phân tích dữ liệu
Các công cụ nền tảng
Với sự gia tăng nhanh chóng của công nghệ điện toán đám mây và Internet vạn vật (IoT), dữ liệu toàn cầu đang tăng trưởng với tốc độ gấp đôi mỗi hai năm Giá trị của dữ liệu trong mọi lĩnh vực ngày càng trở nên quan trọng, tuy nhiên, việc khai thác thông tin có giá trị từ khối lượng dữ liệu khổng lồ cũng đặt ra nhiều thách thức Các doanh nghiệp hiện nay yêu cầu xử lý dữ liệu theo thời gian thực, dẫn đến nhu cầu tìm kiếm các kỹ thuật phù hợp để cải thiện hiệu suất phân loại cho dữ liệu đa chiều Khai thác và phân tích dữ liệu quy mô lớn đã trở thành một chủ đề nóng trong nghiên cứu, với sự chú ý đáng kể từ cả giới học thuật và công nghiệp Nền tảng điện toán đám mây như Hadoop đã đóng vai trò quan trọng trong việc đạt được những thành tựu trong khai thác dữ liệu phân tán và song song.
Big Data (Dữ liệu lớn) đề cập đến quá trình xử lý và phân tích các tập dữ liệu khổng lồ, bao gồm cả dữ liệu có cấu trúc và không có cấu trúc Trong bối cảnh các tổ chức và doanh nghiệp hiện nay, việc khai thác và phân tích dữ liệu lớn trở nên ngày càng quan trọng, vì lượng dữ liệu ngày càng tăng giúp cải thiện độ chính xác của các phân tích và đưa ra quyết định hiệu quả hơn.
10 chính xác này sẽ giúp doanh nghiệp đưa ra các quyết định giúp tăng hiệu quả sản xuất, giảm rủi ro và chi phí
Dữ liệu lớn được thu thập từ nhiều nguồn khác nhau, bao gồm cảm biến thời tiết, thông tin từ mạng xã hội, ảnh và video kỹ thuật số, cũng như dữ liệu giao dịch mua sắm trực tuyến Những dữ liệu này tồn tại dưới nhiều hình thức khác nhau như có cấu trúc, phi cấu trúc và bán cấu trúc.
Big Data là thuật ngữ chỉ tập hợp dữ liệu lớn và phức tạp mà các công cụ truyền thống khó xử lý Nó giúp ra quyết định kinh doanh và nhận diện hành vi nhanh chóng và hiệu quả hơn Big Data được xác định qua ba khía cạnh chính: Dữ liệu, Công nghệ và Quy mô Dữ liệu bao gồm nhiều định dạng như hình ảnh, video và thông tin từ các thiết bị kết nối mạng, tạo ra quy trình khép kín với việc cập nhật liên tục Khối lượng dữ liệu này rất lớn, được đo bằng Terabytes, Petabytes và Exabytes Ví dụ, Walmart xử lý hơn 1 triệu giao dịch mỗi giờ với dữ liệu lên đến 2,5 PB, trong khi Facebook có hơn 1,9 tỷ người dùng Công nghệ trong Big Data thường được xây dựng từ dưới lên, với Hadoop là một trong những hệ sinh thái mạnh mẽ nhất, giúp xử lý dữ liệu phức tạp Quy mô dữ liệu vẫn đang được nghiên cứu và phát triển.
Dữ liệu được coi là lớn khi vượt quá khả năng xử lý của các hệ thống truyền thống, và điều này thường được hiểu ngầm là dấu hiệu của Big Data.
Việc sở hữu Big Data đã trở thành xu hướng phổ biến trong các doanh nghiệp, với eBay sử dụng hai trung tâm dữ liệu dung lượng 40 petabyte để quản lý truy vấn và thông tin hàng hóa, trong khi Amazon xử lý hàng triệu hoạt động hàng ngày từ nửa triệu đối tác bán hàng Facebook quản lý 50 tỉ bức ảnh từ người dùng, còn YouTube và Google lưu trữ lượt truy vấn và video cùng nhiều thông tin liên quan Khảo sát từ Qubole và Dimensional Research cho thấy lĩnh vực chăm sóc khách hàng, công nghệ thông tin, và tài chính là những lĩnh vực thu lợi nhiều nhất từ Big Data Mục đích khai thác Big Data của các nhà cung cấp toàn cầu là cải thiện dịch vụ khách hàng, phân tích dữ liệu để phát triển sản phẩm, và tăng cường trải nghiệm khách hàng trong bối cảnh cạnh tranh khốc liệt Với các công cụ phân tích như phân tích dự báo và khai thác dữ liệu, Big Data giúp doanh nghiệp đo lường, phát hiện cơ hội và rủi ro, đồng thời dự báo doanh thu từ hoạt động kinh doanh hàng ngày.
Big Data có thể bao gồm những kiểu dữ liệu sau:
Dữ liệu trong các hệ thống doanh nghiệp truyền thống bao gồm thông tin từ hệ thống quản lý khách hàng, các giao dịch tài chính, dữ liệu kế toán, cùng với thông tin giao dịch giữa khách hàng và doanh nghiệp.
Dữ liệu sinh tự động hoặc do cảm biết bao gồm thông tin khách hàng sử dụng dịch vụ, lịch sử truy cập các trang web và các dữ liệu ghi lại lịch sử thiết bị sử dụng.
Dữ liệu mạng xã hội bao gồm thông tin được tạo ra từ hoạt động của người dùng trên các nền tảng như Facebook, Twitter và Instagram, bao gồm ảnh, video và các thông tin khác Đặc điểm của Big Data trong lĩnh vực này là khối lượng dữ liệu khổng lồ, tính đa dạng và tốc độ sinh ra dữ liệu nhanh chóng, tạo ra cơ hội và thách thức cho việc phân tích và khai thác thông tin.
Ba đặc điểm chính của Big Data bao gồm Dung lượng (volume), Tốc độ (velocity) và Tính đa dạng (variety) Dung lượng của Dữ liệu lớn đang gia tăng mạnh mẽ hàng ngày Theo thông tin từ Google, cứ mỗi giây có hàng triệu dữ liệu được tạo ra.
Trên toàn cầu, có tới 87.000 từ khóa tìm kiếm được thực hiện và hàng petabyte dữ liệu được tạo ra, phản ánh tốc độ (Velocity) mà các công ty phân tích dữ liệu để nâng cao trải nghiệm người dùng Sự phát triển của các kỹ thuật, công cụ và ứng dụng lưu trữ đã giúp nguồn dữ liệu được bổ sung nhanh chóng Về tính đa dạng (Variety), các nguồn dữ liệu ngày càng phong phú, bao gồm dữ liệu có cấu trúc, bán cấu trúc và không có cấu trúc, từ dữ liệu giao dịch đến văn bản ngẫu nhiên trên internet Đặc biệt, độ lớn dữ liệu (Volume) đã tăng mạnh với sự xuất hiện của dữ liệu sinh ra tự động (machine-generated data), có thể đạt hàng terabyte trong thời gian ngắn và lưu trữ lên đến petabytes Trước đây, việc lưu trữ dữ liệu lớn là một thách thức, nhưng hiện nay, nhờ vào phần cứng giá rẻ và công nghệ lưu trữ đám mây, việc xác định giá trị từ các tập dữ liệu lớn trở thành vấn đề cốt yếu.
Tốc độ xử lý dữ liệu là yếu tố quan trọng trong việc làm việc với dữ liệu lớn Ngày nay, các hệ thống truyền thông yêu cầu khả năng xử lý nhanh chóng và phản hồi kịp thời cho người dùng Do đó, khi xử lý dữ liệu lớn, việc tối ưu hóa tốc độ xử lý là điều cần thiết.
Tính đa dạng dữ liệu trong Big Data thể hiện qua việc thu thập thông tin từ nhiều nguồn khác nhau như web và mobile Ngoài các dữ liệu truyền thống có cấu trúc (schema), Big Data hiện nay còn bao gồm nhiều loại dữ liệu khác nhau như hình ảnh, mở rộng khả năng phân tích và ứng dụng trong nhiều lĩnh vực.
Big Data có khả năng xử lý nhiều loại dữ liệu, bao gồm dữ liệu có cấu trúc, phi cấu trúc và bán cấu trúc Để đáp ứng các yêu cầu này, các công ty lớn như Amazon, Google và Facebook đã lựa chọn nền tảng Hadoop làm công cụ chính để lưu trữ và xử lý dữ liệu.
Apache Hadoop là một framework cho phép xử lý dữ liệu lớn phân tán qua cụm máy tính, sử dụng mô hình lập trình đơn giản Nó được thiết kế để mở rộng từ một đến hàng nghìn máy tính, nơi thực hiện tính toán và lưu trữ cục bộ Điểm nổi bật của Apache Hadoop là khả năng phát hiện và quản lý lỗi tại tầng ứng dụng, thay vì dựa vào phần cứng để thiết lập cơ chế sẵn sàng cao (HA) Điều này cho phép Hadoop cung cấp dịch vụ HA cho các cụm máy tính bằng cách thêm một ứng dụng (node) hoạt động hoặc ở chế độ chờ (active/standby).
Giới thiệu về học máy
Học máy là một lĩnh vực trong khoa học, tập trung vào việc phát triển các kỹ thuật dựa trên trí tuệ nhân tạo, cho phép máy tính dự đoán kết quả tương lai bằng cách học hỏi từ dữ liệu lịch sử.
Việc xây dựng mô hình học máy và ứng dụng thực tế đòi hỏi nhiều loại mô hình khác nhau, do đó, sử dụng mô hình tổng hợp để đạt được kết quả tối ưu là rất quan trọng Cần lựa chọn mô hình nhanh, mạnh và hiệu quả về chi phí và tài nguyên Theo [20], học máy có thể được phân chia thành ba nhóm chính: học có giám sát (supervised), học không giám sát (unsupervised), học bán giám sát (semisupervised) và học tăng cường (Reinforcement Learning).
Cây quyết định được đánh giá là một công cụ mạnh mẽ và phổ biến trong khai thác dữ liệu lớn, đặc biệt là trong phân lớp dữ liệu Những ưu điểm nổi bật của cây quyết định bao gồm khả năng xây dựng nhanh chóng, tính đơn giản và dễ hiểu Ngoài ra, cây quyết định có thể dễ dàng chuyển đổi sang câu lệnh SQL, giúp truy cập cơ sở dữ liệu hiệu quả Cuối cùng, phương pháp phân lớp dựa trên cây quyết định thường đạt được độ chính xác tương tự hoặc thậm chí tốt hơn so với các phương pháp phân lớp khác.
Trong quá trình nghiên cứu, chúng tôi đã áp dụng các thuật toán kiểm định và phân lớp như rừng ngẫu nhiên (random forest) và phân cụm K-Means để tương tác hiệu quả với nhóm khách hàng chính, nhằm đạt được tỷ lệ thành công cao nhất.
Cho một tập dữ liệu X:
Một hàm mục tiêu f: X → {đúng, sai}
Tính toán một hàm f’: X → {đúng, sai} sao cho f’(x) f(x), x X
2.2.1 Một số khái niệm cơ bản
Không gian biểu diễn là một tập hợp:
Ký hiệu là X, mỗi phần tử thuộc X có thể được gọi là các dữ liệu, các thể hiện, các đối tượng hay các ví dụ
Mỗi phần tử S X được biểu diễn bởi một tập gồm n thuộc tính:
Đối tượng S có thể được biểu diễn kết hợp với lớp liên thuộc của nó, tức là dưới dạng nhãn z = (s, c) Phương pháp học này thuộc loại học có giám sát.
Học có giám sát (supervised learning) là một phương pháp trong lĩnh vực học máy, nhằm xây dựng hàm f từ tập dữ liệu huấn luyện Tập dữ liệu này bao gồm các cặp đối tượng đầu vào và đầu ra mong muốn Đầu ra của hàm f có thể là giá trị liên tục hoặc là dự đoán nhãn phân lớp cho đối tượng đầu vào.
Hình 2.10 Mô hình học có giám sát
Chương trình học có giám sát nhằm dự đoán giá trị của hàm f cho các đối tượng đầu vào hợp lệ, dựa trên các mẫu dữ liệu huấn luyện đã cho Để thực hiện điều này, chương trình cần tổng quát hóa từ dữ liệu hiện có, giúp dự đoán các tình huống chưa gặp một cách hợp lý.
Các bước giải bài toán học có giám sát Ứng dụng các giải thuật sử dụng trong đề tài:
Phân lớp nhị phân (BinaryClassification)
Cây quyết định (Decision Tree)
Thuật toán học Mô hình
29 b Học không có giám sát
Học không có giám sát (unsupervised learning) là một phương pháp học máy sử dụng dữ liệu huấn luyện chưa được gán nhãn để tìm ra mô hình phù hợp với các quan sát Khác với học có giám sát, đầu ra đúng cho mỗi đầu vào trong học không có giám sát không được biết trước Thông thường, một tập dữ liệu đầu vào được thu thập ngẫu nhiên và từ đó, một mô hình mật độ kết hợp được xây dựng cho tập dữ liệu này.
Có thể kết hợp học không có giám sát với suy diễn Bayes để tạo ra xác suất có điều kiện cho bất kỳ biến ngẫu nhiên nào, chuyển từ học không có giám sát sang học có giám sát Các giải thuật nén dữ liệu thường dựa vào một phân bố xác suất trên tập đầu vào, có thể là tường minh hoặc không tường minh Thuật toán Clustering phân tích và tìm các đặc trưng của dữ liệu, sau đó phân nhóm thành các cụm khác nhau và phân chia các cụm đầu vào mới vào các cụm đã có sẵn dựa trên từng loại đặc trưng.
Thuật toán này có 3 loại điển hình:
K-Means Clustering: Phân nhóm dữ liệu vào một số K cụm với quy luật nhất định
Hierarchical Clustering: Phân loại theo thứ bậc
Probabilistic Clustering: Phân loại theo xác suất c Học bán giám sát
Học nửa giám sát (semi-supervised learning) là một phương pháp học máy kết hợp giữa dữ liệu được gán nhãn và dữ liệu chưa được gán nhãn, giúp cải thiện hiệu suất mô hình trong việc nhận diện và phân loại Phương pháp này tận dụng thông tin từ cả hai loại dữ liệu để tối ưu hóa quá trình học và giảm thiểu chi phí gán nhãn.
Hình 2.11 Mô hình học bán giám sát
Khi áp dụng học có giám sát, dữ liệu huấn luyện được gán nhãn giúp đạt được độ chính xác cao Tuy nhiên, việc gán nhãn cho lượng dữ liệu lớn tốn nhiều thời gian và tài nguyên, khiến cho việc tạo ra nhãn trở nên đắt đỏ và đòi hỏi nỗ lực lớn từ con người Ngược lại, trong mô hình học không có giám sát, dữ liệu huấn luyện không được gán nhãn, dẫn đến độ chính xác thấp hơn Dù vậy, dữ liệu chưa gán nhãn dễ dàng thu thập và có chi phí thấp, tạo điều kiện thuận lợi cho việc khai thác thông tin.
Học nửa giám sát kết hợp ưu điểm của học có giám sát và học không có giám sát, khắc phục nhược điểm của cả hai phương pháp Bằng cách sử dụng một lượng lớn dữ liệu chưa gán nhãn cùng với một lượng nhỏ dữ liệu đã được gán nhãn, các thuật toán học nửa giám sát mang lại độ chính xác cao và tiết kiệm thời gian Do đó, học nửa giám sát là một phương pháp hiệu quả trong lĩnh vực học máy.
Trong quá trình thực hiện đề tài, việc áp dụng các mô hình học máy và phân tích dữ liệu kết hợp là rất quan trọng để đạt hiệu quả tối ưu, đặc biệt khi làm việc với khối lượng dữ liệu lớn.
2.2.2 Các vấn đề trong quá trình thực hiện đề tài
Trong quá trình thực hiện đề tài, một trong những thách thức lớn nhất trong học máy là lựa chọn thuật toán phù hợp và huấn luyện trên tập dữ liệu cụ thể Có hai tình huống xấu có thể xảy ra: thứ nhất, thuật toán không đạt hiệu quả, và thứ hai, dữ liệu không đảm bảo chất lượng Dù dữ liệu đã được làm sạch, việc bị ảnh hưởng bởi các yếu tố bên ngoài hoặc đặc thù từ tình huống thực tế vẫn là điều khó tránh khỏi.
Theo [23], các vấn đề thường gặp trong quá trình xây dựng mô hình bao gồm thiếu dữ liệu đào tạo, dữ liệu không đại diện, chất lượng dữ liệu kém, và hiện tượng Overfitting, Underfitting Để cải thiện mô hình, cần bổ sung dữ liệu, loại bỏ các thuộc tính dư thừa, và tách biệt tập huấn luyện và tập test để tránh Overfitting Việc lựa chọn tập dữ liệu phù hợp và các giải thuật tối ưu như Rừng Ngẫu Nhiên kết hợp với giải thuật Phân Cụm sẽ nâng cao hiệu quả mô hình Chi tiết về các giải thuật sẽ được trình bày trong các phần 2.3 và 2.4, trong đó sẽ cụ thể hóa các thuộc tính dữ liệu sau khi đã loại bỏ những yếu tố gây nhiễu và không khái quát hóa.
Spark và giải thuật rừng ngẫu nhiên song song (Parallel Random Forest - PRF)
Thuật toán rừng ngẫu nhiên
Thuật toán rừng ngẫu nhiên là một phương pháp phân loại dựa trên mô hình cây quyết định, sử dụng kỹ thuật lấy mẫu bootstrap để tạo ra k tập con dữ liệu huấn luyện từ tập dữ liệu gốc Sau đó, k cây quyết định được xây dựng từ những tập con này Tập hợp rừng ngẫu nhiên được hình thành từ các cây quyết định, và mỗi mẫu trong tập dữ liệu thử nghiệm sẽ được dự đoán bởi tất cả các cây, với kết quả phân loại cuối cùng phụ thuộc vào đánh giá của các cây này.
Hình 3.2 Quá trình xây dựng thuật toán rừng ngẫu nhiên RandomForest
Tập dữ liệu huấn luyện ban đầu S bao gồm các mẫu đại diện f(xi; yj) với i từ 1 đến N và j từ 1 đến M, trong đó x là mẫu và y là thuộc tính của S Tập dữ liệu này chứa N mẫu và M biến đặc trưng cho mỗi mẫu Quy trình xây dựng thuật toán RF được minh họa trong hình ảnh kèm theo.
Các bước xây dựng thuật toán rừng ngẫu nhiên như sau:
Bước 1 : lấy k mẫu con huấn luyện
Trong bước này, k tập con huấn luyện được tạo ra từ tập dữ liệu huấn luyện ban đầu S thông qua phương pháp lấy mẫu bootstrap Cụ thể, N bản ghi được chọn ngẫu nhiên từ S với phương pháp lấy mẫu và thay thế Sau bước này, k tập con huấn luyện sẽ hình thành một tập hợp các tập con huấn luyện S Train.
Tập S Train bao gồm các bản ghi S 1, S 2, …, S k Trong mỗi giai đoạn lấy mẫu, những bản ghi không được chọn sẽ tạo thành tập dữ liệu Out-Of-Bag (OOB) Như vậy, k tập OOB được xây dựng sẽ tạo thành tập hợp S OOB.
Khi k nhỏ hơn nhiều so với N, tập hợp S i giao với OOB i là rỗng, và S i hợp với OOB i tạo thành S Để xác định độ chính xác phân loại cho từng cây, các bộ OOB này được sử dụng làm bộ kiểm tra sau quá trình huấn luyện.
Bước 2: Xây dựng mô hình cây quyết định
Trong mô hình RF, mỗi cây quyết định được tạo ra từ thuật toán C4.5 dựa trên các tập huấn luyện nhỏ Trong quá trình phát triển cây, các thuộc tính sẽ được chọn ngẫu nhiên từ tập M Khi phân tách mỗi nút, thuật toán xem xét tất cả các phép thử có thể để phân chia dữ liệu và chọn phép thử có Gain Ratio tốt nhất, một chỉ số đánh giá hiệu quả của thuộc tính trong việc tách dữ liệu Quá trình này tiếp tục cho đến khi tạo ra nút lá, và cuối cùng, k cây quyết định được hình thành từ k tập con huấn luyện theo phương thức tương tự.
Bước 3: thu thập k cây vào trong một mô hình RF
Toàn bộ k cây huấn luyện được thu thập vào một mô hình RF:
Trong mô hình cây quyết định, h j (x, Θ j ) đại diện cho số lượng cây, với X là các vectơ thuộc tính đầu vào từ tập dữ liệu huấn luyện và Θ j là vectơ ngẫu nhiên độc lập, phân phối đồng nhất xác định quá trình phát triển của cây Độ phức tạp của thuật toán Random Forest (RF) ban đầu là O(kMNlogN), trong đó k là số lượng cây quyết định, M là số thuộc tính, N là số mẫu, và logN là độ sâu trung bình của các cây Đối với thuật toán cải tiến PRF, việc giảm chiều dữ liệu có độ phức tạp O(MN) cho phép phân tách xử lý song song và chia task trên Spark, thực hiện đồng thời trên các node Quá trình này tích hợp phân chia và xử lý trên mỗi nút, bao gồm các hàm tính toán cần thiết.
36 entropy(), gain(), và gainratio() với mỗi không gian thuộc tính con đặc trưng
Theo đó, việc tính toán giảm chiều dữ liệu, sẽ giảm từ M xuống còn m (m