Các vấn đề chính trong khai phá dữ liệu

Một phần của tài liệu Giới thiệu về khai phá dữ liệu (Trang 26 - 30)

Cuộc sống ngắn ngủi nhưng nghệ thuật thì dài. - Hippocrates

Khai thác dữ liệu là một lĩnh vực năng động và mở rộng nhanh chóng với những thế mạnh lớn.

Trong phần này, chúng tôi phác thảo ngắn gọn các vấn đề chính trong nghiên cứu khai thác dữ liệu, phân chia chúng thành năm nhóm: phương pháp khai thác, tương tác người dùng, hiệu quả và khả năng mở rộng, đa dạng các loại dữ liệu và khai thác dữ liệu và xã hội. Nhiều vấn đề trong số này đã được giải quyết trong nghiên cứu và phát triển khai thác dữ liệu gần đây ở một mức độ nhất định và hiện được coi là yêu cầu khai thác dữ liệu; những người khác vẫn đang ở giai đoạn nghiên cứu. Các vấn đề tiếp tục kích thích điều tra và cải thiện hơn nữa trong khai thác dữ liệu.

1.7.1 Phương pháp khai phá

Các nhà nghiên cứu đã phát triển mạnh mẽ các phương pháp khai thác dữ liệu mới. Điều này liên quan đến việc điều tra các loại kiến thức mới, khai thác trong không gian đa chiều, tích hợp các phương pháp từ các ngành khác và xem xét mối quan hệ ngữ nghĩa giữa các đối tượng dữ liệu.

Ngoài ra, các phương pháp khai thác nên xem xét các vấn đề như không chắc chắn về dữ liệu, nhiễu và không đầy đủ. Một số phương pháp khai thác khám phá cách sử dụng các biện pháp xác

định người dùng có thể được sử dụng để đánh giá sự thú vị của các mẫu được phát hiện cũng như hướng dẫn quy trình khám phá. Chúng ta hãy xem xét các khía cạnh khác nhau của phương pháp khai thác.

 Khai thác các loại kiến thức mới và mới: Khai thác dữ liệu bao gồm một loạt các nhiệm vụ khám phá kiến thức và phân tích dữ liệu, từ phân loại và phân biệt dữ liệu đến phân tích liên kết và tương quan, phân loại, hồi quy, phân cụm, phân tích ngoại lệ, phân tích trình tự và phân tích tiến hóa và tiến hóa . Các tác vụ này có thể sử dụng cùng một cơ sở dữ liệu theo các cách khác nhau và yêu cầu phát triển nhiều kỹ thuật khai thác dữ liệu. Do tính đa dạng của các ứng dụng, các tác vụ khai thác mới tiếp tục xuất hiện, khiến việc khai thác dữ liệu trở thành một lĩnh vực năng động và phát triển nhanh. Ví dụ, để khám phá kiến thức hiệu quả trong các mạng thông tin, phân cụm và xếp hạng tích hợp có thể dẫn đến việc phát hiện các cụm và xếp hạng đối tượng chất lượng cao trong các mạng lớn.

 Khai thác kiến thức trong không gian đa chiều: Khi tìm kiếm kiến thức trong các tập dữ liệu lớn, chúng ta có thể khám phá dữ liệu trong không gian đa chiều. Đó là, chúng ta có thể tìm kiếm các mẫu thú vị giữa các kết hợp kích thước (thuộc tính) ở các mức độ trừu tượng khác nhau. Khai thác như vậy được gọi là khai thác dữ liệu đa chiều (thăm dò). Trong nhiều trường hợp, dữ liệu có thể được tổng hợp hoặc xem dưới dạng khối dữ liệu đa chiều. Khai thác kiến thức trong không gian khối có thể tăng cường đáng kể sức mạnh và tính linh hoạt của khai thác dữ liệu.

 Khai thác dữ liệu là một nỗ lực liên ngành: Sức mạnh của khai thác dữ liệu có thể được tăng cường đáng kể bằng cách tích hợp các phương pháp mới từ nhiều ngành. Ví dụ, để khai thác dữ liệu bằng văn bản ngôn ngữ tự nhiên, sẽ hợp lý khi kết hợp các phương pháp khai thác dữ liệu với các phương thức truy xuất thông tin và xử lý ngôn ngữ tự nhiên. Một ví dụ khác, hãy xem xét việc khai thác các lỗi phần mềm trong các chương trình lớn. Hình thức khai thác này, được gọi là khai thác lỗi, được hưởng lợi từ việc kết hợp kiến thức kỹ thuật phần mềm vào quy trình khai thác dữ liệu.

 Tăng cường sức mạnh khám phá trong môi trường mạng: Hầu hết các đối tượng dữ liệu nằm trong môi trường được liên kết hoặc liên kết với nhau, cho dù đó là Web, quan hệ cơ sở dữ liệu, tệp hoặc tài liệu. Liên kết ngữ nghĩa trên nhiều đối tượng dữ liệu có thể được sử dụng để tạo lợi thế trong khai thác dữ liệu. Kiến thức có được trong một tập hợp các đối tượng có thể được sử dụng để thúc đẩy sự khám phá kiến thức trong một tập hợp các đối tượng có liên quan đến ngữ nghĩa hoặc.

 Xử lý sự không chắc chắn, tiếng ồn hoặc không đầy đủ của dữ liệu: Dữ liệu thường chứa tiếng ồn, lỗi, ngoại lệ hoặc không chắc chắn hoặc không đầy đủ. Lỗi và tiếng ồn có thể gây nhầm lẫn cho quá trình khai thác dữ liệu, dẫn đến việc tạo ra các mẫu sai. Làm sạch dữ liệu, tiền xử lý dữ liệu, phát hiện và loại bỏ ngoại lệ và lý do không chắc chắn là những ví dụ về các kỹ thuật cần được tích hợp với quy trình khai thác dữ liệu. Đánh giá mẫu và khai thác theo hướng dẫn theo mẫu hoặc ràng buộc: Không phải tất cả các mẫu được tạo bởi các quy trình khai thác dữ liệu đều thú vị. Điều gì làm cho một mô hình thú vị có thể khác nhau tùy theo

người dùng. Do đó, các kỹ thuật là cần thiết để đánh giá sự thú vị của các mẫu được phát hiện dựa trên các biện pháp chủ quan. Chúng ước tính giá trị của các mẫu liên quan đến một lớp người dùng nhất định, dựa trên niềm tin hoặc kỳ vọng của người dùng.

 Ngoài ra, bằng cách sử dụng các biện pháp thú vị hoặc các ràng buộc do người dùng chỉ định để hướng dẫn quy trình khám phá, chúng tôi có thể tạo ra các mẫu thú vị hơn và giảm không gian tìm kiếm.

1.7.2 Tương tác người dùng

Người dùng đóng một vai trò quan trọng trong quá trình khai thác dữ liệu. Các lĩnh vực nghiên cứu thú vị bao gồm cách tương tác với hệ thống khai thác dữ liệu, cách kết hợp kiến thức nền tảng của người dùng trong khai thác và cách trực quan hóa và hiểu kết quả khai thác dữ liệu.

Chúng tôi giới thiệu từng thứ ở đây.

 Khai thác tương tác: Quá trình khai thác dữ liệu nên có tính tương tác cao. Do đó, điều quan trọng là xây dựng giao diện người dùng linh hoạt và môi trường khai thác thăm dò, tạo điều kiện cho người dùng tương tác với hệ thống. Trước tiên, người dùng có thể muốn lấy mẫu một bộ dữ liệu, khám phá các đặc điểm chung của dữ liệu và ước tính kết quả khai thác tiềm năng. Khai thác tương tác sẽ cho phép người dùng thay đổi linh hoạt trọng tâm của tìm kiếm, tinh chỉnh các yêu cầu khai thác dựa trên kết quả trả về và để khoan, xúc xắc và xoay vòng qua không gian dữ liệu và kiến thức một cách tương tác, khám phá một cách linh hoạt không gian khối vuông trong khi khai thác.

 Kết hợp kiến thức nền: Kiến thức nền, các ràng buộc, quy tắc và thông tin khác liên quan đến lĩnh vực đang nghiên cứu nên được đưa vào quá trình khám phá kiến thức. Kiến thức như vậy có thể được sử dụng để đánh giá mẫu cũng như hướng dẫn tìm kiếm theo các mẫu thú vị.

 Ngôn ngữ truy vấn khai thác dữ liệu và khai thác dữ liệu ad hoc: Ngôn ngữ truy vấn (ví dụ: SQL) đã đóng một vai trò quan trọng trong tìm kiếm linh hoạt vì chúng cho phép người dùng đặt ra các truy vấn ad hoc. Tương tự, ngôn ngữ truy vấn khai thác dữ liệu cấp cao hoặc giao diện người dùng linh hoạt cấp cao khác sẽ cho phép người dùng tự do xác định các tác vụ khai thác dữ liệu ad hoc. Điều này sẽ tạo điều kiện cho đặc tả của các bộ dữ liệu liên quan để phân tích, kiến thức miền, các loại kiến thức được khai thác và các điều kiện và ràng buộc được thi hành trên các mẫu được phát hiện. Tối ưu hóa việc xử lý các yêu cầu khai thác linh hoạt như vậy là một lĩnh vực nghiên cứu đầy hứa hẹn khác.

 Trình bày và trực quan hóa kết quả khai thác dữ liệu: Làm thế nào một hệ thống khai thác dữ liệu có thể trình bày kết quả khai thác dữ liệu một cách sinh động và linh hoạt, để con người có thể hiểu được kiến thức được phát hiện và trực tiếp sử dụng? Điều này đặc biệt quan trọng nếu quá trình khai thác dữ liệu tương tác. Nó đòi hỏi hệ thống phải áp dụng các biểu diễn tri thức biểu cảm, giao diện thân thiện với người dùng và các kỹ thuật trực quan

1.7.3 Hiệu quả và khả năng mở rộng

Hiệu quả và khả năng mở rộng luôn được xem xét khi so sánh các thuật toán khai thác dữ liệu.

Khi số lượng dữ liệu tiếp tục tăng lên, hai yếu tố này đặc biệt quan trọng.

 Hiệu quả và khả năng mở rộng của các thuật toán khai thác dữ liệu: Các thuật toán khai thác dữ liệu phải hiệu quả và có thể mở rộng để trích xuất thông tin từ lượng dữ liệu khổng lồ trong nhiều kho dữ liệu hoặc trong các luồng dữ liệu động. Nói cách khác, thời gian chạy của thuật toán khai thác dữ liệu phải có thể dự đoán được, ngắn và được các ứng dụng chấp nhận. Hiệu quả, khả năng mở rộng, hiệu suất, tối ưu hóa và khả năng thực hiện trong thời gian thực là những tiêu chí chính thúc đẩy sự phát triển của nhiều thuật toán khai thác dữ liệu mới.

 Các thuật toán khai thác song song, phân tán và tăng dần: Kích thước khiêm tốn của nhiều bộ dữ liệu, phân phối dữ liệu rộng và độ phức tạp tính toán của một số phương pháp khai thác dữ liệu là các yếu tố thúc đẩy sự phát triển của các thuật toán khai thác dữ liệu song song và phân tán. Các thuật toán như vậy trước tiên phân vùng dữ liệu thành các mảnh trên mạng. Mỗi bộ phận được xử lý song song bằng cách tìm kiếm các mẫu.

Các quá trình song song có thể tương tác với nhau. Các mẫu từ mỗi phân vùng cuối cùng được hợp nhất.

Điện toán đám mây và điện toán cụm, sử dụng máy tính theo cách phân tán và hợp tác để giải quyết các nhiệm vụ tính toán quy mô rất lớn, cũng là các chủ đề nghiên cứu tích cực trong khai thác dữ liệu song song. Ngoài ra, chi phí cao của một số quy trình khai thác dữ liệu và bản chất gia tăng của đầu vào thúc đẩy khai thác dữ liệu gia tăng, kết hợp cập nhật dữ liệu mới mà không phải khai thác toàn bộ dữ liệu từ đầu. đã được phát hiện trước đây.

1.7.4 Đa dạng về loại cơ sở dữ liệu

Sự đa dạng của các loại cơ sở dữ liệu mang lại những thách thức cho việc khai thác dữ liệu. Bao gồm

 Xử lý các loại dữ liệu phức tạp: Các ứng dụng đa dạng tạo ra một phổ rộng các loại dữ liệu mới, từ dữ liệu có cấu trúc như dữ liệu kho dữ liệu quan hệ và dữ liệu đến dữ liệu bán cấu trúc và không cấu trúc; từ kho dữ liệu ổn định đến luồng dữ liệu động; từ các đối tượng dữ liệu đơn giản đến dữ liệu thời gian, trình tự sinh học, dữ liệu cảm biến, dữ liệu không gian, dữ liệu siêu văn bản, dữ liệu đa phương tiện, mã chương trình phần mềm, dữ liệu Web và dữ liệu mạng xã hội. Thật không thực tế khi mong đợi một hệ thống khai thác dữ liệu khai thác tất cả các loại dữ liệu, do sự đa dạng của các loại dữ liệu và các mục tiêu khác nhau của khai thác dữ liệu. Các hệ thống khai thác dữ liệu dành riêng cho miền hoặc ứng dụng đang được xây dựng để khai thác sâu các loại dữ liệu cụ thể. Việc xây dựng các công cụ khai thác dữ liệu hiệu quả và hiệu quả cho các ứng dụng đa dạng vẫn là một lĩnh vực nghiên cứu đầy thách thức và tích cực.

 Khai thác kho dữ liệu động, nối mạng và toàn cầu: Nhiều nguồn dữ liệu được kết nối bởi Internet và các loại mạng khác nhau, tạo thành các hệ thống và mạng thông tin toàn cầu khổng lồ, phân tán và không đồng nhất. Việc khám phá kiến thức từ các nguồn khác nhau của dữ liệu có cấu trúc, bán cấu trúc hoặc không cấu trúc nhưng được kết nối với ngữ nghĩa dữ liệu đa dạng đặt ra những thách thức lớn đối với việc khai thác dữ liệu. Khai thác các mạng thông tin khổng lồ, được kết nối với nhau như vậy có thể giúp tiết lộ nhiều mẫu và kiến thức hơn trong các tập dữ liệu không đồng nhất so với có thể được phát hiện từ một tập hợp nhỏ các kho dữ liệu bị cô lập. Khai thác web, khai thác dữ liệu đa nguồn và khai thác mạng thông tin đã trở thành các lĩnh vực khai thác dữ liệu đầy thách thức và phát triển nhanh.

1.7.5 Khai phá dữ liệu và xã hội

Khai thác dữ liệu tác động đến xã hội như thế nào? Những bước nào có thể khai thác dữ liệu để bảo vệ sự riêng tư của cá nhân? Chúng ta có sử dụng khai thác dữ liệu trong cuộc sống hàng ngày mà không hề biết rằng chúng ta làm gì không? Những câu hỏi nêu ra các vấn đề sau:

 Tác động xã hội của khai thác dữ liệu: Với việc khai thác dữ liệu thâm nhập vào cuộc sống hàng ngày của chúng ta, điều quan trọng là phải nghiên cứu tác động của khai thác dữ liệu đối với xã hội. Làm thế nào chúng ta có thể sử dụng công nghệ khai thác dữ liệu để mang lại lợi ích cho xã hội? Làm thế nào chúng ta có thể bảo vệ chống lại lạm dụng của nó? Việc tiết lộ hoặc sử dụng dữ liệu không đúng cách và vi phạm tiềm năng quyền riêng tư và bảo vệ dữ liệu cá nhân là những vấn đề cần được giải quyết.

 Khai thác dữ liệu bảo mật quyền riêng tư: Khai thác dữ liệu sẽ giúp khám phá khoa học, quản lý kinh doanh, phục hồi kinh tế và bảo vệ an ninh (ví dụ: khám phá thời gian thực về những kẻ xâm nhập và tấn công mạng). Tuy nhiên, nó có nguy cơ tiết lộ thông tin cá nhân của một cá nhân. Các nghiên cứu về xuất bản dữ liệu bảo mật và khai thác dữ liệu đang được tiến hành. Triết lý là quan sát độ nhạy dữ liệu và bảo vệ quyền riêng tư của mọi người trong khi thực hiện khai thác dữ liệu thành công.

 Khai thác dữ liệu vô hình: Chúng ta không thể mong đợi mọi người trong xã hội học hỏi và làm chủ các kỹ thuật khai thác dữ liệu. Ngày càng có nhiều hệ thống nên có các chức năng khai thác dữ liệu được xây dựng để mọi người có thể thực hiện khai thác dữ liệu hoặc sử dụng kết quả khai thác dữ liệu chỉ bằng cách nhấp chuột, mà không cần biết về thuật toán khai thác dữ liệu. Các công cụ tìm kiếm thông minh và các cửa hàng dựa trên Internet thực hiện khai thác dữ liệu vô hình như vậy bằng cách kết hợp khai thác dữ liệu vào các thành phần của chúng để cải thiện chức năng và hiệu suất của chúng. Điều này được thực hiện thường không biết đến người dùng. Ví dụ: khi mua các mặt hàng trực tuyến, người dùng có thể không biết rằng cửa hàng có khả năng thu thập dữ liệu về các mẫu mua của khách hàng, có thể được sử dụng để đề xuất các mặt hàng khác để mua trong tương lai.

Những vấn đề này và nhiều vấn đề bổ sung liên quan đến nghiên cứu, phát triển và ứng dụng khai thác dữ liệu được thảo luận trong suốt cuốn sách.

Một phần của tài liệu Giới thiệu về khai phá dữ liệu (Trang 26 - 30)

Tải bản đầy đủ (DOCX)

(32 trang)
w