Là một miền hướng ứng dụng cao, khai thác dữ liệu đã kết hợp nhiều kỹ thuật từ các miền khác như thống kê, học máy, nhận dạng mẫu, cơ sở dữ liệu và hệ thống kho dữ liệu, truy xuất thông tin, trực quan hóa, thuật toán, hiệu suất cao điện toán và nhiều miền ứng dụng (Hình 1.11).
Các
bản chất đa dạng của nghiên cứu và phát triển khai thác dữ liệu đóng góp đáng kể vào sự thành công của khai thác dữ liệu và ứng dụng xtensive. Trong phần này, chúng tôi đưa ra ví dụ về một số ngành có ảnh hưởng mạnh đến sự phát triển của các phương pháp khai thác dữ liệu.
1.5.1 Thống kê
Thống kê nghiên cứu việc thu thập, phân tích, giải thích hoặc giải thích và trình bày dữ liệu.
Khai thác dữ liệu có một kết nối vốn có với số liệu thống kê.
Mô hình thống kê là một tập hợp các hàm toán học mô tả hành vi của các đối tượng trong một lớp mục tiêu theo các biến ngẫu nhiên và phân phối xác suất liên quan của chúng. Các mô hình thống kê được sử dụng rộng rãi để mô hình hóa các lớp dữ liệu và dữ liệu. Ví dụ: trong các tác vụ khai thác dữ liệu như phân loại và phân loại dữ liệu, thống kê mô hình của các lớp mục tiêu có thể được xây dựng. Nói cách khác, các mô hình thống kê như vậy có thể là kết quả của một nhiệm vụ khai thác dữ liệu. Ngoài ra, các tác vụ khai thác dữ liệu có thể được xây dựng dựa trên các mô hình thống kê. Ví dụ: chúng ta có thể sử dụng số liệu thống kê để mô hình nhiễu và thiếu giá trị dữ liệu. Sau đó, khi khai thác các mẫu trong một tập dữ liệu lớn, quy trình khai thác dữ liệu có thể sử dụng mô hình để giúp xác định và xử lý các giá trị nhiễu hoặc thiếu trong dữ liệu.
Nghiên cứu thống kê phát triển các công cụ để dự đoán và dự báo bằng cách sử dụng dữ liệu và mô hình thống kê. Phương pháp thống kê có thể được sử dụng để tóm tắt hoặc mô tả một bộ sưu tập dữ liệu. Thống kê cơ bản mô tả dữ liệu được giới thiệu trong Chương 2. Thống kê là hữu ích để khai thác các mẫu khác nhau từ dữ liệu cũng như cho hiểu được các cơ chế cơ bản tạo ra và ảnh hưởng đến các mẫu. Thống kê suy luận (hoặc thống kê dự đoán) mô hình hóa dữ liệu theo cách tính ngẫu nhiên và không chắc chắn trongcác quan sát và được sử dụng để rút ra các suy luận về quá trình hoặc dân số theo cuộc điều tra.
Phương pháp thống kê cũng có thể được sử dụng để xác minh kết quả khai thác dữ liệu. Ví dụ, sau khi một mô hình phân loại hoặc dự đoán được khai thác, mô hình nên được xác minh bằng thử nghiệm giả thuyết thống kê. Một thử nghiệm giả thuyết thống kê (đôi khi được gọi là phân tích dữ liệu xác nhận) đưa ra quyết định thống kê sử dụng dữ liệu thực nghiệm. Một kết quả được gọi là có ý nghĩa thống kê nếu nó không có khả năng xảy ra do tình cờ. Nếu mô hình phân loại hoặc dự đoán là đúng, thì số liệu thống kê mô tả của mô hình sẽ làm tăng âm thanh của mô hình.
Hình 1.11 Khai thác dữ liệu áp dụng các kỹ thuật từ nhiều miền.
Áp dụng các phương pháp thống kê trong khai thác dữ liệu là xa tầm thường. Thông thường, một thách thức nghiêm trọng là làm thế nào để nhân rộng một phương pháp thống kê qua một tập dữ liệu lớn. Nhiều phương pháp thống kê có độ phức tạp cao trong tính toán. Khi các phương thức như vậy được áp dụng trên các tập dữ liệu lớn cũng được phân phối trên nhiều trang web logic hoặc vật lý, thuật toán
nên được thiết kế cẩn thận và điều chỉnh để giảm chi phí tính toán. Thách thức này càng trở nên khó khăn hơn đối với các ứng dụng trực tuyến, chẳng hạn như đề xuất truy vấn trực tuyến trong công cụ tìm kiếm, trong đó việc khai thác dữ liệu được yêu cầu để liên tục xử lý các luồng dữ liệu nhanh, thời gian thực.
1.5.2 Học máy
Học máy điều tra cách máy tính có thể học (hoặc cải thiện hiệu suất của chúng) dựa trên dữ liệu.
Một lĩnh vực nghiên cứu chính là để các chương trình máy tính tự động học cách nhận ra các mẫu phức tạp và đưa ra quyết định thông minh dựa trên dữ liệu. Ví dụ, một vấn đề máy học điển hình là lập trình máy tính để nó có thể tự động nhận dạng mã bưu chính viết tay trên thư sau khi học từ một tập hợp các ví dụ.
Học máy là một môn học phát triển nhanh chóng. Ở đây, chúng tôi minh họa các vấn đề kinh điển trong học máy có liên quan nhiều đến khai thác dữ liệu
Học có giám sát về cơ bản là một từ đồng nghĩa để phân loại. Sự giám sát trong học tập xuất phát từ các ví dụ được dán nhãn trong bộ dữ liệu đào tạo. Ví dụ, trong bài toán nhận dạng mã bưu chính, một tập hợp các hình ảnh mã bưu chính viết tay và các bản dịch có thể đọc được bằng máy tương ứng của chúng được sử dụng làm ví dụ đào tạo, giám sát việc học mô hình phân loại.
Học tập không giám sát về cơ bản là một từ đồng nghĩa để phân cụm. Quá trình học tập không được giám sát vì các ví dụ đầu vào không được dán nhãn lớp. Thông thường,
chúng tôi có thể sử dụng phân cụm để khám phá các lớp trong dữ liệu. Ví dụ, một phương pháp học tập không giám sát có thể lấy, làm đầu vào, một tập hợp các hình ảnh của các chữ số viết tay. Giả sử rằng nó tìm thấy 10 cụm dữ liệu. Các cụm này có thể tương ứng với 10 chữ số khác nhau từ 0 đến 9, tương ứng. Tuy nhiên, vì dữ liệu đào tạo không được dán nhãn, mô hình đã học có thể cho chúng ta biết ý nghĩa ngữ nghĩa của các cụm được tìm thấy.
Học bán giám sát là một lớp các kỹ thuật học máy sử dụng cả các ví dụ được gắn nhãn và không nhãn khi học một mô hình. Trong một cách tiếp cận, các ví dụ được gắn nhãn được sử dụng để tìm hiểu các mô hình lớp và các ví dụ không được gắn nhãn được sử dụng để tinh chỉnh ranh giới giữa các lớp. Đối với một vấn đề hai lớp, chúng ta có thể nghĩ tập hợp các ví dụ thuộc về một lớp là các ví dụ tích cực và các ví dụ thuộc về lớp kia là các ví dụ phủ định. Trong Hình 1.12, nếu chúng ta không xem xét các ví dụ không được gắn nhãn, đường nét đứt là ranh giới quyết định phân vùng tốt nhất các ví dụ tích cực từ các ví dụ tiêu cực. Sử dụng các ví dụ không được gắn nhãn, chúng ta có thể tinh chỉnh ranh giới quyết định thành đường liền nét. Hơn nữa, chúng ta có thể phát hiện ra rằng hai ví dụ tích cực ở góc trên bên phải, mặc dù được dán nhãn, có khả năng là nhiễu hoặc ngoại lệ.
Học tích cực là một phương pháp học máy cho phép người dùng đóng vai trò tích cực trong quá trình học tập. Cách tiếp cận học tập tích cực có thể yêu cầu người dùng (ví dụ:
chuyên gia về miền) gắn nhãn một ví dụ, có thể từ một tập hợp các ví dụ không được gắn nhãn hoặc được chương trình học tổng hợp. Mục tiêu là để tối ưu hóa chất lượng mô hình bằng cách tích cực thu thập kiến thức từ người dùng, đưa ra một ràng buộc về số lượng ví dụ mà họ có thể được yêu cầu dán nhãn.
Bạn có thể thấy có nhiều điểm tương đồng giữa khai thác dữ liệu và học máy. Đối với các nhiệm vụ phân loại và phân cụm, nghiên cứu máy học thường tập trung vào tính chính xác của mô hình.
Ngoài độ chính xác, nghiên cứu khai thác dữ liệu nhấn mạnh vào hiệu quả và khả năng mở rộng của các phương pháp khai thác trên các tập dữ liệu lớn, cũng như về cách xử lý các loại dữ liệu phức tạp và khám phá các phương pháp mới, thay thế.
1.5.3 Hệ thống cơ sở dữ liệu và DataWarehouses
Nghiên cứu hệ thống cơ sở dữ liệu tập trung vào việc tạo, bảo trì và sử dụng cơ sở dữ liệu cho các tổ chức và người dùng cuối. Đặc biệt, các nhà nghiên cứu hệ thống cơ sở dữ liệu đã thiết lập các nguyên tắc được công nhận cao trong các mô hình dữ liệu, ngôn ngữ truy vấn, phương pháp xử lý và tối ưu hóa truy vấn, lưu trữ dữ liệu và lập chỉ mục và phương thức truy cập. Các hệ thống cơ sở dữ liệu thường được biết đến với khả năng mở rộng cao trong việc xử lý các tập dữ liệu rất lớn, có cấu trúc tương đối.
Nhiều tác vụ khai thác dữ liệu cần xử lý các tập dữ liệu lớn hoặc thậm chí thời gian thực, dữ liệu truyền phát nhanh. Do đó, khai thác dữ liệu có thể sử dụng tốt các công nghệ cơ sở dữ liệu có thể mở rộng để đạt được hiệu quả và khả năng mở rộng cao trên các tập dữ liệu lớn. Ngoài ra, các tác vụ khai thác dữ liệu có thể được sử dụng để mở rộng khả năng của các hệ thống cơ sở dữ liệu hiện có để đáp ứng các yêu cầu phân tích dữ liệu phức tạp của người dùng.
Các hệ thống cơ sở dữ liệu gần đây đã xây dựng các khả năng phân tích dữ liệu có hệ thống trên dữ liệu cơ sở dữ liệu bằng cách sử dụng kho dữ liệu và cơ sở khai thác dữ liệu. Kho dữ liệu tích hợp dữ liệu có nguồn gốc từ nhiều nguồn và khung thời gian khác nhau. Nó hợp nhất dữ liệu trong không gian đa chiều để tạo thành các khối dữ liệu được vật chất hóa một phần. Mô hình khối dữ liệu không chỉ tạo điều kiện cho OLAP trong cơ sở dữ liệu đa chiều mà còn thúc đẩy khai thác dữ liệu đa chiều (xem Phần 1.3.2).
1.5.4 Truy xuất thông tin
Lấy thông tin (IR) là khoa học tìm kiếm tài liệu hoặc thông tin trong tài liệu. Tài liệu có thể là văn bản hoặc đa phương tiện và có thể nằm trên Web. Sự khác biệt giữa truy xuất thông tin truyền thống và hệ thống cơ sở dữ liệu có hai mặt: Truy xuất thông tin giả định rằng (1) dữ liệu được tìm kiếm không có cấu trúc; và (2) các truy vấn được hình thành chủ yếu bởi các từ khóa, không có cấu trúc phức tạp (không giống như các truy vấn SQL trong các hệ thống cơ sở dữ liệu).
Các cách tiếp cận điển hình trong truy xuất thông tin áp dụng các mô hình xác suất. Ví dụ, một tài liệu văn bản có thể được coi là một túi các từ, nghĩa là nhiều từ xuất hiện trong tài liệu. Mô hình ngôn ngữ trong tài liệu là hàm mật độ xác suất tạo ra các từ trong tài liệu. Sự giống nhau giữa hai tài liệu có thể được đo lường bằng sự giống nhau giữa các mô hình ngôn ngữ tương ứng của chúng.
Hơn nữa, một chủ đề trong một tập hợp các tài liệu văn bản có thể được mô hình hóa như một phân phối xác suất theo từ vựng, được gọi là mô hình chủ đề. Một tài liệu văn bản, có thể liên quan đến một hoặc nhiều chủ đề, có thể được coi là một hỗn hợp của nhiều mô hình chủ đề.
Bằng cách tích hợp các mô hình truy xuất thông tin và kỹ thuật khai thác dữ liệu, chúng ta có thể tìm thấy các chủ đề chính trong bộ sưu tập tài liệu và, đối với mỗi tài liệu trong bộ sưu tập, các chủ đề chính liên quan.
Số lượng lớn dữ liệu văn bản và đa phương tiện đã được tích lũy và cung cấp trực tuyến do sự phát triển nhanh chóng của Web và các ứng dụng như thư viện kỹ thuật số, chính phủ kỹ thuật số và hệ thống thông tin chăm sóc sức khỏe. Tìm kiếm và phân tích hiệu quả của họ đã đưa ra nhiều vấn đề thách thức trong khai thác dữ liệu. Do đó, khai thác văn bản và khai thác dữ liệu đa phương tiện, được tích hợp với các phương thức truy xuất thông tin, ngày càng trở nên quan trọng.