TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC BÁO CÁO MÔN HỌC HỆ HỖ TRỢ QUYẾT ĐỊNH Đề tài GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU Giáo viên hướng dẫn TS LÊ CHÍ NGỌC Mục lục CHƯƠNG 1 GIỚI THIỆU[.]
GIỚI THIỆU
Tại sao phải khai phá dữ liệu
Trong thế giới ngày nay, việc thu thập lượng lớn dữ liệu hàng ngày tạo ra nhu cầu cấp thiết trong phân tích dữ liệu Các công cụ khai thác dữ liệu đóng vai trò quan trọng trong việc giúp khám phá kiến thức từ dữ liệu một cách hiệu quả Phần 1.1.1 trình bày cách khai thác dữ liệu đáp ứng nhu cầu này, cung cấp các phương pháp để phân tích và trích xuất thông tin giá trị Đồng thời, Phần 1.1.2 cho thấy sự phát triển tự nhiên của công nghệ thông tin đã thúc đẩy quá trình khai thác dữ liệu trở thành một phần không thể thiếu trong kỷ nguyên số.
1.1.1 Tiến tới kỷ nguyên số:
Chúng ta đang sống trong thời đại dữ liệu, nơi lượng dữ liệu khổng lồ được tạo ra hàng ngày từ các doanh nghiệp, ngành y tế, khoa học và truyền thông xã hội Sự tăng trưởng bùng nổ về khối lượng dữ liệu là kết quả của quá trình số hóa xã hội và các công cụ thu thập, lưu trữ dữ liệu mạnh mẽ Các doanh nghiệp như Walmart xử lý hàng trăm triệu giao dịch mỗi tuần, trong khi các nhà khoa học liên tục tạo ra dữ liệu từ các nghiên cứu và đo lường kỹ thuật Ngành y tế tạo ra lượng dữ liệu lớn từ hồ sơ bệnh án và hình ảnh y tế, còn cộng đồng mạng xã hội và công cụ tìm kiếm xử lý hàng chục petabyte dữ liệu mỗi ngày Sự phát triển của các nguồn dữ liệu đa dạng này làm cho thời đại dữ liệu trở nên rõ ràng hơn bao giờ hết Để khai thác giá trị từ lượng dữ liệu quá lớn này, các công cụ tự động như khai thác dữ liệu đã ra đời, giúp phát hiện thông tin quan trọng và chuyển đổi dữ liệu thành kiến thức hữu ích, đưa chúng ta tiến gần hơn đến kỷ nguyên của thời đại thông tin.
Khai thác dữ liệu biến một tập hợp lớn dữ liệu thành kiến thức giá trị Công cụ tìm kiếm như Google nhận hàng trăm triệu truy vấn mỗi ngày, mỗi truy vấn phản ánh nhu cầu thông tin của người dùng Những mẫu dữ liệu tìm kiếm này có thể tiết lộ kiến thức vô giá mà không thể thu thập từ các dữ liệu riêng lẻ Ví dụ, Google Xu hướng dịch cúm sử dụng các thuật ngữ tìm kiếm để dự đoán hoạt động dịch bệnh, phát hiện mối quan hệ chặt chẽ giữa số người tìm kiếm và số ca triệu chứng thực tế Nhờ phân tích dữ liệu tìm kiếm, Google có thể dự đoán dịch cúm sớm hơn hệ thống truyền thống hơn hai tuần, minh chứng rõ ràng cho khả năng khai thác dữ liệu lớn thành kiến thức hữu ích trong y tế và các lĩnh vực khác.
1.1.2 Khai phá dữ liệu là sự phát triển của công nghệ thông tin.
Khai phá dữ liệu là kết quả tất yếu của quá trình phát triển công nghệ thông tin Các chức năng quan trọng của hệ thống quản lý dữ liệu bao gồm thu thập dữ liệu, tạo và quản lý cơ sở dữ liệu, lưu trữ, truy xuất dữ liệu, xử lý giao dịch và phân tích dữ liệu nâng cao Sự phát triển ban đầu của các cơ chế thu thập và lưu trữ dữ liệu đóng vai trò then chốt trong việc hình thành các hệ thống quản lý dữ liệu hiệu quả ngày nay Hiện nay, nhiều hệ thống cơ sở dữ liệu hỗ trợ truy vấn và xử lý giao dịch theo tiêu chuẩn ngành, trong khi phân tích dữ liệu nâng cao đã trở thành bước tiếp theo thúc đẩy sự tiến bộ của công nghệ khai phá dữ liệu.
Hình 1.1 Sự phát triển của công nghệ hệ thống cơ sở dữ liệu.
Kể từ những năm 1960, công nghệ cơ sở dữ liệu đã phát triển toàn diện từ hệ thống xử lý nguyên thủy đến các hệ thống cơ sở dữ liệu cao cấp và mạnh mẽ, đáp ứng nhu cầu lưu trữ và quản lý dữ liệu ngày càng lớn Trong thập niên 1970, hệ thống cơ sở dữ liệu chuyển từ mô hình mạng và phân cấp sang mô hình quan hệ, tích hợp các công cụ mô hình hóa dữ liệu, truy vấn, tối ưu hóa và quản lý giao dịch, giúp người dùng dễ dàng truy cập dữ liệu qua ngôn ngữ truy vấn và giao diện thân thiện Công nghệ OLTP đã đóng vai trò quan trọng trong xử lý giao dịch trực tuyến, thúc đẩy sự phổ biến của cơ sở dữ liệu quan hệ như một công cụ chính cho việc quản lý dữ liệu lớn Sau đó, các hệ thống cơ sở dữ liệu tiên tiến phát triển, kết hợp các mô hình dữ liệu mới như mô hình hướng đối tượng, quan hệ mở rộng, và các ứng dụng đa dạng như cơ sở dữ liệu không gian, thời gian, đa phương tiện, cảm biến và dữ liệu dựa trên web Trong những năm 1980, phân tích dữ liệu nâng cao nổi lên, thúc đẩy nghiên cứu về dữ liệu phân phối, đa dạng hóa và chia sẻ dữ liệu Nhờ tiến bộ của công nghệ phần cứng trong ba thập kỷ qua, lượng lớn máy tính mạnh mẽ, thiết bị lưu trữ rẻ tiền và các phương tiện thu thập dữ liệu đã giúp ngành công nghiệp dữ liệu phát triển vượt bậc, cung cấp khả năng quản lý, truy xuất và phân tích dữ liệu đa dạng qua các loại cơ sở dữ liệu và kho dữ liệu, đặc biệt là kho dữ liệu (Data Warehouse) giúp tổ chức nguồn dữ liệu không đồng nhất để hỗ trợ ra quyết định quản lý hiệu quả Công nghệ kho dữ liệu còn tích hợp làm sạch, thống nhất dữ liệu, cung cấp phân tích trực tuyến (OLAP) với các chức năng tóm tắt, hợp nhất, tổng hợp, giúp phân tích đa chiều và ra quyết định chính xác hơn Trong thập niên 1990, sự bùng nổ của World Wide Web và các cơ sở dữ liệu dựa trên web như XML đã mở ra kỷ nguyên mới cho ngành công nghiệp thông tin, nơi các cơ sở dữ liệu liên kết và tích hợp thông tin từ nhiều nguồn khác nhau, đặt ra những thách thức lớn trong việc phân tích hiệu quả dữ liệu từ các dạng khác nhau để hỗ trợ ra quyết định chính xác và kịp thời.
Hình 1.2 Thế giới giàu dữ liệu nhưng nghèo thông tin
Sự phong phú của dữ liệu đi kèm với nhu cầu về các công cụ phân tích dữ liệu mạnh mẽ đã tạo ra một tình huống gọi là "giàu dữ liệu nhưng nghèo thông tin" (Hình 1.2) Mặc dù lượng dữ liệu phát triển nhanh chóng và được lưu trữ trong nhiều kho dữ liệu lớn, khả năng hiểu biết của chúng ta vẫn bị giới hạn do thiếu các công cụ phù hợp Kết quả là, dữ liệu trong kho dữ liệu lớn thường hiếm khi được truy cập để hỗ trợ ra quyết định, khiến các quyết định quan trọng chủ yếu dựa vào trực giác của người ra quyết định Các nỗ lực dựa trên kiến thức và công nghệ dựa trên kiến thức nhằm giúp trích xuất giá trị từ dữ liệu, nhưng thủ tục nhập kiến thức thủ công lại dễ sai lệch, tốn thời gian và chi phí cao Khoảng cách ngày càng lớn giữa dữ liệu và thông tin đòi hỏi sự phát triển hệ thống của các công cụ khai thác dữ liệu nhằm biến kho dữ liệu thành nguồn kiến thức quý giá.
Khai phá dữ liệu là gì?
Khai thác dữ liệu là một chủ đề liên ngành, có thể được định nghĩa theo nhiều cách khác nhau, trong đó thuật ngữ này còn gọi là khai thác kiến thức từ dữ liệu, giúp tạo ra giá trị từ lượng lớn dữ liệu thô Quá trình này thường được mô tả như tạo ra các bộ nhỏ dữ liệu quý giá từ nguyên liệu ban đầu, dẫn đến các thuật ngữ như phân tích dữ liệu, khai thác kiến thức hay khảo cổ dữ liệu Nhiều người xem khai thác dữ liệu như một bước trong quá trình khám phá kiến thức, giúp phát hiện các mẫu và thông tin quan trọng từ dữ liệu lớn Kết quả của khai thác dữ liệu đóng vai trò thiết yếu trong việc hiểu biết sâu hơn về dữ liệu để hỗ trợ ra quyết định hiệu quả.
1 Làm sạch dữ liệu (để loại bỏ nhiễu và dữ liệu không nhất quán)
2 Tích hợp dữ liệu (nơi có thể kết hợp nhiều nguồn dữ liệu) 3
3 Lựa chọn dữ liệu (nơi dữ liệu liên quan đến nhiệm vụ phân tích được lấy từ cơ sở dữ liệu)
4 Chuyển đổi dữ liệu (trong đó dữ liệu được chuyển đổi và hợp nhất thành các biểu mẫu phù hợp để khai thác bằng cách thực hiện các hoạt động tóm tắt hoặc tổng hợp) 4
5 Khai thác dữ liệu (một quy trình thiết yếu trong đó các phương thức thông minh được áp dụng để trích xuất các mẫu dữ liệu)
6 Đánh giá mô hình (xác định các mô hình thú vị về nhận thức dựa trên các biện pháp thú vị, xem phần 1.4.6)
7 Trình bày kiến thức (trong đó các kỹ thuật biểu diễn tri thức và trực quan được sử dụng để trình bày kiến thức khai thác cho người dùng)
Trong quá trình khai thác dữ liệu, bước 1 đến 4 bao gồm các hình thức tiền xử lý dữ liệu khác nhau nhằm chuẩn bị dữ liệu cho việc phân tích Bước khai thác dữ liệu có thể tương tác trực tiếp với người dùng hoặc truy cập vào các cơ sở tri thức, giúp mô tả kiến thức cơ bản và kiến thức nền tảng Mặc dù trước đây khai thác dữ liệu chỉ được xem là một phần của quy trình khám phá tri thức, nhưng trong ngành công nghiệp, truyền thông và nghiên cứu, thuật ngữ này thường dùng để chỉ toàn bộ quá trình khám phá kiến thức từ dữ liệu do tính ngắn gọn của thuật ngữ Khai thác dữ liệu là quá trình khám phá các mẫu và kiến thức thú vị từ lượng lớn dữ liệu, với nguồn dữ liệu có thể bao gồm cơ sở dữ liệu, kho dữ liệu, web, các kho thông tin khác hoặc dữ liệu truyền trực tiếp vào hệ thống.
Những loại dữ liệu nào có thể được khai phá?
Khai thác dữ liệu là công nghệ phổ biến có thể áp dụng cho mọi loại dữ liệu có ý nghĩa đối với ứng dụng đích, bao gồm dữ liệu cơ sở dữ liệu, kho dữ liệu và dữ liệu giao dịch Các kỹ thuật và khái niệm trong cuốn sách này tập trung chủ yếu vào các dạng dữ liệu này, nhưng khai thác dữ liệu còn có thể mở rộng cho các loại dữ liệu khác như luồng dữ liệu, dữ liệu theo chuỗi, biểu đồ, dữ liệu mạng, dữ liệu không gian, văn bản, đa phương tiện và dữ liệu trên WWW Các phương pháp khai thác các loại dữ liệu này được giới thiệu trong Chương 13, trong khi xử lý độc lập được coi là chủ đề nâng cao Dưới tác động của sự phát triển công nghệ, khai thác dữ liệu chắc chắn sẽ tiếp tục thích nghi và khai thác các dạng dữ liệu mới khi chúng xuất hiện, mở rộng khả năng ứng dụng của mình trong các lĩnh vực khác nhau.
Hệ thống cơ sở dữ liệu, hay còn gọi là hệ thống quản lý cơ sở dữ liệu (DBMS), gồm có một tập hợp dữ liệu liên quan đến nhau và các chương trình phần mềm để quản lý và truy cập dữ liệu Các chương trình này cung cấp cơ chế xác định cấu trúc, lưu trữ, quản lý truy cập đồng thời, chia sẻ và đảm bảo tính nhất quán, bảo mật của dữ liệu ngay cả khi hệ thống gặp sự cố hoặc bị truy cập trái phép Cơ sở dữ liệu quan hệ là tập hợp các bảng, mỗi bảng có tên duy nhất, gồm các thuộc tính (cột hoặc trường) và chứa nhiều bộ dữ liệu (bản ghi hoặc hàng), trong đó mỗi bộ biểu thị một đối tượng duy nhất qua khóa chính và các giá trị thuộc tính Mô hình dữ liệu ngữ nghĩa như mô hình dữ liệu quan hệ thực thể (ER) thường được xây dựng cho các cơ sở dữ liệu này, đại diện cho hệ thống như một tập hợp các thực thể và các quan hệ của chúng.
Trong ví dụ 1.2, một cơ sở dữ liệu quan hệ được thiết kế để quản lý tất cả các thiết bị điện tử, dựa trên hoạt động của cửa hàng All Electronics Công ty này được mô tả thông qua các bảng quan hệ chính như khách hàng, mặt hàng, nhân viên và chi nhánh, với các tiêu đề của bảng thể hiện rõ trong Hình 1.5 Các tiêu đề này còn được gọi là lược đồ của các mối quan hệ trong cơ sở dữ liệu, giúp tổ chức dữ liệu một cách rõ ràng và có hệ thống.
Khách hàng quan hệ bao gồm một tập hợp các thuộc tính mô tả thông tin khách hàng như mã khách hàng duy nhất, tên, địa chỉ, tuổi, nghề nghiệp, thu nhập hàng năm, thông tin tín dụng và danh mục Các thực thể như nhân viên và chi nhánh cũng được mô tả qua các thuộc tính riêng để phản ánh đặc điểm của chúng Các bảng trong hệ thống có thể thể hiện các mối quan hệ giữa các thực thể này, ví dụ như mua hàng—khách hàng mua các mặt hàng và tạo giao dịch bán hàng do nhân viên xử lý, các mặt hàng được bán trong qua trình giao dịch và nhân viên làm việc tại các chi nhánh của All Electronics.
Dữ liệu quan hệ có thể truy cập thông qua các truy vấn viết bằng ngôn ngữ truy vấn quan hệ như SQL hoặc qua giao diện người dùng đồ họa, giúp chuyển đổi các truy vấn thành các hoạt động như nối, chọn và chiếu để xử lý hiệu quả Các truy vấn cho phép truy xuất các tập hợp con dữ liệu cụ thể, ví dụ như hỏi danh sách các mặt hàng đã bán trong quý trước hoặc tổng doanh số tháng, phân nhóm theo chi nhánh, hoặc xác định nhân viên bán hàng có doanh số cao nhất Ngôn ngữ truy vấn còn sử dụng các hàm tổng hợp như sum, avg, đếm, max và min để trả về các kết quả tổng hợp, phục vụ phân tích doanh số và hoạt động bán hàng Ngoài ra, hệ thống khai thác dữ liệu có thể phân tích xu hướng và mẫu dữ liệu, như dự đoán rủi ro tín dụng khách hàng mới dựa trên thu nhập và lịch sử tín dụng, hoặc phát hiện các sai lệch về doanh số vượt xa dự kiến, có thể liên quan đến thay đổi trong bao bì hoặc giá cả Các cơ sở dữ liệu quan hệ là kho lưu trữ thông tin phong phú và phổ biến, đóng vai trò trung tâm trong nghiên cứu khai thác dữ liệu.
All Electronics là một công ty quốc tế thành công với các chi nhánh khắp thế giới, mỗi chi nhánh có bộ cơ sở dữ liệu riêng biệt Chủ tịch công ty đã yêu cầu phân tích doanh số bán hàng theo từng loại mặt hàng cho mỗi chi nhánh trong quý thứ ba, một nhiệm vụ phức tạp do dữ liệu phân tán tại nhiều địa điểm khác nhau Có kho dữ liệu trung tâm giúp nhiệm vụ này trở nên dễ dàng hơn, vì nó là nơi lưu trữ thông tin từ nhiều nguồn dữ liệu khác nhau dưới một lược đồ thống nhất, được xây dựng qua các quá trình làm sạch, tích hợp, chuyển đổi, tải và làm mới dữ liệu định kỳ Kho dữ liệu hỗ trợ ra quyết định nhờ tổ chức dữ liệu theo các chủ đề chính như khách hàng, mặt hàng, nhà cung cấp và hoạt động, giúp dễ dàng truy xuất và tóm tắt dữ liệu theo nhiều cấp độ khác nhau, ví dụ như theo cửa hàng hoặc khu vực bán hàng trong vòng 6-12 tháng qua Mô hình dữ liệu đa chiều trong kho dữ liệu, còn gọi là khối dữ liệu, cho phép phân tích đa chiều và truy cập nhanh các dữ liệu tổng hợp, như số lượng bán hàng hoặc tổng doanh thu, hỗ trợ quản lý doanh nghiệp hiệu quả hơn.
Hình 1.6 Khung điển hình của kho dữ liệu cho AllElect Electronics.
Ví dụ 1.3 mô tả một khối dữ liệu dành cho AllElect Electronic, trong đó khối này thể hiện dữ liệu bán hàng tóm tắt của công ty Khối dữ liệu có ba chiều chính: địa chỉ (gồm các thành phố Chicago, New York, Toronto, Vancouver), thời gian (gồm các quý Q1, Q2, Q3, Q4), và vật phẩm (bao gồm giải trí gia đình, máy tính, điện thoại, bảo mật) Giá trị trong mỗi ô của khối là số tiền bán hàng (tính bằng nghìn đô la) Ví dụ, tổng doanh thu cho quý đầu tiên (Q1) của các mặt hàng liên quan đến hệ thống an ninh tại Vancouver là 400.000 đô la, và được đặt tên là "Vancouver, Q1, Bảo mật".
Hệ thống kho dữ liệu cung cấp chế độ xem dữ liệu đa chiều và tính toán trước dữ liệu tóm tắt để hỗ trợ các hoạt động OLAP hiệu quả Các hoạt động phân tích trực tuyến như truy vấn ngược và cuộn lên cho phép người dùng xem dữ liệu ở nhiều mức độ trừu tượng, từ dữ liệu bán hàng theo quý đến theo tháng, hay theo thành phố đến quốc gia Mặc dù các công cụ kho dữ liệu hỗ trợ phân tích, các công cụ khai thác dữ liệu bổ sung cần thiết để thực hiện phân tích chuyên sâu hơn Khai thác dữ liệu đa chiều cho phép khám phá các tổ hợp kích thước khác nhau trong không gian đa chiều, giúp phát hiện các mẫu dữ liệu thú vị và tạo ra kiến thức giá trị Các vấn đề nâng cao về tính toán khối dữ liệu và khai thác dữ liệu đa chiều được trình bày trong các chương liên quan của sách.
Mỗi bản ghi trong cơ sở dữ liệu giao dịch ghi lại một giao dịch cụ thể, như mua hàng của khách hàng, đặt phòng hoặc nhấp chuột trên trang web Giao dịch thường chứa số nhận dạng giao dịch duy nhất (trans ID) cùng danh sách các mục liên quan, ví dụ như các mặt hàng đã được mua Ngoài ra, cơ sở dữ liệu giao dịch còn có thể bao gồm các bảng bổ sung chứa thông tin liên quan như mô tả sản phẩm, thông tin nhân viên bán hàng hoặc chi nhánh thực hiện giao dịch.
Ví dụ về cơ sở dữ liệu giao dịch của AllElect Electronics cho thấy các giao dịch được lưu trữ trong bảng, mỗi bản ghi đại diện cho một giao dịch cụ thể Bảng doanh số trong cơ sở dữ liệu này thể hiện mối quan hệ lồng nhau do danh sách thuộc tính của ID vật phẩm chứa tập hợp các mặt hàng Tuy nhiên, phần lớn các hệ thống cơ sở dữ liệu quan hệ không hỗ trợ các cấu trúc lồng nhau, nên dữ liệu thường được lưu trữ theo dạng bảng hoặc chuyển đổi thành các quan hệ chuẩn theo định dạng các mục bán hàng.
Là một nhà phân tích của AllElect Electronics, bạn có thể sử dụng phân tích dữ liệu giỏ thị trường để xác định các mặt hàng được bán cùng nhau, từ đó xây dựng chiến lược tăng doanh số Ví dụ, khi biết máy in thường được mua cùng máy tính, bạn có thể khuyến mãi máy in giảm giá hoặc miễn phí cho khách hàng mua máy tính, nhằm thúc đẩy bán hàng máy tính - mặt hàng thường có giá cao hơn Hệ thống cơ sở dữ liệu truyền thống không thể thực hiện phân tích này, nhưng khai thác dữ liệu giao dịch sẽ giúp xác định các mặt hàng thường xuyên đi kèm nhau nhờ vào khai thác các mẫu thường xuyên, như đã được thảo luận trong Chương 6 và 7.
1.3.4 Các loại dữ liệu khác
Ngoài dữ liệu quan hệ, dữ liệu kho dữ liệu và dữ liệu giao dịch, còn tồn tại nhiều loại dữ liệu khác có hình thức và cấu trúc linh hoạt cùng ý nghĩa ngữ nghĩa đa dạng Các loại dữ liệu này xuất hiện phổ biến trong các ứng dụng như dữ liệu thời gian và chuỗi (hồ sơ lịch sử, dữ liệu chứng khoán, chuỗi thời gian và sinh học), dữ liệu luồng (dữ liệu giám sát, cảm biến video truyền liên tục), dữ liệu không gian (bản đồ), dữ liệu thiết kế kỹ thuật (xây dựng, hệ thống hoặc mạch tích hợp), dữ liệu siêu văn bản và đa phương tiện (văn bản, hình ảnh, video, âm thanh), dữ liệu biểu đồ và dữ liệu nối mạng (mạng xã hội, thông tin trực tuyến), cùng với dữ liệu trên Web - một kho lưu trữ thông tin khổng lồ phân phối qua Internet Các ứng dụng này đặt ra những thách thức mới trong cách xử lý dữ liệu với các cấu trúc đặc biệt như chuỗi, cây, biểu đồ và mạng, cũng như khai thác hiệu quả các ngữ nghĩa phong phú như đặt hàng, nội dung hình ảnh, âm thanh, video và các liên kết mạng.
Nhiều loại kiến thức có thể được khai thác từ các loại dữ liệu khác nhau, giúp hỗ trợ trong nhiều lĩnh vực Dữ liệu tạm thời, như dữ liệu ngân hàng, có thể được phân tích để nhận diện xu hướng, từ đó tối ưu hóa lịch trình của giao dịch viên dựa trên khối lượng khách hàng Dữ liệu chứng khoán giúp hoạch định chiến lược đầu tư bằng cách xác định thời điểm mua bán cổ phiếu phù hợp Ngoài ra, các phương pháp như phân cụm và xây dựng mô hình luồng có thể phát hiện các thông điệp quan trọng hoặc so sánh các mô hình hiện tại với quá khứ để hiểu rõ hơn về xu hướng thị trường Với dữ liệu không gian, ta có thể xác định các mô hình thay đổi về tỷ lệ nghèo đô thị dựa trên khoảng cách đến các tuyến đường chính, đồng thời khám phá mối quan hệ giữa các đối tượng không gian để đưa ra các phân tích liên quan Dữ liệu văn bản, như tài liệu khai thác dữ liệu qua nhiều năm, giúp xác định các chủ đề nóng và đánh giá cảm xúc khách hàng đối với sản phẩm, từ đó nắm bắt phản hồi thị trường chính xác hơn Từ dữ liệu đa phương tiện như hình ảnh và video, ta có thể phân loại đối tượng hoặc phát hiện mục tiêu trong các đoạn video như trò chơi khúc côn cầu Khai thác dữ liệu web giúp phân tích phân phối thông tin, phân loại các trang web, và khám phá các mối liên hệ giữa người dùng, cộng đồng và nội dung trên mạng, trong khi dữ liệu biểu đồ và bản đồ giúp làm rõ đặc điểm và xu hướng hoạt động trên web Trong lĩnh vực sinh học, dữ liệu về trình tự gen, mạng lưới sinh học và cấu trúc không gian cũng đóng vai trò quan trọng trong việc khám phá kiến thức mới.
Ba chiều của bộ gen có thể tồn tại đồng thời trong một số đối tượng sinh học nhất định, mở ra cơ hội khai thác dữ liệu phức tạp hiệu quả hơn nhờ sự tích hợp nhiều nguồn dữ liệu Tuy nhiên, việc này cũng đặt ra thách thức về làm sạch, tích hợp và xử lý các tương tác phức tạp giữa các nguồn dữ liệu khác nhau Dữ liệu này yêu cầu các phương tiện lưu trữ, truy xuất và cập nhật tinh vi, đồng thời cung cấp cơ hội nghiên cứu mới trong lĩnh vực khai thác dữ liệu Các phương pháp khai thác dữ liệu liên quan là các mở rộng của các kỹ thuật cơ bản đã được trình bày trong cuốn sách này, thúc đẩy nghiên cứu nâng cao trong lĩnh vực này.
Những loại mô hình có thể được khai phá?
Chúng tôi đã khảo sát các loại kho dữ liệu và các phương pháp khai thác dữ liệu khác nhau Các mô hình khai thác dữ liệu bao gồm các chức năng như đặc tính hóa, phân biệt đối xử, khai thác các mô hình liên kết, phân loại, phân loại cụm và phân tích ngoại lệ Các chức năng này giúp xác định các mẫu dữ liệu trong quá trình khai thác, chia thành hai nhiệm vụ chính: mô tả dữ liệu và dự đoán kết quả Nhiệm vụ khai thác mô tả tập trung vào phân tích các thuộc tính của dữ liệu, trong khi khai thác dự đoán sử dụng dữ liệu hiện tại để dự báo các kết quả tương lai.
Data mining functionalities and the types of patterns they can discover are key aspects of effective data analysis Additionally, section 1.4.6 explores what makes a model interesting, emphasizing that an interesting model represents valuable knowledge Understanding these functionalities and characteristics helps in developing models that uncover meaningful insights from data, ultimately enhancing decision-making processes.
1.4.1 Phân loại / Khái niệm mô tả: Đặc trưng và phân biệt
Quét dữ liệu được liên kết với các lớp hoặc khái niệm Ví dụ: trong cửa hàng AllElect
Các lớp mặt hàng điện tử như máy tính và máy in, cùng với các khái niệm khách hàng như bigSpender và ngân sách Spender, được mô tả ngắn gọn và chính xác để dễ hiểu Các mô tả lớp hoặc khái niệm thường dựa trên đặc tính dữ liệu (tổng hợp các đặc điểm chung của lớp mục tiêu) hoặc phân biệt dữ liệu (so sánh lớp mục tiêu với các lớp khác), hoặc kết hợp cả hai Dữ liệu liên quan đến khách hàng hoặc sản phẩm thường được thu thập qua các truy vấn SQL từ cơ sở dữ liệu bán hàng nhằm phân tích và hiểu rõ các đặc điểm như doanh số tăng hay các đặc điểm khách hàng tiêu biểu Như vậy, việc mô tả lớp và khái niệm giúp tối ưu hóa quá trình phân tích dữ liệu và nâng cao hiệu quả kinh doanh trong lĩnh vực điện tử.
Có nhiều phương pháp hiệu quả để tóm tắt và mô tả dữ liệu, bao gồm các biện pháp và sơ đồ thống kê được trình bày trong Chương 2 Hoạt động cuộn lên OLAP dựa trên khối dữ liệu có thể giúp người dùng kiểm soát việc tóm tắt dữ liệu theo kích thước cụ thể, như đã được giải thích trong Phần 1.3.2 Quá trình này được chi tiết hơn trong các Chương 4 và 5, tập trung vào quản lý kho dữ liệu Ngoài ra, kỹ thuật cảm ứng hướng thuộc tính có thể thực hiện khái quát hóa và đặc tính hóa dữ liệu một cách tự động mà không cần từng bước tương tác của người dùng, giúp nâng cao hiệu quả phân tích dữ liệu.
Kỹ thuật này được mô tả trong Chương 4, tập trung vào cách trình bày đầu ra của đặc tính dữ liệu dưới nhiều hình thức khác nhau như bảng, biểu đồ cột, đường cong, khối dữ liệu đa chiều và bảng chéo Các kết quả phân tích cũng có thể được trình bày dưới dạng khái quát hóa hoặc quy tắc, còn gọi là đặc trưng, giúp tối ưu hóa quá trình phân tích dữ liệu.
Người quản lý quan hệ khách hàng tại AllElectronics có thể khai thác dữ liệu để tóm tắt các đặc điểm của khách hàng chi tiêu hơn 5.000 đô la mỗi năm, giúp xác định nhóm khách hàng từ 40 đến 50 tuổi, có nghề nghiệp ổn định và xếp hạng tín dụng tuyệt vời Hệ thống khai thác dữ liệu nên cho phép phân tích sâu vào các khía cạnh như nghề nghiệp để hiểu rõ hơn về loại công việc của khách hàng này Việc này mang lại lợi ích trong việc xây dựng chiến lược chăm sóc khách hàng hiệu quả và cá nhân hóa dịch vụ.
Phân biệt dữ liệu liên quan đến việc so sánh các đặc điểm chung của các đối tượng dữ liệu trong lớp mục tiêu với các đặc điểm của các đối tượng trong lớp tương phản, được xác định dựa trên truy vấn cơ sở dữ liệu Ví dụ, người dùng có thể muốn đối chiếu các tính năng của sản phẩm phần mềm với doanh số tăng trưởng 10% trong năm ngoái so với các sản phẩm có doanh số giảm ít nhất 30% Các phương pháp phân biệt dữ liệu thường sử dụng các kỹ thuật mô tả dữ liệu, tuy nhiên, cần có các hình thức trình bày giúp thể hiện rõ sự khác biệt giữa các lớp mục tiêu và lớp tương phản Các hình thức trình bày này bao gồm các quy tắc phân biệt, còn gọi là phân biệt đối xử, giúp rõ ràng hóa các tiêu chí phân biệt giữa các lớp dữ liệu.
Các hình thức trình bày phân biệt đối xử có thể khác nhau, nhưng đều nhằm thể hiện rõ đặc điểm và sự khác biệt giữa các lớp mục tiêu Các mô tả này nên bao gồm các biện pháp so sánh, giúp phân biệt rõ các nhóm đối tượng và tạo sự đối lập rõ ràng Mô tả về phân biệt đối xử thường thể hiện dưới dạng các quy tắc hoặc quy định, gọi là các hình thức phân biệt đối xử để làm rõ sự phân biệt trong các tình huống khác nhau.
Người quản lý quan hệ khách hàng tại AllElect Electronics muốn so sánh hai nhóm khách hàng dựa trên tần suất mua hàng để hiểu rõ hơn về đặc điểm của từng nhóm Ví dụ, 80% khách hàng mua sản phẩm máy tính thường xuyên (hơn hai lần một tháng) có độ tuổi từ 20 đến 40 và trình độ học vấn đại học, trong khi 60% khách hàng mua ít hơn ba lần một năm thường là người cao niên hoặc thanh niên, không có bằng đại học Việc phân tích sâu hơn về nghề nghiệp hoặc mức thu nhập có thể giúp xác định các đặc điểm phân biệt rõ ràng hơn giữa các nhóm này Việc mô tả dữ liệu, kết hợp đặc tính hóa và phân biệt đối xử, đóng vai trò quan trọng trong quá trình ra quyết định, như đã trình bày trong Chương 4.
1.4.2 Khai phá các mô hình, hiệp hội và tương quan thường xuyên
Các mẫu thường xuyên trong dữ liệu phản ánh các hành vi phổ biến và lặp lại; bao gồm các bộ thường xuyên (các mặt hàng thường đi cùng nhau, như sữa và bánh mì), các mẫu tuần tự (như khách hàng mua máy tính xách tay, sau đó là máy ảnh kỹ thuật số và thẻ nhớ), và các cấu trúc thường xuyên (như biểu đồ, cây hoặc mạng) Việc khai thác các mẫu này giúp phát hiện các mối liên hệ và mối tương quan quan trọng trong dữ liệu, hỗ trợ doanh nghiệp nâng cao chiến lược tiếp thị và phân tích dữ liệu hiệu quả hơn.
Các mẫu thường xuyên là các mẫu xuất hiện nhiều lần trong dữ liệu, bao gồm các bộ thường xuyên, mẫu thường xuyên (hay còn gọi là mẫu liên tiếp) và cấu trúc thường xuyên Ví dụ, các bộ thường xuyên thể hiện các mặt hàng hay được mua cùng nhau như sữa và bánh mì trong các cửa hàng tạp hóa, trong khi các mẫu tuần tự mô tả các chuỗi hành vi mua hàng liên tiếp như khách hàng đầu tiên mua máy tính xách tay, sau đó là máy ảnh kỹ thuật số và thẻ nhớ Cấu trúc thường xuyên có thể là các biểu đồ, cây hoặc mạng, thể hiện các hình thức cấu trúc phức tạp trong dữ liệu, và khi xảy ra thường xuyên, gọi là mẫu có cấu trúc Khai thác các mẫu thường xuyên giúp phát hiện các mối liên hệ và mối quan hệ ẩn trong dữ liệu, ví dụ như luật mua hàng "mua máy tính" sẽ dẫn đến "mua phần mềm" với độ hỗ trợ và độ tin cậy nhất định, hỗ trợ tốt trong tối ưu hóa chiến lược kinh doanh và phân tích dữ liệu.
Trong bài viết này, X đại diện cho một khách hàng cụ thể Khái niệm "50% chắc chắn" đề cập đến khả năng khách hàng mua phần mềm khi họ đã quyết định mua máy tính, với tỷ lệ xác suất lên đến 50% Điều này giúp các doanh nghiệp hiểu rõ hơn về khả năng chuyển đổi khách hàng từ các sản phẩm ban đầu sang các sản phẩm liên quan.
Hỗ trợ 1% đề cập đến tỷ lệ các giao dịch trong phân tích cho thấy máy tính và phần mềm được mua cùng nhau, dựa trên quy tắc kết hợp Quy tắc này liên quan đến một thuộc tính hoặc vị từ duy nhất lặp lại, và các quy tắc chứa một vị từ được gọi là quy tắc kết hợp một chiều Ví dụ, có thể diễn đạt đơn giản như phần mềm máy tính của hãng nhất định liên quan đến tỷ lệ 1% hoặc 50% Trong hệ thống khai thác dữ liệu, dữ liệu từ cơ sở dữ liệu quan hệ AllElect Electronic có thể xác định các quy tắc kết hợp như tuổi của khách hàng từ 20 đến 29, mức thu nhập từ 40K đến 49K, và sở thích mua laptop, giúp tối ưu chiến lược marketing và bán hàng.
Trong cơ sở dữ liệu đa chiều của AllElectronics, có 2% khách hàng từ 20 đến 29 tuổi, thu nhập từ 40.000 đến 49.000 đô la và đã mua máy tính xách tay Có xác suất 60% rằng khách hàng thuộc nhóm tuổi và thu nhập này sẽ mua máy tính xách tay, cho thấy mối liên hệ giữa các thuộc tính như tuổi, thu nhập và hành vi mua hàng trong hệ thống dữ liệu đa chiều.
Các quy tắc kết hợp thường bị loại bỏ nếu không đáp ứng được ngưỡng hỗ trợ tối thiểu và ngưỡng kết nối tối thiểu, khiến chúng trở nên không thú vị Phân tích bổ sung giúp khám phá các mối tương quan thống kê hấp dẫn giữa các cặp giá trị thuộc tính liên kết Khai thác tập hợp mục thường xuyên là một phương pháp quan trọng trong khai thác mẫu dữ liệu Các kỹ thuật khai thác mẫu, liên kết và tương quan thường xuyên được trình bày trong Chương 6 và 7, với trọng tâm là các thuật toán hiệu quả cho khai thác mục thường xuyên Khai thác mẫu tuần tự và mẫu có cấu trúc được xem là các chủ đề nâng cao trong lĩnh vực này.
1.4.3 Phân loại và hồi quy để phân tích dự đoán
Công nghệ nào được sử dụng?
Khai thác dữ liệu là một lĩnh vực ứng dụng cao, kết hợp nhiều kỹ thuật đa dạng như thống kê, học máy, nhận dạng mẫu, cơ sở dữ liệu, hệ thống kho dữ liệu, trực quan hóa và hiệu suất cao điện toán để phục vụ nhiều ngành công nghiệp khác nhau Các nghiên cứu đa dạng trong khai thác dữ liệu góp phần quan trọng vào sự thành công của lĩnh vực này và thúc đẩy các ứng dụng rộng rãi trong thực tiễn Ví dụ, ngành công nghiệp tài chính, y tế, bán lẻ và công nghệ đã nhận được nhiều ảnh hưởng từ các phương pháp khai thác dữ liệu tiên tiến, từ đó nâng cao hiệu quả và đổi mới trong hoạt động kinh doanh.
Thống kê nghiên cứu liên quan đến việc thu thập, phân tích, giải thích và trình bày dữ liệu một cách có hệ thống để đưa ra các kết luận chính xác Khai thác dữ liệu (Data Mining) có mối liên hệ chặt chẽ với số liệu thống kê, giúp phát hiện các mẫu và xu hướng ẩn trong dữ liệu lớn Việc sử dụng thống kê trong khai thác dữ liệu giúp tối ưu hóa quá trình phân tích và nâng cao khả năng ra quyết định dựa trên dữ liệu thực tế.
Mô hình thống kê là tập hợp các hàm toán học mô tả hành vi của các đối tượng trong lớp mục tiêu dựa trên các biến ngẫu nhiên và phân phối xác suất liên quan Các mô hình thống kê đóng vai trò quan trọng trong việc mô hình hóa dữ liệu, đặc biệt trong các nhiệm vụ khai thác dữ liệu như phân loại và phân cụ thể các lớp mục tiêu Chúng giúp xây dựng các mô hình dự báo, mô hình nhiễu và xử lý dữ liệu thiếu, từ đó nâng cao độ chính xác của quá trình khai thác dữ liệu Ngoài ra, thống kê phát triển các công cụ để dự đoán và tóm tắt dữ liệu, giúp hiểu rõ các cơ chế tạo ra dữ liệu và ảnh hưởng đến các mẫu dữ liệu Thống kê suy luận, hay thống kê dự đoán, mô hình hóa dữ liệu trong phạm vi ngẫu nhiên, không chắc chắn để rút ra các suy luận chính xác về dân số hoặc quá trình điều tra.
Phương pháp thống kê là công cụ quan trọng để xác minh kết quả khai thác dữ liệu, đảm bảo tính chính xác và đáng tin cậy của mô hình Sau khi xây dựng mô hình phân loại hoặc dự đoán, việc xác minh bằng thử nghiệm giả thuyết thống kê giúp đưa ra quyết định dựa trên dữ liệu thực nghiệm Một kết quả được xem là có ý nghĩa thống kê khi khả năng xảy ra do ngẫu nhiên là rất thấp, xác nhận tính hợp lý của mô hình Nếu mô hình hoạt động chính xác, các số liệu thống kê mô tả sẽ làm tăng độ tin cậy và giá trị của kết quả dự đoán.
Khai thác dữ liệu bằng các kỹ thuật từ nhiều miền là một thách thức lớn, đặc biệt khi mở rộng các phương pháp thống kê cho các tập dữ liệu lớn Nhiều phương pháp thống kê đòi hỏi tính toán phức tạp, và khi áp dụng trên các dữ liệu phân phối trên nhiều hệ thống, thuật toán cần được thiết kế cẩn thận để giảm thiểu chi phí tính toán Đặc biệt trong các ứng dụng trực tuyến như đề xuất truy vấn trong công cụ tìm kiếm, việc khai thác dữ liệu yêu cầu xử lý các luồng dữ liệu nhanh và thời gian thực, làm tăng độ khó của việc mở rộng và tối ưu hoá các phương pháp thống kê trong khai thác dữ liệu.
Học máy là lĩnh vực nghiên cứu về cách máy tính có thể học hoặc cải thiện hiệu suất dựa trên dữ liệu Một trong những mục tiêu chính của học máy là giúp các chương trình máy tính tự động nhận diện các mẫu phức tạp và ra quyết định thông minh dựa trên dữ liệu thu thập được Ví dụ phổ biến của học máy là lập trình máy tính để tự động nhận dạng mã bưu chính viết tay trên thư, sau khi đã được huấn luyện từ một tập hợp các ví dụ.
Học máy là một lĩnh vực phát triển nhanh chóng trong lĩnh vực công nghệ, đóng vai trò quan trọng trong việc khai thác dữ liệu Các vấn đề kinh điển trong học máy liên quan chặt chẽ đến khám phá dữ liệu và phân tích thông minh, giúp tối ưu hóa quá trình ra quyết định Nhờ vào sự tiến bộ của học máy, các ứng dụng trong công nghiệp, y tế và tài chính ngày càng trở nên hiệu quả và chính xác hơn Việc nghiên cứu và phát triển các thuật toán mới trong học máy đang thúc đẩy khả năng khai thác dữ liệu sâu hơn và mở ra nhiều cơ hội mới cho các doanh nghiệp và nhà nghiên cứu.
Học có giám sát cơ bản là quá trình phân loại dựa trên các ví dụ đã được dán nhãn sẵn trong bộ dữ liệu đào tạo Trong lĩnh vực nhận dạng mã bưu chính, các hình ảnh mã bưu chính viết tay cùng với bản dịch đọc được bằng máy được sử dụng làm dữ liệu huấn luyện, giúp mô hình học cách phân loại chính xác Quá trình này dựa trên việc sử dụng các dữ liệu đã được gán nhãn để hướng dẫn mô hình học nhận diện và phân loại một cách hiệu quả.
Học tập không giám sát chủ yếu liên quan đến quá trình phân cụm dữ liệu mà không cần nhãn lớp Quá trình này giúp khám phá các nhóm trong dữ liệu, chẳng hạn như phân nhóm các hình ảnh chữ số viết tay thành các cụm tượng trưng cho các chữ số khác nhau từ 0 đến 9 Mặc dù dữ liệu đào tạo không được dán nhãn, phương pháp phân cụm có thể giúp xác định ý nghĩa ngữ nghĩa của các cụm dữ liệu đã tìm thấy.
Học bán giám sát là kỹ thuật học máy kết hợp cả dữ liệu được gắn nhãn và không gắn nhãn để xây dựng mô hình chính xác hơn Các ví dụ đã gắn nhãn giúp xác định các mô hình lớp, trong khi dữ liệu không gắn nhãn giúp điều chỉnh ranh giới phân loại một cách tối ưu Trong bài toán hai lớp, tập hợp các ví dụ thuộc một lớp được xem là các ví dụ tích cực, còn lớp kia là các ví dụ tiêu cực; việc sử dụng dữ liệu không gắn nhãn giúp tinh chỉnh ranh giới quyết định từ đường nét đứt thành đường liền nét Điều này còn giúp phát hiện các ngoại lệ hoặc nhiễu, chẳng hạn như các ví dụ tích cực trong góc trên bên phải có khả năng là dữ liệu ngoại lệ.
Học tích cực là phương pháp học máy cho phép người dùng tham gia tích cực vào quá trình học Phương pháp này yêu cầu người dùng, như các chuyên gia lĩnh vực, gắn nhãn cho các ví dụ dữ liệu, giúp cải thiện chất lượng mô hình Mục tiêu của học tích cực là tối ưu hóa quá trình thu thập kiến thức từ người dùng và hạn chế số lượng ví dụ cần gán nhãn, từ đó nâng cao hiệu quả của mô hình học máy.
Khai thác dữ liệu và học máy có nhiều điểm tương đồng, đặc biệt trong các nhiệm vụ phân loại và phân cụm, nơi mà độ chính xác của mô hình đóng vai trò quan trọng Ngoài việc tập trung vào độ chính xác, nghiên cứu khai thác dữ liệu còn nhấn mạnh đến hiệu quả và khả năng mở rộng của các phương pháp khai thác trên các tập dữ liệu lớn Các nghiên cứu cũng chú trọng vào cách xử lý dữ liệu phức tạp và khám phá các phương pháp mới, thay thế nhằm nâng cao hiệu quả khai thác thông tin từ dữ liệu lớn.
1.5.3 Hệ thống cơ sở dữ liệu và DataWarehouses
Hệ thống cơ sở dữ liệu tập trung đóng vai trò quan trọng trong việc tạo, bảo trì và vận hành dữ liệu cho các tổ chức và người dùng cuối Các nhà nghiên cứu đã thiết lập các nguyên tắc chuẩn về mô hình dữ liệu, ngôn ngữ truy vấn, phương pháp xử lý và tối ưu hóa truy vấn nhằm nâng cao hiệu quả hoạt động của hệ thống Ngoài ra, các hệ thống này còn đặc biệt mạnh mẽ trong khả năng mở rộng để xử lý khối lượng dữ liệu lớn, có cấu trúc rõ ràng Các phương pháp lưu trữ dữ liệu, lập chỉ mục và truy cập dữ liệu cũng được phát triển nhằm tối ưu hiệu suất và đảm bảo độ tin cậy cho người dùng.
Nhiều tác vụ khai thác dữ liệu yêu cầu xử lý các tập dữ liệu lớn hoặc dữ liệu truyền phát nhanh trong thời gian thực Do đó, việc sử dụng các công nghệ cơ sở dữ liệu có khả năng mở rộng là cần thiết để nâng cao hiệu quả và khả năng mở rộng của hệ thống Các tác vụ khai thác dữ liệu còn giúp mở rộng khả năng của các hệ thống cơ sở dữ liệu hiện có, đáp ứng các yêu cầu phân tích dữ liệu phức tạp của người dùng.
Các hệ thống cơ sở dữ liệu gần đây đã tích hợp khả năng phân tích dữ liệu có hệ thống thông qua kho dữ liệu và khai thác dữ liệu Kho dữ liệu tập hợp và hợp nhất dữ liệu từ nhiều nguồn và khung thời gian khác nhau, xây dựng các khối dữ liệu đa chiều để hỗ trợ phân tích và xử lý dữ liệu phức tạp Mô hình khối dữ liệu không chỉ thúc đẩy hoạt động OLAP trong cơ sở dữ liệu đa chiều mà còn nâng cao hiệu quả khai thác dữ liệu đa chiều, đáp ứng nhu cầu phân tích dữ liệu nâng cao trong doanh nghiệp.
Những loại ứng dụng nào là mục tiêu?
Ở đâu có dữ liệu, ở đó có ứng dụng khai thác dữ liệu
Khai thác dữ liệu là môn học hướng đến ứng dụng cao, đã đạt được thành công lớn trong nhiều lĩnh vực Việc khai thác dữ liệu đóng vai trò quan trọng trong các ứng dụng như kinh doanh thông minh và công cụ tìm kiếm, phản ánh tầm ảnh hưởng của nó trong nghiên cứu và phát triển công nghệ Các lĩnh vực chuyên sâu như tin sinh học và công nghệ phần mềm đòi hỏi xử lý dữ liệu phức tạp hơn, nằm ngoài phạm vi của bài viết này Để minh họa cho tầm quan trọng của khai thác dữ liệu, chúng tôi giới thiệu ngắn gọn hai ví dụ thành công và phổ biến nhất.
1.6.1 Kinh doanh thông minh Điều quan trọng đối với các doanh nghiệp là có được sự hiểu biết tốt hơn về bối cảnh thương mại của tổ chức của họ, chẳng hạn như khách hàng, thị trường, nguồn cung và tài nguyên và đối thủ cạnh tranh Các công nghệ kinh doanh thông minh (BI) cung cấp các quan điểm lịch sử, hiện tại và dự đoán về hoạt động kinh doanh Ví dụ bao gồm báo cáo, xử lý phân tích trực tuyến, quản lý hiệu suất kinh doanh, trí tuệ cạnh tranh, điểm chuẩn và phân tích dự đoán.
Thông minh kinh doanh đóng vai trò rất quan trọng trong việc giúp doanh nghiệp khai thác dữ liệu hiệu quả Without data analysis, many businesses may struggle to evaluate market trends, compare customer feedback on similar products, and identify the strengths and weaknesses of competitors Đây also giúp giữ chân khách hàng có giá trị cao và đưa ra các quyết định kinh doanh thông minh để thúc đẩyGrowth and competitiveness in the market.
Khai thác dữ liệu đóng vai trò cốt lõi trong kinh doanh thông minh, giúp doanh nghiệp đưa ra quyết định dựa trên phân tích dữ liệu hiệu quả Các công cụ xử lý phân tích trực tuyến dựa trên kho dữ liệu và khai thác dữ liệu đa chiều để nâng cao khả năng phân tích thị trường, dự đoán nguồn cung và doanh số bán hàng Phân loại và kỹ thuật dự đoán là các yếu tố then chốt trong phân tích dự đoán, hỗ trợ doanh nghiệp dự đoán xu hướng và tối ưu hóa chiến lược kinh doanh Bên cạnh đó, phân cụm giúp quản lý quan hệ khách hàng hiệu quả bằng cách nhóm khách hàng dựa trên đặc điểm tương đồng, từ đó phát triển các chương trình phần thưởng khách hàng tùy chỉnh để nâng cao trải nghiệm và sự trung thành của khách hàng.
1.6.2 Công cụ tìm kiếm trên web
Công cụ tìm kiếm Web là một máy chủ chuyên dụng giúp tìm kiếm thông tin trên internet một cách nhanh chóng Khi người dùng gửi truy vấn, kết quả thường được trả về dưới dạng danh sách gồm các trang web, hình ảnh và các loại tệp khác phù hợp với yêu cầu Một số công cụ tìm kiếm còn mở rộng khả năng tìm kiếm dữ liệu có sẵn trong các cơ sở dữ liệu công cộng hoặc thư mục mở, cung cấp khả năng truy cập đa dạng và toàn diện hơn cho người dùng.
Các công cụ tìm kiếm khác với các thư mục web ở chỗ chúng hoạt động dựa trên thuật toán hoặc kết hợp giữa thuật toán và sự đóng góp của con người, trong khi các thư mục web được duy trì và quản lý bởi các biên tập viên thủ công.
Các công cụ tìm kiếm web hoạt động như các ứng dụng khai thác dữ liệu khổng lồ, sử dụng nhiều kỹ thuật khai thác dữ liệu khác nhau để thu thập, lập chỉ mục và xếp hạng thông tin Quá trình thu thập dữ liệu quyết định trang web nào sẽ được thu thập thông tin và tần suất thu thập Trong giai đoạn lập chỉ mục, các trang web được chọn để đưa vào chỉ mục và xác định mức độ chi tiết của chỉ mục đó Cuối cùng, trong quá trình tìm kiếm, các thuật toán quyết định cách xếp hạng các trang, lựa chọn quảng cáo phù hợp, và cá nhân hóa kết quả tìm kiếm dựa trên ngữ cảnh, giúp nâng cao trải nghiệm người dùng.
Các công cụ tìm kiếm đối mặt với thách thức lớn trong việc khai thác dữ liệu do lượng dữ liệu ngày càng tăng vượt quá khả năng xử lý của một hoặc vài máy tính đơn lẻ Thay vào đó, họ phải sử dụng các đám mây máy tính gồm hàng nghìn đến hàng trăm nghìn thiết bị hợp tác để xử lý khối lượng dữ liệu khổng lồ này Việc mở rộng các phương pháp khai thác dữ liệu trên đám mây và các tập dữ liệu phân tán lớn là một lĩnh vực nghiên cứu quan trọng để nâng cao hiệu quả và khả năng khai thác dữ liệu của các công cụ tìm kiếm.
Các công cụ tìm kiếm web thường phải xử lý dữ liệu trực tuyến một cách liên tục Để nâng cao hiệu quả, chúng xây dựng các mô hình ngoại tuyến dựa trên tập dữ liệu lớn, giúp phân loại truy vấn dựa trên chủ đề, như phân biệt giữa "apple" là trái cây hay nhãn hiệu máy tính Mặc dù mô hình được xây dựng ngoại tuyến, việc ứng dụng mô hình trực tuyến phải đảm bảo phản hồi nhanh chóng để trả lời các truy vấn của người dùng trong thời gian thực, nâng cao trải nghiệm tìm kiếm.
Một thách thức lớn là duy trì và liên tục cập nhật các mô hình trên các luồng dữ liệu ngày càng tăng tốc, đặc biệt trong các hệ thống phân loại truy vấn cần theo dõi liên tục các truy vấn mới và thích nghi với sự thay đổi của các danh mục đã xác định trước Các phương pháp đào tạo mô hình truyền thống hiện nay chủ yếu là ngoại tuyến và tĩnh, gây giới hạn trong khả năng ứng dụng trong các kịch bản dữ liệu liên tục và thay đổi nhanh chóng.
Thứ Ba, các công cụ tìm kiếm web thường xử lý các truy vấn yêu cầu lượng nhỏ dữ liệu, và việc cung cấp đề xuất truy vấn nhận biết ngữ cảnh giúp cải thiện trải nghiệm người dùng Khi người dùng đặt truy vấn, công cụ tìm kiếm cố gắng hiểu bối cảnh bằng cách sử dụng hồ sơ cá nhân và lịch sử truy vấn để cung cấp câu trả lời tùy chỉnh trong một phần nhỏ của giây Tuy nhiên, mặc dù tổng số truy vấn lớn, hầu hết chỉ được hỏi một hoặc vài lần, gây ra dữ liệu sai lệch nghiêm trọng, thách thức các phương pháp khai thác dữ liệu và máy học trong việc tối ưu hóa hệ thống tìm kiếm.
Các vấn đề chính trong khai phá dữ liệu
Cuộc sống ngắn ngủi nhưng nghệ thuật thì dài - Hippocrates
Khai thác dữ liệu là một lĩnh vực năng động và mở rộng nhanh chóng, mang lại nhiều lợi thế cạnh tranh Các vấn đề chính trong nghiên cứu khai thác dữ liệu được chia thành năm nhóm: phương pháp khai thác, tương tác người dùng, hiệu quả và khả năng mở rộng, đa dạng các loại dữ liệu, và khai thác dữ liệu xã hội Nhiều vấn đề trong số này đã được giải quyết qua các nghiên cứu và phát triển gần đây, trở thành yêu cầu thực tiễn của khai thác dữ liệu Tuy nhiên, vẫn còn nhiều thách thức đang trong giai đoạn nghiên cứu, thúc đẩy các cuộc điều tra và cải tiến liên tục trong lĩnh vực khai thác dữ liệu.
Các nhà nghiên cứu đã phát triển các phương pháp khai thác dữ liệu mới nổi bật, tập trung vào việc khám phá kiến thức đa chiều, tích hợp các kỹ thuật từ nhiều ngành, và xem xét các mối quan hệ ngữ nghĩa giữa các đối tượng dữ liệu Các phương pháp này cần xử lý các vấn đề về không chắc chắn, nhiễu và dữ liệu thiếu hụt để đảm bảo độ chính xác cao trong khai thác dữ liệu Đặc biệt, việc sử dụng các biện pháp xác định người dùng giúp đánh giá mức độ hấp dẫn của các mẫu phát hiện, từ đó tối ưu hóa quy trình phân tích dữ liệu.
Khai thác dữ liệu bao gồm nhiều nhiệm vụ quan trọng như phân loại, phân biệt dữ liệu, phân tích liên kết, tương quan, hồi quy, phân cụm, phân tích ngoại lệ, trình tự, tiến hóa và tiến hóa dữ liệu Các tác vụ này sử dụng cùng một cơ sở dữ liệu nhưng theo các cách khác nhau, đòi hỏi phát triển nhiều kỹ thuật khai thác dữ liệu đa dạng Do tính linh hoạt và ứng dụng phong phú, lĩnh vực khai thác dữ liệu luôn phát triển nhanh chóng với các tác vụ mới liên tục xuất hiện Ví dụ, trong mạng thông tin, việc ứng dụng phân cụm và xếp hạng tích hợp giúp phát hiện các cụm và đối tượng chất lượng cao trong các mạng lớn, nâng cao hiệu quả khai thác kiến thức.
Khai thác kiến thức trong không gian đa chiều giúp khám phá các mẫu thú vị giữa các kết hợp kích thước và thuộc tính ở các mức độ trừu tượng khác nhau Quá trình này, còn gọi là khai thác dữ liệu đa chiều, cho phép phân tích dữ liệu trong các tập dữ liệu lớn với cấu trúc phức tạp Dữ liệu có thể được tổng hợp hoặc trình bày dưới dạng khối đa chiều, qua đó nâng cao khả năng phân tích và tính linh hoạt của quá trình khai thác dữ liệu.
Khai thác dữ liệu là một nỗ lực liên ngành, trong đó việc kết hợp các phương pháp từ nhiều lĩnh vực như xử lý ngôn ngữ tự nhiên và truy xuất thông tin có thể nâng cao hiệu quả khai thác dữ liệu văn bản Ví dụ, trong khai thác dữ liệu ngôn ngữ tự nhiên, việc tích hợp các kỹ thuật này giúp cải thiện khả năng phân tích và trích xuất thông tin chính xác hơn Ngoài ra, trong lĩnh vực khai thác lỗi phần mềm, việc kết hợp kiến thức kỹ thuật phần mềm vào quy trình khai thác dữ liệu đã mang lại kết quả tốt hơn trong việc phát hiện và xử lý các lỗi phần mềm trong các chương trình lớn.
Trong môi trường mạng, khả năng khám phá dữ liệu được củng cố nhờ vào việc khai thác các liên kết ngữ nghĩa giữa các đối tượng dữ liệu Hầu hết các dữ liệu đều liên kết với nhau qua các mối quan hệ trong web, cơ sở dữ liệu, tệp tin hoặc tài liệu, tạo điều kiện cho việc tạo lợi thế trong khai thác thông tin Kiến thức tích lũy từ tập hợp các đối tượng liên quan giúp thúc đẩy quá trình khám phá kiến thức mới dựa trên các mối liên hệ ngữ nghĩa này, từ đó nâng cao hiệu quả phân tích dữ liệu.
Dữ liệu thường chứa tiếng ồn, lỗi, ngoại lệ hoặc không đầy đủ, gây nhầm lẫn cho quá trình khai thác dữ liệu và dẫn đến các mô hình sai Làm sạch và tiền xử lý dữ liệu, cùng với phát hiện và loại bỏ ngoại lệ hoặc dữ liệu không chắc chắn, là các kỹ thuật quan trọng cần tích hợp vào quy trình khai thác dữ liệu để nâng cao độ chính xác Không phải tất cả các mẫu được tạo ra đều mang lại giá trị, vì tính thú vị của một mô hình phụ thuộc vào người dùng và ngữ cảnh Đánh giá mẫu dựa trên các biện pháp chủ quan giúp xác định mức độ phù hợp hoặc hấp dẫn của các mẫu được phát hiện, dựa trên niềm tin hoặc kỳ vọng của người dùng đối với các lớp dữ liệu cụ thể.
Chúng tôi có thể tạo ra các mẫu khám phá thú vị hơn bằng cách sử dụng các biện pháp hấp dẫn hoặc các ràng buộc do người dùng chỉ định, giúp hướng dẫn quá trình khám phá một cách hiệu quả Các phương pháp này không chỉ làm tăng tính sáng tạo mà còn giảm đáng kể không gian tìm kiếm, tối ưu hóa quá trình khám phá dữ liệu.
Người dùng đóng vai trò quan trọng trong quá trình khai thác dữ liệu, ảnh hưởng đến hiệu quả và chất lượng của kết quả Các lĩnh vực nghiên cứu hấp dẫn liên quan đến cách tương tác với hệ thống khai thác dữ liệu, tích hợp kiến thức nền tảng của người dùng để nâng cao quá trình phân tích dữ liệu, cũng như phương pháp trực quan hóa kết quả khai thác để dễ hiểu hơn Trong bài viết này, chúng tôi sẽ giới thiệu chi tiết các yếu tố quan trọng này để giúp người dùng tối ưu hóa việc khai thác dữ liệu.
502 Bad GatewayUnable to reach the origin service The service may be down or it may not be responding to traffic from cloudflared
502 Bad GatewayUnable to reach the origin service The service may be down or it may not be responding to traffic from cloudflared
502 Bad GatewayUnable to reach the origin service The service may be down or it may not be responding to traffic from cloudflared
502 Bad GatewayUnable to reach the origin service The service may be down or it may not be responding to traffic from cloudflared
1.7.3 Hiệu quả và khả năng mở rộng
Hiệu quả và khả năng mở rộng là những tiêu chí hàng đầu khi đánh giá các thuật toán khai thác dữ liệu Khi dữ liệu ngày càng lớn, hai yếu tố này càng trở nên quan trọng để đảm bảo hệ thống hoạt động tối ưu và linh hoạt trong xử lý.
Các thuật toán khai thác dữ liệu cần đảm bảo hiệu quả và khả năng mở rộng để xử lý khối lượng lớn dữ liệu từ nhiều kho dữ liệu hoặc luồng dữ liệu động Thời gian chạy của thuật toán phải ngắn, dự đoán được và phù hợp với yêu cầu của các ứng dụng thực tế Hiệu quả, khả năng mở rộng, hiệu suất cao, tối ưu hóa và khả năng xử lý dữ liệu theo thời gian thực là những tiêu chí quan trọng thúc đẩy sự phát triển của các thuật toán khai thác dữ liệu mới.
Tóm tắt
Sự cần thiết thúc đẩy sự sáng tạo trong lĩnh vực khai thác dữ liệu, nhất là khi dữ liệu ngày càng gắn kết và phát triển trong mọi ứng dụng Việc khai thác dữ liệu đáp ứng nhu cầu phân tích dữ liệu hiệu quả, mở rộng linh hoạt phù hợp với xã hội hiện đại Đây được xem là sự tiến bộ tự nhiên của công nghệ thông tin, kết hợp với các ngành liên quan và lĩnh vực ứng dụng khác để thúc đẩy sự đổi mới và phát triển bền vững.
Khai thác dữ liệu là quá trình khám phá các mẫu thú vị từ lượng dữ liệu khổng lồ, giúp chuyển đổi dữ liệu thô thành kiến thức hữu ích Quá trình này bao gồm các bước quan trọng như làm sạch dữ liệu, tích hợp dữ liệu, lựa chọn dữ liệu phù hợp, chuyển đổi dữ liệu phù hợp với mục đích phân tích, khám phá các mẫu tiềm năng, đánh giá độ chính xác của các mẫu và trình bày kiến thức một cách rõ ràng Đầu tư vào khai thác dữ liệu giúp doanh nghiệp tận dụng tối đa nguồn dữ liệu lớn, nâng cao khả năng ra quyết định chính xác và thúc đẩy sự phát triển bền vững.
Một mô hình thú vị là mô hình hợp lệ trên dữ liệu thử nghiệm với độ chắc chắn cao, mang tính mới lạ và có khả năng hữu ích, chẳng hạn như có thể xác nhận hoặc thực hiện những cảm nhận ban đầu của người dùng Mô hình này còn dễ hiểu đối với con người và đại diện cho kiến thức, phản ánh giá trị thực sự của dữ liệu Các tiêu chuẩn về tính thú vị của mô hình, dù là khách quan hay chủ quan, đều giúp hướng dẫn quá trình khám phá và phát triển mô hình một cách hiệu quả.
Chúng tôi trình bày một cái nhìn đa chiều về khai thác dữ liệu Các kích thước chính là dữ liệu, kiến thức, công nghệ và ứng dụng.
Việc khai thác dữ liệu có thể áp dụng cho mọi loại dữ liệu có ý nghĩa đối với ứng dụng đích, bao gồm dữ liệu cơ sở dữ liệu, kho dữ liệu, dữ liệu giao dịch, và các loại dữ liệu nâng cao như dữ liệu theo thời gian, luồng dữ liệu, dữ liệu không gian và không gian, dữ liệu văn bản, đa phương tiện, đồ thị và dữ liệu nối mạng, cũng như dữ liệu từ web.
Kho dữ liệu là kho lưu trữ dữ liệu dài hạn từ các nguồn đa dạng, được tổ chức một cách hợp lý để hỗ trợ quá trình ra quyết định quản lý hiệu quả Dữ liệu trong kho thường được trình bày theo một lược đồ thống nhất và có khả năng tóm tắt để dễ dàng phân tích Hệ thống kho dữ liệu còn cung cấp khả năng phân tích dữ liệu đa chiều, gọi chung là xử lý phân tích trực tuyến (OLAP), giúp doanh nghiệp đưa ra quyết định dựa trên dữ liệu chính xác và toàn diện.
Khai thác dữ liệu đa chiều (hay còn gọi là khai thác dữ liệu đa chiều khám phá) tích hợp các kỹ thuật khai thác dữ liệu cốt lõi với phân tích đa chiều dựa trên OLAP Phương pháp này giúp tìm kiếm các mẫu thú vị giữa nhiều kết hợp kích thước và thuộc tính, từ đó khám phá không gian dữ liệu đa chiều một cách sâu sắc và hiệu quả.
Chức năng khai thác dữ liệu đóng vai trò trong việc xác định các loại mẫu hoặc kiến thức cần thiết trong các tác vụ khai thác dữ liệu, bao gồm đặc tính hóa, phân biệt đối xử, khai thác mô hình, hiệp hội, mối tương quan, phân loại, hồi quy, phân tích cluster và phát hiện ngoại lệ Khi dữ liệu mới, ứng dụng mới và yêu cầu phân tích mới xuất hiện, chúng ta sẽ chứng kiến sự phát triển không ngừng của các nhiệm vụ khai thác dữ liệu mới trong tương lai.
Khai thác dữ liệu là lĩnh vực ứng dụng cao, tích hợp nhiều công nghệ như thống kê, học máy, cơ sở dữ liệu và hệ thống kho dữ liệu để phân tích và truy xuất thông tin hiệu quả Tính liên ngành của nghiên cứu và phát triển khai thác dữ liệu đóng vai trò quan trọng trong thành công của lĩnh vực này Các ứng dụng rộng rãi của khai thác dữ liệu đã góp phần thúc đẩy đổi mới và nâng cao hiệu quả trong nhiều ngành công nghiệp khác nhau.
Khai thác dữ liệu đã đạt nhiều thành công trong các lĩnh vực như kinh doanh thông minh, giúp doanh nghiệp đưa ra quyết định chính xác và nâng cao hiệu quả hoạt động Công nghệ này cũng được ứng dụng trong tìm kiếm trên web, tối ưu hóa kết quả và trải nghiệm người dùng Trong lĩnh vực tin sinh học và tin học y tế, khai thác dữ liệu hỗ trợ phân tích gen, chẩn đoán bệnh và phát triển phương pháp điều trị mới Ngoài ra, nó còn đóng vai trò quan trọng trong lĩnh vực tài chính, giúp dự đoán xu hướng thị trường và quản lý rủi ro Trong thư viện số và chính phủ kỹ thuật số, khai thác dữ liệu nâng cao khả năng truy xuất thông tin và cải thiện dịch vụ cung cấp cho công dân.
Nghiên cứu khai thác dữ liệu đối mặt với nhiều thách thức liên quan đến phương pháp khai thác, tương tác người dùng, khả năng mở rộng và xử lý các loại dữ liệu đa dạng Các lĩnh vực này đóng vai trò quan trọng trong việc nâng cao hiệu quả và ứng dụng của khai thác dữ liệu trong thực tiễn Sự ảnh hưởng của nghiên cứu khai thác dữ liệu đã rõ ràng đối với xã hội và dự kiến sẽ còn phát triển mạnh mẽ trong tương lai.
Bài tập
1.1 Khai thác dữ liệu là gì? Trong câu trả lời của bạn, hãy giải quyết như sau: a Có phải là một sự cường điệu khác? b Đây có phải là một chuyển đổi đơn giản hoặc ứng dụng công nghệ được phát triển từ cơ sở dữ liệu, thống kê, học máy và nhận dạng mẫu không? c Chúng tôi đã trình bày một quan điểm rằng khai thác dữ liệu là kết quả của sự phát triển của công nghệ cơ sở dữ liệu Bạn có nghĩ rằng khai thác dữ liệu cũng là kết quả của sự phát triển của nghiên cứu máy học? Bạn có thể trình bày quan điểm như vậy dựa trên tiến trình lịch sử của ngành học này? Địa chỉ tương tự cho các lĩnh vực thống kê và nhận dạng mẫu.