Hệ thống hỗ trợ quyết định là nòng cốt của kinh doanh dựa trên cơ sở hạ tầng CNTT, Bởi vì chúng cung cấp cho công ty một cách chuyển đổi các thông tin kinh doanh sang kết quả cụ thể và hữu ích hơn. Thu thập , duy trì, và phân tích lượng dữ liệu lớn, tuy nhiên,để thực hiện nhiệm vụ to lớn này có liên quan đến những thách thức đối với kỹ thuật và chi phí mà đòi hỏi sự đảm bảo của tổ chức.
Trang 1Công nghệ cơ sở dữ liệu cho các hệ thống hỗ trợ quyết định Tạo ra một khung hỗ trợ hiệu quả cho hệ thống hỗ trợ ra quyết định - một trong số
đó sẽ thúc đẩy dữ liệu kinh doanh từ nhiều nguồn rời rạc rạc - là nhiệm vụ khó khăn nhưng khả thi.
Hệ thống hỗ trợ quyết định là nòng cốt của kinh doanh dựa trên cơ sở hạ tầng CNTT, Bởi
vì chúng cung cấp cho công ty một cách chuyển đổi các thông tin kinh doanh sang kết quả cụ thể và hữu ích hơn Thu thập , duy trì, và phân tích lượng dữ liệu lớn, tuy nhiên,để thực hiện nhiệm vụ to lớn này có liên quan đến những thách thức đối với kỹ thuật và chi phí mà đòi hỏi sự đảm bảo của tổ chức
Hệ thống xử lý giao dịch trực tuyến cho phép các tổ chức thu thập lượng lớn dữ liệu kinh doanh hàng ngày Ứng dụng OLTP thuộc kiểu tự động hóa cấu trúc, các nhiệm vụ thường lặp đi lặp lại, như là nhập đơn hàng hay giao dịch ngân hàng Cụ thể , dữ liệu cập nhật hàng ngày từ các điểm khác nhau độc lập phải được tổng hợp ở một địa điểm duy nhất trước khi các nhà phân tích có thể phân tích đưa ra kết quả tổng hợp Hàng ngày, những người quản lý sẽ sử dụng những
dữ liệu tổng hợp này để ra quyết định Tất cả mọi việc từ quản lý hàng tồn kho đến việc đặt hàng qua thư điện tử
CÁC THÀNH PHẦN CỦA HỆ THỐNG HỖ TRỢ QUYẾT ĐỊNH
Một hệ thống hỗ trợ quyết định thành công là một hệ thống sáng tạo phức tạp gồm nhiều thành phần.Một ví dụ cụ thể về kinh doanh,là Công ty FootWear Seller , giúp hình dung về một
hệ thống hỗ trợ quyết định bao gồm nhiều thành phần, , FSC sản xuất giày dép và bán thông qua hai kênh , trực tiếp cho khách hàng và thông qua các đại lý Giám đốc điều hành tiếp thị của FSC cần phải trích xuất các thông tin sau đây từ các dữ liệu kinh doanh tổng hợp của công ty:
Báo cáo của 5 tiểu bang có doanh số tăng cao nhất về loại mặt hàng dành cho thanh thiếu niên trong năm qua
Tổng doanh số bán giày dép của thành phố New York trong tháng qua của mặt hàng dành cho gia đình
50 thành phố có lượng khách hàng cao nhất
1 triệu khách hàng thích mua kiểu giày mới Walk – on – Air
Trước khi xây dựng một hệ thống cung cấp thông tin hỗ trợ ra quyết định này, các nhà phân tích của FSC phải giải quyết ba vấn đề cơ bản:
Thu thập những dữ liệu gì, mô hình hóa dữ liệu và quản lý lưu trữ nó thế nào?
Phân tích dữ liệu đó như thế nào?
Làm sao để tải dữ liệu từ nhiều nguồn
Trang 2Hình 1 Thành phần chính của một hệ thống hỗ trợ ra quyết định, Một máy chủ kho
dữ liệu những công cụ phân tích và khai phá dữ liệu.Và các công cụ đầu cuối để hỗ trợ kho dữ liệu
Trên hình 1 cho thấy, 3 thành phần chính của một hệ thống hỗ trợ ra quyết định: Một máy chủ kho dữ liệu, những công cụ phân tích trực tuyến OLAP và khai phá dữ Liệu, và các công cụ dung cho kho dữ liệu
Kho dữ liệu bao gồm dữ liệu tổng hợp từ nhiều cơ sở dữ liệu hoạt động và xu hướng cơ
sở dữ hoạt động liệu hoạt động ngày càng có cường độ lớn hơn, Kích thước dữ liệu thường đền hàng trăm gigabytes đến terabytes Thông thường, các kho dữ liệu được duy trì một cách riêng biệt từ cơ sở dữ liệu hoạt động của doanh nghiệp bởi các chức năng của các ứng dụng và Yêu cầu thực thi là khá khác nhau từ những cơ sở dữ liệu hoạt động Kho dữ liệu tồn tại chủ yếu phục
vụ các ứng dụng hỗ trợ quyết định và cung cấp các lịch sử sử dụng dữ liệu, tổng kết, hợp nhất và phù hợp hơn để có thể phân tích chi tiết hơn, những bản ghi riêng biệt Khối lượng công việc bao gồm các quảng cáo đặc biệt, truy vấn phức tạp mà truy cập, tìm kiếm, kết nối và tập hợp trên hàng triệu bản ghi Thời gian trả lời truy vấn quan trọng hơn là thông qua giao dịch
Bởi vì xây dựng kho dữ liệu là một quá trình phức tạp có thể mất nhiều năm thay vào đó một vài tổ chức đi xây dựng kho dữ liệu cục bộ Trong đó những thông tin được hình thành từ một tập con dữ liệu của kho dữ liệu Ví dụ, kho dữ liệu cục bộ về tiếp thị thông minh có thể chỉ bao gồm khách hàng, sản phẩm, và thông tin bán hàng và có thể không chứa lịch trình giao hàng Một số kho dữ liệu cục bộ có thể cùng tồn tại với kho dữ liệu chính và cung cấp một phần khung nhìn về kho dữ liệu.Các dữ liệu tại kho dữ liệu cục bộ được đưa ra nhanh hơn so với kho
dữ liệu nhưng có thể liên quan đến vấn đề tích hợp phức tạp về sau này nếu kế hoạch ban đầu không phản ánh một mô hình trực quan kinh doanh hoàn chỉnh
Phân tích và khai thác dữ liệu trực tuyến là công cụ phân tích cho phép phân tích dữ liệu phức tạp Các công cụ đầu cuối như : khai thác, chuyển đổi, và các công cụ tải giúp kho dữ liệu lấy dữ liệu từ nhiều nguồn bên ngoài
Trang 3DATA WAREHOUSE.
Hầu hết các kho dữ liệu sử dụng công nghệ cơ sở dữ liệu quan hệ bởi vì nó cung cấp một cách tiếp cận mạnh mẽ, tin cậy và hiệu quả để lưu trữ và quản lý khối lượng lớn dữ liệu Vấn đề quan trọng nhất liên quan đến xây dựng kho dữ liệu là thiết kế cơ sở dữ liệu, vừa hợp lý và hữu hình Xây dựng một sơ đồ hợp lý cho doanh nghiệp đòi hỏi phải có mô hình kinh doanh lớn
THIẾT KẾ CƠ SỞ DỮ LIỆU HỢP LÝ.
Trong thiết kế lược đồ hình sao, cơ sở dữ liệu thực tế là bao gồm một bảng mô tả tất cả các giao dịch và một bảng kích thước cho mỗi thực thể Đối với các công ty FSC ictitious, mỗi giao dịch bán hàng liên quan đến một số cơ quan, khách hàng, nhân viên bán hàng, một sản phẩm, một đơn đặt hàng, một ngày giao dịch, và các thành phố nơi giao dịch xảy ra Mỗi giao dịch có các thuộc tính đo lường như số lượng bán, tổng số tiền khách hàng thanh toán
Mỗi bộ trong bảng thực tế bao gồm một con trỏ đến từng đối tượng trong một giao dịch
Và số các biện pháp liên quan đến giao dịch Bảng một chiều bao gồm các cột tương ứng với các thuộc tính của thực thể Tính toán tham gia giữa một bảng thực tế và một bộ các bảng một chiều thì hiệu quả hơn tính toán một loạt các trong quan hệ tùy ý
Tuy nhiên một số thực thể được được kết hợp với hệ thống phân cấp mà lược đồ phân cấp
mô hình sao đó không hỗ trợ một cách rõ ràng Một hệ thống phân cấp là một nhóm đa cấp trong
đó mỗi cấp độ bao gồm một nhóm tách rời các giá trị ở cấp độ ngay bên dưới nó Ví dụ, tất cả sản phẩm có thể được nhóm lại thành một tập rời nhau về chủng loại , bản thân chúng tự nhóm lại thành một bộ tách rời nhau
Mô hình dạng bông tuyết là cải tiến của mô hình hình sao trong đó hệ thống phân cấp được thể hiện rõ bằng việc chuẩn hóa kích thước bảng Trong lược đồ sao mô tả trong hình 2 Một tập hợp các thuộc tính mô tả mỗi chiều và có thể liên quan thông qua một quan hệ hệ thống phân cấp Ví dụ, kích thước sản phẩm của FSC bao gồm năm thuộc tính: tên sản phẩm (Running Show 2000), thể loại (Sport), Sản phẩm gia đình (Shoe), giá ($ 80), và tỷ suất lợi nhuận (80 phần trăm)
Trang 4Hình 2 Sơ đồ bông tuyết giả thuyết cho các Công ty bán giày dép Một tập hợp các thuộc tính mô tả mỗi chiều và có liên quan thông qua một hệ thống phân cấp mối quan hệ.
THIẾT KẾ CƠ SỞ DỮ LIỆU VẬT LÝ
Hệ thống cơ sở dữ liệu sử dụng thêm các cấu trúc như chỉ mục, khung nhìn để có thể xử
lý hiệu quả các truy vấn phức tạp Xác định tập chỉ mục và khung nhìn là vấn đề khó trong thiết
kế vật lý Trong khi tìm kiếm chỉ mục có thể hiệu quả cho các truy vấn dữ liệu chọn lọc,truy vấn
dữ liệu chuyên sâu có thể yêu cầu quét tuần tự của toàn bộ mối quan hệ hoặc dọc theo phân vùng của một mối quan hệ Nâng cao hiệu quả quét các bảng và khai thác song song để giảm thời gian đáp ứng truy vấn là những cân nhắc quan trọng trong thiết kế
CẤU TRÚC CHỈ MỤC VÀ CÁCH SỬ DỤNG
Kỹ thuật xử lý truy vấn khai thác chỉ số thông qua chỉ số giao nhau và kết hợp là hữu ích cho việc trả lời nhiều vị từ truy vấn.Các chỉ mục giao nhau khai thác nhiều câu lệnh chọn có điều kiện và có thể làm giảm đáng kể hoặc loại bỏ sự cần thiết phải truy cập vào bảng cơ sở nếu tất cả các phép chiếu cột có sẵn thông qua quét chỉ mục
Bản chất đặc biệt của các lược đồ sao làm cho chi tiết tổng thể tham gia chỉ số đặc biệt hấp dẫn đối với quyết định hỗ trợ Trong khi sơ đồ chỉ số truyền thống thì giá trị của một cột vào một danh sách các hàng ứng với giá trị đó, một chỉ số tham gia duy trì với nhau bằng mối quan
hệ giữa khóa ngoài và khóa chính phù hợp với nó Về phía lược đồ hình sao, một chỉ số tham gia
có thể liên hệ các giá trị của một hoặc nhiều thuộc tính của một bảng kích thước để phù hợp với các hàng trong bảng thực tế Trong sơ đồ hình 2, là ví dụ , có thể hỗ trợ một số chỉ mục tham gia vào mục City được liên tục, cho mỗi City, một danh sách các bộ dữ liệu bản ghi các định dạng trong bảng thực tế tương ứng với doanh số bán hàng trong thành phố.Về cơ bản, sự tham gia các chỉ số là sự tính toán dựa trên một số nhị phân
Chỉ số Multikey tham gia có thể đại diện cho tiền sử lý với nhiều cách tham gia, Ví dụ, một đa chiều chỉ số tham gia được xây dựng trên cơ sở dữ liệu doanh số bán hàng có thể vào
Trang 5mục City.CityName và Product.Name đến bảng thực tế Do đó các chỉ mục cho Seattle, Running Shoe Points để định danh bản ghi của bộ dữ liệu trong bảng bán hàng với sự kết hợp đó
CỤ THỂ HÓA QUAN ĐIỂM VÀ CÁCH SỬ DỤNG
Nhiều truy vấn kho dữ liệu đòi hỏi dữ liệu tóm tắt và do đó sử dụng cốt lõi dữ liệu Cụ thể hoá dữ liệu tóm tắt có thể tăng tốc nhiều truy vấn thông thường Trong ví dụ FSC , hai dữ liệu lượt xem - tổng doanh thu được nhóm theo dòng sản phẩm gia đình và thành phố, và tổng số khách hàng được phân nhóm theo thành phố có thể trả lời hiệu quả 3 truy vấn của bộ phận tiếp thị : Các tiểu bang báo cáo mức tăng cao nhất trong nhóm sản phẩm bán cho giới trẻ, tổng doanh
số bán giày dép ở thành phố New York của sản phẩm gia đình, và 50 thành phố có số lượng khách hàng đặc biệt cao nhất
Những thách thức trong việc khai thác khả năng trực quan hóa thì tương tự cho các chỉ mục
Xác định quan điểm cụ thể hóa
Khai thác quan điểm cụ thể hóa để trả lời truy vấn
Cập nhật các quan điểm cụ thể hóa trong quá trình tải lên và làm mới
Bởi vì cụ thể hóa quan điểm đòi hỏi rất lớn về không gian các giải pháp hiện đang áp dụng chỉ hỗ trợ một lớp hạn chế các quan điểm cụ thể có cấu trúc đơn giản
ỨNG DỤNG PHÂN TÍCH TRỰC TUYẾN
Trong một ứng dụng phân tích trực tuyến điển hình, một số biện pháp tập hợp truy vấn ở cấp cao hơn trong kích thước hệ thống phân cấp Một ví dụ là các truy vấn tiếp thị FSC đầu tiên yêu cầu một loạt các biện pháp phân cấp tổng hợp năm tiểu bang báo cáo mức tăng cao nhất trong loại sản phẩm bán hàng dành cho thanh thiếu niên trong năm qua, Trường Tiểu bang và năm là cái gốc của các trường dữ liệu thành phố và ngày
Trong điều kiện của kho dữ liệu FSC, một phiên OLAP điển hình để xác định khu vực bán hàng giày thể thao trong quý cuối cùng có thể tiến hành như sau
Các nhà phân tích sử dụng truy vấn chọn đưa ra tổng hợp (bán hàng) bởi nhóm đất nước để xem sự phân phối bán giày thể thao trong quý cuối cùng trên tất cả các quốc gia
Sau khi lựa chọn được một đất nước với kết quả là doanh thu bán hàng cao nhất hoặc thấp nhất so với quy mô thị trường, các nhà phân tích vấn đề các truy vấn khác nhau để tính toán tổng doanh thu trong mỗi tiểu bang của đất nước đó để hiểu lý do có kết quả doanh thu đó
Trang 6Các nhà phân tích tìm hiểu thông tin dữ liệu xuống hệ thống phân cấp các thành phố liên quan, Giống như giảm móc nối của hệ thống phân cấp từ những tóm tắt nhất đến mức chi tiết nhất gọi là drill-down Trong một hoạt động rollup, các nhà phân tích đi lên một cấp có lẽ từ cấp tiểu bang đến cấp đất nước trong kích thước một hệ thống phân cấp
Từ khóa OLAP liên quan đến vấn đề bao gồm các khái niệm mô hình dữ liệu và kiến trúc máy chủ
MÔ HÌNH DỮ LIỆU KHÁI NIỆM OLAP
Mô hình đa chiều được thể hiện trong hình 3 sử dụng một số biện pháp như phân tích đối tượng của nó Mỗi biện pháp trong tập hợp trung tâm mô hình dữ liệu khái niệm phụ thuộc vào kích thước mô tả các thực thể trong giao dịch Ví dụ, không gian chiều liên quan đến việc bán hàng trong ví dụ FSC là khách hàng, nhân viên bán hàng, thành phố, tên sản phẩm, ngày mua bán đã được thực hiện Cùng với nhau, không gian chiều duy nhất xác định các biện pháp, do đó, các mô hình dữ liệu đa chiều nghiên cứu biện pháp như một giá trị trong một chiều của không gian đa chiều
Với một cái nhìn dữ liệu đa chiều, truy vấn roll-up và drill-down là hoạt động hợp lý trên các đơn vị khối cube được mô tả trong Hình 3: Một hoạt động phổ biến là để so sánh hai biện pháp được tổng hợp bởi kích thước tương tự, chẳng hạn như doanh số bán hàng và ngân sách
Hình 3 Một mẫu CSDL đa chiều Mỗi biện pháp trong tập hợp trung tâm mô hình dữ liệu khái niệm phụ thuộc vào mô tả chiều các thực thể trong giao dịch.
Phân tích OLAP có thể liên quan đến tính toán thống kê phức tạp hơn so với các kết hợp đơn giản như tổng hợp, đếm, và trung bình Các ví dụ bao gồm các chức năng như di chuyển
Trang 7trung bình và phần trăm thay đổi của một tổng hợp trong một thời gian nhất định so với một khoảng thời gian khác nhau Nhiều công cụ thương mại OLAP cung cấp chức năng bổ sung tương tự như vậy
Các chiều thời gian là đặc biệt quan trọng đối với quá trình hỗ trợ quyết định như phân tích xu hướng Ví dụ, các nhà phân tích thị trường của FSC có thể muốn biểu đồ hoạt động bán hàng cho một Class giày thể thao trước hoặc sau các cuộc thi thể thao lớn của quốc gia Phân tích
xu hướng phức tạp là có thể nếu cơ sở dữ liệu đã được xây dựng trong chi thức lịch và các đặc điểm liên tiếp khác của chiều thời gian Cộng đồng OLAP (http://www.olapcouncil.org) đã xác định một danh sách các hoạt động lập phương đa chiều như vậy khác
MÁY CHỦ OLAP VÀ KIẾN TRÚC Middleware.
Mặc dù các máy chủ truyền thống không hiệu quả trong việc xử lý các truy vấn OLAP phức tạp hoặc hỗ trợ khung nhìn đa chiều, 3 loại máy chủ của hệ quả trị CSDL quan hệ - quan
hệ, đa chiều, lai giữa quá trình phân tích trực tuyến Bây giờ thì OLAP trên data warehouse được
hỗ trợ xây dựng trên hệ thống CSDL quan hệ
Máy chủ ROLAP (relational OLAP)
Các máy chủ ROLAP middleware được đặt giữa các máy chủ back-end nơi lưu giữ data warehouse và các công cụ font-end ROLAPs hỗ trợ truy vấn OLAP nhiều chiều và thường tối
ưu hóa cho các máy chủ back-end Họ định nghĩa các View để tổng hợp, các truy vấn hay dùng của người dùng trong thuật ngữ materialized views thích hợp và tạo ra nhiều lệnh SQL cho máy chủ back-end Họ cũng cung cấp thêm các dịch vụ như lập lịch and quản lý tài sản Máy chủ ROLAP khai thác các khả năng mở rộng và các tính năng giao dịch của hệ thống quan hệ, nhưng không phù hợp giữa kiểu truy vấn OLAP và SQL có thể tạo nút thắt cổ chai trong các máy chủ OLAP
Tắc nghẽn là vấn đề nhỏ trong đặc trưng của OLAP – các SQL mở rộng thực hiện trong các máy chủ Oracle, IBM DB2 và Microsoft SQL Server Các chức năng như trung bình, chế độ,
và phần trăm được mở rộng từ các chức năng tổng hợp Tính năng bổ sung khác bao gồm tính toán tổng hợp trên cửa sổ di chuyển, tổng số, điểm dừng để tăng cường hỗ trợ cho các ứng dụng báo cáo
Bảng tính đa chiều yêu cầu gộp nhóm các bộ thuộc tính khác nhau Jim Gray và các đồng nghiệp đề xuất 2 thao tác – roll-up và cube – làm tăng thêm SQL và giải quyết yêu cầu này
Roll-up của danh sách các thuộc tính như là sản phẩm, năm, thành phố trên 1 tập kết quả tổng hợp là kết quả của bộ câu trả lời các ứng dụng sau:
* Nhóm theo sản phẩm, năm và thành phố
* Nhóm theo sản phẩm, năm và
Trang 8* Nhóm theo sản phẩm
Cho một danh sách k cột, mỗi thao tác trên khối lập phương cung cấp bởi một nhóm là sự kết hợp của k cột Nhiều hoạt động nhóm bởi như vậy có thể được thực hiện một cách hiệu quả bằng cách nhận ra sự tương đồng giữa chúng Khi áp dụng, tính toán trước có thể nâng cao hiệu suất máy chủ OLAP
Máy chủ MOLAP (multidimensional OLAP)
Máy chủ MOLAP là kiến trúc máy chủ gốc, mà không khai thác các chức năng của quan
hệ back-end nhưng lại trực tiếp hỗ trợ các view đa chiều thông qua công cụ lưu trữ đa chiều MOLAP cho phép thực hiện các truy vấn đa chiều trên các lớp lưu trữ thông qua bản đồ Ưu điểm chính của MOLAP là thuộc tính indext tốt Nhược điểm của nó là kém trong việc lưu trữ, đặc biệt khi các dữ liệu thưa thớt Nhiều máy chủ thích ứng với dữ liệu thưa thớt thông qua việc lưu trữ đại diện mức 2 và nén Trong lưu trữ đại diện hoặc là trực tiếp hoặc là sử dụng các công
cụ thiết kế, người sử dụng xác định tập các mảng phụ một hoặc hai chiều đại diện cho chúng Cấu trúc chỉ mục truyền thống sau đó có thể các chỉ mục này nhỏ hơn mảng Nhiều kỹ thuật được đặt ra cho CSDL thống kê có liên quan cho các máy chủ MOLAP Mặc dù MOLAP cung cấp hiệu năng, chức năng tốt nhưng họ vẫn không qui hoạch tốt cho kích thước dữ liệu lớn
Máy chủ HOLAP (hybrid OLAP)
Kiến trúc HOLAP kết hợp công nghệ giữa ROLAP và MOLAP Ngược lại với MOLAP, thực hiện tốt khi dữ liệu là hợp lý dày, máy chủ ROLAP thực hiện tốt hơn khi dữ liệu là cực kỳ thưa thớt Máy chủ HOLAP xác định các khu vực dữ liệu thưa và dày của không gian đa chiều
và có những phương pháp ROLAP cho các khu vực thưa thớt và cách tiếp cận MOLAP cho các khu vựa dày đặc Máy chủ HOLAP chia truy vấn thành nhiều truy vấn, thực hiện các truy vấn con, kết hợp kết quả và hiển thị kết quả cho người dùng Các view HOLAP, xây dựng index, querry và resource scheduling thì như là MOLAP và ROLAP
KHAI THÁC DỮ LIỆU
Giả sử rằng FSC muốn để khởi động một chiến dịch gửi thư mục với một ngân sách chi phí ít hơn $ 1.000.000 Với hạn chế này, các nhà phân tích tiếp thị muốn xác định tập hợp các khách hàng có nhiều khả năng để đáp ứng và mua từ các cửa hàng Công cụ khai thác dữ liệu cung cấp chức năng dự báo và phân tích cao cấp bằng cách xác định mô hình phân phối và hành vi đặc trưng trong một tập hợp dữ liệu
Khám phá tri thức -Việc xử lý quá trình cụ thể và đạt được mục tiêu thông qua các dữ liệu lặp đi lặp lại việc khai phá dữ liệu, thường bao gồm ba giai đoạn:
• chuẩn bị dữ liệu,
• Xây dựng mô hình và đánh giá, và
• triển khai mô hình
Trang 9Chuẩn bị dữ liệu
Trong giai đoạn chuẩn bị dữ liệu, các nhà phân tích chuẩn bị một tập dữ liệu chứa đủ thông tin để xây dựng mô hình chính xác trong các giai đoạn tiếp theo Từ yêu cầu địa chỉ của thông tin FCS, 1 mô hình chính xác sẽ dự đoán 1 khách hàng có khả năng mua sản phẩm quảng cáo trong danh mục mới Bởi vì dự đoán được dựa trên các yếu tố có khả năng ảnh hưởng đến mua hàng của khách hàngmột mô hình dữ liệu sẽ bao gồm tất cả những khách hàng đáp ứng với danh mục sản phẩm gửi trong 3 năm qua, thông tin cá nhân của họ, 10 sản phẩm đắt nhất khách hàng từng mua, và thông tin về các danh mục sản phẩm mà họ thường mua
Chuẩn bị dữ liệu có liên đến truy vấn phức tạp với những kết quả lớn Ví dụ, chuẩn bị dữ liệu liên quan đến việc tham gia FSC giữa các mối quan hệ khách hàng và bán hàng cũng như xác định 10 sản phẩm hàng đầu cho mỗi khách hàng Tất cả các vấn đề liên quan đến xử lý hiệu quả truy vấn hỗ trợ quyết định đều làm nằm trong nội dung khai phá dữ liệu Trong thực tế, nền tảng của khai phá dữ liệu sử dụng OLAP hoặc các máy chủ quan hệ để đáp ứng chuẩn bị dữ liệu
Khai phá dữ liệu thường liên quan đến xây dựng mô hình trên một tập dữ liệu đã được chuẩn bị và sau đó triển khai thêm một hoặc nhiều mô hình Bởi vì xây dựng mô hình trên tập dữ liệu lớn có thể tốn kém, các nhà phân tích thường làm việc ban đầu với bộ dữ liệu mẫu Nền tảng của khai phá dữ liệu do đó, phải hỗ trợ tính toán mẫu ngẫu nhiên của dữ liệu qua truy vấn phức tạp
Xây dựng và đánh giá các mô hình khai phá dữ liệu
Chỉ sau khi quyết định để triển khai mô hình này, các nhà phân tích xây dựng mô hình trên toàn
bộ tập dữ liệu chuẩn bị Mục tiêu của giai đoạn xây dựng mô hình là định ra khuôn mẫu định nghĩa 1 thuộc tính Một thuộc tính ví dụ trong tập dữ liệu FSC là khách hàng mua ít nhất một sản phẩm từ danh mục
Một số lớp của mô hình khai phá dữ liệu giúp dự đoán cả hai thuộc tính rõ và thuộc tính ẩn Hai vấn đề quan trọng ảnh hưởng đến lựa chọn mô hình là tính chính xác của mô hình và hiệu quả của các thuật toán để xây dựng mô hình trên tập dữ liệu lớn Theo thống kê, tính chính xác của các mô hình cải thiện với số lượng dữ liệu được sử dụng, do đó, các thuật toán để xây dựng mô hình khai phá phải có hiệu quả và khả năng mở rộng để xử lý dữ liệu lớn trong một khoảng thời gian hợp lý.
Các loại mô hình
Mô hình phân loại là việc dự đoán, Khi đưa ra một bộ mới các mô hình phân loại dự đoán liệu các
bộ thuộc về một trong các lớp mục tiêu Trong ví dụ danh mục FSC, một mô hình phân loại sẽ quyết định, dựa trên hành vi trong quá khứ, là một khách hàng có hay không mua hàng từ 1 danh mục Cây quyết định và mô hình Bayes là hai loại phổ biến trong mô hình phân loại.
Trang 10Cây hồi quy và hồi quy logistic là 2 loại phổ biến của mô hình hồi quy, mà dự đoán các thuộc tính số, như lương hoặc tuổi của 1 khách hàng.
Với mốt số ứng dụng, các nhà phân tích không biết rõ ràng tập hợp các lớp đối tượng và coi như chúng ẩn Các nhà phân tích sử dụng các mô hình phân cụm như Kmeans và Brich để xác định tập hợp các lớp và phân loại bộ mới vào trong các lớp ẩn.
Các nhà phân tích sử dụng các luật như luật kết hợp để tìm xem liệu có việc mua một tập hợp các các sản phẩm giầy dép là chỉ tiêu định hướng, với một số mức độ tự tin, của mua sản phẩm khác.
Cân nhắc mô hình bổ sung.
Không có mô hình hoặc thuật thoán để xây dựng mô hình lý tưởng cho tất cả các ứng dụng Do
đó, nền tảng của khai phá dữ liệu phải hỗ trợ một số loại mô hình khởi tạo để đánh giá và cung cấp các chức năng bổ sung để mở rộng và thay thế cho nhau.
Trong một số trường hợp, nhà phân tích có thể muốn xây dựng 1 mô hình tương quan độc đáo mà nền tảng khai thác dữ liệu không hỗ trợ Để xử lý các yêu cầu như thế, nền tảng khai thác phải hỗ trợ mở rộng.
Nhiều sản phẩm thương mại xây dựng mô hình cho các lĩnh vực cụ thể, nhưng CSDL thực tế mà trên đó các mô hình phải được triển khai có thể trong một hệ thống cơ sở dữ liệu khác nhau Do đó nền tảng khai phá dữ liệu và các máy chủ CSDL cũng phải có khả năng trao đổi các mô hình.
Nhóm Khai thác dữ liệu (http://www.dmg.org) gần đây đề xuất sử dụng Predictive Model Makup Language, một XML tiêu chuẩn, để thay đổi một số lớp mô hình dự đoán phổ biến Ý tưởng là một số cơ sở dữ liệu hỗ trợ tiêu chuẩn có thể import và phát triển một số mô hình mô tả ở dạng tiêu chuẩn.
Triển khai mô hình khai phá dữ liệu
Trong giai đoạn triển khai mô hình khai thác, những nhà phân tích áp dụng mô hình lựa chọn cho tập dữ liệu để dự đoán thuộc tính đích với một giá trị chưa xác định Với mọi tập hiện tại của khách hàng trong ví dụ FSC, dự đoán là liệu họ có mua 1 sản phẩm từ danh mục mới Đang truyển khai 1 mô hình trên tập dữ liệu đầu vào - 1 tập hợp hay 1 phân vùng của tập dữ liệu đầu vào - có thể có kết quả trong 1 tập dữ liệu khác.Trong ví dụ FSC, giai đoạn triển khai mô hình xác định tập hợp khách hàng sẽ gửi danh mục.
Khi tập dữ liệu đầu vào là cực kỳ lớn, chiến lược triển khai phải thật hiệu quả Sử dụng chỉ số về mối quan hệ đầu vào để lọc ra các bộ dữ liệu mà không triển khai kết quả có thể là cần thiết, nhưng điều này đòi hỏi tích hợp chặt chẽ giữa hệ thống cơ sở dữ liệu và triển khai mô hình Không may, cộng đồng nghiên cứu dành ít sự quan tâm đến hiệu quả triển khai hơn là xây dựng mô hình có khả năng mở rộng
VẤN ĐỀ BỔ SUNG OLAP VÀ KHAI PHÁ DỮ LIỆU.
Những vấn đề quan trọng khác trong bối cảnh của OLAP và công nghệ khai thác dữ liệu bao gồm đóng gói ứng dụng, nền tảng giao diện chương trình ứng dụng và tác động của XML, xử lý truy vấn gần đúng, OLAP và hội nhập khai thác dữ liệu, và khai thác Web.