Tích hợp khai phá dữ liệu trong InfoSphere Warehouse với việc tạo báo cáo Cognos của IBM Phần 1: Tổng quan về kiến trúc tích hợp InfoSphere Warehouse và Cognos Mở đầu Khai phá dữ liệ
Trang 1Tích hợp khai phá dữ liệu trong InfoSphere Warehouse với việc tạo
báo cáo Cognos của IBM
Phần 1: Tổng quan về kiến trúc tích hợp InfoSphere Warehouse và
Cognos
Mở đầu
Khai phá dữ liệu cho phép các chuyên gia, các nhà phân tích và những người sử dụng có được cái nhìn sâu sắc với các mẫu trong các bộ sưu tập dữ liệu lớn và kết hợp chúng vào quy trình nghiệp vụ hàng ngày Về lịch sử, khai phá dữ liệu là một nhiệm vụ mà chỉ các chuyên gia về thống kê và phân tích dữ liệu mới có thể thực hiện được Mặt khác, các kết quả của việc khai phá
dữ liệu thường liên quan đến những người dùng khác nhau trên toàn công ty
Hãy xem xét kịch bản sau đây Bạn thu thập dữ liệu về khách hàng của mình bao gồm các khía cạnh nhân khẩu học (như tuổi tác, nghề nghiệp và nơi cư trú) cũng như các giao dịch trong quá khứ (như các mặt hàng đã bán và các hợp đồng) Bộ phận tiếp thị của bạn muốn phát triển các đề xuất chào hàng mới được thiết kế riêng cho các nhóm khách hàng cụ thể với các đặc tính giống nhau Làm thế nào để tìm ra các nhóm người dùng điển hình như vậy? Phân cụm dữ liệu cung cấp một giải pháp cho vấn đề này Nó tự động nhóm các tập dữ liệu theo các đặc tính hoặc các tính năng của chúng Sau đó, một nhà phân tích có thể rà soát lại các nhóm này và điều chỉnh chúng dần dần cho đến khi chúng đáp ứng các yêu cầu của mình Ví dụ, một chuyên gia tiếp thị
có thể thấy rằng có một nhóm khách hàng nhỏ nhưng là nhóm khách hàng quan trọng về kinh tế
có độ tuổi trên trung bình và không sử dụng dịch vụ ngân hàng Internet Dựa vào thông tin này, các đề xuất chào hàng riêng biệt có thể được thực hiện cho những khách hàng này Một bước quan trọng trong quá trình phân tích là cho phép những người dùng hiểu các kết quả của bước phân cụm dữ liệu này Các chuyên gia phân tích thường không phải là các chuyên gia về lập trình các cơ sở dữ liệu mức thấp
Làm thế nào có thể phân phối các kết quả khai phá dữ liệu đến các nhà phân tích và các nhân viên cần dùng nó? Làm thế nào có thể trình bày các kết quả sao cho phản ánh quy trình nghiệp
vụ mà người dùng có dính líu đến? Làm thế nào có thể đáp ứng các yêu cầu an ninh, sao cho mỗi người dùng chỉ thấy những gì mà người ấy được xem theo quy định? Để đưa ra các câu trả lời thoả đáng cho những câu hỏi đó, cần di chuyển vị trí trong khung nhìn phối cảnh, rời xa các phân tích thống kê và tiến gần đến phía người dùng cuối thực tế và các quy trình nghiệp vụ mà người
đó dính líu đến InfoSphere Warehouse là nền móng vững mạnh cho việc tạo kho dữ liệu phạm
vi toàn công ty InfoSphere Warehouse cung cấp chức năng khai phá dữ liệu trực tiếp trong cơ sở
dữ liệu DB2 ở bên dưới, nơi dữ liệu thường trú Có thể truy cập các chức năng đầy đủ bằng một nền tảng bộ công cụ dựa trên Eclipse, dễ sử dụng và các nhiệm vụ triển khai có thể được kích hoạt trực tiếp ngay trong bộ công cụ này
Cognos IBM là một trong những người dẫn đầu thị trường về các giải pháp tạo báo cáo Việc tạo báo cáo đóng một vai trò quan trọng trong nhiều công ty vì nó giúp củng cố và trực quan hóa các thông tin liên quan theo nhiều cách khác nhau cho những khán giả đích khác nhau Các kết quả được trình bày thường được rút ra bằng cách áp dụng các phép tính số học cơ bản đối với thông
Trang 2tin được lưu trữ trong kho dữ liệu (ví dụ, doanh thu trung bình mỗi tháng) Các phân tích nâng cao, như trong ví dụ trên, không thuộc phạm vi và khả năng của một khung công tác tạo báo cáo Điều này dẫn đến kết hợp cả hai, vừa sử dụng các khả năng phân tích nâng cao, quy mô linh hoạt của InfoSphere Warehouse vừa sử dụng các khả năng tạo báo cáo tinh vi đã được khẳng định của Cognos IBM Các phần sau đây cho thấy cách có thể kết hợp khai phá dữ liệu của Kho dữ liệu InfoSphere IBM và Cognos IBM theo một cách linh hoạt để đạt được mục tiêu này Sự tích hợp này không đòi hỏi bất kỳ việc lập trình hoặc thiết lập khác thường nào; tất cả có thể được thực hiện bằng cách chỉ sử dụng SQL thuần của DB2
Các phần sau đây trình bày ngắn gọn kiến trúc cơ bản của InfoSphere Warehouse và IBM
Cognos Tiếp theo là các ý tưởng mức cao về cách có thể tích hợp cả hai Cuối cùng, sự tích hợp này được trình diễn trong một ví dụ về lĩnh vực chăm sóc sức khỏe đơn giản, theo từng bước một Các bài viết sắp tới của loạt bài này mô tả các khía cạnh về khái niệm và kỹ thuật tiên tiến hơn về sự tích hợp này
Về đầu trang
Các thành phần sản phẩm
IBM InfoSphere Warehouse
InfoSphere Warehouse (Kho dữ liệu InfoSphere) dựa vào DB2 để lưu trữ dữ liệu Cơ sở dữ liệu
có sẵn một tính năng phân vùng (DPF) để lưu trữ với hiệu năng cao và an toàn, có khả năng mở rộng dữ liệu trong kho dữ liệu, kết hợp các lợi thế của các cơ sở dữ liệu xử lý giao dịch trực tuyến (OLTP) với các yêu cầu lưu trữ của các kho dữ liệu lớn InfoSphere Warehouse có sẵn với một loạt các công cụ để quản lý và phân tích kho dữ liệu Các thành phần phân tích gồm
Các dịch vụ tạo khối
Khai phá dữ liệu
Phân tích văn bản
InfoSphere Warehouse Design Studio (Xưởng thiết kế kho dữ liệu InfoSphere) là nền tảng tạo công cụ dựa trên Eclipse được sử dụng để thiết kế các quy tắc về khối lượng công việc, các luồng biến đổi dữ liệu và các luồng phân tích để khai phá dữ liệu và phân tích văn bản Sau đó, các luồng này có thể được triển khai tới bàn điều khiển quản trị InfoSphere Warehouse để được lập lịch biểu và chạy theo các yêu cầu Khai phá dữ liệu InfoSphere Warehouse được xây dựng với các thủ tục đã lưu của DB2 và các hàm do người dùng định nghĩa để thực hiện trong cơ sở dữ liệu với hiệu năng cao, lợi dụng DB2 làm một môi trường thực hiện Có thể truy cập nó hoặc thông qua giao diện SQL của nó hoặc thông qua các luồng khai phá dữ liệu của InfoSphere Warehouse
Khai phá dữ liệu là nhiệm vụ tìm kiếm thông tin có ích trong các tập dữ liệu lớn Một kịch bản điển hình sẽ được sử dụng khi chạy ví dụ trong bài viết này là chăm sóc sức khỏe Hiện nay có thể thu thập một lượng lớn dữ liệu chăm sóc sức khỏe, mô tả tình trạng của nhiều bệnh nhân khác nhau qua nhiều năm Một công dụng quan trọng của dữ liệu này là để sớm tìm ra các chỉ báo cho các bệnh tiềm ẩn Với mục đích này, bạn có thể thu thập dữ liệu của các bệnh nhân, ví
Trang 3dụ, mắc bệnh tim và phân tích các tham số nào, chẳng hạn như huyết áp và cân nặng, có liên quan với nó Dữ liệu này phải được thu gom và được chuyển đổi để có thể dùng nó cho việc khai phá dữ liệu Cụ thể hơn, bạn cần phải có được một bảng chứa đúng một hàng cho một bệnh nhân
và một số cột biểu diễn thông tin về bệnh nhân Ngoài ra, cần có một cột riêng chỉ thị liệu bệnh nhân này có thực sự bị mắc bệnh không Lược đồ có thể sẽ giống như Hình 1:
Hình 1 Lược đồ của bảng cơ sở dữ liệu bệnh tim (một phần của các ví dụ InfoSphere Warehouse)
Dựa trên dữ liệu này, các thủ tục đã lưu trữ trong InfoSphere Warehouse có thể xây dựng một
mô hình dự báo, cho bất kỳ bệnh nhân mới nào, cho biết liệu người đó có thể mắc bệnh tim tiềm
ẩn hay không Quá trình này được gọi là "mô hình hóa" Mô hình khai phá dữ liệu XML được lưu trữ trong cơ sở dữ liệu và có thể được truy cập thông qua SQL/XQuery Nó có thể được sử dụng cho hai mục đích Trước tiên, bạn có thể trích xuất thông tin từ mô hình này để có được các hiểu biết sâu sắc về những chỉ báo quan trọng của bệnh tim và thông tin thống kê khác Thứ hai,
mô hình này có thể được áp dụng tự động cho các bản ghi dữ liệu mới Như vậy, đối với bất kỳ các bản ghi nào còn chưa có giá trị nào trong cột bệnh tim, bạn có thể tự động điền thêm giá trị này, cùng với một giá trị biểu thị mức tin cậy rằng dự báo này là chính xác Quá trình này được gọi là "cho điểm" Hình 2 cho thấy điều này dưới dạng lược đồ:
Hình 2 Dựa vào dữ liệu lịch sử, một mô hình dự báo được xây dựng để sau đó có thể được
áp dụng cho dữ liệu mới
Trang 4InfoSphere Warehouse chứa các cài đặt hiệu quả cao của hầu hết các thuật toán khai phá dữ liệu hiện tại Khai phá dữ liệu được gọi khi lần đầu tiên viết dữ liệu vào một bảng Sau đó, tạo ra một
mô hình, sau này có thể áp dụng mô hình đó cho các bản ghi vẫn chưa biết được giá trị đích, cung cấp một dự báo và một giá trị tin cậy cho dự báo này Tất cả các hàm khai phá dữ liệu được gọi chỉ như các lệnh SQL bình thường, như bạn sẽ thấy dưới đây Điều này cho phép tích hợp dễ dàng trong hầu hết các thiết lập, chẳng hạn như các dịch vụ Web
IBM Cognos 8 Business Intelligence
IBM Cognos 8 Business Intelligence (Tri thức nghiệp vụ Cognos 8 của IBM) cung cấp một tập đầy đủ về các khả năng tri thức nghiệp vụ (BI) và được dựa trên một kiến trúc hướng dịch vụ (SOA) linh hoạt Các khả năng chính là tạo báo cáo, phân tích, các bảng đồng hồ và bảng điểm
Tạo báo cáo được sử dụng để tổng hợp dữ liệu liên quan về các quy trình nghiệp vụ và phân phối
nó cho những người khai phá tốt nhất từ thông tin cụ thể này Trong môi trường khai phá dữ liệu, điều này có nghĩa là chuyển giao kết quả cho những người khai phá tốt nhất từ những hiểu biết nghiệp vụ được tạo ra
Các thành phần của Cognos 8 cần thiết để tạo và xuất bản các bản ghi nghiệp vụ là:
Cognos Connection (Kết nối Cognos): Cổng thông tin Web và điểm nhập vào chức năng
của Cognos 8 Từ đây người dùng có thể quản lý, tổ chức và xem nội dung hiện tại như các bản ghi hay các bảng đồng hồ Các studio (xưởng) thiết kế nội dung dựa trên web, như Report Studio, có thể được bắt đầu từ kết nối Cognos để tạo ra tài nguyên mới hoặc sửa đổi các tài nguyên hiện có Nó cũng được sử dụng để quản lý máy chủ Cognos, ví dụ,
để thay đổi các hạn chế truy cập, nhập khẩu nội dung, hoặc thay đổi danh sách những người cần gửi bản ghi đến
Cognos Framework Manager (Nhà quản lý khung công tác Cognos): Công cụ mô hình
hóa cho các nguồn dữ liệu được sử dụng trong Cognos 8 Dữ liệu từ hầu hết các cơ sở dữ liệu và các nguồn khác, như các dịch vụ Web, ví dụ, có thể được truy cập vào các bản ghi của Cognos bằng cách mô tả một tầng siêu dữ liệu trong Framework Manager (Nhà quản
lý khung công tác) Các bảng, các khung nhìn cơ sở dữ liệu và các thủ tục đã lưu trữ có thể được thêm vào một gói Cognos làm các chủ đề truy vấn Framework Manager được
sử dụng để nhập khẩu và hợp nhất thông tin có sẵn trong các nguồn dữ liệu khác nhau trong công ty để cho thông tin có thể được sử dụng theo cách chặt chẽ trong các công cụ
BI của Cognos 8 như Report Studio Điều quan trọng cần lưu ý rằng chính dữ liệu được lưu giữ trong nguồn dữ liệu và được truy cập khi báo cáo được tạo ra
Cognos Report Studio (Xưởng tạo báo cáo Cognos): Một trong các xưởng thiết kế nội
dung dựa trên Web của Cognos 8 BI Nó được dùng để tạo và chỉnh sửa các bản ghi phức tạp về dữ liệu đã được mô tả trong Framework Manager Nó cung cấp chức năng mạnh
mẽ như truy vấn ngược (drill-down), nhắc nhở và một thư viện tạo biểu đồ toàn diện
Để làm cho dữ liệu có sẵn trong một báo cáo, cần thực hiện một vài bước:
Trang 5 Trong Framework Manager, Trình mô hình hóa dữ liệu tạo ra siêu dữ liệu Cognos để mô
tả dữ liệu trong cơ sở dữ liệu từ một khung nhìn phối cảnh nghiệp vụ (bao gồm cả quan
hệ giữa các bảng, các tên nghiệp vụ của các giá trị và v.v)
Sau khi siêu dữ liệu đã được mô hình hóa, nó được triển khai như là một gói vào kho lưu trữ nội dung Cognos 8 Từ đó, nó có thể được truy cập thông qua kết nối Cognos và các xưởng thiết kế nội dung
Nhà thiết kế báo cáo nhập Kết nối Cognos và tạo ra một báo cáo mới về gói đã triển khai Sau khi tạo ra báo cáo này, có thể quản trị nhóm đích và dạng phân phối (như thư điện tử hoặc cổng thông tin Web)
Khả năng tạo các báo cáo từ các nguồn dữ liệu quan hệ là chìa khóa cho sự tích hợp khai phá InfoSphere Warehouse và Cognos của IBM
Về đầu trang
Kiến trúc tích hợp
Nội dung của các báo cáo Cognos bao gồm một tập kết quả do một nguồn dữ liệu quan hệ cung cấp, như mô tả ở trên Nội dung của một báo cáo cụ thể được xác định bởi một truy vấn SQL (động) cho một hoặc nhiều nguồn dữ liệu Bạn có thể sử dụng mô hình giao tiếp cơ bản này để tích hợp khai phá dữ liệu và tạo báo cáo Cognos theo các cách sau:
Cognos có thể được sử dụng để hiển thị bảng cho điểm, có thể kèm theo thông tin về độ tin cậy
Cognos có thể được sử dụng để hiển thị thông tin mô hình Thông tin này được trích xuất
từ các mô hình XML thực tế bằng các hàm của trình trích xuất bảng hoặc bằng các truy vấn XQuery
Cognos có thể gọi khai phá dữ liệu và cho điểm tự động bằng cách gọi các thủ tục SQL
đã lưu trữ Điều này cho phép thực hiện như sau:
o Gọi khai phá dữ liệu với các giá trị cài đặt khác nhau do người dùng cung cấp trong giao diện tạo báo cáo
o Gọi khai phá dữ liệu trên các tập con dữ liệu khác nhau (ví dụ, để tạo ra các báo cáo truy vấn ngược đệ quy)
o Các bản ghi cho điểm động dựa trên các đầu vào của người dùng
Hình 3 tóm tắt lược đồ cuộc gọi được sử dụng trong tất cả các trường hợp này
Hình 3 Kiến trúc tích hợp cơ bản của khai phá dữ liệu IBM InfoSphere và tạo báo cáo
Trang 6IBM Cognos
Khai phá dữ liệu được gọi bằng một cuộc gọi thủ tục đã lưu trữ và tạo ra một mô hình khai phá XML trong cơ sở dữ liệu Mô hình này có thể được ghi vào dữ liệu mới hoặc thông tin mô hình
có thể được trích xuất vào một bảng Các bảng này có thể được Cognos tiêu dùng Người dùng
có thể gọi tương tác khai phá bằng cách gọi một thủ tục đã lưu tương ứng trên cơ sở dữ liệu trong một báo cáo Cognos
Việc tích hợp này cung cấp nhiều lợi ích:
Nó là rất đơn giản và chỉ cần kiến thức SQL và không cần lập trình bổ sung
Các mô hình khai phá được lưu trữ trong cơ sở dữ liệu và có thể được truy cập một cách
an toàn, hiệu quả từ Cognos
Sử dụng các thủ tục đã lưu, toàn bộ quy trình khai phá có thể được kích hoạt và được điều khiển từ Cognos
Phần tiếp theo là một ví dụ từng bước cho kiểu tích hợp này, nó cũng là một ví dụ đơn giản nhất: cho điểm các bản ghi trong cơ sở dữ liệu và hiển thị các kết quả trong một báo cáo Cognos Việc trích xuất thông tin mô hình và gọi khai phá dữ liệu động từ các báo cáo Cognos sẽ được trình bày trong các bài viết tiếp theo của loạt bài này
Về đầu trang
Sử dụng các kết quả khai phá dữ liệu trong các báo cáo Cognos: Một ví dụ từ lĩnh vực chăm sóc sức khỏe
Ví dụ này phân tích dữ liệu bệnh nhân trong bệnh viện Khoa tim mạch của bệnh viện có toàn bộ các hồ sơ chính về bệnh nhân của họ cùng với một số kết quả đo như nhịp tim, huyết áp,
cholesterol và v.v Các bệnh nhân được kiểm tra với bốn căn bệnh tim mạch khác nhau Các bản ghi bệnh nhân có một cột cho biết liệu họ có mắc một trong bốn căn bệnh tim mạch (y = có) hay không (n = không) Bảng cơ sở dữ liệu của bệnh tim mạch tương ứng được mô tả trong Hình 1
Bảng này có thể được tìm thấy trong các ví dụ đi kèm với InfoSphere Warehouse
Trang 7Mục tiêu phân tích là để dự báo cho các bệnh nhân mới về nguy cơ họ mắc phải bất kỳ một trong bốn căn bệnh tim mạch Nếu có nguy cơ cao, cần thực hiện ngay các cuộc khám sức khỏe toàn
bộ
Ý tưởng là để cho phép quản lý nguy cơ mắc bệnh ngay cả khi không tiến hành khám chuyên khoa cho một trong những người mắc các bệnh tim mạch, nhưng đã có sẵn các kết quả đo từ các cuộc khám sức khỏe trước đó về các lĩnh vực khác
Tạo mô hình dự báo
Đầu tiên, tạo một mô hình dự báo dựa vào bảng HEART cho phép bạn dự báo các nguy cơ bệnh tim cho các bệnh nhân
Tạo một dự án Data Warehouse (Kho dữ liệu):
Nhấn chuột phải vào Project Explorer và chọn New > Data Warehouse Project (như trong
Hình 4 dưới đây)
Hình 4 Tạo một dự án Kho dữ liệu
Trong trình thủ thuật sau đây, hãy gõ tên dự án, ví dụ là AdvancedAnalytics Sau đó nhấn
Finish
Tạo ra một luồng khai phá rỗng:
1 Mở rộng dự án vừa mới được tạo ra
Trang 82 Nhấn chuột phải vào thư mục Mining Flows (Các luồng khai phá) và chọn New >
Mining Flow
3 Trong trình thủ thuật hiện lên, nhập vào tên luồng khai phá là Heart Disease Risk (Có
nguy cơ bệnh tim mạch)
4 Trong ví dụ này, bạn sẽ làm dựa vào cơ sở dữ liệu này Vì vậy, hãy để mặc định và nhấn
Next
5 Chọn cơ sở dữ liệu DWESAMP, và nhấn Finish
Tạo luồng khai phá:
Trình soạn thảo luồng khai phá mở ra Ở bên phải của trình soạn thảo luồng khai phá bạn có thể thấy một bảng (palette) có các toán tử (xem Hình 5) Với các toán tử này, bạn có thể xây dựng một luồng khai phá bằng cách kéo và thả chúng vào khung trình soạn thảo
Hình 5 Luồng khai phá trong Design Studio
Để tạo ra mô hình khai phá dự báo nguy cơ mắc bệnh cho các bệnh nhân, hãy làm theo các bước sau:
1 Trong bảng các toán tử, trong phần Sources and Targets (Các nguồn và các đích), chọn
một toán tử Table Source (Nguồn bảng) và kéo nó vào trình soạn thảo
2 Trong hộp thoại chọn bảng, mở rộng lược đồ HEALTHCARE (Chăm sóc sức khỏe) và chọn bảng HEART, sau đó nhấn Finish
Trang 93 Trong bảng các tốn tử, trong phần Preprocessing Operators (Các tốn tử xử lý trước),
chọn tốn tử Random Split (Phân chia ngẫu nhiên) và kéo nĩ vào trình soạn thảo
4 Nối cổng Output (Đầu ra) của tốn tử đầu tiên tới cổng Input (Đầu vào) của tốn tử thứ
hai bằng một hành động kéo đơn giản
5 Chọn tốn tử Random Split
6 Trên thẻ Properties (Các đặc tính) bên dưới trình soạn thảo khai phá, thiết lập Percentage
(Tỷ lệ phần trăm) của đặc tính dữ liệu kiểm tra là 20 Điều này cĩ nghĩa chúng ta sẽ sử
dụng 20 phần trăm dữ liệu để xác nhận hợp lệ mơ hình của chúng ta sau đĩ Vì vậy, bạn phải phân chia dữ liệu trước khi xây dựng mơ hình dự báo
7 Trong bảng các tốn tử, trong phần Mining Operators (Các tốn tử khai phá), chọn một
tốn tử Predictor (Trình dự báo) và kéo nĩ vào trình soạn thảo
8 Nối cổng Training Output (Đầu ra đào tạo) của tốn tử phân chia với Predictor Input Port (Các đầu vào Trình dự báo)
9 Chọn tốn tử Predictor
10 Trên thẻ Properties bên dưới trình soạn thảo khai phá, chọn thẻ Mining Settings (Các giá
trị cài đặt khai phá) ở phía bên trái
11 Trong danh sách chọn cột Target (Đích), chọn DISEASED (Mắc bệnh) làm cột bạn
muốn dự báo
12 Design Studio tự động nhận ra rằng bạn muốn dự báo một cột giá trị danh định và tự động cung cấp cho bạn các giá trị thiết lập (trong cùng một thẻ này) cĩ sẵn cho mục đích
này Trong danh sách lựa chọn Algorithm (Thuật tốn), chọn Nạve Bayes
13 Trên thẻ các đặc tính Mining Settings (các giá trị cài đặt khai phá), chọn thẻ Model Name (Tên mơ hình) Để lại tiền tố như đã cĩ nhưng thay đổi tên mơ hình thành
HeartDiseasePrediction
14 Ngồi ra, trong phần Mining của bảng các tốn tử, chọn tốn tử Tester (Trình kiểm tra)
và kéo nĩ vào trình soạn thảo
15 Nối cổng đầu ra Predictor’s Model (Mơ hình của Trình dự báo) với cổng đầu vào
Tester’s Model (Mơ hình của Tester) và cổng kiểm tra đầu ra Random Split’s Test (Phân chia ngẫu nhiên) với cổng đầu vào của Tester’s input port
16 Lưu trữ luồng khai phá, ví dụ, bằng cách nhấn vào vùng soạn thảo và nhấn Ctrl+S
Bây giờ, luồng khai phá đã sẵn sàng chạy
Chạy luồng khai phá:
Bạn cĩ thể thực hiện tồn bộ một trình soạn thảo luồng khai phá hoặc chỉ theo các đường dẫn
dành riêng cho luồng đĩ bằng cách nhấn chuột phải vào một tốn tử và chọn Run to this step… (Chạy đến bước này ) Trong kịch bản này, bạn nhấn chuột phải vào tốn tử Tester, chọn Run
to this step… và nhấn Finish Luồng khai phá này tạo ra một mơ hình dự báo nguy cơ về bệnh
tim và lưu nĩ trong cơ sở dữ liệu Nĩ được đào tạo trên 80 phần trăm dữ liệu và sau đĩ được kiểm tra trên các điểm dữ liệu cịn lại Điều này cho phép bạn đánh giá mơ hình sẽ thực hiện trên
dữ liệu mới tốt như thế nào Chỉ cần nhấn chuột phải vào cổng Test Result (Kết quả kiểm tra)
của tốn tử Tester Bạn cũng cĩ thể xem xét chính mơ hình đĩ Cuối cùng, nhấn chuột phải vào cổng Model của tốn tử Predictor
Cho điểm dữ liệu mới bằng cách sử dụng mơ hình khai phá
Trang 10Cho điểm có nghĩa là áp dụng một mô hình đã học trước đây vào dữ liệu mới Dữ liệu mới chưa
có phân loại (trong trường hợp này, vẫn chưa thực hiện cuộc khám bệnh tim mạch nào) và quá trình cho điểm sẽ gán một dự báo cho mỗi bản ghi mới theo mô hình khai phá
Tạo một luồng khai phá mới để cho điểm:
Thực hiện các bước tương tự như trong Create a new mining flow (Tạo một luồng khai phá mới), trừ việc bạn nên cho nó một tên khác, như là Classify New Patients (Phân loại các bệnh
nhân mới) chẳng hạn
Tạo một luồng cho điểm:
Để tạo luồng cho điểm để phân loại các bệnh nhân mới thực hiện như sau:
1 Trong bảng các toán tử, trong phần Sources and Targets, chọn một toán tử Model Source
và kéo nó vào trình soạn thảo
2 Trong hộp thoại lựa chọn mô hình khai phá, mở rộng các mô hình phân loại và lựa chọn
mô hình AdvancedAnalytics.HeartDiseasePrediction của bạn
3 Trong phần Sources and Targets của bảng các toán tử, kéo một toán tử Table Source vào
trình soạn thảo
4 Trong hộp thoại chọn bảng, mở rộng lược đồ HEALTHCARE và chọn bảng HEART
Bảng này có thể được nạp vào kho dữ liệu hàng đêm hoặc theo thời gian thực, bất cứ khi nào có một bệnh nhân mới đã vào viện và một khi các kết quả đo cần thiết đã có sẵn
5 Trong phần Mining Operators của bảng các toán tử, kéo một toán tử Scorer (Trình cho
điểm) vào trình soạn thảo
6 Nối toán tử mô hình và nguồn bảng vào trình cho điểm này
7 Trình cho điểm này gắn thêm hai cột có phân loại (y và n) và cột khác chỉ rõ độ chắc
chắn của phân loại này Để lưu bảng đã cho điểm này, bạn phải tạo một bảng phù hợp với
các cột ấy như là một toán tử Table Target
Để thực hiện, nhấn chuột phải vào cổng đầu ra của trình cho điểm và chọn Create
Suitable Table… (Tạo bảng phù hợp )
8 Trong hộp thoại hiện lên, chỉ cần chỉ rõ tên của bảng mới:
NEW_PATIENT_CLASSIFICATION và lược đồ ở nơi bảng sẽ được tạo:
HEALTHCARE Nhấn Finish
9 Lưu luồng cho điểm
10 Cuối cùng, thực hiện luồng này bằng cách nhấn chuột vào toán tử đích của bảng và chạy theo bước này
Sau khi thực hiện luồng cho điểm này, trong khung nhìn phía dưới xuất hiện một mẫu từ bảng cho điểm (xem Hình 6) Nếu bạn cuộn sang bên phải, bạn sẽ thấy hai cột đã được trình cho điểm này nối thêm vào