Đề tài gồmcác phần chính như sau: Phần 1: Khai phá tri thức Chương 1: Tổng quan về khai phá tri thức Chương 2: Các ứng dụng thực tế áp dụng kỹ thuật khai phá tri thức Phần 2: Hệ chuyên g
Trang 1KHOA CÔNG NGHỆ THÔNG TIN
GVHD : PGS TS Phan Huy Khánh HVTH : Nguyễn Thị Thùy
Phan Thị Lệ Thuyền Nguyễn Văn Thẩm LỚP : Khoa học máy tính KHÓA : 11 (2009 – 2011)
Đà Nẵng, tháng 04/2010
Trang 2Trong thời đại ngày nay, với sự phát triển vượt bật của công nghệ thông tin các
hệ thống thông tin có thể lưu trữ một khối lượng lớn dữ liệu về hoạt động hàng ngàycủa chúng Những năm gần đây, khi nền khoa học công nghệ thông tin đang ngày càngphát triển như vũ bão thì vấn đề khai thác dữ liệu đã trở thành một trong những hướngnghiên cứu chính trong lĩnh vực khoa học máy tính và công nghệ tri thức Khai thác dữliệu đã và đang ứng dụng thành công vào rất nhiều các lĩnh vực khác nhau như: thươngmại, tài chính, thị trường chứng khoán, y học, thiên văn học, sinh học, giáo dục vàviễn thông v.v
Mỗi lĩnh vực hoạt động cần có một chuyên gia để hỗ trợ tư vấn trong quá trìnhhoạt động Việc áp dụng hệ chuyên gia là một việc rất quan trọng, chúng ta có thể tạo
ra một chuyên gia thật sự trên một lĩnh vực nào đó Từ đó chúng ta có thể xây dựngnhiều chuyên gia khác nhau trên tất cả các lĩnh vực để phục vụ đời sống xã hội
Chữa bệnh bằng cây thuốc nam là lĩnh vực rất gần gũi và cần thiết trong cuộcsống của mỗi người Nó hướng dẫn bạn biết tận dụng các loại cây cỏ rất quen thuộcxung quanh, thậm chí ở ngay trong khu vườn của bạn để điều trị một số loại bệnh haygặp trong cuộc sống hằng ngày
Trong khuôn khổ đề tài này chúng tôi trình bày những hiểu biết về khai phá trithức và bài tập hệ chuyên gia chẩn đoán và điều trị bệnh bằng thuốc nam Đề tài gồmcác phần chính như sau:
Phần 1: Khai phá tri thức
Chương 1: Tổng quan về khai phá tri thức
Chương 2: Các ứng dụng thực tế áp dụng kỹ thuật khai phá tri thức
Phần 2: Hệ chuyên gia
Chương 1: Kiến thức cơ bản về hệ chuyên gia
Chương 2: Bài toán xây dựng hệ chuyên gia trong lĩnh vực y học
Mặc dù đã nghiên cứu kỹ phần lý thuyết để có được cách giải quyết bài tập đúngđắn nhưng chúng tôi không thể tránh khỏi những thiếu sót, kính mong nhận được sự
góp ý kiến của Thầy giáo hướng dẫn PGS.TS Phan Huy Khánh và các anh chị trong
lớp để đề tài được tốt hơn
Chúng tôi xin chân thành cảm ơn thầy giáo PGS.TS Phan Huy Khánh đã tận tình
giảng dạy và hướng dẫn để chúng tôi hoàn thành tiểu luận này
Trang 4Chương 1 Tổng quan về khai phá tri thức 1
1.1 Khai phá tri thức là gì? 1
1.2 Quá trình phát hiện tri thức 2
1.3 Qui trình khai phá tri thức 3
1.4 Quá trình khai phá tri thức từ dữ liệu 5
1.5 Các phương pháp khai phá dữ liệu 5
1.6 Các lĩnh vực liên quan đến Khai phá tri thức 7
1.7 Các ứng dụng của Khai phá tri thức 7
1.8 Các thách thức với Khai phá tri thức và khai phá dữ liệu 8
Chương 2 Các ứng dụng thực tế áp dụng kỹ thuật khai phá tri thức 9
2.1 Ứng dụng hệ thống mờ dùng trong khai phá dữ liệu điều trị bệnh sốt 9
2.2 Ứng dụng kỹ thuật mạng Neuron để giải quyết vấn đề học tiếng Anh trong mạng NetTalk 10
2.3 Ứng dụng trong bài toán dự báo từ thông tin kinh tế - xã hội 11
2.4 Kết luận 14
Phần 2 HỆ CHUYÊN GIA 15
Chương 1 Kiến thức cơ bản về hệ chuyên gia 15
1.1 Khái niệm 15
1.2 Hoạt động của một hệ chuyên gia 15
1.3 Kiến trúc của hệ chuyên gia 16
1.4 Biểu diễn tri thức trong hệ chuyên gia 17
Chương 2 Bài toán xây dựng hệ chuyên gia trong y học 18
2.1 Phát biểu bài toán 18
2.1.1 Phát biểu 18
2.1.2 Mục đích 18
2.1.3 Nội dung thực hiện 18
2.2 Phân tích bài toán 18
2.3 Thiết kế chương trình 19
2.3.1 Xây dựng một số hàm cho chương trình 19
2.3.2 Thiết kế chương trình 20
2.3.3 Kết quả chạy chương trình 23
KẾT LUẬN 25
TÀI LIỆU THAM KHẢO 26
Trang 5Phần 1 KHAI PHÁ TRI THỨC Chương 1 Tổng quan về khai phá tri thức
Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tintrong nhiều lĩnh vực của đời sống kinh tế xã hội trong nhiều năm qua cũng đồng nghĩavới lượng dữ liệu đã được các cơ quan thu thập và lưu trữ ngày một tích luỹ nhiều lên
Họ lưu trữ các dữ liệu này vì cho rằng trong nó ẩn chứa những giá trị nhất định nào đó.Tuy nhiên, theo thống kê thì chỉ có một lượng nhỏ của những dữ liệu này (khoảng từ5% đến 10%) là luôn được phân tích, số còn lại họ không biết sẽ phải làm gì hoặc cóthể làm gì với chúng nhưng họ vẫn tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ rằng
sẽ có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó Mặt khác, trong môitrường cạnh tranh, người ta ngày càng cần có nhiều thông tin với tốc độ nhanh để trợgiúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cầnphải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có Với những lý do như vậy,các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đápứng được thực tế đã làm phát triển một khuynh hướng kỹ thuật mới đó là Kỹ thuậtkhai phá tri thức và khai phá dữ liệu (KDD - Knowledge Discovery and Data Mining)
Kỹ thuật khai phá tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứngdụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuậtnày tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứngdụng
Có sẵn khối dữ liệu lớn:
- Các CSDL khổng lồ
- Dữ liệu từ Internet
Trang 61.1 Khai phá tri thức là gì?
Trong cuộc sống nói chung và trong tin học nói riêng, thông tin và tri thức hiệnđang là tiêu điểm của một lĩnh vực mới trong nghiên cứu và ứng dụng về khai phá trithức (Knowledge Discovery) và khai phá dữ liệu (Data Mining)
Thông thường chúng ta coi dữ liệu như một dãy các bit, hoặc các số và các kýhiệu, hoặc các “đối tượng” với một ý nghĩa nào đó khi được gửi cho một chương trìnhdưới một dạng nhất định Chúng ta sử dụng các bit để đo lường các thông tin và xem
nó như là các dữ liệu đã được lọc bỏ các dư thừa, được rút gọn tới mức tối thiểu để đặctrưng một cách cơ bản cho dữ liệu Chúng ta có thể xem tri thức như là các thông tintích hợp, bao gồm các sự kiện và các mối quan hệ giữa chúng Các mối quan hệ này cóthể được hiểu ra, có thể được phát hiện, hoặc có thể được học Nói cách khác, tri thức
có thể được coi là dữ liệu có độ trừu tượng và tổ chức cao
Khai phá tri thức trong các cơ sở dữ liệu là một qui trình nhận biết các mẫu hoặccác mô hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích, và có thể hiểuđược
1.2 Quá trình phát hiện tri thức
Hình 1: Quá trình phát hiện tri thức
Phát hiện tri thức từ CSDL là một quá trình có sử dụng nhiều phương pháp vàcông cụ tin học nhưng vẫn là một quá trình mà trong đó con người là trung tâm Do
Trang 7liệu, các lớp mẫu phù hợp và đạt tiêu chuẩn quan tâm so với mục đích Tri thức mà tanói ở đây là các tri thức rút ra từ các CSDL, thường để phục vụ cho việc giải quyếtmột loạt nhiệm vụ nhất định trong một lĩnh vực nhất định Do đó, quá trình phát hiệntri thức cũng mang tính chất hướng nhiệm vụ, không phải là phát hiện mọi tri thức bất
kỳ mà là phát hiện tri thức nhằm giải quyết tốt nhiệm vụ đề ra Vì vậy, quá trình pháthiện tri thức là một quá trình hoạt động tương tác giữa con người (người sử dụng hoặcchuyên gia phân tích) với các công cụ tin học để thực hiện các bước cơ bản sau:
Tìm một cách hiểu (bằng ngôn ngữ tin học) lĩnh vực ứng dụng và nhiệm
vụ đặt ra, xác định các tri thức đã có và các mục tiêu của người sử dụng
Tạo một tập dữ liệu đích bằng cách chọn từ CSDL một tập dữ liệu vớicác giá trị biến và các mẫu được quan tâm, trên đó ta thực hiện quá trìnhphát hiện tri thức
Đánh giá, giải thích, thử lại các mẫu hình đã được khai phá, có thể lặp lạimột hoặc nhiều bước kể trên
Củng cố, tinh chế các tri thức đã được phát hiện Kết hợp các tri thứcthành hệ thống Giải quyết các xung đột tiềm tàng trong tri thức khaithác được Sau đó, tri thức được chuẩn bị sẵn sàng cho ứng dụng
Nếu phát hiện tri thức là toàn bộ quá trình chiết xuất tri thức từ các CSDL thìkhai phá dữ liệu là giai đoạn chủ yếu của quá trình đó Như trên đã trình bày, trong quátrình phát hiện tri thức, khâu khai phá dữ liệu được thực hiện sau các khâu tinh lọc vàtiền xử lý dữ liệu, tức là việc khai phá để tìm ra các mẫu hình có ý nghĩa được tiếnhành trên tập dữ liệu có hy vọng là sẽ thích hợp với nhiệm vụ khai phá đó chứ khôngphải là khai phá hết dữ liệu với một thời gian đủ dài để lấy được một mẫu không thực
sự có ích như khái niệm trong thống kê trước đây
Trang 81.3 Qui trình khai phá tri thức
Bắt đầu của quá trình là kho dữ liệu thô và kết thúc với tri thức được chiết xuất
ra Về lý thuyết thì có vẽ rất đơn giản nhưng thực sự đây là một quá trình rất khó khăngặp phải rất nhiều vướng mắc như: quản lý các tập dữ liệu, phải lặp đi lặp lại toàn bộquá trình,.v.v
Qui trình khai phá tri thức được mô tả tóm tắt trên Hình 2:
Hình 2 Quy trình khai phá tri thức
Bước thứ nhất là tìm hiểu lĩnh vực ứng dụng và hình thành bài toán, bước này sẽquyết định cho việc rút ra được các tri thức hữu ích và cho phép chọn các phương phápkhai phá dữ liệu thích hợp với mục đích ứng dụng và bản chất của dữ liệu
Bước thứ hai là thu thập và xử lý thô, còn được gọi là tiền xử lý dữ liệu nhằmloại bỏ nhiễu, xử lý việc thiếu dữ liệu, biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết,bước này thường chiếm nhiều thời gian nhất trong toàn bộ qui trình khai phá tri thức
Bước thứ ba là khai phá dữ liệu, hay nói cách khác là trích ra các mẫu hoặc/vàcác mô hình ẩn dưới các dữ liệu
Bước thứ tư là hiểu tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả và dựđoán Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được lấytrung bình trên tất cả các lần thực hiện
Trang 9Hình 3: Tiến trình KDD (Knowledge discovery in databases) tiêu biểu
1.4 Quá trình khai phá tri thức từ dữ liệu
Quá trình khai phá tri thức từ dữ liệu bao gồm một số bước từ các bộ dữ liệu đếntri thức mới
• Làm sạch dữ liệu (Data cleaning) và tích hợp dữ liệu (Data integration): giaiđoạn này là tạo ra nguồn dữ liệu cho việc khai phá tri thức Dữ liệu được làmsạch từ các nguồn khác và và tích hợp với nhau
• Lựa chọn dữ liệu (Data selection): dữ liệu không liên quan được phân tích đểquyết định giữ lại hay loại bỏ khỏi tập dữ liệu Giai đoạn này thực hiện việc lựachọn các trường của mỗi mẫu dữ liệu để thực hiện khai phá tri thức thu được kếtquả cao
• Biến đổi dữ liệu (Data transformation): dữ liệu được lựa chọn được biến đổivào các mẫu thích hợp cho quá trình khai phá
• Khai phá dữ liệu (Data mining): giai đoạn quyết định của quá trình khai phátri thức từ dữ liệu Các kỹ thuật được sử dụng trong giai đoạn này nhằm lấy racác mẫu hữu ích tiềm ẩn
• Đánh giá các mẫu (Pattern evaluation): các mẫu biểu diễn tri thức hấp dẫnđược nhận biết dựa trên các độ đo được đưa ra
• Biểu diễn tri thức (Knowledge representation): là giai đoạn cuối của quá trìnhkhai phá tri thức từ dữ liệu, nhằm biểu diễn trực quan tri thức cho người dùng.Bước quan trọng này sử dụng các kỹ thuật trực quan để giúp người sử dụng hiểu
và biểu diễn các kết quả khai phá dữ liệu
KDD là một quá trình lặp Mỗi khi tri thức khai phá được biểu diễn cho ngườidùng, các độ đo đánh giá có thể được nâng cao, khai phá có thể được cải tiến trong
Data mining
Data mining
Operational Database
Operational Database
Sel ect ion Sel ect ion
Sel ect
ion
Sel ect ion
Utilization
Utilization
Eval of interes- tingness
Raw data
Time based selection
Selecte
d usable patter ns
2
Trang 10tương lai, dữ liệu mới có thể được chọn hoặc biến đổi trong tương lai, hoặc các nguồn
dữ liệu mới có thể được tích hợp nhằm thu được các kết quả khác, thích hợp hơn Khaiphá dữ liệu đã được ứng dụng trong nhiều lĩnh vực khoa học khác nhau nhằm khaithác nguồn dữ liệu phong phú được lưu trữ trong các hệ thống thông tin
Tùy theo bản chất của từng lĩnh vực, việc vận dụng khai phá dữ liệu có nhữngcách tiếp cận khác nhau Trong lĩnh vực tài chính ngân hàng, khai phá dữ liệu đã đượcứng dụng để phân tích rủi ro tín dụng, phát hiện gian lận, tiếp thị, quan hệ khách hàng,
dự báo tỷ giá ngoại tệ, quản lý rủi ro tác nghiệp, làm sạch dữ liệu
1.5 Các phương pháp khai phá dữ liệu
Với hai đích chính của khai phá dữ liệu là dự đoán (Prediction) và Mô tả(Description), người ta thường sử dụng các phương pháp sau cho khai phá dữ liệu:
- Phân loại (Classification)
- Hồi qui (Regression)
- Phân nhóm (Clustering)
- Tổng hợp (Summarization)
- Mô hình ràng buộc (Dependency modeling)
- Dò tìm biến đổi và độ lệch (Change and Deviation Dectection)
- Biểu diễn mô hình (Model Representation)
- Kiểm định mô hình (Model Evaluation)
- Phương pháp tìm kiếm (Search Method)
Một quá trình KPDL bao gồm năm giai đoạn chính sau:
(1) Tìm hiểu nghiệp vụ và dữ liệu
(2) Chuẩn bị dữ liệu
(3) Mô hình hóa dữ liệu
(4) Hậu xử lý và đánh giá mô hình
(5) Triển khai tri thức
Quá trình này có thể được lặp lại nhiều lần một hay nhiều giai đoạn dựa trênphản hồi từ kết quả của các giai đoạn sau Tham gia chính trong quá trình khai phá dữliệu là các nhà tư vấn và phát triển chuyên nghiệp trong lĩnh vực khai phá dữ liệu
Trang 11Hình 4 Giao diện trực quan của môi trường KPDL Clementine
1.6 Các lĩnh vực liên quan đến Khai phá tri thức
Khai phá tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực:thống kê, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán học, tính toán song song và tốc độcao, thu thập tri thức cho các hệ chuyên gia, quan sát dữ liệu Đặc biệt khai phá trithức và khai phá dữ liệu rất gần gũi với lĩnh vực thống kê, sử dụng các phương phápthống kê để mô hình dữ liệu và khai phá các mẫu, luật Ngân hàng dữ liệu (DataWarehousing) và các công cụ phân tích trực tuyến (OLAP) cũng liên quan rất chặt chẽvới khai phá tri thức và khai phá dữ liệu
1.7 Các ứng dụng của Khai phá tri thức
Mặc dù còn rất nhiều vấn đề mà khai phá dữ liệu quyết nhưng tiềm năng của nó
đã được khẳng định bằng Khai phá dữ liệu được ứng dụng rất thành công trong “cơ sở
dữ liệu thị trường” (database marketing), đây là một phương pháp phân tích cơ sở dữliệu khách hàng, tìm kiếm,…Tạp chí Business Week của Mỹ đã đánh giá hơn 50% cácnhà bán lẻ đang và có ý định sử dụng “cơ sở dữ liệu thị trường” cho hoạt động kinhdoanh của họ (Berry 1994) Kết quả ứng dụng cho thấy số lượng thẻ tín dụngAmerican Express bán ra đã tăng 15% - 20% (Berry 1994) Các ứng dụng khác củakhai phá dữ liệu trong kinh doanh như phân tích chứng khoán và các văn kiện tàichính; phân tích và báo cáo những thay đổi trong dữ liệu, bao gồm Coverstory của IRI(Schmitz, Armstrong, & Little 1990), Spotlight của A.C Nielsen (nand & Kahn 1992)đối với các dữ liệu bán hàng trong siêu thị, KEFIR của GTE cho cơ sở dữ liệu y tế(Matheus, Piatetsky-Shapiro, & McNeil); phát hiện và phòng chống gian lận cũng
Trang 12thường là bài toán của khai phá dữ liệu và phát hiện tri thức Ví dụ như hệ thống pháthiện gian lận trong dịch vụ y tế đã được Major và Riedinger phát triển tại Travelersinsurance năm 1992 Internal Revenue Service đã phát triển một hệ thống chọn thuếthu để kiểm toán Nestor FDS (Blanchard 1994) được phát triển dựa trên mạng neuron
để phát hiện ra gian lận trong thẻ tín dụng
Vì vậy khám phá tri thức từ cơ sở dữ liệu được ứng dụng rộng rãi trong các lĩnhvực như:
- Thông tin thương mại:
+ Phân tích dữ liệu marketing, khách hàng+ Phân tích đầu tư
+ Phê duyệt cho vay vốn+ Khai phá gian lận
- Thông tin kỹ thuật:
+ Điều khiển và lập lịch trình+ Quản trị mạng
+ Phân tích các kết quả thí nghiệm
- Thông tin khoa học
- Thông tin cá nhân
1.8 Các thách thức với Khai phá tri thức và khai phá dữ liệu
- Các cơ sở dữ liệu lớn
- Số chiều lớn
- Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã khai phá không còn phùhợp
- Dữ liệu bị thiếu hoặc nhiễu
- Quan hệ giữa các trường phức tạp
- Giao tiếp với người sử dụng và kết hợp với các tri thức đã có
- Tích hợp với các hệ thống khác
Trang 13Chương 2 Các ứng dụng thực tế áp dụng kỹ thuật
khai phá tri thức 2.1 Ứng dụng hệ thống mờ dùng trong khai phá dữ liệu điều trị bệnh sốt
- IF sốt nhẹ THEN liều lượng asperine thấp
- IF sốt THEN liều lượng asperine bình thường
- IF sốt cao THEN liều lượng asperine cao
- IF sốt rất cao THEN liều lượng asperine cao nhất
Hình 5 Lược đồ nhiệt độ và liều lượng asperine
Ví dụ: Một bệnh nhân sốt ở 38.7 độ Hãy xác định liều lượng asperince cần thiết
Bước 2: Ta thấy có 2 luật 1 và 2 có thể áp dụng cho ra hai liều lượng
Trang 14mThấp (x) = 0.3mBình thường (x) = 0.7 Kết hợp các giá trị mờ này lại ta được vùng được tô màu sau đây:
T
BT 0.3
0.7
mg
Hình 7 Lược đồ liều lượng asperine thực tế
Bước 3: Phi mờ hóa kết quả bằng cách tính trọng tâm của diện tích được tô
trong hình trên:
Chiếu xuống trục hoành ta được giá trị ±480mg
- Kết luận: liều lượng aspirine cần cấp cho bệnh nhân là 480mg.
2.2 Ứng dụng kỹ thuật mạng Neuron để giải quyết vấn đề học tiếng Anh trong mạng NetTalk.
Mạng NETtalk là một ví dụ hay cho việc sử dụng giải pháp mạng neuron để giảiquyết một vấn đề học khó NETtalk học để đọc được văn bản tiếng Anh Đây là mộtnhiệm vụ khó khăn đối với tiếp cận học dựa trên ký hiệu, vì phát âm trong tiếng Anhmang tính bất quy tắc Mặc dù có các chương trình dựa trên luật (rule-based) đã đượcviết để giải quyết vấn đề này, nhưng chúng đều phức tạp và thực hiện chưa hoàn hảo NETtalk học để đọc một chuỗi văn bản và trả về một âm vị cùng với trọng âmliên hệ cho mỗi chữ cái trong chuỗi Vì phát âm của một chữ cái đơn nhất phụ thuộcvào các chữ cái xung quanh nó, người ta đưa vào NETtalk một cửa sổ gồm 7 ký tự.Khi văn bản dịch chuyển qua cửa sổ này, NETtalk trả về một cặp âm vị/trọng âm chomỗi chữ cái
Hình 8 minh họa kiến trúc của mạng NETtalk Mạng gồm có 3 tầng neuron.Các neuron đầu vào tương ứng với cửa sổ 7 ký tự của văn bản Mỗi vị trí trong cửa
sổ được biểu diễn bởi 29 neuron đầu vào, 26 neurons cho 26 ký tự alphabet, và 3neurons cho dấu và khoảng trắng Ký tự ở mỗi ví trí trong cửa sổ sẽ kích hoạtneuron tương ứng Các neuron đầu ra mã hóa âm sử dụng 21 đặc điểm khác nhau
Trang 15Hình 8 Hình thái mạng của NETtalk
Kết quả của NETtalk là có thể phát âm đúng 60% sau khi rèn luyện với một tập
dữ liệu rèn luyện gồm 500 ví dụ và lặp lại 100 lượt
Ngoài kết quả đạt được trên, NETtalk còn cho thấy một số tính chất đáng chú ýcủa mạng neuron, có nhiều tính chất trong số đó phản ánh bản chất tự nhiên của việchọc ở người Chẳng hạn như, việc học, khi được đo bằng phần trăm câu trả lời đúng,
sẽ tiến triển nhanh lúc đầu, sau đó chậm dần khi tỉ lệ đúng tăng lên Và cũng như conngười, khi neuron càng học phát âm được nhiều từ, thì nó càng phát âm đúng các từmới nhiều hơn
2.3 Ứng dụng trong bài toán dự báo từ thông tin kinh tế - xã hội
Trong ứng dụng, nhóm sẽ lấy một bài toán dự báo về dân số thế giới đến năm
2015 dựa trên những số liệu thống kê dân số thế giới từ năm 1950 - 2002 bằng phươngpháp hồi quy (Regression) Mặc dù số lượng các dữ liệu không lớn như trong các dữliệu kinh tế - xã hội khác, nhưng bài toán này cũng cho ta thấy các mô hình phân tíchkhác nhau và các kết quả khác nhau khi khai phá những dữ liệu đó Để đơn giản, takhông đề cập đến bước thu thập và tiền xử lý dữ liệu, các dữ liệu tại bảng dưới đượccoi là hoàn thiện trong bài toán này Mặt khác, các dữ liệu thực tế được tính vào giữacác năm do vậy các dữ liệu dân số ta tính toán cũng được hiểu ngầm định là vào giữanăm
Sau khi thực hiện khai phá dữ liệu dân số bằng phương pháp hồi qui đơn với bốn
mô hình khác nhau: Linear (hàm tuyến tính), Logarit (hàm lôgarit tự nhiên),Polynomial (hàm đa thức - trong ví dụ này ta chọn đa thức bậc 2), Exponential (hàmmũ), ta xác định được kết quả (Xem bảng 2, 3, hình 2, 3, 4, 5)