Tìm hiểu và xây dựng hệ hỗ trợ quyết định dựa trên hệ thống thông tin địa lý (GIS)

Chương 2: Các mô hình hệ hỗ trợ quyết định và các phương pháp khai phá dữ liệu, chương này trình bày kiến thức liên quan đến các mô hình của DSS trong thực tiễn, chi tiết các phương pháp

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

ĐÀO XUÂN DŨNG

TÌM HIỂU VÀ XÂY DỰNG

HỆ HỖ TRỢ QUYẾT ĐỊNH DỰA TRÊN

HỆ THỐNG THÔNG TIN ĐỊA LÝ (GIS)

LUẬN VĂN THẠC SĨ

Hà Nội - 2010

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

ĐÀO XUÂN DŨNG

TÌM HIỂU VÀ XÂY DỰNG

HỆ HỖ TRỢ QUYẾT ĐỊNH DỰA TRÊN

HỆ THỐNG THÔNG TIN ĐỊA LÝ (GIS)

Ngành: Công nghệ thông tin

Chuyên ngành: Các Hệ thống thông tin

Mã số: 60 48 05

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Hà Nam

Hà Nội - 2010

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan bản luận văn “Tìm hiểu và xây dựng hệ hỗ trợ quyết định dựatrên hệ thống thông tin địa lý (GIS)" là công trình nghiên cứu và thử nghiệm của tôi,tại đơn vị công tác, tham khảo các nguồn tài liệu đã được chỉ rõ trong trích dẫn vàdanh mục tài liệu tham khảo Các nội dung công bố và kết quả trình bày trong luận vănnày là trung thực và chưa từng được ai công bố trong bất cứ công trình nào

Hà nội, ngày 25 tháng 8 năm 2010

Học viên

Đào Xuân Dũng

Trang 4

LỜI CẢM ƠN

Em xin chân thành cảm ơn tới TS Nguyễn Hà Nam, thày đã tận tình hướng dẫn,chỉ dạy em hoàn thành luận văn này Em xin chân thành cảm ơn các thày, cô giáo khoaCông nghệ thông tin - Trường Đại học công nghệ - Đại học Quốc gia Hà nội đã truyềnthụ kiến thức cho em trong suốt quá trình học tập vừa qua

Tôi cũng xin cảm ơn cơ quan, bạn bè đồng nghiệp, gia đình và những người thân

đã cùng chia sẻ, giúp đỡ, động viên, tạo mọi điều kiện thuận lợi để tôi hoàn thànhnhiệm vụ học tập và cuốn luận văn này

Trang 5

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỤC LỤC

BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT

MỞ ĐẦU

CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN

1 Giới thiệu chung về hệ hỗ trợ quyết định

2 Nhu cầu cần thiết từ thực tiễn

3 Các hướng giải quyết hiện có

4 Cấu trúc và đóng góp của luận văn

CHƯƠNG 2: CÁC MÔ HÌNH HỆ HỖ TRỢ QUYẾT ĐỊNH

VÀ CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU

1 Các mô hình của DSS

1.1 Mô hình hòa bằng bảng tính .

1.2 Mô hình hóa bằng phân tích quyết định .

1.3 Mô hình hóa bằng quy hoạch toán .

1.4 Mô hình hóa bằng Heuristic .

1.5 Mô phỏng .

1.6 Mô hình hóa đa chiều, xử lý và phân tích trực tuyến (OLAP) 1.7 Mô hình hóa và mô phỏng tương tác trực quan 1.8 Các bộ phần mềm định lượng và xử lý phân tích trực tuyến 1.9 Hệ quản trị cơ sở mô hình .

2 Hệ hỗ trợ quyết định không gian (SDSS)

3 Khai phá dữ liệu

3.1 Tổng quan .

3.2 Các kỹ thuật và cách tiếp cận khai phá dữ liệu 3 4 Các kỹ thuật phân lớp dữ liệu

Trang 6

4.1.1 Độ lợi thơng tin .

4.1.2 Giải thuật random forest (RF) [18] .

4.2 Phân lớp bằng phương pháp mạng nơ ron nhân tạo 4.2.1 Khái niệm cơ bản .

4.2.2 Mơ hình mạng nơ-ron nhân tạo .

4.2.3 Khả năng ứng dụng của mạng nơ-ron nhân tạo .

4.2.4 Thuật tốn lan truyền ngược sai số .

4.3 Phân lớp bằng phương pháp Nạve Bayes 4.4 Phân lớp bằng các phương pháp khác (luật kết hợp, khoảng cách ) 4.5 Dự báo và phân lớp .

5 Đánh giá các phương pháp phân lớp

CHƯƠNG 3: GIỚI THIỆU VỀ HỆ DSS-GIS

ÁP DỤNG VÀO VIỆC DỰ BÁO LƯU LƯỢNG NƯỚC

1 Điều kiện địa lý, tự nhiên, khí tượng thuỷ văn lưu vực sơng Đà

1.1 Vị trí địa lý .

1.2 Địa hình .

1.3 Điều kiện địa chất .

1.4 Điều kiện thổ nhưỡng .

1.5 Đặc điểm khí hậu .

1.6 Đặc điểm chế độ thuỷ văn .

1.7 Thống kê dữ liệu thu thập được .

2 Hướng tiếp cận máy học trong việc xây dựng mơ hình hệ DSS

3 Một số chỉ tiêu đánh giá kết quả dự báo

4 Áp dụng vào xây dựng một hệ hỗ trợ quyết định dựa trên nền GIS

4.1 Cơ sở dữ liệu địa lý .

4.2 Mơ hình học máy sử dụng giải thuật Random Forest 4.3 Giao diện người dùng .

CHƯƠNG 4: XÂY DỰNG CHƯƠNG TRÌNH CHẠY THỬ NGHIỆM

1 Yêu cầu phần cứng

2 Tiền xử lý dữ liệu và huấn luyện mơ hình dữ liệu

4

Trang 7

3 Kết quả thực nghiệm 52

KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO 63

TÀI LIỆU THAM KHẢO 64

Trang 9

MỞ ĐẦU

GIS là công cụ dựa trên máy tính dùng cho việc thành lập bản đồ và phân tíchcác đối tượng tồn tại và các sự kiện bao gồm đất đai, sông ngòi, khoáng sản, conngười, khí tượng thuỷ văn, môi trường, nông nghiệp v.v xảy ra trên trái đất Côngnghệ GIS dựa trên các cơ sở dữ liệu quan trắc, viễn thám đưa ra các câu hỏi truy vấn,phân tích thống kê được thể hiện qua phép phân tích địa lý Những sản phẩm của GISđược tạo ra một cách nhanh chóng, nhiều tình huống có thể được đánh giá một cáchđồng thời và chi tiết

Hiện nay nhu cầu ứng dụng công nghệ GIS trong lĩnh vực điều tra nghiên cứu,khai thác sử dụng, quản lý tài nguyên thiên nhiên và môi trường ngày càng gia tăngkhông những trong phạm vi quốc gia, mà cả phạm vi quốc tế Tiềm năng kỹ thuật của

nó trong lĩnh vực ứng dụng có thể chỉ ra cho các nhà khoa học và các nhà hoạch địnhchính sách, các phương án lựa chọn có tính chiến lược về sử dụng và quản lý tàinguyên thiên nhiên và môi trường

Việc quản lý hỗtrơ ̣khai thác , sử dung ̣ vàquản lý tổng hợp hiệu quả các nguồntài nguyên thiên nhiên dựa trên nền GIS là rất cần thiết Hệ hỗ trợ quyết định kết hợpvới công nghệ GIS là một xu thế tất yếu nhằm phát triển một hệ thống có những tínhnăng mô phỏng các đối tượng trên thế giới thực, truyền đạt và hỗ trợ, cung cấp thôngtin tốt nhất cho những người sử dụng nói chung cũng như những nhà hoạch định chínhsách nói riêng Mô hình học máy được sử dụng trong hệ thống nhằm tăng khả năngkhai thác thông tin, cung cấp những thông tin có ích hơn cho người sử dụng Đề tài về

hệ hỗ trợ quyết định dựa trên nền GIS tìm hiểu các vấn đề đã đưa ra ở trên và mạnhdạn xây dựng một phần mềm thử nghiệm áp dụng vào trong dự báo lưu lượng nước tạicác lưu vực sông

Trang 10

CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN

1. Giới thiệu chung về hệ hỗ trợ quyết định

Ta biết rằng hệ hỗ trợ quyết định (DSS) là một lớp xác định của các hệ thốngthông tin được máy tính hóa, nó trợ giúp các tổ chức và các nhà doanh nghiệp trongviệc đưa ra các quyết định hành động Một hệ DSS được thiết kế hoàn chỉnh là một hệthống dựa trên phần mềm tương tác với mục đích trợ giúp nhà đưa ra quyết định biêndịch thông tin có ích từ dữ liệu, tư liệu thô, tri thức cá nhân hoặc những mô hình doanhnghiệp để giải quyết vấn đề và đưa ra những quyết định Một trong các phương pháptạo ra các chương trình máy tính dựa trên phân tích các tập dự liệu thô đưa ra cácthông tin có ích là máy học Bài viết này với mục đích sử dụng phương pháp máy học,

cụ thể là giải thuật Random Forest (Breiman, 2001) để xây dựng một hệ hỗ trợ quyếtđịnh hỗ trợ quản lý tổng hợp tài nguyên nước lưu vực sông Hệ thống được tích hợptrên nền hệ thống thông tin địa lý (GIS) để trở thành một hệ hỗ trợ hoàn chỉnh

2. Nhu cầu cần thiết từ thực tiễn

Trong thực tế, ra quyết định luôn đòi hỏi yêu cầu phải xử lý kiến thức, kiến thức lànguyên liệu và thành phẩm của ra quyết định, cần được sở hữu hoặc tích lũy bởi người

ra quyết định Ngoài ra, việc giới hạn về nhận thức do trí nhớ con người có hạn, giớihạn về chi phí nhân lực, thời gian và áp lực cạnh tranh là những yếu tố mà dẫn đến cầnthiết phải có hệ hỗ trợ quyết định tin cậy trợ giúp nhà quản lý, nhà ra quyết định

Vào thập kỷ 80, 90 của thế kỷ XX, điều tra các công ty lớn cho thấy:

- Kinh tế thiếu ổn định

- Khó theo dõi vận hành của doanh nghiệp

- Cạnh tranh gay gắt

- Xuất hiện thương mại điện tử

- Bộ phận IT quá bận, không giải quyết được các yêu cầu về quản lý

- Cần phân tích lợi nhuận, hiệu quả và thông tin chính xác, mới, kịp thời

- Giảm chi phí hoạt động

Xu hướng tính toán của người dùng hiện nay:

- Cải thiện tốc độ tính toán

- Tăng năng suất lao động của cá nhân liên đới

- Cải tiến kỹ thuật trong việc lưu trữ, tìm kiếm, trao đổi dữ liệu trong và ngoài tổ chức theo hướng nhanh và kinh tế

- Nâng cao chất lượng của các quyết định đưa ra

- Tăng cường năng lực cạnh tranh của tổ chức

- Khắc phục khả năng hạn chế của con người trong việc xử lý và lưu trữ thông tin Theo (Keen – 1981 [16]), thì thuận lợi của hệ DSS là:

- Tăng số phương án xem xét: Phân tích độ nhạy nhanh và hiệu quả hơn

Trang 11

- Hiểu nghiệp vụ tốt hơn: Thấy được các quan hệ nghiệp vụ của toàn hệ thống

- Đáp ứng nhanh trước các tình huống không mong đợi: Dễ xem xét các thay đổi

- Tinh thần đồng đội tốt hơn

- Tiết kiệm thời gian

- Dùng các nguồn dữ liệu tốt hơn

Các hỗ trợ của hệ DSS bao gồm:

DSS cung cấp

Thông tin trạng thái và dữ liệu thô

Khả năng phân tích tổng quát

Mô hình biểu diễn (cân đối tài chính), mô

hình nhân quả (dự báo, chẩn đoán)

Đề nghị giải pháp, đánh giá

Chọn lựa giải pháp

3. Các hướng giải quyết hiện có

Theo [7][8][12][13][14], kiến trúc của DSS gồm 3 thành phần cơ bản bao gồm:

- Cơ sở dữ liệu (hoặc cơ sở tri thức)

- Các vấn đề chính: nhận diện bài toán và phân tích môi trường, nhận diện biến

số, dự báo, đa mô hình, các phạm trù mô hình, quản lý mô hình và mô hình hóadựa vào kiến thức

- Mô hình hóa là tác vụ không đơn giản Người xây dựng mô hình phải cân bằnggiữa tính đơn giản của mô hình với các yêu cầu biểu diễn để mô hình có thểnắm bắt đủ thực tại cần thiết cho người ra quyết định

- Mô phỏng là kỹ thuật mô hình hóa thông dụng; dùng để tìm hiểu vấn đề tuykhông nhất thiết phải tìm ra được các giải pháp biến thể; mở rộng quá trình ra

Trang 12

quyết định của tổ chức và cho phép tổ chức xem xét tác động, ảnh hưởng của các chọn lựa tương lai.

- Mô phỏng tiết kiệm rất nhiều chi phí và thời gian – rất dễ thay đổi mô hình hoạtđộng của một hệ thống vật lý bằng mô hình hóa máy tính

- Mô hình có thể được phát triển và cài đặt bằng một số các ngôn ngữ lập trình và

o Giả định có được tính ổn định của dữ liệu

o Mô phỏng quá trình dạng tĩnh - làm việc trên các trạng thái ổn định để tìm ra các thông số tối ưu – thường được dùng như công cụ chủ yếu để thiết kế quá trình

o Ví dụ: Quyết định sản xuất/mua 1 sản phẩm; báo cáo thu nhập hàng quý/năm

- Mô hình động: Biểu diễn các kịch bản thay đổi theo thời gian

o Phụ thuộc thời gian; các trạng thái thay đổi theo thời gian

Trang 13

o Thường dùng để tạo sinh và biểu diễn các xu hướng và khuôn mẫu theo thời gian

o Mô phỏng động: Thể hiện các diễn tiến khi các điều kiện theo thời giankhác với các trạng thái ổn định – thường được dùng để thiết kế việc kiểmsoát các hệ thống

o Ví dụ: Dự báo lưu lượng nước của trạm thủy văn Hòa Bình trong thờigian 1 năm tới với các đầu vào là dữ liệu lưu lượng nước thay đổi theotừng năm

Vấn đề bất định, rủi ro và chắc chắn

- Mô hình chắc chắn: Tương đối dễ phát triển, giải quyết và có thể sinh ra các giải pháp tối ưu

- Các bài toán có một số lớn/vô hạn các giải pháp khả thi đặc biệt quan trọng

- Các mô hình tài chính được xây dựng trong điều kiện chắc chắn

- Mô hình bất định: Bằng cách thu thập thêm thông tin, cố gắng đưa bài toán trở

về dạng chắc chắn hay dạng rủi ro

- Mô hình rủi ro: Các quyết định kinh doanh được đưa ra dưới các rủi ro giả định

- Đôi khi biết được xác suất của các sự kiện xảy ra trong tương lai

- Các trường hợp khác (bất định): Ước lượng các rủi ro và giả sử các tình huống rủi ro xảy ra

Các mô hình hiện có trong thực tiễn:

- Mô hình hóa bằng bảng tính

- Mô hình hóa bằng phân tích quyết định

- Mô hình hóa bằng quy hoạch toán

- Mô hình hóa bằng Heuristic

- Mô hình hóa đa chiều, xử lý phân tích trực tuyến (OLAP)

- Mô hình hóa và mô phỏng tương tác trực quan

- Các bộ phần mềm định lượng và xử lý phân tích trực tuyến

- Hệ quản trị cơ sở mô hình

Các mô hình sẽ được trình bày chi tiết trong chương 2

4. Cấu trúc và đóng góp của luận văn

Khai phá dữ liệu là một trong những lĩnh vực nghiên cứu của khoa học máy tính

hiện nay đang được phát triển rất mạnh mẽ Nó kết hợp giữa học máy, công nghệ cơ sở

dữ liệu và một số chuyên ngành khác để tìm ra những tri thức, bao gồm cả các thôngtin dự báo, từ những cơ sở dữ liệu lớn

Trang 14

Luận văn này tập trung tìm hiểu về hệ hỗ trợ quyết định Trong đó mô hình của

hệ hỗ trợ quyết định (là 1 thành phần chủ chốt trong 3 thành phần của DSS) dựa trênmột số phương pháp học máy tiên tiến như mạng nơ ron nhân tạo (ANN), cây quyếtđịnh, random forest và ứng dụng phương pháp máy học vào việc xây dựng mô hình dữliệu cho hệ hỗ trợ quyết định Nền GIS được sử dụng để mô phỏng giao diện tương tácvới người sử dụng Cơ sở dữ liệu không gian lưu trữ vị trí địa lý các trạm thủy văn, cácđối tượng địa lý như sông ngòi, lớp bản đồ nền Ngoài ra, dữ liệu đầu vào là bộ số liệulưu lượng nước được đo đạc hàng năm, được tiền xử lý rời rạc hóa để đưa vào xâydựng mô hình dữ liệu Đầu ra của ứng dụng là dự báo lưu lượng nước có thể lên đến 1tháng Luận văn đã hoàn thành phần mềm thử nghiệm và tiến hành thực nghiệm trên

bộ dữ liệu được thu thập tin cậy thông qua hệ thống đo đạc thủy văn tại trạm Hòa Bình

- sông Đà, nguồn nước chính tại hồ Hòa Bình

Nội dung chính của luận văn được tổ chức thành 4 chương có nội dung được mô

tả như dưới đây:

Chương 1: Giới thiệu tổng quan về bài toán, chương này giới thiệu tóm tắt về

DSS, các thành phần của DSS, nhu cầu hiện có và hướng giải quyết thực tiễn

Chương 2: Các mô hình hệ hỗ trợ quyết định và các phương pháp khai phá

dữ liệu, chương này trình bày kiến thức liên quan đến các mô hình của DSS trong thực tiễn, chi tiết các phương pháp Data mining về một số mô hình phân lớp, hồi quy Chương 3: Giới thiệu về hệ DSS-GIS áp dụng vào việc dự báo lưu lượng nước, chương này trình bày về DSS được xây dựng trên nền GIS, trình bày về cách

xây dựng mô hình dữ liệu cho DSS sử dụng giải thuật random forest áp dụng vào việc

dự báo lưu lượng nước tại trạm thủy văn Hòa Bình dựa trên số liệu thu thập đo đạc lưulượng qua các năm

Chương 4: Xây dựng chương trình chạy thử nghiệm, chương này nhằm mô tả

và đánh giá về chương trình đã xây dựng, kết quả thực nghiệm với bộ số liệu đo đạc tạitrạm Hòa Bình Từ đó đánh giá dựa trên việc thực hiện so sánh bộ số liệu dự báo với

bộ số liệu trong thực tế

Phần kết luận tổng kết những kết quả đã đạt được của luận văn và hướng phát

triển nghiên cứu tiếp theo

Trang 15

CHƯƠNG 2: CÁC MÔ HÌNH HỆ HỖ TRỢ QUYẾT ĐỊNH

VÀ CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU

- Là công cụ mô hình hóa thông dụng nhất của người dùng cuối cùng

- Có các chức năng về phân tích “what-if”, dò tìm mục tiêu, quản lý dữ liệu và lập trình (dạng macro)

- Có khả năng đọc, ghi các cấu trúc tập tin thông dụng để giao tiếp được với các CSDL và công cụ khác

- Có thể xây dựng mô hình tĩnh và động

- Dùng trên máy tính cá nhân và máy tính lớn

- Cơ sở để xây dựng các bảng tính đa chiều và các công cụ xử lý phân tích trực tuyến (OLAP)

Mô hình hóa bằng phân tích quyết định

- Tiếp cận mô hình hóa các tình huống quyết định có một số hữu hạn/không quánhiều các phương án – mỗi phương án được trình ra, dưới dạng bảng hay đồ thị-các kết quả tương ứng (dự báo được kèm xác suất) theo mục tiêu bài toán – từ

đó chọn phương án tốt nhất

- Đơn mục tiêu: bảng quyết định hay cây quyết định

- Đa mục tiêu: AHP (analytic hierarchy process)

Mô hình hóa bằng quy hoạch toán

- Quy hoạch toán học (mathematical programming) là họ các công cụ giải quyếtcác bài toán quản lý theo đó người ra quyết định phải cấp phát các tài nguyênkhan hiếm cho các hoạt động cạnh tranh nhau (các phương án) nhằm tối ưu hóamục tiêu có khả năng đo lường được

- Các mô hình quy hoạch tuyến tính (linear programming) thông dụng nhất trongquy hoạch toán; có nhiều ứng dụng trong thực tế; được dùng nhiều trong các hệ

hỗ trợ quyết định

- Bài toán quy hoạch tuyến tính:

- Các biến quyết định (cần tìm giá trị)

- Hàm mục tiêu (hàm toán học dạng tuyến tính xác định quan hệ giữa biến quyết định và mục tiêu; đo lường mức độ đạt đạt mục tiêu và cần được tối ưu hóa)

Trang 16

- Các hệ số của hàm mục tiêu (cho biết mức đóng góp vào mục tiêu của 1 đơn vị biến quyết định)

- Ràng buộc (biểu thức tuyến tính cho biết giới hạn tài nguyên và/hay các quan hệgiữa các biến số)

- Dung lượng (mô tả cận trên và dưới của các biến và ràng buộc)

- Hệ số (công nghệ) vào-ra (cho biết mức độ sử dụng tài nguyên của biến quyết định)

Đặc điểm của bài toán quy hoạch tuyến tính:

- Tài nguyên kinh tế của bài toán là có hạn và sẵn sàng

- Có nhiều cách (>2 cách) sử dụng tài nguyên được gọi là giải pháp hay chương trình

- Mỗi hoạt động dùng tài nguyên đều sinh ra kết quả dưới dạng mục tiêu đã phát biểu trước

- Việc cấp phát nằm trong các ràng buộc cho trước

Giả định của bài toán quy hoạch tuyến tính:

- Các kết quả của các cấp phát có thểđem so sánh với nhau, có thể đo lường bằng một đơn vị chung

- Các cấp phát độc lập với nhau về mặt kết quả

- Kết quả cuối cùng là tổng của các kết quả từ các hoạt động riêng rẽ khác nhau

- Dữ liệu có tính chắc chắn

- Tài nguyên được dùng một cách kinh tế nhất

- Thường có một số lớn các giải pháp với kết quả khác nhau

- Trong số các giải pháp có thể, có 1 giải pháp tốt nhất –mức độ đạt được mục tiêu cao nhất – gọi là giải pháp tối ưu được tìm ra bằng một giải thuật đặc biệt

Mô hình hóa bằng Heuristic

- Việc tìm giải pháp tối ưu của một số bài toán quyết định phức tạp có thể tốn nhiều thời gian, chi phí hay không thể tìm ra được Còn nếu dùng tiếp cận mô phỏng cũng có thể kéo dài, phức tạp, không thích hợp hay thậm chí không

chính xác

- Là một tiếp cận giúp tìm ra các giải pháp khả thi/thỏa mãn/đủ tốt cho các bàitoán phức tạp Có thể có giải pháp đủ tốt (90-99.9% giá trị của lời giải tối ưu)nhanh chóng và đỡ tốn kém hơn bằng cách dùng heuristics

- Quá trình heuristic là dãy các bước xây dựng các quy luật giải quyết vấn đềthông qua việc tìm kiếm các con đường hứa hẹn nhất dẫn đến lời giải; tìm kiếmcách thức thu thập và phân giải thông tin theo quá trình giải và phát triền cácphương pháp dẫn đến một giải thuật tính toán hay một lời giải tổng quát đã có

- Áp dụng chủ yếu cho bài toán cấu trúc yếu; cũng dùng để tìm ra giải pháp chấp

Trang 17

nhận được cho bài toán cấu trúc chặt

- Không đủ tổng quát như các giải thuật; thường chỉ dùng cho tình huống đặc thùđang xét

- Có thể dẫn đến một giải pháp dở - các thủ tục từng bước giải quyết vấn đề không đảm bảo tìm ra giải pháp tối ưu

- Heuristic có thể là định lượng vì vậy có thể đóng vai trò quan trọng trong cơ sở

mô hình của hệ hỗ trợ quyết định

- Heuristic có thể là định tính vì vậy có thể đóng vai trò quan trọng trong cung ứng kiến thức cho hệ chuyên gia

- Quá trình heuristic liên quan đến tìm kiếm, học tập, ước lượng, phân xử và lặp lại các hoạt động này dọc theo tiến trình

- Kiến thức thu được dù thành công hay thất bại trong quá trình đều được phảnhồi và sửa đổi chính quá trình, nhờđó có thểđịnh nghĩa lại mục tiêu hay bài toán

Tìm kiếm Tabu (Glover & Laguna, 1997, Sun et al., 1998) đặt cơ sở trên các

chiến lược tìm kiếm thông minh nhằm rút ngắn việc dò tìm: “ghi nhớ” các giảipháp tốt và xấu đã tìm được và hướng dần đến các giải pháp tốt

Giải thuật di truyền: bắt đầu bằng tập các giải pháp được sinh ngẫu nhiên, tái

kết hợp các cặp giải pháp một cách ngẫu nhiên

Tình huống nên dùng heuristics

- Dữ liệu đầu vào không chính xác hay có giới hạn

- Thực tế quá phức tạp đến nỗi không dùng được các mô hình tối ưu

- Chưa có được giải thuật chính xác và đủ tin cậy

- Bài toán phức tạp nên sẽ không kinh tế nếu dùng tối ưu hay mô phỏng hoặc tốn quá nhiều thời gian tính toán

- Có thể cải thiện tính hiệu quả của quá trình tối ưu (tức có thể sinh ra các giải pháp ban đầu tương đối tốt)

- Liên quan đến xử lý ký hiệu chứ không phải xử lý ký số (như hệ chuyên gia)

- Cần có quyết định nhanh và các xử lý dựa vào máy tính đều không khả thi (một

số heuristic không cần đến máy tính)

Thuận lợi:

- Dễ hiểu, dễ giải thích và dễ cài đặt

- Nâng cao tính sáng tạo và năng lực heuristic cho các vấn đề khác

- Tiết kiệm thời gian xác lập vấn đề

- Tiết kiệm yêu cầu về bộ chứa và xử lý máy tính

- Tiết kiệm thời gian tính toán và do vậy tiết kiệm thời gian thực trong ra quyết định Một số vấn đề phức tạp đến nỗi chỉ có thể giải được bằng heuristics

- Thường sinh ra nhiều giải pháp chấp nhận được

- Thường có thể phát biểu lý thuyết hay đo lường thực nghiệm về chất lượng củagiải pháp (tức giá trị mục tiêu của giải pháp gần với giá trịtồi ưu đến mức nào,

Trang 18

dù giá trịtối ưu chưa biết được)

- Có thể kết hợp tính thông minh vào để hướng dẫn phép tìm kiếm (tìm kiếmtabu) Năng lực thông minh đó có thể là đặc thù theo bài toán hoặc dựa trên ýkiến chuyên gia được cấy trong hệ chuyên gia hoặc cơ chế tìm kiếm

- Có thể dùng heuristic hiệu quả vào các mô hình có thể giải bằng quy hoạch toánhọc Đôi khi heuristic là phương pháp được ưa thích hơn, khi khác giải phápheuristics được dùng như giải pháp ban đầu cho các phương pháp quy hoạchtoán học

Hạn chế:

- Không đảm bảo có được giải pháp tối ưu

- Các quy luật có rất nhiều ngoại lệ

- Các lựa chọn quyết định tuần tự có thể không tiên đoán được các kết cục tương lai của mỗi chọn lựa

- Sự liên thuộc giữa các phần trong hệ thống đôi khi có thể gây ra các ảnh hưởng lớn lao lên toàn hệ thống

Phân loại các giải thuật heuristic:

- Heuristic xây dựng: xây dựng giải pháp khả thi bằng cách cộng thêm từng thành

phần một Ví dụ: bài toán người bán hàng – luôn ghé thành phố chưa viếng

thăm kếtiếp gần nhất

- Heuristic cải tiến: bắt đầu bằng một giải pháp khả thi và cố gắng cải tiến liên

tục trên đó Ví dụ trên, thử hoán đổi 2 thành phố

- Quy hoạch toán: áp dụng vào các mô hình chứa ít ràng buộc nhằm có đượcthông tin về thỏa hiệp tốt nhất với mô hình nguyên gốc Thường được dùngtrong tối ưu hóa nguyên (integer optimization)

- Chia giai đoạn: giải quyết một vấn đề theo từng giai đoạn

- Phân rã: chia bài toán thành các phần nhỏ hơn, có thể giải quyết được sau đó

kết hợp các giải pháp đó lại Ví dụ: chia lãnh thổ bán hàng thành 4 vùng khác

nhau, giải quyết cho từng vùng sau đó kết nối các giải pháp

Mô phỏng

- Giả định các đặc điểm của thực tại

- Là kỹ thuật tiến triển các thực nghiệm (như phân tích “what-if”) - bằng máy tính trên một mô hình của hệ thông tin quản lý

- Không thực sự là một mô hình vì không biểu diễn thực tại mà là cố gắng bắt chước thực tại

- Là một trong những phương pháp thông dụng nhất trong DSS

- DSS làm việc với các bài toán phi cấu trúc và cấu trúc yếu, tình huống thực tếphức tạp – không dễ biểu diễn bằng mô hình tối ưu hay các dạng mô hình khácnhưng lại thường có thể xử lý được bằng mô phỏng

Trang 19

Đặc điểm:

- Ít đưa ra các đơn giản hóa về thực tại hơn các mô hình khác

- Do triển khai các thực nghiệm nên nó có thể kiểm thửcác giá trị cụ thể của cácbiến quyết định/biến không kiểm soát được của mô hình và xem xét ảnh hưởnglên các biến kết quả

- Phương pháp có tính mô tả (như vậy khác với phương pháp danh định)

- Không tự động tìm kiếm giải pháp tối ưu – nó mô tả/tiên đoán các đặc tính củahệthống đã cho dưới các điều kiện khác nhau từđó có thể chọn ra phương án tốtnhất

- Quá trình mô phỏng thường lặp lại một thực nghiệm nhiều lần để có được ước lượng về hiệu ứng tổng quát của một số hành động nhất định

- Mô phỏng máy tính thích hợp cho hầu hết các tình huống mặc dù cũng có một sốmô phỏng thủ công thành công

- Thường chỉđược dùng khi bài toán quá phức tạp không thể xem xét bằng các kỹthuật tối ưu dạng số Tính phức tạp theo nghĩa bài toán không thể công thức hóacho tối ưu (do không thõa các giả định), hoặc công thức quá lớn, quá nhiềutương tác giữa các biến hoặc về bản chất bài toán là bất định hay rủi ro

Phương pháp mô phỏng: thiết lập mô hình của hệ thống thực và tiến hành các

thực nghiệm lặp lại trên mô hình

Thuận lợi:

- Lý thuyết tương đối trực tiếp hiệu ứng dài hạn của nhiều chính sách => nén thờigian lớn

- Do tính chất mô tả (khác với danh định)

- Có thể thấy được nhanh chóng, có thể đặt ra các câu hỏi “what-if”, có thể dùngtiếp cận thử-và-sai vào giải quyết vấn đề một cách nhanh chóng, rẻ, chính xác,

để từ đó bản chất bài toán và các quyết định được hiểu tốt hơn

- Mô hình được xây dựng từ viễn cảnh/cách nhìn của nhà quản lý

- Mô hình chỉ cho một bài toán riêng biệt, thường không thể dùng giải các bàitoán khác Như vậy mỗi thành phần của mô hình ứng với một phần của hệthống thực, do đó sẽ không yêu cầu nhà quản lý phải tổng quát hóa các hiểu biếtcủa mình

- Phổ bài toán giải được rất rộng: tồn kho, nhân sự, hoạch định chiến lược

- Có thể chứa các phức tạp thực sự của bài toán, không cần các đơn giản hóa (Ví

Trang 20

dụ: dùng các phân phối xác suất thực thay vì phân phối lý thuyết xấp xỉ)

- Có thể tự động sinh ra nhiều đo lường hiệu năng quan trọng

- Thường là phương pháp duy nhất của DSS có thể xử lý các bài toán tương đối phi cấu trúc

- Có một số các gói phần mềm mô phỏng (Monte Carlo) tương đối dễ dùng

Điểm yếu:

- Tuy thường tìm được các phương án đủ tốt nhưng không đảm bảo lời giải tối ưu

- Quá trình xây dựng mô hình thường dài và tốn kém

- Giải pháp và suy diễn từ nghiên cứu mô phỏng thường không thể chuyển sang bài toán khác vì mô hình kết hợp các yếu tố đặc thù

- Đôi khi do mô hình quá dễ giải thích cho nhà quản lý nên các phương pháp phân tích thường xem nhẹ

- Phần mềm mô phỏng đôi khi yêu cầu các kỹ năng đặc biệt do độ phức tạp củaphương pháp giải hình thức

- Mô phỏng độc lập/phụ thuộc theo thời gian:

Độc lập: không cần thiết phải biết chính xác thời điểm xảy ra biến cố (nhu cầu

tiêu thụ lượng sản phẩm trong ngày, không biết chính xác thời điểm tiêu thụ)

Phụ thuộc: cần biết chính xác thời điểm xảy ra sự kiện (bài toán hàng đợi)

- Mô phỏng tương tác trực quan:

- Mô phỏng hướng đối tượng: dùng tiếp cận hướng đối tượng để xây dựng môhình mô phỏng Chú ý ngôn ngữ mô hình hóa nhất thể UML (unified modelinglanguage) kể cả khi mô phỏng các hệ thời gian thực

Mô hình hóa đa chiều, xử lý và phân tích trực tuyến (OLAP)

- Người ra quyết định thường phải xem xét nhiều chiều của dữ liệu (Ví dụ: cácchiều của dữ liệu bán hàng là sản phẩm, vùng, thời gian, người bán ); dữ liệucần được phân tích trực tiếp bằng các công cụ chuẩn hay phân tích tự độngbằng các phương pháp khai mỏ dữ liệu (data mining)

- Hầu hết các hệ thống phân tích đa chiều được nhúng trong các hệ xử lý phân tích trực tuyến (online analytic processing - OLAP)

- Mục tiêu của OLAP: nắm bắt cấu trúc của dữ liệu thực để hỗ trợ ra quyết định

- Trong DSS có sự gắn nối tự nhiên giữa mô hình hóa dữ liệu, mô hình hóa ký

Trang 21

hiệu và các khía cạnh của phân tích “what-if”

- Các báo cáo của hệ OLAP đều có tính tương tác, dễ khai thác sử dụng, đặc biệtphù hợp cho các báo cáo về chỉ số hiệu năng chủ yếu (key performanceindicators - KPI), báo cáo về đo lường hiệu năng kinh doanh

- Thế hệ hiện tại của hệ OLAP và hệ khai mỏ dữ liệu (data mining) tích hợp cácđặc tính của hệ thông tin lãnh đạo (executive information system –EIS- nhiềucách nhìn dữ liệu, chi tiết hóa theo nhu cầu ) và các hệ đồ họa khác – thường cógiao diện người dùng dạng kiểu WEB

- Các hệ thống như trên còn được gọi là các công cụ trí tuệ kinh doanh (businessintelligence - BI) vì có các đặc trưng về mô hình hóa và tối ưu hóa nhưng lạitrong suốt đối với ngươì dùng

- Hiện các công cụ được đưa ra bởi các nhà cung cấp về CSDL, về hoạch định tàinguyên tổ chức (ERP), về nhà kho dữ liệu (data warehouse), về hệ OLAP

Mô hình hóa và mô phỏng tương tác trực quan

- Ích lợi: Người ra quyết định tham gia vào quá trình phát triển mô hình và thực

nghiệm mô phỏng vì vậy sẽ tin tưởng khi sử dụng mô hình

- Mô hình hóa tương tác trực quan (Visual Interactive Modeling - VIM) dùng cácbiểu diễn đồ họa máy tính để trình bày các ảnh hưởng của các quyết định quản

lý khác nhau, ở một thời điểm (tĩnh) hay tiến triển theo thời gian (động với kỹthuật hoạt hình)

- Mô phỏng tương tác trực quan (Visual Interactive Simulation - VIS) cho phépngười dùng theo dõi tiến trình xây dựng vàsử dụng khai thác mô hình môphỏng dưới dạng hoạt hình

- Mô hình hóa tương tác trực quan có thể kết hợp với tiếp cận trí tuệ nhân tạo đểđưa ra các khả năng mới thay đổi từ xây dựng hệ thống dạng đồ họa đến tìmhiểu về động học của hệ thống

- Cần đến các hệ thống máy tính xử lý song song tốc độ cao để xây dựng các môphỏng - phức tạp, quy mô lớn, dạng hoạt hình - mang tính khả thi ở thời gianthực

Các bộ phần mềm định lượng và xử lý phân tích trực tuyến

- Một số công cụ DSS có chứa sẵn các trình con để xây dựng các mô hình

định lượng về thống kê, phân tích tài chánh, kế toán …

- Nhiều công cụ HTQĐ có thể tương tác với các bộ phần mềm định lượng chuẩn(các mô hình lập sẵn), nhờ đó có thể tăng năng suất nhờ vào các mô hình có sẵn

Trang 22

tích trực tuyến, do đó người dùng khó nhận biết được các phương pháp thống

- Phần mềm mô hình hóa phân tích/khoa học quản lý (MS/OR)

- Có rất nhiều trên thị trường về phân tích thống kê, quy hoạch tuyến tính, mô phỏng, phân tích quyết định, quy hoạch phi tuyến, dự báo

- Một vài bộ tạo sinh DSS có các năng lực tối ưu và mô phỏng

- Phần mềm quản lý lợi nhuận (revenue/yield management):

- Phổ biến trong lĩnh vực dịch vụ

- Mô hình động về phân loại khách hàng, ước lượng nhu cầu, định giá cả cho từng loại khách hàng

Hệ quản trị cơ sở mô hình

- Có năng lực như hệ quản trị CSDL Tuy nhiên thị trường có thể có nhiều hệ

quản trị CSDL nhưng chưa có các sản phẩm về hệ quản trị cơ sở mô hình

- Các khía cạnh cấu trúc và giải thuật của mô hình cũng như xử lý dữ liệu liên

quan cần trong suốt đối với người dùng

- Khả năng tích hợp mô hình (mô hình với mô hình, dữ liệu với mô hình và

ngược lại)

- Chưa có các hệ quản trị cơ sở mô hình chuẩn hóa vì:

- Có nhiều lớp mô hình nhưng đều khác cấu trúc (Ví dụ: quy hoạch tuyến tính

khác với phân tích hồi quy )

- Mỗi lớp mô hình có vài tiếp cận giải quyết vấn đề khác nhau – phụ thuộc vào

cấu trúc bài toán, kích cỡ, khuôn dạng và dữ liệu; tiếp cận coi là chuẩn có thể

có hiệu quả thấp hơn tiếp cận đặc thù

- Một số năng lực của hệ quản trị cơ sở mô hình liên quan đến khả năng suy lý và

kiến thức chuyên gia có thể tạo sinh ở các hệ thống khác – các hệ trí tuệ nhân

tạo …

- Hiện tại bảng tính và vài công cụ & ngôn ngữ DSS có đưa ra một số năng lực

của hệ quản trị cơ sở mô hình

- Có một số ngôn ngữ mô hình hóa đặc biệt được dùng như công cụ truy xuất đếncác phần mềm thực sự thực hiện tác vụ tối ưu hóa hay mô phỏng Chúng hỗ trợcho việc phát triển và quản lý các mô hình Vài ngôn ngữ mô hình hóa dạng quyhoạch toán học thông dụng như Lingo, AMPL, GAMS

Người dùng phải có được khả năng sau:

- Truy đạt, thao tác, lưu chứa và hiệu chỉnh mô hình hiện có

Trang 23

- Xây dựng mô hình mới từ các mô hình hiện có với nổ lực chi phí phù hợp

Hệ quản trị cơ sở mô hình quan hệ:

- Tương tự như CSDL quan hệ, mô hình được xem như một quan hệ ảo

- Có 3 hoạt động cần thiết để có được tính đầy đủ quan hệ trong quản lý mô hình:thực thi (execution), tối ưu và phân tích độ nhạy (sensitivity analysis)

Hệ quản trị cơ sở mô hình hướng đối tượng:

- Duy trì sự độc lập logic giữa cơ sở mô hình và các thành phần khác của DSS,

hỗ trợ sự tích hợp thông minh và ổn định giữa các thành phần

- các khái niệm hướng đối tượng quen thuộc trong các giao diện người dùng đồ họa (GUI) đều có thể áp dụng vào việc quản lý mô hình

2. Hệ hỗ trợ quyết định không gian (SDSS)

Ý niệm về SDSS được bắt nguồn từ khái niệm DSS từ những năm của thập kỷ 70,

và được phát triển sau đó Bởi vì SDSS theo sau DSS nên nó cũng cần thiết để cónhững đặc điểm chung được đưa ra bởi Sprague & Ralph (1980), cũng như những khảnăng bổ sung được đưa ra bởi Densham (1990) như sau:

- Cung cấp những cơ chế cho đầu vào của dữ liệu không gian

- Cho phép biểu diễn những cấu trúc và những quan hệ không gian

- Bao gồm các kỹ thuật phân tích địa lý và không gian

- Cung cấp đầu ra dưới các khuân dạng không gian khác nhau bao gồm các bản

đồ và các báo cáo dạng bảng biểu

Khi thành phần không gian được đưa vào DSS, thì việc xử lý và quản lý thông tinkhông gian là hoàn toàn có thể, vì vậy SDSS có đóng góp quan trọng đối việc việclồng ghép chiều không gian trong quá trình đưa ra quyết định, nó có tầm quan trọng vĩđại trong nhiều lĩnh vực liên quan đến bảo tồn và quản lý nguồn tài nguyên thiênnhiên Theo Segrera, Ponce-Hernadez và Arcia (2003) cho rằng SDSS bao gồm 4 hoạtđộng chính để hỗ trợ ra quyêt định bao gồm: dữ liệu đầu vào, quản lý cơ sở dữ liệu,phân tích và hiển thị Sau đó SDSS được đưa ra thành 5 thành phần chính bao gồm:

- Một hệ quản trị cơ sở dữ liệu

- Các thủ tục phân tích trong một hệ quản trị dựa trên cơ sở mô hình

- Một máy sinh màn hình

- Một máy sinh báo cáo

- Một giao diện người dùng

3. Khai phá dữ liệu

Tổng quan

Khai phá dữ liệu được định nghĩa là quá trình trích xuất các thông tin có giá trịtiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu

Trang 24

Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác

có ý nghĩa tương tự như: Khai phá tri thức từ CSDL (Knowlegde mining fromdatabase), trích lọc dữ liệu (Konwlegde extraction), phân tích dữ liệu/mẫu(data/pattern analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (datadredging) Nhiều người coi khai phá dữ liệu và một số thuật ngữ thông dụng khác làkhám phá tri thức trong CSDL (Knowledge Discovery in Databases-KDD) là nhưnhau Tuy nhiên trên thực tế khai phá dữ liệu chỉ là một bước thiết yếu trong quá trìnhKhám phá tri thức trong CSDL

Quá trình này gồm các bước:

1) Làm sạch dữ liệu (data cleaning): Loại bỏ nhiễu hoặc các dữ liệu không thích hợp

2) Tích hợp dữ liệu (data integration): Tích hợp dữ liệu từ các nguồn khác nhau như: CSDL, Kho dữ liệu, file text…

3) Chọn dữ liệu (data selection): Ở bước này, những dữ liệu liên quan trực tiếp đến nhiệm vụ sẽ được thu thập từ các nguồn dữ liệu ban đầu

4) Chuyển đổi dữ liệu (data transformation): Trong bước này, dữ liệu sẽ đượcchuyển đổi về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tácnhóm hoặc tập hợp

5) Khai phá dữ liệu (data mining): Là giai đoạn thiết yếu, trong đó các phương phápthông minh sẽ được áp dụng để trích xuất ra các mẩu dữ liệu

6) Đánh giá mẫu (pattern evaluation): Đánh giá sự hữu ích của các mẫu biểu diễn trithức dựa vào một số phép đo

7) Trình diễn dữ liệu (Knowlegde presentation): Sử dụng các kỹ thuật trình diễn và trực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng

Các kỹ thuật và cách tiếp cận khai phá dữ liệu

- Các kỹ thuật khai phá dữ liệu bao gồm 2 nhóm chính:

o Kỹ thuật khai phá dữ liệu mô tả: Có nhiệm vụ mô tả về các tính chấthoặc các đặc tính chung của dữ liệu trong CSDL hiện có Các kỹ thuậtnày gồm có: phân cụm (clustering), tóm tắt (summarization), trực quanhoá (visualization), phân tích sự phát triển và độ lệch (Evolution anddeviation analyst), phân tích luật kết hợp (association rules)…

o Kỹ thuật khai phá dữ liệu dự đoán: Có nhiệm vụ đưa ra các dự đoándựa vào các suy diễn trên dữ liệu hiện thời Các kỹ thuật này gồm có: Phânlớp (classification), hồi quy (regression)…

- Hướng tiếp cận: Với hai đích chính của khai phá dữ liệu là Dự đoán(Prediction) và Mô tả (Description), người ta thường sử dụng các phương phápsau cho khai phá dữ liệu:

o Phân loại (Classification)

o Hồi qui (Regression)

Trang 25

o Phân nhóm (Clustering)

o Tổng hợp (Summarization)

o Mô hình ràng buộc (Dependency modeling)

o Dò tìm biến đổi và độ lệch (Change and Deviation Dectection)

o Biểu diễn mô hình (Model Representation)

o Kiểm định mô hình (Model Evaluation)

o Phương pháp tìm kiếm (Search Method)

- Ứng dụng của khai phá dữ liệu: Khai phá dữ liệu là một lĩnh vực liên quan tớinhiều ngành học khác như: hệ CSDL, thống kê, trực quan hoá… hơn nữa, tuỳvào cách tiếp cận được sử dụng, khai phá dữ liệu còn có thể áp dụng một số kỹthuật như mạng nơron, lý thuyết tập thô, tập mờ, biểu diễn tri thức… So với cácphương pháp này, khai phá dữ liệu có một số ưu thế rõ rệt

- So với phương pháp học máy, khai phá dữ liệu có lợi thế hơn ở chỗ, khai phá

dữ liệu có thể sử dụng với các CSDL chứa nhiều nhiễu, dữ liệu không đầy đủhoặc biến đổi liên tục Trong khi đó phương pháp học máy chủ yếu được ápdụng trong các CSDL đầy đủ, ít biến động và tập dữ liệu không qua lớn

- Phương pháp hệ chuyên gia: phương pháp này khác với khai phá dữ liệu ở chỗcác ví dụ của chuyên gia thường ở mức cao hơn nhiều so với các dữ liệu trongCSDL, và chúng thường chỉ bao hàm được các trường hợp quan trọng Hơn nữacác chuyên gia sẽ xác nhận giá trị và tính hữu ích của các mẫu phát hiện được

- Phương pháp thống kê là một trong những nên tảng lý thuyết của khai phá dữ liệu,nhưng khi so sánh hai phương pháp với nhau ta có thể thấy các phương pháp thống

kê còn tồn tại một số điểm yếu mà khai phá dữ liệu khắc phục được:

o Các phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu cócấu trúc trong rất nhiều CSDL

o Các phương pháp thống kê hoạt động hoàn toàn theo dữ liệu, nó không

23

Trang 26

4. Các kỹ thuật phân lớp dữ liệu

Kĩ thuật phân lớp dữ liệu trong khai phá dữ liệu là một trong những vấn đề nguyêncứu mở rộng hiện nay, tập trung chủ yếu vào thống kê, máy học và mạng nơron Kĩthuật phân lớp được đánh giá là một kĩ thuật khai phá dữ liệu được sử dụng rộng rãinhất với nhiều mở rộng

Phân lớp dữ liệu là kĩ thuật dựa trên tập huấn luyện và những giá trị hay hay lànhãn của lớp trong một thuộc tính phân lớp và sử dụng nó trong việc phân lớp dữ liệumới Phân lớp cũng là tiên đoán loại lớp của nhãn Bên cạnh kĩ thuật phân lớp có mộthình thức tương tự là kĩ thuật tiên đoán, kĩ thuật tiên đoán khác với phân lớp ở chỗphân lớp chỉ liên quan đến tiên đoán loại lớp của nhãn còn kĩ thuật tiên đoán mô hìnhnhững hàm đánh giá liên tục

Kĩ thuật phân lớp được tiến hành bao gồm 2 bước:

- Xây dựng mô hình: Là mô tả một tập những lớp được định nghĩa trước trong

đó Mỗi bộ hoặc mẫu được gán thuộc về một lớp được định nghĩa trước như làđược xác định bởi thuộc tính nhãn lớp, tập hợp của những bộ được sử dụngtrong việc sử dụng mô hình được gọi là tập huấn luyện Mô hình được biểu diễn

là những luật phân lớp, cây quyết định và những công thức toán học

- Sử dụng mô hình: Việc sử dụng mô hình phục vụ cho mục đích phân lớp dữ liệutrong tương lai hoặc phân lớp cho những đối tượng chưa biết đến Trước khi sửdụng mô hình người ta thường phải đánh giá tính chính xác của mô hình trong

đó “nhãn” được biết của mẫu kiểm tra được so sánh với kết quả phân lớp của

mô hình, độ chính xác là phần trăm của tập hợp mẫu kiểm tra mà phân loạiđúng bởi mô hình, tập kiểm tra là độc lập với tập huấn luyện

Phân lớp là một hình thức học được giám sát tức là: Tập dữ liệu huấn luyện (quansát, thẩm định ) đi đôi với những nhãn chỉ định lớp quan sát, những dữ liệu mới đượcphân lớp dựa trên tập huấn luyện Ngược lại với hình thức học được giám sát là hìnhthức học không được giám sát lúc đó nhãn lớp của tập dữ liệu huấn luyện là khôngđược biết đến

Phân lớp bằng phương pháp quy nạp cây quyết định

Cây quyết định là một cây mà trong đó:

- Nút trong: Là một phép kiểm tra trên một thuộc tính

- Nhánh của cây: Là đầu ra của một phép kiểm tra

- Nút lá: Là nhãn phân lớp hoặc sự phân chia vào lớp

Có 2 giai đoạn tạo cây quyết định

Giai đoạn 1: Xây dựng cây:

- Bắt đầu: Tất cả các mẫu huấn luyện đều ở gốc

- Phân chia các mẫu dựa trên các thuộc tính được chọn

Trang 27

- Kiểm tra các thuộc tính được chọn dựa trên một độ đo thống kê hoặc

heuristic Giai đoạn 2: Thu gọn cây

- Xác định và loại bỏ những nhánh nhiễu hoặc tách khỏi nhóm

Sau khi xây dựng xong cây thì:

- Mỗi một đường dẫn từ gốc đến lá trong cây tạo thành một luận

- Nút lá giữ quyết định phân lớp dự đoán

- Các luật tạo được dễ hiểu hơn các cây

Cây quyết định có 2 kiểu là cây hồi quy (Regression tree) ước lượng các hàm giá

có giá trị là số thực thay vì được sử dụng cho các nhiệm vụ phân loại (ví dụ: ước tính

lưu lượng nước của một dòng chảy), cây phân loại (Classification tree).

Có nhiều giải thuật khác nhau dựa trên cây quyết định như giải thuật ID3, C4.5,CART, CHAID, random forest… điểm khác nhau chủ yếu giữa các giải thuật là dựatrên tiêu chuẩn hay thuộc tính phân chia, độ đo để chọn lựa Các độ đo để chọn lựathuộc tính thường là độ đo về độ lợi thông tin (gain information), chỉ số Gini index, G-thống kê

Độ lợi thông tin

Độ lợi thông tin sử dụng để lựa chọn thuộc tính trên cây quyết định: Chọn thuộctính có chỉ số về độ lợi thông tin là lớn nhất

Giả sử cho hai lớp P và N và S là một tập hợp có p phần tử lớp P, n phần tử lớp N Khi

đó khối lượng thông tin cần thiết để quyết định một mẫu tùy ý có thuộc về lớp P haylớp N hay không là:

I ( p , n) = −

Cho các tập {S 1 , S 2 , , S v } là một phân hoạch trên tập S khi sử dụng thuộc tính A.Cho mỗi Si chứa pi mẫu thuộc lớp P, ni mẫu thuộc lớp N Entropy hay thông tin mongmuốn cần thiết để phân lớp các đối tượng tất cả các cây con Si là:

E(A)= ∑Khi đó thông tin có được bởi việc phân nhánh trên thuộc tính A là:

Gain( A) = I ( p, n) − E ( A)

Những tiêu chuẩn khác nhau khi xây dựng lên cây quyết định:

- Các điều kiện để ngừng phân chia:

o Tất cả các mẫu thuộc về cùng một lớp

o Không còn thuộc tính nào để phân chia

o Không còn mẫu nào để phân lớp

- Chiến lược rẽ nhánh:

o Nhị phân và k-phân

o Các thuộc tính rời rạc, rõ ràng và các thuộc tính liên tục

Trang 28

- Luật đánh nhãn: Một nút lá được đánh nhãn vào một lớp mà phần lớn các mẫu tại nút này thuộc về lớp đó

Cây tạo thành sau khi xây dựng có thể gây lên hiện tượng Overfit dữ liệu huấnluyện (quá nhiều nhánh hoặc là kém chính xác cho những mẫu chưa biết) Lý do này

có thể là do dữ liệu nhiễu và tách rời khỏi nhóm hoặc là dữ liệu huấn luyện có kíchthước quá nhỏ hoặc các giá trị đạt tối đa cục bộ trong giải thuật tìm kiếm tham lam.Trong quá trình rút gọn cây, muốn tránh được hiện tượng này thì ta thường rút gọntrước (ngừng sớm) hoặc rút gọn sau (loại bỏ bớt các nhánh sau khi xây dựng xongtoàn bộ cây)

Giải thuật random forest (RF) [18]

Chúng ta giả thiết rằng người sử dụng đã biết cách xây dựng những cây phân lớpđơn giản RF trồng lên nhiều cây phân lớp Để phân loại một đối tượng mới từ một véc

tơ đầu vào, ta đặt véc tơ đầu vào đó trôi xuống mỗi cây trong rừng Mỗi cây cho mộtphân lớp, và chúng ta gọi cây “ứng cử - vote” cho lớp đó Rừng lựa chọn phân lớp cónhiều ứng cử nhất (trên khắp tất cả các cây trong rừng)

Mỗi cây được trồng như sau:

1. Nếu số các trường hợp trong tập huấn luyện là N, mẫu N trường hợp ngẫu nhiên

– nhưng có sự thay thế từ dữ liệu ban đầu Mẫu này sẽ là tập huấn luyện cho việc trồng cây

2. Nếu có M biến đầu vào, và m<<M được xác định với mục đích tại mỗi nút, mbiến được lựa chọn ngẫu nhiên ra từ M biến và phân chia tốt nhất trên m biếnnhỏ này được sử dụng để phân chia nút Giá trị của m giữ nguyên không đổitrong suốt quá trình trồng rừng

3. Mỗi cây được trồng để phát triển lớn nhất có thể Không bị cắt tỉa

Trong bài báo đầu tiên về random forest, người ta chỉ ra rằng tỷ lệ lỗi của rừng phụ thuộc vào hai yếu tố:

- Tương quan giữa hai cây bất kỳ trong rừng, nếu gia tăng tương quan thì tỷ lệ lỗităng lên

- Độ dài của bản thân mỗi cây trong rừng Một cây với một tỷ lệ lỗi thấp là một phân lớp tốt Gia tăng độ dài của các cây làm giảm tỷ lệ lỗi rừng

Giảm m thì giảm cả tương quan và độ dài, tăng m thì tăng cả hai Một số vị trí ởgiữa là một phạm vi “tối ưu” của m – thường khá rộng Sử dụng tỷ lệ lỗi oob (out ofbagging- xem bên dưới) thì giá trị của m trong phạm vi có thể nhanh chóng được tìmthấy Đây là tham số điều chỉnh duy nhất

Các đặc điểm của RF

- Độ chính xác của nó không cao so với các giải thuật hiện tại

- Chạy hiệu quả trên một tập dữ liệu lớn

Trang 29

- Có thể xử lý hàng nghìn biến đầu vào mà không cần xoá biến

- Nó có thể dự đoán biến nào là quan trọng trong phân lớp

- Nó có thể đưa ra một dự báo khách quan bên trong của lỗi tổng quát hoá như các quá trình trồng rừng

- Có một phương pháp hiệu quả cho việc dự báo dữ liệu lỗi và duy trì độ chính xác khi một lượng dữ liệu tương đối lớn bị mất (mất cân đối)

- Có những phương pháp cân bằng lỗi trong các tập dữ liệu không cân bằng

- Các rừng được sinh ra có thể được lưu lại để dùng cho các dữ liệu khác trong tương lai

- Các nguyên mẫu được tính toán để cung cấp các thông tin về quan hệ giữa các biến và lớp

- Tính toán sự khoảng cách giữa các cặp trường hợp để có thể sử dụng trong việcphân cụm, định vị trí những thành phần kỳ dị (nằm ngoài), hoặc cho phép xemnhững thông tin thú vị của dữ liệu

- Những tính năng trên có thể được áp dụng đối với dữ liệu không được gắnnhãn, hướng đến phân cụm không giám sát, tìm kiếm các kỳ dị và các khungnhìn dữ liệu

- Cung cấp một phương pháp thực nghiệm cho việc tìm kiếm những tương tác biến đổi

Nhận xét:

RF không overfit Bạn có thể chạy rất nhiều cây khi bạn muốn Chạy trên một tập

dữ liệu khoảng 50.000 trường hợp và 100 biến, nó sinh ra 100 cây trong vòng 11 phúttrên máy tính 800MHZ Đối với các tập dữ liệu lớn thì yêu cầu bộ nhớ chính phải chứađược dữ liệu của nó, và các dữ liệu có cùng kiểu mảng nguyên 3 chiều Nếu các giá trịxấp xỉ được tính toán, yêu cầu về sức chứa dữ liệu sẽ tăng lên khi số các trường hợpnhân lên với số cây

sử dụng để đánh giá về tầm quan trọng biến đổi

Sau khi mỗi cây được xây dựng, tất cả dữ liệu cho chạy xuống cây, và những xấp

xỉ được tính toán đối với mỗi cặp trường hợp Nếu hai cặp trường hợp có cùng nút đầucuối, thì sự xấp xỉ của chúng tăng lên 1 Tại thời điểm kết thúc chạy, những xấp xỉđược chuẩn hoá bằng cách chia cho số các cây Những sự xấp xỉ được sử dụng trong

sự thay thế dữ liệu lỗi, định vị kỳ dị, và xuất ra những khung nhìn ít chiều của dữ liệu

Trang 30

Ứơc lượng lỗi OOB (out of bag)

Trong RF, không cần cross-validation hoặc một tập kiểm thử riêng rẽ để đưa rađánh giá khách quan của tập dữ liệu lỗi Nó được ướng lượng bên trong, suốt thời gianchạy, như sau:

Mỗi cây được xây dựng sử dụng một mẫu bootstrap khác nhau từ dữ liệu ban đầu.Khoảng 1/3 trường hợp nằm ngoài mẫu bootstrap và không được sử dụng để xây dựngcây thứ k

Đặt mỗi trường hợp bên ngoài đó trong sự xây dựng của cây thứ k xuống cây thứ

k để nhận được một sự phân lớp Trong trường hợp này, một phân loại tập kiểm thử đãthu được cho mỗi trường hợp trong khoảng 1/3 của cây Tại thời điểm kết thúc chạy,lấy j là lớp mà nó nhận được nhiều ứng cử nhất tại mọi trường hợp thời điểm là OOB

Tỉ lệ số lần mà j không tương đương với lớp đúng của n được trung bình qua tất cả cáctrường hợp là ước lượng tỷ lệ lỗi OOB Điều này đã được chứng minh là khách quantrong nhiều thí nghiệm

Sự quan trọng biến đổi (Variable Importance)

Đối với mỗi cây được trồng trong rừng, đẩy các trường hợp OOB xuống và đếm

số lần đề cử ép cho mỗi lớp đúng Giờ lấy hoán vị ngẫu nhiên các giá trị của m biếntrong các trường hợp OOB và đẩy các trường hợp này xuống cây Trừ đi một số đề cửcho lớp đúng trong m biến được hoán vị dữ liệu OOB từ một số lần đề cử cho lớpđúng trong dữ liệu OOB không được dùng đến Trung bình của số này qua tất cả cáccây trong rừng là điểm quan trọng thô cho m biến đổi

Nếu các giá trị của điểm này từ cây này đến cây khác là độc lập với nhau, thì lỗichuẩn có thể được tính toán bởi một phép tính chuẩn Những tương quan của điểm nàygiữa các cây được tính cho một số tập dữ liệu và được chứng minh là khá thấp, do đóchúng ta có thể tính toán các lỗi chuẩn theo phương pháp cổ điển, chia điểm thô bởilỗi chuẩn của nó để nhận một điểm z (z-score), và gán một mức đáng kể cho chuẩnđưa ra điểm z

Nếu số các biến là rất lớn, rừng có thể chạy một lần với tất cả các biến, sau đóchạy lại bằng việc chỉ sử dụng các biến quan trọng nhất từ lần chạy đầu tiên

Cho mỗi trường hợp, xem xét tất cả các cây mà nó là OOB Trích ra một số phầntrăm của số phiếu tiến cử cho mỗi lớp đúng trong dữ liệu OOB m biến hoán vị từ phầntrăm phiếu tiến cử cho lớp đúng trong dữ liệu OOB chưa được sử dụng đến Đây làđiểm quan trọng cục bộ cho m biến cho trường hợp này và được sử dụng trong chườngtrình đồ hoạ RAFT

Các tương tác

Định nghĩa hoạt động của sự tương tác được sử dụng là m biến và k tương tác nếumột sự phân chia trên một biến, ta nói m, trong một cây tạo lên một sự phân chia trên k

Trang 31

hoặc là hệ thống tự động ít hơn có thể hoặc là nhiều hơn có thể Sự triển khai đã sửdụng được dựa trên các giá trị gini g(m) cho mỗi cây trong rừng Điều này được đánhhạng cho mỗi cây và mỗi hai biến, sự khác nhau tuyệt đối của các hạng của chúng làđược trung bình qua tất cả các cây.

Số này cũng được tính dưới giả thiết rằng hai biến độc lập với nhau và biến sau bịtrừ từ biến trước đó Một số nguyên dương lớn ám chỉ một phân chia trên một biếnngăn chặn sự phân chia trên một biến khác và ngược lại Đây là một thủ tục thựcnghiệm các kết luận của nó cần được quan tâm cẩn thận Nó đã được thử nghiệm trênchỉ một số ít tập dữ liệu

Hình 2.1 Sơ đồ khối giải thuật Random Forest

Trang 32

Phân lớp bằng phương pháp mạng nơ ron nhân tạo

Khái niệm cơ bản

Theo các nhà nghiên cứu sinh học về bộ não, hệ thống thần kinh của con ngườibao gồm khoảng 100 tỷ tế bào thần kinh, thường gọi là các nơ-ron Mỗi tế bào nơ-rongồm ba phần:

 Thân nơron với nhân bên trong (gọi là soma), là nơi tiếp nhận hay phát ra các xung động thần kinh

 Một hệ thống dạng cây các dây thần kinh vào (gọi là dendrite) để đưa tín hiệutới nhân nơ-ron Các dây thần kinh vào tạo thành một lưới dày đặc xung quanh thân nơ-ron, chiếm diện tích khoảng 0,25 mm2

 Đầu dây thần kinh ra (gọi là sợi trục axon) phân nhánh dạng hình cây, có thể dài

từ một cm đến hàng mét Chúng nối với các dây thần kinh vào hoặc trực tiếpvới nhân tế bào của các nơ-ron khác thông qua các khớp nối (gọi là synapse).Thông thường mỗi nơ-ron có thể có từ vài chục cho tới hàng trăm ngàn khớpnối để nối với các nơ-ron khác Có hai loại khớp nối, khớp nối kích thích(excitatory) sẽ cho tín hiệu qua nó để tới nơ-ron còn khớp nối ức chế

(inhibitory) có tác dụng làm cản tín hiệu tới ron Người ta ước tính mỗi ron trong bộ não của con người có khoảng 104 khớp nối (hình 1.1)

nơ-Chức năng cơ bản của các tế bào nơ-ron là liên kết với nhau để tạo nên hệ thốngthần kinh điều khiển hoạt động của cơ thể sống Các tế bào nơ-ron truyền tín hiệu chonhau thông qua các dây thần kinh vào và ra, các tín hiệu đó có dạng xung điện và đượctạo ra từ các quá trình phản ứng hoá học phức tạp Tại nhân tế bào, khi điện thế của tínhiệu vào đạt tới một ngưỡng nào đó thì nó sẽ tạo ra một xung điện dẫn tới trục dâythần kinh ra Xung này truyền theo trục ra tới các nhánh rẽ và tiếp tục truyền tới cácnơ-ron khác

Hình 2.2 Cấu tạo của tế bào nơ-ron sinh học

Trang 33

Với mục đích tạo ra một mô hình tính toán phỏng theo cách làm việc của nơ-rontrong bộ não con người, vào năm 1943, các tác giả McCulloch và Pitts đã đề xuất một

mô hình toán cho một nơ-ron như sau:

w 1

w m

Hình 2.3 Mô hình nơ-ron nhân tạo

Trong mô hình này, một nơ-ron sẽ nhận các tín hiệu vào xi với các trọng số tương

Trong đó g là hàm kích hoạt (còn gọi là hàm chuyển) có dạng là hàm bước nhảy,

nó đóng vai trò biến đổi từ thông tin đầu vào thành tín hiệu đầu ra

1



g ( f ) = 

0

Như vậy, out = 1 (ứng với việc nơ-ron tạo tín đầu ra) khi tổng các tín hiệu vào lớn

hơn ngưỡng θi , còn out = 0 (nơ-ron không tạo tín hiệu ở đầu ra) khi tổng các tín hiệu

vào nhỏ hơn ngưỡng θi

Trong mô hình nơ-ron của McCulloch và Pitts, các trọng số wij thể hiện ảnh hưởngcủa khớp nối trong liên kết giữa nơ-ron j (nơ-ron gửi tín hiệu) và nơ-ron i (nơ-ron nhậntín hiệu) Trọng số wij dương ứng với khớp nối kích thích, trọng số âm ứng với khớpnối ức chế còn wij bằng 0 khi không có liên kết giữa hai nơ-ron Hàm chuyển g ngoài

dạng hàm bước nhảy còn có thể chọn nhiều dạng khác nhau và sẽ được đề cập ở cácphần sau

Thông qua cách mô hình hoá đơn giản một nơ-ron sinh học như trên, McCulloch

và Pitts đã đưa ra một mô hình nơ-ron nhân tạo có tiềm năng tính toán quan trọng Nó

có thể thực hiện các phép toán lô-gíc cơ bản như AND, OR và NOT khi các trọng số

và ngưỡng được chọn phù hợp Sự liên kết giữa các nơ-ron nhân tạo với các cách thức

Trang 34

khác nhau sẽ tạo nên các loại mạng nơron nhân tạo (Artificial Neural Network ANN) với những tính chất và khả năng làm việc khác nhau.

-Mô hình mạng nơ-ron nhân tạo

Như đã được giới thiệu, mạng nơ-ron nhân tạo là một hệ thống xử lý thông tinđược xây dựng trên cơ sở tổng quát hoá mô hình toán học của nơ-ron sinh học vàphỏng theo cơ chế làm việc của bộ não con người Mạng nơ-ron nhân tạo được thể

hiện thông qua ba thành phần cơ bản: mô hình của nơ-ron, cấu trúc và sự liên kết giữa

các nơ-ron, phương pháp học được áp dụng cho mạng nơ-ron.

a. Các phần tử xử lý

Việc xử lý thông tin tại mỗi nơ-ron có thể xem là gồm hai phần: xử lý tín hiệu vào(input) và đưa tín hiệu ra (output) Tương ứng với phần vào của mỗi nơ-ron là một

hàm tương tác (interaction) f, hàm này kết hợp các thông tin truyền tới nơ-ron và tạo

thành thông tin đầu vào tổng hợp (gọi là net input) của nơ-ron đó

Một nơ-ron thứ i trong mạng thường có hàm fi ở dạng tuyến tính như sau :

m

f i ∆ net i = ∑w ij x j − θi

j = 1

Thao tác thứ hai trong mỗi nơ-ron là tính giá trị đầu ra tương ứng với giá trị đầu

vào f thông qua hàm kích hoạt hay còn gọi là hàm chuyển g(f) (hàm kích hoạt) Một số

hàm chuyển thường được sử dụng:

Trang 35

32

Trang 36

hệ thống các nơ-ron trong bộ não con người Tuy nhiên, trong bộ não của con người,các tế bào nơ-ron liên kết với nhau chằng chịt và tạo nên một mạng lưới vô cùng phứctạp.

Các loại mạng nơ-ron nhân tạo được xác định bởi cách liên kết giữa các nơ-ron,trọng số của các liên kết đó và hàm chuyển tại mỗi nơ-ron Các hình vẽ dưới đây thểhiện các cách kết nối khác nhau

Hình 2.4 Mạng nơ-ron nhân tạo chỉ có một nút và có sự phản hồi

Hình 2.5 Mạng nơ-ron truyền thẳng một lớp (Single-layer feedforward network)

Mạng nơ-ron truyền thẳng một lớp là loại mạng chỉ có lớp nơ-ron đầu vào và mộtlớp nơ-ron đầu ra (thực chất lớp nơ-ron đầu vào không có vai trò xử lý, do đó ta nóimạng chỉ có một lớp) Loại mạng này còn được gọi là mạng perceptron một lớp Mỗi

nơ-ron đầu ra có thể nhận tín hiệu từ các đầu vào x 1 , x 2 , …, x m để tạo ra tín hiệu đầu ratương ứng

Hình 2.6 Mạng nơ-ron truyền thẳng nhiều lớp

(Multi-layer feedforward network).

Định dạng
Số trang	73
Dung lượng	721,44 KB