Hiện nay, các kỹ thuật khaiphá dữ liệu được ứng dụng rộng rãi trong các lĩnh vực phân tích dữ liệu hỗ trợ ra quyếtđịnh trong điều trị y học, giáo dục, thương mại, tài chính,… Định giá đấ
Trang 1ĐỒ ÁN MÔN HỌC
GVHD: PGS TS Đỗ Phúc HVTH: Lê Thành Nguyên MSHV: CH1301102
TP HCM, Tháng 06 năm 2014
MÔN: HỆ HỖ TRỢ RA QUYẾT ĐỊNH
ỨNG DỤNG CÂY QUYẾT ĐỊNH XÁC ĐỊNH YẾU TỐ CẤU THÀNH
GIÁ ĐẤT ĐAI
Trang 2MỤC LỤC i
DANH MỤC HÌNH ii
PHẦN 1: MỞ ĐẦU 1
PHẦN 2: TỔNG QUAN 2
2.1. CÂY QUYẾT ĐỊNH 2 2.1.1. Giới thiệu 2 2.1.2. Entropy 2 2.1.3. Information Gain 3 2.2 DTREG 4 2.2.1. Giới thiệu 4 2.2.1. Ưu điểm của DTREG 5 2.3. ĐỊNH GIÁ ĐẤT ĐAI 6 2.3.1. Khái niệm và đặc điểm đất đai 6 2.3.2. Khái niệm giá trị đất đai 7 2.3.3. Định giá đất đai 8 PHẦN 3: SỬ DỤNG DTREG XÁC ĐỊNH YẾU TỐ CẤU THÀNH GIÁ ĐẤT ĐAI 10
Trang 3TÀI LIỆU THAM KHẢO 22
Trang 4Hình 1 Phương sai quá trình phân tích 10
Hình 2 Giao diện phần mềm DTREG 11
Hình 3 Tổng hợp mức giá đất ở đô thi 12
Hình 4 Phân cấp yếu tố cấp đường tại một nút 13
Hình 5 Phân cấp yếu tố khu vực cho đất ở đô thị 14
Hình 6 Phân cấp yếu tố khoảng cách đến chợ thị trấn 15
Hình 7 Phân cấp yếu tố khả năng kinh doanh 16
Hình 8 Phân cấp yếu tố lớp phủ bề mặt đường 16
Hình 9 Phân cấp yếu tố vị trí 17
Hình 10 Phân cấp tại nút 34 18
Hình 11 Kết quả định giá đất theo mô hình cây quyết định 20
Trang 5PHẦN 1: MỞ ĐẦU
Khai phá dữ liệu là một lĩnh vực khoa học liên ngành mới xuất hiện gần đây nhằmkhám phá các tri thức trong các cơ sở dữ liệu lớn, trích xuất những thông tin ẩn dưới dạngcác quy luật, ràng buộc, quy tắc hữu ích cho các tổ chức, doanh nghiệp,… Các kỹ thuậtđược sử dụng trong khai phá dữ liệu bao gồm: phân lớp và dự đoán, phân cụm, luật kếthợp, phân tích hồi quy và phân tích các mẫu theo thời gian Hiện nay, các kỹ thuật khaiphá dữ liệu được ứng dụng rộng rãi trong các lĩnh vực phân tích dữ liệu hỗ trợ ra quyếtđịnh trong điều trị y học, giáo dục, thương mại, tài chính,…
Định giá đất đai là việc xác định giá trị đất đai căn cứ vào các thuộc tính tự nhiên,kinh tế và xã hội của đất đai trong từng bối cảnh kinh tế cụ thể Trong nền kinh tế thịtrường, giá trị của đất đai phản ánh hiệu quả kinh tế từ việc sử dụng đất đai, chủ yếu phụcthuộc vào các yếu tố đặc điểm sức sản xuất và vị trí đất đai trong không gian địa lý - kinh
tế Tuy nhiên, trong từng lĩnh vực khác nhau mức độ ảnh hưởng của các yếu tố này đếngiá trị đất đai cũng khác nhau
Theo quy định của pháp luật đất đai hiện hành định giá đất đai là nội dung quản lýquan trọng, có nhiệm vụ cung cấp căn cứ khoa học hỗ trợ cho việc lập quy hoạch sử dụngđất đai, hoạch định các chính sách tài chính đất đai Mức độ chính xác của việc định giáđất đai không chỉ phụ thuộc vào việc xác định số lượng và loại yếu tố đặc điểm đất đai,
mà còn phụ thuộc quyết định vào việc định lượng mối quan hệ giữa các yếu tố đặc điểmnày với giá trị đất đai
Tuy nhiên, hiện nay việc định lượng các mối quan hệ này còn mang tính kinhnghiệm chủ quan, với nhiều yếu tố mang đặc điểm định tính, gây khó khăn cho việc xâydựng mối quan hệ lượng hóa Chính vì vậy, để lượng hóa sự ảnh hưởng của các yếu tốđến giá trị đất đai một cách khoa học phải sử dụng các kỹ thuật khai phá dữ liệu Cáccông cụ này được sử dụng rộng rãi để phân tích dữ liệu trong các lĩnh vực kinh tế, xã hội,sinh học,… đặc biệt là mô hình hồi quy cây quyết định (decision tree) và phần mềmDTREG (Phillip H Sherrod, 2003)
Nội dung chuyên đề này sẽ đề cập đến mô hình hồi quy dựa trên cây quyết địnhđược phân tích từ phần mêm DTREG để xác định các yếu tố quan trong cấu thành giá đấtđai
Trang 6PHẦN 2: TỔNG QUAN
2.1 CÂY QUYẾT ĐỊNH
2.1.1 Giới thiệu
Trong lý thuyết quyết định (chẳng hạn quản lí rủi ro), một cây quyết định là một
đồ thị của các quyết định và các hậu quả có thể của nó (bao gồm rủi ro và hao phí tàinguyên) Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt được mụctiêu mong muốn Các cây quyết định được dùng để hỗ trợ quá trình ra quyết định Câyquyết định là một dạng đặc biệt của cấu trúc cây
Trong lĩnh vực máy học, cây quyết định là một kiểu mô hình dự báo, nghĩa là mộtánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sựvật/hiện tượng Mỗi một nút trong tương ứng với một biến; đường nối giữa nó với nútcon của nó thể hiện một giá trị cụ thể cho biến đó Mỗi nút lá đại diện cho giá trị dự đoáncủa biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi từ nútgốc tới nút lá đó Kỹ thuật máy học dùng trong cây quyết định được gọi là học bằng câyquyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định
Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai phá dữliệu Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho cácphân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó Mộtcây quyết định có thể được học bằng cách chia tập hợp nguồn thành các tập con dựa theomột kiểm tra giá trị thuộc tính Quá trình này được lặp lại một cách đệ quy cho mỗi tậpcon dẫn xuất Quá trình đệ quy hoàn thành khi không thể tiếp tục thực hiện việc chia táchđược nữa, hay khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫnxuất Cây quyết định là một phương tiện có tính mô tả dành cho việc tính toán các xácsuất có điều kiện Cây quyết định có thể được mô tả như là sự kết hợp của các kỹ thuậttoán học và tính toán nhằm hỗ trợ việc mô tả, phân loại và tổng quát hóa một tập dữ liệucho trước
Ra quyết định dựa trên cây quyết định là quá trình học trên tập dữ liệu huấn luyệntheo mô hình cây quyết định và sử dụng dự đoán các mẫu dữ liệu trong tương lai
2.1.2 Entropy
Entropy là đại lượng dùng để đo tính thuần nhất của một tập dữ liệu Entropy củamột tập S được tính theo công thức:
Trang 7Entropy ( S)=−P+ ¿ log2 ¿¿
Trong trường hợp các mẫu dữ liệu có hai thuộc tính phân lớp “yes” (+), “no” (-)
Ký hiệu P+ là để chỉ tỷ lệ các mẫu có giá trị của thuộc tính quyết định là “yes”, và P- là tỷ
lệ các mẫu có giá trị của thuộc tính có quyết định là “no” trong tập S
Trường hợp tổng quát, đối với tập con S có n phân lớp thì ta có công thức sau:
Nếu trong tập có số mẫu phân bố đều nhau vào các lớp thì Entropy(S) = 1
Các trường hợp còn lại 0 < Entropy(S) < 1
2.1.3 Information Gain
(Viết tắt Gain) là đại lượng dùng để đo mức độ giảm entropy mong đợi của mộtthuộc tính được lựa chọn cho việc phân lớp Đại lượng này được tính thông qua hai giá trịInformation và Entropy
Cho tập dữ liệu S gồm có n thuộc tính Ai(i=1,2, …, n) giá trị Information củathuộc tính Ai ký hiệu là Information (Ai) được xác định bởi công thức:
Trang 82.2 DTREG
2.2.1 Giới thiệu
DTREG là chương trình phân tích thống kê mạnh mẽ, có khả năng xây dựng câyquyết định phân lớp, hồi quy và máy vector hỗ trợ (SVM) để mô tả mối liên hệ giữa dữliệu và có thể sử dụng để dự đoán giá trị khảo sát trong tương lai
DTREG chấp nhận tập hợp dữ liệu chứa nhiều dòng với một cột cho mỗi biến Mộttrong các biến là biến mục tiêu, giá trị của nó được mô hình hóa và được dự đoán như là mộthàm của biến dự báo DTREG phân tích giá trị và cho ra một mô hình chỉ cách tốt nhất để dựđoán giá trị của biến kết quả dựa trên giá trị biến dự báo
Ngoài việc xây dựng mô hình dự báo, DTREG còn đo chất lượng mô hình
Chương trình DTREG dựa trên độ thuần nhất của dữ liệu entropy, phân tích tậpgiá trị dữ liệu và tạo ra cây quyết định Cây quyết định có thể sử dụng để dự đoán giá trịcủa biến mục tiêu dựa trên những giá trị của những biến dự báo Một dự đoán được tạobằng cách căn cứ vào cây từ gốc, theo nhánh trái hoặc phải dựa vào giá trị biến dự báocho đến khi tới lá Mỗi lá chỉ ra giá trị có khả năng phù hợp nhất cho biến mục tiêu đãcho bởi giá trị dự báo dẫn đến lá
DTREG là một ứng dụng thiết thực được cài đặt dễ dàng trên các hệ thốngWindows bất kỳ DTREG dùng giá trị phân cách dấu phẩy những file dữ liệu để dễ dàngtạo ra hầu hết các nguồn dữ liệu bất kỳ Một khi bạn tạo những file dữ liệu của bạn, ngaykhi cung cấp nó vào trong DTREG, và để DTREG làm tất cả công việc tạo cây quyếtđịnh, SVM hoặc mô hinh Logistic Regression Ngay cả những phân tích phức tạp cũng cóthể thực hiện trong vài phút
DTREG sử dụng V-fold cross-validation để quyết định kích thước tối ưu của cây.Thủ tục này để tránh vấn đề vượt giới hạn nơi đó cây phát sinh phù hợp tốt với dữ liệu
“huấn luyện” nhưng không cung cấp dự đoán chính xác dữ liệu mới
DTREG sử dụng kỹ thuật tinh vi để giải quyết việc chia thay thế dữ liệu
(Surrogate splitters ) trong trường hợp thiếu giá trị Điều này cho phép những trường hợp
có giá trị và một vài trường hợp thiếu giá trị được sử dụng để dự đoán giá trị cho nhữngtrường hợp thiếu giá trị
Phiên bản thương mại của DTREG có thể sử dụng không giới hạn số dòng dữ liệu.DTREG có thể xây dựng cây phân lớp với số lượng lên đến hàng trăm biến dự báo được
Trang 9sử dụng một thuật toán gom cụm hiệu quả so với nhiều chương trình cây quyết định kháchạn chế biến dự báo tối đa là 16.
2.2.1 Ưu điểm của DTREG
Cây quyết định được xây dựng dễ dàng: Ngay khi cung cấp tập dữ liệu vàoDTREG, nó sẽ làm tất cả các công việc xây dựng cây quyết định và tỉa (rút gọn) cây mộtcách hiệu quả nhất
Cây quyết định hiển thị trực quan, dễ hiểu: Trái với sự phức tạp của các mô hìnhhồi quy phi tuyến, hay các mạng neural, cây quyết định cung cấp một mô hình trình bày
dữ liệu rõ ràng, logic Chúng có thể được hiểu và sử dụng bởi những người không cónăng khiếu toán học
Xử lý cả hai loại biến liên tục và rời rạc: Biến rời rạc như là giống, chủng tộc, tínngưỡng tình trạng hôn nhân và vùng địa lý thì rất khó khăn để mô hình hóa bằng cách sửdụng kỹ thuật số giống như hồi quy và mạng neural Trái lại, biến rời rạc được xử lý dễdàng bởi cây quyết định
Có thể thực hiện phân lớp cũng như hồi quy: Giá trị dự đoán từ cây quyết địnhkhông chỉ đơn giản là giá trị số nhưng cũng có thể dự đoán những loại như là giốngđực/cái, độc ác/hiền lành, thường xuyên mua/ thỉnh thoảng mua, v.v…
Chấp nhận dữ liệu kiểu text cũng như dữ liệu kiểu số: Nếu bạn có những biến rờirạc với các giá trị như “nam”, “nữ”, “đã kết hôn”, v.v , không cần mã hóa chúng như là
dữ liệu số
Tự động xử lý sự tương tác giữa các biến: DTREG có thể phân biệt ý nghĩa khácnhau giữa đàn ông/đàn bà, người sống ở miền Bắc và miền Nam v.v… Những tác độngnày được biết như những sự tương tác biến Cây quyết định tự động phân phối nhữngtương tác này bằng cách chia những trường hợp và phân tích mỗi nhóm một cách riêngbiệt DTREG nhận ra những biến quan trọng: Bằng cách xem xét những biến nào được sửdụng để chia những nút gần đỉnh của cây, có thể xem xét nhanh chóng những biến quantrọng nhất Bên cạnh đó, DTREG còn phân tích tất cả sự chia tách đã phát sinh từ mỗibiến và chọn lựa chia tách đại diện
Trang 102.3 ĐỊNH GIÁ ĐẤT ĐAI
2.3.1 Khái niệm và đặc điểm đất đai
Đất đai là sự vật địa lý - kinh tế, kết quả của mối quan hệ tổng hoà giữa đất vàhoạt động kinh tế xã hội của con người trong cộng đồng dân tộc trên một lãnh thổ nhấtđịnh Về mặt không gian thì đất đai bao gồm cả phần diện tích bề mặt với không gian bêntrên và bề sâu trong lòng đất Đất đai được hiểu ở góc độ tổng thể là trái đất hay trongphạm vi một không gian giới hạn, như trong phạm vi lãnh thổ quốc gia là quỹ đất đaiquốc gia, trong phạm vi địa giới hành chính là quỹ đất đai của cấp hành chính tương ứng,trong phạm vi ranh giới địa chính là quỹ đất đai của chủ thể sử dụng đất đai
Đất đai là sự vật địa lý - kinh tế nên nó có hai thuộc tính tự nhiên và xã hội tạo rakhả năng đáp ứng các nhu cầu hoạt động kinh tế - xã hội của con người
Thuộc tính tự nhiên bao gồm các đặc tính không gian như diện tích bề mặt, hìnhthể, chiều dài, chiều rộng và vị trí cùng với các đặc điểm về địa chất, địa chấn, địa hình,địa mạo và các tính chất sinh lý hóa của đất kết hợp với giá trị đầu tư vào đất đai
Thuộc tính xã hội của đất đai chính là vị thế của đất đai - là hình thức đo sự mongmuốn về mặt xã hội gắn với đất đai tại một vị trí nhất định, là những thuộc tính phi vậtthể Vị thế cũng được hiểu là tổng hòa các quan hệ xã hội, được hình thành từ các tươngtác thị trường và phi thị trường Vị thế đất đai được xác định thông qua số lượng, chấtlượng và cường độ quan hệ xã hội Đất đai có vị thế cao hay thấp phụ thuộc vào khả năngthiết lập cho người sử dụng đất đai được nhiều hay ít mối quan hệ với các nhà cung cấpdịch vụ đô thị, với những người láng giềng và với các đối tác khác… Cường độ quan hệ
bị ảnh hưởng bởi yếu tố khoảng cách không gian, giảm dần phi tuyến theo sự tăng dầncủa khoảng cách
Vị thế xã hội của đất đai là phạm trù tổng hợp các điều kiện kinh tế - xã hội vàpháp luật cấu thành giá đất Vị thế đất đai được phản ánh thông qua các đặc điểm kinh tế
- xã hội và pháp luật của đất đai Các thửa đất có các điều kiện kinh tế - xã hội và phápluật như nhau thì có cùng một mức vị thế xã hội
Vị thế đất đai khác với vị trí đất đai Vị thế là thuộc tính xã hội của đất đai, còn vịtrí là thuộc tính không gian của nó Vị thế của đất đai là thuộc tính không gian tâm lý củacon người, còn vị trí của đất đai là thuộc tính không gian địa lý tự nhiên Khái niệm vị thếkhông đồng nhất với khái niệm vị trí, “Đồng sàng, dị mộng”
Trang 11Vị trí địa lý của đất đai là bất biến, nhưng khả năng sinh lời của đất đai thay đổitheo sự thay đổi của các điều kiện kinh tế, xã hội và pháp luật.
Vậy tại sao trong nghiên cứu cũng như trong thực tế định giá đất đai thường chỉnói đến vị trí? Phải chăng vị trí địa lý là yếu tố cấu thành giá trị của đất đai, là thuộc tínhquan trọng mà các nhà định giá cần phải quan tâm?
Trước hết cần xem xét mối quan hệ giữa vị trí địa lý của đất đai và giá trị của nó
Từ thực tế có thể khẳng định giữa chúng không có quan hệ với nhau Vị trí tự bản thân
nó, tức vị trí trong trạng thái “trần trụi” không có ảnh hưởng tác động đến giá trị đất đai,không phải là thuộc tính mà nhà định giá cần quan tâm
Thuộc tính vị trí của đất đai mà các nhà định giá muốn nói đến chính là vị trí trongkhông gian kinh tế - xã hội Ở đây, có thể nói, vị trí địa lý đã được bao phủ bởi các thuộctính kinh tế - xã hội của đất đai, đấy chính là vị thế, thuộc tính tạo ra “khả năng sinh lờicủa vị trí”, lợi ích so sánh của các đơn vị diện tích đất đai ở các vị trí khác nhau
Đất đai có khả năng tái tạo và nâng cao chất lượng về mặt tự nhiên và vị thế xã hộithông qua hoạt động đầu tư của con người
Ngoài ra đất đai còn có một số đặc tính khác như: tính cố định, tính khan hiếm,tính dị biệt, tính thích ứng và tính tăng trị
- Tính dị biệt tức sự khác biệt, nhưng chỉ khác biệt tương đối Có nghĩa là các thửađất đai khác nhau về mặt lượng, mà không khác nhau về mặt chất
- Tính thích ứng là khả năng sử dụng vào các mục đích khác nhau
- Tính tăng trị có nghĩa là giá trị đất đai có xu hướng tăng dần do nhu cầu và giá trịđầu tư vào đất đai ngày càng tăng
2.3.2 Khái niệm giá trị đất đai
Trong thị trường giá cả của đất đai được hình thành thông qua quan hệ cung cầu.Khi có sự cân bằng cung cầu trên thị trường hình thành giá cả cân bằng thị trường của đấtđai Giá cả cân bằng này sẽ thay đổi khi có sự mất cân đối cung cầu: giá giảm khi cunglớn hơn cầu và tăng khi cung nhỏ hơn cầu trong điều kiện các yếu tố khác không thayđổi Giá cả thị trường là hình thức biểu hiện bằng tiền của giá trị thị trường
Giá trị đất đai bao gồm giá trị hữu hình và giá trị vô hình Giá trị hữu hình ứng vớicác thuộc tính không gian (diện tích, hình thể, vị trí) cùng với các đặc điểm về địa hình,
Trang 12địa mạo, địa chất, địa chấn và các tính chất sinh lý hoá của đất kết hợp với giá trị đầu tưphát triển hạ tầng đất đai Giá trị vô hình ứng với vị thế xã hội của đất đai.
Cần phân biệt các loại giá trị: giá trị cảm nhận, giá trị tài chính:
- Giá trị cảm nhận là trạng thái thỏa mãn tâm lý của con người khi tiêu dùng sản
phẩm hàng hóa và dịch vụ Giá trị cảm nhận bao gồm giá trị tình cảm, giá trị thẩm mỹ,giá trị nghệ thuật, giá trị nhận thức,…
- Giá trị tài chính là hành vi trao đổi của con người để có được hay sẵn sàng từ bỏ
sự thỏa mãn khi tiêu dùng sản phẩm hàng hóa và dịch vụ Giá trị tài chính biểu hiệnthông qua các loại giá cả: giá rao mua, giá rao bán, giá mua bán và giá cả thị trường
Giá trị tài chính (thể hiện thông qua các loại giá rao mua, rao bán hay giá muabán) phụ thuộc vào mức độ cảm nhận về lợi ích thu được từ đất đai Cùng một thửa đấtthì lợi ích cảm nhận được hoàn toàn khác nhau đối với mỗi cá nhân Mỗi người có mộthoàn cảnh sống khác nhau, vị thế xã hội khác nhau, trình độ nhận thức và kinh nghiệmkhác nhau thì nhận định khác nhau về mức độ quan trọng và lợi ích của đất đai, nên đánhgiá khác nhau về giá trị cảm nhận và giá trị tài chính
Giá rao mua và giá rao bán của thửa đất được xác lập bằng cách tham chiếu thôngtin giá cả trên thị trường (từ người hàng xóm, từ báo chí hay người tư vấn thẩm định giá).Thông thường giá rao bán được xác lập cao hơn, giá rao mua – thấp hơn so với giá trị
thực của đất đai theo quy luật mua rẻ bán đắt
Giá mua bán được hình thành trong từng giao dịch cụ thể, dao động trong khoảnggiữa mức giá rao bán và giá rao mua Mức giá mua bán hình thành cao hay thấp phụthuộc vào tính cấp thiết của người bán hay người mua và cũng phụ thuộc vào nghệ thuậtthương lượng trong mua bán
Giá cả thị trường được hình thành thông qua quan hệ cung cầu thị trường về hànghóa đất đai, là giá trị trung bình của các mức giá mua bán cụ thể và mức giá này đượcchấp nhận bởi đa số
2.3.3 Định giá đất đai
Định giá đất đai là việc xác định giá trị tài chính của đất đai từ các đặc điểm kinh
tế, xã hội của chúng làm căn cứ thực hiện giao dịch liên quan đến đất đai
Để định giá đất đai trước tiên cần phân loại vùng giá trị (hay còn gọi là vùng vịtrí) Vùng giá trị là một khái niệm thuộc phạm trù định giá để chỉ một khu vực địa lý mà
Trang 13tại đó các thửa đất cùng chịu ảnh hưởng bởi tác động của các điều kiện tự nhiên, kinh tế,
xã hội và pháp luật tương tự nhau hoặc gần tương tự nhau, có một mức giá thị trườngnhất định
Giá trị đất đai bao gồm giá trị hữu hình và giá trị vô hình Giá trị hữu hình ứng vớicác thuộc tính không gian (diện tích, hình thể, vị trí) cùng với các đặc điểm về địa hình,địa mạo, địa chất, địa chấn và các tính chất sinh lý hoá của đất kết hợp với giá trị đầu tưphát triển hạ tầng đất đai Giá trị vô hình ứng với vị thế xã hội của đất đai Như vậy đểxác định được giá trị đất đai, chúng ta phải tiến hành lượng hóa các yếu tố hữu hình vàyếu tố vô hình ảnh hưởng đến giá trị đất
Để giải quyết vấn đề lượng hóa các nhà kinh tế lượng đề xuất sử dụng kỹ thuậtphân tích hồi quy tuyến tính bằng phương pháp bình phương bé nhất xác định hàm sốbiểu thị sự phụ thuộc năng suất cây trồng hay giá trị đất đai vào các yếu tố đặc điểm đấtđai Hàm số được xác định trong kinh tế học thường gọi là hàm sản xuất hay hàm giáhedonic Trong các hàm này biến số phụ thuộc là giá trị đất đai, còn biến số độc lập là cácyếu tố đặc điểm đất đai, tất cả các biến số thuộc loại liên tục hay nhị nguyên Hàm hồiquy được xác định bằng các phần mềm phân tích thống kê hiện có Eview, SPSS,NLREG,…
Tuy nhiên, trong thực tế không phải tất cả các yếu tố đặc điểm tự nhiên, kinh tế và
xã hội của đất đai đều là các biến số thuộc loại liên tục hay có thể được chuyển về loạinhị nguyên, mà còn là các đại lượng biến thiên có miền giá trị là các phạm trù, được gọi
là biến rời rạc hay là biến phạm trù Với biến phạm trù thì kỹ thuật và công cụ phân tíchhồi quy nêu trên lại tỏ ra kém hiệu quả trong việc xử lý dữ liệu Các kỹ thuật và công cụkhai phá dữ liệu được phát triển gần đây trong lĩnh vực khoa học công nghệ thông tin thìlại tỏ ra hiệu quả và được ứng dụng rộng rãi trong việc xử lý dữ liệu về môi trường, sinhhọc, kinh tế, xã hội, chính trị, với các biến số liên tục và biến rời rạc bằng các mô hìnhcây quyết định (decision tree) và phần mềm DTREG (Phillip H Sherrod, 2003)