Trong đó: -k là độc lập nhưng không có phân phối một cách đồng nhất- Xk là véc tơ q1 chiều quyết định tới trung bình có điều kiện của Zk*Bản chất của mô hình hồi qui probit có thứ tự l
Trang 1MỞ ĐẦU
Đất nước ta đang trên con đường hội nhập kinh tế quốc tế, đặc biệt là việcchúng ta tham gia tổ chức thương mại quốc tế WTO đã mang lại cơ hội to lớncho các doanh nghiệp trong nước để mở rộng đầu tư, phát triển thương hiệu,dần dần tiến ra trường quốc tế và đồng thời cũng đã mở ra cơ hội cho cácdoanh nghiệp quốc tế vào Việt Nam Trong các doanh nghiệp đó phải kể đếncác doanh nghiệp kinh doanh trong lĩnh vực tài chính - ngân hàng, nhữngdoanh nghiệp này đang đi tiên phong trong việc nắm bắt thời cơ tạo bước pháttriển mới cho chính mình và cho nền kinh tế Việt Nam
Song song cùng với những tiềm năng lớn đó là các rủi ro khó lường khi cácngân hàng bắt tay làm việc với các doanh nghiệp khi họ muốn vay vốn để đầu
tư, ví dụ như việc lừa đảo, thông tin sai lệch, Và chính điều này đã khiếncho các ngân hàng lúng túng trong việc ra quyết định có thể làm mất đi những
cơ hội đáng quý của mình
Do vậy vấn đề đặt ra là làm thế nào để giảm thiểu các nguy cơ rủi ro cho cáccác ngân hàng trong việc liên kết với các đối tác trong nước cũng như nướcngoài
Một trong các biện pháp cho bài toán này là thiết lập một mô hình phân loạidoanh nghiệp cho phép đánh giá các doanh nghiệp dựa vào một số các tiêuchí riêng, từ đó tạo điều kiện cho các ngân hàng hiểu rõ hơn về các doanhnghiệp mà họ sắp cộng tác, đồng thời cũng tạo thêm một kênh thông tin chocác doanh nghiệp trong và ngoài nước trong việc lựa chọn đối tác kinh doanh.Việc phát triển một mô hình như vậy đối với tình hình thực tế ở Việt Nam làrất cần thiết và bức bách
Bài toán phân lớp doanh nghiệp thực ra không còn mới trên thế giới, nhưnghiện tại việc áp dụng vào Việt Nam là vẫn còn rất hạn chế Một phần là doviệc hạn chế về mặt thông tin cần thu thập và sự không chính xác của các môhình hồi qui cổ điển đối với các biến trong thực tế
Trang 2Gần đây trên thế giới đã đưa ra một phương pháp có thể giải quyểt triệt để bàitoán này – đó là phương pháp dựa theo mô hình dữ liệu hỗn hợp (mixed data)
và hàm promixity ( hàm “gần gũi” ) Phương pháp này có thể áp dụng chomọi loại biến trong thực tế, chính vì vậy mà nó đã được áp dụng trong rấtnhiều lĩnh vực không chỉ ngành tài chính ngân hàng mà cả trong điều tra xãhội, nhân chủng học, Và kết quả thu được có độ chính xác vượt trội so vớicác phương pháp cổ điển Ở Việt Nam hiện nay có rất ít các công trình nghiêncứu về phương pháp này
Hà Nội, ngày 25/01/2008
Trang 3PHẦN I: GIỚI THIỆU CHUNG
1.1 Mục đích của chấm điểm tín dụng và phân loại khách hàng
Việc chấm điểm tín dụng và xếp hạng khách hàng được thực hiện nhằm hỗtrợ ngân hàng cho vay (NHCV) trong việc:
- Ra quyết định cấp tín dụng: xác định hạn mức tín dụng, thời hạn, mức lãisuất, biện pháp bảo đảm tiền vay, phê duyệt hay không phê duyệt
- Giám sát và đánh giá khách hàng tín dụng khi khoản tín dụng đang còn dưnợ; Hạng khách hàng cho phép NHCV lường trước những dấu hiệu cho thấykhoản vay đang có chất lượng xấu đi và có những biện pháp đối phó kịp thời.Xét trên góc độ quản lý toàn bộ danh mục tín dụng, hệ thống chấm điểm tíndụng và xếp hạng khách hàng còn nhằm mục đích:
- Phát triển chiến lược marketing nhằm hướng tới các khách hàng có ít rủi
ro hơn
Ước lượng mức vốn đã cho vay sẽ không thu hồi được để trích lập dự phòngtổn thất tín dụng
1.2 Khái niệm hệ thống chấm điểm tín dụng và phân loại khách hàng
Hệ thống chấm điểm tín dụng và xếp hạng khách hàng của là một quy trìnhđánh giá xác suất một khách hàng tín dụng không thực hiện được các nghĩa
vụ tài chính của mình đối với ngân hàng cho vay (NHCV) như không trảđược lãi và gốc nợ vay khi đến hạn hoặc vi phạm các điều kiện tín dụng khác.Các tình huống này là các rủi ro tín dụng trong hoạt động cấp tín dụng củaNHCV Mức độ rủi ro tín dụng thay đổi theo từng khách hàng và được xácđịnh thông qua quá trình đánh giá bằng thang điểm, dựa vào các thông tin tàichính và phi tài chính có sẵn của khách hàng tại thời điểm chấm điểm tíndụng
Trang 4Đối với mỗi tiêu chí trên bảng tiêu chuẩn đánh giá các tiêu chí, chỉ số thực tếgần với trị số nào nhất thì áp dụng cho loại xếp hạng đó, nếu nằm giữa hai trị
số thì ưu tiên nghiêng về phía loại tốt nhất
Trong trường hợp khách hàng có bảo lãnh của một tổ chức có năng lực tàichính mạnh hơn, thì khách hàng đó có thể được xếp hạng tín dụng tươngđương hạng tín dụng của bên bảo lãnh Quy trình chấm điểm tín dụng của bênbảo lãnh cũng giống như quy trình áp dụng cho khách hàng
1.4 Phân nhóm khách hàng
Do tính chất khác nhau giữa các khách hàng, để chấm điểm tín dụng đượcchính xác, khoa học, ta phân chia các khách hàng vay thành hai nhóm:
- nhóm khách hàng là doanh nghiệp
- nhóm khách hàng cá nhân (bao gồm cá nhân và hộ gia đình)
Trong đề tài của mình em sẽ đi sâu vào bài toán phân loại khách hàng doanhnghiệp
Trang 51.5 Các công cụ toán học áp dụng trong bài toán phân lớp khách hàng
Có nhiều mô hình được đưa ra cho bài toán phân lớp, trong đó phải kể đến môhình hồi qui probit và gần đây là mô hình dữ liệu hỗn hợp
1.5.1 Mô hình hồi qui Probit tổng quát
Trong ngành khoa học thống kê, mô hình Probit là một kỹ thuật được nhiềungười biết tới như là một mô hình tổng quát hóa của mô hình tuyến tính Các
mô hình Probit được Chester Ittner Bliss đưa ra lần đầu tiên vào năm 1935 Với Y là một biến nhị thức, X là một véctơ của các biến hồi qui Mô hình hồiqui Probit giả sử rằng:
Trang 6Trong đó: -k là độc lập nhưng không có phân phối một cách đồng nhất
- Xk là véc tơ q1 chiều quyết định tới trung bình có điều kiện của Zk*Bản chất của mô hình hồi qui probit có thứ tự là việc giả sử mối quan hệ của
Zk và Zk* theo cách như sau:
Và các số sj là các giá trị tạo thành không gian S của Zk
Mục đích của kỹ thuật hồi qui probit là nhằm bóc tách mối quan hệ giữa S*
Đương nhiên, trong lý thuyết thì m càng tăng, nghĩa là có càng nhiều khônggian trạng thái, thì kết quả càng chính xác Tuy nhiên trong thực tế thì dữ liệuthực tế sẽ quyết định giới hạn của độ chính xác của kỹ thuật vì ta thấy rằng sẽ
Trang 7không có giá trị nào quan sát được trong các trạng thái cực biên nếu ta tăng mlên quá lớn, trong trường hợp này một số tham biến không nhận dạng được và
do vậy ta không thể ước lượng được chúng
Ta thấy rằng k được giả sử là độc lập có điều kiện nhưng không có phân
phối giống nhau
Cấu trúc phụ thuộc của biến quan sát được của Zk được chỉ ra một cách rõràng như sau:
nÕu i=1
1 1
Trong đó (.) là hàm phân phối tích lũy chuẩn
Để có một cái nhìn rõ hơn về mô hình hồi qui probit có thứ tự, để ý rằng xácsuất của sự thay đổi bất kỳ nào của Zk được xác định bởi việc trung bình có
(1.9)
Trang 8điều kiện nằm trong khoảng nào tương ứng với các biên của phân hoạch Do
đó, với một trung bình có điều kiện X k ’ cho trước, thay đổi biên của phânhoạch sẽ làm thay đổi xác suất quan sát mỗi trạng thái Trong thực tế, bằngviệc thay đổi biên này một cách phù hợp, mô hình hồi qui probit có thứ tự cóthể thay thế bất kỳ phân phối đa thức nào Điều này nghĩa là giả thiết về tínhchuẩn của của mô hình probit có thứ tự không đóng vai trò đặc biệt nào trongviệc xác định xác suất của các trạng thái Một phân phối Logistic cũng có thểgiả quyết tốt tương tự
Tuy nhiên, do ta rất khó khăn để tìm được phương sai có đỉều kiện với sai sốkhông đổi của mô hình probit nên ta chọn kỹ thuật Gauss
Với một phân hoạch cho trước, giá trị của trung bình có điều kiện X k ’cànglớn có nghĩa là có càng nhiều khả năng quan sát được các trạng thái ở vị trícực dương Đương nhiên, việc đánh số các không gian là tùy ý, song mô hìnhhổi qui probit sử dụng sự sắp xếp tự nhiên các không gian trạng thái
Bằng cách sử dụng số liệu để tính toán các biên của phân hoạch , các hệ số
của trung bình có điều kiện và phương sai có điều kiện k2 , mô hình hồiqui probit có thể nắm bắt được mối quan hệ của các không gian trạng thái liêntục không quan sát được S* và không gian các trạng thái rời rạc quan sát được
S như là một hàm của các biến Xk và Wk
1.5.3 Mô hình dữ liệu hỗn hợp
Nhận xét:
Ta thấy rằng các phương pháp trên đều có các ràng buộc biến, ví dụ giả sử
(.) là hàm phân phối tích lũy chuẩn, Trong thực tế, không thể có biến nào
mà tuân theo đúng các giả thiết đó Do vậy các phương pháp này không thểtránh khỏi sai lệch khi áp dụng vào bài toán thực tế
Gần đây trên thế giới đã đưa ra một mô hình có thể giải quyết trọn vẹn bàitoán trên – đó là mô hình dữ liệu hỗn hợp (Mixed Data) Trong đó đưa ra cáckhái niệm về đối tượng, đặc trưng của đối tượng, độ tương tự cũng như độkhác biệt giữa các đối tượng và xây dựng khoảng cách giữa các đối tượng từ
Trang 9đó phát triển phương pháp mới đáp ứng được việc giải bài toán phân lớp mộtcách tổng quát.
Trang 10PHẦN II: MÔ HÌNH DỮ LIỆU HỖN HỢP
2.1 Các khái niệm về độ tương tự và độ khác biệt giữa các đối tượng
Trong toán học, mỗi một quy trình thì luôn có nguồn gốc, thứ tự Bạn muốngiải quyết một vấn đề mang tầm tổng quát trước hết bạn phải xây dựng chomình những kiến thức, công cụ cơ bản Theo nguyên tắc này, muốn xác định
độ tương tự (hoặc độ khác biệt) giữa hai đối tượng ta cần phải hiểu rõ về kháiniệm của chúng
Trước khi đến với khái niệm, chúng ta sẽ có một số phân tích về đối tượng.Đối tượng là những sự vật mà chúng ta có thể gặp bất kì đâu trong cuộc sốngnày, ví dụ: con người, xe cộ… Mỗi một đối tượng thì sẽ có những đặc điểm,tính chất, thể hiện, hoạt động,…riêng Bởi vậy, mỗi một đối tượng sẽ đượcxây dựng dựa trên rất nhiều thuộc tính đặc trưng, và khi đề cập tới mỗi mộtđối tượng trong từng hoàn cảnh cụ thể thì các thuộc tính đặc trưng của nó sẽ
là cơ sở để đánh giá đối tượng ấy Điểm khác biệt cơ bản nhất của đối tượngvới véc tơ đó là đối tượng luôn có thứ nguyên (đơn vị)
2.1.1 Những khái niệm cơ bản
Nhắc lại, khái niệm khoảng cách:
Khoảng cách giữa 2 véc tơ i và j là một giá trị số (kí hiệu dij), và giá trị sốnày phải thỏa mãn 3 điều kiện sau:
dij ≥ 0, khoảng cách luôn luôn dương hoặc bằng 0
dii = 0, khoảng cách từ đối tượng đến chính nó thì bằng 0
dij=dji, khoảng cách có tính chất đối xứng
Khoảng cách là cơ sở để phân biệt so sánh véc tơ, và ứng dụng của nó bị giớihạn trong không gian véc tơ bởi vậy không thể áp dụng khoảng cách để tínhtoán đối với các đối tượng Đề cập lại khoảng cách chỉ với mục đích chochúng ta có một cái hình dung cụ thể hơn về không gian đối tượng Với
Trang 11những hạn chế của khoảng cách như vậy, thì người ta đưa ra các khái niệm về
độ tương tự và độ khác biệt cho không gian đối tượng
Khái niệm độ tương tự:
Độ tương tự được thể hiện dưới dạng giá trị số, mà giá trị của nó phản ảnh một cách cụ thể và đầy đủ mối quan hệ tương đồng giữa hai đối tượng trên
cơ sở các thuộc tính đặc trưng của các đối tượng.
Độ tương tự giữa hai đối tượng i và j được kí hiệu là Sij.Thông thường giá trịcủa Sij rơi vào đoạn [-1,1] hoặc được chuẩn hóa vào đoạn [0,1]
Khái niệm về độ khác biệt
Độ khác biệt được thể hiện dưới dạng giá trị số, mà giá trị của nó phản ánh
sự khác nhau của hai đối tượng dựa trên cơ sở là các thuộc tính đặc trưng của các đối tượng Độ khác biệt của hai đối tượng i và j được kí hiệu là ij
Và giá trị của δij thường nằm trong đoạn [0,1]
2.1.2 Mối quan hệ của độ tương tự và độ khác biệt giữa các đối tượng
Như đã định nghĩa ở trên thì, cả độ tương tự (Sij) và độ khác biệt (δij ) giữa đối
tượng i và đối tượng j đều là giá trị số Nên mối quan hệ giữa chúng sẽ được
biểu diễn dưới dạng những công thức
Trang 12Giả sử S bị giới hạn trong đoạn [0,1], thì công thức quan hệ là:ij
Trong lời nói đầu em chỉ mới đề cập việc ứng dụng độ tương tự và độ khácbiệt giải quyết bài toán phân lớp, nhưng trong thực tế việc ứng dụng của công
cụ này còn phổ biến và hữu ích hơn nữa
2.1.3 Những lợi ích, hiệu quả đạt được một khi xác định được độ tương
tự hoặc độ khác biệt giữa các đối tượng
Cụ thể hơn về những lợi ích, hiệu quả của việc xác định độ tương tự mang lại
sẽ cho chúng ta thấy được tầm ứng dụng, quan trọng và ảnh hưởng của công
cụ này (độ tương tự hay độ khác biệt)
Cụ thể những lợi ích, hiệu quả:
Chúng ta có thể phân biệt đối tượng này và đối tượng khác
Chúng ta có thể phân lớp các đối tượng (giải pháp: kết hợp vớiphương pháp K trung bình
Trang 13 Một khi chúng ta có thể phân lớp các đối tượng, thì chúng ta hoàntoàn có thể hiểu được các thuộc tính của nhóm đấy.
Chúng ta có thể hiểu và giải thích được các hoạt động của từng nhóm,từng lớp
Phân lớp ngoài ra còn mang lại hiệu quả tích cực trong tổ chức vàkhôi phục thông tin
Chúng ta có thể dễ dàng trong việc phân chia các đối tượng mới vàocác nhóm đã có
Chúng ta có thể dự đoán được hoạt động của một đối tượng mới
Chúng ta có thể làm đơn giản dữ liệu, để mang lại sự hợp lý hơn trongcác mối quan hệ (lọc dữ liệu)
Chúng ta có thể khám phá ra các cấu trúc của các tập hợp dữ liệu
Chúng ta có thể đưa ra hành động, kế hoạch và quyết định dựa trêncấu trúc và sự dự báo của dữ liệu
Từ những lợi ích hiệu quả được trình bày ở trên Thì thực sự, một lần nữaphải nhấn mạnh vai trò quan trọng của công cụ này Với tính chất quan trọngnhư vậy, thì việc xây dựng công thức tính toán độ tương tự (hoặc độ khácbiệt) chính xác là rất cần thiết Từng bước, từng bước xây dựng công thứctính độ tương tự (hoặc độ khác biệt) thì bước đầu tiên sẽ phải là bước phântích và đánh giá đối tượng
2.2 Phân tích đánh giá đối tượng và công thức tính khoảng cách cho từng loại biến cụ thể
Trong định nghĩa độ tương tự và độ khác biệt, thì các giá trị số này hoàn toànphụ thuộc vào việc chọn biến thuộc tính đặc trưng của các đối tượng Chính
vì vậy luôn cần phải có bước phân tích đánh giá đối tượng
2.2.1 Phân tích đánh giá đối tượng
Bước này sẽ phân tích và đánh giá từng đối tượng một và trên cơ sở mối liên
hệ chung giữa chúng thì người ta sẽ liệt kê đầy đủ những thuộc tính nào sẽ tác
Trang 14động chung đến cả hai đối tượng Theo thực nghiệm, thì người ta phân cácbiến thuộc tính đặc trưng ra làm hai loại đó là: biến định tính và biến địnhlượng.
a Biến định tính
Tên gọi của biến đã thể hiện lên tính chất của biến, biến định tính là nhữngbiến có tập giá trị hữu hạn Ví dụ: Giới tính có tập giá trị {Đực, Cái},
Bộ môn thể thao có tập giá trị {Bóng đá, bóng chuyền, cầu lông, bóng bàn},
… Dựa trên số lượng, tính chất của tập thuộc tính của biến mà người ta phânbiến định tính thành ba loại sau:
Từ bước phân tích đánh giá đối tượng, chúng ta đã có được một tập thuộc tínhđặc trưng đã được phân loại thể hiện cho mối quan hệ giữa hai đối tượng.Bước tiếp theo, tiến hành xây dựng tất cả các công thức tính khoảng cách chotập các biến thuộc tính đặc trưng này Muốn vậy, ta sẽ tiến hành xây dựngkhoảng cách cho tất cả các loại biến đã đề cập ở trên là biến nhị phân, biếndanh định, biến định lượng
2.2.2 Công thức tính khoảng cách cho từng loại biến cụ thể
Sự phân loại biến cho ta một sự nhìn nhận, đánh giá và xử lý dễ dàng hơn.Nhưng trong trường hợp này sự phân loại đặt ra cho ta một vấn đề, đó làkhông thể đồng bộ việc áp dụng cùng một công thức toán học cho nhiều loại
Trang 15biến khác nhau Bởi vậy với mỗi loại biến sẽ được xây dựng một công thứctính khoảng cách riêng.
a Công thức tính khoảng cách cho biến nhị phân
Với những người làm toán và làm tin thì thực sự biến nhị phân rất đỗi gầngũi Là một kiểu biến đơn giản thông thường chỉ nhận một trong hai giá trị 0hoặc 1 Tuy là một kiểu biến đơn giản, nhưng biến nhị phân lại giải quyếtđược rất nhiều vấn đề phức tạp trong cuộc sống (điển hình, hệ điều hành máytính hoạt động trên cơ sở xử lý các thông tin số 0 và 1) Góc độ thể hiện củabiến nhị phân trong thực tế thì rất là đa dạng, Ví dụ: Có và Không, Phủ định
và Khẳng định, Đúng và Sai,… Trước khi tiến hành các bước xây dựng tínhkhoảng cách cho biến nhị phân, thì chúng ta có thể đưa ra những ví dụ đơngiản mô tả các đối tượng có các thuộc tính đặc trưng là biến nhị phân
Ví dụ 2.1: Cho bảng mô tả các biến thuộc tính đặc trưng nhị phân của hai đối tượng Táo và Chuối:
Hình
dạngcầu
Từ bảng trên ta có thể biểu diễn lại hai đối tượng Táo và Chuối dưới dạng véc
tơ tọa độ biến nhị phân là (1,1,1,1) và (0,1,0,0) Có bốn thuộc tính đặc trưng
mô tả cho mối quan hệ giữa hai đối tượng Táo và Chuối, nên ta có thể nói Táo
và Chuối là những đối tượng bậc 4
Ta đã có, việc so sánh hai véc tơ nhị phân (là cặp véc tơ cùng chiều và tọa độcủa chúng chỉ nhận các giá trị là 0 hoặc 1) chính là sự sai khác giữa giá trị 0
và 1 tại mỗi tọa độ tương đồng Ở đây, véc tơ nhị phân sẽ thay thế cho các đối
Loại
trái cây
Thuộc tính
trái cây
Trang 16tượng có thuộc tính đặc trưng là biến nhị phân Muốn vậy, trước hết chúng tacần đưa ra các định nghĩa cho các thông số mới sau:
Với hai đối tượng i,j được biểu diễn dưới dạng véc tơ nhị phân thì
p = số lượng các tọa độ cùng giá trị 1 ở cả hai đối tượng
q = số lượng các tọa độ nhận giá trị 1 ở đối tượng i nhưng nhận giá trị 0
ở đối tượng j
r = số lượng các tọa độ nhận giá trị 0 ở đối tượng i nhưng nhận giá trị 1
ở đối tượng j
s = số lượng các tọa độ nhận cùng giá trị 0 ở cả hai đối tượng
t = p+q+r+s = số chiều của véc tơ nhị phân biểu diễn đối tượng i,j.
Những thông số ở trên đã mô tả đầy đủ về góc độ so sánh hai véc tơ nhịphân Bởi vậy, những thông số này sẽ là tiền đề, cơ sở để xây dựngcông thức tính khoảng cách giữa các véc tơ nhị phân Sau đây, em sẽliệt kê một số công thức tính khoảng cách thông dụng:
Các công thức tính độ không tương tự (khoảng cách) giữa 2 véc tơ nhị phân i
và j
d ij = q r
t
(khoảng cách phù hợp đơn giản)
s ij = p
t
s ij = p
p q r (hệ số Jaccard)
Trang 17 Hệ số phù hợp đơn giản
Biến nhị phân có tập giá trị là 0 và 1 Bởi vậy trong thực tế, có rất nhiềutrường hợp khi ta dự đoán thông tin về giá trị của một biến nhị phân thì lượngthông tin cho 2 giá trị 0,1 là cân bằng nhau Ví dụ, một em bé sắp chào đời dựđoán xem là trai hay gái? Trong những trường hợp như vậy thì thường người
Trang 18ta sử dụng công thưc khoảng cách phù hợp đơn giản hoặc hệ số phù hợp đơngiản Hệ số phù hợp đơn giản có công thức tính là:
Hệ số Jaccard
Bên cạnh những trường hợp dự đoán thông tin về giá trị của biến nhị phân làcân bằng nhau thì sẽ là những trường hợp có thông tin về giá trị của biến nhịphân sẽ khác nhau, chênh lệch nhau Trong những trường hợp như vậy giá trị
của thông số s thường là không đáng kể, và người ta có thể bỏ qua thông số s
trong công thức tính khoảng cách Hệ số Jaccard cũng được dùng để giảiquyết những trường hợp như vậy Hệ số Jaccard có công thức tính là:
Trang 19 Khoảng cách Hamming
Trong ngành tin học, xuất phát từ việc phải thường xuyên thao tác với cácchuỗi liên tiếp kí tự 0 và 1 nên người ta định nghĩa chuỗi này là từ Vậy, vớihai từ có độ dài như nhau hãy đưa ra đại lượng đánh giá sự khác nhau của hai
từ ấy Đại lượng ấy chính là số lượng các vị trí mà ở đó có sự khác nhau vềgiá trị 0, 1 của hai từ Và đồng thời đại lượng này cũng được gọi là khoảngcách Hamming của hai từ Công thức tính của khoảng cách Hamming là:
đa dạng các phần tử (khác 0 và 1) của tập giá trị
b Công thức tính khoảng cách cho biến danh định
Biến danh định thực chất là biến mở rộng của biến nhị phân, mở rộng tập giátrị (tập giá trị của biến danh định còn được gọi là tập phạm trù) và đa dạngcác phần tử của tập giá trị Ví dụ biến danh định: biến phương thức có tậpphạm trù là {xe đạp, xe máy, ô tô, xe bus} Biến thể thao có tập phạm trù là{bóng đá, tennis, cầu lông, chạy} Bởi vậy nên biến danh định rất thườngxuyên được dùng để thể hiện sự lựa chọn trong thực tế, nhưng đồng thời việcxây dựng công thức tính khoảng cách giữa các biến danh định sẽ phức tạp vàrắc rối hơn biến nhị phân Giải pháp đặt ra, muốn xây dựng công thức tínhkhoảng cách cho biến danh định, thì chúng ta cần phải dùng biến thế để làmgiảm số chiều trong tập phạm trù, và dĩ nhiên biến thế hợp lý nhất là biến nhị
Trang 20phân Xét một tập phạm trù, nếu chỉ có hai phần tử thì chúng ta có thể ứngdụng trực tiếp các công thức tính khoảng cách nhị phân cho biến danh địnhtrong trường hợp này Nếu tập phạm trù có nhiều hơn hai phần tử thì chúng ta
sẽ chuyển đổi tập phạm trù sang các biến thế nhị phân, có hai phương phápđược đưa ra:
Phương pháp 1: Dùng duy nhất một biến thế nhị phân để thay thế tập
Dùng duy nhất một biến thế nhị phân để thay thế tập phạm trù
Phương pháp này thường được áp dụng trong trường hợp mà biến danhđịnh có thể nhận được nhiều hơn một phạm trù Ví dụ, đối tượng A có tậpphạm trù của biến phương thức là {xe đạp, xe máy, xe ôtô} và trong sinh hoạtthường ngày thì đối tượng A sử dụng cả xe máy lẫn xe bus
Việc dùng một biến thế nhị phân để thay thế cho tập phạm trù của biến danhđịnh sẽ được áp dụng thông qua ví dụ dưới đây
Ví dụ 2.2:
Cho các đối tượng con người có hai biến thuộc tính đặc trưng là biến nhị phânGiới tính(Gender), và biến danh định Phương thức (Mode) Với tập giá trị củacác biến Gender (Đực = 1, Cái = 0) và tập phạm trù của biến Mode (Bus,Train, Van)
Xét một đối tượng con người A, có giá trị của biến Gender(1) và giá trị củabiến Mode(Bus, Train) Phỏng vấn đối tượng A, khi hỏi có sử dụng xe Bus
Trang 21không thì câu trả lời là Có(1), khi hỏi có sử dụng xe Train không thì câu trảlời vẫn là Có(1), nhưng khi hỏi có sử dụng xe Van không thì câu trả lời sẽ là(0) Bởi vậy ta có mô tả sơ đồ như sau:
Quan sát lại sơ đồ, thì ta có thể biểu diễn đối tượng A dưới dạng véc tơ nhịphân là (0, (1, 1, 0)) Trong trường hợp này, chúng ta đã dùng biến thế nhịphân Mode(1, 1, 0) để thay thế cho biến danh định phương thức (Mode) Từđây ta hoàn toàn có thể áp dụng các công thức tính khoảng cách với biến nhịphân đã được trình bày ở phần trên để xác định khoảng cách cho các đốitượng con người ở trên
Dùng nhiều biến thế nhị phân để thay thế tập phạm trù
Phương pháp này thường được áp dụng trong trường hợp mà biến danh địnhchỉ nhận duy nhất một phạm trù Ví dụ, đối tượng A có tập phạm trù củaphương thức là {xe đạp, xe máy, xe bus, xe ô tô} và trong sinh hoạt thườngngày thì đối tượng A chỉ dùng xe máy
Xét một biến danh định có tập phạm trù gồm c phần tử, và chúng ta cần dùng
dv biến thế nhị phân để thay thế cho tập phạm trù này Vậy 2 thông số c, dv
này phải thỏa mãn công thức sau:
Trang 22Áp dụng cho ví dụ 2.2 ở trên ta có Biến danh định Mode có tập phạm trù là{ Bus, Train, Van} gồm 3 phần tử Vậy số lượng biến thế nhị phân cần phảidùng là:
log3
1.58 2log 2
dv
Đặt 2 biến thế nhị phân này lần lượt là DV1 và DV2 Sơ đồ sau đây sẽ mô tảviệc dùng biến thế nhị phân thay để mô tả các phạm trù của biến danh địnhMode:
Xét một đối tượng con người A, có giá trị của biến Gender (1) và giá trị củabiến Mode (Bus) Quan sát lại sơ đồ, thì ta có thể biểu diễn đối tượng A dướidạng vectơ nhị phân là (0, (1, 1)) Trong trường hợp này, chúng ta đã dùngbiến thế nhị phân Mode(DV1, DV2) để thay thế cho biến danh định phươngthức (Mode) Từ đây ta hoàn toàn có thể áp dụng công thức tính khoảng cáchvới biến nhị phân đã được trình bày ở phần trên để xác định khoảng cách chocác đổi tượng con người ở trên
Nhận xét:
Với tập phạm trù của biến danh định thì các phạm trù này là hoàn toàn tươngđương, không có sự ưu tiên, phân cấp và thứ tự Nhưng trong thực tế thì thông
Trang 23thường tập phạm trù của một biến luôn có sự ưu tiên, bởi vậy sẽ làm mất đitính chất tương đương giữa các phạm trù.
c Công thức tính khoảng cách cho biến thứ tự
Biến thứ tự thực chất là sự phát triển của các biến danh định, sự phát triển nàyxuất phát từ vấn đề chủ quan của biến thứ tự, và các giá trị của tập phạm trùnày không còn tương đương mà nó được phân ra theo thứ tự, theo mức độ ưutiên Ví dụ, biến độ an toàn của một công viên có tập phạm trù theo thứ tự từthấp đến cao là {nguy hiểm, không an toàn, an toàn, rất an toàn} Trước tiên,
ta đưa ra khái niệm véc tơ hạng của biến thứ tự của tập phạm trù, và có giá trịcủa các chỉ số véc tơ là 1, 2, 3, 4, Ví dụ, véc tơ hạng của biến Độ an toàn ởtrên là {1, 2, 3, 4} Mục đích của véc tơ hạng đó là mô phỏng lại tính chất thứ
tự của tập phạm trù Bước tiếp theo chuẩn hóa tập phạm trù của biến thứ tự, từ
đó mới tiến hành xây dựng các công thức tính khoảng cách cho các biến thứtự
Các bước chuẩn hóa:
r x R
Trang 24Ví dụ 2.3:
Để đánh giá chất lượng của 2 công viên A, B người ta đưa ra 4 tiêu chí là:
An toàn, Thoải mái, Tiện lợi, Khoảng cách Mỗi một tiêu chí sẽ có thang
từ -2 tới 2 ứng theo giá trị thực tế của tiêu chí đó Qua quan sát thực tế thìngười ta đưa ra bảng thống kê sau:
Với thao tác hoàn toàn tương tự ta sẽ có véc tơ chuẩn hóa của công viên A
là (0, 3/2, 1/2, 1) và của công viên B là (1/2, 3/4, 1/4, 3/4) Dễ tính đượckhoảng cách Euclid giữa 2 công viên A và B là:
Trang 25d Công thức tính khoảng cách cho các biến định lượng
Là loại biến rất hay được gặp trong thực tế, như đã đề cập ở phần địnhnghĩa thì mục đích của nó là biểu diễn cho một đại lượng số Ví dụ: Tàisản của con người, khối lượng của ô tô, Chính sự đơn giản của biến địnhlượng nên việc xây dựng công thức tính khoảng cách cho các đối tượngđịnh lượng cũng trở nên đơn giản hơn Người ta đưa ra một loạt nhữngcông thức tính áp dụng cho đối tượng định lượng đó là:
o Khoảng cách Bray Curtis (Sorensen)
o Khoảng cách Angular Separation
Trang 26Có công thức tính giữa 2 đối tượng định lượng i(xi1, xi2, , xin) và j(xj1,xj2, , xjn) là:
2 ij
1
n
ik kj k
Khoảng cách khối thành phố
Nó còn có tên gọi khác là khoảng cách Manhattan Nó thường được dùng
để xác định khoảng cách của các điểm trong các đường vành đai của thànhphố
Có công thức tính giữa 2 đối tượng định lượng i(xi1, xi2, , xin) và j(xj1,xj2, , xjn) là
Trang 27Có công thức tính giữa 2 đối tượng định lượng i(xi1, xi2, , xin) và j(xj1,xj2, , xjn) là
chúng ta đưa ra định nghĩa sau
0 0
0 Bởi vậy khoảng cách này rất dễ bịthay đổi khi mà đồng thời cả hai tọa độ tiên dần đến 0
Có công thức tính giữa 2 đối tượng định lượng i(xi1, xi2, , xin) và j(xj1,xj2, , xjn) là:
Khoảng cách Bray Curtis
Khoảng cách Bray Curtis ngoài ra còn được gọi là khoảng cách Sorensen,thực chất là một công thức chuẩn hóa và rất thường xuyên được sử dụngtrong ngành thực vật học, sinh học và môi trường khoảng cách BrayCurtis có một đặc điểm tốt đó là khi tất cả các tọa độ đều dương, thì giá trịcủa nó sẽ rơi vào khoảng (0, 1) Khoảng cách Bray curtis nhận giá trị là 0khi hai đối tượng là tương tự nhau Nếu đồng thời cả hai tọa độ là bằng 0thì khoảng cách Bray Curtis không xác định
Có công thức tính giữa 2 đối tượng định lượng i(xi1, xi2, , xin) và j(xj1,xj2, , xjn) là:
Trang 28ik kj k
x x d
Khoảng cách Angular Separation
Khoảng cách Angular Separation trả về giá trị cosin của góc giữa hai véc
tơ Và giá trị của nó thường được xem là độ tương tự hơn là khoảng cáchhoặc độ khác biệt, và giá trị này nằm trong đoạn [-1, 1]
Có công thức tính giữa 2 đối tượng định lượng i(xi1, xi2, , xin) và j(xj1,xj2, , xjn) là:
n n
ik jk
k k
x x s
Có công thức tính giữa 2 đối tượng định lượng i(xi1, xi2, , xin) và j(xj1,xj2, , xjn) là: