1. Trang chủ
  2. » Giáo Dục - Đào Tạo

phải cho trước thuật giải của bài toán. Giả sử cho tập hợp Ω trong không gian doc

14 438 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 455,62 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Một điều không kém phần quan trọng trong quá trình phân loại là sắp xếp những đối tượng theo mức độ chúng liên hệ lẫn nhau và chỉ ra cấu trúc của sự liên kết các đối tượng thành những lớ

Trang 1

43

Chương 3 - PHÂN LOẠI CÁC QUÁ TRÌNH

3.1 PHƯƠNG PHÁP PHÂN LOẠI TỰ ĐỘNG

Những quá trình diễn ra trong đại dương, những hiện tượng và đối

tượng mà nhà hải dương học tiếp xúc, khác biệt nhau bởi sự đa dạng Khó

mà tìm được hai quá trình hay hai đối tượng giống nhau một cách tuyệt

đối Song trong những quá trình và những đối tượng riêng lẻ bao giờ

cũng có thể nhận thấy những tính chất và những đặc điểm chung, cho

phép gộp chúng thành những nhóm, kiểu, lớp

Theo nghĩa rộng, lớp có thể đồng nhất với hình tượng, vì trong lý

thuyết nhận dạng, hình tượng được hiểu là một tập hợp những hiện tượng

liên kết với nhau bởi những tính chất chung Sự tất yếu phải đưa ra khái

niệm hình tượng (lớp) là do nhu cầu thực tiễn tiếp cận tới những phạm trù

chung hơn so với khái niệm quá trình hay đối tượng cá thể, cũng như

không thể bao quát tất cả những quá trình hay đối tượng tham gia vào lớp

này hay lớp kia [12, 107, 182]

Khi xét sự phân loại như là cơ sở của mô hình này hay mô hình kia,

trước hết phải nhớ rằng: phân loại cần phải không chỉ khái quát thông tin,

mà còn phản ánh được những mặt riêng lẻ của thực tế khách quan Trong

phân loại khoa học, chúng ta tiếp cận với những hình tượng, những lớp

trừu tượng, với vô vàn tính chất Từ đó nảy sinh sự cần thiết phải tiếp cận

với những hình tượng được cho trong không gian các dấu hiệu đa chiều

Đó là lý do vì sao bài toán nhận dạng có quan hệ trực tiếp với những

bài toán phân tích đa chiều Tuy nhiên, trong trường hợp này, nó có thể

được giải chỉ trên cơ sở những phương pháp phân loại bằng máy, tức

những phương pháp phân loại tự động, trong đó người nghiên cứu chỉ

phải cho trước thuật giải của bài toán

Giả sử cho tập hợp Ω trong không gian M dấu hiệu, tạo thành từ

tập mẫu X gồm N quan trắc về M biến Yêu cầu tách ra một cách có

căn cứ và tin cậy về mặt thống kê k tập hợp con (nhóm, lớp quan trắc)

k

ω ω ω

ω1, 2, 3, , :

k

ω ω

ω1 2⋅ ⋅ ⋅

=

Để tách ra những tập con, trước tiên cần phải có những điều kiện sau:

1) Những tập con nhận được không giao nhau:

j

i ω

ω  với mọi i≠ ; j

nói cách khác, mỗi vectơ x chứa M giá trị của các biến quan trắc l

x = 1, 2, , sẽ chỉ thuộc một trong những tập con được tách

ra

2) Mỗi tập con không được rỗng:

0

ωi với i=1,2, ,k, tức trong mỗi lớp tách ra phải có ít nhất một quan trắc x Từ đây, hiển l

nhiên suy ra rằng số các lớp được tách ra không thể vượt quá số quan trắc

N

k≤ Đồng thời số lớp luôn lớn hơn không − k≥1

Đặt bài toán

Nhiệm vụ phân loại là một trong những nhiệm vụ quan trọng nhất của mọi lĩnh vực khoa học Trình độ phân loại, độ tin cậy của phân loại quyết định trình độ tri thức thực sự về đối tượng nghiên cứu Bài toán phân loại trong hải dương học trước hết liên quan tới những vấn đề phân loại khối nước, vấn đề phân vùng đại dương thế giới theo những dấu hiệu nào đó, hay bài toán phân tách ra những loại biến động đặc trưng của khí hậu đại dương v.v

Sự muôn hình muôn vẻ của những vấn đề thực dụng làm nảy sinh sự

đa dạng các phương pháp phân vùng tự động thích ứng để giải quyết

Trang 2

những nhiệm vụ cụ thể khá hẹp Có lẽ đến ngày nay, chưa có một cách

tiếp cận chung, vận hành tốt như nhau trong mọi tình huống Vì vậy, khi

xem xét những vấn đề phân loại áp dụng vào nghiên cứu đại dương, trước

hết, ta sẽ đề cập tới những hệ phương pháp đã từng được thử thách trong

khi giải quyết những nhiệm vụ thuần tuý hải dương học

Phân loại là gì? Đó là quá trình chia tập đối tượng thành một số

những tập con (các lớp) Mỗi tập con bao gồm trong nó những đối tượng

giống nhau theo một bộ những dấu hiệu phân biệt đã biết, và gọi là một

lớp Như vậy, kết quả của phân loại có thể biểu diễn dưới dạng những bộ

đối tượng nằm trong không gian các dấu hiệu và phân cách bởi các biên

của các lớp Tuy nhiên, cách lý giải này − không phải là duy nhất

Một điều không kém phần quan trọng trong quá trình phân loại là

sắp xếp những đối tượng theo mức độ chúng liên hệ lẫn nhau và chỉ ra

cấu trúc của sự liên kết các đối tượng thành những lớp Khía cạnh này

của phân loại được thể hiện bằng cách xây dựng "cây phân loại" Cây này

dẫn trên hình 3.1 Cây như vậy cho phép phân tích được sự tuỳ thuộc của

các lớp và các đối tượng và xây dựng cấu trúc đa tầng của các lớp

Với cách mô tả sự phân loại bằng đồ hoạ như vậy, thay vì một bức

tranh phân chia cố định duy nhất, ta có một bộ các nhánh phân chia, mỗi

nhánh có một ý nghĩa vật lý của nó

Những bài toán phân loại cụ thể có thể hình thành theo tuần tự sau:

− Chọn các biến ban đầu;

− Chọn biểu thức định lượng về mức độ giống nhau của các quan

trắc;

− Chọn thuật toán phân loại;

− Lý giải kết quả

Việc chọn hệ thống những biến xuất phát bao giờ cũng đi trước

thủ tục tính toán thực sự, vì vậy quá trình này có thể xét riêng cùng

với những vấn đề lý giải hình học về phương pháp phân loại tự động

Hình 3.1 Thể hiện phân loại các quan trắc dưới dạng cây phân loại

Ý nghĩa hình học của phương pháp phân loại tự động

Ta xét vấn đề này qua thí dụ phân tích các khối nước chỉ dựa vào ba biến: nhiệt độ, độ muối và nồng độ silic Những dấu hiệu xuất phát tạo thành một không gian dấu hiệu, không gian này có thể được biểu diễn dưới dạng ba trục tọa độ trực giao (hình 3.2)

Những quan trắc thực được biểu diễn trong không gian dấu hiệu này như là những điểm tạo thành đám mây các quan trắc không đồng nhất về mật độ Một cách trực giác, thấy rằng mỗi khối nước được đặc trưng bởi những giá trị gần nhau của các tham số quan trắc Do đó, khối nước có thể được biểu thị trong không gian các dấu hiệu như là một khối thể tích khép kín nào đó, bên trong nó các điểm quan trắc tạo thành một nhóm khá đậm đặc và gọn Thể tích này có thể tách khỏi những điểm còn lại bằng một mặt phân cách nhân tạo Nếu liên kết tất cả số liệu quan trắc thành những thể tích khép kín tương tự, thì coi như ta đã giải quyết bài toán phân loại

Trang 3

45

Ta trở lại vấn đề chọn các biến Giả sử không có số liệu quan trắc về

nồng độ silic Khi đó toàn bộ đám mây quan trắc sẽ chiếu lên mặt phẳng

tọa độ T , Bây giờ thấy rõ rằng những lớp đã phân chia ra trước đây S

những kiểu khối nước, sẽ giao nhau và không thể phân tách ra được nữa,

vì mật độ phân bố các quan trắc đại khái đồng đều trong toàn đám mây

Thí dụ này trực quan cho thấy rằng phân loại quan trắc chỉ thành

công khi những dấu hiệu lựa chọn có khả năng cho phép phân loại dựa

theo sự không đồng nhất hiện có trong đám mây số liệu Vì vậy, theo ý

kiến phần lớn những người nghiên cứu, việc lựa chọn các dấu hiệu thực

tế quyết định kết cục thành công hay không thành công của sự phân loại

Vậy làm thế nào chọn được những dấu hiệu một cách tốt nhất? Để

giải một bài toán đặc thù cụ thể nào đó (thí dụ, phân loại điều kiện băng),

thì bộ dấu hiệu là do điều kiện vật lý của hiện tượng được phân loại quyết

định Trong trường hợp tổ chức phân loại vạn năng một đối tượng tự

nhiên lớn, thí dụ khi phân vùng Đại dương Thế giới, phải sử dụng tất cả

những tham số quan trắc hiện có

Có phải cứ dùng số lượng lớn các dấu hiệu sẽ luôn luôn đảm bảo sự

thành công của bài toán không? Kinh nghiệm cho biết rằng sự phân

loại có thể ổn định ngay cả với một số lượng tương đối nhỏ những dấu

hiệu

Điều này là do phần lớn những dấu hiệu quan trắc mô tả quá trình,

hay hiện tượng, thường liên hệ thống kê với nhau (nếu không thì tình

hình chắc chắn sẽ vô vùng lộn xộn) Vì vậy, nếu đưa thêm những biến

mới vào một bộ dấu hiệu đã khá lớn, thì chúng cũng không góp thêm

thông tin gì đáng kể về vị trí tương hỗ của các đối tượng trong không gian

dấu hiệu, vì trong bộ dấu hiệu này, rất có thể có một hoặc một số dấu hiệu

đã tương quan cao với từng biến trong số những biến vừa đưa vào

Nói cách khác, có thể tưởng tượng một tập hữu hạn các dấu hiệu cho

phép phản ánh cấu trúc của các đối tượng tự nhiên được nghiên cứu Tuy

nhiên, cần luôn nhớ rằng bộ dấu hiệu lớn này dù sao cũng phản ánh chức

năng phân loại toàn diện, nó bù đắp bớt phần trừu tượng từ phía chúng ta

Và với ý nghĩa này − về phương diện hình thành ý tưởng phân loại, thì mọi phép phân loại đều có nét chủ quan

Hình 3.2 Ý nghĩa hình học của phân loại trong không gian ba dấu hiệu (nhiệt độ, độ

muối, silic) và hai dấu hiệu (nhiệt độ, độ muối)

Trong thực tế nghiên cứu hải dương học, hiếm khi chúng ta có được một bộ dấu hiệu lớn đến mức có thể xem là bão hoà Vì vậy, trong phần lớn trường hợp phải dựa vào kinh nghiệm truyền thống tuyển chọn các biến

Đánh giá định lượng độ giống nhau của những quan trắc

Biểu thức định lượng về sự giống nhau của các quan trắc theo một

bộ dấu hiệu có thể là khoảng cách đơn giản giữa hai điểm trong không gian các biến (xem hình 3.2) Tiêu chí giống nhau này được gọi là khoảng cách Ơclit và được xác định theo công thức

2 / 1 1

2

)

=

M k

k j k i k

d , (3.1) trong đó x i k giá trị quan trắc thứ i của biến k , w k − tỷ trọng tương

Trang 4

đối của biến k

Khoảng cách Ơclit sử dụng tiện lợi khi tất cả các dấu hiệu có cùng

thứ nguyên, nếu các biến không phụ thuộc lẫn nhau và phần đóng góp

tương đối của chúng được biết

Trong trường hợp những điều kiện này không thoả mãn, có thể sử

dụng khoảng cách Magalonobis, khi tính nó những thứ nguyên của các

biến có thể khác nhau Dưới dạng vectơ, công thức tính khoảng cách

Magalonobis có thể viết như sau:

) (

)

j i

T j i j

d = xxS− ⋅ xx , (3.2) trong đó (xi − )xj − vectơ cột, tạo thành bởi những hiệu các giá trị của

M biến ứng với những quan trắc thứ i và thứ j , S ma trận hiệp

phương sai của các biến gồm M dòng và M cột

Khoảng cách Magalonobis là tiêu chí giống nhau rất hiệu quả trong

trường hợp các biến tương quan với nhau

Trong thực tế không hiếm những tình huống, khi mà những biến

quan trắc được biểu diễn không phải bằng thang đo định lượng, mà bằng

thang đo định tính, thí dụ, khi nghiên cứu những thang đo lượng băng,

cường độ gió, sóng, hoặc khi phân tích những chuỗi tình huống hiện diện

hay không hiện diện của một hiện tượng nào đó Trong trường hợp này,

không nên sử dụng những tiêu chí đã dẫn trên đây, mà nên dùng khoảng

cách Hemming:

=

= M

d

1

Ở đây x i k giá trị độ lớn của dấu hiệu k theo thang chuẩn hoá

Khoảng cách Hemming chỉ gồm những giá trị số nguyên, cận dưới là

số không tương ứng với tình huống trùng hợp hoàn toàn các giá trị của tất

cả biến đối với hai quan trắc Ở đây phải nhận xét rằng sử dụng khoảng

cách Hemming rất hiệu quả trong những trường hợp các biến xuất phát

chứa các sai số ngẫu nhiên hoặc các nhiễu Khi đó người ta chia miền

biến thiên của các dấu hiệu thành một số khoảng và lấy số hiệu của khoảng làm giá trị của biến và như vậy loại trừ được khá nhiều ảnh hưởng của nhiễu và sự phân loại sẽ tin cậy hơn

Những tiêu chí giống nhau liệt kê trên đây biểu thị sự gần nhau của các quan trắc trong không gian tuyến tính và là đặc trưng số hữu hiệu khi tìm các lớp có dạng hình cầu hoặc ellip trong không gian biến đa chiều Tuy nhiên, hoàn toàn không phải bao giờ cũng gặp dạng đám mây tản mạn đơn giản như thế, vì vậy, người ta buộc phải tìm những biểu thức phi tuyến phức tạp hơn làm tiêu chí giống nhau Nhằm những mục đích đó, người ta thường hay sử dụng những hàm thế vị, những hàm này nhận được nhờ kết quả biến đổi phi tuyến những tiêu chí giống nhau tuyến tính đơn giản:

) 1 ( /

) ( exp

Những hàm thế vị này sẽ hiệu quả nhất trong khi phân loại những quan trắc có dạng móng ngựa, hình con nhép v.v

Chọn một tiêu chí giống nhau cụ thể hoàn toàn tuỳ thuộc vào người nghiên cứu

Thủ tục tính toán của phương pháp phân loại tự động

Tất cả những thuật toán của phương pháp phân loại tự động có thể phân chia thành những thuật toán xác suất và thuật toán luận lý Những thuật toán xác suất dựa trên nguyên tắc tối thiểu hoá độ mạo hiểm trung bình nếu sự phân loại quan trắc bị sai và chúng không được xét ở đây Những thuật toán luận lý hiện nay thường hay được sử dụng trong hải dương học hơn Đó là vì tính hiệu quả của nó cao và thủ tục tính toán không phức tạp Thực chất của các thuật toán luận lý phân loại là ở chỗ trong các thuật toán này, người ta chấp nhận những quy tắc logic, linh cảm, được thừa nhận để tìm các lớp đồng nhất Vì vậy, các thủ tục tính

Trang 5

47

toán tiên định nhằm tới một dạng cụ thể của các lớp Có hai loại thủ tục

phân loại luận lý: loại thứ nhất thường hay được dùng để phân chia

những tập con, đồng tính trong không gian dấu hiệu, loại thứ hai thực

hiện những nguyên tắc phân chia những lớp đồng dạng (giống nhau về

hình dạng)

Người ta thường hiểu những tập con đồng tính là những tập có dạng

hình cầu xét theo hình thức vị trí tương hỗ của các quan trắc Trong

không gian dấu hiệu nhiều chiều, dạng này được xem như dạng đa cầu

(Гиперсферическая форма) Vì vậy nên các thủ tục tính toán cũng có

tên là "những thuật toán đa cầu" [4, 74, 79] Ý nghĩa của các thuật toán

này như sau:

Đối với mỗi quan trắc x l ={x l1,x l2, ,x l m} người ta dựng một đa

cầu với bán kính ρ trong không gian dấu hiệu M chiều Sau đó xác định

số quan trắc rơi vào bên trong đa cầu, và hình thành tập con ωi gồm

những quan trắc đứng cách xa quan trắc xuất phát một khoảng d nhỏ

hơn bán kính ρ đã cho: d≤ρ

Người ta chọn lớp thứ nhất là lớp mà rơi vào bên trong nó là số tối

đa các quan trắc lân cận Đối với những quan trắc còn lại, thủ tục dựng

được lặp lại cho đến khi hết toàn bộ tập

Những thuật toán phân loại các lớp đồng dạng nhằm phát hiện

những cấu trúc tương tự nhau về hình thức phân bố tương hỗ các quan

trắc trong không gian dấu hiệu nhiều chiều Từ linh cảm thấy rõ rằng sự

đa dạng các mối liên hệ của các quan trắc sẽ sinh ra những hình thức tụ

tập quan trắc rất khác nhau trong không gian dấu hiệu

Trong thực tế phân tích các quá trình khí tượng thủy văn, sự tụ tập

các quan trắc có dạng những thành tạo "kiểu chuỗi xích" kéo dài Vì vậy,

phương pháp dựng mạng liên hệ ngắn nhất (KCC) [125, 172] được sử

dụng phổ biến trong khảo sát hải dương học

Thực chất của phương pháp này là liên kết từng cặp liên tiếp các

quan trắc gần nhau vào mạng chung Ví thể như, khi một con ếch trong

hồ nhảy truyền từ một chiếc lá này sang một chiếc lá khác gần đó, bằng chính những bước nhảy của mình, nó đã liên kết tất cả các lá thành một mạng lưới với chi phí công nhảy cực tiểu Nguyên tắc tính toán của phương pháp mạng liên kết ngắn nhất là sao cho khi lấy một điểm quan trắc ban đầu tuỳ ý, phải tìm được quan trắc khác giống nhất với nó dựa theo khoảng cách cực tiểu giữa các điểm trong số tất cả những điểm chưa thuộc mạng lưới Khi đã liên kết điểm này vào mạng, phải tìm cực tiểu của khoảng cách đến những điểm còn lại so với tất cả các điểm đã hoà vào mạng

Sau khi liên kết vào mạng tất cả các điểm quan trắc, người ta chính thức thực hiện phân chia thành những lớp thu gọn Muốn làm điều đó, người ta đưa ra khoảng cách tới hạn d c r Theo điều kiện d jd c r tiến hành phân chia mạng thành những đoạn riêng biệt, đó chính là những lớp cần tìm

Cần đặc biệt chú ý tới vấn đề phân loại tối ưu Trong bản thân lời phát phát biểu bài toán phân loại, ta đã nhận thấy tính không đơn trị của kết quả cuối cùng Vì vậy, việc tối ưu hoá sự phân chia thành các lớp được tiến hành ở giai đoạn tính toán cuối cùng, khi đánh giá độ tin cậy tương đối của một số kết quả phân loại nhờ những chỉ tiêu thống kê − thực nghiệm bổ sung

Thông thường nhất, việc chọn mức phân loại tối ưu thực hiện dựa trên tương quan tản mạn dạng:

1

2/ J

J

Q= hay Q=J2 −J1, (3.3) trong đó J1 −khoảng cách trung bình theo toàn tập hợp mẫu giữa các quan trắc phân bố bên trong các lớp (khoảng cách trung bình nội tại lớp);

2

J khoảng cách trung bình giữa các quan trắc phân bố trong các lớp khác nhau (khoảng cách trung bình giữa các lớp)

Ý nghĩa của chỉ tiêu Q ở chỗ nó cho thấy tỷ số giữa mức độ khác

biệt trung bình của các lớp và mật độ tập trung trung bình các quan trắc

Trang 6

bên trong một lớp Rõ ràng, cực đại của đại lượng Q tương ứng với sự

phân loại mà trong đó các quan trắc được nhóm vào những lớp rất gắn bó

với nhau, nhưng cách xa nhau tối đa Phương án phân chia tập hợp thành

những lớp như vậy là tối ưu

Những công thức tính J và 1 J có dạng: 2

ω

j N l

j p l p l j

j

x x d N k

J

1 1

1 1 1 ( , ) ,

−

=

ω

∉ ω

1

1

j

j p j l p

d k

trong đó k số lớp được chia ra; N j số quan trắc trong lớp j ; d l p

khoảng cách giữa các cặp quan trắc thuộc một lớp (đối với J ) hoặc 1

thuộc các lớp khác nhau (đối với J ) 2

Trong một thuật toán phân loại bất kỳ, có một tham số quyết định sự

nhạy cảm của phương pháp đối với cấu trúc phân bố các quan trắc và kết

cục là hình thành nên các lớp Trong các thuật toán đa cầu tham số đó là

bán kính đa cầu ρ ρ càng nhỏ thì sẽ tìm được những lớp càng gắn bó,

và ngược lại, khi ρ tăng tính gắn bó trong các lớp sẽ giảm

Thông thường, việc chọn bán kính ban đầu của đa cầu căn cứ vào

những kết quả phân tích sơ bộ về cấu trúc thống kê của sự bất đồng nhất

quan trắc Khi thay đổi ρ sẽ nhận được một số phương án phân loại khác

nhau, từ đó người ta chọn lấy phương án tối ưu

Đối với những phương pháp có tính đa tầng, như phương pháp mạng

liên hệ ngắn nhất đã xét trên đây, thì tất cả những phương án phân loại có

thể có đã thể hiện trong mạng nhận được Ở đây tham số quyết định phân

loại là độ lớn của khoảng cách tới hạn d c r, nó có thể được người nghiên

cứu thay đổi trong phạm vi từ cực tiểu đối với tập quan trắc đã cho (ta có

N lớp) đến cực đại đối với tập (ta có 1 lớp)

Có thể dễ dàng thấy ý nghĩa của việc lựa chọn tối ưu một cách tỉ mỉ từ

hình 3.3, trên đó biểu diễn đồ thị khoảng cách giữa các đối tượng liên tiếp được liên kết vào mạng Rõ ràng rằng những cực đại của trị số d trên đồ

thị này tương ứng với tình huống khi liên kết vào mạng những đối tượng rất xa nhau, có thể thuộc về một nhóm khác Còn bên trong các lớp, ở đó các đối tượng rất giống nhau, thì khoảng cách giữa chúng nhỏ, đó là những dải thấp của đồ thị Vậy khi ta đề ra một mức tới hạn d c r nào đó, chính là

ta đã quy định biên giới giữa các lớp Với giá trị d c r cực đại, ta nhận được

số lớp cực tiểu, và sự phân chia trở thành ít chi tiết Với giá trị d c r nhỏ, sự phân loại thành ra chi li quá mức Nếu lấy tối ưu độ lớn của khoảng cách

tới hạn giữa các lớp theo chỉ tiêu Q , người nghiên cứu sẽ chọn được

phương án phân loại sao cho đối với tập hợp đối tượng đang xét, thì các lớp được phân chia ra khá khác nhau, đồng thời đảm bảo độ gắn bó bên trong mỗi lớp khá cao

Hình 3.3 Đồ thị liên kết các quan trắc vào mạng liên hệ ngắn nhất

(Những đường thẳng đứt đoạn là những mức khoảng cách tới hạn giữa các lớp)

Ứng dụng phương pháp phân loại tự động trong nghiên cứu hải dương học

Một trong những bài toán đầu tiên nhà hải dương học gặp phải khi ứng dụng phương pháp phân loại tự động là tìm một hệ phương pháp hữu

Số hiệu bước

Trang 7

49

hiệu phân loại tập quan trắc cụ thể Bắt tay vào sử dụng các phương pháp

phân loại, người nghiên cứu không có trước những quan niệm chắc chắn

về cấu trúc các lớp Anh ta chỉ có thể có một số suy luận ban đầu căn cứ

vào những ước lượng định lượng của phép phân tích thống kê sơ bộ,

những cơ chế vật lý chung đã biết về sự hình thành những quá trình được

nghiên cứu và linh nghiệm của bản thân

Số lớp, hình thức của chúng và những quan trắc cụ thể thuộc vào lớp

nào thì chỉ được phỏng đoán Khi lựa chọn một hệ phương pháp phân loại

chúng ta cần chú ý rằng kết quả cuối cùng phụ thuộc rất nhiều vào sự

đúng đắn và có căn cứ của việc lựa chọn này

Cho đến nay, trong nghiên cứu hải dương học sử dụng rộng rãi tất cả

những thuật toán đã nêu ở trên, và chưa thể coi trọng một thuật toán nào

trong số đó Nhưng nói chung có một xu thế hướng tới sử dụng những sơ

đồ tính toán càng đơn giản càng tốt Vì vậy những phương pháp phân loại

được phát triển trên cơ sở xây dựng mạng liên hệ ngắn nhất và đường

không khép kín ngắn nhất được phổ biến trong những năm sáu mươi −

bảy mươi [125, 172] Sự đơn giản tính toán, chỉ yêu cầu ít tài nguyên máy

tính kết hợp với tính trực quan và tính lý giải được của kết quả là nguyên

nhân phổ cập của phương pháp này

Trong nửa sau của thập kỷ 70 người ta thường hay sử dụng những

thuật toán nhóm hệ thống dựa trên việc xây dựng những đa cầu trong

không gian dấu hiệu [79, 199] Tuy nhiên, kinh nghiệm áp dụng trong hải

dương học lại phát hiện ra rằng những thuật toán này ít nhạy cảm với cấu

trúc của các lớp được phân chia, do đó rất khó xây dựng hệ phân loại tối

ưu Vì vậy, tới cuối những năm bảy mươi, đầu những năm tám mươi, khi

bắt đầu xử lý những nguồn lưu trữ dữ liệu lớn, thì việc ứng dụng phương

pháp phân loại tự động tiến sang một trình độ mới Trong giai đoạn này,

để đạt được kết quả tối ưu, các tác giả thực hiện phân loại tập hợp nhiều

lần bằng nhiều phương pháp, bằng nhiều quan điểm đánh giá sự giống

nhau của các quan trắc [56, 92, 161, 185] Sự chú ý đặc biệt được giành

cho vấn đề phân chia một cách tin cậy đối với những lớp có hình dạng

phức tạp, do đó người ta đã sử dụng những công thức hoàn hảo hơn để tính toán các ước lượng phi tuyến về khoảng cách giữa các lớp và nội lớp [178, 203, 205, 207]

Vào cuối những năm tám mươi, lần đầu tiên trong hải dương học đã ứng dụng hệ phương pháp phân loại dựa trên lý thuyết "các tập mờ" [110, 232] Theo cách tiếp cận này, người ta bác bỏ tiên đề xuất phát cơ bản của phân loại kinh điển rằng các lớp đã phân chia ra không được giao nhau

Ngược lại, bản thân khái niệm tập mờ dựa trên giả thiết về sự giao nhau của các lớp, trong điều kiện đó những quan trắc riêng lẻ có thể đồng thời thuộc hai hay một số lớp kề cận [97] Trong cách tiếp cận này biên giới lớp được hiểu theo một cách hoàn toàn mới Nếu như trong bài toán kinh điển − biên giới là một đa mặt tách các quan trắc thành các lớp khác nhau, thì trong ngôn ngữ các tập mờ, biên giới được hiểu như là một vùng giao nhau của các lớp có những quan trắc thuộc vùng đó Quan niệm mới cho phép trong khi phân loại các quá trình hải dương chú ý đặc biệt tới những đới chuyển tiếp, những đới biến dạng những tính chất và v.v Kinh nghiệm tích luỹ được khẳng định rằng phương pháp luận phân loại tự động đã được ứng dụng để giải nhiều bài toán hải dương học thực dụng, có lẽ, phổ biến nhất là bài toán phân loại các khối nước của những vùng Đại dương Thế giới [24, 28, 38, 46, 56, 88, 98, 250] Có nhiều lý do

về sự ứng dụng này, nhưng về cơ bản có lẽ do hai nguyên nhân: thứ nhất, người ta muốn tự động hoá phương pháp "thủ công" truyền thống phân chia các khối nước; thứ hai, người ta muốn vươn tới khái quát một cách tin cậy nhất về các khối nước, sử dụng nhiều tham số thủy lý, thủy hoá và sinh học

Quan điểm phân loại tỏ ra đặc biệt nổi trội khi phân tích cấu trúc thẳng đứng của nước đại dương theo phân bố của các tham số thủy vật lý

và thủy âm học [56, 100, 167] Công việc này cho phép xác lập những tham số điển hình về sự phân tầng nước và sau đó phân vùng đại dương

Trang 8

tuân theo sự phân loại nhận được

Trong các bài toán đã liệt kê, việc phân loại thực hiện trong hệ trục

tọa độ "không gian − các biến", còn sự biến động thời gian chỉ quyết định

kết quả một cách gián tiếp Sự phân loại các quá trình khí tượng thủy văn

có tính tới biến động không gian và thời gian của các quan trắc đóng vai

trò quyết định trong phân vùng đại dương Trong trường hợp này các lớp

thường được đồng nhất với những dạng phân bố không gian điển hình

của các trường hải dương và khí tượng học và phản ánh xu thế chung của

những quá trình vật lý [123, 130, 149, 174, 185] Vì vậy, đối tượng phân

tích vật lý ở đây sẽ là những đặc điểm cơ bản của các trường điển hình

cũng như tuần tự thay thế các lớp trong thời gian

Vấn đề lý giải, tức suy xét về ý nghĩa vật lý của các kết quả phân

chia các quan trắc một cách hình thức, là giai đoạn cuối cùng của phương

pháp phân loại tự động, kết thúc quá trình tính toán Đồng thời đây cũng

có thể là nấc thang đầu tiên tiến tới khảo sát tiếp về khả năng ứng dụng phân

loại đối với tập đã cho

Vấn đề là ở chỗ không phải lúc nào cũng có được một lý giải vật lý

về các lớp mà ta nhận được lúc phân chia Sẽ là tốt nếu những nhóm đối

tượng đồng nhất cho phép người nghiên cứu xếp đặt chúng theo những

tính chất vật lý đã biết trước của đối tượng nghiên cứu Để thực hiện quy

trình này, nên tiến hành tính những trị số trung bình của các dấu hiệu bên

trong mỗi lớp, phương sai và biến phân của các dấu hiệu bên trong các

lớp, đánh giá những liên hệ tương quan giữa các dấu hiệu, nói cách khác,

tiến hành phân tích sơ bộ các quan trắc theo từng lớp đã nhận được

Những ước lượng này có tính tới khoảng tin cậy của chúng sẽ cho phép

tiến hành so sánh định lượng những kết quả phân loại với những tài liệu

khảo sát đã tích luỹ trước đây

Một bước lý giải nữa rất quan trọng là làm sao biểu diễn các lớp

quan trắc đã nhận được lên tọa độ không gian − thời gian quen thuộc

Đưa kết quả phân loại lên tọa độ không gian gọi là sự phân vùng Trong

quá trình này có thể nảy sinh những khó khăn do không phù hợp giữa số lớp đã phân chia ra một cách hình thức và số lớp đồng nhất trong tọa độ địa lý các vùng Hiện tượng này là do sự hiện diện của một số vùng tự nhiên khá xa cách nhau nhưng có những giá trị gần bằng nhau của các dấu hiệu quan trắc

Chẳng hạn, nếu quay lại với thí dụ đã xét về phân tích các khối nước, phải nhớ rằng những khối nước cận nhiệt đới với những đặc trưng như nhau quan trắc thấy cả ở Đại Tây Dương, Thái Bình Dương và Ấn

Độ Dương Vì vậy, trong trường hợp khác nhau về số lớp đồng nhất và các vùng đồng nhất người nghiên cứu phải thực hiện những biện pháp cần thiết để có được bức tranh phân chia chi tiết và đầy đủ hơn, rồi sau đó tiếp tục phân loại

Trong nhiều tình huống thực tế, vấn đề phân loại đúng đắn không chỉ tuỳ thuộc vào số lượng quan trắc xuất phát, mà chủ yếu tuỳ thuộc vào tập hợp những dấu hiệu đem ra xem xét Đối với phương pháp phân loại tự động, vấn đề tuyển chọn các dấu hiệu có nội hàm khác hẳn so với các phương pháp thống kê nhiều biến khác

Biến đổi ma trận dấu hiệu xuất phát

Khi phân loại, một phần thông tin xuất phát luôn bị bỏ mất Đó là do

sự liên kết những đối tượng khác nhau ở mức độ nào đó vào một lớp gắn liền với sự loại bỏ những thông tin đặc trưng cho những nét riêng của mỗi đối tượng Rõ ràng những nét riêng kiểu này là vụn vặt, so với những tính chất chung hơn, đặc trưng cho tất cả các đối tượng của một lớp nào đó Vậy làm thế nào tách biệt những nét chung nhất này, những tính chất điển hình cho phần lớn các đối tượng? Điều này có thể đạt được bằng cách biến đổi thông tin xuất phát

Biến đổi thông tin xuất phát phản ánh một trong những tư tưởng chính của vấn đề nhận dạng và phân loại Việc giải quyết nhiều bài toán khó phát biểu có thể sẽ được giảm nhẹ đáng kể nhờ kỹ năng biến đổi thông tin xuất phát thành một số không nhiều các dấu hiệu, vừa đủ để mô

Trang 9

51

tả đầy đủ những đối tượng nghiên cứu Những dấu hiệu khái quát ấy giúp

ta không phải chú ý tới những chi tiết ít đáng kể đối với việc phân loại

Đặc điểm biến đổi dữ liệu xuất phát cũng phụ thuộc vào dạng dữ

liệu Trong hải dương học, cũng như trong khí tượng thủy văn nói chung,

những phương pháp biến đổi là phương pháp các thành phần chính và

phân tích nhân tố

Điều quan trọng là những phương pháp này cho phép nhận được

một hệ các dấu hiệu độc lập nhau, làm đơn giản rất nhiều thuật toán

phân loại Phương pháp các thành phần chính được sử dụng phổ biến để

biến đổi thông tin khi phân chia các khối nước

3.2 PHƯƠNG PHÁP PHÂN TÍCH PHÂN BIỆT

Đặt bài toán

Quá trình tích luỹ tri thức về đại dương gắn liền với việc quy nạp

những dữ liệu mới với những thông tin có sẵn và thu gom được trước

đây Thông thường, thông tin có sẵn về đại dương gồm những tri thức

dưới dạng những khái quát Đó là những lớp hay những kiểu hiện tượng

và quá trình mà người ta đã phát hiện được nhờ khảo sát toàn bộ khối dữ

liệu lưu trữ đã tích luỹ được

Những kiểu là những trạng thái có khả năng nhất, ổn định nhất của

các đối tượng nghiên cứu; đối với những kiểu đó người ta không chỉ đã

xác định được những đặc trưng thống kê, mà còn hình thành được những

quy luật vật lý về sự xuất hiện, tồn tại và chuyển hoá lẫn nhau của chúng

Sự quy nạp thông tin mới với thông tin đã phân loại chính là nhiệm vụ cơ

bản về ứng dụng phương pháp phân tích phân biệt Bản thân hệ phương

pháp ở đây đóng vai trò một quy tắc toán học hình thức, theo đó, bằng

cách so sánh thống kê những đặc trưng của các quan trắc đang xét và

những lớp đã phân chia trước đó mà người ta xếp vectơ quan trắc đang

xét vào lớp nào

Vận dụng phương pháp phân tích phân biệt giúp giảm thiểu những

sai lầm có thể có khi quy nạp sai một quan trắc vào những lớp đã phân chia, điều này quyết định tính hiệu quả của hệ phương pháp trong thực hành

Dưới hình thức đầy đủ, phương pháp phân tích phân biệt thuộc lĩnh vực khoa học gọi là phép "nhận dạng" [17, 130] Những đặc trưng thống

kê của các lớp đã phân chia trước là những dạng, căn cứ vào những dạng này mà người ta phân tích dạng của một vectơ quan trắc mới cũng hình thành từ những đặc trưng thống kê tương tự

Thí dụ kinh điển về vận dụng lý thuyết nhận dạng trong nghiên cứu hải dương học có thể là bài toán phân loại phân bố thẳng đứng mật độ nước ở Đại dương thế giới

Thủy vực đại dương đã được phân vùng khá chi tiết theo các kiểu phân bố thẳng đứng của mật độ nước Đối với từng vùng đã xác định những đặc trưng thống kê về phân bố mật độ (giá trị trung bình, phương sai, độ bất đối xứng), thiết lập quan hệ thống nhất giữa một tập hợp các tham số trạng thái đại dương khác như: chế độ nhiệt muối, động lực, các đặc trưng quang học và âm học, phân bố các chỉ tiêu sinh học và hoá học, với phân bố mật độ Nếu ta xác định được một cách khách quan một trắc diện thẳng đứng vừa mới quan trắc thuộc vào lớp nào trong số các lớp đã phân chia, thì có nghĩa rằng ta có được toàn bộ thông tin tương ứng với lớp đó và nắm được bản chất vật lý của các quá trình đang diễn ra Bây giờ chúng ta chuyển sang phát biểu bài toán của phương pháp phân tích phân biệt Trong quá trình vận dụng phương pháp phân tích phân biệt đòi hỏi giải quyết hai vấn đề:

− Hình thành quy tắc toán học quy kết các đối tượng vào một trong những lớp đã phân chia;

− Xác định một vectơ quan trắc mới thuộc lớp nào

Tập dữ liệu lưu trữ, đã được phân chia thành những lớp đồng nhất,

được sử dụng làm tập xuất phát, còn được gọi là tập thầy x , gồm N

quan trắc về M biến Các quan trắc thuộc về k lớp Đối với mỗi lớp i ,

Trang 10

đã tính được những đặc trưng thống kê ban đầu (trung bình của M tham

số xi ={x1i ,x2i , ,x M i}, phương sai của M tham số

i = s1 ,s2 , ,s

s ) và xây dựng những tổ chức đồ P i ( x1 ,x2 , ,x M)

Dựa theo tập thầy, người ta phải hình thành quy tắc giải Quy tắc

giải là biểu thức toán học − hàm phân biệt, theo giá trị của hàm này có

thể rút ra kết luận đơn trị quy kết vectơ quan trắc thuộc vào lớp cụ thể

nào

Ý nghĩa hình học của phương pháp phân tích phân biệt

Việc giải bài toán đã phát biểu trong phương pháp phân tích phân

biệt có thể giải thích trên ví dụ hình học đơn giản Ta biểu diễn tập dữ

liệu xuất phát, gồm N quan trắc về M =2 biến, dưới dạng những đám

mây tản mát trên mặt phẳng tọa độ (hình 3.4) Giả sử có hai đám mây dữ

liệu được phân chia rõ rệt, ta tiên định phân nhóm chúng thành hai lớp:

lớp 1 và lớp 2

Đối với từng lớp đã tính giá trị của phương sai và kỳ vọng toán học

theo từng dấu hiệu trong hai dấu hiệu Ngoài ra, đối với mỗi dấu hiệu đã

xây dựng các tổ chức đồ tổng quát của các đám mây tản mát: P1(x) và

)

(

2 x

Từ những tổ chức đồ đã dẫn, thấy rằng một phần những giá trị

quan trắc rơi vào vùng giao nhau của các đường cong, bên trong

vùng đó không thể định chính xác các quan trắc thuộc lớp nào Ý

nghĩa của phân tích phân biệt là ở chỗ tìm một quy tắc giải, làm

giảm thiểu sai lầm phân loại Về mặt hình học, điều này tương

đương với việc tìm ra một đường thẳng z, sao cho các hình chiếu

các đám mây của các lớp lên đường thẳng đó sẽ cách xa nhau tối

đa, còn diện tích vùng giao nhau của các tổ chức đồ của các lớp trở

nên cực tiểu Khi đó trên đường thẳng z, gọi là hàm phân biệt, các

biên giới của các lớp z0 cũng được chiếu lên Điểm z0 đặc trưng

cho biên giới các lớp, gọi là chỉ số phân biệt

Hình 3.4 Ý nghĩa hình học của phương pháp phân tích phân biệt

2

1 ,x

x những dấu hiệu xuất phát; P(x1),P(x2) − mật độ xác suất quan trắc theo các dấu hiệu; z− hàm phân biệt; P (z) − mật độ xác suất phân bố quan trắc chiếu lên hàm

Khi chuyển từ không gian dấu hiệu hai chiều sang không gian nhiều chiều, phải thấy rằng thay vì một đường thẳng, hàm phân biệt sẽ biểu diễn hình học bằng một mặt phân cách các lớp (mặt đa diện đối với số dấu hiệu lớn hơn ba)

Tính các hàm phân biệt

Giả sử rằng những tổ chức đồ phân bố thực nghiệm theo các lớp tuân theo quy luật phân bố chuẩn Ta sẽ xét cách xây dựng và tính các hàm phân biệt dựa trên quy tắc Bayes, quy tắc này đảm bảo tối thiểu hoá lỗi phân loại sai Ký hiệu c là sai số quy kết sai đối tượng từ lớp 1 sang lớp 1

2, còn c2 − sai số quy kết sai đối tượng từ lớp 2 sang lớp 1 Khi đó quy tắc giải được thay như sau:

Ngày đăng: 09/08/2014, 16:21

HÌNH ẢNH LIÊN QUAN

Hình 3.1. Thể hiện phân loại các quan trắc dưới dạng cây phân loại - phải cho trước thuật giải của bài toán. Giả sử cho tập hợp Ω trong không gian doc
Hình 3.1. Thể hiện phân loại các quan trắc dưới dạng cây phân loại (Trang 2)
Hình chắc chắn sẽ vô vùng lộn xộn). Vì vậy, nếu  đưa thêm những biến - phải cho trước thuật giải của bài toán. Giả sử cho tập hợp Ω trong không gian doc
Hình ch ắc chắn sẽ vô vùng lộn xộn). Vì vậy, nếu đưa thêm những biến (Trang 3)
Hình 3.3, trên đó biểu diễn đồ thị khoảng cách giữa các đối tượng liên tiếp  được liên kết vào mạng - phải cho trước thuật giải của bài toán. Giả sử cho tập hợp Ω trong không gian doc
Hình 3.3 trên đó biểu diễn đồ thị khoảng cách giữa các đối tượng liên tiếp được liên kết vào mạng (Trang 6)
Hình 3.4. Ý nghĩa hình học của phương pháp phân tích phân biệt - phải cho trước thuật giải của bài toán. Giả sử cho tập hợp Ω trong không gian doc
Hình 3.4. Ý nghĩa hình học của phương pháp phân tích phân biệt (Trang 10)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w