1. Trang chủ
  2. » Thể loại khác

Phương pháp đánh giá lựa chọn thông tin và ứng dụng trong xử lý tổ hợp số liệu địa vật lý

100 23 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 100
Dung lượng 4,17 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Với thực tế và cách đặt vấn đề trên, ta thấy, để nâng cao hơn nữa chất lượng của các phương pháp phân tích tổ hợp số liệu, trong đó có phương pháp phân tích nhận dạng, trước hết cần phải

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

-

Nguyễn Phương Thảo

PHƯƠNG PHÁP ĐÁNH GIÁ LỰA CHỌN THÔNG TIN VÀ ỨNG DỤNG TRONG XỬ LÝ TỔ HỢP SỐ LIỆU ĐỊA VẬT LÝ

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội – 2019

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

-

Nguyễn Phương Thảo

PHƯƠNG PHÁP ĐÁNH GIÁ LỰA CHỌN THÔNG TIN VÀ ỨNG DỤNG TRONG XỬ LÝ TỔ HỢP SỐ LIỆU ĐỊA VẬT LÝ

Chuyên ngành: Vật lý địa cầu

Mã số: 8440130.06

LUẬN VĂN THẠC SĨ KHOA HỌC

Người hướng dẫn khoa học

PGS.TS VÕ THANH QUỲNH

Hà Nội – 2019

Trang 3

LỜI CẢM ƠN

Sau một thời gian dài nghiên cứu, cố gắng học tập và làm việc một cách nghiêm túc, tôi đã hoàn thành cuốn luận văn tốt nghiệp này Trước khi trình bày nội dung chính của luận văn, tôi xin bày tỏ lòng biết ơn đến những người đã giúp đỡ, bên cạnh tôi suốt thời gian qua

Trước tiên, tôi xin gửi lời cảm ơn sâu sắc nhất tới PGS.TS Võ Thanh

Quỳnh, người thầy trực tiếp hướng dẫn tôi, đã quan tâm, giúp đỡ, tận tình chỉ bảo

tôi trong suốt quá trình thực hiện đề tài luận văn tốt nghiệp này Không chỉ được giúp đỡ về mặt chuyên môn, trong quá trình làm việc, tôi còn học hỏi được tinh thần làm việc khoa học và đầy trách nhiệm từ thầy, từ đó tích lũy được những kiến thức và kinh nghiệm quý báu

Tôi xin gửi lời cảm ơn tới Th.S Nguyễn Viết Đạt người đã tận tình giúp đỡ

tôi trong suốt quá trình làm luận văn Và tôi cũng xin gửi lời cảm ơn trân thành nhất tới các thầy cô trong bộ môn Vật lý Địa Cầu – Trường Đại học Khoa học tự nhiên – Đại học Quốc gia Hà Nội đã trang bị kiến thức và có những đóng góp hết sức quý báu để tôi hoàn thành luận văn này

Cuối cùng cho phép tôi bày tỏ lòng biết ơn vô hạn tới gia đình và bạn bè, những người đã luôn quan tâm, động viên và là chỗ dựa tinh thần vững chắc của tôi trong những thời khắc khó khăn nhất

Dù đã rất cố gắng song do điều kiện thời gian và trình độ nên luận văn của tôi không thể tránh khỏi những thiếu sót Tôi rất mong nhận được những nhận xét

và những lời góp ý từ phía thầy cô và bạn đọc để luận văn của tôi được hoàn thiện hơn

Tôi xin chân thành cảm ơn!

Hà Nội, 01 tháng 12 năm 2019

Học viên

Nguyễn Phương Thảo

Trang 4

1.2.2.1 Các thuật toán nhận dạng có mẫu chuẩn 17

1.2.2.2 Các thuật toán nhận dạng không có mẫu chuẩn 20

CHƯƠNG II MỘT SỐ PHƯƠNG PHÁP ĐÁNH GIÁ LỰA CHỌN THÔNG TIN VÀ PHÂN TÍCH NHẬN DẠNG TRONG XỬ LÝ SỐ LIỆU ĐỊA VẬT LÝ

23

2.1 Một số phương pháp đánh giá lựa chọn thông tin 23

2.1.1 Phương pháp phân tích - tần suất 23

2.1.2 Phương pháp phân tích – khoảng cách – khái quát 25

Trang 5

2.1.4 Phương pháp phân tích thành phần chính 28

2.1.5 Phương pháp đánh giá chuyên gia 33

2.2 Một số phương pháp phân tích nhận dạng trong xử lý tổ hợp số liệu

2.2.2.2 Phương pháp khoảng cách tần suất - nhận dạng 41

CHƯƠNG III THỬ NGHIỆM ÁP DỤNG MỘT SỐ PHƯƠNG PHÁP ĐÁNH GIÁ LỰA CHỌN THÔNG TIN VÀ PHÂN TÍCH NHẬN DẠNG TRÊN SỐ LIỆU THỰC TẾ

49

3.1 Giới thiệu đối tượng và khu vực nghiên cứu thử nghiệm 49

3.1.1 Vị trí địa lý và đặc điểm của khu vực nghiên cứu 49

3.1.3 Tài liệu địa vật lý máy bay về khu vực nghiên cứu 53

3.2 Phân tích thử nghiệm 1 số phương pháp đánh giá lựa chọn thông tin 53

3.2.1 Phân tích thử nghiệm theo phương pháp phân tích tần suất 53

3.2.2 Phân tích thử nghiệm theo phương pháp phân tích - khoảng cách

- khái quát

59

Trang 6

3.2.3 Phân tích thử nghiệm theo phương pháp trọng số 62

3.3 Phân tích thử nghiệm bằng phương pháp nhận dạng 63

3.3.1 Phân tích thử nghiệm phương pháp tần suất – nhận dạng 63

3.3.2 Phân tích thử nghiệm phương pháp khoảng cách – tần suất – nhận dạng

65

Trang 7

DANH MỤC HÌNH

Hình 3.1 Sơ đồ vị trí khu vực lựa chọn nghiên cứu thử nghiệm 50 Hình 3.2 Sơ đồ vị trí của các đối tượng thử nghiệm 52 Hình 3.3 Đồ thị tỷ trọng thông tin của các tính chất trên đối tượng mẫu 57 Hình 3.4 Đồ thị giá trị khoảng cách khái quát của các tính chất trên đối tượng mẫu chuẩn và mẫu ĐN01

60

Hình 3.5 Đồ thị giá trị khoảng cách khái quát của các tính chất trên đối tượng mẫu chuẩn và mẫu ĐN01 theo thứ tự giảm dần

61

Trang 8

DANH MỤC BẢNG Bảng 2.3 Số liệu quan trắc trên một đối tượng địa chất 27

Bảng 3.1 Khoảng giá trị đặc trưng của đối tượng mẫu 54

Bảng 3.3 Kết quả tính tỷ trọng thông tin trên đối tượng mẫu 57

Bảng 3.4 Kết quả tính tỷ trọng thông tin trên đối tượng mẫu sau khi sắp xếp

58

Bảng 3.5 Tỉ lệ phần trăm tổng thông tin với m tính chất 58

Bảng 3.6 Bảng giá trị khoảng cách khái quát của các tính chất trên đối tượng mẫu chuẩn và mấu ĐN01

Trang 9

MỞ ĐẦU

Đánh giá và lựa chọn thông tin là nội dung hết sức quan trọng trong công tác

xử lí-phân tích tổ hợp số liệu vật lý nói chung , số liệu địa vật lý nói riêng Hiện nay, trong công tác xử lí-phân tích tổ hợp số liệu địa vật lý người ta sử dụng rất nhiều loại phương pháp khác nhau, trong đó nhóm các phương pháp thống kê - nhận dạng được

áp dụng rộng rãi và rất có hiệu quả Tuy nhiên, trên thực tế, khi tiến hành các phương pháp phân tích tổ hợp đối với nhiều loại tài liệu địa vật lý, trong đó có tài liệu phổ gamma hàng không ở nước ta, vẫn đang gặp phải một số hạn chế cần được nghiên cứu khắc phục Đó là khối lượng tài liệu cũng như số lượng các chủng loại thông tin rất lớn, trong khi đó số lượng các tham số đầu vào của các chương trình phân tích hiện có thường bị giới hạn Việc sử dụng các tổ hợp thông tin khác nhau để tiến hành phân tích cho những kết quả rất khác nhau Mặt khác, kể cả khi số lượng các tham số đầu vào của các chương trình phân tích được mở rộng thì việc sử dụng đồng thời tất cả các loại thông tin có được để phân tích nhận dạng lại cho kết quả thiếu tin cậy hơn khi chỉ sử dụng một tổ hợp thông tin nhất định có chất lượng cao Rõ ràng việc sử dụng những thông tin thiếu độ tin cậy không những không có hiệu quả mà còn làm nhòa đi những thông tin quan trọng khác, gây nên những nhận thức sai lệch về đối tượng nghiên cứu Trong thực tế, số lượng các chủng loại thông tin của các đối tượng nhiên cứu thu được ngày càng lớn Làm thế nào để đánh giá được chất lượng của từng chủng loại thông tin,

từ đó lựa chọn tổ hợp các thông tin tin cậy phục vụ cho từng mục đích nghiên cứu đóng vai trò hết sức quan trọng trong công tác xử lý phân tích tài liệu và chính là nội dung của lớp bài toán đánh giá lựa chọn thông tin Với thực tế và cách đặt vấn đề trên, ta thấy, để nâng cao hơn nữa chất lượng của các phương pháp phân tích tổ hợp số liệu, trong đó có phương pháp phân tích nhận dạng, trước hết cần phải giải quyết tốt bài toán

đánh giá, lựa chọn thông tin Đề tài luận văn: Phương pháp đánh giá lựa chọn thông

tin và ứng dụng trong xử lý tổ hợp số liệu vật lý được học viên lựa chọn với các

nhiệm vụ chính như sau:

Trang 10

- Tìm hiểu một số phương pháp, thuật toán phân tích thuộc nhóm các phương pháp đánh giá và lựa chọn thông tin trong xử lý tổ hợp số liệu địa vật lý

- Áp dụng các phương pháp phân tích tần suất theo thuật toán Griffiths-Vinni, phương pháp phân tích khoảng cách khái quát theo thuật toán Paguonop và phương pháp trọng số vào xử lý số liệu địa vật lý từ đó có thể rút ra những nhận xét, kết luận về khả năng ứng dụng của từng phương pháp

- Chương 3: Thử nghiệm áp dụng một số phương pháp đánh giá lựa chọn thông

tin và phân tích nhận dạng trên số liệu thực tế

- Kết luận

Trang 11

CHƯƠNG I: TỔNG QUAN VỀ PHƯƠNG PHÁP THỐNG KÊ – NHẬN DẠNG

TRONG XỬ LÝ TỔ HỢP SỐ LIỆU ĐỊA VẬT LÝ 1.1 Thống kê và xử lý số liệu

1.1.1 Mẫu ngẫu nhiên và phân phối thực nghiệm

Các thiết bị quan sát trường trong địa vật lý đều là các thiết bị số nên các kết quả quan sát trường địa vật lý (bao gồm: tín hiệu có ích, nhiễu và sai số đo) nên có thể là đại lượng này hay đại lượng khác mà người đo không dự đoán trước được Vì vậy để

mô tả các giá trị (bằng số) các trường địa vật lý do được người ta thường sử dụng khái niệm đại lượng ngẫu nhiên

Các giá trị trường địa vật lý đo được các số cụ thể nên đại lượng ngẫu nhiên là

mô hình nền tảng để mô tả các số liệu địa vật lý

Khi tiến hành n quan sát độc lập về biến ngẫu nhiên X nào đó (ví dụ: các số liệu trong địa vật lý) Ta gọi Xi là việc quan sát lần thứ i về biến ngẫu nhiên X Khi đó (X1,

X2, …, Xn) được gọi là mẫu ngẫu nhiên, n được gọi là cỡ mẫu hay số lần quan sát Như vậy mẫu ngẫu nhiên cỡ n thực chất là n biến ngẫu nhiên độc lập, cùng phân phối như biến ngẫu nhiên X

Ta gọi xi là kết quả quan sát được ở lần thứ i Khi đó (x1, x2, …, xn) là n giá trị quan sát được Đó là một giá trị cụ thể mà mẫu ngẫu nhiên (X1, X2, …, Xn) nhận

Giả sử ta có mẫu ngẫu nhiên (x1, x2, …, xn) Xuất phát từ n giá trị cụ thể mà biến ngẫu nhiên nhận ta xây dựng hàm số:

( ) * + ( )

Trong đó * + là số các giá trị mẫu xi mà nhỏ hơn x Khi x thay đổi, ta nhận được hàm ( ) theo biến số thực x Hàm số này được gọi là hàm phân phối thực nghiệm

Trang 12

Xuất phát từ các mẫu cụ thể khác nhau ta nhận được các hàm phân phối thực nghiệm các nhau Đồ thị của chúng đều là các bậc thang Các đường bậc thang khác nhau đều có chung một tính chất là: Khi cỡ mẫu tăng vô hạn các hàm phân phối thực nghiệm tiến đến hàm phân phối lý thuyết cần tìm Điều đó được thể hiện qua định lý sau:

Định lý Glivenco: giả sử F(x) là hàm phân phối của biến ngẫu nhiên X mà ta đang

cần tìm ( ) là hàm phân phối thực nghiệm nhận được từ mẫu ngẫu nhiên cỡ n Khi đó:

,

| ( ) ( )| - (1.2) Như vậy hàm phân phối thực nghiệm là một xấp xỉ của hàm phân phối lý thuyết Xấp xỉ đó càng tốt khi cỡ mẫu n càng lớn Với n cố định hàm phân phối thực nghiệm cho ta hình ảnh hình học về phân phối lý thuyết cần tìm [5]

1.1.2 Các đặc trưng thống kê

a, Kỳ vọng (giá trị trung bình)

Định nghĩa: Kỳ vọng của biến ngẫu nhiên ξ là một con số được ký hiệu là E ξ

và được xác định như sau:

{ ∑ ế ( )

( ) ế ( )

(1.3)

Ý nghĩa: Kỳ vọng của biến ngẫu nhiên là giá trị trung bình mà biến ngẫu nhiên

là trọng tâm của phân phối xác suất với khối lượng 1 Chính vì vậy mà người ta dùng kì vọng để xác định vị trí của phân phối

Tính chất:

Trang 13

2 ECX = CEX

3 Nếu X và Y là những biến ngẫu nhiên có kỳ vọng thì tổng hoặc hiệu X ± Y cũng có kỳ vọng và

E[X ±Y]  E[X] ± E[Y]

4 Nếu X và Y là hai biến ngẫu nhiên độc lập và có kỳ vọng thì tích XY cũng có kỳ vọng và

E[XY]  E[X] E[Y]

Trang 14

Như vậy trung vị là điểm phân đôi khối lượng xác suất thành hai thành phần bằng nhau

c, Mode

Nếu ξ rời rạc thì Mode là giá trị của ξ mà tại đó xác suất tương ứng lớn nhất

Nếu ξ liên tục có mật độ p(x) thì Mode là giá trị x0 mà tại đó p(x) đạt cực đại

Trang 15

Ý nghĩa:

Phương sai của biến ngẫu nhiên là 1 số không âm dùng để đo mức độ phân tán

(mức độ tản mát) của các giá trị của biến ngẫu nhiên ξ xưng quanh tâm (Eξ) của nó Dξ nhỏ thì mức độ phân tán nhỏ, độ tập trung lớn Dξ càng lớn thì độ phân tán càng cao

Trang 16

(-∞, +∞) Tại một điểm x bất kỳ hàm F(x) chính là xác suất để biến ngẫu nhiên nhận giá trị nhỏ hơn x hoặc để biến ngẫu nhiên nhận giá trị bên trái x

Chỉ số của hàm ( ) để chỉ hàm phân phối của biến ngẫu nhiên ξ Trường hợp không cần thiết có thể bỏ qua không cần viết chỉ số đó

Tính chất:

Hàm phân phối của biến ngẫu nhiên có một số tính chất sau:

1 Hàm phân phối xác định với mọi x ϵ (-∞, +∞)

2 0 ≤ F(x) ≤ 1, Ɐx ; F(-∞) = 0, F(+∞) = 1

3 Hàm phân phối là hàm không giảm: nếu x1 < x2 thì F(x1) ≤ F(x2)

4 P{a ≤ ξ < b} = F(b) – F(a)

Một số phân phối một chiều quen thuộc và ứng dụng thực tế:

Để mô tả các đại lượng ngẫu nhiên, trong địa vật lý người ta sử dụng các hàm phân phối lý thuyết như hàm phân phối chuẩn (phân phối Gauxơ), phân phối chuẩn loga, phân phối Puasson…

Phần lớn các đại lượng ngẫu nhiên trong địa vật lý cũng như nhiều hiện tượng địa chất khác chúng tuân theo luật phân phối chuẩn

 Phân phối nhị thức:

Xét n phép thử Bernoulli với xác suất thành công P(A) = p Gọi ξ là số lần xuất hiện biến cố A trong n phép thử trên Phân phối của ξ được gọi là phân phối nhị thức và ký hiệu ξ = B(n,p)

( ) ( ) m = 0,1, 2, …, n

Dãy phép thử Bernoulli thường gặp nhiều trong thực tế do đó biến ngẫu nhiên

có phân phối nhị thức cũng thường gặp trong các ứng dụng

Trang 17

 Phân phối poisson:

Phân phối này do Simeon Denis Poisson mô tả vào năm 1837 Phân phối này

đã có nhiều ứng dụng đối với nhiều quá trình có liên quan đến số quan sát đối với một đơn vị thời gian hoặc không gian Chẳng hạn số cuộc điện thoại nhận được ở một trạm điện thoại trong một phút, số khách hàng đến nhà bang đối với mỗi một chu kì 30 phút Số máy bị hỏng trong ngày…

 Phân phối đều:

Hàm mật độ và hàm phân phối đã được đưa ra ở trên Từ biến ngẫu nhiên phân phối đều người ta nhận được bảng các số ngẫu nhiên

 Phân phối chuẩn N(µ, σ 2 )

Hàm mật độ chuẩn tổng quát ( )

( ) với -∞ < x < +∞ (1.8) Đường cong mật độ này đối xứng qua đường x = µ, nhận trục Ox làm tiệm cận ngang và có giá trị cực đại tại x = µ với tung độ cực đại là

Là hàm đối xứng qua trục tung , đồ thị có dạng hình chuông Hàm phân phối

Trang 18

Nhiều giá trị trường địa vật lý như mật độ, tốc độ truyền sóng, phóng xạ… tuân theo luật phân phối chuẩn và dựa trên các thuật toán thống kê theo luật phân phối chuẩn người ta có thế xử lý số liệu để tìm ra các đặc trưng của đối tượng

Ngoài luật phân phối chuẩn còn có các luật phân phối khác đang được áp dụng phổ biến trong phân tích thống kê các số liệu địa vật lý Ví dụ như luật phân phối chuẩn loga được dùng để mô tả các giá trị điện trở xuất, độ từ cảm của đất đá

 Phân phối Student hay phân phối t

Phân phối này do William S Gosset đưa ra năm 1908 Trong đó t là một biến ngẫu nhiên, t là một thống kê tiêu chuẩn xác định bởi:

̅ Hàm mật độ của t được ác định bởi:

Trang 19

Hàm mật độ của phân phối t cũng là hàm đối xứng qua trục tung, dạng đồ thị của

nó cũng là dạng hình chuông rất giống hàm mật độ chuẩn φ(x)

Số nguyên n được gọi là số bậc tự do của phân phối t

 Phân phối χ 2

Hàm mật độ của phân phối χ 2 có dạng :

( ) {

( )

(1.14)

n gọi là bậc tự do của phân phối χ 2

Thực chất của phân phối χ 2 với n bậc tự do chính là phân phối của biến ngẫu nhiên

∑ trong đó X1, X2, …, Xn độc lập, cùng phân phối N(0, 1)

Phân phối χ 2 do Karl Pearson đưa ra vào năm 1900

 Phân phối F

Phân phối F do R A Fisher đưa ra

Phân phối F là phân phối của tỷ số hai biến ngẫu nhiên độc lập có phân phối χ 2 với

Trang 20

Hàm mật độ của phân phối F có dạng:

( ) {

( )

( )( ) (1.16) Trong đó ( ) là hằng số thích hợp [3]

1.2 Xử lý tổ hợp số liệu địa vật lý

1.2.1 Các bước xử lý tổ hợp số liệu Địa Vật lý

Xử lí tổ hợp số liệu về cơ bản là dựa trên nhiều loại thông tin khác nhau để giải quyết được các nhiệm vụ đặt ra phù hợp với điều kiện kinh tế và kĩ thuật cho phép.Không chỉ riêng trong địa vật lý mà nhiều lĩnh vực khác cũng sử dụng xử lí tổ hợp dữ liệu để nâng cao chất lượng xử lí

Xử lý tỏ hợp số liệu Địa vật lý là một quá trình phức tạp phụ thuộc vào mục đích nghiên cứu và dạng các số liệu khác nhau Một cách khái quát có thể phân chia quá trình này theo các bước cơ bản sau:

- Xây dựng mô hình và xác định phương pháp

- Ước lượng và đánh giá các đặc trưng của đối tượng mẫu

- Chọn thuật toán xử lý

- Định nghiệm về sự tồn tại của đối tượng cần tìm

- Đánh giá chất lượng xử lý

1.2.1.1 Xây dựng mô hình và xác định phương pháp

Để xử lý tổ hợp số liệu Địa vật lý người ta chủ yếu sử dụng các mô hình thống

kê vì các đối tượng khảo sát cần nghiên cứu có vị trí, kích thước, tính chất vật lý không

Trang 21

vật lý do các đối tượng địa chất tạo ra thường bị các loại nhiễu làm méo nên các dấu hiệu trường Địa vật lý khảo sát cũng mang tính ngẫu nhiên Với mô hình để được nhiệm vụ tiếp theo là lựa chọn các phương pháp nhận dạng tương ứng, tiến hành xử lý theo mô hình và giải quyết các nhiệm vụ bài toán đặt ra

Hiện nay trong công tác xử lý-phân tích số liệu địa vật lý có rất nhiều phương pháp nhận dạng, có thể chia chúng thành hai nhóm: nhóm các phương pháp nhận dạng theo đối tượng chuẩn và nhóm các phương pháp nhận dạng không có đối tượng chuẩn

Nhóm các phương pháp nhận dạng theo đối tượng chuẩn được áp dụng khi chúng ta biết được lớp đối tượng và biết được đặc trưng thống kê của các trường địa vật lý đối với từng lớp đối tượng

Khi xử lý số liệu địa vật lý bằng thuật toán nhận dạng có mẫu chuẩn, nhiệm vụ đặt ra là cần xây dựng các thuật toán hay đề xuất các chỉ tiêu nhận dạng đảm bảo để phân loại các đối số liệu quan sát thành hai lớp hoặc với số lớp nhiều hơn 2 khi có trước các đặc trưng thống kê của mỗi loại dấu hiệu ứng với các đối tượng chuẩn.Vấn đề mang tính quyết định là lựa chọn đối tượng chuẩn, trên đó tiến hành nghiên cứu các đặc trưng thông kê của các dấu hiệu (các trường địa vật lý) Điều này đặc biệt quan trọng khi khảo sát các diện tích có cấu trúc địa chất phức tạp, ở đó các trường địa vật lý quan sát được biến đổi mạnh ngay cả ở những diện tích nhỏ

Nhóm các phương pháp nhận dạng không có đối tượng chuẩn được áp dụng khi chúng ta không biết trước các đặc trưng thống kê của các dấu hiệu ứng với các lớp đối tượng cần tìm Khi đó quá trình nhận dạng đơn thuần chỉ thực hiện nhiệm vụ phân loại trường (các bài toán phân lớp)

Phương pháp xử lý số liệu bằng thuật toán nhận dạng không có đối tượng chuẩn được thực hiện như sau: bằng thuật toán phân loại trường lựa chọn được, tiến hành chia các điểm quan sát thành một số nhất định các diện tích đồng nhất về dấu hiệu tổ hợp Bản chất địa chất của từng diện tích phân ra được có thể không xác định được; để xác định

Trang 22

chúng đòi hỏi phải có các số liệu khoan hoặc nghiên cứu bổ sung về tính chất vật lý của đá

1.2.1.2 Ước lượng và đánh giá các đặc trưng của đối tượng mẫu

a Ước lượng các đặc trưng thống kê

Để xử lý tổ hợp các số liệu bằng phương pháp nhận dạng có mẫu chuẩn thì công việc mang tính quyết định là lựa chọn các mẫu chuẩn và xác định các đặc trưng thống

kê các trường địa vật lý của chúng

Các mẫu hay đối tượng chuẩn là phần diện tích ở đó bằng các số liệu khoan và các số liệu địa chất khác đã xác định được bản chất địa chất của các đối tượng gây ra trường địa vật lý Tùy thuộc vào các mục đích nghiên cứu khác nhau mà các đối tượng chuẩn được lựa chọn khác nhau

Dựa vào các giá trị trường quan sát được trên các đối tượng chuẩn người ta tiến hành xác định các đặc trưng thống kê của trường cho từng loại đối tượng Các đặc trưng này bao gồm:

 Đường cong biến phân (hàm phân bố mật độ xác suất thực nghiệm)

 Kỳ vọng và phương sai của trường (thông qua đường cong biến phân )

Ngoài ra khi cần người ta còn tính cả hệ số tương quan giữa các dấu hiệu, phương chủ đạo của các dị thường…

Điều đặc biệt cần lưu ý để công tác phân tích nhận dạng đạt hiệu quả tốt thì cần lựa chọn các đối tượng chuẩn sao cho các diện tích tồn tại đối tượng chuẩn phải nằm xen kẽ với các phần diện tích khảo sát cần nhận dạng

Đối với nhóm các phương pháp nhận dạng không có đối tượng chuẩn để xác định các đặc trưng thống kê của trường người ta chia khu vực khảo sát thành các diện tích cơ sở – cửa sổ Kích thước của các diện tích cơ sở hay số lượng điểm quan sát trên

Trang 23

đối tượng trường tạo ra Diện tích cơ sở có thể nhỏ nhất cần chọn để trong tương lai có thể đề nghị (hoặc không đề nghị) đưa vào thăm dò hoặc khảo sát chi tiết Diện tích cơ

sở cũng có thể xem như cửa sổ trượt, các đặc trưng thống kê của trường trong cửa sổ

đó được gán cho điểm trung tâm cửa sổ

b Đánh giá lượng tin của dấu hiệu

Lượng tin của dấu hiệu là khả năng mà dấu hiệu đó có thể phân biệt được các đối tượng khác nhau với nhau Khả năng này phụ thuộc vào việc các đối tượng của cùng một lớp có thường xuyên cho những giá trị cố định của dấu hiệu đó hay không và các giá trị đó có phân bố rộng ra ngoài giới hạn của các đối tượng của lớp đó hay không

Người ta đưa ra các khái niệm lượng tin từng phần, lượng tin tổng (tích phân) và lượng tin tổng hợp Lượng tin từng phần là lượng tin của những dải giá trị hay của nhóm các giá trị riêng biệt của một dấu hiệu nhất định Lượng tin tổng là lượng tin chứa toàn bộ các giá trị của một dấu hiệu (một loại trường) nào đó.Lượng tin tổng hợp

là lượng tin tính cho những dạng kết hợp khác nhau của nhiều dấu hiệu

Trong quá trình nhận dạng không phải mọi dấu hiệu trường đều quan trọng như nhau, thậm chí có những dấu hiệu trường địa vật lý hoàn toàn không chứa thông tin về đối tượng khảo sát và có thể là những dấu hiệu nhiễu làm mờ nhạt đi các thông tin hữu ích Khi đưa các dấu hiệu này vào sử dụng để nhận dạng không làm tăng mà ngược lại làm giảm chất lượng nhận dạng đối tượng Chính vì vậy, trong quá trình xử lý cần tiến hành đánh giá lượng tin của từng dấu hiệu để từ đó chọn ra những dấu hiệu có lượng tin cao đưa vào xử lý và loại bỏ những dấu hiệu có lượng tin thấp

1.2.1.3 Chọn thuật toán xử lý

Các thuật toán được lựa chọn để xử lý sẽ ảnh hưởng tới chất lượng xử lý Để chất lượng xử lý cao khi lựa chọn các thuật toán người ta dựa vào các yếu tố sau:

Trang 24

a Nhiệm vụ đặt ra

Nếu nhiệm vụ của khảo sát địa vật lý là tìm kiếm mỏ thì thuật toán phải có khả năng nhận dạng hai lớp đối tượng: lớp quặng và lớp không quặng Còn nếu nhiệm vụ của khảo sát địa vật lý là phục vụ công tác đo vẽ bản đồ địa chất thì thuật toán phải đảm bảo khả năng cùng một lúc nhận dạng được nhiều lớp đối tượng liên quan với

nhiều loại đất đá và các yếu tố kiến tạo khác nhau

b Đặc điểm chứa thông tin của số liệu gốc

Nếu các số liệu địa vật lý chứa thông tin ở hai mức: mức “có”- mức dị thường

và mức “không”- mức phông thì người ta sử dụng các thuật toán logic Trong trường hợp các số liệu địa vật lý chứa các thông tin định lượng thì người ta sử dụng các thuật toán kiểm chứng thống kê

c Tính độc lập và không độc lập

Khi các dấu hiệu trường địa vật lý độc lập nhau thì có thể sử dụng các thuật toán đơn giản Còn trong trường hợp các dấu hiệu liên quan với nhau thì các thuật toán được

sử dụng phức tạp hơn

d Mức độ đầy đủ của các thông tin tiên nghiệm

Mức độ đầy đủ của các thông tin tiên nghiệm chính là mức độ hoàn chỉnh của các mô hình vật lý địa chất.Trong trường hợp tồn tại các đối tượng chuẩn, nghĩa là khi biết rõ mô hình vật lý địa chất của các đối tượng thì để xử lý người ta sử dụng các thuật

toán nhận dạng có mẫu chuẩn để phân loại trường

1.2.1.4 Định nghiệm về sự tồn tại của đối tượng

Đối với các thuật toán nhận dạng có mẫu chuẩn việc quyết định nghiệm chủ yếu dựa vào chỉ số tương đồng Chỉ số này xác định mức độ giống nhau hoặc khác nhau giữa đối tượng nghiên cứu với đối tượng chuẩn theo lượng thông tin tổng hợp của toàn

Trang 25

Đối với các thuật toán nhận dạng không có mẫu chuẩn thì quá trình nhận dạng chỉ đơn thuần thực hiện việc phân chia diện tích khảo sát thành các phần đồng nhất theo tổng hợp các dấu hiệu Việc phân loại ở đây được tiến hành dựa vào các chỉ tiêu định nghiệm khác nhau.Chỉ tiêu này phụ thuộc rất nhiều vào số lượng các lớp đối

tượng cần phân chia là bao nhiêu

1.2.1.5 Đánh giá chất lượng xử lý

Đối với các thuật toán nhận dạng có mẫu chuẩn, chất lượng xử lý được đánh giá dựa vào sai số nhận dạng các đối tượng kiểm chứng Các đối tượng kiểm chứng là các đối tượng mà bản chất địa chất của chúng đã được xác định rõ, song chúng không được chọn làm đối tượng mẫu mà là đối tượng được dùng làm kiểm tra các kết quả nhận dạng

Đối với các thuật toán nhận dạng không đối tượng chuẩn người ta sử dụng xác suất nhận dạng sai lầm để đánh giá chất lượng xử lý Xác suất này được tính dựa vào việc tính tích phân hàm phân bố mật độ xác suất của một hệ số gọi là hệ số tương thích Các hàm này được xác định riêng cho các đối tượng kiểm chứng của từng lớp một

1.2.2 Các thuật toán nhận dạng

Hiện nay, trong địa vật lý người ta sử dụng nhiều phương pháp nhận dạng hiện đại, được tự động hóa bằng các phần mềm mạnh Tuy nhiên có thể chia chúng thành 2 nhóm: nhóm có phương pháp nhận dạng theo đối tượng chuẩn (có thông tin tiên nghiệm) và nhóm có phương pháp nhận dạng không có đối tượng chuẩn (không có

thông tin tiên nghiệm)

1.2.2.1 Các thuật toán nhận dạng có mẫu chuẩn

Các thuật toán nhận dạng có mẫu chuẩn là các thuật toán tiến hành xác định bản chất địa chất của các đối tượng dựa vào việc so sánh tập hợp các dấu hiệu địa vật lý đặc

Trang 26

trưng cho đối tượng chuẩn với tập hợp các dấu hiệu địa vật lý của đối tượng nghiên cứu.Dưới đây là một số thuật toán điển hình

a Thuật toán logic

Trong các thuật toán logic, để nhận dạng đối tượng hoặc là người ta tính lượng tin tổng, hoặc là xác định khoảng cách tổng

Công việc đầu tiên, người ta tiến hành mã hóa các dấu hiệu trường bằng mã nhị phân gồm tập số 0 và 1

Nếu xkl là giá trị trường thứ l của mẫu thứ k thì:

- xkl = 0 khi mẫu k không chứa giá trị thứ l

- xkl = 1 khi mẫu k chứa giá trị thứ l

Bằng cách trên toàn bộ các mẫu được mã hóa

Tiếp theo dựa vào các tổ hợp số 0 và 1(từ thông tin) xác lập trên các mẫu chuẩn người ta xác định các từ thông tin chuẩn cho từng lớp đối tượng Từ thông tin chuẩn cho một lớp (đối tượng) là từ thông tin gặp p lần ở các đối tượng chuẩn của lớp đó và không gặp lần nào ở các đối tượng chuẩn thuộc lớp khác Đối với một lớp đối tượng người ta có thể chọn vài từ thông tin chuẩn Các thông tin này được gọi là tổ hợp dấu hiệu phức hợp Trong các tổ hợp dấu hiệu phức hợp đặc trưng cho các đối tượng chuẩn của cùng một lớp thì tổ hợp dấu hiệu nào đặc trưng cho số lượng mẫu chuẩn lớn hơn,

tổ hợp dấu hiệu đó sẽ có lượng tin lớn hơn

Cuối cùng là nhận dạng các đối tượng nghiên cứu Ở bước này người ta tiến hành kiểm tra xem bao nhiêu tổ hợp dấu hiệu phức hợp của từng lớp gặp ở đối tượng nghiên cứu Nếu số lần gặp các tổ hợp dấu hiệu phức hợp của một lớp nào đó nhiều hơn số lần gặp các tổ hợp phức hợp của lớp khác thì đối tượng nghiên cứu được xếp vào lớp đó

Trang 27

b Thuật toán hồi quy

Thực chất của thuật toán này là xây dựng các hàm hồi quy xác định mối quan hệ giữa các tham số địa chất cần tìm với các số liệu địa vật lý quan sát được

Giả sử ta lập một quan hệ hàm giữa tham số địa chất Y và các dấu hiệu địa vật

lý x1, x2…, xk Hàm f(x1, x2…, xk) mà ta cần tìm phải thỏa mãn:

E(Y-f(x1, x2…, xk))2 đạt cực tiểu

Thuật toán phân tích hồi quy có ưu điểm là dễ dàng đưa vào xử lý bổ sung các

số liệu của dấu hiệu mới bằng cách đưa thêm vào phương trình của hàm hồi quy các số hạng mới Tuy nhiên thuật toán hồi quy cũng có nhược điểm đó là với một tập hợp số liệu nhất định ứng với một giá trị sai số cho trước có thể xấp xỉ được nhiều hàm hồi quy Do vậy ta không thể đưa ra được các lý giải về ý nghĩa vật lý của các hệ số của hàm hồi quy

c Thuật toán định nghiệm thống kê

Thuật toán nhận dạng trên cơ sở mô hình thống kê đối tượng chuẩn trong phân tích số liệu địa vật lý thường sử dụng các thông số như: Tỉ số sự thật L(x) và tổng lượng thông tin J(1:2,x)

Giá trị các thông số đó được tính theo công thức:

Trang 28

x: là vectơ giá trị các dấu hiệu được sử dụng, x1,x2…xk (ví dụ các hàm lượng qU,

(1.20)

(1.21)

Trong đó các hệ số: ai, bij, ci được xác định từ các ma trận thông tin các dấu hiệu của các đối tượng quặng và không quặng Thông qua các “diện tích đối tượng chuẩn” người ta xác định được các vectơ giá trị các dấu hiệu sử dụng x (trong trường hợp các dấu hiệu được xem là không phụ thuộc nhau) hoặc các hệ số ai, bij, ci (trong trường hợp các dấu hiệu phụ thuộc nhau) Sau đó tính giá trị L(x), J(1:2,x) hoặc R1, R2, phổ các giá trị này lên khắp diện tích khảo sát và biểu diễn chúng lên bản đồ Đối sánh các giá trị này với các giá trị của đối tượng chuẩn có thể nhận biết và khoanh định được các diện

)()

()

()(xP

)(xP

)

(x

P

)(xP

)(xP

2 1 2

k 1 2

1 1 1

k

x L x

L x L x

1 1

1

Trang 29

tích đồng dạng với đối tượng chuẩn Các dấu hiệu được lựa chọn thường là một tổ hợp nào đó trong số các tham số thu được

1.2.2.2 Các thuật toán nhận dạng không có mẫu chuẩn

a Thuật toán kiểm chứng thống kê

Thuật toán này tiến hành phân loại trường khi các dấu hiệu trường hoàn toàn độc lập nhau Ban đầu người ta sử dụng các bộ lọc để tách các dị thường ra khỏi phông nhiễu cho từng dấu hiệu trường Kết quả lọc cho phép nhận được các số liệu trường chủ yếu gồm các dị thường Tiếp theo là phân loại các dị thường thành các lớp dị thường Mỗi lớp dị thường gồm các dị thường có các đặc trưng thống kê giống nhau

Để phân loại các dị thường đầu tiên người ta phân chia khu vực khảo sát thành các diện tích cơ sở, sau đó dựa vào kết quả phân cấp các giá trị trường ở mỗi cửa sổ người ta dựng các đường cong biến phân đặc trưng cho cửa sổ đó Cuối cùng để phân lớp các dị thường người ta sử dụng chỉ tiêu để so sánh và xếp loại các đường cong biến phân Các diện tích có ước lượng phân bố mật độ xác suất giống nhau được xếp vào một lớp

Giai đoạn cuối cùng của quá trình nhận dạng là giai đoạn thuật toán tiến hành xác định số hiệu của lớp tổng hợp

Với mục đích này, dựa vào các đường cong biến thiên dựng được cho từng dấu hiệu người ta xác định giá trị trung bình và phương sai rồi sắp xếp các giá trị trung bình theo thứ tự tăng dần Sau đó dựa vào chỉ tiêu xác suất hậu nghiệm cực đại người ta quyết định xếp loại đối tượng khảo sát vào các lớp khác nhau Bằng cách trên, toàn bộ khu vực khảo sát được phân thành một số diện tích có hình dạng bất kì, ở đó dị thường

của các dấu hiệu khác nhau chồng lên nhau

b Thuật toán K trung bình

Nội dụng của thuật toán như sau: Giả sử tồn tại n đối tượng Nhiệm vụ đặt ra là phân chia toàn bộ n đối tượng thành M lớp với M << n

2

Trang 30

Để giải quyết nhiệm vụ trên, lúc đầu người ta chọn ngẫu nhiên từ n đối tượng ra

k đối tượng, k đối tượng được chọn này được xem như là các mẫu chuẩn xuất phát Tiếp theo là tiến hành chính xác hóa liên tiếp các mẫu chuẩn chọn được bằng cách so sánh các mẫu chuẩn với các đối tượng còn lại Sau mỗi lần chọn tập hợp các mẫu chuẩn Eν chọn được ở lần chọn thứ ν sẽ thay cho các mẫu chuẩn chọn được ở lần ν -1 (lần trước đó)

Nếu kí hiệu tập hợp mẫu chuẩn Ev chọn được ở lần thứ v là:

Eν = {e1ν, e2ν,…, ekν } với ν = 0, 1, 2,…

Với mỗi mẫu chuẩn này còn được ghi các trọng số đặc trưng là: h1ν, h2ν, h3ν hkνVới kí hiệu này mẫu chuẩn xuất phát sẽ là:

E0 = {e10, e20,…, ek0 } Các mẫu chuẩn này chính là các mẫu được chọn ra ở vòng đâu tiên (vòng số không) của quá trình lặp Tiếp theo vòng số không thuật toán gọi tiếp số xk+1 và tìm xem trong k mẫu ei0, mẫu chuẩn nào gần với nó nhất Nếu tìm được, thì mẫu chuẩn thuộc tập hợp E0 tìm được này được thay thế bằng mẫu chuẩn mới Mẫu chuẩn mới này

có giá trị ei1 được tính như giá trị trọng tâm giữa giá trị của mẫu chuẩn cũ và giá trị của đối tượng gắn kết với nó xk+1

Sau quá trình hiệu chỉnh ở vòng 1, bằng phương pháp mô tả trên thuật toán sẽ tiến hành hiệu chỉnh ở các lần tiếp theo, cho đến khi đối tượng cuối cùng được gọi ra

Sau khi tập hợp các mẫu chuẩn được chính xác hóa, thuật toán tiến hành phân loại toàn bộ số lượng n các đối tượng theo tập hợp các dấu hiệu thành M lớp dựa vào nguyên tắc khoảng cách tối thiểu [10]

Trang 31

CHƯƠNG II MỘT SỐ PHƯƠNG PHÁP ĐÁNH GIÁ LỰA CHỌN THÔNG TIN

VÀ PHÂN TÍCH NHẬN DẠNG TRONG XỬ LÝ SỐ LIỆU ĐỊA VẬT LÝ 2.1 Một số phương pháp đánh giá lựa chọn thông tin

Hiện nay trên thế giới có rất nhiều phương pháp, thuật toán đánh giá, lựa chọn thông tin được ứng dụng rộng rãi và có hiệu quả trong nhiều lĩnh vực nghiên cứu khác nhau Trong khóa luận này tập trung trình bày một số phương pháp phân tích đã được

áp dụng có hiệu quả trong công tác xử lí-phân tích tổ hợp số liệu địa vật lý ở Việt Nam

và trên thế giới: phương pháp phân tích tần suất, phương pháp phân tích khoảng cách khái quát, phương pháp trọng số, phương pháp phân tích thành phần chính và phương pháp đánh giá chuyên gia

2.1.1 Phương pháp phân tích tần suất

Hiện nay, trong lớp các bài toán đánh giá - lựa chọn thông tin có rất nhiều phương pháp để xác định giá trị của loại thông tin thứ “i” trong tập hợp nhiều chủng loại thông tin nhận được của đối tượng nghiên cứu Phương pháp phân tích tần suất với việc sử dụng tần suất trung bình của sự xuất hiện đồng thời các tính chất

do Griffiths và Vinni đưa ra có nội dung tóm tắt như sau:

Giả sử ta có đối tượng nghiên cứu với k loại dấu hiệu, mỗi dấu hiệu có n số liệu

đã biết Khi đó ta có ma trận thông tin các dấu hiệu của đối tượng mẫu như sau:

( ) (

) (2.1)

Trong đó:

Trang 32

k – số loại tính chất của ma trận thông tin

n – số lượng mẫu chứa các thông tin về các tính chất của đối tượng

φij - được biểu diễn bằng các khái niệm logic: “yes” hoặc “no” hoặc bằng các số 1 hoặc 0

Theo Griffiths-Vinin, tỷ trọng thông tin tương đối của tính chất thứ “i” được xác định theo công thức sau:

Như vậy bản chất của phương pháp phân tích tần suất theo thuật toán Giffiths Vinni là đưa ra được một cách đánh giá về chất lượng của từng chủng loại thông tin trong nhận thức đối tượng, trên cơ sở đó lựa chọn tập hợp các chủng loại thông tin có giá trị cao phục vụ các mục đích nghiên cứu [6]

Trang 33

2.1.2 Phương pháp phân tích khoảng cách khái quát

Việc đánh giá lựa chọn tổ hợp thông tin để tiến hành trên cơ sở vận dụng kết hợp cả hai phương pháp: phương pháp phân tích khoảng cách khái quát và phương pháp phân tích tần suất Tiến hành phương pháp phân tích khoảng cách khái quát trên các ma trận thông tin của 2 đối tượng mẫu (quặng và không quặng)để xác định tập {ρi*2}

Ma trận thông tin trên đối tượng quặng:

 

11 12 1

21 22 2 ,

Trang 34

2 2

2 iq ikq i

 

  

(2.7) Sắp xếp {ρi2} theo thứ tự giảm dần và gọi nó là {ρi*2

(2.9) Sắp xếp tập {Ii} theo thứ tự giảm dần và gọi tập mới là {Ii*}

Từ kết quả phân tích của 2 phương pháp ta có các tập {ρi2}, {ρi*2}, {Ii}, {Ii*} sẽ xác định được tập hợp các tính chất (các chủng loại thông tin) có độ tin cậy cao theo yêu cầu nghiên cứu thông qua tỉ trọng thông tin tương đối của các tính chất: Qh

Trang 35

(2.10) Trong đó {Ji} được sắp xếp theo thứ tự giảm dần của {ρi2} [9]

Bỏ những tham số có hệ số ý nghĩa nhỏ

Ví dụ: số liệu quan trắc trên một đối tượng địa chất đưa ra ở bảng sau (ba mẫu 5

tham số ) Hãy chọn những tham số có ý nghĩa

Bảng 2.3 Số liệu quan trắc trên một đối tượng địa chất

Trang 36

số ít đặc trưng tạo ra được những tham số đặc trưng hơn và có thể rút bớt tham số nhận dạng mà lượng thông tin mất đi không đáng kể

Giả sử trên một đối tượng địa chất, ta quan trắc m tham số và được bộ m vecto ( x1, x2, …, xm ) Vấn đề đặt ra là tìm phép biến đổi tuyến tính m vecto ngẫu nhiên đó thành p vecto mới ( z1, z2,…, zp ) sao cho mỗi vecto này ( biến mới ) chứa nhiều thông tin ban đầu nhất Các biến đó được viết dưới dạng:

z = α x + α x +…+ α x

Trang 37

Thuật toán tìm thành phần chính như sau:

Giả sử trên một đối tượng địa chất, ta tiến hành n quan trắc theo m tham số

Kí hiệu xij là giá trị quan trắc thứ I của tham số j, ta được ma trận số liệu khởi đầu

Trang 38

trong đó σij2 là phương sai của tham số thứ I, cov(xi, xj) là covarian của xi và xj Các phần tử của S được xác định theo công thức:

2 – Tính các vecto riêng và giá trị riêng tương ứng của ma trận S

3 – Thiết lập các thành phần chính như sau:

Tọa độ của các vecto riêng chính là các hệ số αij cần thiết để lập các tổ hợp zitrong (2.10) Gọi vecto riêng ứng với giá trị riêng lớn nhất là vecto riêng thứ nhất, ứng với giá trị riêng lớn thứ hai là vecto riêng thứ hai v.v… Khi đó ta gọi thành phần chính thứu nhất, kí hiệu F1, là tổ hợp zi với các hệ số α là tọa độ của vecto riêng thứ nhất Thành phần chính thứ hai là tổ hợp có các hệ số α là tọa độ của vecto riêng thứ hai v.v…

Ý nghĩa và thuật toán chi tiết của phương pháp thành phần chính sẽ được nêu

rõ trong ví dụ dưới đây

Trang 39

Bảng 2.4 Số liệu quan trắc về vỏ hóa thạch

Bảng 2.4 cho số liệu quan trắc về chiều rộng (x1) và chiều dài (x2) vỏ hóa

thạch Brachiopoda (lấy theo David John – 1970)

Phương sai của biến x1 bằng 20,03; phương sai của biến x2 bằng 24,1; covarian(x1, x2) = 15,6; do đó

Trang 40

Các giá trị riêng tương ứng λ1 = 37,9; λ2 = 6,5

Vì ma trận covarian đối xứng nên các vecto riêng trực giao với nhau, nghĩa là tích vô hướng (Ii, Ij) = 0 với i ≠ j Điều này cũng được sử dụng để kiểm tra kết qua tính toán Chẳng hạn trong ví dụ trên (I1, I2) = 0,66 x 0,75 – 0,66 x 0,75 = 0

Tổng phương sai của các biến trong ví dụ trên là 20,3 + 24,1 = 44,4 Như vậy, phương sai của biến x1 chiếm gần 46% ( = 20,3/44,4), phương sai của biến x2 gần bằng 54% Vì tổng các giá trị riêng bằng vết của ma trận S nên cũng bằng tổng phương sai Thực vậy, trong ví dụ của chúng ta, tổng các giá trị riêng là 37,9 + 6,5 = 44,4 (điều này cũng được ứng dụng để kiểm tra kết quả) Như vậy, các thành phần chính cũng đặc trưng cho phương sai của tập hợp số liệu Trong ví dụ này thành phần chính thứu nhất chiếm 37,9/44.4 = 86% tổng phương sai, thành phần chính thứ hai chiếm 14% phương sai Nói cách khác, biến mới z1 có phương sai là 37,9 và chiếm 86% tổng phương sai; biến z2 có phương sai là 6,5, chiếm 14% tổng phương sai

Như vậy,khi biến đổi từ các biến ban đầu x1, x2 thành các biến z1, z2 ta được cấu trúc số liệu mới Nếu như với các biến x1, x2 thông tin của đối tượng dàn đều trên cả hai biến, thì với các biến mới z1, z2 , thông tin tập trung chủ yếu trên z1 Vì vậy nếu ta vứt bỏ z2 đi thì lượng thông tin về đối tượng mất đi rất ít và việc nhận thức đối tượng trở nên đơn giản và rõ ràng hơn [2]

Ngày đăng: 15/09/2020, 15:01

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w