1. Trang chủ
  2. » Thể loại khác

0.SỬ DỤNG BIPLOT TRONG NC SINH HỌC(23_1_22)

14 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 563,68 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

SỬ DỤNG BIPLOT TRONG CÁC NGHIÊN CỨU DỮ LIỆU ĐA BIẾN SỐ TRONG LĨNH VỰC SINH HỌC PGS TS Chế Đình Lý (tháng 4/2020) 1 KHÁI NIỆM VỀ DỮ LIỆU ĐA BIẾN SỐ Dữ liệu đa biến số trong bất kỳ lĩnh vực sinh học nào[.]

Trang 1

SỬ DỤNG BIPLOT TRONG CÁC NGHIÊN CỨU DỮ LIỆU ĐA

BIẾN SỐ TRONG LĨNH VỰC SINH HỌC

PGS.TS.Chế Đình Lý (tháng 4/2020)

1 KHÁI NIỆM VỀ DỮ LIỆU ĐA BIẾN SỐ

Dữ liệu đa biến số trong bất kỳ lĩnh vực sinh học nào thường là dữ liệu thu thập trên nhiều đối tượng (đơn vị, lặp lại) và trên mỗi đơn vị, thu thập nhiều biến số

Các tập dữ liệu đa biến trước đây thường được xử lý đơn giản bằng các phương pháp thống kê đơn biến:

1- Thống kê mô tả, trình bày độ lớn của biến số (trung bình, trung vị ) ; mức độ phân tán biến thiên của dữ liệu (độ lệch chuẩn; phương sai; phạm vi )

2- Thống kê suy diễn: từ mẫu suy ra kết luận chung cho cuộc điều tra khảo sát (kiểm định t, z)

3- So sánh nhiều mẫu (dùng kiểm định F)

4- Lập mô hình hồi qui từ dữ liệu thực nghiệm, giữ 2, hay nhiều biến số…

5- Mô phỏng các dữ liệu thu thập theo các mốc thời gian cách đều (time series) Các phương pháp xử lý dữ liệu đơn biến không đáp ứng nhu cầu đánh giá, tìm kiếm tri thức trong nghiên cứu Vì vậy, ngày nay các nhà nghiên cứu sinh học đã khai khác sử dụng các phương pháp xử lý dữ liệu đa biến để khám phá nhiều thông tin hơn nhằm phục vụ cho nghiên cứu khoa học như:

- Loài vi sinh vật nào thường xuất hiện trong những hoàn cảnh môi trường nào?

- Các genotype của thực vật hay động vật nào tương thích, thích nghi được với các kiểu môi trường nào?

- Loại men nào phù hợp với loại thực phẩm nào?

- Bệnh đường ruột thường sinh ra trong những vùng địa lý, kinh tế xã hội nào…

Nói chung, khi nghiên cứu các đối tượng liên ngành, nhà nghiên cứu không thể chỉ sử dụng các công cụ xử lý đơn biến mà phải sử dụng các công cụ phân tích khám phá dữ liệu đa biến Một trong các công cụ đó là biplot

2 CẤU TRÚC DỮ LIỆU ĐA BIẾN PHÙ HỢP ĐỂ SỬ DỤNG PHÂN TÍCH BẰNG BIPLOT

Dữ liệu đa biến phù hợp khi sử dụng đồ thị biplot để phân tích khám phá rất đa dạng, nhưng thường có cấu trúc chung:

1) Các cột là các biến số thu thập từ các đối tượng (lặp lại); các biến số bao gồm các mẫu thông tin của nhiều lĩnh vực liên ngành: kinh tế, xã hội, môi trường 2) Các dòng là các mẫu đã đo đạc hay thu thập

Dưới đây là các ví dụ về cấu trúc dữ liệu đa biến trong các ngành sinh học, môi trường…

Dữ liệu nghiên cứu chất lượng môi trường nước theo vùng kinh tế xã hội

Trang 2

Ma trận dữ liệu kinh tế xã hội Ma trận dữ liệu chất lượng nước

Mẫu

nướ

c

Số nhà

máy

Số dân cư

Trại chăn nuôi

Dữ liệu điều tra đa dạng sinh học nước theo vùng kinh tế xã hội

Độ sâu

Loại

Dữ liệu về genotype xuất hiện trong các loại môi trường

Trang 3

G5 4.39 4.60 3.51 3.85 5.77 5.42 5.15 4.10 2.83

3 KHÁI NIỆM VÀ Ý NGHĨA CỦA BIPLOT

3.1 Khái niệm về biplot

Biplot là đồ thị biểu diễn đồ họa của dữ liệu đa biến, trong đó các phần tử của một

ma trận dữ liệu được biểu diễn theo các điểm đánh dấu (marker) và vectơ (mũi tên( được liên kết với các hàng và cột của ma trận

Biplot có 3 loại thông tin: điểm đánh dấu biểu thị đối tượng nghiên cứu (điểm quan trắc, genotype (chủng vi sinh); Mũi tên biểu thị các biến số (thuộc tính hay đặc trưng của đối tượng) và hai trục PCA 1 và PCA 2

4 3 2 1 0 -1 -2

-3

2

1

0

-1

-2

-3

First Component

Score Plot of Chi phí, , "Niacin"

0.5 0.4

0.3 0.2

0.1 0.0

0.50

0.25

0.00

-0.25

-0.50

First Component

"Niacin"

"Riboflavin"

"Thiamine"

Chất sắt

Chất đạm Chi phí

Loading Plot of Chi phí, , "Niacin"

Biplot thể hiện xấp xỉ hai chiều thứ nguyên (dimension) vào 1 ma trận và vẽ các hiệu ứng hàng và hiệu ứng cột cùng nhau, mô tả mối quan hệ giữa các biến quan sát khác nhau và đồng thời hiển thị mối quan hệ của các đối tượng với tư cách từng đơn

vị và từng nhóm đơn vị đối với các biến số đã nghiên cứu

Điểm đánh dấu =

đối ctượng

Trang 4

Biểu diễn đồ họa này của ma trận cho phép kiểm tra các mối quan hệ, xu hướng, cụm, tương quan gần đúng và phương sai hiện có trong dữ liệu

Biplots cung cấp trực quan hóa của hai biến số, thông thường, nhưng không nhất thiết, trong hai chiều thứ nguyên

Dữ liệu X có thể biểu thị (1) ma trận với n hàng đại diện cho các đối tượng (mẫu)

và cột biểu thị p biến số (biến định lượng) hoặc (2) bảng hai chiều có hàng và cột đều đại diện cho các biến phân loại

Biểu tượng vẽ thường là các điểm đánh dấu (thường là cho các mẫu và được phân biệt bằng hình dạng và / hoặc màu sắc) và các đường (thường cho các biến có thể được thể hiện như các vectơ mũi tên)

3.2 Ý nghĩa của biplot

Biplot cung cấp một công cụ hữu ích để phân tích dữ liệu và cho phép đánh giá trực quan cấu trúc của ma trận dữ liệu đa biến

Nó đặc biệt trình bày trong phương pháp phân tích thành phần chính, trong đó biplot có thể hiển thị khoảng cách giữa các đơn vị và chỉ ra sự phân cụm các đối tượng cũng như hiển thị phương sai và tương quan của các biến

Biplot cho phép thông tin về cả các đối tượng (mẫu) và các biến số của ma trận dữ liệu được hiển thị bằng đồ họa

Các mẫu (đơn vị, lặp lại) được hiển thị dưới dạng các điểm trong khi các biến số được hiển thị dưới dạng vectơ, trục tuyến tính hoặc quỹ đạo phi tuyến

Biplot mở rộng ý tưởng về một biểu đồ phân tán đơn giản (scatter plot) gồm hai biến cho trường hợp có nhiều biến, với mục tiêu trực quan hóa lượng thông tin tối

đa có thể có trong dữ liệu Dữ liệu nghiên cứu thường được trình bày dưới dạng một bảng hình chữ nhật và biplot lấy tên của nó từ thực tế là nó trực quan hóa các hàng

và các cột của bảng này trong một không gian chung

Biplot là biểu diễn đồ họa của dữ liệu đa biến, trong đó các yếu tố của dữ liệu

ma trận được biểu diễn theo dấu chấm và vectơ liên kết với các hàng và cột

của ma trận (Salinas et al., 2013)

Các bước chuẩn bị Biplot

 Thu thập dữ liệu đa biến cho các đơn vị khác nhau (ví dụ: Giống, Hộ gia đình, v.v.)

 Chạy PCA trong phần mềm thống kê bằng các giá trị thực tế của các biến số khác nhau sẽ tạo ra các thành phần chính, tức là các biến có các biến lượng có ý nghĩa, các giá trị eigen và hệ số tải cho mỗi biến

 Hai PC đầu tiên thể hiện phương sai (biến lượng) lớn nhất, được dùng cho biplot

4 NHỮNG CƠ SỞ KHOA HỌC ĐỂ NHẬN THỨC THỂ HIỆN CỦA BIPLOT

4.1 Biểu thị hình học của đại lượng phương sai

Về mặt hình học, biến lượng hay phương sai được diễn tả trên một đường thẳng bằng các điểm dữ liệu phân tán chung quanh trị trung bình

Ví dụ:

Trang 5

Nhiệt độ được đo 5 lần dữ liệu là 17°, 19°, 23°, 18° và 20° Biến lượng chung quanh trung bình là bé và biểu thị hình học tương ứng là:

Nếu 5 số đo nhiệt độ là 4°, 12°, 23°, 18°, 27°, thì biến lượng của biến số này lớn hơn

Các thuật ngữ sau đây là tương đương: Việt ngữ: Biến lượng = phương sai = lượng biến thiên Anh ngữ: Variance = variability = inertia

4.3 Bản đồ các biến số, bản đồ của các điểm đánh dấu (đối tượng).

Bản đồ biplot là sự tích hợp hai bản đồ: bản đồ các biến số và bản đồ các điểm đánh dấu,

Ví dụ, hãy xem xét trường hợp nghiên cứu về nơi ở khác nhau của các loài cá dọc theo con sông từ suối cho đến cửa sông

Sáu biến số được đo trong 30 địa điểm khác nhau: Nhiệt độ, độ sâu, lượng xả thải, tốc độ dòng chảy, độ trong và độ mặn và các điểm đánh dấu địa điểm là S1, S2, S3,

… S30

Từ đó chúng ta có song đôi: 30 lần lặp lại thể hiện 6 biến số và ngược lại 6 biến số chứa 30 dữ liệu 30 địa điểm Nói cách khác , tùy thuộc vào quan điểm nhìn, người

ta có thể xem xét tập dữ liệu của 30 địa điểm trong không gian 6 chiều (siêu không gian của 6 biến số môi trường) hay 6 điểm dữ liệu trong không gian của 30 chiều (siêu không gian của 30 lần lặp lại (đối tượng))

Khi phân tích đa biến bắt đầu, nhà phân tích phải quyết định bản đồ nhân tố sẽ lập cho các biến hay cho các đối tương lặp lại

Thực tế có hai bản đồ nhân tố sẽ trả lời hai câu hỏi khác nhau:

Những liên hệ giữa các biến là gì? => bản đồ các biến số

Những liên hệ hay sự tương đồng giữa các địa điểm => bản đồ đối tương (lặp lại) Bản đồ nhân tố của các biến có thể đặt song song cùng với bản đồ đối tượng lặp lại Tốt nhất là trình bày hai bản đồ cùng kích thước

Từ sự song hành đó, có thể suy diễn tương ứng giữa các đối tương lặp lại và các biến số

Các đối tượng lặp lại hay các biến số gần với gốc toạ độ không nói lên đặc tính gì

và không có ý nghĩa trong việc diễn đạt thông tin

4.2 Các nguyên tắc chỉ dẫn đọc biplot trong nghiên cứu đa biến

Các biến số và các đối tượng (lặp lại,ô mẫu, cây con, doanh nghiệp)

- Một biến là một thông số thay đổi khi được đo hay khảo sát nhiều lần;

- Sự lặp lại trên các đối tượng là các số đo lặp lại trên cùng một biến;

17 18 19 20 23

0

Trang 6

- Thường quy ước trong các CSDL được phân tích, các biến là các cột, lặp lại nên là các dòng

Ghi chú: lặp lại có thể là ô mẩu, cây, con…

Các quy tắc đọc bản đồ biplot

Để có thể đọc đúng thông tin của thị Biplot, ta cần thực hiện các phương pháp xử lý đặc biệt đã được áp dụng cho

(1) các hàng và/hoặc cột, như xác định trọng tâm (centroid) và chuẩn hóa dữ liệu, và (2) chia tỷ lệ thành phần chính và chia tỷ lệ đối xứng nhau giữa PCA1 và PCA2 Một bản đồ nhân tố không có chia thang độ trên các trục và được trình bày về mặt

sự gần gủi địa lý của các điểm trong bản đồ

Ngoài ra, để có thể đọc các biplot để kết xuất các thông tin hữu ích cho nghiên cứu,

ta cần chú ý một số quy tắc cơ bản như sau:

Quy tắc 1: Bản đồ điểm đánh dấu (đối tượng) và bản đồ biến số phải cùng kích

thước

Một điểm quan trọng trong việc xây dựng các biểu đồ thực tế cho các biplots là các trục tọa độ dọc và ngang vật lý phải có cùng tỷ lệ vật lý

Không tuân thủ tỷ lệ này sẽ khiến không thể đánh giá các sản phẩm bên trong trong biểu đồ

 Không bao giờ kéo đồ thị, làm thay đổi lích thức các trục trên bản đồ biplot!

Quy tắc 2: loại data ta sử dụng khi xử lý

Có hai trường hợp về dữ liệu, tùy hoàn cảnh nghiên cứu:

1) Theo qui ước chung bảng hai chiều để xử lý PCA hay FA có cột là biến số (chỉ thị, thuộc tính) và dòng là các mẫu (đối tượng, đơn vị) mà ta đo đạc, thu thập

2) Dữ liệu nghiên cứu quan hệ giữa sinh vật và môi trường, bào gồm hai ma trận: Ma trận G (Genotype) chứa thông tin sinh vật và ma trận E

(Environment)

Ma trận dữ liệu (đối tượng) (hoàn

cảnh

Ma trận dữ liệu của các biến số NC chính (Sinh vật lý )

Ô

mẫu

Độ

dài

Bề ngang

Ô

mẫu

Chủng loại

Trọng lượng

Số cá thể trên m3

Số mọc đuôi…

Các mẫu (đối tượng, đơn vị, kiểu gen) được hiển thị dưới dạng điểm và các biến số (chỉ thị, thuộc tính, môi trường) dưới dạng vectơ;

Quy tắc 3: Góc giữa các vec tơ (mũi tên biến số)

Trang 7

 Xem xét góc hình thành giữa các vectơ trên đồ thị các vectơ biến số nếu hai vectơ (chỉ thị, thuộc tính, môi trường) có một góc nhỏ thì chúng được liên kết chặt chẽ và có tương quan nhau ố co

 3a: Góc giữa hai vec tơ là góc nhọn, mũi tên sát nhau thí biến cố có tương quan thuận

 3b: nếu hai vec tơ trực giao thì không có tương quan

 3c: nếu hai vec tơ đối nhau (góc tù lớn, thì hai biến có tương quan nghịch

Quy tắc 4: Sự tương đồng của các điểm đánh dấu (đối tương) về các biến số:

điểm đánh dâu (marker) (đối tượng, đơn vị, kiểu gen) thể hiện độ lệch chuẩn so với mức trung bình của từng biến số (chỉ thị, thuộc tính, môi trường);

 4a: Các điểm đánh dấu cùng ở gần các biến số nào sẽ có tương đồng nhau về các biến số đó

 4b: Các điểm đánh dấu đối diện nhau trên bản đồ nhân tố có các giá trị biến

số đối nghịch nhau

 4c: Các địa điểm xuất hiện trên một hướng trực giao với các địa điểm khác,

sẽ không có các biến tương quan nhau

Quy tắc 5: gốc tọa độ của các vec tơ biến số

gốc tọa độ đại diện cho giá trị trung bình cho từng biến số (chỉ thị, thuộc tính, môi trường);, tức là nó đại diện cho kiểu mẫu (đối tượng, đơn vị, kiểu gen) có giá trị trung bình trong mỗi môi trường Điểm đánh dấu (đối tượng, đơn vị, kiểu gen) trung bình này có giá trị bằng 0 trong ma trận dữ liệu có tính trọng tâm hay nói cách khác, nếu dữ liệu được chuẩn hóa ;

Quy tắc 6: Hình chiếu của điểm đánh dấu đối tượng, đơn vị, kiểu gen) lên vec tơ

biến số

hình chiếu của điểm mẫu (đối tượng, đơn vị, kiểu gen) trên vectơ biến số (chỉ thị, thuộc tính, môi trường) càng lớn, đối tượng này (đơn vị, kiểu gen) này càng lệch khỏi mức trung bình trong biến số (chỉ thị, thuộc tính, môi trường);

Ví dụ 1: nơi trú ẩn của các loài cá

Tập dữ liệu bao gồm các biến số về nơi trú ẩn được khảo sát từ thượng nguồn

Ma trận dữ liệu của các biến số môi trường

Ô

mẫu

Temperature Discharge Salinity Depth Current Transparency

S1

S2

S3

S30

Các bản đồ nhân tố cho phép thực hiện phân tích tương tứng

Trang 8

Trong ví dụ này các điểm trên mỗi bản đồ có vị trí tương đối diễn đạt sự tương đồng hay tương quan của các biến số

Bản đồ các biến số

Trong bản đồ nhân tố của các cột, các biến số được diễn đạt tổng quát bằng các vec

tơ xuất phát từ trung tâm của đồ thị

Áp dụng quy tắc 3: Các biến số gần nhau ((e.g Discharge and Temperature) có tương quan thuận với nhau.(Quy tắc 3)

Các biến số đối diện nhau (e.g Current velocity and Salinity) thì có tương quan nghịch nhau (một biến có giá trị cao , trong khi biến kia có giá trị thấp)

Các biến trực giao nhau thì không có tương quan thận lẫn tương quan nghịch nhưng độc lập lẫn nhau, (e.g Depth and Temperature)

Bản đồ các điểm đánh dấu (đối tượng, lặp lại)

Áp dụng quy tắc 4a: Các địa điểm gần với nhau trong một vùng nào đó trong bản

đồ thì tương đồng nhau về các biến đã đo ở các địa điểm này (Vd địa điểm S1, S29, S24 có giá trị tương đồng về Temperature and Discharge)

Áp dụng quy tắc 4b Các địa điểm đối diện nhau trên bản đồ nhân tố có các giá trị

biến số đối nghịch nhau (vd Các giá trị cao Temperature and Discharge trong địa điểm S1 hay S29 nhưng có giá trị thấp ở địa điểm S10 hay S14);

Áp dụng quy tắc 4c Các địa điểm xuất hiện trên một hướng trực giao với các địa

điểm khác, sẽ không có các biến tương quan nhau (vd Địa điểm S11, S3, S8 không

có những đặc trưng chung với các địa điểm S14, S2 hay S10)

Trình bày khái quát

Dữ liệu thật sự phản ảnh sự thay đổi của nơi ở dọc trên sông:

Các điểm nằm ở thượng nguồn, trong vùng núi, có dòng chảy cao, nước trong, nhiệt

độ thấp và xả thải ít Tạo thành nơi ở đặc trưng của các suối nhỏ vùng núi

Ngược lại, các điểm nằm ở phía biển, trên cửa sông, có độ mặn cao, nhiệt độ cao hơn và xả thải lớn hơn Các hồ sâu cũng có thể tìm thấy dọc theo sông và vì vậy độ sâu không có liên hệ với các biến số khác

Trang 9

4.5 Ví dụ 2: Dữ liệu khảo sát các loài xuất hiện vào các thời điểm khác nhau ở rừng ngập mặn

Ma trận dữ liệu của các biến số loài cá xuất hiện trong các tháng quan trắc Thời

điểm

SP1 SP2 SP3 … … … … … SP18 Sp19 SP20

T1

T2

T12

Trong vùng rừng ngập mặn ven bờ, các loài cá được lấy mẫu hàng tháng

Phân tích nhấn mạnh vào sự thay đổi các loài di cư vào và ra khu vực (Nghiên cứu động thái của quần xã)

Bản đồ biến số (các loài bắt được) chứng tỏ là Sp3, Sp4, Sp5 được bắt từ February đến May;

Sp15, Sp16 and Sp18 chung từ August đến October và Sp9 đến Sp14 được bắt chủ yếu từ

November đến January

Phân tích toàn bộ theo cách tổng hợp và hiệu quả, Sự thay đổi của quần xã cá được đặc trưng bởi ba mùa phân biệt (bản đồ lặp lại: September đến November, January, and February

Có 10 loại thực phẩm Khảo sát 6 thông số như sau:

T

"Thiamine

"

"Riboflavin

"

"Niacin

"

Trang 10

7 "Eggs" 10 19 22 7 16 1

Xử lý bằng phương pháp phân tích thành phần chính PCA:

Principal Component Analysis: Chi phí, Chất đạm, Chất sắt,

"Thiamine", "Riboflavin", "Niacin"

Eigenanalysis of the Correlation Matrix

Eigenvalue 2.9567 1.6511 0.7997 0.4553 0.1178 0.0194

Proportion 0.493 0.275 0.133 0.076 0.020 0.003

Cumulative 0.493 0.768 0.901 0.977 0.997 1.000

Variable PC1 PC2

Chi phí 0.367 0.564

Chất đạm 0.464 0.306

Chất sắt 0.439 -0.317

"Thiamine" 0.261 0.437

"Riboflavin" 0.437 -0.480

"Niacin" 0.445 -0.257

4 3 2 1 0 -1 -2

-3

2

1

0

-1

-2

-3

First Component

Score Plot of Chi phí, , "Niacin"

0.5 0.4

0.3 0.2

0.1 0.0

0.50

0.25

0.00

-0.25

-0.50

First Component

"Niacin"

"Riboflavin"

"Thiamine"

Chất sắt

Chất đạm

Chi phí

Loading Plot of Chi phí, , "Niacin"

4 3

2 1

0 -1

-2 -3

2

1

0

-1

-2

-3

First Component

"Niacin"

"Riboflavin"

"Thiamine"

Chất sắt

Chất đạm Chi phí

Biplot of Chi phí, , "Niacin"

Qua kết quả hiển thị trên biplot, cho thấy:

- Nhóm các sản phẩm 1, 2, 3, 4, 5: có giá trị Thiamin và chi phí cao

9

7 9

8 9

2 9

1 9 3 9 4 9

5 9

6 9

Ngày đăng: 21/04/2022, 23:14

HÌNH ẢNH LIÊN QUAN

1) Theo qui ước chung bảng hai chiều để xử lý PCA hay FA có cột là biến số (chỉ thị, thuộc tính) và dòng là các mẫu (đối tượng, đơn vị) mà ta đo đạc, thu  thập. - 0.SỬ DỤNG BIPLOT TRONG NC SINH HỌC(23_1_22)
1 Theo qui ước chung bảng hai chiều để xử lý PCA hay FA có cột là biến số (chỉ thị, thuộc tính) và dòng là các mẫu (đối tượng, đơn vị) mà ta đo đạc, thu thập (Trang 6)
Quy tắc 6: Hình chiếu của điểm đánh dấu đối tượng, đơn vị, kiểu gen) lên vectơ biến số - 0.SỬ DỤNG BIPLOT TRONG NC SINH HỌC(23_1_22)
uy tắc 6: Hình chiếu của điểm đánh dấu đối tượng, đơn vị, kiểu gen) lên vectơ biến số (Trang 7)
- Có thể thấy Sản phẩm 6 có giá trị bất thường, các sản phẩm còn lại hình thành hai nhóm nhóm A (1,2,3,4,5) có chi phí cao; nhóm B (7,8,9,10) thì  ngược lại có chi phí thấp hơn./. - 0.SỬ DỤNG BIPLOT TRONG NC SINH HỌC(23_1_22)
th ể thấy Sản phẩm 6 có giá trị bất thường, các sản phẩm còn lại hình thành hai nhóm nhóm A (1,2,3,4,5) có chi phí cao; nhóm B (7,8,9,10) thì ngược lại có chi phí thấp hơn./ (Trang 11)
w