Phần 2 ebook Ứng dụng tin học trong sinh học (Sử dụng Microsoft Excel for Windows trong nghiên cứu Sinh học) cung cấp cho người học các kiến thức: Xử lý thống kê số liệu nghiên cứu sinh học, phân tích tương quan và hồi quy, phân tích cơ sở dữ liệu. Mời các bạn cùng tham khảo nội dung chi tiết.
Trang 1XỬ LỶ TH Ố N G KÊ s ó LIỆU NGHIÊN c ứ u SINH H Ọ C
5.1 M Ô H ÌN H H O Á Q U Y L U Ậ T C Ấ U TR Ú C T Ấ N s ố
5.1.1 Ý n g h ĩ a c ủ a v i ệ c m ô h ì n h h o á q u y l u ậ t c ấ u t r ú c t ầ n s ố
Việc mô h ìn h hoá các quy luật cấu trúc tầ n sô" trong thực tiễn và trong nghiên cứu Sinh, Y, Nòng, Lâm nghiệp có ý nghĩa to lớn Một một,
nó cho biết các quy lu ật phân bô vốn tồn tại khách q u a n trong tổng thể,
m ặ t khác, các quy lu ậ t phân bổ này có thể biểu thị một cách gần đúng
b ằ n g các biểu thức toán học cho phép xác định t ầ n sô" tuyệt dối tương ứng với mỗi m ẫu của đại lượng điểu tra nào đó
Ví dụ: Sự phụ thuộc của trao đổi cơ bản (tính bằng Kcal/kg khôi lượng cơ th ể trong 24 giờ) vào khối lượng của các con vượn gam arin được
th ể hiện b ằn g đường hồi quy hyperbol giủa khôi lượng các con vật tính
b ằn g kg và h àm Y chỉ sự trao đổi chất cơ bản (Kcal/ kg cơ th ể trong 24 giờ) Q u a n sá t sự p h á t triển của các con khỉ đực giông khỉ mõm dài trong thòi kỳ th à n h thục sinh sản cho thấy rằ n g sự p h á t triển cơ thế (kg) biến đổi theo tuổi (tính theo nỏm) Quy lu ật p h â n bố* sô' cây theo đường kính th â n (n/Dj ;), quy luật phân bô" sô" cây theo chiều cao (n/Hv(l) được xem là n h ữ n g quy luật phân bô' quan trọng n h ấ t của quy luật kết cấu lâm phần, biêt được các quy luật phân bỏ này, có thế dễ dàng xác định dược sôx cây tương ứng từng cỡ đường kính hay câ chiều cao, làm cơ
sở xây dựng các loại biểu chuyên dùng phục vụ kinh doanh rừng: Biểu
th ể tích, biểu thương phẩm, biểu sản lượng,
N ắm được các quy luật phân bô còn là cù sỏ để xác định các phương
p h á p thông kê ứng dụng, chảng hạn, nếu tống th ể có phân bỏ' chuẩn thì việc ưốc lượng tr u n g bình tống th ể có thể dùng m ẫu nhỏ theo tiêu ch u ẩ n
t của S tu d en t, còn nêu tổng thể không tuân theo luật chuẩn thì phải
Ch ư ơ ng 5
Trang 2C h jo n g 5 XỬ LÝ THỐNG KẺ số HÉU NGHIẾN cửu SINH HỌC _ 107
ílùng m ẫu lỏn để ước lượng theo tiêu chuẩn u của p h ân bô c h u ẩ n tièu
5 1 2 1 P h á n bò g iả m (plutn b ố m ủ h à m M eyer)
Biến ngẫu nhiên liên tục X có phân bô mù, nếu h àm m ật độ xác suất
có dạng:
C hăng h ạn trong lâm nghiệp, thường dùng p h ân bô" giảm dạng hàmMeyer (õ.l) để mô phỏng quy luật cấu trúc tầ n sô" cây theo đưòng kính (n/Dj Ằ) ỏ những lâm phan hổn giao, khác tuối qua khai thác chọrụ khỏng quy tắc nhiều lần, vối y là sô" cây, X là cỏ đương kính
Đổ xác định các th am sô của phân bô, trước hết phải tuyến tính hoá phưdng trình (5.1) bằng cách lôgarit hoá cơ sô" 10 h ai v ế của (5.1):
• lgy = 1 go. - p X lge X XĐặt: lg y = ỷ
lg a = a -p X lge = b
N h ận được phương trình hồi quy tuyến tính 1 lớp:
Để xác định các tham số’ a và b của hồi quy tu y ến tính 1 lớp (Õ.2), dùng phương p h áp binh phương tối thiêu vói hệ phương trìn h tiêu chuẨn sau:
Trang 3108 ƯNG DỤNG TIN HỌC TRONG SINH HCC
Giải hệ phương trình tiêu chuẩn (Õ.3) sẽ xác định được các tham sô" a
và b cũng như xác định được các mức độ liên hệ giữa hai đại lượng y và x:
Chú ý: T rên đây trình bày 1 trong những phương pháp xác định các
th a m sô"của phương trìn h hồi quy tuyến tính 1 lớp dựa vào các tổng biỏn sai Trong p h ần p h ân tích thông kê nhiều biến sò' sẽ trình bày kỹ hơn về
v ấ n đê p h â n tích mối liên hệ giữa các đại lượng (Chương 6 P h â n tích tương quan hồi quy)
Sau khi xác định được các th am số a và b của liên hộ tuyến tính 1 lớp, các th a m sô”a và p của các p h ân bô' giảm sẽ là:
a = 10“
và p = -b/lge
(5.10)(5.11)
Ví dụ:
Kiểm định p h â n bô" sô'cây theo đưòng kính và giả thiêt về luật phân bô" n/D 13, theo tài liệu điều tra trê n ô tiêu ch u ẩn điển hình 2000 in trạ n g th á i rừng IIIAị
Trang 4Ch:/ơng_5 XỬ LÝ THÓNG KẺ-SÒ LIỆU NGHIẾN cứu SINH H O C _ 109
B á n g 5 1 : Kiểm định phản bò n/D, 3theo hàm Meyer trạng thải rừng IIỈA,
Trang 5110 ƯNG DỤNG TIN HỌC TRONG SINH \ \ọz
+ Chọn fx trên th a n h công cụ chuẩn hộp thoại Function Wizard step
1 of 2 chọn Function Category.
+ Trong hộp thoại Function Category chọn Math & Trig
+ Trong hộp thoại Function Name chọn Log. Bấm trên nút Next
Hộp thoại Function Wizard step 2 of 2 hiện ra Chọn Number và đưa đủi
mục vào hàm, cụ th ể ở ví dụ này dòi mục là ô B2
+ Copy công thức tính logarit ở ô C2 cho các ô còn lại (từ ô C3 đcnÔC8)
- Bưốc 3: Tính bình phương và tích sô"các trị sô* quan sát của biến y
và kết quả ở các cột D (Từ D2 đến D8), cột E (từ E2 đến E8), cột F (từ F2 đến F8) bằng cách nạp công thức 1 lần cho các ỏ D2 (=A2A2), ô E2 (=C2A2), và F2 (=A2*C2), sau đó Copy cho các ô còn lọi
- Bước 4: Tính Ix , ly , Ix", ly-’, Ix.y Kết quả tính các tổng này đê ỏ
- Bước 7: Tính hệ số tương quan r (công thức 5.6), kết quả để ỏ ô Dlõ
Tính hệ sô" hồi quy b (công thức 5.4), kết quả để ở ô D16.Tính hệ sô"a (công thức 5.5), kêt quả để ỏ ô D17
- Bưóc 8: Tính tham sô' p và a theo các công thức (5.10), (5.11), kết quả để ở ô F16 và F17
- Bưóc 9: Tính tầ n sô' lý thuyết (f|t) cho từng cỏ đưòng kính Có 2 cách tính tầ n sổ» lý thuyết này:
• Cách thứ nhất: Tính tần số lý th u y ết từ phương trìn h hồi quy
tu y ến tính một lớp: ỷ = 1,5458261 - 0,02959.x và ý = l g f n e n đổi logarit ỳ sẽ n h ận cỉược tần số’ lý thuyết tương ứng mỗi cõ đườngkính
• Cách thứ hai: Tính tần sô" lý thuyết từ phương trình chính tăc của phân bô" mũ:
Trang 6Chưcng 5 xử LÝ THỐNG KÍ SỎ LIẾU NGHIÊN cửu SINH HOC 111
(ò F 16)Phương trình chính tắc phân ho’cây (heo đường kính (n/ Dj ) có dạng:
Kêt quà tính tần sỏ lý tlìuyet (f.) theo phương trình chính tắc để ỏ
( ộ ; ( (tií C«2 dén (Ỉ8), bang cách nạp công thức 1 lan cho ỏ G2:
C2=$F$17*exp(-$FSHỈ)*A2= 35.1419*2.72 A(-0.06808*A2)
Sau dỏ nhấn ENTER, tiôp theo dùng lộnlì Copy công thức từ ô 0 2
( h o các ô còn lại từ G3 den G8
Bước 1 0: Kiếm tra già thiêt về luật phản bô" theo tiêu ch u ẩ n y1 (khi
b ìn h phương) có phù hợp hay không?
:)ê kiêm tra xem việc lựa chọn quy luật phân bô' lý thuyết mô phỏng
ch u lỊuy luật phân bỏ vòn tồn tại khách quan trong tống cỏ phù hợp
khOiv-î, dùng tiêu crhuan X“ (khi bình phương) sau:
• Nêu X“ tính theo (5.12) < XV k (tra bang vối bậc tự do k = m - r -1
thì giả thiêt về sự phù hợp của phân bô" lý thuyết đă chọn được
chấp n h ận (gia thiết
II,,)-• Nêu tính theo (5.12) > X 2 tra bảng vối bậc tự do k = m - r -1
thì giá thiêt vổ sự phù hộp của phân bô lv thuyết đả chọn bị bác
bỏ (giả thiêt H( )
c hú VV
- Nếu tỏ nào có tầ n số’ lý thuyết f)i < 5 thi phải ghép với tố trên hoặc
tô đíu^i nó đế sao cho fị, > 5
• Khi đó bậc tự do k = m - r - 1, m lồ SỎI tỏ sau khi gộp, r là tham số
của p iâ n bô" lý thuyết cần ước lương Trường hợp nếu phân bô* lý thuyết
dã C:h>n không được chấp n h ận thông qua việc kiểm tra bằng tiêu chuẩn
X", t lì tùy thuộc phân bô thực nghiệm mà có thể chọn phân bô" lý thuyết
kháic Je mỏ phỏng, khi đó trình tự các bước và kiểm tra giả thiêt vể luật
phâỉn >ố được lặp lại từ đầu
Kỉt quả kiểm tra được cho ỏ cột ỉỉ (từ H2 đến H7) Vì tầ n số lý
thúy.'ế* (fị.J cua tô thứ 7 < 5 nên phải gộp với tổ thử 6 và trị sô"ỵ~ được tính
f(x) = 35.1419 e
r r f.,
(5.12)
X" = 5.9134 < X-Of,' (k = 3) = 7.815 (5.13)
Trang 7112 ƯNG DUNG TIN HOC TRONG SINH HCC
nên gia th iết về lu ậ t p h â n bô" được chấp n h ận nghía là p h â n bổ sô cày
theo đường kính (n/Dj 3) lâm phần 111Ai là tuân theo luật p h â n btVgiảm
- Bước 1 1: Vẽ biểu đổ phân bỗf sô"cây theo đường kính ở mức ngang ngực (Dl3), thực nghiệm (fj) và lý thuyết (fit) Đẻ vẽ biểu đồ cần qua các bưốc sau (tạo một biểu đồ nhúng bằng ChartWizard trên th a n h công cụ
chuẩn, xem lại chương 3) :
• Chọn khối dữ liệu để vẽ biểu đồ
• Bấm trên n ú t ChartWizard của thanh công cụ chuẩn
• Đưa con trỏ chuột đến vị trí đật góc trên bên trá i của đồ thị Giũ
chìm phím trối chuột, rê đe xác định kích thước và hướng của
biểu đồ
• Thả n ú t tr á i chuột, hộp thoại ChartVỉixard step 1 of 5 hiện ra
Bấm trên n ú t Next, hộp thoại ChartWizard step 2 of 5, người sử
dụng chọn kiểu biểu đồ (Graph Type).
• Bấm trên n ú t Next, hộp thoại ChartWizard step 3 0 / 5 h iện ra
yêu cầu người sử dụng định dạng kiểu đồ thị ( 1 biến thể của loạ
biểu đồ đã chọn ỏ bước trên)
• Tiếp tục bấm trê n Nexty hộp thoại ChartWizard siep 4 of 5 hiệr
ra, nhắc người sử dụng xác định chính xác cách vẽ các dãy ải
liệu
• Bấm trê n n ú t Next, hộp thoại ChartWizard step 5 of5 hiện ra yêi
cầu ngưòi sử dụng đưa thêm chú thích (Legcnd), tiêu đề (Title)
n h ã n cốc trục X và Y
• Bấm trê n n ú t Fỉnish, biểu đồ hoàn thiện hiện trên một b ả n g tínl
hiện thòi có hình dạng như sau:
Trang 8Chương 5 xử t Y [HCNGJ Í 6 l II' 11 NG*HÊN cứu SINH HOC 113
d miI1 là trị sô' quan s á t bé nhất;
p và Ỵ là hai th am sô"của phân bô Weibull.
Khi các th am số của p h ân bô> Wcibull thay dổi thì dạng đường cong
ph â n hố cũng th ay đổi theo Tham sô" Ỵ đặc trưng cho độ nhọn của phán
bố. th a m sô*p biểu thị độ lệch của p h ân bô"
Nếu: p = 1 thì đồ thị p h â n bô"có dạng giảm;
ß = 3 thi đồ thị p h ân bc> có dạng đôi xứng;
p h ù hợp của phan bô" lý thuyết theo tiêu chuẩn phù hợp X"
Theo kinh nghiệm, th am sô" ß được chọn nêu kết quả tính trị số X2 là
bé n h ấ t và nhỏ hớn Xo Of»2 (tra bảng với bạc tự do k =m - r -1)
Dưới đây là phương pháp kiêm định một phản bô" thực nghiệm theo hàirn Weibull bằng phan mềm Excel.
Trang 9B á n g 5.2: Kiểm định phân bô theo hàm V V e ib u ll
1 1 4 ỨNG DỤNG TIN HỌC TRONG SINH nọc
- Cột 6: Giá trị cột (4) mũ p, nghĩa là: (Xj - a)p
- Cột 7: Tích số cột (2) với cột (õ) , nghĩa l à : f,(x, - a)1’
Trang 10ẳ P i » i - 0 1=1
Ohựơng 5 XỬ LÝ THỐNG KẺ số LIÊU NGHIẾN cứu SINH HỌC 1_15
B á n g 5 3 : Kiểm dịnh phản bố n/ D1 3 theo hàm VVeibuỉl, với ịl = 3
Trang 11116 ỨNG DỤNG TIN HỌC TRONG SINH HOC
f(x) =
Kết quả kiểm định và kiểm tr a giả thiết về lu ật phân bố XVcibư/l số
cây theo đường kím h (n/D| 3) lâm p h ầ n mõ trồng th u ầ n loài, đều tuổi VỚI các th a m sô p = 3 và y = 0,001747 cho thấy:
Trị số X' tính được bằng 3,644 < X‘o.o6(k =3) =7.81, nghĩa là p h ân bố
lý th u y ế t đã chọn vổi các th a m sô' cụ thể là phù hợp với phân bô' thực nghiệm
b) Ước ỉượng các tham số của phân bố khoảng cách
Bằng phương pháp h àm tôl đa hợp lý cỏ th ể xác định được các tham
sô' của p h â n bố khoảng cách n h ư sau:
í > ,ả~l
N hư vậy y chính là tầ n s u ấ t của tổ đầu tiên Trong thực tiễn các
n g à n h Sinh, Y, Nông, L âm nghiệp p h â n bô' khoảng cách được dùng (lê
mô phỏng quy lu ậ t p h â n bcí khoảng cách giữa các cây trong h à n g của rừng trồng sau một thòi gian đê tỉn th ư a tự nhiên, quy luật p h â n bô" sô
Trang 12B a n g 5 4 : Kiểm đinh phân bò n/D, 3 theo phàn bò khoáng cách
- Cột A : Là các lốp đường kính (Dj 3) với khoang cách lớp k = 2 cm
- Cột 13: Là tần sô" tương ứng vói mỗi lớp đường kính, tổng tầ n sô" là n= 121.
- Cột C: Là các trị sô" X, = (d, - dj).k, vỏi đại lượng dj = 7 cm
Trang 13118 ỬNG DỤNG TIN HỌC TRONG SINH HOC
- Cột D: Là tích số giữa tầ n sô' (f|) vỏi các trị số X,, Xfị.x, = 323
- Cột E: là tầ n số tương ứng vói mỗi lóp đường kính T ần s u ấ t này được tính như sau:
+ Lớp thứ nhất: Tần s u ấ t (P, chính bằng tỷ sô" giữa tần số tổ 1 chia cho kích thước m ẫu f,/n)
+ Lốp th ứ 2 đến tổ th ứ 10, t ầ n su ấ t được tính theo công thức (5.1?)vối:
+ Lốp thứ 9 (ô E3):
p, = (1 - 0.1Õ7)*(1-0.684)*0.684A(X; - 1)+ Các lớp còn lại (từ E4 đến E12), dùng Fill handle (hay các phương pháp như đã trìn h bày ở p h ầ n trên) để tính tầ n s u ấ t Pj
- Cột F: Là t ầ n số lý th u y ế t (fit), được tính theo công thức: f|( = n*]’,, nạp công thức 1 lần cho ô F2 n h ư sau: = 121*E2 và n h ấn ENTER, sau
đó Copy công thức cho các ô từ F3 đến F12 Tổng cột F (từ F2 đến F l2 )
là tổng tầ n số lý thuyết được tính theo phân bô khoảng cách: U|, = 118.7
- Cột G: là cột kiếm tra giả th iế t về luật p h ân bô” theo tiêu chuân phù hợp X2 (công thức 5.12) Kết quả kiểm tra cho thấy X" = 5,392< x200& vối bậc tự do k = 6 bằng 12,592 N ghĩa là p h â n bô" khoảng cách đã chọn vối các th am số cụ thể, p h ả n á n h đúng quy lu ậ t vốn tồn tại khách quan trong tổng th ể hay phân bô' cây rừng tại địa điểm B tu ân theo p h â n bố khoảng cách
Ví dụ: Trong Sinh, Y, Nông, Lâm nghiệp người ta thường so sán h tý
lệ nảy mầm của 2 lô h ạ t giông được xử lý bằng 2 cách khác nhau, so sánh tốc độ sinh trưởng của một loại cây trên những điều kiện khác
Trang 14Chương 5 xử LÝ THỐNG KẺ số LIÉU NGHIÊN cửu SINH HOC 119
n h a u , so s á n h sần lượng th u hoạch hoa m àu trên những khu thí nghiệm
k h ac n h a u vô lượng p h â n bón, so sán h sự tăn g trưỏng của gia súc trong
n h ữ n g điểu kiện cho ãn với những chê độ khác n h a u v.v Nói chung ta Cỉ‘m xét đặc trư n g sinh học, mà dối với nó có hai giả thuyết (hai kha
n ãng) dược đưa ra dê cân nhấc, bàn bạc và phải chọn lấy một trong hai giả thuyêt đó Cẩn chọn cái nào đê k h ả nàng đúng được nhiều hơn, khả
n ã n g sai ít hơn Đo cho tiện, một trong hai giả th u y ết đang xét được ký hiệu H«, (giả th iết H J, cái còn lại được ký hiệu Hj (đối thiết 11,)
Khi có hai giả thiết Ho và IIỊ, thì kiêm định giả thiết là đưa ra một quy tắc, dựa trên đó để lựa chọn H , hay H t Thông tin duy n h ấ t mà
c h ú n g ta có là m ẵu quan s á t vối kích thước n Để quyết định xem chọn
Hu h a y Hj ta chia tập hợp giá trị có th ể của m ẫu ngẫu nhiên (còn gọi là
k h ô n g g ian mẫu) th à n h 2 miền loại trừ n h a u s và s Giả thiết ỉỉ được
c h ấ p n h ậ n khi m ẫu nằm trong vùng s ; còn bị bác bỏ khi m ẫu nằm trong vũn.g s Đây chính là quy tắc đô kiếm định giả thiết thống kê
T rong chương này sẽ trình bày nội dung và phương pháp so sánh các m ẫu độc lập, các m ẫu liên hệ b ằ n g nhiều tiêu chuẩn khác nhau Nguíòi làm nghiên cứu th í nghiệm có th ế lựa chọn một hoác một vài tiêu chuéỉn dể vận dụng và từ dó rú t ra ìứiững kết luận đủ độ tin cậy cạn thiết.5.2 2 T rư ờ n g h ợ p c ác m ẫu độc lậ p
5 2 2 2 T rư tm g h ợ p h a i m ầ u dộc lụp
iaj Kiểm tra giả thiết Hti: Hị-ỊẰ^ Hi: bằng tiêu chuẩn t của Student
'Tièu ch u ẩn này thường được dùng khi biết trước luật phân bô" của hai tô n g thể mà đại biểu là có hai m ẫu p h â n bô"chuẩn và hai phương sai
Trang 15120 ỬNG DỤNG TIN HỌC TRONG SINH HỌC
bằng nhau Trong trường hợp này cần kiểm tr a sự bằng n h a u của hai tru n g bình tổng th ể mà ta đã giả thiết ỏ trên qua việc kiểm tra sai khá? của h a i tru n g bình m ẫu vói công thức
T rong đó: Xj và X2 là hai trung bình của hai m ẫu quan s á t 1 và 2
Sị2 và S22 là phương sai của hai m ẫu quan s á t 1 và 2;
m 1 và n2 là kích thước của hai m ẫu quan sát 1 và 2
Đ ại lượng t được xác định theo quy luật p h â n bỏ" t với bậc tự d)
k = n ì + n2 -2 Ngưòi ta đã chứng m inh rằng nếu Xj và X2 khác n h a imột cách ngẫu nhiên thì 100 lần r ú t m ẫu chỉ có không quá 5 lần trị 8)
tu y ệ t đôi của t tính theo (công thức 5.21) lớn hơn t tra ở bảng p h â n bô't vói các bậc tự do k = nj + n2 - 2 Nếu qua một lần rú t m ẫu mà ta gặ)
ph ải trị sô" t tính theo (công thức 5.21) lớn hơn t (tra bảng ứng với xá:
s u ấ t a = 0,05) thì không th ể xem Xị và X2 khác nhau ngẫu nhiêiđược Sự khác n h a u giữa chúng là có ý nghĩa; cũng tức là tru n g bình củi hai tổng thể khác n h au và kết quả 2 thí nghiệm là khác nhau Tron* trường hợp này mẫu nào có giá trị tru n g bình cao hơn thì xem nó là mẫi
có giá trị trội hơn m ẫu còn lại Ở một thí nghiệm về năng su ấ t cây trổnĩ,
n ă n g suất sinh khôi của vi sinh vật hay năng su ấ t thủy sản của rriit
th u ỷ vực nào đó ta xem thí nghiệm đó là tốt hơn những th í nghiện còn lại
• P h ư ơ n g p h á p tín h 5 2 (P P T 5.2)
(1): Nhập số liệu của 2 m ẫu vào bảng tính
(2): Tính tru n g bình và phương sai của mẫu bằng hàm f„ trê n th a m công cụ
Chọn một ô để chuẩn bị ghi ra kết quả
(3): Dùng con trỏ chuột gọi hàm fx trên th a n h công cụ
(4): Chọn hàm thông kê (khung thực đơn bên phải) và chọn hàm T-test(5): Chọn Next và ta có 4 dãy khai báo:
Trang 16; 5 <ử I Y ĩ MÓNG KẺ SỔ LI É u NGHIÊN cửu SINt Ị HỌC _ _ 121
- Dảv 1 và 2 khai báo sô liệu của 2 mẫu (dùng trỏ chuột quét từng (tà số liậỉ hoặc khai báo từ bàn phím)
- Dãy 3 (Tail) ghi 2 (với ý nghĩa kiểm tra hai chiều)
- Dăy 4 (Type) ghi 2 (trường hợp 2 phương sai bằng nhau của haitóỉig the)
(6): Chọn Finish.
Nếu kêt qua tính toán chơ p < 0.05 thì sự sai khác của tru n g bình 2
rmiu là co ý nghĩa, giả th iết H„ bị bác bỏ, chấp n h ậ n đối thiết H t Nếu
p > 0,05 sự sai khác n h au của trung bình 2 m ẫu là chưa có ý nghĩa, tức ].i chap nhận giả thiết Hn
Trường hợp cần th iết có thể tản g kích thước mẫu quan s á t lên nhiều lầr dể kiểm tra lại, hoặc dùng thêm một vài tiêu chuẩn kiểm tra khác ỏ cá: mục sau đây đế có kết luận chắc chắn hơn
Chú y Phương pháp tính 5.2 chí dùng khi:
- Đạ lượng quan sát ỏ 2 m ẫu là liên tục, có phân bô" ch u ẩn vốiphương s.ũ bàng nhau, 11 ị v à n2 < 30 Nếu lu ậ t p h ân bố và phương sai không bitt trước có bàng n h au hay không thì dùng các tiêu chuẩn khác
nh ư tiêu chuẩn u của M ann và W hitney hay tiêu chuẩn biên sai h ạn g của Siegel và Tukey sẽ trìn h bày ỏ các mục sau
- Truòng hợp p h ân bô' biết được là phân bô" ch u ẩn nhung sự bằng
n h a u của 2 phương sai chưa biết thì có thể kiểm tra sự bằng n h a u của hai phương sai theo cách sau:
(5): Chọn Next và ta có 2 dày khai báo Dùng chuột hoác bàn phím
đẻ đưa sô liệu vào hai dãy khai báo như trường hợp kiểm tra ỏ phương
p h áp tính 5.2
(tì): Chọn Finish. Kết qua cho p > 0.05 thì xem như phương sai hai tỏng th ể Vằng nhau
Trang 17122 ỨNG DỤNG TIN HỌC TRONG SINH HOC
Ngược lại, nếu p < 0.05 ta cĩ th ế kiểm tr a cơng thức (5.21) »ầng phương pháp tính sau:
• Phương pháp linh 5.4 (PPTS.4)
- Kiểm tr a sự sai khác của hai tru n g bình mẫu:
Cốc bước (1), (2), (3), (4) như phương pháp tín h 5.2
(5): - Dày k h ai báo (1) (2) (3) như phương p h áp tính 5.2;
- Dãy 4 cType) ghi sơ'3 cho trường hđp phương sai khơng bằng lÌKi u(6): Chọn Finish và cũng kết luận n h ư phương p h á p tín h 5.2:
Nếu kết quả tính tốn cho p < O.Oõ thì sự sai khác của tru n g rình hai m ẫu là cỏ ý nghía, gia thiết H0 bị bác bỏ, chấp n h ậ n đỏi th iế Hj Nếu p > 0,05 thì sự sai khác nhau của trung bình hai mẫu là chưa cố ý nghĩa, tức là chấp n h ậ n giả thiết H0
Sau đây là một ví dụ kiểm tra mức độ sai khác của hai tru n g rình
m ẫu theo tiêu chuẩn t của Student theo các phương pháp tính 5.2, 5.3,5 4
Ví dụ ỉ:
Gọi Xj là chiểu cao cúa thơng mã vĩ (Pinus massoniana Lamb) ì in h trương ỏ chân đồi và XL, là chiều cao của thơng m ã vĩ (Pinus ìnassonanũ Lamb) trồng ỏ sưịn và đính đồi c ả hai lơ thơng đều ở thời kỳ rirfớ(! khép tán, trồng cùng một thịi gian, cùng m ật độ và cĩ chê độ chăn Siĩc* như nh au , chỉ khác nhau vế diều kiện nơng hĩa thố nhưỡng, kết qiuả
q u an trắc được cho trong bảng 5.5
B à n g 5 5 : Kết quả chiểu cao của thơng mã v ĩ tro n g thí nghiệm ví dụ 1
Chiéu cao khu 1
Trang 181 ; Dặt giá thiết II,,: Uj = J.I và đối thiết I ỉ ị: |.1| * ịir.
Do đạc điếm là rừng cây ỏ thời kỳ trưóc lúc khép tán nón có thê thừa nhận luật phán bỏ cây theo chiểu cao là luật phán bô chiúin (tửc sự sai khóc vể chiều cao của các cây rừng là ngẫu nhiên)
2; Kiểm tra điểu kiện: S ị2 = s / theo phương pháp tính 5.3:
- Gọi hàm f, và chọn F tcsí ủ hàm thông kê (Statistical)
- Chọn N ext và đưa sô" liệu mau 1 vào khung 1 (Array 1) và đưa sô' liệu mau 2 vào khung 2 (Array 2).
- Chọn F inish.
Kết quii cho p = 0,596 > 0.05, chấp nhộn sự bằng nhau của hai phương sai tổng thế, có nghía Là những điêu kiện cùa bài toán kiêm tra theo công thức (5.21) đã thỏa mãn và tiếp lục thực hiện PPT5.2
3) Kiếm tra giả thiết II,.: Ị.I, = |Xj và H,: Uj * Ị.Ị theo phương pháp tính 5.2
- Gọi hàm fx và chọn T 'ic st trong hàm thông kê (statistical).
- Chọn N ext và đưa scí liệu mẫu 1 vào khung A rray ly đưa sô" liệu mẫu 2 vào khung Array 2.
- Killing T ail ghi 2 (kiểm tra hai chiều)
- Khung Type ghi 2 (hai phương sai của hai tống thể bằng nhau)
- Chọn F in ish và cho kết quả p = 0,047132 < 0.05
Xác suất tính được nhô hơn 0.05 nên giả thiết bị bác bỏ Như vậy híii khu rừng có hai sô" trung bình mẫu khác nhau một cách có ý nghía Cũng tức là chúng có trung bình tống thể khác nhau Khi bác bỏ giả thiêt Ht, thì cũng có nghĩa là ta thừa nhận đỏi thiết Hị : chiểu cao trung bình tổng thể của 2 khu rừng là khác nhau, nhưng chưa có thể nói khu rùng nào tốt hờn Muôn biết điểu đó ta căn cứ vào trung bình mẫu Trong trường hợp này khu rừng 1 có trung bình mẫu cao hơn (4,575 m) non ta tạm coi khu rừng này là tốt hờn khu rừng 2 (TB=4,108 m)
Ở một sô" bài toán cụ thể, so sánh hai trung binh mẫu không đòi hỏi phải có sự phán đoán này mà chỉ dừng lại ỏ kết luận hai trung bình tổng thể khác nhau là đủ
Ví dụ 2: Sinh trưỏng chiểu cao của 11 cây lim xanh (E rythrophlocum
fo 'd ii) trồng dưói tán các cây khác và 1 0 cây lim cùng loại trồng nơi qv.amg đàng, kết quá cho ỏ bảng Õ.6
I 5 XỬ LÝ ĩ HÓNG KẺ SỐ LIỆU NGHIẾN cứu SINH HOC 123
Trang 191 2 4 _ ỨNG DỤNG TIN HỌC TRONG SINH HỌC
B à n g 5 6 : Kết quả ch iế u cao của Lim xanh tro n g th i nghiệm ví dụ 2
Chiều cao lim
Cho biết chiểu cao trung bình cùa hai lơ thí nghiệm trên c ĩ k h ấ c
nhau hay khơng?
Bài giíii:
Dùng các hàm thơng kê (xem chương 2) ta cĩ thể tính được c (\0
trung bình và phương sai như sau:
vỏi lim trồng nơi quang đăng ta cĩ x = 2.31 m và phương sai
Sx2 = 0.0747 cịn lim trồng dưối tán ta cĩ Y = 2.522 m và phương sai
Sy2 = 0.003696
Nếu dùng phương pháp tính tốn Õ.3, ta kiểm tra sự bằng nhau của
hai phương sai của hai tổng thể ta được p = 5.59E-05 (< 0.05) như vậy cĩ nghĩa là giả thiết về sự bằng nhau của hai phương sai là khơng thể chấp nhận được
Do phương sai khơng bằng nhau nên ta kiếm tra sự bằng nhau của hai trung bình tổng thể (H0: ịx ì - ị i 2) bằng phương pháp tính 5.4, khai báo dãy T ypc khơng phải bằng 2 mà khai bằng 3 (khác vĩi trường hợp PPT5.2)
Vĩi sự khai báo này, chúng ta cĩ kêt quả p = 0.0395, xác suất này nhỏ hơn O.Oõ nên giả thiết về sự bằng nhau của hai trung bình tổng thế
là khơng thể chấp nhộn được Điều đĩ cĩ nghía là sự sinh trưởng và phá', triển của lin xanh trong giai đoạn cịn non khơng cần nang nhiều Nêi trồng chúng dưới tán cây khác sẽ phát triển tốt hơn
Ngồi việc dùng hàm fx để kiểm tra giả thiết H „ : ịix = f i y ngưịi ta r ị i
cĩ thể dùng D ata a n a ly sis trong menu Tooỉs để kiểm tra theo một quj trình hầu như gần giống nhau cho trường hợp phương sai hai tong thế bằng nhau và khơng bằng nhau như sau:
Trang 20Chương 5 xử LÝ THỖNG KẺ sỗ LIỆU NGHIẾN cứu SINH HỌC 125
• Phương pháp lính 5.5 (77r/’5.5)
1- Chọn D ata ana lysis trong menu Tools.
2- Chọn t-Tcst Tw o • S a m p le A s s u m in g E q u a l Variances (gọi tát là T-D-E-V)
3* Khai báo sỏ liệu mẫu 1 vào khung Variable 1 range.
■I- Khai báo sô liệu mẫu 2 vào khung Variable 2 range.
5- Trong khung H ypothesized M ea n D iffircnce ghi 0 (giả thyêt H :
Hi • ịh = 0 )
6 - Chọn 1 Cell trên vùng trông đê định vùng O utput.
Kết quả cho ta bang sau:
B ắ n g 5.7: Kết quà phản tich s ố liệu bàng 5.6 th e o T-D-E-V
t-Test Two-Sample Assuming Equal Variances
Như vậy p=0.0224 <0.05, ta bác bỏ giả thiết H0 về sự bằng nhau
của hai sô" trung bình, hoặc t-Stat = - 2.4839 > t Critcal two-tail = 2.093 cùng cho kết luận như vậy
Tóm tắt 4 phương pháp tính kiểm tra giả thuyết H0: ịii = ịi -2 nhưsau:
Trang 21126 ỨNG DUNG TIN HỌC TRONG SINH HOC
P P T 5 3 F-test
ơ,= ơ2
hơp
- Trường hợp nếu phương sai của cả hai tông thể khỏng biết được
mà kích thưổc mẫu nj và n.j đều lớn hơn 30 thì việc kiểm tra mức ý nghĩa
sai khác của hai trung bình mẫu được thực hiện theo công thức sau:
Đây là trường hợp kiểm tra theo tiêu chuẩn u của hàm phân bổ*
chuẩn
• Nếu |u| > 1.96 thì giữa Xj và X2 có sai khác rõ rệt Cũng có
nghĩa là ỏ các tổng thể, 2 sô" trung bình |ij và ịi., là khác nhau
(hai kết quả nghiên cứu nào đó không thể xem là như nhau)
• Trường hợp |u| < 1.96 ta xem như hai kết quả nghiên cứu nào đó
là chưa khác nhau một cách có ý nghĩa về mặt thống kê Nếu cẩn
táng kích thước mẫu lên để kiểm tra lại hoặc kiểm tra thêm một
vài tiêu chuẩn khác để có kết luận đủ độ tin cậy hơn
Công thức (5.22) là một công thức sử dụng rộng rãi cho trường hợp
khi hai tổng thể mà đại biểu là hai mẫu có phân bô" lệch trái hay lệch
phải so vỏi phân bô"chuẩn và phương sai khác nhau, nhưng mức độ hiệu
nghiệm thấp hơn tiêu chuẩn t khi cả hai tổng thê có phản bò chuẩn vồ
phương sai băng nhau và trong những trường hợp như vậy ta cũng c:hi
có thể kết luận sự bằng nhau hay khác nhau của hai trung binh tổng
Ư _ X, - x 2
(5.22)
Trang 22thô mà chưa có két luận gì vê sự giông nhau hay khác nhau của hai
p úm bỏ cùa hai tông thỏ
Trong phần mềm Excel 5.0 hoặc Q uatro 3.0 và 4.0 chưa có hàm
í hóng kẻ để tinh công thức (5 22) Tuy nhiên ta có thể dỗ dàng lập công thức này sau khi đă tính Xị , X2 , Sj2 và s / theo các hàm thông kẻ
tr ong bang tính bằng các hưđc đơn gián
Trường hợp giả thiêt 2> phương sai tống thế đà biết qua việc thaythỏ hai phương sai mau tính từ hai dãy quan sát bằng hàm f, ta có thểdung mục D ata analysis trong menu Tools như sau:
• 1'hưoĩỉg pháp tính 5.6 (1*1*15.6)
1 - Chọn D ata analysis trong menu Tools.
2* Chọn Z - T c s t (ta thường thay bằng u, gọi tắt là T-D-A-Z)
3* Khai báo sỏ liệu mẫu 1 vào khung Variable 1 range.
4* Khai báo sô"liệu mẫu 2 vào khui Variable 2 range.
5 Khung Hypothesized M ean Diffirence ghi 0 (Giả thiết Hu: Ịiị - ịio = 0)
6 - Khai báo phương sai mẫu 1 (tính theo fx) vào hàng K n o w n UGiriaìice ỏ cột Variable 1 và phương sai mẫu 2 vào cột Variable 2
7- Chọn 1 Cell bất kỳ ỏ trên một vùng trốhg đê làm vùng O utput Bài loán ví dụ:
Phân tích hàm lượng izozym EST tống sô" trong máu ngoại vi của haũ nhóm ngưòi, mỗi nhóm phân tích 35 mẫu máu Nhóm thí nghiộm là những người tiếp xúc lâu dài trực tiếp vỏi hoá chất diệt côn trùng nhóm lâm hữu cơ, nhóm đốỉ chứng là nhóm khỏng tiếp xúc trực tiếp với hoá chìất trên (bàng 5.8)
Kết quă phân tích theo T-D-A-Z cho ta ỏ bảng Õ 8 từ trên xuống dưỏi nhuí sau:
- Trung bình của mẫu 1 và mẫu 2
- Phương sai của mẫu 1 và mẫu 2
- Sô quan sát (kích thưỏc mẫu) cúa mẫu 1 và mẫu 2
- Giả thiết H , vồ chênh lệch giữa 2 trung bình tống thể (= 0)
Cthương 5 xử LÝ THỔNG KL số LIỆU NGHIỀN cứu SINH HỌC 127
Trang 23B á n g 5 8 : Kết quả phàn tích lư ợng izozym EST tổ n g s ố ớ 2 nhóm tiếp xú c trự c tiế p
lảu dài, gọi là TN vả kh ô n g tiế p xúc gọi là ĐC theo PPT5.6
128 _ ỨNG DỤNG TIN HỌC TRONG SINH HỌC
Trang 24Ch rong 5 xử LÝ THỐNG KẺ SỐ LIÊU NGHIÊN cửu SINH HỌC 129
Trị sơ" z (ta ký hiệu là U)
• Xác suât 1 chiều của z
Trị số z tiêu chuẩn theo xác suất 0.05 trường hợp 1 chiểu
• Xác suất hai chiều của trị sơ z tính tốn
Trị số’ z tiẽu chuấn với xác suất O.Oõ trong trường hợp hai chiều.Như vi dụ trên thì giả thiết II, bị bác bơ vì giá trị tuyệt đơi cùa z lớn hơn 1.959, hoặc giá trị p hai chiểu của z nhỏ hơn xác suất bang 0.05
|)1<‘U đĩ cho phép kết luận hàm lượng izozym EST cua nhĩm nghiên cứu (tức là nhỏm ngươi tiếp xúc trực tiếp và lâu dài vĩi thuốc trừ sâu nhỏm làiỉ hữu cơ) cao hơn nhỏm đỏi chứng một cách cĩ ý nghĩa Kết luận này
t in cậy vối độ tin a = 0,05
b) K iểm tra sự th u ầ n n hất của h a i m ẫ u độc lập b ằ n g tiêu ch u â n ư cứu M a n n và W hitney
Đây là một tiêu chuẩn phi tham sơ" cịn gọi là tiêu chuẩn Wilcoxon Với tiêu chuẩn này việc kiểm tra sự thuần nhất của hai mẫu dựa vào phướng pháp xếp hạng các trị sơ quan sát của hai mẫu mà khơng địi hỏi phải tính trung bình và phướng sai của hai mẫu như khi ứng dụng tiêu chuẩn t Vì vậy mà người ta cùng khơng biêt gì về luật phân bỗ» của hai tỏng thể với những tham sơ" của nĩ nên gọi là phương phốp phi tham sơ"
(N o n p a ra m etric m ethods). Khi so sánh hai mẫu độc lập bằng phương pháp này cùng hàm ý là đă so sánh và kiểm tra cùng một lúc dạng phân
b ố và tham sơ* của nĩ Cho nên gia thiết trong trưàng hợp này thường đặt:
Hu: F(x) = F(y)
và H,: F(x) * F(y)})ây là một phương pháp rất thuận tiện và thích hợp vỏi những chuyên gia khơng chuyên vể thơng kê tốn hoc mậc dù độ hiệu nghiêm của phương pháp cĩ hcạn chê hơn so với phương pháp tham số
Theo E Weber trong trường hợp so sánh hai mẫu, nĩ băng 95% độ hiệu nghiệm của tiêu chuẩn t Điều khĩ khăn nhất của phương pháp này là việc xếp hạng khi mẫu quá lớn mà khơng cĩ những phương tiện tính tốn
Trang 25130 ƯNG DỤNG TIN HỌC TRONG SINH HỌC
Tuy nhiên trong điều kiện có máy tính cá nhãn vỏi các chương trinh như Excel hoặc Q uattro 4.0 ta có thê thực hiện rất nhanh chóng Ngoài
ra người ta có thê dùng phương pháp chia tổ, ghép nhóm và xây dựng một thuật toán xếp hạng cho nó củng rất dễ thực hiện
Trưỏc khi đi vào phần kiêm tra giả thiết H0: F(x) = F(y) can giỏi thiệu phương pháp xếp hạng vối việc vận dụng chương trình Excel c h o
hai và nhiều mẫu độc lập
• Phương pháp xếp hạng các giá trị quan sát ở các máu quan sái (lục lọp
Khi so sánh hai hay nhiều mẫu quan sát với nhau trong trường hợp các mẩu độc lập, nguyên tắc chung là sắp xếp các giá trị từ nhỏ đến lỏn cho tất cả các mẫu và tính tổng hạng riêng cho từng mẫu Việc kiểm tra thuần nhất của các mẫu chú yếu là dựa vào sự so sánh của các tống hạng đó thông qua một sô"tiêu chuẩn thông kê
Chẳng hạn, nếu so sánh hai mẫu thì người ta dựa vào tiêu chuẩn u của Mann và Whitney, nếu so sánh nhiều mẫu độc lập thì dựa vào tiêu chuẩn của Kruskal và Wallis (sẽ trình bày sau)
Ví dụ bảng 5.9 là kết quả xếp hạng cho hai dày quan sát theo ví dụ
sẽ nhận sô hạng trung bình của các sò" hạng 6 ; 7; 8 Những sỏ hang tương tự được cho vào ngoặc ỏ bảng (Õ.9)
Trang 26CfiiA'ng 5 xử t Y thong KẺ SO LIỆU NGHIEN cứu SINH H 131
Nhin vào bang trên ta cũng cam nhận rang hai m ẫ u là khỏng thuan
n 1,1' vi tong hạng ỏ m ẫ u có ký hiộu Y là lỏn hơn nhiêu so vỏi mau cá ký lún X Ta củng có tlie xếp hạng một cách tương tự cho nhiều mầu vổi
( (• \ý hiệu X Y, z, v.v (bảng Õ.10) Nhưng ta sẽ gặp khó khăn lỏn khi
s<‘, 1 ệu quan sắt tương đòi nhiổu Trong những trường hợp như vậy chi
cỏ I lô thực hiện nhanh chóng bang máy vi tính cá nhân Phương pháp xi/p liạng nhu sau:
(lên nàu 2 (nêu cỏ 2 mẫu)
(3): Dùng 1 cột (chẳng hạn C olum n A) ghi nhàn hiệu của mau (cỏ thò’ ghi nhăn X, Y, z, hoặc 1 , 2, 3, nì) Khi ghi chỉ cần ghi sô" đau tiên :úa một mảu và dùng F ill-haiidle đế Copy toàn bộ những sô*còn lại của nẫu đó
(4): Dùng lệnh S ort từ menu D ata đê xếp sô" liệu từ nhổ đến lỏn (sáp sỏp theo C olum n B). Chú ý ràng trường hợp này là sáp xêp theo khỏi với hai trương khác nhau (C olum n A và C olum n B) nôn không thể dùng
, AI
phirr tăt 2 + trên thanh công cụ vì phím này chí phù hợp cho trường hợp ‘ắp xếp một cột mà thôi
Trang 27132 ỬNG DUNG TIN HỌC TRONG SINH HOC
B a n g 5 1 1 : Bàng xếp hạng các già tr ị quan sat
(0): Dùng lệnh F ilb h a n d lc Excel đê ghi sơ thứ tự từ 1 d m nIII
( n = £ n , )
í l
Những sơ" nào trùng nhau thì được tính nhanh bằng tay hoặc dùng hàm trung bình đê tính sơ" họng trung bình (khi sơ* liệu lộp lại tươnỊ (tơi lốn) cho những sơ" lạp lại như cách làm ỏ ví dụ trong bảng 5.12
Cần lưu ý rằng, nếu các sơ" trùng nhau chi nằm trong phạm Vì một mẫu thì khơng cần tính sơ" thứ tự trung bình vì cuơi cùng tơng hạn* cho mẫu đĩ sẽ khơng cĩ gì thay đổi Các sơ* thứ tự trên được: đật ỏ cột (
(C olum n C).
(6 ): Dùng lệnh S o rt à menu D ata dể sap xơp lại theo cột A (Cóiìrin A) đê trả lại nguyên chỏ cù các số thứ tự mầu cùng với các trị sỏ Ịuan
Trang 28Cnương 5 xử LÝ THỎNG KẺ sò LIÉU NGHỈẺN cửu SINH HOC 133
sat cùa nó Tất nhiên những trị quan sát này cũng mang theo các số
lì mg t ương ứng
(7): Dùng lệnh Copy hoặc dùng hàm tham chiôu Vloo/mp đô đua sô
lì mì' ớ cát: mầu vổ cột (2) (4) (6 ) ỏ bảng ghi theo báng 5.10
(8 ): Dùng hàm Sum. đồ cộng các cột (2) (4) (G) ta có tông hạng tuơng ứng cho từng mau Rị, R R , R, •
I a có thô kiéiìì tra kêt qua tính toán bang cỏng thức:
Từ Vi dụ bâng (5.11) ta lán lượt giai quyết nhu sau:
(1 ): Đưa số liệu vào bang tính của Excel.
(2): Thực hiện biíớc 2, 3, 4, 5 và 6 cho kêt quá ỏ bang 5.12
Giai thích báng 5.12:
(]): Cột 1 ghi thứ tự của mẫu nhờ lệnh Fill handle.
(2): Cột 2 trị sô" quan sát được Copy từ bảng sô" liệu của bước (1 )
(3): Cột 3 dùng lệnh Sort theo cột sô" 2
(4): Cột 4 dùng lệnh F ill'h a n d le để ghi số thứ tự từ 1 đến 21 giá trị,tứíc là xêp hạng theo giá trị từ nhô đến lớn
(5): Cột 5 ghi sô hạng mỏi ửng vói từng mẫu sau khi dùng lệnh So rt
Sau bước này coi như đã xếp hạng xong các trị sò quan sát ở các m.ầu
(7): Dùng lộnh S u ỉìỉ dê cộng sô" hạng cho từng mau, trong trườngliợip này là cột c và cột E của bảng õ.l 1
p n(n + 1 )
(5 23)
Trang 29ỬNG DUNG TIN HỌC TRONG SINH HOC
B a n g 5 1 2 : Bàng kết quà xếp hạng các giã trị quan sát
Trang 30ChiVng 5 xừ LÝ THỐNG KẺ sò LIỆU NGHIÊN cưu SINH HỌC 135
B à n g 5 1 3 : Kết quà xếp hang cãc giá trị quan sát ờ các mẫu quan sát độc lập
Mẩu X
(1)
Xếp hang (2)
Mẳu V (3)
Xếp hang (4)
Trang 31136 ỬNG DỤNG TIN HỌC TRONG SINH HỌC
Ngưcỉi ta chửng minh đươc rằng phân bố của Ư (Ux hoặc tién nhanh đến phân bô" chuẩn với:
Như vậy việc kiểm tra giả thiêt H„ có thể thực hiện được báng công thức sau:
Trang 32Chưangý xử LÝ THỐNG KẺ sỗ LIỆU NGHIÊN cứu SINH HOC 137
ngược dấu vối trưòng hợp dùng Ux
• Tiêu chuẩn biên sai hạng của Siegel vù Tukev dùng cho hai mầu dộc lập
Đô kiểm tra giả thiết H0: F(x) = F (y), các trị sô" quan sát của hai mẫu củng được xếp hạng chung như trường hợp tiêu chuẩn u của Mann
và Whitney, ký hiệu Rj cho mẫu bé và cho mẫu lớn
Nếu ri! và n> > 9 hoặc nj >2 và n2 > 20 thì việc kiểm tra giả thiết Ht, điíỢc thực hiện theo công thức sau:
2Rj - n,(nJ + n2 + 1)4 - 1
ín^n, + n2 + 1
Kôt luận: |u| > 1.96 giả thiết H(, bị bác bỏ;
|u| < 1.96 giả thiết Ht, được chấp nhận
Trang 33toàn phù hợp với trường hợp tính theo tiêu chuẩn u của Mam và Whitney.
Trong trường hợp nếu 2Rj > n, (n, + n0 +1) thì thay (+1 ) ỏ công thức(5.30) bằng (-1) Nhưng nếu không đòi hỏi độ chính xác cao thì việc thay thế trên củng không cần đặt ra
5.2.23 Trường hợp nhiều mấu dộc lụp
a) Ý n g h ĩa của p h ư ơ n g p h á p
Đây là trường hợp thường gặp trong nghiên cứu Sinh, Y Nông, Lâm Người ta cần so sánh nhiều kết quả nghiên cứu từ các thí nghiệm độc lập nhau Chẳng hạn so sánh xem hàm lượng nguyên tô* Bo hoặc
hàm lượng châ't mùn có trong các lô đất lấy mẫu từ những khu vực
khác nhau có các tỷ lệ khác nhau hay không
Phương pháp này củng giúp cho các nhà khoa học dùng so sánh để quyết định xem có cần gộp các dữ liệu thu thập ở những khu vục lấy mẫu khác nhau hay không thông qua việc kiểm tra tính thuần nhất bằng những tiêu chuẩn thông kê nào đó
b) Tiêu chuẩn p h i th a m s ố của K ru ska l v à Wallis
Do việc không sử dụng các đại lượng thống kê của mẫu nên SỌ1 là tiêu chuẩn phi tham số Điểu kiện áp dụng tiêu chuẩn này là sô mảu
m ;> 3, các đại lượng quan sát ỏ các mẫu là những đại lượng liên tục Tiêu chuẩn này chủ yếu là dựa vào phương pháp xếp hạng các S) liệu quan sát ỏ các mẫu Việc xếp hạng này được trình bày ỏ trường 1ỢP 2 mẫu nhưng áp dụng cho trường hợp nhiều mẫu để ta có các tổng hing ở
các mẫu Rị, R2, Rj, R„ Phương pháp tính được tó nì tát như sau:
Bước 1: Nhập sô" liệu theo kiểu bảng 5.15 Tính các giá trị rung bình mẫu bằng hàm trung bình Tính tổng kích thước mẫu cúa m ìhóìn
n = m i m n l ) ( * ) * m n ế u c á c m ầ u c ó k í c h t h ư ớ c b ằ n g n h a u h o ặ c n = s u m ( đ c l : < c 2 : )
Bước 2: Chọn một cell trông bên dưới đánh nhãn STTXH (sô tiứ tự xếp hạng) từ 1 đến n Dùng lệnh F ill h a n d le để điển số' thứ tự từ 1 lẻn n vào cột này
Bước 3: Dùng lệnh Copy dữ liệu của Mh Mm vào cột bêi phuicột STTXH, bắt đầu từ 1
138 _ _ _ ỨNG DỤNG TIN HỌC TRONG SINH HOC
Trang 34Ch ương 5 xử LỶ THỐNG KÊ só LIẾU NGHIẺN cửu SINH HỌC 139
Hước 6: Càn cứ cột hạng vừa có ớ bước 5, ghi Họng vào các giá trị m; >11 rua lao lập ố‘ bưỏc l tại cột xép hạng bàng hàm Vlookup. Tính ti*Uì£ lì.um b:\ng hàm S u m chí» mồi mau
Kiểm tra kết quả xếp hạng theo y Rt = -n - n — - , nếu kết qua đúng
chuyển sang bước 7
Bước 7; Tính tổng hạng H theo công thức 5.31, so sánh vói x l K)S.
T ru ỏ c hết cần tính các đại lượng trung gian gồm R“i, (R'./n,), tổng của
tromg đó n = ^ n , tống kích thước mẫu quan sát ;
Trong trường hợp nếu các trị sô" có nhiều lần lặp lại ta có thể điều chỉnh theo công thức sau:
Trang 35140 ỨNG DỤNG TIN HỌC TRONG SINH HOC
1 2
Trong trường hợp không đòi hỏi độ chính xác cao và sô" trị số’ có lần lặp lại không nhiều thì việc điều chỉnh theo công thức (Õ.32) có thể không cần đặt ra
V í d ụ: Phân tích hàm lượng mùn từ các mẫu của 3 lô đát thí nghiệm được thu thập tại rừng Cúc Phương (mẫu 1 ), rừng Bến En (mẫu 2) và vưòn Quốc gia Ba Vì (mẫu 3) kết quả được cho trong bảng 5.14 Háy kiểm tra sự thuần nhát của hàm lượng mùn trong 3 lô đất này
B á n g 5.1 4 : Hàm lư ợ ng m ù n (m g/1g đất) tro n g 3 lô th i nghiệm
Phương sai của mẫu 1: 1.11194; mẫu 2: 2.055; mẫu 3:1.816944
Dùng phương pháp xêp hạng theo trình tự 6 bưổc trên cho trường hợp 3 mẫu ta có bảng 5.14 Kiêm tra tống hạng của 3 lò đất (i chạy từ 1
đến 3) = 378 Mạt khác tính trung bình của tích tổng n được
i=l
-t-11 - 378 Như vậv quá trình xếp hạng là đúng
Trang 36Từ kết quả trên và theo công thức (5.31) ta tính được:
II = io.:j:wr>i
xổ 05 = 5.99
H tinh được lớn hơn Xo0 5» giá thiết II,, bị bác bỏ Ta nói rằng hàm lượng mùn ỏ các mau thí nghiộm là cỏ sự khác nhau đáng kẻ Từ gió trị trung bình của mỗi mẩu, chứng tỏ mẫu 3 cỏ hàm lượng mùn là cao nhất (X.J = 16,12, phương sai =1.816944)
Nếu điều chỉnh theo công thức (5.32) ta được H' vẫn lổn hơn Xo 0 5* K»t luận của ta khòng có gì thay đối
Chương 5 xử LÝ THÒNG KẺ số LIỆU NGHIÊN cứu SINH HOC _141
5.2 ?./ Khải niệm vê các mầu liên hệ
Ví dụ trong việc xác định thể tích của cây hoậc của con vặt, ngưòi ta muôn thay thê phương pháp "Giai tích thân" băng phương pháp "Tiết diện ngang trung bình" dựa vào sự so sánh giữa hai trị sô" vê thế tích được xác định bằng hai phương pháp nói trên trên cùng một cây, một con vật, xem sự chênh lệch có rõ rệt hay không Nêu sự chênh lệch
Trang 37142 ỨNG DỤNG TIN HỌC TRONG SINH HỌC
không rõ ràng thì ngưòi ta có thể thay thế phương pháp Giải tích bằng phương pháp Tiết diện ngang trung bình vì phương pháp này giản đòn hơn, cây gỗ không phải "cưa" ra từng đoạn như phương pháp Giải tích Tất nhiên chỉ nên dừng ỏ những trường hợp yêu cầu độ chính xác không cao
Cách bô" trí thí nghiệm như trên gọi là bỏ" trí thí nghiệm cặp đôi Những kết quả quan sát ớ phương pháp thứ nhất và ỏ phương pháp thử hai có liên hệ nhau vì cùng đo trên một cây, những yếu tó như đường kính, chiểu cao và hình dạng đêu có ảnh hướng như nhau đến kết quả
đó Chỉ có một yêu tô" đưa đến sự khác nhau giữa các cây theo các yếu tõ nói trên
Người ta cũng có thể dựa vào phương pháp trên để có thể bò' trí các thí nghiệm theo các mục đích cụ thê của nghiên cứu Sinh, Y, Nông, Lâm nghiệp ỏ nhiều địa phương khác nhau, nhưng ở tại một địa phương nào
đó thì các thí nghiệm (các công thức nghiên cứu) đều chịu ảnh hương như nhau về điều kiện đạt đai và điều kiện khí hậu, v.v Những mẫu quan sát được cáu tạo như trên gọi là mẫu liên hệ
Ở mục này trưốc tiên trình bày hai mẫu liên hệ (hay còn gọi là thi nghiệm cặp đỏi) và sau cùng trình bày một vài tiêu chuẩn dành chc nhiều mẫu liên hệ
5.2.3.2 Trường hợp 2 máu liên hệ
Giả sử ta có hai mẫu quan sát X và Y theo hai mẫu liên hệ như V
dụ sau:
V í d ụ : Thí nghiệm nuôi dưông 26 con thỏ ơ 2 chê độ nuôi đường khái nhau, kết quả trọng lượng tăng trung bình của mỗi một con thó th nghiệm được trình bày trong bảng 5.16 Mô hình thí nghiệm là nuô trong giai đoạn sinh trưởng nhất định của thỏ, hai chê độ nuôi dườnị cách nhau một khoang thòi gian đủ để đă hêt tác dụng của chê độ nuỏ dưỡng trước (giả sử mỗi chế độ nuôi 2 tuần, 2 tuần xen kẽ nuôi dưỡnị bình thường)
Kết quả từ bảng 5.16 về hiệu sỏ" trọng lượng tăng trung bình giữi hai chế độ của cùng một con thỏ ta thấy có nhiêu dấu (*) hơn là dấu (+) Củng tức là đại đa sô" vật thí nghiệm ỏ chế độ nuôi dưỡng 2 đã tồnỊ trọng lượng, tuy vậy có một sô" lại giảm trọng lượng Nhưng để có ké
Trang 38Chương 5 xử LÝ THỖNG KẺ só LIÊU NGHIÊN cứu SINH HỌC 143
luận một cách có căn cứ người ta cần dùng một sô" tiêu chuấn thông kô (lê kiểm tra
B á n g 5 1 6 : Kết quả tâng trọ n g của các con vật thí nghiệm ò 2 chế đô nuôi dưỡng
Trang 39144 ỬNG DỤNG TIN HOC TRONG SINK HOCSau đây là hai tiêu chuẩn cần dùng:
a) Tiêu ch u ẩ n t của S tu d c n t
Người ta giá thiết H0: |ix = f.t v; H!: (.1 x Ịt p v
Nêu giả thiết H(, là đúng và d = Xị - x 2 (X! là trung bình của miu 1
x2 là trung bình của mẫu 2 ) có phân bô"chuẩn thì đại lượng
Có phản bô” t vỏi k = n- 1 bậc tự do Trong đó s a là đô lệch tiêu ciuẩn của dãy quan sát d Nếu tính toán theo công thức mà |t| > t0 0 6 th giảthiết H0 bị bác bỏ Ngược lại H() được chấp nhận
Việc kiểm tra giả thiết II, trong trường hợp này cũng thực hiệr gần
tương tự như kiểm tra sai khác hai trung bình mẫu trong trường lợp 2
mẫu độc lập (xem phương pháp tính 5.2 mục 5.2.2.2)
3 F in ish và cho kết quả
Như ví dụ trên cho ta xác suất p = 0.2916531 > 0.05
Như vậy có nghĩa là trọng lượng trung bình của 26 con vệt thí nghiệm ỏ 2 chế độ nuôi dưõng chưa khác nhau một cách có ý nglĩa vì xác suất tính toán ở trên lớn hơn 0.05 rất nhiều Kết hợp PFTỗ.2, PPT5.4 và PPT5.7 ta có bảng tóm tắt khai báo dãy Type như sau:
B ảng tó m tắt giá tr ị khai bảo T yp e tro n g hàm T -te s t của f,
Ngoài việc dùng hàm f, như trên ta có thể dùng Tools/ D ata a n tly sis
như sau:
Trang 40• PhưtrrtỊi phúpiíìĩh 5.8 (PPĨ'5.8)
Bưỏc 1: Lây thực đơn Tools / D ata analysis.
Bưỏc 2 : chọn T -te st: P a ir e d T w o Sample fo r M e a n s
Bước 3: Khai báo số liệu mẫu 1 vào khung V ariable 1 range.
Bước 4: Khai báo sô" liệu mẫu 2 vào khung V ariable ‘2 range.
Bưóc õ: Khung H ypothesized M ean D iffirence ghi 0 (giả thiết
Báng 5.17: Kiểm tra biến sai hai trung binh mẫu trong trường họp mẫu liên hệ
T-test: Paired Two Sample for Means