• Cung cấp và kỹ năng ñể thiết kế và phân tích và trình bày kết quả thí nghiệm trong lĩnh vực môi trường • Giúp người học phân tích mối liên hệ , thiết lập các mô hình thực nghiệm từ số
Trang 11Biên soạn: TS.GVC.Chế Đình Lý
Trang 2• Cung cấp và kỹ năng ñể thiết kế và phân tích và trình
bày kết quả thí nghiệm trong lĩnh vực môi trường
• Giúp người học phân tích mối liên hệ , thiết lập các mô hình thực nghiệm từ số liệu ñiều tra khảo sát
• Rèn luyện kỹ năng sử dụng phần mềm thống kê phổ
thông nhất trong việc giải quyết xử lý và trình bày số liệu
Trang 3Nội dung môn học
1 Giới thiệu môn học, khái niệm cơ bản XLDL ,
2 Giới thiệu phần mềm xử lý thống kê STATGRAPHICS
3 Xử lý dữ liệu ñiều tra khảo sát - Thống kê mô tả
4 Lấy mẫu thăm dò, ước lượng, trắc nghiệm giả thiết
ứng dụng trong môi trường
5 Thiết kế thí nghiệm một yếu tố – phân tích ANOVA
trong lĩnh vực môi trường tài nguyên
6 Thiết kế thí nghiệm hai yếu tố trong lĩnh vực môi
trường tài nguyên
7 Phương pháp hồi qui tuyến tính ñơn tố và ña tố ứng
dụng trong nghiên cứu môi trường
tối ưu
9 Phương pháp nắn mô phỏng và dự báo xử lý dữ liệu
quan trắc môi trường
Trang 4Bài 1 Đặc trưng của dữ liệu môi trường, thống
kê học và các khái niệm cơ bản
1 Sự cần thiết xử lý dữ liệu môi trường
2 Các ñặc trưng của dữ liệu môi trường
3 Thống kê học và các khái niệm cơ bản
Trang 61 Lập file dữ liệu , tạo biến số và các thao tác khác
2 Tình tóan các chỉ tiêu thống kê và vẽ ñồ thị
3 Chỉ tiêu thống kê
4 Bảng tần suất, codebook
5 Cách biến ñổi biến số
6 Bài tập (nộp file
Trang 71 Ý nghĩa của lấy mẫu và ước lượng và trắc nghiệm giả
thiết thống kê trong lĩnh vực môi trường tài nguyên
2 Các khái niệm cơ bản
3 Cỡ mẫu trong ước lượng kết quả khảo sát từ lấy mẫu
4 Nguyên lý, khái niệm trắc nghiệm giả thiết
5 Thực hành xử lý ước lượng và trắc nghiệm thống kê
trong STATGRAPHICS6) Các kỹ thuật kiểm tra tính chuẩn của phân bố dữ kiện
mẫu thăm dò
Trang 81) Nhu cầu ứng dụng phân tích ANOVA trong lĩnh vực môitrường tài nguyên
2) Nguyên lý, khái niệm cơ bản trong thiết kế thí nghiệm
3) Các giai ñoạn thực hiện thí nghiệm
4) Cơ sở lý thuyết của phân tích biến lượng
Trang 91) Tổng quan về phân tích biến lượng ANOVA trong
STATGRAPHICS
2) Thiết kế thí nghiệm một yếu tố
3) Thực hành xử lý dữ liệu thí nghiệm một yếu tố
4) Thiết kế thí nghiệm hai yếu tố
5) Thực hành xử lý dữ liệu thí nghiệm hai yếu tố
Trang 101 Nhu cầu ứng dụng phương pháp hồi qui trong lĩnh vực môi
trường tài nguyên
2 Các khái niệm cơ bản về hồi qui tương quan
3 Các phương pháp phân tích hồi qui tương quan
3.1) Hồi qui tuyến tính ñơn giản (Simple regression)
3.2) Phương pháp lọai trừ trị bất thường trong hồi qui tuyến
tính ñơn giản
3.3) Hồi qui tuyến tính ña biến (Multiple regression)
4 Lập báo cáo phân tích hồi qui
Bài luyện tập
Trang 111 Phương pháp chọn biến từng bước (stepwise variable
selection)
2 Phương pháp chọn lựa mô hình tuyến tính ña tố tối ưu
3 Phương pháp chuyển ñổi hồi qui phi tuyến tính thành
tuyến tính
4 Bài luyện tập
Trang 121 Nhu cầu ứng dụng phương pháp nắn mô phỏng và dự báo
trong lĩnh vực môi trường tài nguyên
2 Khái niệm cơ bản của nắn mô phỏng và dự báo
3 Công cụ xử lý dữ liệu quan trắc môi trường
3.1) Nắn mô phỏng theo hàm mũ Brown (Brown’s exponential smoothing)
3.2) Nắn mô phỏng theo hàm mũ tuyến tính Holt (Holt’s linear exponential smoothing)
3.3) Nắn mô phỏng dữ liệu theo mùa theo phương pháp Winter WINTER’S SEASONAL SMOOTHING
3.4) Phân tích chiều hướng (trend analysis)
3.5) Nắn dữ liệu quan trắc theo hàm ña thức (polynomial
smoothing)
4 Bài tập thực hành
Trang 13Environmental StatisticsDescriptive statistics ; Inference sattistics
Sampling; statistical hypothese
Regression analysisForecasting, data smoothing
Trang 14MÔI TRƯỜNG, THỐNG KÊ
CƠ BẢN
1) Sự cần thiết xử lý dữ liệu môi trường
2) Đặc trưng của dữ liệu môi trường
3) Thống kê và các khái niệm cơ bản
Trang 16trường, cung cấp số liệu tổng hợp trung bình hay cực trịcủa các ñiều kiện môi trường
n Quan trắc hay mô tả hiện trạng các chỉ thị môi trường
nước, ñất, không khí, sinh học… mô tả sự phát thải ô
Trang 17n Thiết kế thí nghiệm ñể tìm công nghệ xử lý thích hợp, cácthông số tối ưu của công nghệ (thời gian, nồng ñộ, lọai côngnghệ .)
n Suy diễn về quy luật liên hệ giữa các yếu tố môi trường, ñể
ñể phân tích biến vào – biến ra, luồng vật liệu trong nghiên
Trang 18Phân tíùch hồi qui vàtương quan (Regression and corelation analysis)
4 Mối liên hệvàtác động qua lại giữa
các yếu tốtrong cùng dân số, Dự
đoán mối liên hệgiữa các yếu tố
thông quan liên hệtương quan
Các phương pháp thống kêmôtả, Lý thuyết thăm dò, ứớc lượng vàtrắc nghiệm giảthuyết thống kê
(Sampling theory, estimation theory, statistical hypothese test, decision theory )
3 Điều tra các yếu tốvật lý, hóa học,
sinh học của môi trường phục đánh
giátác động của môi trường, đánh
giáhiệu quảcủa một biẹn pháp xử
lýmôi trường.
Phân tích chuổi thời gian (Time series analysis, Forecasting, Smoothing)
2 Phân tích diển biến môi trường qua
thời gian, dự báo mức độônhiễm
dựa trên phân tích chuổi sốliệu theo
thời gian,
Phân tích biến lượng vàtrắc nghiệm thống kê, (Analysis of variance, statistical hypothese test)
1 Bốtrí thí nghiệm xửlýmôi trường
Công cụ xử lý chủyếu Loại vấn đề
Trang 192 Các ñặc trưng của dữ liệu
môi trường
Trang 20phải chịu các kiểu bất ổn ñịnh khác nhau
từ nơi này ñến nới khác Vài yếu tố gây ra biến thiên
là:
trường gây ra bởi ñịa hình, thủy văn, khí tượng, thủytriều và các cơ chế tái phân bố về lý hóa sinh của hệsinh thái
Trang 21các thông số theo thời gian
Sự gia tăng hay giảm thiểu của chất ô nhiễm theo thời gian
Đo lường chệch và không chắc chắn, sai số, lỗi lúc thu thập
mẫu , phân tích tại phòng thí nghiệm , sự rút gọn số liệu, phân
Trang 22n Giới hạn thấp hơn số o Không thể có trị số âm
n Sự hiện diện của các trị bất thường “outliers”, ñặc biệt là ởphía trị số lớn
n Bị can thiệp – dữ liệu ñược báo cáo dưới vài giới hạn giám sát(vì lý do chính trị)
n Có ñặc tính theo mùa – thay ñổi theo mùa
tiếp theo trị cao)
n Cở mẫu nhỏ vì lý do chi phí
Trang 23Các trị bất thường là các số quan sát thu thập ñược có trịcách xa rất nhiều so với trị thật của dữ liệu Chúng là các
sự kiện hiếm
Nếu khoảng cách từ trị quan sát ñến hộp vượt qua 1,5
lần phạm vi liên quảng phần tư (theo bất kỳ hướng nào ) thì trị trị quan sát ñó có thể ñược gọi là trị bất thường
Trang 24n Các phương pháp phân tích dữ liệu môi
trường , dù là các phương pháp ñơn giản hay các qui trình phức tạp, cần nhận biết các ñặc trưng này.
Trang 25n C ác ñặc trưng trưng của dữ liệu phải ñược xem xé t trư trước khi
chúng ñược phân t ích
n Các giả thiết sai liên quan ñến dữ liệu có thể dẫn tới:
n Các kết luận sai
n Sự diễn ñạt sai
n Các ñặc trưng của dữ liệu sẽ qui ñịnh các qui trình phântích dữ liệu tương ứng (ngược với việc làm cho dữ liệu phùhợp với qui trình)
Trang 26tư vị Kiểu phân bố, xác xuất, ñồ thị hộp
n Các trị số phân vị thường là phản ảnh số liệu tốt hơn các trịthống kê cổ ñiển: dùng trung vị ñể biểu thị trị bình quân
n Ví dụ: trung vị, phạm vi liên quảng phần tư, ñồ thị hộp thìphản ảnh số liệu tốt hơn trị trung bình, ñộ lệch chuẩn, giản
ñồ tần suất
Trang 2727 J.P Hornak, 1051-501, 2004
3 Thống kê học và các khái
niệm cơ bản
Trang 28thập , tổ chức , diễn ñạt , phân tích và trình bày dữ liệu môi
dữ liệu và thiết kế thí nghiệm
lý dữ liệu và cung cấp các ví dụ thực hành , không ñi sâu vào
lý thuyết thống kê
Trang 30lượng và trắc nghiệm giảthiết về các ñặc trưng củanhóm phân tử lớn hơn
(tập hợp toàn thể)
Trang 31n Thống kê c ó thông số
với phân bố chuẩn (normal
giả thiết và suy diễn về các
thể từ các trị thống kê của
mẫu
n Thống kê phi thông số
thiết của thống kê có thông số
tính tỉ lệ ñược)
n Dữ liệu ñược ño theo cách ñịnh
(tốt, trung bình, xấu)
Trang 32•Loại dữ liệu MT: có hai loại
(1) không phụ thuộc thời gian (dữ liệu khảo sát theo
yêu cầu)
(2) Quan trắc theo thời gian (time series)
Kiểu dữ liệu:
Định lượng: (chiều cao, trọng lượng, hàm lượng .)
+ có phân theo lớp (interval) - Vd qui mô nhà máy + tính theo tỉ lệ (ratio) - Vd Tỉ lệ mắc bệnh
Định tính (nghề nghiệp, vị trí, chủng loại, nhóm, lớp .)
+ ñịnh loại (nominal) - giới tính (nam, nữ)
+ phân thứ tự (ordinal) - Vd Lớn, TB, nhỏ
Trang 33Nguồn gốc dữ liệu MT: có hai loại
(1) Quan sát (không chịu sự kiểm sóat của người thu thậpphân tích)
(2) Thí nghiệm (ñược thiết kế ñể nghiên cứu nông nghiệp, y khoa, môi trường ), thu thập trong ñiều kiện có kiểm soát
tiến trình tạo ra dữ liệu
• Tổng hợp dữ liệu và mô hình hóa dữ liệu
- Tổng hợp: mô tả dữ liệu và gợi ra sự liên hệ ñến mô hình (mô hình hóa).
• Hai mục ñích của mô hình hóa: Nhận thức quy luật và
dự báo.
•Tầm quan trọng của vẽ ñồ thị dữ liệu: là việc ñầu tiên
và cuối cùng mà nhà phân tích cần làm
Trang 34n Tập hợp toà n thể ( Population ( universe) )
thu thập dữ liệu
n Vd: Tập hợp dữ kiện về tải lượng nước thải của tất cả các
lượng thú, tỉ lệ cây nhiểm bệnh trên 1 m2 ñồng ruộng .là các tập hợp toàn thể
Trang 35Phân bố c ủa Tập hợp toàn th ể
Tập hợp toàn thể là một tập hợp rất lớn các ñơn vị thống kê
phân bố xác xuất lý thuyết (distribution) và các thông số
Phân bố là một hình thức biểu thị sự sắp xếp dữ kiện của tập
và xác ñịnh số cá thể (tần suất tuyệt ñối) hay tỉ lệ cá thể
Phân bố tần suất tuyệt ñối hay tương ñối có thể trình bày dưới
Trang 36n Tìm ñược từ dữ liệu của mẫu
Trang 37n Đơn vị: (unit) ñối tượng cụ thể ñể ño ñếm và thu thập dữ kiện Một mẫu thăm dò sẽ có nhiều ñơn vị.
các ñơn vị thống kê
n Cở mẫu (sample size): còn gọi là dung lượng mẫu
là số ñơn vị cần ño ñếm trong một cuộc thăm dò.)
Trang 38Phân bố tần suất
0 2 4 6 8 10 12 14 16
Trung bình
3.3 Khái niệm cơ bản trong thống kê [5]
Trang 39w Nghiên cứu ñ ñi i ều tra - khảo sát MT
(sampling)
n Cho các thông tin về hiện trạng
w Nghiên cứu qua thí nghiệm MT
một hay vài yếu tố, các yếu tố còn lại giữ giống nhau
(experiment)
n Giúp tìm ra ñiều kiện tối ưu
Trang 40n Vì lý do chi phí, không thểth tìm thông tin trên toàn
trên sông ñể phân tích
n Vì lý do thời gian, không thể tìm thông tin trên toàn
trên tất cả ñộng vật
n Khi thu thập, có thể hủy hoại ñối tượng nghiên cứu,
vì vậy không thể thực hiện trên tập hợp toàn thể
Trang 41C á c ki ể u l ấ y m ẫ u
n Lấy m ẫu ngẫu nhiên ñơ ñơn n giản ( Simple Random
Sample)
Vd: Bằng c ách gán số, bắt th thămăm hay bảng số ngẫu nhiên
n Lấy m ẫu phân theo lớp ( Stratified Sample)
Vd: Chia ra c ác nhóm ( Lớn, TB, nhỏ), lấy ngẫu nhiên trong
từng nhóm
n Lấy m ẫu nhiều giai ñ ño o ạn ( Multistage Sampling)
Vd: Giai ññooạn 1, lấy theo giới t í nh, giai ññooạn 2 lấy mẫu theo lớp, giai ññooạn 5 lấy ngẫu nhiên trong từng lớp
n Lấy m ẫu ñ ñi i ển hình ( Convenience Sampling)
Lấy theo chủ quan , tiện lợi cho việc lấy mẫu và mục ñích
nghiên cứu ( lấy mẫu ở cửa cống xã)
n Lấy m ẫu có hệ thống
Vd, qui ước 2 km lấy một mẫu trên sông, hay 10 xí nghiệp thì chọn 1 trong danh s ách
Trang 42Khá i ni ệ m v ề thí nghi ệ m
n Các y u tố thí nghiệm(factors): là biến lý giải – là
(Treatment)
V í dụ, thí nghiệm t ìm nồng ñộ hóa chất xúc t ác tối ưưuu trong xử lý n nưước Nồng ñộ hóa chất là yếu tố thí
nghiệm
n Bậc thí nghiệm (levels) : Các trị cụ thể của mỗi
n V í dụ: sử dụng 5 bậc : 0, 5, 10, 15, 20 mg/ L í
Trang 43Y ế u t ố v à b ậ c thí nghi ệ m
n Ví dụ: Thí nghiệm tìm thời gian xử lý tối ưu và nộng ñộ
Không xúc tác
Xúc tác
10 mg/ lít
Xúc tác 20 mg/ lít
X ử lý 1 gi ờ Nhóm I Nhóm I I Nhóm I I I
X ử lý trong 2
gi ờ
Nhóm I V Nhóm V Nhóm VI
Yếu tố: Thời gian xử lý? Nồng ñộ xúc tác?
Bậc: thời gian 1, 2 giờ và nồng ñộ 0, 10, 20 mg/l
Trang 44XL 1 gi ờ , Không XT
So sánhhiệuquả
xử lý
XL 1 gi ờ , XT 2 0 mg/ l
XL 2 gi ờ , Không XT
XL 2 gi ờ , XT 1 0 mg/ l
XL 2 gi ờ , XT 2 0 mg/ l
Trang 45n Kiểm soát các tác ñộng của các biến ẩn ñến sự ñáp
n Ngẫu nhiên—Sử dụng các cơ hội khách quan ñể gán
biến thiên trong kết quả ( Lặp lại)
n Dữ liệu thô
n Các dữ liệu thống kê ñược thu thập trước khi xử lý hay
xếp ñặt theo thứ tự gọi là dữ liệu thô
n Dữ liệu thứ cấp
thập trực tiếp từ hiện trường
Trang 46Rất nhiều
Trang 47§ là các nhãn hay tên g i các loại, lớp hay nhóm ñể thể
Trang 48§ Dùng v dữ liệu ñịnh tính
§ Trên trục ngang , xác ñịnh nhãn cho mỗi loại, lớp
§ Tần suất, tần suất tương ñối (hay % tần suất) thể hiện trên
trục ñứng
của mỗi loại, lớp Chiều cao tùy theo tần suất
Trang 50Xi mạ Nhuộm Dệt
Điểm trị 0
Tần suất Ngành
% cũng ñược dùng
Trang 51§ Vẽ vòng tròn , dùng tần suất tương ñối chia vòng
§Các phần mềm vẽ tự ñộng theo số liệu
Trang 52Tỉ lệ các loại doanh ngiệp
C 40%
D 20%
A 15%
B 25%
Loại DN
Trang 53Displays)
§ Sơ ñồ ñiểm (Dot Plots)
§ Phân bố tần suất
§ Giản ñồ cột phân bố tần suất (Histograms)
Trang 54S ơ
S ơ ñồ thân và lá ( Stem - and- Leaf Displays)
§ Chia m i trịtr quan sát của tập hợp dữ kiện thành 2 phần:
phần trị “thân” và phần trị “
§ Liệt kê các trị “thân” trong một cột , bắt ñầu với trị nhỏ
nhất và kết thúc với trị lớn nhất ñể xác ñịnh các “lớp”
§ Lần lượt ghi các trị “lá” của từng trị quan sát vào dòng
§ Số ñếm của các trị “lá” sẽ cho biết tần suất của phần trị
“thân”, Liệt kê số ñếm này cho mỗi dòng trị “thân”
§ Các phần mềm sẽ liệt kê tự ñộng Thân và Lá cho một tập
dữ kiện
Trang 56S ơ
S ơ ñồ ñi ñ i ể m ( Dot Plot)
Trang 57Các phương pháp ñồ thị cho dữ liệu môi trường ñịnh lượng
(hay số lần xuất hiện) (số phần tử quan sát ) có trong từng lớp
của nhiều lớp dữ liệu khác biệt nhau
4 Xác ñịnh cận dưới và trên của lớp (limits)
Trang 58§ các lớp phải bao hàm tất cả dữ liệu cần thể hiện
§ Tập dự liệu lớn nhiều ñơn vị thường cần số lớp nhiều hơn
§ Tập dữ liệu nhỏ, ít ñơn vị thường cần số lớp ít hơn
§ Khi chia lớp cần chọn giới hạn dưới, giới hạn trên, trị giữa
của lớp
Trang 60Các phương pháp ñồ thị cho dữ liệu môi trường ñịnh lượng
Giới hạn Tần suất Tần suất
Trang 61Các phương pháp ñồ thị cho dữ liệu môi trường ñịnh lượng
Trang 62Các phương pháp ñồ thị cho dữ liệu môi trường ñịnh lượng
Là ph ng pháp thống kê chuẩn ñể trình bày bảng phân bố tầnsuất
0 1 2 3 4
5 Tần suất
Trang 633.5 Ca ù c phương pha ù số cho dữ lie ä u định l ượ ng
Dữliệu định lượng Đặc tính
Trung bì nh Trung vị Mố t
Chiều hướng
Tập trung
Pha ï m vi Biế n lượ ng Sai tiêu chua å n
Sự biến thiên
Độ le ä ch
D ng phân b
Trang 643.5.1) Trung bình (Mean)
4 Chịu ảnh hưởng bởi các trị bất thường (‘outliers’),
n
X
X n
Trang 65i i
Trang 66Chiều hướng
Tập trung
Pha ï m vi Biế n lượ ng Sai tiêu chua å n
Sự biến thiên
Độ le ä ch
D ạ ng phân b ố
Trang 67n 2 Là trị ñứng giữa khi dữ liệu xếp thứ tự
n Nếu n lẻ, Trung vị là trị ñứng giữa
n Nếu n chẵn n, Trung vị là trung bình của 2 trị ñứnggiữa
n Không bị tác ñộng của các trị bất thường (outliers)
Trang 69Ví dụ về Trung vị Mẫu có n chẳn
Trang 703.5 Ca ù c ph ư ơng pha ù so á cho d ư õ lie ä u đ ịnh lư ơ ï ng
Dữliệu định lượng Đặc tính
Sự biến thiên
Độ le ä ch
Dạng
Trang 712 Là trị xuất hiện nhiều lần nhất
3 Không bị tác ñộng bởi trị bất thường
Trang 73Trung bình Σ Xi / n Điểm cân bằng
Trung vị ( n +1)
Vị trí 2 Giá khi trị xếp ở thứ giữa tụ Mốt Không có Trị có tần suất lớn nhất
Trang 743.5 Ca ù c ph ư ơng pha ù so á cho d ư õ lie ä u đ ịnh lư ơ ï ng
Dữliệu định lượng Đặc tính
Sự biến thiên
Độ le ä ch
Dạng
Trang 75n 2 Là sai biệt giữa số quan sát lớn nhất và nhỏ nhất
7 8 9 10 7 8 9 10
L ớ n nh ấ t Nh ỏ nh ấ t
Trang 763.5.5) Các quảng phần tư (Quatrtiles)
• Chia dữ liệu sau khi ñã xếp thứ tự thành 4 quảng
• Vị trí của quảng thứ i
Trang 773.5.6)Đồ thị hộp và râu (Box and Wisker)
Sự thể hiện các quảng phần tư, phạm vi của tập
Trang 78• Đo sự biến thiên
• Được xem như ño ñộ phân tán ở giữa dãy dữ
Trang 79Chiều hướng Tập trung
Phạm vi
Biến lượng Sai tiêu chuẩn
Độ biến thiên
Độ nhọn
Hình dạng Phân bố
Trang 80n 1 Đo ñộ phân tán
n 2 Là số ño phổ biến nhất
4 6 8 10 12
X = 8.3
Trang 83i i
n
i i
Trang 84i i
n
i i
Trang 85n Độ lệch tiêu chuẩn của mẫu
n
i i
1 1114 . 3 . 34
Trang 86Biến lượng
(Của mẫu) Σ(X i - X )2
n - 1
Bình phương phân tán về trung bình mẫu