TÓM TẮT Ở nghiên cứu này, các phương pháp phân tích thống kê đa biến như phân tích thành phần chính PCA và phân tích cụm CA được ứng dụng cho việc xác định sự biến thiên về không gian củ
Trang 1MỤC LỤC
TÓM TẮT 1
MỞ ĐẦU 2
1 TÍNH CẤP THIẾT CỦA ĐỒ ÁN TỐT NGHIỆP 2
2 MỤC TIÊU CỦA ĐỒ ÁN TỐT NGHIỆP 3
3 NỘI DUNG VÀ PHẠM VI NGHIÊN CỨU 3
4 PHƯƠNG PHÁP NGHIÊN CỨU 6
CHƯƠNG 1 TỔNG QUAN 7
1.1 TỔNG QUAN CÁC NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC 7
1.1.1 Tổng quan tình hình nghiên cứu ngoài nước 7
1.1.2 Tổng quan tình hình nghiên cứu trong nước 10
1.1.3 Nhận xét chung 11
1.2 GIỚI THIỆU KHU VỰC NGHIÊN CỨU 12
1.2.1 Điều kiện tự nhiên 12
1.2.2 Điều kiện kinh tế - xã hội 13
1.2.3 Đặc điểm địa chất thủy văn 15
1.2.4 Đặc điểm địa chất thủy văn, địa chất khu vực 16
CHƯƠNG 2 PHƯƠNG PHÁP NGHIÊN CỨU 24
2.1 PHƯƠNG PHÁP THU THẬP, THAM KHẢO VÀ TỔNG QUAN TÀI LIỆU 24 2.2 PHƯƠNG PHÁP PHÂN TÍCH THỐNG KÊ 25
2.2.1 Biểu diễn biểu đồ Piper 25
2.2.2 Cân bằng Ion 26
2.2.3 Phân tích thành phần chính (PCA) 26
2.2.4 Phương pháp phân tích cụm (CA) 33
CHƯƠNG 3 KẾT QUẢ VÀ THẢO LUẬN 42
3.1 DIỄN BIẾN CHẤT LƯỢNG NƯỚC DƯỚI ĐẤT KHU VỰC NGHIÊN CỨU 42
3.1.1 Điều kiện phân tích thống kê của bộ dữ liệu quan trắc 42
3.1.2 Các nhân tố chính ảnh hưởng đến chất lượng nước khu vực nghiên cứu 42
3.1.3 Sự phân bố dữ liệu các giếng quan trắc khu vực nghiên cứu 48
3.2 CÁC CỤM GIẾNG THỂ HIỆN ĐẶC TRƯNG CHẤT LƯỢNG NƯỚC DƯỚI ĐẤT KHU VỰC NGHIÊN CỨU 51
KẾT LUẬN VÀ KIẾN NGHỊ 55
Trang 21 KẾT LUẬN 55
2 KIẾN NGHỊ 55
TÀI LIỆU THAM KHẢO 57
PHỤ LỤC 59
Trang 3DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT
Kinh tế - Xã hội
Lỗ khoan Low Pollutant Middle Pollutant Multivariate Statistics Analysis Đạm-Lân-Kali
Principle Component Analysis Polyvinylclorua
Trung bình Total dissolved solids
Ủy ban nhân dân
Trang 4DANH MỤC BẢNG BIỂU
Bảng 1.1 Đặc điểm các giếng quan trắc tầng Pleistocen trên 17
Bảng 1.2 Đặc điểm giếng quan trắc tầng Pleistocen giữa-trên (qp2-3) 19
Bảng 1.3 Đặc điểm giếng quan trắc tầng Pleistocen dưới (qp1) 22
Bảng 2.1 Ví dụ về Eigenvalue từ PCA 29
Bảng 2.2 Ví dụ về mối tương quan giữa các biến và thành phần chính 32
Bảng 2.3 Sơ đồ tích tụ cụm 38
Bảng 3.1 Kết quả phân tích cân bằng ion 42
Bảng 3.2 Ma trận tương quan các thông số chất lượng nước dưới đất mùa khô năm 2012 43
Bảng 3.3 Ý nghĩa hệ số tương quan 44
Bảng 3.4 Tổng phương sai giải thích nhân tố 44
Bảng 3.5 Rút trích thành phần chính đại diện cho bộ dữ liệu 46
Bảng 3.6 Hàm lượng trung bình các thông số qua các tầng chứa nước đặc trưng 48
Bảng 3.7 Bảng giá trị trung bình thông số các giếng quan trắc mùa khô 52
Trang 5DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1 Sơ đồ nghiên cứu 4
Hình 2 Sơ đồ vị trí huyện Tân Thành, tỉnh Bà Rịa-Vũng Tàu 6
Hình 1.1 Mặt cắt tầng Pleistocen trên (qp3) 17
Hình 1.2 Mặt cắt tầng Pleistocen giữa-trên (qp2-3) 19
Hình 1.3 Mặt cắt tầng Pleistocen dưới (qp1) 22
Hình 2.1 Biểu đồ tam giác Piper 25
Hình 2.2 Biểu đồ Scree của eigienvalues 31
Hình 2.3 Ví dụ về khoảng cách Euclid giữa hai đối tượng theo hai biến X và Y 34
Hình 2.4 Ví dụ phương pháp phân tích cụm tích tụ dựa vào khoảng cách liên kết 37
Hình 2.5 Ví dụ phân tích cụm tích tụ dựa vào phương sai và dựa vào khoảng cách trung tâm 37
Hình 2.6 Sơ đồ hình cây trong phân tích cụm 39
Hình 3.1 Biểu đồ dốc rút trích nhân tố 45
Hình 3.2 Biểu đồ phân bố xu hướng các ion chính trong tầng chứa nước 49
Hình 3.3 Diễn biến Cl-, SO42-, Na+ và TDS mùa khô năm 2012 50
Hình 3.4 Sơ đồ phân bố giếng quan trắc theo không gian 51
Hình 3.5 Biểu đồ phân tích cụm mùa khô năm 2012 52
Trang 6TÓM TẮT
Ở nghiên cứu này, các phương pháp phân tích thống kê đa biến như phân tích thành phần chính (PCA) và phân tích cụm (CA) được ứng dụng cho việc xác định sự biến thiên về không gian của chất lượng nước dưới đất huyện Tân Thành, tỉnh Bà Rịa – Vũng Tàu Các mẫu nước dưới đất được thu thập từ 18 giếng quan trắc vào tháng 4 (mùa khô) trong năm 2012 Mười lăm thông số chất lượng nước (pH, độ cứng, TDS,
Cl-, F-, NO3-, SO42-, Cr6+, Cu2+, Ca2+, Mg2+, Na+, K+, HCO3- and Fe2+) được lựa chọn
để tiến hành phân tích thống kê đa biến
PCA xác định được 3 thành phần chính ảnh hưởng đến chất lượng nước dưới đất với sự thay đổi theo mùa Ba thành phần chính gồm yếu tố nhiễm mặn, hoạt động nhân sinh và sự tương tác của các thành phần thạch học đã giải thích được 79,244% biến thiên phương sai của tập mẫu Phân tích cụm (CA) chỉ ra 3 nhóm khác nhau với
sự đồng nhất trong nội bộ từng cụm
Nghiên cứu này thực sự rất cần thiết và hữu dụng khi xử lí một lượng lớn tập
dữ liệu quan trắc phức tạp nhằm đạt được những thông tin đơn giản mà hiệu quả hơn trong việc đánh giá chất lượng nước dưới đất Những thông tin này cung cấp những nền tảng khoa học giúp các nhà quản lí dễ dàng hơn trong việc ra quyết định
Trang 7MỞ ĐẦU
1 TÍNH CẤP THIẾT CỦA ĐỒ ÁN TỐT NGHIỆP
Nước dưới đất là một hợp phần thiết yếu của tài nguyên nước, đóng vai trò quan trọng trọng các hoạt động sinh hoạt, nông nghiệp và công nghiệp Nước dưới đất thường ít chịu ảnh hưởng bởi các tác động của con người, trong nước dưới đất thường không có các hạt keo lơ lửng, vi sinh hay vi trùng và có chất lượng tốt hơn nước mặt, tuy nhiên nếu không có những biện pháp bảo vệ hợp lí thì vấn nạn ô nhiễm nước dưới đất hoàn toàn có thể xảy ra Ở các vùng đồi núi có mật độ dân số thấp, sự luân chuyển nước đảm bảo được nước dưới đất là sạch, phục vụ tốt cho khai thác nhỏ quy mô hộ gia đình Ngược lại, ở các vùng đồng bằng với mật độ dân cư lớn, sự xuất hiện của các khu công nghiệp, nông nghiệp cũng như nước thải sinh hoạt đã góp phần không nhỏ trong việc gây ô nhiễm nguồn nước dưới đất
Các chương trình đánh giá chất lượng nước dưới đất thường được đo đạc theo chu kì các thông số ở các trạm quan trắc nước dưới đất, từ đó đánh giá bộ số liệu qua việc so sánh với các quy chuẩn, tiêu chuẩn Việt Nam Phương pháp này đơn thuần chỉ
là so sánh các thông số với quy chuẩn rồi từ đó đưa ra kết luận chất lượng nước ở khu vực nghiên cứu có ô nhiễm hay không mà không nếu được mối quan hệ giữa các thông
số cũng như nhân tố chính gây ô nhiễm nguồn nước Chính vì vậy, để có thể hiểu sâu hơn về chất lượng nước dưới đất ta cần hiểu rõ về mối quan hệ trực tiếp và gián tiếp giữa các thông số phân tích
Phân tích thống kê đa biến (MSA) bao gồm các kỹ thuật thống kê đa biến khác nhau như phân tích cụm (CA), phân tích thành phần chính (PCA) giúp giải thích cũng như tinh biến ma trận các dữ liệu phức tạp nhằm hiểu rõ hơn về chất lượng nước dưới đất, cho phép xác định các nhân tố và nguồn ô nhiễm ảnh hưởng đến chất lượng nước, cung cấp một công cụ hữu ích trong việc quản lí nguồn tài nguyên nước, đưa ra được các giải pháp nhanh chóng để xử lí các vấn đề ô nhiễm nguồn tài nguyên nước
Với vị trí địa lí và điều kiện tự nhiên thuận lợi, huyện Tân Thành đã và đang trở thành một trong ba địa phương có nền kinh tế phát triển bậc nhất tỉnh Bà Rịa – Vũng Tàu Theo thống kê của UBND huyện Tân Thành, tỉnh Bà Rịa-Vũng Tàu năm 2012 có tất cả 20 khu công nghiệp lớn nhỏ đang hoạt động trên địa bàn huyện thuộc các ngành nghề: luyện kim, nhiệt điện, sản xuất gạch men, thuộc da…; đồng thời là nơi tập trung
Trang 8nhiều khu công nghiệp nhất của tỉnh Tuy nhiên, trước sức ép của tốc độ phát triển công nghiệp quá nhanh, huyện Tân Thành đang phải đối mặt với nguy cơ nguồn nước dưới đất đang bị đe dọa với một số dấu hiệu ô nhiễm nghiêm trọng, gây suy giảm chất lượng cuộc sống của người dân sinh sống trong khu vực này
Trước các nội dung trên thì vấn nạn ô nhiễm nước dưới đất đã và đang tác động tiêu cực đến đời sống người dân huyện Tân Thành, tỉnh Bà Rịa – Vũng Tàu Chính vì thế, việc tiến hành thực hiện đề tài “ Ứng dụng phân tích thống kê trong đánh giá chất lượng nước dưới đất huyện Tân Thành, tỉnh Bà Rịa – Vũng Tàu” hiện này là rất cần thiết, cung cấp công cụ hữu hiệu phục vụ cho các cơ quan có thẩm quyền trong việc đề
ra các giải pháp tối ưu nhất giải quyết tình trạng ô nhiễm nguồn nước dưới đất cũng như quản lí bền vững nguồn tài nguyên nước trong khu vực
2 MỤC TIÊU CỦA ĐỒ ÁN TỐT NGHIỆP
2.1 Mục tiêu nghiên cứu chính
Ứng dụng kỹ thuật phân tích thống kê đánh giá chất lượng nước dưới đất huyện Tân Thành, tỉnh Bà Rịa – Vũng Tàu, cung cấp công cụ hữu ích phục vụ quản lí nguồn tài nguyên nước
2.2 Mục tiêu nghiên cứu cụ thể
- Đưa ra các thành phần chính, cụm giếng quan trắc mang các thông số đặc trưng ảnh hưởng đến chất lượng nước dưới đất khu vực nghiên cứu
- Đánh giá được sự thay đổi chất lượng nước dưới đất theo không gian thông qua sự phân bố dữ liệu quan trắc
3 NỘI DUNG VÀ PHẠM VI NGHIÊN CỨU
3.1 Nội dung nghiên cứu
3.1.1 Sơ đồ thể hiện nội dung nghiên cứu
Trang 9Các nội dung nghiên cứu chính được trình bày cụ thể qua sơ đồ sau đây
Hình 1 Sơ đồ nghiên cứu
Thu thập tài liệu
Xử lí số liệu
Thống kê mô tả (Excel 2010)
Biểu diễn biểu đồ (boxplot, piper diagrams)
Trang 103.1.2 Tóm tắt nội dung nghiên cứu
Để bảo đảm hoàn thiện các mục tiêu nghiên cứu, đề tài đã tiến hành thực hiện các nội dung sau, cụ thể:
Thu thập tài liệu
- Thu thập báo, chí, sách liên quan đến nội dung nghiên cứu
- Thu thập số liệu quan trắc chất lượng nước
- Thu thập các báo cáo tổng kết về quy hoạch, vận hành mạng lưới quan trắc khu vực nghiên cứu
- Thu thập các bản đồ địa chất thủy văn, bản đồ địa hình khu vực nghiên cứu
Xử lí số liệu
- Thống kê mô tả dữ liệu trên phần mềm Excel 2010
- Thống kê đặc điểm địa tầng, cấu trúc giếng quan trắc khu vực nghiên cứu
- Biểu diễn biểu đồ diễn biến chất lượng nước
- Biểu diễn biểu đồ hóa học nước
Phân tích thống kê đa biến
- Phân tích thành phần chính (PCA) trên phần mềm SPSS 20
- Phân tích cụm (CA) trên phần mềm SPSS 20
Báo cáo kết quả
Báo cáo kết quả đạt được sau quá trình nghiên cứu
3.2 Phạm vi nghiên cứu
Huyện Tân Thành nằm trên quốc lộ 51 tuyến Thành phố Hồ Chí Minh - Vũng Tàu với phía Đông giáp huyện Châu Đức, phía Tây giáp huyện Cần Giờ và thành phố Vũng Tàu, phía Nam giáp thành phố Bà Rịa và phía Bắc giáp huyện Long Thành Diện tích tự nhiên của khu vực nghiên cứu khoảng 33.825 ha, dân số trung bình khoảng 137.334 người (2015), có 10 đơn vị hành chính gồm 9 xã và 1 thị trấn
Trong nghiên cứu này, các thông số chất lượng nước dưới đất được lựa chọn trong hai đợt quan trắc vào mùa mưa và mùa khô năm 2012 với bộ dữ liệu được thu thập từ Sở Tài nguyên và Môi trường tỉnh Bà Rịa-Vũng Tàu bao gồm: Ca2+, Mg2+,
Na+, K+, HCO3-, pH, độ cứng, TDS, Cl-, F-, NO3-, SO42-, Cr6+, Cu2+ và Fe2+ Các mẫu nước được lấy từ 18 giếng quan trắc phân bố trên khu vực huyện Tân Thành
Trang 11Hình 2 Sơ đồ vị trí huyện Tân Thành, tỉnh Bà Rịa-Vũng Tàu
4 PHƯƠNG PHÁP NGHIÊN CỨU
Để hoàn thành tốt mục tiêu nghiên cứu đã đề ra, đồ án tốt nghiệp được tiến hành thực hiện các phương pháp nghiên cứu chính sau đây
- Phương pháp thu thập, tham khảo và tổng quan tài liệu
- Phương pháp phân tích thống kê
Trang 12CHƯƠNG 1 TỔNG QUAN
1.1 TỔNG QUAN CÁC NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC
1.1.1 Tổng quan tình hình nghiên cứu ngoài nước
Phân tích thống kê trong đánh giá chất lượng nước dưới đất bao gồm nhiều phương pháp thực hiện trong đó phương pháp thống kê đa biến (MSA) là một trong những phương pháp nổi bật và hiệu quả, đã và đang được sử dụng rộng rãi ở các nước trên thế giới, một số nghiên cứu được công bố đã nêu ra được kết quả chất lượng nước dưới đất ở một số nước như:
Kỹ thuật thống kê đa biến kết hợp nghiên cứu địa chất thủy văn được ứng dụng
để đánh giá chất lượng nước dưới đất ở các vùng bán khô hạn, khu nông nghiệp truyền thống Yinchuan thuộc Tây Nam Trung Quốc, nằm gần khu vực thượng nguồn sông Yellow Họ tiến hành phân tích đặc tính hóa học của các mẫu nước thu thập được từ
39 trạm quan trắc trước vụ hè thu năm 2011, đồng thời sử dụng kỹ thuật thống kê đa biến và địa thống kê để giải quyết vấn đề trên Các nhân tố ảnh hưởng đến chất lượng nước được tìm thấy bằng phương pháp phân tích thành phần chính (PCA) và phân tích cụm (CA) PCA biểu diễn những biến quan trọng đại diện cho sự bốc hơi mạnh mẽ bởi khí hậu khô hanh (pH, TDS, SO42-), sự hòa tan khoáng (F- và HCO3-) ; các hoạt động nhân sinh bao gồm xử lí nước thải và phân bón hóa học (NH4+, NO3-) Phương thức Q của phân tích cụm chỉ ra được ba loại nước riêng biệt biểu thị các thành phần hóa học khác nhau Trong khi đó, phương thức R biểu diễn hai cụm riêng biệt từ trạm lấy mẫu cho thấy khu vực nghiên cứu xuất hiện dấu hiệu chịu ảnh hưởng bởi tác nhân tự nhiên
và nhân sinh (Xuedi Zhang, et al., 2014)
Ở Tây Ban Nha, phương pháp trên được ứng dụng cho khu vực Bajo Andarax
Cụ thể hơn, khu vực nghiên cứu trên xác định các thành phần chính gây biến động chất lượng nước dưới đất Kết quả thu được gồm ba nhân tố (V1 ảnh hưởng từ sunphate:
SO42-, Ca2+, Sr2+, V2 ảnh hưởng từ nhiệt độ: pH, nhiệt độ, Li+, V3: ảnh hưởng từ đại dương: Cl-, Na+, Mg2+, K+, B3+) Phân tích về sự phân bố không gian được thực hiện thông qua việc tính toán thực nghiệm va ứng dụng lí thuyết, là cơ sở cho dữ liệu đầu vào của mô hình Phép phân tích này biểu diễn xác xuất các dữ liệu được giữ lại bằng cách bản đồ hóa ba biến này khắp các tầng chứa nước tại mỗi điểm lấy mẫu Theo
Trang 13cách này, họ có thể đánh giá được sự thay đổi theo không gian và thời gian của quy trình lí hóa liên quan đến ba nhân tố chính tác động đến chất lượng nước dưới đất khu vực nghiên cứu (Francisco Sanchez-Martos, et al., 2001)
Kỹ thuật phân tích thống kê đa biến, phân tích cụm thứ bậc, phân tích thành phần chính kết hợp với biểu đồ hóa nước tam giác truyền thống được ứng dụng để xác định các nhân tố ảnh hưởng đến chất lượng nước dưới đất thuộc khu vực ven bờ, tỉnh Fujian phía nam Trung Quốc Các mẫu nước dưới đất được thu thập ở 12 trạm quan trắc vào tháng 1 (mùa khô) và tháng 7 năm 2011 (mùa mưa) Mười một thông số chất lượng nước (pH, độ cứng, TDS, Ca2+
, Mg2+, Na+, Cl¯, SO42-, HCO3¯, NO3¯, Mn) được lựa chọn đêt thực hiện phân tích thống kê đa biến Trong suốt mùa mưa và mùa khô, kết quả PCA đưa ra được 3 thành phần chính có ý nghĩa nhằm giải thích quá trình nhiễm mặn (TH, TDS, Mg2+, Na+, Cl¯, and SO42-), sự tương tác của đất đá (pH, Ca2+, HCO3¯, and Mn) và ô nhiễm nhân sinh (NO3¯ ) ảnh hưởng như thế nào đến chất lượng nước ngầm thuộc khu vực nghiên cứu Ba nhân tố được giữ lại này giải thích được 90.3% và 80.3% tổng phương sai của bộ dữ liệu mùa mưa và mùa khô Phân tích cụm
sử dụng thủ tục Ward với thước đo là bình phương khoảng cách Euclidean, nó chỉ ra được sự phân bố của các giếng quan trắc dựa trên chất lượng nước của từng giếng Các mẫu nước từ 12 giếng quan trắc được gom lại thành 3 nhóm riêng biệt nhằm miêu tả
sự khác biệt của các tướng thủy hóa của khu vực nghiên cứu Kết quả trên đã chứng minh rằng phương pháp phân tích đa biến như HCA, PCA rất hữu dụng trong việc định lượng sự ô nhiễm nước dưới đất cũng như nhân dạng được đặc tính thủy hóa của nước dưới đất (Qingchun Yang, et al., 2015)
Bên cạnh những ứng dụng trong lĩnh vực nước dưới đất, các nghiên cứu về ứng dụng phương pháp phân tích thống kê đa biến cũng đã được thực hiện ở một số khu vực điều tra chất lượng nước mặt thuộc các quốc gia trên thế giới như:
Ở Thổ Nhĩ Kỳ, kỹ thuật thống kê đa biến đã được áp dụng để đánh giá chất lượng nước mặt tại khu vực biển Đen Mục đích của nghiên cứu này là điều tra sự thay đổi chất lượng nước mặt theo không gian và thời gian Các mẫu nước được thu thập từ mười trạm quan trắc trên các sông và khu vực biển từ năm 2007 đến 2008 Hai lăm thông số chất lượng nước được lựa chọn để phân tích (Carbon tổng, carbon vô cơ, carbon hữu cơ, crom, cadimium, đồng, chì, sắt, niken, mangan, phenol, chất hoạt động
Trang 14bề mặt, amoni, nitrite, nitrate, phospho tổng, halogen hữu cơ, sulfate, độ ứng, oxy hòa tan, pH, nhiệt độ, tổng chất rắn hòa tan, độ dẫn điện, độ mặn) Phương pháp phân tích PCA, CA được sử dụng để phân tích độ tương đồng của các vị trí quan trắc, xác định nguồn gốc và sự phân bố của các thông số chất lượng nước Phân tích thành phần chính (PCA) được thực hiện bằng phương pháp xoay Varimax, kết quả thu được ba nhân tố chính ảnh hưởng đến chất lượng nước giải thích 82.24% tổng phương sai và có liên quan đến nguồn ô nhiễm hữu cơ (nước thải dân sinh), ô nhiễm vô cơ (nước thải công nghiệp) và ô nhiễm dinh dưỡng (hoạt động nông nghiệp) (Feryal Akbal, et al., 2010)
Ở Ấn Độ, kỹ thuật thống kê đa biến cũng đã được nhóm nghiên cứu (Gholami Siamak Srikantaswamt) áp dụng trong đánh giá chất lượng nước sông vùng lân cận của Đập KRS, Karnataka năm 2009 Kết quả trên đã giúp các cơ quan có thẩm quyền quản lí, quy hoạch tài nguyên nước trong khu vực với nhiều mục đích khác nhau trong tương lai Các thông số chất lượng nước như oxy hòa tan, nhu cầu oxy hóa học, nhu cầu oxy sinh hóa và các thông số khác cũng đac được lựa chọn phân tích Kết quả thu được so sánh với các quy chuẩn cho phép, các tham số có ý nghĩa thống kê (P<0,01) khi quan trắc từ thượng lưu đến hạ lưu sông, đặc biệt là vào mùa hè Bên cạnh đó, các thông số chất lượng nước còn được tính toán mối tương quan giữa chúng (Taqveem Ali Khan, 2015)
Đối với Nhật Bản, kỹ thuật thống kê đa biến cũng được áp dụng trong việc đánh giá chất lượng nước lưu vực sông Fujji Các kỹ thuật thống kê đa biến bao gồm phân tích cụm (CA), phân tích thành phần chính (PCA), phân tích nhân tố (FA) và phân tích biệt tích với 12 thông số tại 13 trạm quan trắc khác nhau Kết quả phân tích cụm thứ bậc phân ra được 3 cụm từ 13 vị trí quan trắc với vị trí ít ô nhiễm (LP), ô nhiễm trung bình (MP) và ô nhiễm nặng (HP) dựa vào đặc tính hóa học nước của các trạm quan trắc Phân tích thành phần chính PCA cũng đưa ra được ba thành phần chính giải thích 73.18%, 77.61% và 65.39% tổng phương sai, đồng thời tương ứng với các khu vực
LP, MP và HP Các nhân tố chính phản ánh các thông số từ nguồn ô nhiễm hữu cơ do nước thải sinh hoạt (nguồn điểm) với khu vực ít ô nhiễm, ô nhiễm dinh dưỡng từ hoạtt động nông nghiệp (nguồn diện) với khu vực ô nhiễm trung bình và ô nhiễm hữu cơ, dinh dưỡng từ các nhà máy, xí nghiệp (nguồn điểm) với khu vực ô nhiễm nặng Kết
Trang 15quả từ nghiên cứu trên đã chứng minh sự hữu ích của ký thuật thống kê đa biến trong phân tích và giải thích bộ dữ liệu phức tạp, phát hiện ra nguồn ô nhiễm cũng như các yếu tố thay đổi theo không gian và thời gian ảnh hưởng đến chất lượng nước từ đó đưa
ra các biện pháp quản lí hiệu quả (Shrestha S and Kazama F, 2007)
1.1.2 Tổng quan tình hình nghiên cứu trong nước
Hiện nay, các nghiên cứu về ứng dụng kỹ thuật thống kê đa biến (MSA) phần lớn được sử dụng ở các quốc gia trên thế giới Một số nghiên cứu được công bố trong nước trong việc ứng dụng phương pháp này với mục tiêu phân tích chất lượng nước mặt
Ở lưu vực sông Thị Tính, các kỹ thuật phân tích thống kê đa biến đã bước đầu được áp dụng trong đánh giá chất lượng nước sông Các thông số phân tích như: DO, BOD, và một số thông số vật lí hoặc hóa học khác được phân tích, và các kết quả phân tích được so sánh với các tiêu chuẩn giới hạn cho phép tương ứng Trong nghiên cứu này, sau khi thống kê tóm tắt nồng độ và đánh giá diễn biến chất lượng nước sông Thị Tính, các phương pháp Phân tích cụm (Cluster Analysis), Phân tích thành phần chính (Principal Component Analysis) và Phân tích nhân tố (Factor Analysis) trong phương pháp thống kê đa biến được sử dụng để giải thích ma trận dữ liệu phức tạp, qua đó hiểu rõ những thay đổi trong chất lượng nước và hiện trạng sinh thái của hệ thống nghiên cứu, từ đó cho phép cung cấp một công cụ đáng tin cậy để quản lí tài nguyên nước Kết quả nhận định được rằng có 2 nhân tố chính giải thích 94,290% của tổng phương sai ảnh hưởng đến chất lượng nước của sông Thị Tính gồm: (1) Các nguồn thải nhân tạo (nguồn thải hữu cơ từ đô thị, dân cư tập trung và công nghiệp chế biến thực phẩm); (2) Các nguồn ảnh hưởng tự nhiên (độ mặn do ảnh hưởng của thủy triều
và hàm lượng chất rắn lơ lửng do xói mòn đất, các chất bẩn bề mặt trên lưu vực, trong
đó nhân tố 1 tác động lớn nhất đến chất lượng nước sông (Nguyễn Hải Âu và Vũ Văn Nghị, 2014)
Ở lưu vực sông Như Ý tỉnh Thừa Thiên Huế, tác giả Nguyễn Minh Kỳ và cộng
sự đã nghiên cứu đánh giá chất lượng nước bởi các chất dinh dưỡng và hữu cơ cũng như xác định áp lực môi trường, xem xét tác động tải lượng chất ô nhiễm lên sông Như Ý, tỉnh Thừa Thiên Huế Với năm trạm lấy mẫu, nghiên cứu đã tiến hành quan trắc các thông số chất lượng nước như nhiệt độ, hàm lượng oxi hòa tan (DO), như cầu
Trang 16oxi sinh hóa (BOD5), nhu cầu oxi hóa học (COD), nitrate (NO3-) và phosphate (PO43-) Nghiên cứu sử dụng kỹ thuật thống kê đa biến như phân tích tương quan, phân tích thành phần chính (PCA), và phân tích cụm cluster (CA) để đánh giá chất lượng nước Phân tích tương quan chỉ ra sự tồn tại liên hệ có ý nghĩa thống kê giữa các thông số chất lượng nước như nhiệt độ với DO và BOD5 với COD (p<0,01) Kỹ thuật PCA được áp dụng để xem xét phân nhóm dữ liệu và chỉ ra các nhóm nhân tố làm thay đổi chất lượng nước Kết quả PCA trích xoay nhân tố gồm hai nhóm chính với tổng phương sai 62,207% Trong đó, nhóm nhân tố đầu tiên chiếm 40,873% tổng phương sai gồm các thông số nhiệt độ, DO, BOD5 và COD Nhóm nhân tố thứ hai bao gồm
NO3- và PO43- với 21,334% tổng phương sai, đồng thời được đặt tên và giải thích bởi quá trình xả thải liên quan đến các hoạt động nông nghiệp Tương tự, kết quả phân tích
CA cũng xác lập và phân nhóm lần lượt BOD5, COD, nhiệt độ, DO (nhóm 1) và NO3-,
PO43- (nhóm 2) (Nguyễn Minh Kỳ và Nguyễn Hoàng Lâm, 2014)
1.1.3 Nhận xét chung
Nhìn chung, những công trình nghiên cứu trong và ngoài nước đều đạt được những kết quả to lớn về cơ sở khoa học cũng như ứng dụng thực tiễn Ở Việt Nam, việc ứng dụng kỹ thuật thống kê đa biến vẫn còn rất hạn chế, chỉ có một số công bố khoa học về ứng dụng phương pháp này ở lĩnh vực nước mặt, thêm vào đó các nghiên cứu trên cũng chỉ dừng lại ở bước đầu nghiên cứu mà chưa có một ứng dụng cụ thể nào thực tế Đối với nước dưới đất, hiện các công bố khoa học còn rất hạn chế hoặc thậm chí vẫn chưa được thực hiện ở khu vực cụ thể nào Chính vì vậy, việc ứng dụng
kỹ thuật thống kê đa biến trong phân tích chất lượng nước dưới đất là một đề tài mang tính mới, có tiềm năng lớn trong việc cung cấp một công cụ hữu ích, một cái nhìn mới hơn về chất lượng nước dưới đất, giúp các nhà ra quyết định dễ dàng trong việc quản lí bền vững nguồn tài nguyên quý giá này Tuy nhiên, trong giới hạn của đề tài do sinh viên thực hiện và tài liệu hạn chế, sinh viên chỉ giới hạn phương pháp nghiên cứu kỹ thuật thống kê trong phân tích chất lượng nước dưới đất huyện Tân Thành, tỉnh Bà Rịa – Vũng Tàu dựa trên bộ dữ liệu thu thập được từ Sở Tài nguyên và Môi trường tỉnh Bà Rịa – Vũng Tàu
Trang 171.2 GIỚI THIỆU KHU VỰC NGHIÊN CỨU
1.2.1 Điều kiện tự nhiên
a) Địa hình
Khu vực nghiên cứu có địa hình vùng đồng bằng và bình nguyên với những núi sót rải rác, có xu hướng thấp dần theo hướng bắc- nam Có thể phân biệt thành 3 dạng địa hình chính như sau:
Địa hình đồng bằng
Địa hình đồng bằng thềm thấp có độ cao từ 5m đến 10m hoặc có nơi chỉ cao từ 2m đến 5m dọc theo các sông và địa hình trũng trên trầm tích sông biển, đầm lầy biển với độ cao từ 0,3m đến 2m, có chỗ thấp hơn mực nước biển Dạng địa hình này phân
bố dọc theo các sông lớn và ven biển, tạo thành một dải kéo dài từ tây sang đông dọc theo bờ biển
Địa hình đồng bằng thềm cao có độ cao địa hình từ 10m đến 50m, bề mặt tương đối bằng phẳng, phân bố thành dải theo chân đồi núi thấp phía tây và đông tỉnh
Địa hình đồi lượn sóng
Là dạng địa hình cao nguyên núi lửa nằm ở phía bắc và đông bắc tỉnh, đây chính là phần rìa của cao nguyên bazan Xuân Lộc với bề mặt san bằng khá lớn, cao độ biến đổi từ 50m đến 200m, độ dốc từ 3º đến 8º, rìa ngoài của chúng có độ dốc lớn
Địa hình đồi núi thấp
Địa hình đồi núi thấp bao gồm các núi sót rải rác và là phần cuối cùng của dãy Trường Sơn với độ cao biến đổi lớn từ 30m đến 500m, trung bình là 200m Độ dốc cao
từ 20º đến 30º, đỉnh thường bị bào mòn mạnh Thành phần chủ yếu là đá granit
b) Khí hậu
Vùng nghiên cứu chịu ảnh hưởng của khí hậu nhiệt đới gió mùa cận xích đạo với chế độ nhiệt tương đối ổn định, quanh năm cao Hàng năm có hai mùa rõ rệt: mùa khô và mùa mưa Mùa mưa bắt đầu từ tháng 5 đến tháng 11 và mùa khô kéo dài từ tháng 12 đến tháng 4 năm sau Các yếu tố khí hậu được tổng hợp nhiều năm như sau:
Lượng mưa: lượng mưa hàng năm dao động từ 1.268mm đến 1.971mm, thấp
nhất là 931mm (năm 2005) và cao nhất là 1.971 (năm 1999), 80% lượng mưa tập trung chủ yếu vào mùa mưa từ tháng 6 đến tháng 10 Đặc biệt năm 2012-2013, lượng bắt
Trang 18đầu từ tháng 4 đến tháng 10 Quy luật chung là vùng ven biển mùa mưa thường đến sớm và kết thúc muộn hơn so với miền núi ven cao nguyên
Nhiệt độ không khí: nhiệt độ không khí bình quân dao động từ 26,129,2ºC, nhiệt độ trung bình tháng cao nhất đạt 30,4ºC và thấp nhất là 25ºC Phía nam vùng chênh lệch nhiệt độ thấp hơn do có sự điều hòa của gió biển Biến thiên nhiệt độ trung bình hàng tháng trong năm không lớn, từ 35ºC, nhưng chênh lệch nhiệt độ ngày và đêm thường lớn, từ 68ºC
Độ ẩm không khí: độ ẩm không khí trung bình nhiều năm dao động từ
75,882,8%, độ ẩm cao nhất thường vào tháng 9 và tháng 10, có khi đạt đến 87% và thấp nhất vào các tháng mùa khô, có khi chỉ đạt 72%
Bốc hơi: lượng bốc hơi bình quân trong năm dao động từ 1.2311.571mm, phụ thuộc vào độ ẩm và nhiệt độ không khí Lượng bốc hơi cao nhất vào các tháng mùa khô (có độ ẩm thấp nhất) và thấp nhất vào các tháng mùa mưa
Gió: hướng gió chính thay đổi theo mùa, mùa khô đón gió đông bắc do ảnh
hưởng gió mùa đông bắc, khí hậu mát mẻ dễ chịu; mùa mưa chịu ảnh hưởng của gió mùa tây nam Tần suất lặng gió trung bình năm là 26%, lớn nhất là tháng 8 (33,5%), nhỏ nhất là tháng 4 (14,1%) Tốc độ gió trung bình 23m/s
1.2.2 Điều kiện kinh tế - xã hội
a) Dân cư
Theo kết quả điều tra dân số năm 2013, dân số toàn huyện là 137.334 người Dân cư chủ yếu là người Việt, ngoài ra còn có người Hoa, Châu Ro, Khmer, Mường, Tày
Với yêu cầu phát triển KT-XH huyện Tân Thành, lực lượng lao động vẫn đủ đáp ứng về số lượng, nhưng về mặt chất lượng cần phải đào tạo để nâng cao trình độ cho lực lượng lao động phổ thông Riêng lực lượng lao động chuyên sâu, trình độ cao trong các ngành nghề công nghiệp dầu khí, lao động đánh bắt hải sản, trồng rừng phải đưa từ nơi khác đến
b) Kinh tế
Huyện Tân Thành là nơi có nhiều di tích, danh thắng, chùa chiền thuận lợi cho công tác phát triển du lịch
Trang 19Sông Thị Vải với chiều dài khoảng 32 km, sâu từ 10 – 20 m, rộng trung bình
600 – 800 m là điều kiện thuận lợi của huyện Tân Thành trong việc xây dựng các cảng cho tàu lớn đến 50.000 – 60.000 tấn Hoạt động sớm nhất là cảng Bà Rịa – Serece dài
300 m, tàu 60.000 tấn đã cập bến và cảng nhà máy điện Phú Mỹ dài 175 m cho tàu 10.000 tấn neo đậu để cấp dầu
Có cảng nước sâu Thị Vải, có đường quốc lộ 51 và đường dẫn khí đốt chạy qua, trong tương lai sẽ có thêm tuyến đường sắt Biên Hòa – Phú Mỹ, Vũng Tàu Huyện Tân Thành hiện là nơi tập trung nhiều khu công nghiệp nhất của tỉnh Theo quy hoạch, cả tỉnh có 9 khu công nghiệp tập trung, trên địa bàn huyện Tân Thành đã có 5 khu gồm:
Mỹ Xuân A1 (300 ha), Mỹ Xuân A2 (370 ha), Mỹ Xuân B1 (222 ha), Phú Mỹ I (954 ha), Cái Mép (660 ha) Hàng loạt các nhà máy lớn đã và đang triển khai xây dựng như: nhà máy điện Phú Mỹ 2-1, Phú Mỹ 1, Phú Mỹ 2, Phú Mỹ 3, nhà máy thép VINA-KYOEI, nhà máy phân bón NPK, nhà máy gạch men Mỹ Đức, nhà máy sản xuất thùng phuy, các nhà máy xay lúa mì, bột mì, sản xuất hạt nhựa PVC, sản xuất nhựa đường, sản xuất ống thép, cốt thép, thuộc da, chế biến thực phẩm và thức ăn gia súc
Bên cạnh đó, huyện Tân Thành cũng là địa bàn có nhiều mỏ vật liệu xây dựng nhất tỉnh, về đá có các mỏ ở núi Ông Câu, Núi Dinh, về đất sét có mỏ ở Mỹ Xuân, Châu Pha, về đất cát san lấp có các mỏ ở Suối Đá, Suối Ngọt
Hơn thế nữa, huyện Tân Thành còn có điều kiện phát triển một số cây con trong sản xuất nông nghiệp Diện tích trồng rau khoảng 1.000 ha, cây ăn quả khoảng 2.200
ha nhiều nhất tỉnh, diện tích trồng điều khoảng 1.000 ha (đứng thứ hai sau huyện Xuyên Mộc), diện tích trồng cà phê khoảng 2.050 ha (đứng thứ ba sau huyện Châu Đức và Xuyên Mộc) Chăn nuôi khá phát triển, tổng đàn gia cầm đứng đầu tỉnh
c) Nhu cầu nước cho sinh hoạt và tình hình khai thác nước dưới đất
Nước dưới đất là nguồn tài nguyên đóng vai trò quan trọng trong nhu cầu sinh hoạt của một số xã thuộc huyện Tân Thành Nhu cầu sử dụng nước cho sinh hoạt và hoạt động khai khác nước dưới đất là rất cần thiết
Nhu cầu nước cho sinh hoạt
Tổng lưu lượng khai thác nước dưới đất là 50.982m3/ngày, trong đó:
- Sử dụng cho ăn uống, sinh hoạt là 36.094m3/ngày
- Sử dụng cho sản xuất là 14.888m3/ngày
Trang 20 Mức độ khai thác nước dưới đất
Một số xã có mức độ khai thác >100 và <200m3/ngày/km2 là Mỹ Xuân, Tân Hải, Sông Xoài và Hắc Dịch
Các xã còn lại có mức độ khai thác < 100m3/ngày/km2
1.2.3 Đặc điểm địa chất thủy văn
a) Sông, suối
Hệ thống sông Thị Vải chằng chịt với quy mô lớn nằm ở phía tây huyện Tân Thành có mật độ dòng mặt cao nhất ở khu vực thấp, có thủy triều xâm nhập sâu vào nội địa từ 13km
Hệ thống sông suối này có nguồn cung cấp ổn định là nước ngầm Nước mưa chỉ bổ sung cho chúng vào mùa mưa nhưng lại chiếm tới 70% lưu lượng hàng năm Nước thường có độ khoáng hóa nhỏ, từ siêu nhạt đến nhạt
Huyện Tân Thành còn có hồ chứa nước Châu Pha thuộc xã Châu Pha với dung tích trung bình là 1,78.106 m3 (2010)
Sông Thị Vải chịu ảnh hưởng của biển, là nơi thoát của các dòng mặt thuộc hệ thống sông trên cũng như của nước ngầm Sự xâm nhập của biển trải hết toàn khu vực này Độ khoáng hóa cao từ vài g/l đến hàng chục g/l, loại hình nước hóa học chủ yếu
là Clorur natri Sông Thị Vải bị nhiễm mặn và không thể sử dụng cho các hoạt động sản xuất, tuy nhiên vẫn có ý nghĩa về giao thông rất lớn
b) Biển
Biển Đông bao bọc toàn bộ ranh giới phía nam và đông nam tỉnh Bà Rịa – Vũng Tàu với hơn 200km bờ biển trong đó có huyện Tân Thành, do đó toàn bộ mạng lưới thủy văn ở phía tây và nam giáp biển đều chịu ảnh hưởng lớn của triều Biển Đông
và theo sông vào sâu trong đất liền Triều Biển Đông có chế độ bán nhật triều, ngày đêm có 2 đỉnh và 2 chân triều, mỗi tháng có 2 chu kỳ triều Biên độ dao động triều tương đối lớn, từ 34m tùy theo thời gian trong năm
Trong năm, thủy triều biến động hình thành một thời kỳ nước cao, vào khoảng tháng 12 đến tháng 2 năm sau và một thời kỳ nước thấp vào khoảng tháng 6 đến tháng
8 Tuy là chế độ bán nhật triều nhưng không đều, 2 đỉnh triều đạt xấp xỉ nhau nhưng 2 chân triều chênh lệch nhau khá lớn Thời gian giữa 2 đỉnh và 2 chân vào khoảng 12,5
Trang 21giờ và thời gian chu kỳ triều ngày là 24,83 giờ Độ cao của mỗi đỉnh và chân triều biến đổi từ ngày này sang ngày khác trong 1 chu kỳ triều là 15 ngày
Chế độ triều Biển Đông ảnh hưởng trực tiếp đến mạng thủy văn trong vùng, nước biển xâm nhập vào sát chân các địa hình cao, làm ngập hầu hết các đồng bằng thấp và bãi lầy tạo thành rừng ngập mặn (Sở Tài Nguyên và Môi Trường, 2014)
1.2.4 Đặc điểm địa chất thủy văn, địa chất khu vực
Huyện Tân Thành, tỉnh Bà Rịa – Vũng Tàu tồn tại 3 tầng chứa nước lỗ hổng chính:
- Tầng chứa nước lỗ hổng các trầm tích Pleistocen trên (qp3)
- Tầng chứa nước lỗ hổng các trầm tích Pleistocen giữa – trên (qp2-3)
- Tầng chứa nước lỗ hổng các trầm tích Plieistocen dưới (qp1)
a) Tầng chứa nước lỗ hổng các trầm tích Pleistocen trên (qp 3 )
Tầng chứa nước Pleistocen trên phân bố thành một dải dài từ tây sang đông dọc theo ranh giới phía nam của tỉnh từ Tân Thành xuống Bà Rịa, Vũng Tàu qua Long Điền, Đất Đỏ đến Xuyên Mộc, đôi chỗ bị gián đoạn bởi các núi sót nằm rải rác hoặc bị bào mòn Phần lớn bị phủ bởi thành tạo rất nghèo nước Holocen (Q2) và Pleistocen trên (Q13), một vài nơi lộ trực tiếp trên mặt Các trầm tích này phủ trực tiếp lên trên thành tạo rất nghèo nước Pleistocen giữa-trên (Q12-3) và bề mặt phong hóa của các đá Mesozoi
Trang 22(Nguồn: Sở Tài nguyên và Môi trường tỉnh Bà Rịa-Vũng Tàu)
Hình 1.1 Mặt cắt tầng Pleistocen trên (qp3) Bảng 1.1 Đặc điểm các giếng quan trắc tầng Pleistocen trên
TRẠM QUAN TRẮC
TẦNG CHỨA NƯỚC LỖ HỔNG CÁC TRẦM TÍCH
Chiều sâu thực
tế LK (m)
Ống lọc
QT5B
TẦNG PLEISTOCEN TRÊN (qp3) với bề dày TB
là 6,9m
Hệ tầng Củ Chi (trầm tích sông, sông-biển)
(Nguồn: Sở Tài nguyên và Môi trường tỉnh Bà Rịa-Vũng Tàu)
Thành phần thạch học gồm chủ yếu là cát hạt mịn đến trung thô chứa sạn sỏi,
có nơi lẫn sét bột hoặc xen kẹp các thấu kính mỏng sét bột, bột cát mịn Loại hình hóa học nước chủ yếu là Clorua Natri, Clorur-Bicarbonat Natri, Bicarbonat-Clorur Natri-Calci
Trang 23 Thành tạo Pleistocen thượng (Q 1 3 )
Ở đây trầm tích sông lộ trên mặt với bề dày 24,5m, tạo thềm cao 5-15m gồm sạn, cuội, cát và sét kaolin
Hệ tầng Củ Chi (amQ1 3cc)
- Chiều sâu TB: 30-35 m đến 50 m
Cát bột nhiều cuội sỏi, sạn thạch anh, 7m
Thạch anh: SiO2 (Si: 40,7% + nhiều khoáng vật khác) Flourit hay đi kèm với thạch anh, là khoáng chính của granit và các đá macma khác (CaF2)
Manhetit: FeFe2O4 (FeO: 31%; Fe2O3: 69%)
Mica: [AlSi3O10] chứa Mg, Fe, Al…Flourit: CaF2
Felspat: (100-n)Na[AlSi3O8]nCa[Al2Si2O8]
Sét bột: Kaolinit Al4[Si4O10][OH]6; Monmorilorit: (Al,Mg)2[Si4O10] Ilit: [Kal2[SiAl]4O10][OH]nH2O
Zircon: Zr[SiO4] (ZrO2: 67,1%; SiO2: 32,9%)
Tuamalin: (Na,Ca)(Mg,Al)6[B3Al3Si6(O,OH)30]; SiO2: 30-44%; B2O3: 8-12%; Al2O3: 18-44%; MgO: 25%; Na2O: 6%; H2O: 1-4%
Thạch cao: CaSO4.2H2O Đá vôi: CaCO3
Tạp chất: Silic, Dolomit CaMg[CO3]2 với CaO: 30,4%; MgO: 21,7%
Tóm lại, tầng chứa nước Pleistocen trên có diện phân bố rộng, chiều dày trung bình, mức độ giàu nước từ nghèo đến trung bình, nước nhạt, thích hợp với các giếng
Trang 24khoan nhỏ lẻ qui mô hộ gia đình hoặc các giếng khoan khai thác cấp công nghiệp qui
mô trung bình
b) Tầng chứa nước lỗ hổng các trầm tích Pleistocen giữa - trên (qp 2-3 )
Tầng chứa nước Pleistocen giữa-trên có diện phân bố rộng từ tây sang đông dọc theo ranh giới phía nam của tỉnh, đôi chỗ bị gián đoạn bởi các núi sót nằm rải rác, diện phân bố lớn hơn tầng chứa nước Pleistocen trên Tầng chứa nước này lộ rải rác trên mặt ở huyện Xuyên Mộc, phần còn lại bị phủ trực tiếp bởi các thành tạo rất nghèo nước Pleistocen giữa-trên (Q12-3) và phủ trực tiếp lên thành tạo rất nghèo nước
(Nguồn: Sở Tài nguyên và Môi trường tỉnh Bà Rịa-Vũng Tàu)
Hình 1.2 Mặt cắt tầng Pleistocen giữa-trên (qp2-3) Bảng 1.2 Đặc điểm giếng quan trắc tầng Pleistocen giữa-trên (qp2-3)
TRẠM QUAN TRẮC
TẦNG CHỨA NƯỚC LỖ HỔNG CÁC TRẦM TÍCH
Chiều sâu thực
tế LK (m)
Ống lọc
QT5A
TẦNG PLEISTOCEN TRÊN (qp3) với bề dày TB là 6,9m
Hệ tầng Thủ Đức (sông, sông – biển)
Trang 25TRẠM QUAN TRẮC
TẦNG CHỨA NƯỚC LỖ HỔNG CÁC TRẦM TÍCH
Chiều sâu thực
tế LK (m)
(Nguồn: Sở Tài nguyên và Môi trường tỉnh Bà Rịa-Vũng Tàu)
Thành phần thạch học gồm chủ yếu là cát hạt mịn đến trung thô chứa sạn sỏi,
có nơi lẫn sét bột hoặc xen kẹp các thấu kính mỏng sét bột, bột cát mịn Loại hình hóa học nước chủ yếu là Clorur Natri, Bicarbonat Natri, Bicarbonat-Clorur Natri-Calci, Bicarbonat-Clorur Calci
Thành tạo Pleistocen trung-thượng (Q 1 2-3
Cát, cuội, sỏi nhiều thành phần, có cuội tectit mài tròn, 4 m
Thạch anh: SiO2 (Si: 40,7% + nhiều khoáng vật khác) Flourit hay đi kèm với thạch anh, là khoáng chính của granit và các đá macma khác (CaF2) (La Thị Chích, 2010) Felspat: (100-n)Na[AlSi3O8]nCa[Al2Si2O8]
Zircon: Zr[SiO4] (ZrO2: 67,1%; SiO2: 32,9%) Flourit: CaF2
Tuamalin: (Na,Ca)(Mg,Al)6[B3Al3Si6(O,OH)30]; SiO2: 30-44%; B2O3: 8-12%; Al2O3: 18-44%; MgO: 25%; Na2O: 6%; H2O: 1-4%
Apatit: Ca5[PO4]3(F,Cl)
- Flo-apatit: CaO: 55%; P2O5: 42,3%; F: 3,8%
- Clo-apatit: CaO: 53,8%; P2O5: 41%; Cl: 6,8%
Chứa: Na2O, CeO3, MgO, Fe2O3, Al2O3
Thạch cao: CaSO4.2H2O Đá vôi: CaCO3
Manhetit: FeFe2O4 (FeO: 31%; Fe2O3: 69%)
Mica: [AlSi3O10] chứa Mg, Fe, Al…
Trang 26 Cát, sạn chứa kaolin, 12m
Kaolin: Al4[Si4O10]9(OH)8
Gồm: Al2O3 39,5%; SiO2 46,5%; H2O 14,5% Chứa tạp chất Fe2O, MgO, CaO, Na2O,
Tóm lại, tầng chứa nước Pleistocen giữa-trên có diện phân bố rộng, chiều dày biến đổi lớn, mức độ giàu nước từ nghèo đến giàu, nước nhạt, thích hợp với các giếng khoan nhỏ lẻ qui mô hộ gia đình hoặc các giếng khoan khai thác cấp công nghiệp qui
mô trung bình và lớn tại các khu vực giàu nước
c) Tầng chứa nước lỗ hổng các trầm tích Pleistocen dưới (qp 1 )
Tầng chứa nước Pleistocen dưới phân bố tại 3 khu vực: xã Hắc Dịch, xã Tóc Tiên huyện Tân Thành và thành phố Vũng Tàu, các khu vực khác của tỉnh không tồn tại tầng chứa nước này Tầng chứa nước này bị phủ bởi các thành tạo rất nghèo nước Pleistocen dưới (Q11
), và phủ trực tiếp lên thành tạo rất nghèo nước Pliocen (N22) ở thành phố Vũng Tàu hoặc bề mặt phong hóa các đá Mesozoi tại huyện Tân Thành và Xuyên Mộc
Trang 27(Nguồn: Sở Tài nguyên và Môi trường tỉnh Bà Rịa-Vũng Tàu)
Hình 1.3 Mặt cắt tầng Pleistocen dưới (qp1) Bảng 1.3 Đặc điểm giếng quan trắc tầng Pleistocen dưới (qp1)
TRẠM
QUAN TRẮC
TẦNG CHỨA NƯỚC LỖ HỔNG CÁC TRẦM TÍCH
Chiều sâu thực tế
LK (m)
Ống lọc (m) Địa tầng
VT2A
TẦNG PLEISTOCEN DƯỚI (qp1) với về dày TB
19,4m
Hệ tầng Trảng Bom (sông – sông biển)
(Nguồn: Sở Tài nguyên và Môi trường tỉnh Bà Rịa-Vũng Tàu)
Thành phần thạch học gồm chủ yếu là cát hạt mịn đến trung thô chứa sạn sỏi,
có nơi lẫn sét bột hoặc xen kẹp các thấu kính mỏng sét bột, bột cát mịn Loại hình hóa học nước chủ yếu là Bicarbonat-Clorur Natri-Calci và Bicarbonat-Clorur Calci-Natri
Thành tạo Pleistocen hạ (Q 1 1 )
Ở đây, các trầm tích sông Pleistocen hạ phân bố dưới dạng bề mặt thềm bị phân cắt yếu thành đới lượn sóng thoải ở độ cao 40-70m như ở Tân Uyên, Đất Cuốc, Suối Thôn, Trảng Bom…Mặt cắt chủ yếu gồm cát, sạn, sỏi, cuội, xen thấu kín sét, sét bột, kaolin Bề mặt của thành tạo bị laterit hóa, màu nâu đỏ loang lổ vàng, trắng, có tectit nguyên dạng cắm vào
Hệ tầng Trảng Bom (amQ1 1tb)
Trang 28- Bề dày TB: 4m
Cát hạt thô, sét kaolin trắng, thấu kính cuội sỏi thạch anh, 2,5m
Thạch anh: SiO2 (Si: 40,7% + nhiều khoáng vật khác) Flourit hay đi kèm với thạch anh, là khoáng chính của granit và các đá macma khác (CaF2)
Manhetit: FeFe2O4 (FeO: 31%; Fe2O3: 69%)
Mica: [AlSi3O10] chứa Mg, Fe, Al…Đá vôi: CaCO3
Felspat: (100-n)Na[AlSi3O8]nCa[Al2Si2O8] Flourit: CaF2
Zircon: Zr[SiO4] (ZrO2: 67,1%; SiO2: 32,9%)
Tuamalin: (Na,Ca)(Mg,Al)6[B3Al3Si6(O,OH)30]; SiO2: 30-44%; B2O3: 8-12%; Al2O3: 18-44%; MgO: 25%; Na2O: 6%; H2O: 1-4%
Cát, bột, sét kaolin, 1m
Kaolinit Al4[Si4O10][OH]6;
Monmorilorit: (Al,Mg)2[Si4O10]
Ilit: [Kal2[SiAl]4O10][OH]nH2O
Cát, 0,5m
Nguồn cung cấp chính cho tầng là nước mưa và nước mặt thấm trực tiếp tại những nơi sông suối cắt trực tiếp vào tầng chứa nước hoặc thấm xuyên qua thành tạo rất nghèo nước Pleistocen dưới, miền thoát hướng ra biển và các sông rạch trũng thấp Hướng vận động của nước khá phức tạp, phụ thuộc vào dạng địa hình nhưng nhìn chung nước vận động từ đỉnh phân thủy xuống các thung lũng sông suối, từ nơi có địa hình cao xuống nơi có địa hình thấp (Vũ Ngọc Kỷ và nnk, 2008)
Tóm lại, tại huyện Tân Thành tầng chứa nước Pleistocen dưới có chiều dày trung bình, chiều sâu phân bố nông, mức độ giàu nước từ nghèo đến giàu, nước nhạt, thích hợp với các giếng khoan nhỏ lẻ qui mô hộ gia đình hoặc các giếng khoan khai thác cấp công nghiệp qui mô trung bình (Sở Tài Nguyên và Môi Trường, 2014)
Trang 29CHƯƠNG 2 PHƯƠNG PHÁP NGHIÊN CỨU
2.1 PHƯƠNG PHÁP THU THẬP, THAM KHẢO VÀ TỔNG QUAN TÀI LIỆU
Để có cơ sở khoa học nhằm thực hiện các mục tiêu nghiên cứu, đề tài đã thu thập, nghiên cứu các tài liệu trong và ngoài nước có liên quan đến việc đánh giá chất lượng nước dưới đất bằng kỹ thuật thống kê đa biến Từ đó, sinh viên tiến hành tổng hợp phân tích các nội dung, phương pháp đã được áp dụng để học hỏi, đúc kết kinh nghiệm nhằm hoàn thành nội dung nghiên cứu cũng như đưa ra được kết quả tối ưu nhất của đề tài
a) Tiến hành thu thập và tổng hợp tài liệu tại Sở Tài nguyên và Môi trường tỉnh
Bà Rịa-Vũng Tàu
Báo cáo “Nghiên cứu và xây dựng mạng quan trắc nước dưới đất tỉnh Bà Vũng Tàu”
Rịa- Bản đồ địa chất thủy văn tỷ lệ 1:50000 tỉnh Bà Rịa-Vũng Tàu
Bản đồ địa chất và khoáng sản tỷ lệ 1:50000 tỉnh Bà Rịa-Vũng Tàu
Số liệu quan trắc chất lượng nước năm 2012 tỉnh Bà Rịa-Vũng Tàu
b) Tham khảo tài liệu
Giáo trình địa chất Thủy văn ứng dụng, giáo trình Thủy văn môi trường, giáo trình Địa hóa môi trường, giáo trình Khoáng vật học, giáo trình Địa chất công trình, giáo trình Thạch học, giáo trình Địa chất và Tài nguyên Việt Nam
Tạp chí khoa học trong và ngoài nước ứng dụng phân tích thông kê trong nghiên đánh giá chất lượng nước mặt và nước dưới đất
c) Một số khái niệm cơ bản về nước dưới đất
Địa chất thủy văn là khoa học về nước dưới đất nhằm nghiên cứu nguồn gốc, điều kiện thế nằm, quy luật vận động, động thái, các tính chất vật lí và hóa học của nước dưới đất; mối tương tác của nước với môi trường xung quanh; ý nghĩa kinh tế của chúng
Nước dưới đất là nước nằm trong thạch quyển ở tất cả các trạng thái vật lí
Nước dưới đất không áp là nước dưới đất có mặt thoáng tự do và áp suất trên đó bằng áp suất khí quyển
Trang 30 Nước dưới đất có áp là nước dưới đất có áp suất tác dụng lên bề mặt lớn hơn áp suất khí quyển
Nước ngầm là nước dưới đất của tầng chứa nước thường xuyên và nằm trên đáy cách nước thứ nhất tính từ mặt đất
2.2 PHƯƠNG PHÁP PHÂN TÍCH THỐNG KÊ
2.2.1 Biểu diễn biểu đồ Piper
Trong hầu hết các mẫu nước tự nhiên đều chứa các ion chính gồm có Na+, K+,
Ca2+, Mg2+, Cl-, HCO3- và SO42- Biểu đồ tam giác là một dạng đồ thị biểu diễn đặc tính hóa học của các mẫu nước phân tích Các cation và anion sẽ được biểu diễn bởi các biểu đồ tam giác (ternary plots) riêng biệt gồm ba loại: biểu đồ tam giác góc dưới bên trái sẽ biểu diễn cation, biểu đồ tam giác góc dưới bên phải biểu diễn anion và biểu đồ hình thoi (diamond plot) nằm giữa thể hiện kết quả của hai biểu đồ tam giác khi kết hợp lại Mỗi đỉnh của biểu đồ cation lần lượt là Ca2+, Mg2+ và Na++K+ Tương
tự, mỗi đỉnh của biểu đồ anion lần lượt là SO42-, Cl- và CO32- + HCO3- Điểm biểu thị của hai biểu đồ tam giác sẽ được chiếu lên biểu đồ hình thoi (diamond plot) nhằm biểu diễn thành phần phần trăm của cả cation và anion Biểu đồ tam giác thường được sử dụng để phân loại thành phần hóa trong các mẫu nước dưới đất dựa trên thành phần phần trăm của các nhóm ion chính Ở nghiên cứu này, biểu đồ tam giác được thể hiện thông qua phần mềm Origin Pro phiên bản 2015 (Arthur M Piper, 1944)
Hình 2.1 Biểu đồ tam giác Piper
Trang 31xử lí dữ liệu và kỹ thuật tinh giảm chiều/kích thước biến và được ứng dụng rộng rãi ở các lĩnh vực như kỹ thuật, sinh học, kinh tế và xã hội Ngày này, PCA có thể được thực hiện thông qua các phần mềm thống kê được các chuyên gia và sinh viên sử dụng nhưng hiểu biết về nó vẫn còn rất nghèo nàn Mục tiêu của nghiên cứu này là để xua tan đi bí ẩn đằng sau công cụ thống kê này Nghiên cứu này sẽ cho thấy trực quan cơ bản về việc tại sao và như thế nào để có thể phân tích thành phần chính, thêm vào đó
nó cũng sẽ cung cấp các nguyên tắc để có thể làm sáng tỏ các kết quả thu được Về khía cạnh toán học cũng sẽ được giới hạn Nghiên cứu này rất mong muốn có thể tăng thêm những hiểu biết về PCA trong việc nhận ra rằng khi nào, tại sao và như thế nào ứng dụng kỹ thuật này cũng như có thể xác định được các số liệu của các thành phần
có nghĩa để giữ lại từ PCA, tạo nhân tố (factor score) và giải thích được các thành phần Quan trọng hơn nữa là có thể đặt ra được các ví dụ giải thích các bước chi tiết trong việc thực hiện PCA (Yared Kassahun Kebede and Tesfu Kebedee, 2012)
a) Các tham số thống kê trong phân tích nhân tố
Trang 32- Correlation matrix (ma trận tương quan): Cho biết hệ số tương quan của
tất cả các cặp biến trong phân tích
- Communality : Là lượng biến thiên của một biến được giải thích chung với
các biến khác được xem xét trong phân tích Đây cũng là phần biến thiên được giải thích bởi các nhân tố chung
- Eigenvalue : Đại diện cho phần biến thiên được giải thích bởi mỗi nhân tố,
chỉ có những nhân tố nào có Eigenvalue lớn hơn 1 mới được giữ lại trong mô hình phân tích, những nhân tố có Eigenvalue nhỏ hơn 1 sẽ không có tác dụng tóm tắt thông tin tốt hơn một biến gốc, vì sau khi chuẩn hóa mỗi biến gốc có phương sai là 1 Thêm vào đó, chúng ta có thể xác định ý nghĩa thống kê của các Eigenvalue riêng biệt và giữ lại những nhân tố nào thực sự có ý nghĩa thống kê Tuy nhiên, nhược điểm của cách này là đối với quy mô mẫu lớn (hơn 200), có nhiều khả năng sẽ có nhiều nhân tố thỏa mãn mức ý nghĩa thống kê mặc dù trong thực tế có nhiều nhân tố chỉ giải thích được chỉ một phần nhỏ toàn bộ biến thiên
- Factor loading (hệ số tải nhân tố): Là những hệ số tương quan đơn giữa các
biến và nhân tố
- Factor matrix (ma trận nhân tố): Chứa các hệ số tải nhân tố của tất cả các
biến đối với các nhân tố được rút ra
- Percentage của variance: Phần trăm phương sai toàn bộ được giải thích bởi
từng nhân tố Nghĩa là coi biến thiên là 100% thì giá trị này cho biết phân tích nhân tố
cô đọng được bao nhiêu % và thất thoát bao nhiêu %
- Culmulative (Tổng phương sai trích): Có giá trị lớn hơn 60% thì cho biết
các nhân tố giải thích được sự biến thiên của các biến quan sát
- Đặt tên và giải thích các nhân tố: Việc giải thích các nhân tố được thực hiện
trên cơ sở nhận ra các biến có hệ số (factor loading) lớn ở cùng một nhân tố Như vậy nhân tố này có thể được giải thích bằng các biến có hệ số lớn đối với bản thân nó
b) Tổng quan về mô hình phân tích FA/PCA
Kỹ thuật PCA rút ra các giá trị riêng và phương sai từ ma trận tương quan của các biến ban đầu Các thành phần chính là các biến không tương quan, thu được bằng cách nhân các biến tương quan ban đầu với hệ số tải nhân tố.Vì vậy, các thành phần chính được kết hợp tuyến tính của các biến ban đầu PC cung cấp thông tin về các
Trang 33thông số có ý nghĩa nhất, trong đó mô tả toàn bộ dữ liệu thiết lập dựng hình dữ liệu giảm với sự giảm tối thiểu các thông tin ban đầu Nó là một kỹ thuật mạnh mẽ cho mô hình giải thích sự thay đổi của một tập lớn các tương quan biến và chuyển đổi thành một tập hợp nhỏ hơn của các biến độc lập (thành phần chính)
Để đòi hỏi x1, x2, , xp là các vector theo p x 1 được thu thập từ các đối tượng
n Các bước tính toán cần phải hoàn thiện các bậc để thu được kết quả PCA theo trình
n: Đối tượng được tính toán
xi: Tổng giá trị của các đối tượng
Bước 2 Chuẩn hóa dữ liệu:
Bước 5 Đi đến chuyển đổi tuyến tính 𝑹𝒑 → 𝑹𝒒 trong việc thực hiện tinh giảm chiều
c) Ý nghĩa của eigenvalue
Trong số liệu phân tích thành phần chính của các thành phần được rút trích thì bằng với số của các biến được phân tích (với điều kiên n > p) Nó có nghĩa là phân tích
5 biến sẽ thực sự cho ra kết quả 5 thành phần Tuy nhiên, mục tiêu của PCA là tinh giảm thứ nguyên/chiều, chỉ một ít thành phần ban đầu sẽ trở nên đủ quan trọng để được thu nhận cho việc trình bày và sử dụng trong dữ liệu hiện có Do đó thì rất hợp lí cho việc tự đặt câu hỏi có bao nhiêu thành phần độc lập thì cần thiết để mô tả dữ liệu một cách tốt nhất
Eigenvalue thông qua việc đánh giá định lượng là bao nhiêu khi một thành phần đại diện cho dữ liệu Eigenvalue cao hơn của một thành phần thì đại diện hơn trong dữ liệu Eigenvalue bởi vậy mà được sử dụng để xác định ý nghĩa của thành phần Bảng 3
Trang 34cung cấp eigenvalue từ ứng dụng PCA đến dữ liệu của chúng ta Ở cột eigenvalue trên cùng Eigenvalue của các thành phần được biểu diễn Những dữ liệu thô trong bảng biểu diễn thông tin về 1 trong 5 thành phần: dữ liệu thô 1 cũng cấp thông tin về thành phần (PCA1) được rút trích, dữ liệu thô 2 cung cấp thông tin về thành phần thứ 2 (PCA2) được rút trích Eigenvalue là một dãy các số liệu được xếp từ cao xuống thấp
Có thể xem eigenvalue của thành phần 1 là 2.653 trong khi đó eigenvalue của thành phần 2 là 1.98 Nó có nghĩa là thành phần đầu tiên tính toán cho 2.653 đơn vị của tổng các biến trong khi thành phần 2 tính toán cho 1.98 đơn vị Thành phần thứ 3 tính toán khoảng 0.27 đơn vị của biến Chú ý rằng tổng của eigenvalue là 5, nó cũng là
số biến Vậy làm thế nào để ta xác định được có bao nhiêu thành phần đáng giá cho việc giải thích?
d) Phương pháp Kaiser
Phương pháp Kaiser (1960) cung cấp quy tắc ngón tay cái tiện dụng có thể được sử dụng để giữ lại những thành phần có nghĩa Quy tắc này đề nghị được giữ lại những thành phần có eigenvalue lớn hơn 1 Phương pháp này còn được gọi là eigenvalue- một hệ số tiêu chuẩn Nhân tố căn bản cho tiêu chuẩn này thì dễ hiểu Mỗi biến quan sát đóng góp một đơn vị của phương sai đến tổng phương sai trong tập dữ liệu Bất cứ thành phần nào cũng trình diễn một eigenvalue lớn hơn 1 được tính toán cho một lượng lớn của phương sai hơn bất kì đơn biến nào Thành phần này thì tính
Trang 35toán cho một lượng phương sai có nghĩa và nó xứng đáng được giữ lại Nói cách khác, một thành phần có eigenvalue bé hơn 1 thì tính toán được ít phương sai hơn so với một biến đơn lẻ Mục tiêu của phân tích thành phần chính là tinh giảm biến thành một lượng số liệu nhỏ vừa phải của thành phần và điều này thì không thể đạt được kết quả
có nghĩa nếu chúng ta giữ lại những thành phần tính toán cho ít phương sai hơn một biến riêng lẻ Vì lí do này, các thành phần với eigenvalue bé hơn 1 thì ít được dùng và cũng sẽ không được giữ lại Khi một ma trận hiệp phương sai được sử dụng, tiêu chuẩn giữ lại thành phần là eigenvalue phải lớn hơn giá trị trung bình phương sai của tập dữ liệu (Tiêu chuẩn Kaiser-Guttman)
Tuy nhiên, ở phương pháp này có thể dẫn đầu việc giữ lại những số liệu sai của các thành phần nằm dưới trường hợp này thì luôn luôn gặp phải trong nghiên cứu Sự ứng dụng khinh suất của luật này có thể dẫn đến sai sót trong việc làm rõ khi sự khác nhau của eigenvalue của lần lượt các thành phần là không đáng kể Ví dụ, nếu thành phần 2 cho thấy eigenvalue là 1.01 và thành phần 3 là 0.99; theo lí thì thành phần 2 sẽ được giữ lại còn 3 thì ko; điều này có thể gây nhầm lẫn cho chúng ta tin vào việc thành phần thứ 3 là vô nghĩa, thực tế, nó cũng tính toán gần chính xác giống với lượng phương sai như thành phần 2 Nó thì có khả năng để sử dụng thống kê kiểm tra để kiểm tra sự khác biệt giữa các eigenvalue Trên thực tế, tiêu chuẩn Kaiser lờ đi sai sót liên đới với giữa các eigenvalue do mẫu Lambert, Wildt và Durand (1990) đề xuất ra một phiên bản tương tự như phương pháp Kaiser để xác định sự sáng tỏ, rõ ràng của eigenvalue
Bảng 2.1 cho thấy thành phần đầu tiên có eigenvalue lớn hơn 1 Nó giải thích được nhiều phương sai hơn đơn biến, chính xác là 2.653 lần Thành phần 2 cho thấy eigenvalue bằng 1.98 > 1, và thành phần thứ 3 có eigenvalue là 0.269, bé hơn 1 Ứng dụng tiêu chuẩn Kaiser chắc chắn dẫn chúng ta đến việc giữ lại hai thành phần đầu tiên này
e) Phần trăm tích lũy của tổng phương sai tính toán được
Khi xác định số liệu của các thành phần có nghĩa, hãy nhớ rằng không gian phụ của các thành phần được giữ lại phải chiếm một lượng hợp lí của phương sai trong dữ liệu Nó thì thường điển hình cho việc biểu diễn eigenvalue như một tỉ lệ phần trăm của tổng biến Phân số của một eigenvalue trên tổng của tất cả eigenvalue miêu tả
Trang 36lượng phương sai tính toán bởi thành phần chính tương ứng Phần trăm tích lũy của phương sai giải thích bởi thành phần đầu tiên q được tính theo công thức:
𝑟𝑞 =∑ 𝜆𝑗
𝑞 𝑗=1
Hình 2.2 Biểu đồ Scree của eigienvalues
Có bao nhiêu thành phần chính nên dùng phụ thuộc lớn như thế nào một rq cần Tiêu chuẩn này đòi hỏi giữ lại tất cả các thành phần trên tổng phần trăm phương sai
Nó thì khuyến nghị rằng các thành phần được giữ lại tính toán tối thiểu 60% phương sai Thành phần chính tạo cơ hội tăng một chút trong tổng phương sai giải thích được
bỏ qua; các thành phần đó được xem như dữ liệu nhiễu Khi PCA làm việc tốt, hai eigenvalue đầu tiên thường tinh toán cho hơn 60% tổng các biến trong dữ liệu
Trong ví dụ trên, tỉ lệ phần trăm của phương sai tính toán cho mỗi thành phần
và phần trăm tích lũy phương sai xuất hiện trong Bảng 2.1 Từ bảng này chúng ta có thể thấy rằng thành phần đơn lẻ đầu tiên chiếm 53.057% tổng phương sai và thành
Trang 37phần đơn lẻ thứ 2 chiếm 39.597% tổng biến Cộng các tỉ lệ phần trăm cùng cho ra kết quả với tổng là 92.65% Nó có nghĩa là phần trăm tích lũy của phương sai chiếm bởi hai thành phần đầu tiên khoảng 93% Điều này cung cấp một tóm tắt hợp lí của dữ liệu Vậy chúng ta có thể giữ 2 thành phần đầu tiên này lại và loại bỏ những cái khác
đi
Chạy PCA sẽ trở nên dễ dang hơn với phần mềm thống kê Tuy nhiên, để làm sáng tỏ được kết quả có thể là một công việc khó khăn Dưới đây là một vài hướng có thể giúp người thực hiện trong suốt quá trình phân tích
g) Lối vào trực quan của sự tương quan
Một lần phân tích là hoàn chỉnh, nghiên cứu muốn chỉ định một cái tên cho mỗi thành phần được giữ lại để mô tả nội dung của nó Để làm được việc này cần phải biết biến nào giải thích cho thành phần nào Sự tương quan của các biến với thành phần chính là một công cụ hữu ích có thể làm rõ hơn ý nghĩa của các thành phần Mối tương quan giữa mỗi biến và mỗi thành phần chính được thể hiện trong Bảng 2.2
Bảng 2.2 Ví dụ về mối tương quan giữa các biến và thành phần chính
Trang 382.2.4 Phương pháp phân tích cụm (CA)
a) Khái niệm và ứng dụng
Phân tích cụm là tên một nhóm kĩ thuật đa biến có mục tiêu chính là phân loại các đơn vị dựa vào một số đặc tính của chúng Các kĩ thuật này nhận diện và phân loại các đối tượng hay các biến sao cho các đối tượng trong cùng một cụm tương tự nhau xét theo các đặc tính được chọn để nghiên cứu Nội bộ trong các cụm sẽ đồng nhất cao trong khi giữa chúng có sự khác biệt lớn Vì vậy nếu phân loại thành công thì các đối tượng trong cùng một cụm sẽ nằm gần nhau và các đối tượng khác cụm sẽ nằm cách
xa nhau khi được diễn tả trên đồ thị
Cả phân tích cụm và phân tích biệt số đều liên quan đến việc phân loại Tuy nhiên phân tích biệt số đòi hỏi phải có những hiểu biết trước về các nhóm để xây dựng quy tắc phân loại Ngược lại, trong phân tích cụm, thường không có những thông tin trước về các nhóm hay cụm và các nhóm hay cụm này là gì, chủ yếu là do dữ liệu thực
tế quyết định, không phải hoàn toàn là do ý chí chủ quan
b) Tiến hành phân tích cụm
Bước đầu tiên là xác định các biến số dùng để làm cơ sở để phân tích cụm sau
đó chọn một thước đo khoảng cách phù hợp Thước đo khoảng cách cho biết mức độ giống nhau hay khác nhau giữa các đối tượng được phân cụm Có nhiều thủ tục phân cụm khác nhau đã được xây dựng và người nghiên cứu phải chọn một thủ tục phù hợp
Số lượng cụm cần thiết là do phán đoán của người nghiên cứu Các cụm được tạo thành phải được giải thích trên cơ sở các biến được sử dụng để phân cụm và được mô
tả bằng một số biến quan trọng khác Cuối cùng là người nghiên cứu phải đánh giá hiệu lực của quy trình phân cụm này
c) Xác định vấn đề
Phần quan trọng nhất khi xác định vấn đề phân cụm là việc chọn lựa các biến để phân cụm Nếu chỉ đưa vào một hay hai biến không có liên quan hay không thích hợp thì cũng sẽ làm nhiễu hay hỏng cả kết quả phân cụm hữu ích Về cơ bản, nên chọn tập hợp biến có khả năng mô tả được sự giống nhau giữa các đối tượng theo mục đích nghiên cứu Các biến này có thể được chọn trên cơ sở phân tích lý thuyết, kết quả nghiên cứu trong quá khứ, hay xem xét các giả thuyết có liên quan đã được kiểm định