Khi chúng ta muốn kiểm định sự khác nhau của 2 phân nhóm hay trong việc phân tích các mô hình hồi quy, thì luôn có một giả thiết rất quan trọng đó là các biến phân tích phải có phân phối
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KĨ THUẬT XÂY DỰNG
1 Chiêm Hồng Huấn 2013266 L18 Kĩ thuật Xây dựng
2 Võ Thái Bảo 2012677 L18 Kĩ thuật Xây dựng
3 Cao Phùng Bảo Phúc 2014153 L18 Kĩ thuật Xây dựng
4 Nguyễn Đình Văn 2015022 L18 Kĩ thuật Xây dựng
Trang 2M ỤC LỤC
Danh m ục hình ảnh: 3
PH ẦN 1: LÝ THUYẾT VỀ CÁC THÔNG SỐ ĐỊA KĨ THUẬT 4
PH ẦN 2: CƠ SỞ LÝ THUYẾT THỐNG KÊ 5
2.1 H ồi quy: 5
2.1.1 Mô hình h ồi quy tuyến tính bội: 5
2.1.2 Ước lượng cho các tham số của mô hình hồi quy tuyến tính bội: 6
2.1.3 Các gi ả thuyết cho phương pháp bình phương cực tiểu cho mô hình hồi quy tuyến tính b ội: 6
2.1.4 Độ phù hợp của mô hình hồi quy: 7
2.2 Ki ểm định: 8
2.2.1 Ki ểm định phân phối chuẩn: 8
2.2.2 Phân tích phương sai một nhân tố 11
2.2.3 Ki ểm tra các giả định của phân tích phương sai: 15
2.2.4 Phân tích sâu ANOVA 16
PH ẦN 3: XỬ LÝ DỮ LIỆU 18
Yêu c ầu chung: 18
ĐỀ BÀI: 18
3 1 Đọc dữ liệu 19
3.2 Làm s ạch dữ liệu 20
3.3 Làm rõ d ữ liệu 21
3.4 Xây d ựng mô hình Anova 26
3.5 Đánh giá mối tương quan giữa các đặc tính cơ lý của đất 42
3.6 K ết luận 45
CODE 46
Tài li ệu tham khảo: 49
Trang 3Danh m ục hình ảnh:
Hình 3.3.1 Bi ểu đồ Histogram cho biến Plasticity_index
Hình 3.3.2 Bi ểu đồ Histogram cho biến Cohesion
Hình 3.3.3: Bi ểu đồ Boxplot của Plasticity_index theo từng hố khoan Borehole
Hình 3.3.4: Bi ểu đồ Boxplot của Cohesion theo từng hố khoan Borehole
Hình 3.4.1 Bi ểu đồ hàm Q-Q Plot của Plasticity_index ở hố khoan 1 Hình 3.4.2 Bi ểu đồ hàm Q-Q Plot của Cohesion ở hố khoan 1
Hình 3.4.3 Bi ểu đồ hàm Q-Q Plot của Plasticity_index ở hố khoan 2 Hình 3.4.4 Bi ểu đồ hàm Q-Q Plot của Cohesion ở hố khoan 2
Hình 3.4.5 Bi ểu đồ hàm Q-Q Plot của Plasticity_index ở hố khoan 3 Hình 3.4.6 Bi ểu đồ hàm Q-Q Plot của Cohesion ở hố khoan 3
Hình 3.4.7 Bi ểu đồ thể hiện sự khác biệt giữa giá trị trung bình của Plasticity_index gi ữa các cặp hố khoan
Hình 3.4.8 Bi ểu đồ thể hiện sự khác biệt giữa giá trị trung bình của Cohesion gi ữa các cặp hố khoan
Hình 3.4.9 Bi ểu đồ phân tán thể hiện mối quan hệ giữa 2 biến
Plasticity_index và Cohesion
Hình 3.5.1 Các bi ểu đồ thể hiện các giả định cần kiểm tra
Trang 4PH ẦN 1: LÝ THUYẾT VỀ CÁC THÔNG SỐ ĐỊA KĨ THUẬT
Fine_content ( Hàm lượng hạt mịn): là hàm lượng đất mà thành phần cấu tạo chủ
yếu là bùn và sét đường kính trung bình tối đa của hạt là 0.05mm (0.002); Đất hạt
mịn: đất, gồm hơn 50% trọng lượng là những hạt có kích thước nhỏ hơn 0,08 mm; đất hạt mịn, trong đó hàm lượng sét chiếm hơn 20% trọng lượng của thành phần hạt
mịn
Liquid_limit ( Giới hạn chảy): là hàm lượng nước khi đất chuyển từ trạng thái dẻo sang trạng thái chảy; ký hiệu WL, biểu diễn bằng % khối lượng; khi đất có độ ẩm lớn hơn độ ẩm này thì không còn tính dẻo, mà là trạng thái chảy
Plasticity_index ( Chỉ số dẻo): là khoảng hàm lượng nước chứa trong đất mà trong khoảng đó đất thể hiện tính dẻo; Là hiệu số độ ẩm ở giới hạn chảy và giới hạn dẻo, đặc trưng cho tính dẻo của đất:
𝑷𝑰 = 𝑾𝑳 − 𝑾𝑷 (%)
• Đất cát pha khi PI = 1 ÷ 7
• Đất sét pha khi PI = 7 ÷ 17
• Đất sét khi PI > 17
Thông thường chỉ số dẻo phụ thuộc vào lượng sét có trong đất Giá trị PI cao cho
thấy đất sét dư thừa và điều đó làm cho đất đó có độ dẻo cao hơn
Internal_friction_angle ( Góc ma sát trong): là
góc có phương tiếp tuyến (tanφ), tỷ số giữa lực
cản ma sát dọc theo bất kỳ mặt phẳng nào trong
khối đất với thành phần của lực tác dụng lên mặt
Trang 5PH ẦN 2: CƠ SỞ LÝ THUYẾT THỐNG KÊ
Hồi quy là một phương pháp thống kê để thiết lập mối quan hệ giữa một biến phụ thuộc và một nhóm tập hợp các biến độc lập Mô hình với một biến phụ thuộc với hai hoặc nhiều biến độc lập được gọi là hồi quy bội (hay còn gọi là hồi quy đa biến)
Mô hình hồi quy tuyến tính bội có dạng tổng quát:
𝑌 = 𝛽1+ 𝛽2𝑋2+ 𝛽3𝑋3+ +𝛽𝑖𝑋𝑖 + 𝑢 Trong đó: 𝑌 là biến phụ thuộc
𝑋𝑖 là biến độc lập
𝛽1 là hệ số tự do
𝑢 là sai số ngẫu nhiên
Các 𝛽𝑖 là các hệ số hồi quy riêng, là tác động riêng phần của biến 𝑋𝑖 lên 𝑌 với điều kiện các biến số khác trong mô hình không đổi Cụ thể hơn, nếu các biến khác trong
mô hình không đổi, giá trị kỳ vọng của 𝑌 sẽ tăng 𝛽𝑖 đơn vị nếu 𝑋𝑖 tăng 1 đơn vị
• Hệ số i > 0 : khi đó mối quan hệ giữa Y và X i là thu ận chiều, nghĩa là khi X i tăng (hoặc giảm) trong điều kiện các biến độc lập khác không đổi thì Y cũng
sẽ tăng (hoặc giảm)
• Hệ số i < 0: khi đó mối quan hệ giữa Y và Xi là ngược chiều, nghĩa là khi Xi tăng (hoặc giảm) trong điều kiện các biến độc lập khác không đổi thì Y sẽ
giảm (hoặc tăng)
• Hệ số i = 0: có th ể cho rằng giữa Y và Xi không có tương quan với nhau, cụ
thể là Y có thể không phụ thuộc vào X i hay là Xi không thực sự ảnh hưởng tới
Y
Dựa vào kết quả ước lượng với một mẫu cụ thể, ta có thể đánh giá được mối quan
hệ giữa biến phụ thuộc và các biến độc lập trong mô hình một cách tương đối
Trang 62.1.2 Ước lượng cho các tham số của mô hình hồi quy tuyến tính bội:
Bài toán đặt ra là từ các dữ liệu quan sát, chúng ta cần ước lượng cho các hệ số hồi quy 𝛽1, 𝛽2, … của mô hình hồi quy Phương pháp thường được sử dụng là phương
pháp bình phương cực tiểu OLS ( Ordinary Least Squares); Hàm hồi quy mẫu
(SRF) được xây dựng có dạng:
𝑌̂ = 𝛽𝑖 ̂ + 𝛽1 ̂𝑋2 2+ 𝛽̂𝑋3 3+ +𝛽̂ 𝑋𝑖 𝑖
Và 𝑌𝑖 = 𝛽̂ + 𝛽1 ̂𝑋2 2+ 𝛽̂𝑋3 3+ +𝛽̂ 𝑋𝑖 𝑖 + 𝑢̂ 𝑖Trong đó: 𝛽̂, 𝛽1 ̂, … 𝛽2 ̂ là ước lượng của 𝛽𝑖 1, 𝛽2, … 𝛽𝑖; 𝑢̂ là ước lượng của 𝑢, phần 𝑖
dư của quan sát thứ i
a Hàm h ồi quy là tuyến tính theo các tham số:
Điều này có nghĩa là quá trình thực hành hồi quy trên thực tế được miêu tả bởi mối quan hệ dưới dạng:
𝑌 = 𝛽1+ 𝛽2𝑋2+ 𝛽3𝑋3+ +𝛽𝑖𝑋𝑖 + 𝑢 Hoặc mối quan hệ thực tế có thể viết lại ví dụ như dưới dạng lấy loga cả hai vế
b E(ui) = 0 : K ỳ vọng của các yếu tố ngẫu nhiên u i b ằng 0:
Trung bình tổng thể sai số là bằng 0 Điều này có nghĩa là có một số giá trị sai số mang dấu dương và một số sai số mang dấu âm Do hàm xem như là đường trung bình nên có thể giả định rằng các sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức trung bình, trong tổng thể
c Cov(ui,uj) = 0 : Không có s ự tương quan giữa các u i:
Không có sự tương quan giữa các quan sát của yếu tố sai số Nếu ta xem xét các chuỗi số liệu thời gian (dữ liệu được thu thập từ một nguồn trong nhiều khoảng thời gian khác nhau), yếu tố sai số ui trong khoảng thời gian này không có bất kỳ một tương quan nào với yếu tố sai số trong khoảng thời gian trước đó
d Var(ui) = σ 2 : Phương sai bằng nhau và thuần nhất với mọi u i:
Trang 7Tất cả giá trị u được phân phối giống nhau với cùng phương sai σ2, sao cho:
Var(ui) = E(𝑢𝑖2) = σ2
e ui phân ph ối chuẩn:
Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả thuyết trong những phạm vi mẫu là nhỏ Nhưng phạm vi mẫu lớn hơn, điều này trở nên không mấy quan trọng
Để có thể biết mô hình giải thích được như thế nào hay bao nhiêu % biến động của biến phụ thuộc, người ta sử dụng R2
Ta có:
∑(𝑦𝑖 − 𝑦̅)2 = ∑[(𝑦𝑖 − 𝑦̂) + (𝑦𝑖 ̂ − 𝑦̅)]𝑖 2 = ∑[𝑒𝑖 + (𝑦̂ − 𝑦̅)]𝑖 2
= ∑ 𝑒𝑖2+ 2 ∑ 𝑒𝑖(𝑦̂ − 𝑦̅) + ∑(𝑦𝑖 ̂ − 𝑦̅)𝑖 2
Đặt:
✓ ∑(𝑦𝑖 − 𝑦̅)2: TSS – Total Sum of Squares
✓ ∑(𝑦̂ − 𝑦̅)𝑖 2: ESS – Explained Sum of Squares
✓ ∑ 𝑒𝑖2 : RSS – Residual Sum of Squares
Vì ∑ 𝑒𝑖𝑦̂ = 0; ∑ 𝑒𝑖 𝑖𝑦̅ = 0 → ∑ 𝑒𝑖(𝑦̂ − 𝑦̅) = 0 𝑖
Nên có thể viết: TSS = ESS + RSS, với:
• TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y i và
giá trị trung bình
• ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ
thuộc Y nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng Phần
này đo độ chính xác của hàm hồi quy
• RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và
các giá trị nhận được từ hàm hồi quy
𝑅2 = 𝐸𝑆𝑆𝑇𝑆𝑆 = 1 −𝑅𝑆𝑆𝑇𝑆𝑆
Trang 8Tỷ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình phương cần
được giải thích được gọi là hệ số xác định, hay là trị thống kê “Good of fit” Từ định nghĩa R 2 chúng ta thấy R 2đo tỷ lệ hay số % của toàn bộ sai lệch Y với giá trị
trung bình được giải thích bằng mô hình Khi đó người ta sử dụng R 2để đo sự phù
hợp của hàm hồi quy
0 ≤ 𝑅2 ≤ 1
• R 2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động của biến phụ thuộc
• Nếu R 2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của Y
• Nếu R 2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của
biến phụ thuộc Y
Trong mô hình hồi quy 2 biến thì R 2đo độ thích hợp của hàm hồi quy Nó chính là
tỷ lệ của toàn bộ sự biến đổi của biến phụ thuộc Y do biến giải thích X gây ra
Trong phân tích thống kê, phần lớn các phép tính dựa vào giả định biến số phải là
một biến số phân phối chuẩn (Normal Distribution) Do đó, một trong những việc
quan trọng khi xem xét dữ kiện là phải kiểm định giả thiết phân phối chuẩn của một biến số Khi chúng ta muốn kiểm định sự khác nhau của 2 phân nhóm hay trong việc phân tích các mô hình hồi quy, thì luôn có một giả thiết rất quan trọng đó là các biến phân tích phải có phân phối chuẩn
❖ Kiểm định phân phối chuẩn bằng biểu đồ:
Dựa vào biểu đồ Histogram với đường cong biểu diễn cho phân phối chuẩn: xét thấy
có sự trùng khớp thì biến sẽ tuân theo phân phối chuẩn và ngược lại nếu không có
sự trùng khớp thì ta nói biến không tuân theo phân phối chuẩn
Trang 9Nh ận xét:
• Đối với biểu đồ bên trái ta thấy đường cong biểu diễn phân phối chuẩn không
khớp với biểu đồ Histogram nên ta có thể nói biến đó không tuân theo phân
phối chuẩn
• Đối với biển đồ bên phải cho ta thấy sự trùng hợp đa phần của biểu đồ Histogram và đường cong nên ta có thể kết luận biến được biểu diễn có phân
phối chuẩn
❖ Kiểm định phân phối chuẩn bằng Q-Q plot:
Biểu đồ Q-Q plot có thể cho ta thấy được những giá trị quan sát đa phần có nằm trên đường thảng kì vọng của phân phối chuẩn hay không; Nếu đã phần không nằm trên đường kì vọng thì ta nói biến đó không tuân theo phân phối chuẩn
Trang 10Nh ận xét:
• Đối với biểu đồ Q-Q plot bên trái cho ta thấy những quan sát phần lớn không nằm trên đường thẳng kì vọng của phân phối chuẩn nên ta có thể kết luận biến
đó không tuân theo phân phối chuẩn
• Đối với biểu đồ Q-Q plot bên phải có thể nhận thấy đa phần các quan sát hầu như nằm trên đường thẳng kì vọng của phân phối chuẩn vì thế mà ta có thể
kết luận biến quan sát được có tuân theo phân phối chuẩn
❖ Sử dụng kiểm định Shapiro Wilk:
Phát biểu giả thuyết thống kê:
H0: Biến cần kiểm định tuân theo phân phối chuẩn
H1: Biến cần kiểm định không tuân theo phân phối chuẩn
Giá trị thống kê Shapiro-Wilk:
𝑊 = (∑𝑛𝑖=1𝑎𝑖𝑥𝑖)
2
∑ (𝑥𝑛 𝑖 − 𝑥̅)2 𝑖=1
Với: 𝑥𝑖 là giá trị thứ I nhỏ nhất của x
Trang 11Phân tích phương sai một nhân tố ( One way Analysis of Variances) là phân tích ảnh
hưởng của một yếu tố nguyên nhân (dạng biến định tính) ảnh hưởng đến một yếu tố
kết quả (dạng biến định lượng) đang nghiên cứu Ta đi vào lý thuyết như sau:
Giả sử rằng chúng ta muốn so sánh trung bình của k tổng thể dựa trên những mẫu
ngẫu nhiên độc lập gồm n1 , n2 , , nk quan sát từ k tổng thể này Cần ghi nhớ ba
giả định sau đây về các nhóm tổng thể được tiến hành phân tích ANOVA:
- Các tổng thể này có phân phối bình thường;
- Các phương sai tổng thể bằng nhau;
- Các quan sát được lấy mẫu là độc lập nhau
Nếu trung bình của các tổng thể được kí hiệu là μ1 , μ2 , , μk thì khi các giả định trên được đáp ứng, mô hình phân tích phương sai một yếu tố ảnh hưởng được mô
tả dưới dạng kiểm định giả thuyết như sau:
H 0 : μ 1 = μ 2 = = μ k
Giả thuyết H0 cho rằng trung bình của k tổng thể đều bằng nhau (về mặt nghiên
cứu liên hệ thì giả thuyết này cho rằng yếu tố nguyên nhân không có tác động gì đến vấn đề ta đang nghiên cứu)
Và đối thuyết:
H 1 : T ồn tại ít nhất một cặp trung bình tổng thể khác nhau
Trang 12Hai giả định đầu tiên để tiến hành phân tích phương sai được mô tả như hình dưới đây, ta thấy ba tổng thể đều có phân phối bình thường với mức độ phân tán tương đối giống nhau, nhưng ba vị trí chênh lệch của chúng cho thấy ba trị trung bình khác nhau Nếu ta thực sự có các giá trị của 3 tổng thể và biểu diễn được phân phối của chúng như hình dưới thì ta không cần phải làm gì nữa mà có thể kết luận được ngay
là bác bỏ H0 hay 3 tổng thể này có trị trung bình khác nhau
Nhưng ta chỉ có mẫu đại diện được quan sát, nên để kiểm định giả thuyết này, ta thực hiện các bước sau:
𝑛𝑖 (𝑖 = 1, 2, … , 𝑘)
Trang 13Tính trung bình của k mẫu, tức trung bình của toàn bộ mẫu được khảo sát:
𝑥̅ = ∑∑𝑘𝑖=1𝑛𝑖𝑥̅𝑖
𝑛𝑖
𝑘 𝑛=1
Ngoài ra có thể tính trung bình chung của k mẫu bằng cách lấy cộng tất cả các 𝑥𝑖𝑗
rồi đem chia cho tất cả các quan sát trong tổng thể
✓ Tổng bình phương chênh lệch trong nội bộ nhóm SSW hay SSE
Tổng các chênh lệch bình phương trong nội bộ nhóm (SSW hay SSE ) được tính bằng cách cộng các chênh lệch bình phương giữa các giá trị quan sát với trung bình mẫu của từng nhóm, rồi sau đó lại tính tổng cộng kết quả tất cả các nhóm
lại; Là yếu tố dùng để phân biệt các tổng thể/ nhóm đang so sánh
Tổng các chênh lệch bình phương của từng nhóm dược tính theo công thức: Nhóm 1: 𝑆𝑆1 = ∑ (𝑥𝑛1 1𝑗 − 𝑥̅̅̅)1 2
✓ Tổng bình phương chênh lệch giữa các nhóm SSB hay SSTr
Tổng các chênh lệch bình phương giữa các nhóm (SSB hay SSTr) được tính bằng cách cộng các chênh lệch được lấy bình phương giữa các trung bình mẫu của từng nhóm với trung bình chung của k nhóm (các chênh lệch này đều được nhân thêm với
số quan sát tương ứng của từng nhóm):
𝑆𝑆𝐵 = ∑ 𝑛𝑖(𝑥̅ − 𝑥̅)𝑖 2
𝑘 𝑖=1
✓ Tổng chênh lệch bình phương toàn bộ SST
Trang 14Tổng các chênh lệch bình phương toàn bộ SST được tính bằng cách cộng tổng các chênh lệch đã lấy bình phương giữa từng giá trị quan sát của toàn bộ mẫu nghiên
cứu (xij) với trung bình chung toàn bộ (x̅)
𝑆𝑆𝑇 = ∑ ∑(𝑥𝑖𝑗 − 𝑥̅)2
𝑛 𝑖
𝑗=1
𝑘 𝑖=1
ℎ𝑜ặ𝑐 𝑆𝑆𝑇 = 𝑆𝑆𝑊 + 𝑆𝑆𝐵
Trung bình của các chênh lệch bình phương được tính bằng cách lấy các tổng các chênh lệch bình phương chia cho bậc tự do tương ứng
✓ Đối với nội bộ nhóm MSW hay MSE có bậc tự do tương ứng là 𝑛 − 𝑘 ( với k
Giả thuyết về sự bằng nhau của k trung bình tổng thể được quyết định dựa trên tỉ
số của hai phương sai: phương sai giữa các nhóm MSB và phương sai trong nội
bộ nhóm MSW; Tỉ số này được gọi là tỷ số F vì nó tuân theo qui luật Fisher– Snedecor với bậc tự do là k - 1 và k(n-1):
Trang 15Source of
Variation
Sum of Squares - SS
Degree of Freedom ( df )
Mean Squares ( MS )
Chúng ta có thể kiểm tra nhanh các giả định này bằng đồ thị Histogram là phương pháp tốt nhất để kiểm tra giả định về phân phối bình thường của dữ liệu nhưng nó đòi hỏi một số lượng quan sát khá lớn Biểu đồ thân lá hay biểu đồ hộp và râu là một thay thế tốt trong tình huống số quan sát ít hơn Nếu công cụ đồ thị cho thấy tập dữ
liệu mẫu khá phù hợp với phân phối bình thường đã thỏa mãn Hình dưới mô tả biểu
đồ hộp râu cho tập dữ liệu mẫu về ba nhóm sinh viên trong tập dữ liệu của chúng ta
Đồ thị cho thấy ngoại trừ nhóm có thời gian tự học TB có hình dáng phân phối của
dữ liệu hơi lệch sang trái, còn hai nhóm còn lại có phân phối khá cân đối Với số quan sát không nhiều thì biểu hiện như thế này của dữ liệu là khả quan và có thể chấp nhận được
Để khảo sát giả định bằng nhau của phương sai, biểu đồ hộp và râu cũng cho cảm
nhận ban đầu nhanh chóng, với ba biểu đồ này, mức độ phân tán của dữ liệu trong trong mỗi tập dữ liệu mẫu không khác biệt nhau nhiều
Trang 16Một phương pháp kiểm định tham số chắc chắn hơn cho giả định phương sai bằng nhau là kiểm định Levene về phương sai của các tổng thể Kiểm định này xuất phát
từ giả thuyết sau:
phương sai nhỏ nhất trong các nhóm nghiên cứu
Giá trị F tính được đem so sánh với giá trị 𝐹(𝑘;𝑑𝑓);𝛼 tra được từ bảng phân phối Hartley Fmax
Trong đó k là số nhóm so sánh, bậc tự do 𝑑𝑓 = (𝑛̅ − 1), với:
𝑛̅ = ∑𝑘𝑖=1𝑘 𝑛𝑖Lưu ý: Nếu 𝑛̅ là số thập phân thì ta lấy phần nguyên
𝑁ế𝑢: 𝐹𝑚𝑎𝑥 > 𝐹(𝑘;𝑑𝑓);𝛼thì ta bác bỏ H0 cho rằng phương sai bằng nhau và ngược lại
2.2.4 Phân tích sâu ANOVA
Mục đích của phân tích phương sai là kiểm định giả thuyết H0 rằng trung bình của các tổng thể bằng nhau Sau khi phân tích và kết luận, có hai trường hợp xảy ra là
chấp nhận giả thuyết H0 hoặc bác bỏ giả thuyết H0 Nếu chấp nhận giả thuyết H0 thì phân tích kết thúc Nếu bác bỏ giả thuyết H0, ta kết luận trung bình của các tổng thể không bằng nhau Vấn để tiếp theo là phân tích sâu hơn để xác định nhóm (tổng thể) nào khác nhóm nào, nhóm nào có trung bình lớn hơn hay nhỏ hơn
Có nhiều phương pháp để tiếp tục phân tích sâu ANOVA khi bác bỏ giả thuyết H0 Trong phần này chỉ để cập đến 1 phương pháp thông dụng đó là phương pháp Tukey,
phương pháp này còn được gọi là kiểm định HSD (Honestly Significant Differences)
Trang 17Nội dung của phương pháp này là so sánh từng cặp các trung bình nhóm ở mức ý nghĩa α nào đó cho tất cả các cặp kiểm định có thể để phát hiện ra những nhóm khác nhau Nếu có k nhóm nghiên cứu, và chúng ta so sánh tất cả các cặp nhóm thì số
lượng cặp cần phải so sánh là tổ hợp chập 2 của k nhóm
𝑇 = 𝑞𝛼,𝑘,𝑛−𝑘 √𝑀𝑆𝑊
𝑛𝑖Trong đó:
nghĩa 𝛼, với bậc tự do k và n-k, với n là tổng số quan sát của mẫu
• 𝑀𝑆𝑊 là trung bình chênh lệch bình phương trong nội bộ nhóm
Tiêu chuẩn kiểm định để bác bỏ giả thiết H0khi độ lệch tuyệt đối giữa các cặp trung bình mẫu lớn hơn hay bằng T giới hạn
Trang 18PH ẦN 3: XỬ LÝ DỮ LIỆU
o Mỗi nhóm chọn ít nhất 1 dữ liệu
o Phải dùng phần mềm R để phân tích Code R phải được trình bày chung vào
cuối bài báo cáo, trong một khung riêng Phần bài giải và thảo luận phải
được trình bày rõ ràng, chi tiết
ĐỀ BÀI:
Tệp tin “soft_clay.csv” bao gồm dữ liệu của 3 hố khoan HK1, HK2 và HK3 tại 3 công trình khác nhau Mỗi hố khoan gồm các thông số địa chất công trình theo độ sâu của lớp đất bùn sét yếu khu vực tỉnh Cần Thơ, bao gồm: Độ sâu Depth, hàm lượng hạt mịn Fine_content, giới hạn chảy của đất Liquid_limit, chỉ số dẻo của đất Plasticity_index, góc ma sát trong Internal_friction_angle, l ực dính Cohesion
Dữ liệu được Cô Kiều Lê Thủy Chung cung cấp sau chuyến đi khảo sát ở Cần Thơ
và các tài liệu tham khảo, hướng dẫn được để ở file tài liệu
2 Làm sạch dữ liệu: Dữ liệu bị thiếu, dữ liệu bị sai,…
3 Làm rõ, mô tả dữ liệu: biến đổi dữ liệu, thống kê mô tả, đồ thị, biểu đồ,…
4 Kiểm định các giả thuyết thống kê: Xây dựng mô hình Anova: Ta quan tâm đến việc kiểm định rằng liệu các lớp đất đá ở các hố khoan khác nhau có cùng
nằm chung 1 hệ tầng hay không, tức có cùng một nguồn gốc hay không??
5 Đánh giá mối tương quan giữa các đặc tính cơ lý của đất đá
6 Kết luận
Trang 203.2 Làm s ạch dữ liệu
❖ Trích tệp tin con bao gồm các biến chính mà ta đã đưa ra:
new_soft_clay <- soft_clay[,c( "Borehole" , "Plasticity_index" , "Cohesion" )] head(new_soft_clay,5)
Kết quả khi chạy dòng code:
❖ Kiểm tra dữ liệu khuyết trong tệp tin:
Trang 213.3 Làm rõ d ữ liệu
❖ Tính các giá trị thống kê mô tả cho từng hố khoan Borehole:
by(new_soft_clay[,c( "Plasticity_index" , "Cohesion" )],new_soft_clay$Borehole,su mmary)
Kết quả khi chạy dòng code:
Trang 22❖ Vẽ đồ thị Histogram thể hiện phân phối của Plasticity_index:
hist(new_soft_clay$Plasticity_index,xlab= "Plasticity_index" ,main= "Histogram o
f Plasticity_index" ,label= T ,col= "pink" ,ylim=c(0 15))
Nh ận xét:
Đây là biểu đồ phân bố tần số cho biến Plasticity_index Dựa trên biểu đồ:
• Mức chỉ số dẻo có phân bố nhiều nhất ở khoảng 23-25%
• Mức chỉ số dẻo có phân bố ít nhất là khoảng trên 28% và khoảng dưới 18%
Hình 3.3.1 Bi ểu đồ Histogram cho biến Plasticity_index
Trang 23❖ Vẽ đồ thị Histogram thể hiện phân phối của Cohesion:
hist(new_soft_clay$Cohesion,xlab= "Cohesion" ,main= "Histogram of Cohesion" ,labe l= T ,col= 15 ,ylim=c(0 20))
Nh ận xét:
Đây là biểu đồ phân bố tần số cho biến Cohesion Dựa trên biểu đồ:
• Mức lực dính có phân bố nhiều nhất trong khoảng 90-100 kG/cm 2
• Mức lực dính có số lượng ít nhất là khoảng trên 100 kG/cm 2 và khoảng dưới
110 kG/cm 2
Hình 3.3.2 Bi ểu đồ Histogram cho biến Cohesion
Trang 24❖ Vẽ biểu đồ Boxplot th ể hiện phân phối của Plasticity_index theo t ừng
boxplot(Plasticity_index~Borehole,data=new_soft_clay,main= "Boxplot of Plastic ity_index for Borehole" ,col=c( "pink" , 15 , 45 ))
Nh ận xét:
Đối với Hố khoan 1:
• Chỉ số dẻo Plasticity_index thấp nhất là 12% và cao nhất là 26%
• 25% quan sát có chỉ số dẻo từ 20% trở xuống
• 50% quan sát có chỉ số dẻo từ 22% trở xuống
• 75% quan sát có chỉ số dẻo từ 23.25% trở xuống
Đối với Hố khoan 2:
• Chỉ số dẻo Plasticity_index thấp nhất là 19% và cao nhất là 26%
• 25% quan sát có chỉ số dẻo từ 21% trở xuống
Hình 3.3.3: Bi ểu đồ Boxplot của Plasticity_index theo từng hố khoan Borehole