Trong những năm vừa qua, ngành Quản lý xây dựng (QLXD) đã và đang phát triển rất mạnh mẽ ở Việt Nam. Nhiều trường đại học kỹ thuật ở Việt Nam đã mở các chuyên ngành đào tạo về QLXD cả bậc Đại học và Cao học. Trong thực tế, tư duy thống kê là nền tảng cho các quyết định về thực hiện và quản lý dự án xây dựng trước, trong và sau khi triển khai dự án. Trong đào tạo ngành QLXD, phân tích thống kê là công cụ quan trọng giúp người học tìm ra các kết quả và kết luận cho vấn đề đặt ra. Hiện nay, nhu cầu đào tạo ngành QLXD đang có sức hút rất mạnh mẽ. Có thể liệt kê một số trường ở khu vực phía Nam có đào tạo ngành QLXD (hoặc Kinh tế xây dựng) gồm Trường Đại học Bách Khoa – ĐHQG TP.HCM, Trường Đại học Sư phạm Kỹ thuật TP.HCM, Trường Đại học Kiến trúc TP.HCM, Trường Đại học Giao thông Vận tải TP.HCM, Trường Đại học Mở TP.HCM và Trường Đại học Công nghệ TP.HCM (HUTECH). Tuy nhiên, số lượng giáo trình liên quan đến phân tích thống kê còn rất hiếm. Với mong muốn đem đến một tài liệu phục vụ công tác nghiên cứu, dạy và học, nhóm tác giả đã dành tâm huyết và thời gian để viết cuốn sách này. Điều khác biệt trong cuốn sách này đó là các bài toán thực hành liên quan rất chặt chẽ đến một vài vấn đề thực tế của quản lý dự án xây dựng. Hy vọng những nội dung trong cuốn sách sẽ đem lại nguồn tri thức mới cho những ai đang cần, đặc biệt là sinh viên và học viên cao học ngành QLXD.
Trang 1GIÁO TRÌNH
HÀ DUY KHÁNH (Chủ biên)
NGUYỄN THANH TÚ
NGUYỄN VĂN MINH
PHÂN TÍCH THỐNG KÊ CƠ BẢN TRONG QUẢN LÝ XÂY DỰNG
BẰNG SPSS
Trang 2PGS.TS HÀ DUY KHÁNH (chủ biên)
ThS NGUYỄN THANH TÚ, TS NGUYỄN VĂN MINH
GIÁO TRÌNH PHÂN TÍCH THỐNG KÊ CƠ BẢN TRONG QUẢN LÝ XÂY DỰNG
BẰNG SPSS
Trang 3Chịu trách nhiệm biên soạn và liên hệ:
Trang 4LỜI NÓI ĐẦU
Trong những năm vừa qua, ngành Quản lý xây dựng (QLXD) đã và đang phát triển rất mạnh mẽ ở Việt Nam Nhiều trường đại học kỹ thuật ở Việt Nam đã mở các chuyên ngành đào tạo về QLXD cả bậc Đại học và Cao học Trong thực tế, tư duy thống kê là nền tảng cho các quyết định về thực hiện và quản lý dự án xây dựng trước, trong và sau khi triển khai dự
án Trong đào tạo ngành QLXD, phân tích thống kê là công cụ quan trọng giúp người học tìm ra các kết quả và kết luận cho vấn đề đặt ra
Hiện nay, nhu cầu đào tạo ngành QLXD đang có sức hút rất mạnh
mẽ Có thể liệt kê một số trường ở khu vực phía Nam có đào tạo ngành QLXD (hoặc Kinh tế xây dựng) gồm Trường Đại học Bách Khoa – ĐHQG TP.HCM, Trường Đại học Sư phạm Kỹ thuật TP.HCM, Trường Đại học Kiến trúc TP.HCM, Trường Đại học Giao thông Vận tải TP.HCM, Trường Đại học Mở TP.HCM và Trường Đại học Công nghệ TP.HCM (HUTECH) Tuy nhiên, số lượng giáo trình liên quan đến phân tích thống
kê còn rất hiếm Với mong muốn đem đến một tài liệu phục vụ công tác nghiên cứu, dạy và học, nhóm tác giả đã dành tâm huyết và thời gian để viết cuốn sách này Điều khác biệt trong cuốn sách này đó là các bài toán thực hành liên quan rất chặt chẽ đến một vài vấn đề thực tế của quản lý dự
án xây dựng Hy vọng những nội dung trong cuốn sách sẽ đem lại nguồn tri thức mới cho những ai đang cần, đặc biệt là sinh viên và học viên cao học ngành QLXD
Nhóm tác giả viết sách gồm PGS.TS Hà Duy Khánh, ThS Nguyễn Thanh Tú và TS Nguyễn Văn Minh Vai trò của các tác giả trong cuốn sách như sau: PGS.TS Hà Duy Khánh, chủ biên viết tất cả các chương; ThS Nguyễn Thanh Tú và TS Nguyễn Văn Minh tham gia chỉnh sửa, góp
ý và hoàn thiện cuốn sách Đây là phiên bản đầu tiên của cuốn sách nên nội dung có thể tồn tại những hạn chế và thiếu sót, nhóm tác giả rất mong nhận được sự đóng góp chân thành của người đọc Mọi thắc mắc, vui lòng liên hệ PGS.TS Hà Duy Khánh, Khoa Xây dựng, Trường Đại học Sư phạm
Kỹ thuật TP Hồ Chí Minh
Trân trọng cám ơn /
Nhóm tác giả
Trang 6LỜI GIỚI THIỆU
Cuốn sách này cung cấp các phân tích thống kê cơ bản trong ngành QLXD bằng sử dụng phần mềm SPSS (Statistical Package for the Social Sciences) Có hai loại thống kê được trình bày trong cuốn sách gồm thống
kê mô tả và thống kê suy luận Riêng thống kê suy luận chỉ tập trung vào kiểm định mối liên hệ giữa các biến
Cấu trúc của sách gồm 8 chương:
- Chương 1: Giới thiệu thống kê và SPSS
- Chương 2: Thu thập và xử lý số liệu
- Chương 3: Phân tích thống kê mô tả
- Chương 4: Kiểm định mối liên hệ giữa hai biến định tính
- Chương 5: Kiểm định mối liên hệ giữa biến định tính với biến định lượng
- Chương 6: Kiểm định phi tham số
- Chương 7: Phân tích tương quan
- Chương 8: Phân tích hồi quy tuyến tính
Nội dung của từng chương được viết theo logic: giới thiệu tóm tắt lý thuyết, sau đó trình bày thực hành với các bước phân tích (kèm hình ảnh
từ SPSS) cho một ví dụ cụ thể, và cuối cùng là diễn giải kết quả Tổng cộng có 11 ví dụ trong nội dung giáo trình và 6 bài tập làm thêm kèm đáp
án (số liệu được cung cấp trong đĩa CD đính kèm) Các số liệu làm ví dụ trong cuốn sách được nhóm tác giả sưu tầm và giả định Ngoài ra, nội dung cuốn sách có tham khảo một vài nguồn dữ liệu trên Internet và giáo trình khác
Trang 8MỤC LỤC
LỜI NÓI ĐẦU 3
LỜI GIỚI THIỆU 5
DANH MỤC CÁC BẢNG BIỂU, HÌNH ẢNH 9
CHƯƠNG 1: GIỚI THIỆU THỐNG KÊ VÀ SPSS 11
1.1.Tổng quan về thống kê 11
1.2.Giới thiệu SPSS 17
1.3.Khai báo biến và nhập liệu trong SPSS 19
1.4.Thay đổi mặc định ban đầu trong SPSS 23
1.5.Tóm tắt chương 34
CHƯƠNG 2: THU THẬP VÀ XỬ LÝ SỐ LIỆU 35
2.1.Dữ liệu là gì? 35
2.2.Phân loại dữ liệu 36
2.3.Các loại thang đo 37
2.3.1.Thang đo danh nghĩa 37
2.3.2.Thang đo thứ bậc 38
2.3.3.Thang đo khoảng cách 38
2.3.4.Thang đo tỷ lệ 40
2.4.Xác định kích thước mẫu 40
2.5.Nguyên tắc mã hóa và nhập liệu 42
2.6.Những điều bất thường của số liệu và giải pháp phòng ngừa 43
2.6.1.Những điều bất thường của số liệu 43
2.6.2.Giải pháp phòng ngừa sai sót 45
2.6.3.Các phương pháp làm sạch số liệu 46
2.7.Tóm tắt chương 49
CHƯƠNG 3: PHÂN TÍCH THỐNG KÊ MÔ TẢ 50
3.1.Bảng tần suất 50
3.2.Đại lượng mô tả 52
3.3.Lập bảng tần suất kết hợp với các đại lượng thống kê mô tả 56
3.4.Đồ thị 60
3.5.Công cụ Explore 64
3.6.Tóm tắt chương 67
BÀI TẬP THỰC HÀNH 67
Trang 9CHƯƠNG 4:
KIỂM ĐỊNH MỐI LIÊN HỆ GIỮA HAI BIẾN ĐỊNH TÍNH 68
4.1.Kiểm định mối liên hệ giữa hai biến: định danh-định danh, hoặc định danh-thứ bậc 70
4.1.1.Lý thuyết về kiểm định Chi-square 70
4.1.2.Sử dụng SPSS để thực hiện kiểm định Chi-square 72
4.1.3.Một số trị số thống kê khác để kiểm định mối liên hệ giữa hai biến định danh 77
4.2.Kiểm định mối liên hệ giữa hai biến thứ bậc 81
4.2.1.Kiểm định Gamma của Goodman và Kruskal 83
4.2.2.Kiểm định d của Somer 83
4.2.3.Kiểm định Tau của Kendall 84
4.3.Tóm tắt chương 86
BÀI TẬP THỰC HÀNH 87
CHƯƠNG 5: KIỂM ĐỊNH MỐI LIÊN HỆ GIỮA BIẾN ĐỊNH TÍNH VÀ BIẾN ĐỊNH LƯỢNG 88
5.1.Kiểm định trị trung bình của tổng thể 88
5.1.1.Trường hợp một tổng thể 89
5.1.2.Trường hợp có hai tổng thể trở lên 92
5.2.Phân tích phương sai của tổng thể 99
5.2.1.Phân tích phương sai một yếu tố 100
5.2.2.Phân tích phương sai hai yếu tố 108
5.3.Tóm tắt chương 113
BÀI TẬP THỰC HÀNH 114
CHƯƠNG 6: KIỂM ĐỊNH PHI THAM SỐ 115
6.1.Kiểm định dấu 117
6.2.Kiểm định dấu và hạng Wilcoxon 120
6.3.Kiểm định Mann-Whitney 123
6.4.Kiểm định Kruskal-Wallis 126
6.5.Kiểm định Chi-square 128
6.6.Kiểm định Kolmogorov-Smirnov 131
6.7.Kiểm định tỷ lệ 133
6.8.Tóm tắt chương 136
BÀI TẬP THỰC HÀNH 137
Trang 10CHƯƠNG 7:
PHÂN TÍCH TƯƠNG QUAN 138
7.1.Giới thiệu chung 138
7.2.Phân tích tương quan đơn biến 139
7.2.1.Giới thiệu về tương quan Pearson 139
7.2.2.Một số đặc điểm của hệ số tương quan 140
7.2.3.Kiểm định giả thuyết về tương quan 141
7.2.4.Thực hiện phân tích trên SPSS 142
7.3.Phân tích tương quan xếp hạng 145
7.4.Tóm tắt chương 147
BÀI TẬP THỰC HÀNH 148
CHƯƠNG 8: PHÂN TÍCH HỒI QUY TUYẾN TÍNH 149
8.1.Giới thiệu chung 149
8.2.Hồi quy tuyến tính đơn biến 150
8.2.1.Các giả định của phân tích hồi quy 154
8.2.2.Sai số khi ước lượng hồi quy cho tổng thể 155
8.2.3.Đánh giá độ phù hợp của mô hình hồi quy 156
8.2.4.Kiểm tra tính hợp lệ của các giả định cần thiết 163
8.3.Hồi quy tuyến tính đa biến 168
8.4.Tóm tắt chương 174
BÀI TẬP THỰC HÀNH 175
TÀI LIỆU THAM KHẢO 176
PHỤ LỤC 1 177
PHỤ LỤC 2 178
SỐ LIỆU VÀ ĐÁP ÁN BÀI TẬP THỰC HÀNH 178
Đáp án Chương 3: Thống kê mô tả đối tượng nghiên cứu 179
Đáp án Chương 4: Kiểm định mối liên hệ giữa hai biến định tính 181
Đáp án Chương 5: Kiểm định mối liên hệ giữa biến định tính và biến định lượng 184
Đáp án Chương 6: Kiểm định phi tham số 187
Đáp án Chương 7: Phân tích tương quan 190
Đáp án Chương 8: Phân tích hồi quy tuyến tính 193
Trang 11DANH MỤC CÁC BẢNG BIỂU, HÌNH ẢNH
(Ngoài chương trình Excel và SPSS)
• Danh mục bảng biểu:
Bảng 1.1 Giá đất Thành phố Thủ Đức 11
Bảng 2.1 Một số sản phẩm công nghiệp chủ yếu năm 2018 12
Bảng 6.1 Phạm vi thay thế của các kiểm định 116
Bảng 7.1 Tóm tắt các đặc điểm của phân tích tương quan 138
Bảng 8.1 Một số đặc điểm của hồi quy tuyến tính 149
• Danh mục hình ảnh: Hình 1.1 Tuổi thọ theo giới tính của Ireland và EU 13
Hình 2.1 Hai chiều hướng phân tích thống kê 35
Hình 2.2 Phân loại dữ liệu 37
Hình 4.1 Quy tắt bác bỏ giả thuyết rỗng 77
Hình 5.1 Hai phân phối có hình dạng khác nhau 93
Hình 7.1 Chiều hướng bác bỏ giả thuyết rỗng 142
Hình 8.1 Đồ thị thể hiện phương pháp bình phương cực tiểu 151
Hình 8.2 Giả định phương sai cân bằng 154
Hình 8.3 Minh họa giải thích về R2 157
Trang 12CHƯƠNG 1:
GIỚI THIỆU THỐNG KÊ VÀ SPSS
Chương này giúp người học hiểu được vai trò và ý nghĩa của phân tích thống kê trong kỹ thuật và trong xã hội Nội dung bao gồm giới thiệu tổng quan về thống kê và các giao diện của SPSS nhằm giúp người đọc
có cái nhìn tổng quan tốt hơn trước khi bắt đầu Kết quả phân tích thống
kê thực sự đúng và có ý nghĩa khi người nghiên cứu hiểu đúng bản chất của vấn đề nghiên cứu, mục đích của các công cụ phân tích và ý nghĩa của từng kết quả
1.1 Tổng quan về thống kê
Để hiểu về thống kê, hãy đọc các ví dụ bên dưới và trả lời các câu hỏi:
Ví dụ 1: Số liệu giá đất của Thành phố Thủ Đức từ năm 2015 đến năm
2019 được trình bày như Bảng 1.1 bên dưới
Giang Quốc lộ 1K Ranh tỉnh Bình Dương 3,700
2 Bình Chiểu Tỉnh lộ 43 Ranh Quân đoàn 4 3,700
3 Đường số 14 Linh Trung Quốc lộ 1 3,700
4 Cây Keo Tô Ngọc Vân Cuối đường 4,800
5 Chương Dương Võ Văn Ngân Kha Vạn Cân 6,600
6 Đặng Thị Rành Dương Văn
Cam Tô Ngọc Vân 6,600
7 Đặng Văn Bi Võ Văn Ngân Nguyễn Văn Bá 7,000
8 Đào Trinh Nhất Kha Vạn Cân Ranh tỉnh Bình Dương 4,400
9 Đoàn Công Hớn Ngã Ba Hồ Văn
Tư Võ Văn Ngân 8,400
10 Đường số 19 Kha Vạn Cân Cuối đường 4,800
1 Phương pháp thu thập là gì? Công cụ nào để phân tích? Số liệuđược trình bày dưới dạng nào?
Trang 132 Giá đất của đường Đặng Văn Bi là bao nhiêu và có đặc điểm vịtrí gì?
3 Giá đất trung bình của 10 tuyến đường?
4 Nhận xét và diễn giải sự khác nhau giữa giá đất trung bình và giáđất của 01 tuyến đường bất kỳ?
Gợi ý trả lời:
1 Phương pháp: khảo sát thống kê Công cụ phân tích: giá trị trungbình Số liệu trình bày: dưới dạng bảng
2 Giá đất đường Đặng Văn Bi: 7 triệu đồng/m2 Đường Đặng Văn
Bi tiếp giáp hai đầu là đường Võ Văn Ngân và đường NguyễnVăn Bá Đặc điểm đường này là một trong số các đường chínhcủa trung tâm TP Thủ Đức với nhiều cửa hàng, đơn vị sản xuấtkinh doanh nên có giá đất cao hơn một số tuyến đường khác
3 Giá đất trung bình của 10 tuyến đường là: 5.08 triệu đồng/m2.
4 Giả sử chọn Đường số 19, Phường Hiệp Bình Chánh có giá đấttrung bình là 4.8 triệu đồng/m2 Đây cũng là một tuyến đườngnhánh trên Đại lộ Phạm Văn Đồng, chủ yếu phục vụ cho mụcđích ở, ít sản xuất kinh doanh nên giá đất thấp hơn các tuyếnđường khác Tuy nhiên, tuyến đường này gần Sân bay Tân SơnNhất (cách khoảng 8km) và dễ di chuyển qua các Quận khác.Chênh lệch so với giá đất trung bình: 280,000 đồng/m2 (5.5%)
Ví dụ 2: Chỉ số tiêu thụ một số sản phẩm công nghiệp của yếu của Việt
Nam năm 2018 được thể hiện trong Bảng 2.1
Bảng 2.1 Một số sản phẩm công nghiệp chủ yếu năm 2018 [2]
Tên sản phẩm ĐVT 2018 (+/-) % so với 2017
Đá xây dựng các loại 1,000 m 3 205.5 11.5% Sữa hoặc kem đặc có hoặc không có
Bia chai, lon triệu lít 1,660.2 4.9% Thuốc lá điếu triệu bao 2,119.7 10.8% Quần áo các loại trừ quần áo thể thao triệu cái 1,662.3 6.8%
Trang 14Tên sản phẩm ĐVT 2018 (+/-) % so với 2017
Sắt, thép các loại 1,000 tấn 455.5 28.2%
Điện thương phẩm triệu Kwh 24,414.9 7.9%
Phân khoáng hoặc phân hóa học 1,000 tấn 243.2 -24.3%
1 Cho biết mức tiêu thụ và đơn vị tính của đá, xi măng và sắt thépxây dựng?
2 Nhận xét về mức tiêu thụ này? Dự báo xu thế tương lai?
3 Phương pháp tính mức tiêu thụ này?
3 Phương pháp tính mức tiêu thụ: tính chênh lệch giữa 2 năm liền
kề 2017 và 2018, được tính dưới dạng phần trăm (%)
Ví dụ 3: Hãy xem Hình 1.1 và trả lời các câu hỏi bên dưới:
Hình 1.1 Tuổi thọ theo giới tính của Ireland và EU [3]
1 Tuổi thọ (life expectancy) giữa EU và Ireland?
Tuổi thọ (Life expectancy)
Trang 152 Giữa nam và nữ của Ireland?
3 Năm 2017 liệu tuổi thọ có tăng lên không?
3 Năm 2017, dự báo sẽ tăng vì theo số liệu quá khứ từ năm 2007đến năm 2016 có xu hướng tăng rõ rệt Độ tăng đối với nam giới
EU là (78.1-76)/10 = 0.21 năm và nữ giới EU là (83.5-82.2)/10
= 0.13 năm Độ tăng đối với nam giới Ireland là (80-77.2)/10 =0.28 năm và nữ giới Ireland giống với nữ giới EU Nhìn nhậnchung, độ tăng về tuổi thọ của nam giới lớn hơn so với nữ giớicho cả EU và Ireland Tuy nhiên, độ tăng này sẽ đạt đến mộtngưỡng nhất định do tuổi thọ con người không thể nào không cógiới hạn
Nhờ phân tích thống kê, các ví dụ trên đã cung cấp cho chúng ta các thông tin của vấn đề nghiên cứu như giá trị trung bình, độ lệch, giá trị lớn nhất, giá trị nhỏ nhất, phần trăm, và xu hướng liên hệ (thuận chiều hay nghịch chiều) Cụ thể, nếu không có phân tích thống kê, chúng ta không biết được giá trị trung bình của các tuyến đường ở Thành phố Thủ Đức ở
Ví dụ 1, hoặc không có tính phần trăm thì chúng ta đâu biết được mức tiêu thụ của năm 2018 tăng hay giảm so với năm 2017 ở Ví dụ 2, hoặc không
có thể hiện đồ thị thì chúng ta không thể nhìn ra được xu hướng tăng của tuổi thọ, thậm chí là không thấy được mức độ khác nhau giữa tuổi thọ của
EU và Ireland Như vậy, thông qua các ví dụ trên, thống kê là gì?
Thống kê là một phương pháp phân tích sử dụng các công thức toán học bên trong để xử lý và biểu diễn dữ liệu theo một thể thức khoa học nhất định Ngoài ra, nó cũng là một môn khoa học cơ bản trong khối kiến thức khoa học tự nhiên và xã hội giúp tìm hiểu về dữ liệu, sau đó tính toán, giải thích và trình bày cho một vấn đề nghiên cứu cụ thể ở cả mức độ học thuật và thực tiễn
Cho đến nay, phân tích thống kê đã và đang được sử dụng trong nhiều lĩnh vực kỹ thuật và xã hội khác nhau Nhờ có thống kê, chúng ta có thể tìm ra các lỗ hổng và các vấn đề phức tạp trong quá trình thực hiện và vận hành công việc Trên cơ sở đó, chúng ta đưa ra các nghiên cứu để cải thiện tình hình, đặc biệt là trong giai đoạn cần đưa ra các quyết định tiềm ẩn các
Trang 16yếu tố rủi ro Để phân tích thống kê đạt yêu cầu, chúng ta cần phải: hiểu rõ
lý do vì sao phải thực hiện thống kê trước khi thực hiện, xây dựng mô hình thống kê gồm những biến (hay yếu tố) nào, xác định các điều kiện của phân tích thống kê đã lựa chọn, định nghĩa và phân loại số liệu, diễn đạt các kết quả phân tích, và cuối cùng kiểm tra độ phù hợp giữa kết quả phân tích với thực tiễn Có nhiều trường hợp cho thấy có sự khác biệt đáng kể, thậm chí rất lớn, giữa kết quả thống kê và kết quả thực tế Chúng ra cần cẩn trọng với những sự khác biệt này Chúng ta chỉ có thể đưa ra kết luận
có ý nghĩa về mặt thống kê nhưng không đưa ra được kết luận có ý nghĩa thực tiễn Từ đó, chúng ra có những kết luận đúng đắn cho vấn đề nghiên cứu
Thống kê gồm hai loại là thống kê mô tả (descriptive statistics) và thống kê suy luận (inferential statistics) Thống kê mô tả là loại thống kê giúp chúng ra có những kết luận bên ngoài cho vấn đề nghiên cứu Những kết luận này, chúng ra có thể cảm nhận trực quan và đo lường được Trong khi đó, thống kê suy luận là loại thống kê giúp chúng ta có những kết luận bên trong cho vấn đề nghiên cứu Những kết luận này, chúng ra không thể cảm nhận trực quan được nhưng có thể đo lường được dựa vào những công
cụ thống kê phù hợp
Có 4 mức thống kê cơ bản thường được sử dụng tùy theo mức độ yêu cầu của người phân tích: (1) thu thập và xử lý số liệu, (2) phân tích và trình bày các kết quả mô tả, (3) kiểm định các mối liên hệ (hay hiện tượng) giữa các sự kiện (hay yếu tố), và (4) ứng dụng dự báo
- Mức 1 "Thu thập và xử lý số liệu": Mức này thường hay được sử dụng trong hầu hết các phân tích thống kê Để có thể tiến hành phân tích thống kê, chúng ta cần phải có dữ liệu của vấn đề nghiên cứu
Dữ liệu này cần phải có tính đại diện cho tất cả đối tượng khảo sát (hay còn gọi là quần thể) Để đảm bảo tính đại diện, việc thu thập
dữ liệu phải đảm bảo ba nguyên tắc sau: cỡ mẫu đủ lớn, lấy mẫu ngẫu nhiên, và có tính khách quan Tuy nhiên, khi vấn đề nghiên cứu phức tạp hoặc ít phổ biến, rất khó để đảm bảo lấy mẫu có tính đại diện, đặc biệt khó đảm bảo được số lượng mẫu Một số trường hợp, thậm chí không thu thập được số liệu, hoặc thu thập được nhưng lại không đảm bảo được điều kiện phân tích, hoặc phân tích được nhưng lại không đáp ứng được mục tiêu đề ra Có hai phương pháp lấy mẫu là lấy mẫu xác suất (probability sampling) và lấy mẫu phi xác suất hay còn gọi là lấy mẫu thuận tiện (non-probability sampling) Lấy mẫu xác suất là lấy mẫu đảm bảo tính ngẫu nhiên
và khách quan cho tất cả đối tượng khảo sát của quần thể Ngược lại, lấy mẫu phi xác suất không đảm bảo điều này Trong điều kiện
Trang 17ở Việt Nam cũng như nhiều nước trên thế giới, lấy mẫu phi xác suất vẫn còn được chấp nhận vì những lý do nhất định, đặc biệt là
do sự quen biết lẫn nhau và để nhanh có số liệu Những kết luận có được từ phân tích số liệu trên nhóm mẫu này có thể suy luận ra cho quần thể ở mức tin cậy thống kê cao Tuy nhiên, do đặc điểm lấy mẫu thuận tiện nên đôi khi kết luận chỉ phản ánh nhận định chủ quan Điều này gây ra hiện tượng sai lệch (bias) giữa kết luận từ thống kê so với thực tiễn
- Mức 2 "Phân tích và trình bày các kết quả mô tả": Từ các số liệu
có được sau khi thu thập, chúng ta có thể thấy được kết quả bằng nhìn nhận trực quan hoặc bằng các công cụ thống kê mô tả đơn giản Thống kê mô tả thường được sử dụng cho dù vấn đề nghiên cứu ít hay rất phức tạp bởi tính trực quan của kết quả Để thực hiện thống kê mô tả, chúng ta chỉ cần làm các phép toán khá đơn giản như cộng, đếm, tính tần suất, phần trăm Nhắc lại, với các kết quả thống kê mô tả, chúng ta chỉ có thể đưa ra các kết luận bên ngoài của vấn đề nghiên cứu
- Mức 3 "Kiểm định mối liên hệ giữa các sự kiện (hay yếu tố)": Kiểm định này ở mức độ chuyên sâu trong phân tích thống kê Các sự kiện trong thực tế thường xảy ra do chúng có tính chất liên quan với nhau Cụ thể, sự xảy ra của sự kiện này phụ thuộc vào sự xảy
ra hoặc tác động của sự kiện kia Đó được gọi là mối liên hệ giữa hai sự kiện Nếu sự xảy ra của sự kiện này có sự tương đồng với sự xảy ra của sự kiện kia, người ta gọi mối liên hệ này là có tính tương quan (correlative relationship) Nếu sự xảy ra của sự kiện này bị phụ thuộc vào sự tác động của sự kiện kia, người ta gọi mối liên hệ này có tính nhân quả (causal relationship) Để đo lường mối liên
hệ giữa các sự kiện, người ta sử dụng hai đại lượng là mức độ (coefficient) và chiều hướng (direction) Xác định đúng mối liên
hệ cố hữu giữa các sự kiện, sẽ cho chúng ta những kết luận thú vị
và đúng đắn
- Mức 4 "Ứng dụng dự báo": Ở mức 3, dựa trên số liệu quá khứ, nếu
đã xác định đúng mối liên hệ giữa các sự kiện đảm bảo ở mức ý nghĩa thống kê có kiểm chứng thực tiễn thì mối liên hệ này được gọi là quy luật Mối liên hệ giữa chúng càng chặt chẽ (tức ở mức
độ cao và cùng chiều hướng) thì khả năng ứng dụng để dự báo sự xảy ra về sau của sự kiện càng cao Một điều bắt buộc nữa để đảm bảo dự báo phù hợp là giữa hai sự kiện phải có tính nhân quả Trong nhiều lĩnh vực kỹ thuật và xã hội, việc đưa ra một dự đoán chính
Trang 18xác luôn là một nhu cầu cần thiết Dựa vào kết quả dự đoán chúng
ta dễ dàng hơn để đưa ra những quyết sách ở tương lai
Ngày nay, các thông tin thống kê trong lĩnh vực khoa học kỹ thuật và khoa học xã hội gần như sẵn có bởi có sự quản lý của các cơ quan nhà nước và doanh nghiệp bằng các công nghệ thu thập, xử lý và phân tích tiên tiến Tuy nhiên, để đánh giá đúng bản chất của sự vật hay hiện tượng trong quá trình thực hiện, công tác thống kê luôn không ngừng cập nhật và đổi mới Đặc biệt trong thời kỳ phát triển nhanh của khoa học và công nghệ, các vấn đề nghiên cứu có sử dụng thống kê càng trở nên phức tạp Do đó, các nhà nghiên cứu và quản lý cần phải có khả năng hiểu được thông tin
từ thống kê và sử dụng nó một cách hiệu quả Từ đây có thể thấy, tư duy thống kê kết hợp với kinh nghiệm thực hành sẽ giúp chúng ta nắm bắt nhanh hơn các hiện tượng, từ đó dễ dàng hơn khi đưa ra các quyết định phù hợp về sau
ưa chuộng nhiều vì các thao tác đơn giản và giao diện dễ nhìn Các công
cụ phân tích thống kê trong SPSS bao gồm các phân tích từ cơ bản đến nâng cao Tùy vào mục đích nghiên cứu mà chọn công cụ phân tích cho phù hợp Ở Việt Nam, các nhà quản lý và nghiên cứu trong ngành xây dựng thường dùng SPSS như là phần mềm hữu ích để điều tra và phân tích các vấn đề liên quan đến dự án từ lúc hình thành, triển khai và vận hành Đặc biệt, đối với đào tạo sau đại học về QLXD, nó là công cụ dường như không thể thiếu trong các luận văn và luận án Vấn đề khó khăn nhất khi
sử dụng SPSS đó là nó đòi hỏi người sử dụng phải am hiểu tường tận các
lý thuyết về kiểm định và thống kê trước khi sử dụng
Trang 19SPSS có nhiều chức năng chính trong việc xử lý và phân tích dữ liệu bao gồm:
• Nhập và làm sạch dữ liệu
• Xử lý các biến đổi và quản lý các dữ liệu đó
• Tổng hợp dữ liệu và trình bày chủ yếu dưới các dạng bảng và đồthị
• Phân tích dữ liệu, tính toán các tham số thống kê và diễn giải kếtquả
Khi mở chương trình SPSS lên, xuất hiện cửa sổ sau:
• Open an existing data source: mở nguồn dữ liệu sẵn có
• Open another type of file: mở một loại file khác
• Run the tutorial: chạy hướng dẫn sử dụng
• Type in data: loại dữ liệu
• Run an existing query: chạy thảo luận hiện hữu
• Creata new query using Database Wizard: tạo một thảo luận mới
sử dụng thuật toán cơ sở dữ liệu
Các hình thức mở file dữ liệu ở trên thuận tiện và nhanh hơn cho người
sử dụng Tuy nhiên nó thường gây nhầm lẫn Do đó, lời khuyên là người
Trang 20sử dụng nên chọn Cancel nếu việc nhập dữ liệu là lần đầu Khi đó, giao diện mặc định khi mở SPSS ra như sau:
• Data view: cửa sổ xem dữ liệu nhập (màn hình mở mặc định của chương trình)
• Variable view: cửa sổ xem thông tin của tất cả các biến
1.3 Khai báo biến và nhập liệu trong SPSS
- Chọn cửa sổ Variable View:
- Name: tên biến, nên đặt không quá 8 ký tự, không có ký hiệu đặc biệt, và viết liền không có khoảng trống
- Type: kiểu biến, mặc định sau khi đặt tên xong chương trình sẽ chọn kiểu định lượng bằng số (numberic) Nếu muốn thay đổi, click vào ô và chọn các kiểu biến phù hợp Comma = dấu phẩy, dot = dấu chấm, scientific notation = ký hiệu khoa học, date = ngày, dollar = đô-la, custom currency = đơn vị tiền tệ tự chọn, string = chuỗi, và restricted number (integer with leading zero) = số theo quy định (phần nguyên làm tròn)
Mỗi cột là một biến
Giao giữa cột và dòng là vùng nhập
ứng 01 biến
Trang 21- Width: độ rộng của biến, là số ký tự tối đa có thể nhập Mặc định
là 8 ký tự
- Decimal Places: số lẻ sau dấu chấm chia cách phần nguyên và thập phân Mặc định là 2 Lưu ý, theo thông lệ quốc tế, dấu cách giữa các phần nghìn là dấu phẩy, dấu cách giữa phần nguyên và thập phân là dấu chấm
- Label: nhãn hiệu cho biến, nhãn cần phải đặt ngắn gọn nhằm giải thích rõ hơn cho tên gọi biến
- Values: Mặc định sau khi đặt xong tên là None, nhấp chuột vào ô
và chọn nút bên phải sẽ xuất hiện hộp thoại khai báo:
Trang 22• Value: giá trị của thuộc tính
• Lable: gtên của thuộc tính
Ví dụ, trong hình trên: 1 = nam, 2 = nu
Lưu ý: Ở label này, có thể đánh viết tiếng Việt, tuy nhiên, sau này bảng kết quả phân tích kiểu chữ sẽ không đọc được
Sau khi khai báo xong, bấm chọn Add Nếu muốn thay đổi các giá trị và thuộc tính, chọn từ danh mục, sau đó thay đổi lại và bấm Change Nếu muốn xóa, chọn từ danh mục và bấm Remove
- Missing: các giá trị bị khuyết, mặc định là None Tương tự như cột Value, nó được sử dụng trong trường hợp có một thông tin trả lời
bị khuyết ở một số biến nào đó Trình tự thực hiện như sau: ở màn hình nhập liệu, gán một số bất kỳ (khác với số liệu dự kiến nhập) cho ô điền thiếu đó, sau đó, trong cột Value label khai báo nhãn là cho số bất kỳ đó với tên là khongtraloi" (hoặc tên nào tùy chọn), tiếp đến sang cột Missing phải khai báo giá trị đó để sau này phần mềm tính toán sẽ bỏ qua giá trị đó
Ví dụ, người khảo sát số 10 điền thiếu thông tin của biến "a", cách khai báo Missing như sau:
Trang 23• No missing values: không có giá trị khuyết
• Discrete missing values: các giá trị khuyết rời rạc, SPSS cung cấp tối đa 3 giá trị
• Range plus one optional discrete missing value: dãy giá trị cộng với một giá trị khuyết rời rạc có thể Lựa chọn này dùng trong trường hợp giá trị có điền nhưng không phải là một giá trị cố định
- Column: độ rộng của cột biến khi nhập liệu, mặc định là 8
- Align: canh lề trái, giữa và phải của dữ liệu trong cột
- Measure: loại thang đo lường dữ liệu, với 3 loại là định danh (norminal), thứ bậc (ordinal) và scale (mức độ)
Trang 24- Role: vai trò của số liệu Input = biến đầu vào, target = biến mục tiêu, both = cả hai, none = không, partition = một phần, split = ngắt đoạn
Đặc biệt, nếu muốn copy thuộc tính của biến này cho biến khác, sử dụng Control+C và sau đó Control+V vào ô tương ứng Có thể kích chuột phải và chọn copy sau đó paste
- Để lưu lại file dữ liệu chọn: File > Save > Chọn nơi lưu trữ > Đặt tên > Save Đuôi file *.sav
1.4 Thay đổi mặc định ban đầu trong SPSS
Để thuận tiện cho việc sử dụng chương trình và tùy theo sở thích của người sử dụng, chúng ta có thể thay đổi các mặc định ban đầu của chương trình trong hộp thoại options Chọn Edit > Options
- Thẻ General:
Trang 25• Variable lists: danh sách các biến, thể hiện dưới dạng nhãn (display labels) và thể hiện dưới dạng tên (display names) Sắp xếp theo: thứ tự vần A đến Z (alphabetical), dạng file, và mức
độ đo lường (measurement level)
• Roles: tính năng Nhằm tiết kiệm thời gian, các hộp thoại cho phép sử dụng tính năng lĩnh vực định trước để tự động gán các biến vào danh sách Có hai lựa chọn: sử dụng tính năng định trước (use predefined roles) và sử dụng cách gán của người dùng (use custom assignment)
• Windows: màn hình khởi động Nhìn Look and feel có các lựa chọn: SPSS standard (SPSS chuẩn), SPSS classic (SPSS cổ điển), và window Mở window của SPSS khi khởi động (open syntax window at startup) và chỉ mở một bộ dữ liệu ở một thời điểm (open only one dataset at a time)
• Output: đầu ra kết quả Có hai lựa chọn: không có ký hiệu khoa học nào cho các số nhỏ trong các bảng biểu (no scientific notation for small numbers in tables) và áp dụng các định dạng nhóm ký tự của người sử dụng vào giá trị số (apply locale‘s
Trang 26digit grouping format to numeric values) Hệ thống đo lường (measurement system) có inch, centimet và điểm (points) Language: ngôn ngữ, nên chọn tiếng Anh Thông báo (notification): xuất hiện trên cửa sổ đang xem (raise viewer window) và xếp thành đầu ra mới (scroll to new output)
• Character encoding for data and syntax: mã hóa ký tự cho dữ liệu và cú pháp Hệ thống viết của người sử dụng (locale’s writting system) và mã hóa có sẵn (unicode)
• User interface: giao diện người dùng Ngôn ngữ: chọn English
- Thẻ Viewer:
• Initial output state: trạng thái đầu ra ban đầu Các mục (item) gồm phân khúc (log), cảnh báo (warnings), ghi chú (notes), tiêu
đề (title), trang tiêu đề (title page), bảng trụ (pivot table), biểu
đồ (chart), đầu ra chữ (text output), mô hình cây (model model),
và mô hình người dùng (model viewer) Nội dung được hiển thị ban đầu (shown) và ẩn đi (hidden) Canh chỉnh (justification) có trái, giữa và phải
Trang 27• Title: tiêu đề Font chữ và kích thước (size) Nên chọn Arial hoặc Times New Roman
• Page title: tiêu đề trang Font chữ và kích thước (size) Nên chọn Arial hoặc Times New Roman
• Text output: đầu ra chữ Font chữ và kích thước (size) Nên chọn Arial hoặc Times New Roman
- Thẻ Data:
• Transformation and merge options: lựa chọn nhập và chuyển đổi Có hai lựa chọn: tính toán các giá trị ngay lập tức (calculate values immediately) và tính toán các giá trị trước khi dùng (calculate values before used)
• Display format for new numeric values: hiển thị định dạng cho các giá trị số mới Bề rộng (width) và số chữ số thập phân (decimal places)
• Random number generator: Phát số ngẫu nhiên Có hai lựa chọn: phù hợp với SPSS 12 và sau đó (compatible with SPSS
Trang 2812 and earlier) và thuật toán Mersenne Twister chu kỳ dài (long period Mersenne Twister)
• Set century range for 2-digit years: cài đặt khoảng thập kỷ cho các năm 2 chữ số Automatic từ 1950 đến 2049, và tự chỉnh (custom)
• Customize variable view: tùy chỉnh hiển thị đặc điểm biến
• Change dictionary: thay đổi từ điển
• Asignning measurement level: cài đặt mức độ đo lường Nên chọn cut-off number (số giới hạn trong thang đo lường) tối đa
là 24
• Rounding and truncation of numeric values: làm tròn và cắt các giá trị số Nên chọn làm tròn đến 6 chữ số (number of fuzz bits used in RND and TRUNC)
- Thẻ Currency:
Trang 29• Custom output format: định dạng đầu ra tùy chỉnh
• Sample output: đầu ra mẫu Positive value: số dương, negative value: số âm
• All values: dất cả các giá trị Prefix: tiếp tiền tố, suffix: tiếp vị
tố Được sử dụng khi có yêu cầu mã hóa
• Negative values: diá trị âm Prefix: tiếp tiền tố, suffix: tiếp vị
tố Được sử dụng khi có yêu cầu mã hóa
• Decimal separator: dấu chia cách thập phân Period: dấu chấm, comma: dấu phẩy Theo thông lệ quốc tế nên sử dụng dấu chấm cho các con số có thập phân
- Thẻ Output Labels:
Trang 30• Outline labeling: đặt nhãn khung sườn (điểm chính) Chỉ nên chọn loại label
• Pivot table labeling: đặt nhãn bảng trụ Chỉ nên chọn loại label Khi sổ xuống chọn, cả hai loại nhãn trên đều có thể đặt giá trị biến theo ba cách: tên, nhãn, và kết hợp tên với nhãn như hình bên dưới:
Trang 31- Thẻ Chart:
• Chart template: biểu đồ mẫu có sẵn với sử dụng cài đặt hiện hành (use current settings) và sử dụng tệp biểu đồ riêng (use chart template file) Chart aspect ratio: tỷ lệ các khía cạnh biểu
đồ nên chọn là 1.0
• Current settings: cài đặt hiện hành Cỡ chữ (font) nên chọn
Arial, kiểu ưa thích (style cycle preference) nên chọn cycle
through colors only
• Frame: khung sườn Outer: bên ngoài Inner: bên trong
• Grid lines: đường lưới Scale axis: trục thang đo định lượng Category axis: trục thang đo định tính
• Style cycles: kiểu định dạng Colors (màu), Lines (đường nét), Markers (điểm dấu), Fills (điền vào)
Trang 32- Thẻ Pivot Tables:
• TableLook: dạng nhìn của bảng Nên chọn system default Việc canh chỉnh thêm (nếu có) sẽ thực hiện sau khi phân tích kết quả Ngoài ra, SPSS còn cho chúng ta sử dụng một dạng nhìn khác bằng cách chọn Browse và cài đặt đường dẫn đến dạng nhìn này (set TableLook directory)
• Sample: mẫu hiển thị Vùng này cho chúng ta nhìn trước dạng nhìn của bảng
• Column width: bề rộng cột Nên chọn "adjust for labels and data for all tables" (điều chỉnh các nhãn và dữ liệu cho tất cả các bảng) Không chọn "adjust for labels only" (điều chỉnh chỉ các nhãn)
• Display blocks of rows: hiển thị các cụm dòng
• Table rendering: Kết xuất thành các bảng bắt buộc về sau Không nên chọn vì sau này chúng ta sẽ khó điều chỉnh thông tin của ô bảng Nếu chọn, lựa chọn "adjust for labels and data except for extremely large tables" và "display the table as blocks of row" sẽ sáng lên Khi đó, sẽ chọn hai lựa chọn này
Trang 33Tuy nhiên, số lượng dòng thể hiện (rows to display), số ô tối đa (maximum cells), và cách dòng giữa hai bảng (window/orphan tolerance) sẽ do người dùng tự thiết lập
• Default editing mode: dạng điều chỉnh mặc định Nên chọn theo mặc định của máy là Edit all tables in viewer (được phép điều chỉnh tất cả các bảng)
• Copying wide tables to the clipboard in rich text format: sao chép nhiều bảng vào thẻ nhớ tạm cho nhiều định dạng chữ Nên chọn Wrap table (xuống dòng trong ô bảng)
- Thẻ File Locations:
Đây là các thẻ nói về nơi lưu trữ file Nên để theo mặc định, trường hợp muốn lưu vào thư mục chủ ý của mình, chọn đường dẫn đến bằng cách bấm browse
• Startup folders for open and save dialogs: thư mục khởi động cho nhật ký mở và lưu file
• Session Journal: tạp chí phục vụ của việc phân tích kết quả
Trang 34- Thẻ Scripts:
Phần này chúng ta nên để máy tự chạy theo kịch bản Trường hợp muốn chạy theo kịch bản (trình tự phân tích) khác, cần phải viết lại chương trình cấu trúc bên trong Không khuyến khích làm điều này vì không cần thiết
- Thẻ Multiple Imputations:
Trang 35• Marking of imputed data: đánh dấu dữ liệu bị cắt đi/chỉnh sửa Cell background color: màu nền của ô Font: cỡ chữ
• Analysis output: Đầu ra phân tích nên chọn Results for both observed and imputed data (kết quả cho cả dữ liệu quan sát và
bị cắt đi) Nên chọn thêm pooled results (kết quả gộp) để thể hiện kết quả chung của cả hai dữ liệu này
- Thẻ Syntax Editor: điều chỉnh cú pháp Phần này nên để theo mặc định của chương trình
• Syntax color coding: mã hóa màu cú pháp
• Auto-complete setting: cài đặt chế độ tự báo hoàn thành
• Gutter: khoảng trống giữa hai trang (hoặc hai cột) liền kề trong cùng một bảng
• Error color coding: mã hóa màu của các lỗi
• Panes: khung hiển thị
1.5 Tóm tắt chương
Chương này đã trình bày các nội dung về: giới thiệu tổng quan về thống
kê thông qua một vài ví dụ; giới thiệu phần mềm SPSS; cách khai báo biến
và nhập liệu trong SPSS; và cách thay đổi các mặc định ban đầu trong SPSS Người học cần nắm rõ bản chất của thống kê Còn việc cài đặt lại giao diện của SPSS hay không phụ thuộc vào sở thích cá nhân và yêu cầu trình bày phân tích
Trang 36CHƯƠNG 2:
THU THẬP VÀ XỬ LÝ SỐ LIỆU
Chương này giới thiệu cho người đọc cách thức thu thập số liệu, các loại thang đo phổ biến, và xử lý số liệu trước khi đưa vào phân tích Trong thống kê, số liệu là cốt lõi để người nghiên cứu có kết quả hoặc kết luận
Dữ liệu chỉ phù hợp khi nó đáp ứng được cho vấn đề nghiên cứu và được thu thập đúng cách
2.1 Dữ liệu là gì?
Dữ liệu thu thập ban đầu là các số liệu thô (raw data) Dữ liệu được thu thập dựa theo nhiều cách khác nhau: bảng câu hỏi (questionnaire), bảng lấy mẫu (sampling sheet), hồ sơ, tài liệu, mô phỏng, thí nghiệm Nếu chỉ xem xét ở dữ liệu thô, chúng ta chưa thể rút ra được kết luận gì cho vấn đề nghiên cứu vì tính đa dạng và phức tạp của chúng Nhờ phân tích dữ liệu, chúng ta tìm ra các kết luận và đề xuất các giải pháp phù hợp cho vấn đề nghiên cứu Có hai hướng khi phân tích dữ liệu: đảm bảo độ chính xác (hay mức ý nghĩa) của phân tích thống kê, và khả năng được áp dụng để giải quyết vấn đề trong thực tiễn Thông thường, nếu muốn độ chính xác cao của mô hình thống kê thì khả năng áp dụng trong thực tiễn thấp, và ngược lại Từ đó, người nghiên cứu cần cân nhắc lựa chọn mức độ cho phù hợp với mục tiêu đã đặt ra (xem Hình 2.1)
Hình 2.1 Hai chiều hướng phân tích thống kê (hiệu chỉnh từ [4])
Để dữ liệu biến thành tri thức, chúng phải đi qua các bước thông tin
và kết luận Thông tin là những điều mà người khác có thể dễ dàng nhìn ra
từ tổng hợp số liệu Ở mức thông tin, người nghiên cứu cũng có thể đưa ra các kết luận nhưng ở mức tin cậy thấp vì nó còn lệ thuộc vào nhận thức chủ quan hoặc dữ liệu thu thập bị sai hoặc không phù hợp Sự kiện là thông tin khi thông tin này có hỗ trợ cho người nghiên cứu đưa ra quyết định Ở
Thông tin
Sự kiện
Tri thức
Thấp Vừa
Cao Cao
Vừa Thấp
Trang 37mức sự kiện, người nghiên cứu đưa ra kết luận ở mức tin cậy vừa vì lúc này chưa có sự kiểm chứng Tri thức là sự kiện khi những kết luận này là hoàn hảo để ra quyết định và quyết định này có khả năng áp dụng thành công rất cao Ở mức tri thức, người nghiên cứu đưa ra kết luận ở mức tin cậy cao vì lúc này có sự kiểm nghiệm hoặc đối chiếu với thực tiễn Bởi vậy, ngay từ đầu người nghiên cứu cần đặt ra mục tiêu và mức ý nghĩa phù hợp Đó là lý do vì sao chúng ta cần phải phân tích dữ liệu thống kê Một vấn đề khác về dữ liệu nữa đó là nó cần phải được thu thập có chứng cứ và có hệ thống Có chứng cứ nghĩa là dữ liệu được thu thập bằng công cụ thích hợp và được lưu trữ rõ ràng Có hệ thống có thể hiểu là việc thu thập phải trả qua nhiều bước kiểm tra, ghi nhận và xác thực Việc thu thập dữ liệu phải đảm bảo ba yếu tố: xác suất, ngẫu nhiên và độc lập Tuy nhiên, dữ liệu có thể không đảm bảo một trong ba yếu tố này vì tính đặc trưng của vấn đề nghiên cứu Ngoài ra, để thu thập được dữ liệu cần phải định nghĩa biến trước, sau đó xác định đúng đơn vị tính, và cuối cùng là
sử dụng thang đo phù hợp Nếu các biến có liên hệ với nhau, dữ liệu cần đảm bảo tính tương thích ngay từ đầu Đối với những biến này, chúng ta cần phải rất thận trọng khi thu thập số liệu
2.2 Phân loại dữ liệu
Trong thống kê, dữ liệu được phân ra thành hai loại gồm dữ liệu định tính (categorical data) và dữ liệu định lượng (quantitative data) Không có
dữ liệu thì không có thống kê Nhờ có thống kê, dữ liệu mới chuyển tải thành kết luận hay tri thức
Dữ liệu định tính: là loại dữ liệu phản ánh bản chất và đặc điểm của đối tượng nghiên cứu Ví dụ: giả sử màu sắc xe ô tô trên thị trường gồm
có trắng, xanh, đen, đỏ, vàng và nâu Lưu ý rằng, đối với dữ liệu định tính không lấy được trị trung bình vì kết quả không có ý nghĩa Cũng ví dụ trên, giả sử quan sát trong garage có 20 chiếc xe màu trắng và 10 chiếc xe màu đen Như vậy, nếu lấy trung bình số xe trong garage là 15 xe Tuy nhiên, chúng ta không rõ màu của xe là gì Mặc dù, theo lý thuyết màu sắc, màu đen pha với màu trắng có thể ra màu xám trung tính nhưng trên thị trường không có màu này Đó là điều vô lý
Dữ liệu định lượng: là loại dữ liệu phản ánh mức độ hay sự hơn kém nhau cho đối tượng nghiên cứu Dữ liệu này được thể hiện bằng con số cụ thể dưới dạng liên tục hay rời rạc Ví dụ: dữ liệu nhiệt độ trong ngày ở TPHCM vào sẽ dao động từ 25-350C là một tập dữ liệu dạng liên tục Cụ thể, nhiệt độ sẽ thấp vào buổi sáng sớm nhưng sau đó sẽ tăng dần cho đến trưa và sẽ giảm dần vào chiều tối Một ví dụ khác: dữ liệu về số lượng sinh viên của một trường đại học như sau năm 1 có 2000 sinh viên, năm 2 có
Trang 383800 sinh viên, năm 3 có 4200, và năm 4 có 2600 sinh viên Đây là một tập dữ liệu dạng rời rạc bởi số lượng sinh viên năm 1 sau khi hoàn thành các nội dung học của năm 1 thì sẽ sang năm 2 Sở dĩ rời rạc là vì chúng ta không thể trộn sinh viên năm 1 và năm 2 lẫn nhau Tương tự sinh viên các năm khác cũng vậy Lưu ý, chúng ta lấy được trị trung bình của biến định lượng Ở ví dụ trên về nhiệt độ trong ngày, do nhiệt độ có sự tăng giảm liên tục từ sáng cho đến tối nên chúng ta có thể đưa ra kết luận nhiệt độ trung bình trong ngày hôm đó là bao nhiêu
2.3 Các loại thang đo
Thang đo là một công cụ rất quan trọng dùng để đánh giá đặc điểm, tình trạng hay mức độ của yếu tố (hay biến) được tìm hiểu Nó phải phản ánh được đặc trung của đối tượng nghiên cứu Thông thường, người ta thường phải mã hóa hay quy ước giá trị cho thang đo vì mỗi yếu tố có nội dung và mức độ khác nhau Đối với dữ liệu lấy theo khảo sát, có bốn loại thang đo cơ bản được thể hiện như Hình 2.2
Hình 2.2 Phân loại dữ liệu (hiệu chỉnh từ [4]) Trong ngành QLXD, thang đo danh nghĩa thường được sử dụng để điều tra các thông tin cá nhân của đối tượng khảo sát, và các thang đo còn lại gồm thang đo thứ bậc, thang đo khoảng cách và thang đo tỷ lệ thường
áp dụng để thu thập số liệu cho các biến nghiên cứu Trong đó, thang đo khoảng cách là loại cực kỳ phổ biến
2.3.1.Thang đo danh nghĩa
Thang đo danh nghĩa (norminal scale) còn có tên khác là thang đo định danh hay thang đo phân loại Trong thang đo này, các con số (hay ký tự) chỉ dùng để phân loại các đối tượng khảo sát, chứ chúng không mang ý nghĩa nào khác
Ví dụ: Quy ước ký tự a, b, c hoặc d trong thang đo định danh để hỏi về
vị trí công việc của các kỹ sư tại các công trình xây dựng:
Dữ liệu
Dữ liệu định tính Dữ liệu định lượng
Thang
đo danh nghĩa
Thang đo khoảng cách
Thang
đo thứ bậc
Thang đo
tỷ lệ
Trang 39a Kỹ sư hiện trường
Kỹ sư QA/QC" thay vì ban đầu "a Kỹ sư hiện trường"
Do dữ liệu có tính phân loại nên những phép toán thống kê chúng ta có thể sử dụng được gồm: đếm (count), tính tần suất (frequency), tính phần trăm (percent), tính chênh lệch (deviation), xác định đỉnh điểm (mode), và thực hiện một số phép kiểm định thống kê
2.3.2.Thang đo thứ bậc
Thang đo thứ bậc (ordinal scale) cũng là một loại thang đo định danh Việc phân loại các đặc điểm nên sử dụng các ký hiệu (có thể bằng chữ hoặc con số) Tuy nhiên, lúc này các ký hiệu được sắp xếp theo một quy ước nào đó về thứ bậc nhất định thể hiện sự hơn kém nhau Thang đo này được sử dụng khi chúng ta không biết được khoảng cách giữa các thứ bậc
cụ thể là bao nhiêu Khuyến khích dùng chữ để tránh gây nhầm lẫn cho người được khảo sát
Ví dụ: Kỹ sư xây dựng hài lòng như thế nào về chính sách phúc lợi của công ty mình đang làm? Thang đo được sử dụng là: a = không hài lòng, b
= bình thường, và c = hài lòng Nếu một đối tượng khảo sát chọn b sẽ có mức độ hài lòng hơn một đối tượng khác chọn a và thấp hơn người chọn c; tuy nhiên chúng ta không biết được người đó hài lòng gấp mấy lần so với người chọn a và c Còn nếu trong trường hợp này việc mã hóa bằng số như sau: 1 = không hài lòng, 2 = bình thường, và 3 = hài lòng, rất dễ gây nhầm lẫn vì sẽ hiểu người chọn số 2 sẽ có ý nghĩa gấp 2 lần người chọn số
1, hoặc người chọn số 3 gấp 3 lần người chọn số 1, hoặc người chọn số 3 gấp 1.5 lần người chọn số 2 Lúc này, nó là thang đo khoảng cách
Bên cạnh các phép toán như dữ liệu định danh, dữ liệu thứ bậc còn được xem xét thêm khuynh hướng trung tâm (central) thông qua số trung
vị (quartiles), số đỉnh điểm (mode), và độ phân tán (range) thông qua các khoảng tứ trung vị (interquartile range)
2.3.3.Thang đo khoảng cách
Thang đo khoảng cách (interval scale) cũng là một dạng đặc biệt của thang đo thứ bậc vì nó cho biết được khoảng cách của các thứ bậc như trình bày ở ví dụ trên Thông thường thang đo khoảng cách gồm một dãy
Trang 40các chữ số liên tục hoặc đều đặn Lời khuyên, chúng ta nên định nghĩa giá trị của chữ số càng rõ ràng thì người được khảo sát càng dễ chọn Khi dãy
số này có hai cực thể hiện hai trạng thái đối nghịch nhau, lúc đó gọi là thang đo cân bằng
Ví dụ: Mức độ ảnh hưởng của từng nhân tố gây ra phát sinh khối lượng trong các dự án xây dựng theo thang đo bên dưới:
Tên các nhân tố tác động
Mức độ ảnh hưởng đến phát sinh khối lượng
Tính toán thiếu hạng mục công trình X
Làm thêm hoặc thay đổi kế hoạch dự án X
Tư lợi của các bên tham gia để làm phát sinh
chi phí cho dự án
X
Thay đổi chính sách pháp luật Nhà nước X
Thay đổi giá nguyên vật liệu, giá ca máy, thiết
bị
X
Nguồn vật liệu không ổn định X
Như vậy, khoảng cách giữa các mức chênh lệch đều nhau là 1 Điển hình, đối với nhân tố "Thay đổi thiết kế" người được khảo sát chọn số
4, tức là ảnh hưởng nhiều theo quan điểm của người đó Tuy nhiên, mỗi người lại có một quan điểm và nhìn nhận riêng về vấn đề phát sinh khối lượng Ví dụ, có người nghĩ phát sinh khối lượng 1% là nhiều nhưng cũng có người nghĩ phát sinh 1% là ít Tương tự cho các nhân tố còn lại Do đó, thang đo được định nghĩa càng rõ ràng thì càng tốt cho việc phân tích sau này