Bài giảng Phân tích dữ liệu với SPSS được biên soạn bởi TS. Nguyễn Thị Phương Giang với các nội dung phân loại dữ liệu, mã hóa, nhập liệu và một số xử lý trên biến; làm sạch dữ liệu; tóm tắt và trình bày dữ liệu; phân tích nhân tố Explore factor và kiểm định Cronbach Analysis Alpha; phân tích liên hệ giữa biến nguyên nhân định tính và biến kết quả định lượng kiểm định trung bình tổng thể; phân tích liên hệ giữa biến nguyên nhân định tính và biến kết quả định lượng phân tích phương sai; kiểm định phi tham số...
Trang 1Chương I
PHÂN LOẠI DỮ LIỆU, MÃ HÓA, NHẬP
LIỆU VÀ MỘT SỐ XỬ LÝ TRÊN BIẾN
Biên soạn: TS NGUYỄN THỊ PHƯƠNG GIANG
Phone: 0944.822.211
E-Mail: nguyenthiphuonggiang@iuh.edu.vn
NỘI DUNG
• Phân loại dữ liệu
• Các loại thang đo
• Nguyên tắc mã hóa và nhập liệu
• Cửa sổ làm việc của SPSS
• Tạo tập tin dữ liệu trong SPSS
• Dữ liệu định lượng: Phản ánh mức độ hơn
kém, được thể hiện bằng các con số nên
tính được giá trị trung bình Các con số
thu thập có thể ở dạng liên tục hay rời rạc.
Trang 202/08/2017 4
Các loại thang đo
• Thang đo danh nghĩa (Nominal scale):
Trong thang đo này, các con số chỉ dùng
để phân loại các đối tượng.
• Những phép toán thống kê có thể sử dụng
được là: đếm, tính tần suất của một biểu
hiện nào đó
Các loại thang đo
• Thang đo thứ bậc (Ordinal scale): Các con
số trong thang đo danh nghĩa được sắp
xếp theo một qui thứ bậc.
Ví dụ: Bạn hài lòng như thế nào về mùi của
sản phẩm Snack Khoai tây chiên mà bạn
vừa dùng thử? (Hài lòng, bình thường,
không hài lòng)
Các loại thang đo
• Thang đo khoảng (Interval scale): Là dạng
đặc biệt của thang đo thứ bậc vì nó cho
biết được khoảng cách giữa các thứ bậc.
Thông thường thang đo khoảng có dạng là
một dãy các chữ số liên tục và đều đặn từ
1 đến 5, từ 1 đến 7 hay từ 1 đến 10,…
Dãy số này có 2 cực ở hai đầu thể hiện 2
trạng thái đối nghịch nhau.
Trang 302/08/2017 7
Các loại thang đo
• Thang đo tỉ lệ (Ratio scale): có tất cả các
đặc tính khoảng cách và thứ tự của thang
đo khoảng, ngoài ra điểm không trong
thang đo khoảng là một giá trị thật nên có
thể thực hiện được phép chia để tính tỉ lệ.
Thang đo khoảng và thang đo tỉ lệ có thể đo
lường nên SPSS gộp chung hai loại thang
đo này thành thang đo mức độ (Scale
Measures).
Nguyên tắc Mã hóa – Nhập liệu
Giới tính Tuổi Nghề nghiệp
Trang 402/08/2017 10
Nguyên tắc Mã hóa –
Nhập liệu
• Phần lớn mỗi biến tương ứng với một câu
hỏi cụ thể trong bản trả lời Như thế ta chỉ
cần tạo 1 biến.
• Trường hợp câu hỏi có thể chọn nhiều trả
lời thì chúng ta phải có nhiều con số để
nhập nên cần phải có nhiều ô để nhập.
• Qui tắc nhập liệu: Từ trái qua phải (theo
từng dòng) và từ trên xuống (sang dòng)
Cửa sổ làm việc của SPSS
• Khởi động
- Click biểu chương trình trên thanh công cụ
- Từ Menu Start, chọn Program, chọn SPSS
• Nội dung của Menu
- File: xử lý File
- Edit: chỉnh sửa
- View: Hiển thị
Cửa sổ làm việc của SPSS
- Data: các công tác liên quan đến dữ liệu
- Transform: Chuyển đổi dữ liệu, tính toán,
mã hóa lại các biến.
- Analyze: Thực hiện các thủ tục thống kê
- Graphs: Tạo biểu đồ, đồ thị
- Windows: Sắp xếp các cửa sổ làm việc
trong SPSS.
Trang 502/08/2017 13
Tạo tập tin dữ liệu trong
SPSS for Windows
• Khai báo biến:
- Click Variable view.
- Khai báo biến trên từng dòng, nội dung
của dòng là các thuộc tính của biến.
- Name: Tên biến
- Type: Kiểu biến
- Width: Độ rộng của biến
- Value: Mã hóa cho các giá trị định tính
- Missing: Khai báo các loại giá trị khuyết
- Column: Độ rộng của biến khi nhập liệu
- Align: Vị trí dữ liệu trong cột
- Measure: Chọn loại thang đo
Tạo tập tin dữ liệu trong
SPSS for Windows
• Lưu tập tin dữ liệu:
- Menu File, chọn Save.
- Save in: chọn nơi lưu
- File name: Đặt tên file (chỉ đặt tên chính)
- Click nút Save
Mặc định kiểu tập tin là sav
Trang 602/08/2017 16
Một số xử lý trên biến
• Mã hóa lại biến (Recode):
Sử dụng khi cần giảm số biểu hiện của một
biến định tính.
Hoặc muốn chuyển biến định lượng thành
biến định tính
- Qui trình thực hiện:
- Menu Transform > Recode into Different
Variables (tạo biến mới) hoặc Recode into
Same Variables (thay biến cũ)
Một số xử lý trên biến
- Chọn biến muốn Recode
- Đặt lại Name và Label, Click Change
- Click Old and New Values… để xác định sự
Biến dạng Category có nhiều trị số mã hóa
tượng trưng cho nhiều trạng thái.
Biến Dichotomy là biến phân loại chỉ có 2 trị
số mã hóa tượng trưng cho 2 trạng thái
khác nhau (có hoặc không)
Trang 702/08/2017 19
Một số xử lý trên biến
• Cách thực hiện:
– Menu transform, chọn Count
– Target Variable: Khai báo tên biến cần tạo
– Target Label: Khai báo nhãn
– Đưa các biến cần chuyển vào Numeric Var
– Click Define Values mở hộp thoại
• Menu Edit, chọn Options:
– Measurement System: Thay đổi đơn vị
– Variable list: Thay đổi cách thể hiện
– Pivot Table: Chọn cách thể hiện bảng kết quả
– File Location: Chọn nơi lưu trữ và mở file dữ
liệu
– Viewer: Chọn font hiển thị kết quả
Câu hỏi ôn tập
1 Hãy cho biết các loại dữ liệu và các
loại thang đo?
2 Nguyên tắc mã hóa và nhập liệu
3 Trình bày cách tạo tập tin dữ liệu
trong SPSS For Windows.
4 Qui trình thực hiện việc mã hóa lại
biến (Recode)
5 Chuyển Category thành Dichotomy
Trang 8Chất lượng của phỏng vấn và đọc soát (hiểu sai, thu
thập sai, chọn sai đối tượng, trả lời sai ý, người đọc
soát chưa phát hiện,…)
Nhập dữ liệu (sai, sót, thừa)
Trang 9Các biện pháp ngăn ngừa
Thiết kế bản câu hỏi rõ ràng, dễ hỏi, dễ trả lời
Chọn lọc và huấn luyện phỏng vấn viên kỹ lưỡng
Sau khi phỏng vấn, bản câu hỏi phải được đọc soát
-Lập bảng tần số cho tất cả các biến, đọc và rà soát các
giá trị lạ Sau đó dùng lệnh FIND để tìm lỗi
Cách thực hiện
-Trong Data View, chọn cột có giá trị lỗi
-Vào Menu Edit > Find
-Nhập vào giá trị lỗi
-Truy ngược lại số thứ tự của hàng để biết được bản
câu hỏi tương ứng
Các phương pháp làm sạch dữ liệu
Dùng bảng phối hợp hai hay ba biến
-Lập bảng tần số cho tất cả các biến, đọc và rà soát các
giá trị lạ Sau đó dùng lệnh FIND để tìm lỗi
Cách thực hiện
-Trong Data View, chọn cột có giá trị lỗi
-Vào Menu Edit > Find
-Nhập vào giá trị lỗi
-Truy ngược lại số thứ tự của hàng để biết được bản
câu hỏi tương ứng
-Vào Data > Sort Case để sắp xếp biến filter_$
Trang 10Các phương pháp làm sạch dữ liệu
Cách tìm lỗi đơn giản ngay trên cửa sổ dữ liệu
-Sử dụng lệnh Data > Sort Case để tìm lỗi đơn giản
cho các biến giới tính
Câu hỏi ôn tập
Sự cần thiết phải làm sạch dữ liệu.
Các biện pháp ngăn ngừa lỗi cho dữ liệu
Trang 11đại lượng thống kê mô tả
• Thống kê mô tả theo thủ tục Explore
• Xác định số lượng và tỉ lệ của các biểu
hiện nào đó trong tập dữ liệu
• Ví dụ: Lập bảng tần số của gtinh
• Sau khi thực hiện, ta được 2 bảng:
– Bảng 3.1
– Valid: Trị hợp lệ (Số người có trả lời)
– Missing: Thiếu dữ liệu (Không trả lời)
Trang 12Trương Ngọc Tú 34
BẢNG TẦN SỐ ĐƠN GiẢN
– Bảng 3.2
– Cột đầu tiên là các biểu hiện của biến gtinh
– Frequency: Tần số của từng biểu hiện
– Percent: Tần suất tính theo tỉ lệ %
– Valid Percent: Phần trăm hợp lệ, tính trên số
quan sát có thông tin trả lời.
– Cumulative Percent: Phần trăm tích lũy do cộng
dồn từ các phần trăm từ trên xuống.
Frequency Percent Valid
Percent Cumulative Percent
click vào tên biến và click nút mũi tên sang
phải (hoặc nhấp đôi tại biến)
– Click OK ta có 2 bảng kết quả 3.1 và 3.2
– Lưu ý: Nếu bỏ chọn ở phần Display Frequency
Tables thì ta chỉ tạo được bảng 3.1
35
CÁC ĐẠI LƯỢNG THỐNG KÊ MÔ TẢ
• Chỉ thực hiện đối với các biến định lượng
• Cách thức tiến hành lệnh:
– Menu Analyze > Descriptive Statistics >
Descriptive.
– Chọn 1 hoặc nhiều biến định lượng muốn tính
bằng cách click vào tên biến và click nút mũi
tên sang phải (hoặc nhấp đôi tại biến)
– Click nút Options để vào hộp tùy chọn các đại
lượng thống kê
– Click Continue để trở về hộp thoại trước đó
– Click OK ta có bảng kết quả Descriptives
Bảng 3.3
36
Trang 13Trương Ngọc Tú 37
CÁC ĐẠI LƯỢNG THỐNG KÊ MÔ TẢ
• Ý nghĩa của các kết quả trên bảng 3.3:
– N: Tổng số quan sát
– Minimun: Giá trị nhỏ nhất
– Maximun: Giá trị lớn nhất
– Mean: Giá trị trung bình cộng
– Std Error: Sai số chuẩn khi dùng giá trị trung
bình mẫu để ước lượng giá trị trung bình của
tổng thể
– Std Deviation: Độ lệch chuẩn, cho biết mức độ
phân tán của các giá trị của biến quanh giá trị
trung bình
37
CÁC ĐẠI LƯỢNG THỐNG KÊ MÔ TẢ
• Lựa chọn cách thể hiện bảng kết quả:
– Trên cửa sổ Output, nhấp đôi tại bảng kết quả.
– Menu Pivot > Transpose Rows and Columns
– Ngoài ra ta cũng có thể dùng cách đổi thứ hai:
Menu Pivot > Pivoting Trays Lần lượt thực hiện
sắp xếp các nhãn đại diện vào bảng, ta sẽ có
được bảng kết quả theo yêu cầu (sinh viên tự
• Percentile Values: Các giá trị tứ vị phân, …
• Central Tendency: Khuynh hướng tập trung
• Dispersion: Khuynh hướng phân tán
• Distribution: Hình dáng phân phối
– Để vẽ biểu đồ, ta nhấn nút Chart, trong đó:
• None: không thể hiện
• Bar charts: Biểu đồ dạng thanh
• Pie charts: Biểu đồ hình tròn
• Histograms:Biểu đồ phân phối tần số
– Click OK
39
Trang 14– Chọn một hay nhiều biến dạng định lượng và
đưa sang khung Dependent List (biến tuoi).
– Chọn một hay nhiều biến muốn sử dụng làm
điều kiện để phân tích biến định lượng trên.
– Click nút Statistics để vào hộp Explore:Statistic
– Click nút Plots để vào hộp thoại Explore
– Click nút Options lựa chọn cách thức thủ tục
Explore xử lý các giá trị Missing.
– Sau mỗi lần chọn và xử lý xong các hộp thoại
trên, click nút Continue để về hộp thoại chính.
– Tại hộp thoại Explore, click OK.
40
THỐNG KÊ MÔ TẢ VỚI THỦ TỤC EXPLORE
• Chức năng của thủ tục Explore:
– Tính toán các đại lượng thống kê cho tất cả các
trường hợp hoặc cho các nhóm con
– Nhận diện các giá trị khác biệt
– Tính toán các giá trị thập vị phân của phân phối
– Tạo biểu đồ, hình dáng của biểu đồ cho thấy dữ
liệu phân phối như thế nào.
• Chuẩn bị thực hành (tạo file Explore)
– Vào Menu Data > Select Cases
– Chọn Random sample of cases
– Click Sample (nhập số 20 vào khung
Aproximately)
– Click Continue và sau đó Click OK (nhớ chọn
mục Delete unselected cases)
Trang 15Điểm số nhân tố (Factorial Scores)
Độ tin cậy và hiệu lực (Reliability and Validity)
ĐỊNH NGHĨA
Chú ý: từ đây có thể hiện các biến là các items
Phân tích nhân tố khám phá là một phương pháp
phân tích thống kê dùng để rút gọn một tập gồm
nhiều biến quan sát phụ thuộc lẫn nhau thành một
tập biến (gọi là các nhân tố) ít hơn để chúng có ý
nghĩa hơn nhưng vẫn chứa đựng hầu hết nội dung
thông tin của tập biến ban đầu (Hair & ctg, 1998)
Filà ước lượng trị số của nhân tố (factor) thứ i
Wiklà quyền số hay trọng số nhân tố (weight or factor
score coefficient) của biến số thứ k đến nhân tố i
k: Số biến (items)
Trang 16ĐỊNH NGHĨA PHÂN TÍCH NHÂN TỐ
Rút gọn số biến
đầu tiên là xác định các chiều (dimension) khác nhau
sau đó, giải sự liên quan của mỗi biến (variable, items)
với các nhân tố (factors)
tùy theo tình hình mà giảm số lượng
KÍCH THƯỚC MẪU
Tối
100
Số
thiểu là 50 quan sát và tốt hơn là lớn hơn
quan sát sẽ ảnh hưởng đến việc lựa chọn
các tiêu chuẩn trong phân tích nhân tố
Qui tắc kinh nghiệm: số quan sát lớn hơn (ít
nhất) 5 lần số biến (items)
VÍ DỤ THANG ĐIỂM LIKERT
Trang 17SƠ LƯỢC VỀ KHÁI NIỆM
Khái niệm là công cụ
để gọi tên một sự kiện khoa học,
để tư duy và trao đổi thông
là cơ sở để nhận dạng bản
tin,chất của một sự vật
Ví dụ: Khoa học
Nội hàm là hệ thống trí thức về bản chất sự vật
Ngoại diện là các loại khoa học: khoa học tự nhiên, xã hội, kỹ thuật…
THÀNH PHẦN CỦA LÝ THUYẾT KHOA HỌC
cứu: giá trị, thời gian và không gian -> giả thuyết
Các giới hạn trong nghiên
Giả thuyết
lý thuyết
nghiên cứu
Giả thuyết kiểm định
Khái niệmKhái niệm
nghiên cứu
Trang 18MÔ HÌNH NGHIÊN CỨU VÀ CÁC KHÁI NIỆM
Factor
các biến cần phân tích nhân tố vào
ô Variables vào như hình vẽ Nhấn vào Descriptive s
Trang 19PHÂN TÍCH NHÂN TỐ
Chọn image và KMO
và
Câu hỏi: Nếu KMO <0,5 hoặc Sig (Bartlett’s Test) > 0,05
thì giải quyết thế nào?
có giá trị trên đường chéo của Anti-image
Matrices < 0,3
-=> Bỏ items
Kiểm định Bartlett xem xét giả thuyết Ho: độ tương quan giữa các biến
quan sát bằng không trong tổng thể.
Trang 20Vấn đề 2: Chọn số lượng nhân tố cố định trước
Copyright @ 2009, LÊ VĂN HUY,
Thông tin từ biểu
Rotated
Compon ent Matrix
Bỏ các items
có giá trị
<0,5 (Hair và cộng sự, 2006)
Bỏ các items
có giá trị
<0,5
PhD., Danang University of Economics
Copyright @ 2009, LÊ VĂN HUY,
Trang 21tích sau khi
đã loại các items MT3, MT4
Đặt tên của các Factors (từ 1 đến 7)
Khi đặt tên:
Nên đối chiếu với các biến tiềm ẩn trong phần mô hình lý thuyết
Khi đặt tên:
- F1: Lãnh đạo
- F2: Cơ hội đào tạo
và thăng tiến - - -
F3:
F5:
F7:
Lương, thưởng Đồng nghiệp Phúc lợi Ban chất CV Môi trường LV
CÂU HỎI 1
Hãy kết luận
F1: Cơ hội đào tạo và thăng tiến
ĐT5,F1 = Mean (ĐT2, ĐT3, ĐT4, ĐT6, ĐT7)
Trang 23TÍNH CÁCH NHÂN SỐ
Trung bình của các biến (items)
Trang 24KIỂM ĐỊNH CRONBACH ALPHA
Analyze Scale Reliability Analysis
KIỂM ĐỊNH CRONBACH ALPHA
- Chọn các biến (items) biểu hiện F1 vào phân tích Statistics
Trang 25CÂU HỎI
Nếu Cronbach Alpha <0,6 thì xử lý thế nào?
Æ Cần kiểm tra loại items nào để cho Cronbach
Kết luận: Thỏa điều kiện
Trang 26KẾT LUẬN
Các nhân số của các nhân tố dùng để tính toán
chỉ được hình thành sau khi kiểm tra EFA và
Cronbach Alpha (thõa mãn các điều kiện)
Vậy, các nhân tố Fi được tính như thế nào
THANG ĐO ĐƠN HƯỚNG VÀ ĐA HƯỚNG
Khái niệm có thể chỉ gồm một yếu tố / thành phần
và thang đo khái niệm
là thang đo đơn hướng
Khái niệm có thể gồm
chỉ có một thành phần gọi(unidimensional)
nhiều yếu tố / thành phần
và thang đo
đa
khái niệm có nhiều thành phần gọi là
thang đo hướng (multiunidimensional)
Trang 27Kiểm định giả thuyết về sự bằng nhau của 2 trung
bình tổng thể dựa trên 2 mẫu độc lập rút từ 2 tổng thể
này Sử dụng lệnh Independent-Sample T-Test
Kiểm định giả thuyết về sự bằng nhau của hai trung
bình tổng thể theo cách phối hợp từng cặp Sử dụng
lệnh Paired-Sample T-Test
Kiểm định giả thuyết về sự bằng nhau của trung bình
nhiều tổng thể (Phân tích phương sai) Sử dụng lệnh
One-way ANOVA
Nội dung
Kiểm định giả thuyết về trị trung bình của một tổng
thể - trường hợp mẫu độc lập (Independent-Samples
T-Test)
Kiểm định trị trung bình của hai mẫu phụ thuộc hay
mẫu phối hợp từng cặp (Paired-Sample T-Test)
Trang 28Kiểm định giả thuyết về trị trung bình
của một tổng thể
Kiểm định tuổi trung bình của độc giả báo SGTT là 30
Đặt Ho: Tuổi trung bình của độc giả báo SGTT là 30
Chuyển biến Category từ c2a.1 đến c2a.9 thành biến
tên là docSGTT (12) với biểu hiện 1 là người có đọc
Dùng Select Case lọc ra các trường hợp docSGTT=1
(dùng bảng tần số Frequencies để kiểm tra số lượng)
Vào menu Analyze > Compare Means > One-Sample
T-Test
Đưa biến tuổi vào khung Test Variable, khai báo Test
Value = 30 và chọn độ tin cậy 99% trong nút Options
Click Continue và OK
Kiểm định giả thuyết về sự bằng nhau giữa hai
trung bình tổng thể
Kiểm định giả thuyết về trị trung bình của hai tổng thể
- trường hợp mẫu độc lập (Independent-sample
Click biến định lượng sonk đưa vào Test Variable
Click biến định tính tp đưa vào Grouping Variable
Trường hợp biến định tính có nhiều hơn hai thì nên
chọn 2 hoặc có thể mã hóa lại biến (Transform >
Recode > Into Different Variable) thành biến có 2 biểu
hiện
Click Continue và click OK
Kiểm định trị trung bình của hai mẫu phụ thuộc
hay mẫu phối hợp từng cặp
Trang 29Lưu ý thực hiện kiểm định với SPSS
VÀ BIẾN KẾT QUẢ ĐỊNH LƯỢNG
PHÂN TÍCH PHƯƠNG SAI
Nội dung
Phân tích phương sai một yếu tố (ANOVA)
Phân tích phương sai hai yếu tố (Two-way anova)
Trang 30Phân tích phương sai một yếu tố
Khái niệm – Vận dụng
Phân tích phương sai là sự mở rộng của kiểm định
T-Test, vì nó giúp ta so sánh trị trung bình của 3 nhóm
trở lên với khả năng sai số 5%
Trong file Data thuc hanh, ta khảo sát xem mức độ
quan trọng của yếu tố “có tự do cá nhân” có khác biệt
nhau không giữa những nhóm người có trình độ học
vấn khác nhau
Ta đặt giả thuyết:
Ho: Không có khác biệt về sự đánh giá tầm quan trọng
của yếu tố “có tự do cá nhân” giữa các nhóm trình độ
học vấn
Phân tích phương sai một yếu tố
Thực hiện phân tích phương sai một yếu tố với SPSS
Menu Analyze > Compare Means > One-way ANOVA
Đưa biến định lượng c36.6 vào khung Dependent list,
đưa biến phân loại xác định các đối tượng (hocvan)
vào Factor
Click nút Options Chọn Descriptive và Homogeneity
of variance test
Click Continue, xong OK
Phân tích phương sai một yếu tố
Đọc kết quả phân tích phương sai của SPSS
Bảng đầu tiên cho thấy các đại lượng thống kê mô tả
cho từng nhóm và cho toàn bộ mẫu nghiên cứu
Bản thứ hai cho kết quả kiểm định phương sai Với
mức ý nghĩa Sig cho ta đánh giá tầm quan trọng của
yếu tố…
Bảng thứ ba trình bày kết quả phân tích ANOVA Với
mức ý nghĩa quan sát Sig với độ chấp nhận sẽ xác định
phép kiểm định này có tầm quan trọng như thế nào