1.2 Nhập dữ liệu trong SPSSĐể nhập một tập dữ liệu vào SPSS, ta thực hiện như sau: Bước 1: Tại cửa sổ SPSS DaTa Editor, ta n vào nút Variable View để khai báo thông tin về các thuộc tính
Trang 1Bài giảng
hướng dẫn thực hành
SPSS Phan Thanh Hồng - Nguyễn Thị Nhung
Tháng 5 năm 2010
Trang 2Mục lục
Trang
1.1 Giới thiệu và cài đặt phần mềm SPSS 1
1.1.1 Giới thiệu phần mềm SPSS 1
1.1.2 Cài đặt SPSS 1
1.1.3 Kh i động SPSS 1
1.2 Nhập dữ liệu trong SPSS 2
1.3 Đọc dữ liệu từ những file có sẵn trong SPSS 9
1.3.1 Đọc dữ liệu từ file sav 9
1.3.2 Đọc dữ liệu từ file xls 10
1.3.3 Đọc dữ liệu từ file.txt 11
1.4 Lọc dữ liệu 14
1.5 Mã hóa dữ liệu 20
1.5.1 Mã hóa dữ liệu trong nội bộ biến 20
1.5.2 Mã hóa dữ liệu vào biến mới 23
1.6 Làm sạch dữ liệu 26
1.6.1 Dùng b ng tần số 27
1.6.2 Dùng lệnh Sort case để tìm dữ liệu sai trên cửa sổ Data View 28
1.6.3 Dùng b ng phối hợp hai biến hay ba biến 28
Bài 2 Lập bảng tần số và tính các đại lượng thống kê mô tả 30 2.1 Tóm tắt dữ liệu bằng b ng tần số 30
2.1.1 B ng tần số cho dữ liệu định tính và dữ liệu định lượng có ít biểu hiện 30 2.1.2 Phân tổ dữ liệu 31
2.2 Lập b ng tổng hợp nhiều biến 32
2.2.1 B ng kết hợp hai biến định tính 32
2.2.2 B ng kết hợp ba biến định tính 34
2.2.3 B ng kết hợp một biến định tính và một biến định lượng 35
2.3 Tính các đại lượng thống kê mô t 36
2.3.1 Bài tập ôn luyện 40
Trang 33.1 Một số loại biểu đồ 41
3.2 Biểu đồ thanh 41
3.2.1 Cách vẽ biểu đồ thanh 41
3.2.2 Ví dụ: vẽ biểu đồ thanh biểu diễn một biến 43
3.2.3 Ví dụ: vẽ biểu đồ thanh biểu diễn một biến được phân tách b i một biến khác 43
3.3 Biểu đồ tròn 45
3.3.1 Cách vẽ biểu đồ tròn 45
3.4 Biểu đồ g p khúc, diện tích (Line, Area Chart) 46
3.4.1 Ví dụ 46
3.4.2 Ví dụ 47
3.5 Biểu đồ tần số (Histogram) 48
3.5.1 Cách vẽ biểu đồ tần số (Histogram) 49
3.6 Biểu đồ hộp và râu (Boxplot) 51
3.6.1 Cách vẽ biểu đồ hộp và râu (Boxplot) 51
3.7 Biểu đồ tán xạ (Scatter plot) 54
3.7.1 Cách vẽ biểu đồ tán xạ (Scatter plot) 54
Bài 4 Kiểm định mối quan hệ giữa hai biến 56 4.0.2 Ví dụ: kiểm định mối liên hệ hai biến định danh, hay định danh-thứ bậc 56 4.0.3 Kiểm định mối liên hệ hai biến thứ bậc 59
Bài 5 Kiểm định về trung bình 61 5.1 Kiểm định về trung bình một tổng thể 61
5.2 Kiểm định về sự khác nhau của hai trung bình của hai tổng thể khi mẫu độc lập 62 5.3 Kiểm định về sự khác nhau của hai trung bình của hai tổng thể khi mẫu cặp 64
Bài 6 Phân tích phương sai (ANOVA) 67 6.0.1 Ví dụ 67
6.0.2 Phân tích sâu ANOVA 69
Trang 4SPSS là một hệ thống phần mềm thống kê toàn diện được thiết kế để thực hiện t t c cácbước trong các phân tích thống kê từ những tính toán trong thống kê mô t (liệt kê dữ liệu, lập
b ng tần số, lập biểu đồ, tính các đại lượng thống kê mô t , ) đến thực hiện những bài toántrong thống kê suy diễn (kiểm định, tương quan, hồi qui, )
Cài đặt SPSS
Cho đến nay, SPSS có r t nhiều phiên b n khác nhau, phiên b n mới nh t (5/2010) là phiên
b n 18.0 Với những tính toán thống kê phổ biến ta có thể cài SPSS với một trong các phiên
b n 13.0, 14.0 hay 16.0, T t c các phân tích trong tài liệu này được thực hiện trên phiên b nSPSS 13.0
Khởi động SPSS
Để kh i động SPSS ta có thể thực hiện theo những cách sau:
• Kích đúp vào biểu tượng SPSS trên màn hình;
• Vào Start Ñ Program Ñ SPSS for Windows Ñ SPSS 13.0 for Windows
Sau khi kh i động, ta được giao diện sau:
Trang 51.2 Nhập dữ liệu trong SPSS
Để nhập một tập dữ liệu vào SPSS, ta thực hiện như sau:
Bước 1: Tại cửa sổ SPSS DaTa Editor, ta n vào nút Variable View để khai báo thông tin
về các thuộc tính của từng biến trong file dữ liệu
Trong một b ng Variable View
• Các hàng là các biến;
• Các cột là các thuộc tính của biến
Các thuộc tính của một biến bao gồm:
• Tên biến (Name)
• Loại dữ liệu (Type)
• Số lượng con số hoặc chữ (Width)
• Số lượng chữ số thập phân (Decimals)
• Mô t biến/nhãn biến (Lable) và nhãn trị số biến (Values)
Trang 6• Các giá trị khuyết thiếu do ngư i sử dụng thiết lập (Missing)
• Độ rộng của cột (Columns)
• Căn lề (Align)
• Thang đo của biến (Measure)
Khi khai báo hoặc chỉnh sửa các thuộc tính của biến trong cửa sổ Variable View cần chú ý
một số điểm sau:
• Tên biến ph i bắt đầu bằng một chữ cái và không được kết thúc bằng một d u ch m Têncủa biến là duy nh t, không được đặt trùng tên biến và tên biến không phân biệt chữ hoa,chữ thư ng
• Loại biến: Variable Type xác định loại dữ liệu đối với từng biến Theo mặc định, mọibiến mới được gi sử là dạng số Phụ thuộc vào loại dữ liệu được thu thập, ta có thể khai
báo dưới những kiểu sau: dữ liệu là dạng số (numeric), d u ph y (comma), d u ch m
(dot), ghi chú khoa học (Scientific notation), ngày tháng (Date), đô-la (Dollar), đơn vị
tiền riêng (custom currency) và chuỗi (string).
• Nhãn của biến dùng để mô t rõ hơn về tên của biến do tên của biến chỉ có độ dài tối đa
là 8 Nhãn của biến có thể có độ dài đến 256 kí tự
• Ta có thể gán nhãn cho từng giá trị của biến Tính năng này đặc biệt tiện lợi khi ta dùngcác số để mã hóa các biến định tính Ví dụ Biến được mã hóa như vậy có thể dùng chonhiều phân tích khác nhau Hơn nữa, với nhãn của các giá trị, kết qu tính ra sẽ được trìnhbày rõ ràng hơn
• Các giá trị khuyết thiếu do ngư i sử dụng thiết lập (Missing) Những giá trị không thích
ứng với kiểu khai báo của biến sẽ được coi là giá trị khuyết thiếu Đối với biến kiểu số,các ô trống được hiểu là giá trị khuyết và được đánh d u bằng d u phân cách thập phân.Nhiều thủ tục trong SPSS sẽ loại các giá trị khuyết ra khỏi các bước tính toán và các kết
qu phân tích chỉ dựa trên phần số liệu không khuyết
– Ta có thể nhập đến 3 trị số khuyết riêng biệt, một phạm vi kho ng cách trị số khuyếthoặc một phạm vi cộng với một trị số khuyết riêng biệt;
– Các phạm vi có thể được chỉ định cho các biến dạng số;
– Các trị số khuyết cho các biến dạng chuỗi ph i có độ dài không vượt quá 8 kí tự
• Số đo của biến có thể thang đo định danh (Nominal), thang đo thứ bậc (Ordinal) hoặc thang đo kho ng, tỉ lệ (gọi chung là Scale):
– Thang đo định danh: Thang đo định danh dùng cho các biến định tính Số đo củacác biến này là các mã số để phân loại đối tượng Giữa các mã số đây không cóquan hệ hơn kém, chỉ dùng để đếm tần số xu t hiện của các biểu hiện Một số ví dụ
về thang đo này là: biến giới tính với các số đo là: Nam hoặc Nữ; biến màu sắc với
số đo là: xanh, đỏ, tím, vàng, ; biến khu vực sống với các số đo: Thành phố, Thị
xã, Nông thôn, Miền núi,
Trang 7– Thang đo thứ bậc: Thang đo thứ bậc thư ng dùng cho các biến định tính, đôi khidùng cho c biến định lượng Trong thang đo này giữa các số đo của các biến cóquan hệ thứ bậc hơn kém Tuy nhiên, sự chênh lệch giữa các số đo không nh t thiếtbằng nhau Ví dụ biến đánh giá thái độ đối với ch t lượng dịch vụ mạng Internet tạinhà có số đo là: Không hài lòng, hài lòng, r t hài lòng.
– Thang đo kho ng: Thang đo thứ bậc thư ng dùng cho các biến định lượng Thang
đo kho ng là thang đo thứ bậc có các kho ng cách đều nhau Các phép tính cộng trừđều có nghĩa nhưng không có giá trị không xác định một cách chính xác và khôngthể l y tỉ lệ giữa các số đo Ví dụ số đo nhiệt độ, số đo chỉ số IQ, chỉ số EQ, – Thang đo tỉ lệ: Thang đo tỉ lệ dùng cho các biến định lượng Thang đo tỉ lệ là thang
đo kho ng, hơn nữa thang đo này có giá trị không xác định một cách chính xác và
có thể l y tỉ lệ giữa các số đo Ví dụ về thang đo này đơn vị đo tiền tệ (VND, dollar,pound, yen, ); đơn vị đo chiều dài (cm, m, km, ); đơn vị đo khối lượng (kg, t n,
tạ, yến, )
Bước 2: Tại cửa sổ Data Editor, nh n vào nút Data View để nhập từng dữ liệu trong mỗi
ô Trong b ng Data View
• Mỗi cột là mỗi biến Variable;
• Mỗi hàng là một đối tượng cases.
Để chèn một đối tượng (hàng) mới giữa các đối tượng đã có sẵn:
• Trong b ng Data View, chọn b t kì ô nào trong đối tượng nằm dưới vị trí cần chèn đốitượng mới;
• Từ thanh menu chọn Data Ñ Insert Cases.
Để chèn một biến (cột) mới vào các biến đã có sẵn:
• Trong b ng Data View, chọn b t kì ô nào trong biến nằm bên ph i biến cần chèn biến mới;
• Từ thanh menu chọn Data Ñ Insert Variable.
Gi sử ta đang muốn nhập một tập dữ liệu về điều tra thị trư ng thức ăn nhanh FastFood đượccho trong b ng dưới đây vào trong SPSS:
Trang 8Đối với tập dữ liệu trên ta có 9 biến là: Tuoi (tuổi), GioiTinh (giới tính), NgheNghiep (nghềnghiệp), ThuNhap (thu nhập), Gia (giá mua FastFood), ChonDoQC, ChonDoTL, ChonDoSP,ChonDoGC (yếu tố nh hư ng đến quyết định dùng FastFood tương ứng là do qu ng cáo, tiệnlợi, s n phẩm, giá c ) thu thập trên 100 đối tượng.
Để nhập tập dữ liệu này vào trong SPSS, đầu tiên ta vào b ng Variable View để khai báocác thuộc tính của các biến Chẳng hạn, với biến Tuoi ta khai báo các thuộc tính như sau:
• Name: Tuoi
• Type: Numeric (dạng số)
• Width: 2 (độ dài mỗi giá trị tuổi là 2)
• Decimals: 0 (không có chữ số thập phân)
• Lable: (không chú thích gì thêm về biến)
• Values: None (không cần gi i thích gì về kiểu giá trị của biến)
• Missing: None (không có giá trị khuyết)
• Columns: 8 (độ rộng của cột biến là 8)
• Align: Right (căn lề bên ph i)
• Measure: Scale (giá trị của biến là tuổi thang đo tỉ lệ nên khai báo là thang đo địnhlượng)
Trang 9Với biến NgheNghiep ta khai báo các thuộc tính như sau:
• Name: NgheNghiep
• Type: String (dạng chuỗi)
• Width: 4 (độ dài mỗi giá trị về nghề nghiệp là 4)
• Decimals: 0 (không có chữ số thập phân)
• Lable: Nghe nghiep (chú thích thêm về tên biến)
• Values: HSSV = "hoc sinh + sinh vien", CNVC = "cong nhan vien chuc", NVVP = "nhanvien van phong", Khac = "nghe khac" (chú thích thêm về từng giá trị của biến)
• Missing: None (không có giá trị khuyết)
• Columns: 8 (độ rộng của cột biến là 8)
• Align: Left (căn lề bên trái)
• Measure: Nominal (giá trị của biến là nghề nghiệp thang đo định danh nên khai báo làthang đo định danh)
Với biến Gia ta khai báo các thuộc tính như sau:
• Name: Gia
• Type: Numeric (dạng số)
• Width: 1 (độ dài mỗi giá trị về nghề nghiệp là 4)
• Decimals: 0 (không có chữ số thập phân)
• Lable: Gia mua FastFood (chú thích thêm về tên biến)
• Values: 1 = "12-20 (nghin)", 2 = "20-30 (nghin)", 3 = "30-40 (nghin)", 4 = "> 40 (nghin)"(chú thích về từng giá trị của biến)
Trang 10• Missing: None (không có giá trị khuyết)
• Columns: 8 (độ rộng của cột biến là 8)
• Align: Left (căn lề bên trái)
• Measure: Ordinal (giá trị của biến là giá thang đo thứ bậc nên khai báo là thang đothứ bậc)
Hoàn toàn tương tự cho các biến khác ta có được b ng Variable View cho 9 biến như sau:
Sau khi đã khai báo các thuộc tính của các biến trong cửa sổ Variable View, ta vào cửa sổData View nhập giá trị cho từng biến như đã được điều tra
Trang 11Để lưu dữ liệu vừa được tạo ra dưới đuôi của SPSS sav, ta vào File Ñ Save as để đánh tên
file cần lưu và thư mục để lưu trong máy tính
Trang 121.3 Đọc dữ liệu từ những file có sẵn trong SPSS
SPSS có thể đọc dữ liệu từ r t nhiều kiểu file khác nhau Ngoài dữ liệu dưới dạng file.sav
của SPSS, SPSS còn cho đọc file dữ liệu dưới một số dạng thông dụng như file.xls (Excel File),
file.txt (Text File) và file dữ liệu tạo ra từ một số phần mềm thống kê khác như file.dta (Stata File), file.wf1 (Eviews Workfile),
Đọc dữ liệu từ file sav
Để đọc dữ liệu từ một file.sav, chẳng hạn file dữ liệu DuLieuFastFood.sav, ta vào File Ñ
Open Ñ Data và chọn đến thư mục để file dữ liệu và m file:
Trang 13Đọc dữ liệu từ file xls
Để đọc dữ liệu từ một file.xls, chẳng hạn file dữ liệu DuLieuFastFood.xls, ta vào File Ñ
Open Ñ Data và chọn đến thư mục để file dữ liệu và m file:
Khi cửa sổ hiện ra hộp thoại sau ta n vào OK là m được dữ liệu vào SPSS:
Trang 14Đọc dữ liệu từ file.txt
Để đọc dữ liệu từ một file.txt, chẳng hạn file dữ liệu DuLieuFastFood.txt, ta vào File Ñ
Open Ñ Data và chọn đến thư mục để file dữ liệu và m file:
Khi màn hình trên hiện ra hộp thoại sau ta n vào Open để m file dữ liệu vào SPSS Khi hiện
ra cửa sổ sau ta n Next:
Trang 15Khi trên màn hình hiện ra hộp thoại sau ta chọn Yes cho câu hỏi Are variable names include
at the top of your file? và sau đó n vào Next:
Khi trên màn hình hiện ra hộp thoại sau ta n vào Next:
Trang 16Khi trên màn hình hiện ra hộp thoại sau ta n vào Next:
Khi trên màn hình hiện ra hộp thoại sau ta n vào Next:
Trang 17Và cuối cùng khi trên màn hình hiện ra hộp thoại sau ta n vào Finish:
1.4 Lọc dữ liệu
SPSS cho phép ta lọc ra một nhóm các quan sát thỏa mãn những điều kiện nh t định Nhómcon các quan sát có thể rút ra ngẫu nhiên, hoặc chọn theo số thứ tự các quan sát, kho ng giớihạn về th i gian, giá trị và kho ng giới hạn của một biến, theo một biểu thức số học, một biểu
thức logic hay một hàm số học nào đó Để tiến hành lọc dữ liệu, ta vào Data Ñ Select Cases
và trên màn hình hiện ra hộp thoại:
Trang 18Với hộp thoại này, ta sử dụng các nút trong khung Select để n định cách lọc dữ liệu Ta có thể
chọn một trong các kh năng sau:
• Đưa t t c các quan sát vào phân tích thì n nút All cases (mặc định);
• Chọn một số quan sát thỏa mãn một số điều kiện nh t định thì n nút If condition is
satisfied để cho phím If nổi lên rồi n phím đó Khi đó hộp thoại sau sẽ hiện ra:
Trên hộp thoại này, ta thiết lập một biểu thức so sánh trong khung bên ph i hộp thoạibằng cách kết hợp các biến từ khung danh sách biến phía bên trái, các hàm số trong khung
Functions góc dưới bên ph i cùng các phím số, phím phép tính số học, phép so sánh,
phép tính logic trong khung hộp thoại hoặc từ bàn phím:
Phép toán số học Phép toán so sánh Phép toán logic
/ chia >= lớn hơn hoặc bằng
= khác
Trang 19Chẳng hạn, để lọc ra dữ liệu về nam trong tập dữ liệu tại khung của hộp thoại ta đánh biểu
thức logic GioiTinh = "Nam" và n nút Continue:
Khi đó màn hình hiện ra hộp thoại:
Để loại đi những dữ liệu về nữ ra khỏi tập dữ liệu tại khung Unselected Cases Are ta chọn
Deleted và ta được thông tin về nam giới được điều tra trong tập dữ liệu:
Trang 20Nếu ta muốn lọc ra dữ liệu về nam có độ tuổi lớn hơn 50 trong tập dữ liệu tại khung của
hộp thoại ta đánh biểu thức logic GioiTinh = "Nam" & Tuoi > 50 và n nút Continue:
Khi đó màn hình hiện ra hộp thoại:
Trang 21Nếu chỉ muốn lọc riêng ra những thông tin về nam giới và có độ tuổi trên 50, tại khung
Unselected Cases Are ta chọn Deleted và ta được:
• Để l y ra một mẫu ngẫu nhiên từ tổng thể quan sát ta n nút Random sample of cases để cho phím Sample hiện lên và n vào nút đó Sau đó màn hình hiện tiếp ra hộp thoại sau:
Trên hộp thoại này, ta có thể
– n Approximately rồi điền một số nguyên từ 1 đến 99 vào ô trống để chỉ phần trăm
số phần tử trong mẫu so với số phần tử của toàn bộ tổng thể;
Trang 22– n Exactly rồi điền một số nguyên k trong ô trống liền bên cạnh và một số nguyên
n lớn hơn trong ô trống tiếp theo để tạo ra một mẫu gồm k quan sát được rút ra ngẫunhiên nhiên từ n quan sát đầu tiên của tập số liệu
Chẳng hạn ta muốn chọn ra ngẫu nhiên 20 ngư i được điều tra từ 100 ngư i trong
b ng dữ liệu, ta điền 20 và 100 vào hai ô trống trong nút Exactly rồi n nút Continue:
Khi màn hình hiện tiếp ra hộp thoại sau thì n OK:
và ta được tập dữ liệu gồm thông tin của 20 ngư i trong mẫu:
Trang 231.5 Mã hóa dữ liệu
Trong quá trình phân tích, nhiều trư ng hợp ta ph i mã hóa lại các giá trị của biến vì mộtmục đích nào đó Ta có thể mã hóa lại các giá trị trong nội bộ một biến có sẵn hoặc lập một biếnmới để chứa các giá trị được mã hóa lại
Mã hóa dữ liệu trong nội bộ biến
Ta có thể tiến hành mã hóa lại các biến kiểu số hoặc các biến kiểu chuỗi kí tự Nếu muốn
mã hóa lại đồng th i nhiều biến một lúc, các biến đó ph i có cùng kiểu số hoặc cùng kiểu chuỗi
kí tự Để thực hiện việc mã hóa dữ liệu trong nội bộ biến ta vào Transform Ñ Recode Ñ Into
Same Variables và màn hình hiện ra hộp thoại:
Trang 24Chẳng hạn, ta định mã hóa lại các giá trị trong biến tuổi thành các kho ng tuổi
ta thực hiện như sau:
• Chọn từ khung bên trái biến Tuoi để đưa vào khung Variable phía bên ph i;
• Nh n phím Old and New Values để qui định cách mã hóa biến Tuoi và hộp thoại sau sẽ
hiện ra:
• Trong hộp thoại này để phân kho ng mã hóa ta n nút Range trong Old Value thiết lập các kho ng và thay thế bằng các giá trị mã hóa mới trong New Value rồi n nút Add để chuyển cách mã hóa vào khung Old Ñ New:, cụ thể như sau:
¤ 14 Range: Lowest through 14 1
¡ 60 Range: 60 though highest 5
Khi màn hình hiện ra hộp thoại sau ta n Continue
• Cuối cùng khi màn hình hiện ra hộp thoại sau thì ta n OK:
Trang 25• Và ta được tập dữ liệu với biến tuổi đã được mã hóa:
Để mã hóa hai biến định tính là GioiTinh và NgheNghiep, ta cũng tiến hành làm tương tự:
• Chọn từ khung bên trái biến GioiTinh va NgheNghiep để đưa vào khung Variable phía
bên ph i;
• Nh n phím Old and New Values để qui định cách mã hóa biến GioiTinh và NgheNghiep
và khi hộp thoại mã hóa hiện ra ta n nút Value trong Old Value thiết lập các giá trị cũ được thay thế bằng các giá trị mã hóa mới trong New Value rồi n nút Add để chuyển cách mã hóa vào khung Old Ñ New:, cụ thể như sau:
Trang 26Old Value New Value
Khi màn hình hiện ra hộp thoại sau ta n Continue và sau đó thì n Ok.
• Và ta được tập dữ liệu với hai biến GioiTinh và NgheNghiep đã được mã hóa:
Mã hóa dữ liệu vào biến mới
Ta có thể mã hóa lại một biến đã có sẵn và lập một biến mới để chứa các giá trị mới được
mã hóa lại Ta có thể mã hóa biến kiểu số hoặc biến kiểu kí tự, có thể chuyển một biến kiểu sốthành biến kiểu chuỗi kí tự và ngược lại chuyển biến kiểu chuỗi kí tự thành biến kiểu số Nếumuốn mã hóa lại nhiều biến một lúc, các biến đó ph i cùng kiểu số hoặc cùng kiểu chuỗi kí tự
Để thực hiện mã hóa dữ liệu vào một biến mới ta vào Transform Ñ Recode Ñ Into Different
Variables và màn hình hiện ra hộp thoại:
Trang 27Chẳng hạn, ta định mã hóa lại các giá trị trong biến tuổi thành các kho ng tuổi
và đặt trong một biến mới là TuoiMoi ta thực hiện như sau:
• Chọn từ khung bên trái biến Tuoi để đưa vào khung Variable phía bên ph i, trong khung
Output Variable đặt tên cho biến mới trong phần Name và gán nhãn cho biến mới
(nếu cần) trong phần Label, chẳng hạn, Name: TuoiMoi, Label: chia Tuoi thanh cac
khoang Sau đó n change để khẳng định việc thay đổi:
• Nh n phím Old and New Values để qui định cách mã hóa biến Tuoi và hộp thoại sau sẽ
hiện ra:
Trang 28• Trong hộp thoại này để phân kho ng mã hóa ta n nút Range trong Old Value thiết lập các kho ng và thay thế bằng các giá trị mã hóa mới trong New Value rồi n nút Add để chuyển cách mã hóa vào khung Old Ñ New:, cụ thể như sau:
¤ 14 Range: Lowest through 14 1
¡ 60 Range: 60 though highest 5
Khi màn hình hiện ra hộp thoại sau ta n Continue
• Cuối cùng khi màn hình hiện ra hộp thoại sau thì ta n OK:
Trang 29• Ta có thể vào Variable View để khai báo lại một số thuộc tính của biến TuoiMoi cho phù
hợp và ta được tập dữ liệu với biến tuổi đã được mã hóa:
1.6 Làm sạch dữ liệu
Trong quá trình nhập dữ liệu, trong nhiều trư ng hợp ta có thể nhập nhầm dữ liệu và nếu ta
xử lí dữ liệu trên file dữ liệu nhầm này sẽ dẫn đến kết qu phân tích bị sai lệch Phương pháploại đi những dữ liệu sai này được gọi là phương pháp làm sạch dữ liệu Trong phần này ta sẽgiới thiệu một số phương pháp làm sạch dữ liệu trên SPSS
Trang 30Dùng bảng tần số
Để tìm các lỗi dữ liệu bị nhầm, ta có thể lập b ng tần số để tìm ra những dữ liệu lạ để sửa
Chẳng hạn, trong file dữ liệu LamSachDuLieu.sav các biến GioiTinh và Nghe đều được mã
hóa (Biến GioiTinh có hai giá trị là 0 và 1, biến Nghe có ba giá trị là 1,2,3,4), nếu ta lập b ngtần số cho biến GioiTinh th y kết qu như sau:
thì ta biết ngay là các giá trị là 11 đã bị nhập nhầm Để tìm ra các giá trị sai này để sửa ta có thể
dùng lệnh Find để tìm, cụ thể như sau:
Bước 1: Trong cửa sổ Data View bôi đen cột GioiTinh và vào Edit Ñ Find , màn hình
hiện ra hộp thoại:
Bước 2: Điền dữ liệu sai cần tìm trong cột GioiTinh, đây là 11 trong dòng Find What và n Find Next Khi đó những ô dữ liệu sai trong cột dữ liệu sẽ được hiện trắng, ta n Find Next lên
Trang 31tiếp để tìm và sửa những dữ liệu sai theo ý muốn.
Dùng lệnh Sort case để tìm dữ liệu sai trên cửa sổ Data View
Ta có thể sử dụng lệnh Sort Case trong Data để tìm những lỗi đơn gi n ngay trên cửa sổ dữ
liệu (Data View), chẳng hạn với dữ liệu về giới tính, ta chỉ cần chọn lệnh sắp xếp dữ liệu theothứ tự tăng dần và nếu có những dữ liệu lớn hơn 1 thì đó chính là những dữ liệu lỗi Cụ thể tatiến hành như sau:
Bước 1: Vào Data Ñ Sort Cases , màn hình hiện ra hộp thoại:
Bước 2: Chọn biến GioiTinh bên trái để đưa vào khung Sort by bên ph i, trong khung Sort Order ta chọn Ascending và n OK.
Dùng bảng phối hợp hai biến hay ba biến
Khi lập b ng tần số kết hợp biến tuổi và biến nghề nghiệp:
Trang 32bạn th y có trư ng hợp nhân viên văn phòng (mã hóa 3) mà tuổi chỉ có 8 nên bạn nghĩ rằng mộttrong hai biến đã nhập sai Trong trư ng hợp này ta ph i tìm ra ô nhập sai và sửa lại Để tìm ra
ô nhập sai trong trư ng hợp này ta dùng lệnh Select Cases, cụ thể như sau:
Bước 1: Vào Data Ñ Select Cases , khi màn hình hiện ra hộp thoại thì ta chọn If tion is satisfied để nút If hiện ra và n vào.
Condi-Bước 2: Chọn biến Tuoi và biến NgheNghiep bên trái để đưa vào khung bên ph i với điều
kiện logic Tuoi=8 & NgheNghiep="2"
tiếp đó n Continue và n tiếp OK.
Bước 3: Khi lệnh này được thực hiện, SPSS sẽ tạo ra một biến mới là filter $, biến này
nhận giá trị 0 tại t t c các tình huống không thỏa mãn và 1 tại tình huống thỏa mãn điều kiện
của lệnh If Những giá trị là 1 trong biến filter $ chính là những trư ng hợp sai mà ta cần tìm
để sửa
Trang 33Bài 2
Lập bảng tần số và tính các đại
lượng thống kê mô tả
2.1 Tóm tắt dữ liệu bằng b ng tần số
Bảng tần số cho dữ liệu định tính và dữ liệu định lượng có ít biểu hiện
Để lập b ng tần số cho các biến định tính hoặc dữ liệu định lượng có ít biểu hiện trong tập
dữ liệu, Bước 1: Vào Analyze Ñ Descriptive Statistics Ñ Frequencies Màn hình hiện ra
hộp thoại:
Bước 2: Chọn các biến cần lập b ng tần số bên trái đưa vào khung Variable bên ph i và n OK.
đây, ta có thể tiến hành lập b ng tần số cho một biến hoặc một số biến cùng một lúc, chẳng
hạn khi chọn biến GioiTinh và biến Gia trong cửa sổ Output nhận được kết qu sau:
Trang 34Kết qu về b ng tần số cho ta những thông tin về tần số, tần su t của những giá trị trong biến
mà ta quan tâm Chẳng hạn với biến GioiTinh và biến Gia ta có thể th y số lượng cũng như tỉ lệnam và nữ trong mẫu cũng như số lượng và tỉ lệ của kho ng giá của một su t ăn FastFood điềutra trong mẫu
Phân tổ dữ liệu
Khi tập dữ liệu định lượng có nhiều biểu hiện, việc tóm tắt bằng b ng tần số tương tự trên
sẽ dài dẫn đến m t đi tính ch t tóm lược thông tin Trong trư ng hợp này ta sẽ tiến hành phân
tổ dữ liệu Để phân tổ dữ liệu, ta thực hiện tương tự như phần mã hóa số liệu Ta có thể chọn
mã hóa thành đúng biến định lượng đã cho hoặc mã hóa thành biến mới, sau đó tính tần số chobiến đã được mã hóa
Chẳng hạn để phân tổ cho biến tuổi thành các kho ng tuổi
đầu tiên ta mã hóa biến tuổi thành biến mới là PhanTuoi Khi hộp thoại sau hiện ra ta chọn
Output variable are strings
Trang 35và mã hóa tương ứng như sau:
¤ 14 Range: Lowest through 14 <= 14
Trang 36Bước 1: Vào Analyze Ñ Tables Ñ Basic Tables Màn hình hiện ra hộp thoại Basic Tables:
Bước 2: Chọn hai biến định tính bên trái đưa vào khung bên ph i, cụ thể chọn biến NgheNghiep
đưa vào ô Down và biến GioiTinh đưa vào ô Across. đây, ta có thể tiến hành lập b ng tần
số cho một biến hoặc một số biến cùng một lúc, chẳng hạn khi chọn biến GioiTinh và biến Gia
trong cửa sổ Output nhận được kết qu sau:
Bước 3: Chọn những hàm thống kê cần tính bằng cách n Statistics
Trang 37Đối với biến định tính, các hàm thư ng dùng là: count (tần số), col% (phần trăm theo cột),
row% (phần trăm theo cột) Trong ví dụ này ta chọn count và row%, chọn xong n nút Add
để đưa vào ô bên ph i và n Continue.
Bước 4: Tr lại hộp thoại trước, chọn Totals nếu ta muốn tính tổng tần số trên dòng (cột)
và cuối cùng n OK Cửa sổ Output sẽ hiện ra kết qu sau:
Bảng kết hợp ba biến định tính
Khi ta cần biết một cách cụ thể hơn cơ c u của giá mua FastFood của những ngư i đượcđiều tra phân tách theo nhóm giới tính đối với từng nghề nghiệp thì ta ph i lập b ng phối hợp ba
biến với nhau Ta có thể dùng lệnh Basic Tables (hoặc General Tables) Cách tiến hành hoàn
toàn tương tự như trư ng hợp lập b ng tần số cho hai biến định tính
Bước 1: M hộp thoại Basic Tables Ta đưa hai biến NgheNghiep và GioiTinh vào ô Across và đưa biến Gia vào ô Down
Bước 2: Khi đưa hai biến vào ô Across thì lúc này có hai biến vị trí cột nên phần dưới cùng
của hộp thoại Basic Table sẽ nổi rõ lên để ta xác định hai cách phối hợp biến với nhau:
• All Combination (nested): hai biến trong cùng ô sẽ phân nhóm lồng ghép với nhau theo thứ tự biến được đưa vào trong ô Across Trong trư ng hợp của ta các quan sát được phân
chia theo ngành nghề, sau đó mỗi ngành nghề được phân chia theo từng giới tính nam vànữ
• Each separately (stacked): hai biến được phân chia độc lập với nhau Các quan sát được
phân chia theo ngành nghề, sau đó các quan sát được phân chia theo giới tính riêng biệt
Bước 3: Cách xác lập những hàm thống kê cũng tương tự như phần lập cho hai biến, nhưng
trong phần này ta chỉ nên chọn một trong hai hàm hoặc là count hoặc là Row% chứ không nên