Màn hình quản lý biến Variables View Là nơi quản lý các biến cùng với các thông số liên quan hình này mỗi hàng trên màn hình quản lý một biến, và mỗi cột thể hiện các thông Tên biến
Trang 1SPSS
STATISTICAL PACKAGE FOR SOCIAL SCIENCES
( Lý thuyết: 30 tiết Thực hành: 45 tiết )
Trung tâm Tin học
Trường Đại học KHXH & NV
Trang 2PHÂN TÍCH DỮ LIỆU VỚI SPSS
NỘI DUNG
-
Chương 1: GIỚI THIỆU SPSS
Chương 2: TẠO VÀ MỞ FILE DỮ LIỆU
Chương 3: PHÂN TÍCH DỮ LIỆU THỐNG KÊ
Chương 4: KIỂM ĐỊNH THỐNG KÊ
Chương 5: PHÂN TÍCH HỒI QUY
Trang 3Chương 1 GIỚI THIỆU SPSS
• 1.1 Quá trình thu thập và xử lý thông tin
• 1.2 Giới thiệu tổng quan về SPSS
• 1.3 Các lọai dữ liệu và thang đo
• 1.4 Biến và giá trị của biến
• 1.5 Phân tích dữ liệu
Trang 41.1 Quá trình thu thập và xử lý thông tin
Là phần mềm chuyên dụng xử lý thông tin sơ cấp (thông tin
được thu thập trực tiếp từ đối tượng nghiên cứu (người trả
lời) thông qua một bảng câu hỏi được thiết kế sẵn
•1 Thu thập xử lý thông tin trong nghiên cứu khoa học
Quá trình thu thập và xử lý thông tin trong nghiên cứu khoa học được tiến hành thông qua 3 giai đoạn:
• - Giai đoạn thiết kế;
• - Giai đoạn thu thập thông tin;
• - Giai đoạn xử lý và phân tích thông tin
•a Giai đoạn thiết kế : Nhiệm vụ của giai đoạn thiết kế công trình nghiên cứu thực nghiệm là xác định nội dung thông tin cần
Trang 51.1 Quá trình ( tiếp theo )
•b Giai đoạn thu thập thông tin : Đây là bước thu nhận thông tin riêng biệt và kiểm tra chất lượng thu nhận thông tin ngay tại chỗ Đặc điểm cơ bản của bước tiến hành là thực hiện nghiêm chỉnh những yêu cầu, những điều hướng dẫn đã vạch ra ở bước thiết kế
c Giai đoạn xử lý và phân tích thông tin : Nhiệm vụ chủ yếu
của giai đoạn xử lý thông tin là chuyển thông tin riêng biệt sang thông tin tổng hợp, thực hiện tổng kiểm tra, đánh giá chất lượng và đánh giá triển vọng của thông tin tổng hợp, phân tích và kết luận Giai đoạn xử lý thông tin cũng có ba bước kế tiếp nhau là:
• - Chuẩn bị cho việc xử lý thông tin
• - Xử lý thông tin và kết thúc
• - Sử dụng kết quả xử lý thông tin
Trang 61.1 Quá trình ( tiếp theo )
•2 Quy trình nghiên cứu xử lý thông tin
Quy trình nghiên cứu xử lý thông tin được chia ra 7 bước như sau:
Trang 71.1 Quá trình ( tiếp theo )
•SPSS thực hiện
trong bước 5 chia ra các giai đoạn:
Trang 81.2 Giới thiệu tổng quan về SPSS
SPSS là phần mềm chuyên dụng xử lý thông tin sơ cấp: thông tin được thu thập trực tiếp từ đối tượng nghiên cứu
(người trả lời các câu hỏi) thông qua một bảng câu hỏi được
thiết kế sẵn
SPSS sử dụng các file có phần mở rộng sau:
- SAV: File dữ liệu SPSS
- SPS: File lệnh thay cho các thao tác trực tiếp (Syntax)
- SPO: File kết xuất (Output)
- SBS: File đặc tả SPSS (Script)
Tại một thời điểm SPSS chỉ làm việc với 1 file dữ liệu Nếu
Trang 91.2 Giới thiệu SPSS ( tiếp theo )
Phần mềm SPSS có các lọai màn hình sau:
1 Màn hình quản lý dữ liệu ( Data View )
2 Màn hình quản lý biến ( Variable View )
3 Màn hình hiển thị kết quả ( Output )
4 Màn hình cú pháp ( Syntax )
Trang 10Màn hình quản lý dữ liệu
( Data View )
Là nơi lưu trữ dữ liệu nghiên cứu với một cấu trúc cơ sở dữ liệu bao gồm cột, hàng và các
ô giao nhau giữa cột và hàng
Cột (Column): Đại diện cho
biến quan sát
Trang 11Màn hình quản lý dữ liệu
( Data View )
Là nơi lưu trữ dữ liệu nghiên cứu với một cấu trúc cơ sở dữ liệu bao gồm cột, hàng và các ô giao
cột và hàng
Hàng (Row): Đại diện cho
một trường hợp quan sát
(người trả lời)
Trang 12Màn hình quản lý dữ liệu
( Data View )
Ô giao nhau giữa cột và hàng (cell): Chứa
đựng một kết quả trả lời tương ứng với câu hỏi
cần khảo sát (biến) và một đối týợng trả lời cụ thể (trường hợp quan sát) Ô là sự kết hợp của
đối tượng và biến Các ô chỉ chứa các trị số của biến
Trang 13Màn hình quản lý dữ liệu
( Data View )
File dữ liệu cĩ hình chữ nhật Hai hướng
của file dữ liệu được xác định bởi số lượng các đối tượng và số lượng các biến Khơng cĩ các ơ
“trống rỗng” trong các đường biên của file dữ liệu Đối với các biến dạng số, các ơ rỗng được chuyển thành trị số khuyết thiếu hệ thống Đối với các biến dạng chuỗi, một dấu cách vẫn được coi là một trị số
Trang 14Màn hình quản lý biến
( Variables View )
Là nơi quản lý các biến cùng với các thông số liên quan
hình này mỗi hàng trên màn hình quản lý một biến, và mỗi cột thể hiện các thông
Tên biến (name): Là tên đại
diện cho biến, tên biến này sẽ
được hiễn thị trên đầu mỗi cột
trong màn hình dữ liệu
Trang 15Màn hình quản lý biến
( Variables View )
Các qui tắc dưới đây được áp dụng cho tên biến:
Tên phải bắt đầu bằng một chữ Các ký tự còn lại có thể là bất kỳ chữ nào, bất kỳ số nào, hoặc các biểu tượng như @, #, _, hoặc $
Tên biến không được kết thúc bằng một dấu chấm
Tránh dùng các tên biến mà kết thúc với một dấu gạch dưới (để tránh xung đột với các biến được tự động lập bởi một vài thủ tục)
Độ dài của tên biến không vượt quá 8 ký tự
Dấu cách và các ký tự đặc biệt (ví dụ như !, ?, ‘, và *) không được sử dụng
Từng tên biến phải đơn chiếc/duy nhất; không được phép trùng lặp Không được dùng chữ hoa để đặt tên biến Các tên NEWVAR, NewVar, và newvar được xem là giống nhau
Trang 16Màn hình quản lý biến
( Variables View )
Là nơi quản lý các biến cùng với các thơng số liên quan đến biến Trong màn hình này mỗi hàng trên màn hình quản lý một biến, và mỗi cột thể hiện các thơng số liên quan đến biến đĩ
Loại biến (type): Thể hiện
dạng dữ liệu thể hiện trong
biến Dạng số, và dạng chuỗi
Trang 17Màn hình quản lý biến
( Variables View )
Là nơi quản lý các biến cùng với các thơng số liên quan đến biến Trong màn hình này mỗi hàng trên màn hình quản lý một biến, và mỗi cột thể hiện các thơng số liên quan đến biến đĩ
Số lượng con số hiễn thị cho
giá trị (Width): Giá trị dạng
số được phép hiễn thị bao nhiêu
con số
Trang 18Màn hình quản lý biến
( Variables View )
Là nơi quản lý các biến cùng với các thơng số liên quan đến biến Trong màn hình này mỗi hàng trên màn hình quản lý một biến, và mỗi cột thể hiện các thơng số liên quan đến biến đĩ
Số lượng con số sau dấu
(Decimals
Trang 19Màn hình quản lý biến
( Variables View )
Là nơi quản lý các biến cùng với các thơng số liên quan đến biến Trong màn hình này mỗi hàng trên màn hình quản lý một biến, và mỗi cột thể hiện các thơng số liên quan đến biến đĩ
Nhãn của biến (label): Tên
biến chỉ được thể hiện tĩm tắc
bằng ký hiệu, nhãn của biến
cho phép nêu rõ hơn về ý nghĩa
Trang 20Màn hình quản lý biến
( Variables View )
Là nơi quản lý các biến cùng với các thơng số liên quan đến biến Trong màn hình này mỗi hàng trên màn hình quản lý một biến, và mỗi cột thể hiện các thơng số liên quan đến biến đĩ
Giá trị trong biến (Values):
Cho phép khai báo các giá trị trong biến với ý nghĩa cụ thể (nhãn giá trị)
Trang 21Màn hình quản lý biến
( Variables View )
Là nơi quản lý các biến cùng với các thơng số liên quan đến biến Trong màn hình này mỗi hàng trên màn hình quản lý một biến, và mỗi cột thể hiện các thơng số liên quan đến biến đĩ
Giá trị khuyết (Missing): Do thiết
kế bảng câu hỏi cĩ một số giá trị chỉ mang tính chất quản lý, khơng
cĩ ý nghĩa phân tích, để loại bỏ các biến này ta cần khai báo nĩ như là giá trị khuyết (user missing) SPSS mặc định giá trị khuyết (system missing) là một dấu chấm và tự động loại bỏ các giá trị này ra khỏi
Trang 22Màn hình quản lý biến
( Variables View )
Là nơi quản lý các biến cùng với các thơng số liên quan đến biến Trong màn hình này mỗi hàng trên màn hình quản lý một biến, và mỗi cột thể hiện các thơng số liên quan đến biến đĩ
Kích thướt cột
(columns): Cho
phép khai báo độ
rộng của cột
Trang 23Màn hình quản lý biến
( Variables View )
Là nơi quản lý các biến cùng với các thơng số liên quan đến biến Trong màn hình này mỗi hàng trên màn hình quản lý một biến, và mỗi cột thể hiện các thơng số liên quan đến biến đĩ
Trang 24Màn hình quản lý biến
( Variables View )
Là nơi quản lý các biến cùng với các thơng số liên quan đến biến Trong màn hình này mỗi hàng trên màn hình quản lý một biến, và mỗi cột thể hiện các thơng số liên quan đến biến đĩ
(measures): Hiễn thị
dạng thang đo của giá
trị trong biến
Trang 25Màn hình hiện thị kết quả
( Output )
Các phép phân tích thống kê sẽ cho ra các kết quả như bảng biểu, đồ thị và
Trang 26Màn hình cú pháp ( Syntax )
Màn hình này
xem và lưu trữ những cú pháp của một lệnh phân tích Các
cú pháp được lưu trữ sẽ được
sử dụng lại mà khơng cần thao
phân tích lại
Trang 271.3 Các lọai dữ liệu và thang đo
1 Dữ liệu (Data):
Là số liệu, tài liệu, tư liệu, thông tin … đã có để giải quyết vấn đề nghiên cứu Nói 1 cách chính xác, dữ liệu là bản chất của đối tượng mà chúng ta cần phản ảnh, cần theo dõi để giải quyết vấn đề đặt ra trong nghiên cứu khoa học
Trang 281.3 Các lọai dữ liệu và thang đo ( tiếp theo )
3 Phân lọai dữ liệu (Data Classification):
Dữ liệu nghiên cứu có thể biểu thị dưới ba lọai chính:
Dữ liệu định lượng
Dữ liệu định tính
Dữ liệu định tính không thứ bậc
Dữ liệu định tính có thứ bậc
Dữ liệu bán định lượng
Trang 291.3 Các lọai dữ liệu và thang đo ( tiếp theo )
a Dữ liệu định lượng:
Các dữ liệu thể hiện bằng những con số (Numeric), biến thiên liên tục (Continuous) hoặc rời rạc (Discrete) Ví dụ: đo
chiều cao của thanh niên ta sẽ có những con số: 16.5; 1.70;
1.72,…, đó là một biến số liên tục (Continuous Variable); tiêm
chủng cho trẻ em ở một địa phương, có em được tiêm một
lần, có em hai lần hoặc ba lần (không thể có 1 lần rưỡi), đó là biến số rời rạc
Nói một cách đơn giản: Những gì có thể cân, đong, đo, đếm được, và chúng có thể được thực hiện 1 cách có ý nghĩa với các phép tóan số học (như +, -, *, /, …) thì nó được phản ảnh bằng 1 đại lượng có dữ liệu định lượng
Trang 301.3 Các lọai dữ liệu và thang đo ( tiếp theo )
còn phân ra dữ liệu thứ tự ( Ordered Data ), dữ liệu định danh ( Norminal Data )
Trang 311.3 Các lọai dữ liệu và thang đo ( tiếp theo )
c Dữ liệu bán định tính:
Trong tùy từng lĩnh vực có những chỉ tiêu khó đánh giá
chính xác, vì vậy phải dùng đến những cách thể hiện bán
định lượng Ví dụ ký sinh trùng sốt rét trong máu +, ++,
+++; trứng giun trong phân +, ++, +++ Mặc dù xu hướng dùng bán định lượng ngày càng ít đi, nhưng cũng có lúc cần đến Xử lý thống kê với các dữ liệu bán định lượng tương đối đơn giản, nhưng cách đánh giá vẫn giúp cho ta biết được đáng tin cậy hay không và tin cậy ở mức độ nào
Mặc dù, về mặt lý thuyết, trong SPSS có nhắc đến lọai dữ liệu bán định lượng, nhưng trong ứng dụng SPSS chỉ sử dụng 2 lọai dữ liệu cơ bản là Định lượng và Định tính
Trang 321.3 Các lọai dữ liệu và thang đo ( tiếp theo )
4 Thang đo (Measurement):
Ngay từ giai đoạn thiết kế đã phải xây dựng thang đo Thang đo là một trong những phương tiện để đo mối liên quan giữa các hiện tượng xã hội Thang đo là cách sắp xếp thông tin, là hệ thống những con số và những mối quan hệ giữa chúng Nó là phương tiện để đo mối liên quan theo từng nội dung nghiên cứu của khách thể cụ thể
Đặc trưng của mỗi thang đo, với tư cách một phương tiện
để đo, đều chứa ba yếu tố: độ dài, số đo và chỉ số
Trang 331.3 Các lọai dữ liệu và thang đo ( tiếp theo )
Độ dài của thang đo thường có cực đại và cực tiểu, ví dụ: khoảng cách về mức lương (từ mức lương thấp nhất đến mức lương cao nhất), về trình độ học vấn (từ trình độ thấp
nhất đến trình độ cao nhất),
Số đo của thang đo là những đại lượng tương đối hay những đơn vị phân chia độ dài của thang để xác định vị trí của mọi khách thể có đặc tính xã hội cần nghiên cứu Những đại lượng tương đối hay các đơn vị đo có thể là như nhau hoặc không như nhau, có thể là con số tuyệt đối nhưng cũng có
những số đo chỉ có tính chất tương đối : nhiều hơn, ít hơn,
yếu hơn, mạnh hơn,…
Chỉ số là một chỉ tiêu số lượng nào đó xác định vị trí của đối tượng điều tra hay tập hợp của các đối tượng điều tra theo một dấu hiệu nào đó trên thang Nó có thể là con số tuyệt
đối như mức thu nhập bình quân/tháng: 500.000
đồng/tháng,
Trang 341.3 Các lọai dữ liệu và thang đo ( tiếp theo )
SPSS sử dụng các lọai thang đo sau đây:
1 Thang đo định danh (Nominal)
Thang đo định danh là loại thang đo đơn giản Nó thể hiện sự phân định những biến dạng của một dấu hiệu nào đó Nói một cách đơn giản, thang đo này được áp dụng để đặt tên cho các giá trị bằng những con số, hay để mã hóa các giá trị Ví dụ, mã hóa 1-Nam, 2-Nữ Như vậy, dữ liệu về giới tính sử dụng thang đo định danh
2 Thang đo thứ tự (Ordinal)
Ở thang đo thứ tự các biến thể của một dấu hiệu (chỉ báo) nào đó được xếp bậc theo mức độ tăng dần hoặc giảm dần thể
Trang 351.3 Các lọai dữ liệu và thang đo ( tiếp theo )
3- Thang đo khoảng cách (Interval)
Thang đo khoảng cách là một dạng đặc biệt của thang thứ tự Các biến thể của một hiện tượng xã hội nào đó cũng được xếp theo thứ tự và nó còn cho biết khoảng cách đều nhau giữa các biến thể đó
Ví dụ: Thang đo nhiệt độ dùng đơn vị độ có khoảng cách
giống nhau tại bất kỳ điểm nào trên thang đo, nên khoảng cách giữa 5 và 6 độ bằng với khoảng cách giữa 9 và 10 độ Như vậy, thang đo khỏang cách là thang đo thứ bậc đồng thời các giá trị liên tiếp nhau có cùng một khỏang cách
Trang 361.3 Các lọai dữ liệu và thang đo ( tiếp theo )
4- Thang đo tỷ lệ (Ratio)
Thang đo tỷ lệ có tất cả đặc tính khoảng cách và thứ tự của thang khoảng cách Ngoài ra, vì có điểm 0 được xác định một cách có ý nghĩa, nên phép toán chia (tỷ số) có thể thực hiện được
Thực tế trên máy, thang đo khoảng cách ( Interval ) và thang tỷ lệ ( Ratio ) được dùng chung làm một thang đo định lượng ( Scale ) dùng cho biến định lượng
Ví dụ: tuổi đời, số giờ giảng dạy, thu nhập, diện tích nhà ở v.v… được phản ảnh bởi thang đo tỷ lệ
Trang 371.3 Các lọai dữ liệu và thang đo ( tiếp theo )
Để dễ hình dung, các thang đo được phản ảnh bằng biểu đồ sau:
Dữ liệu
Định tính
Định lượng
Thang đo
định danh Thanh đo thứ bậc khoảng cách Thảng đo Thang đo tỷ lệ
Chia theo thang đo Chia theo thang đo
Chia theo lọai
Trang 381.4 Biến và giá trị của biến
Biến (Variable):
Trong SPSS, biến chính là những dữ liệu cần thu thập qua phỏng vấn, điều tra, quan sát … và dựa vào đó để phân tích, xử lý nhằm giải quyết vấn đề nghiên cứu Đó là nơi ghi nhận lại sự trả lời cho
1 câu hỏi Như vậy, có bao nhiêu khả năng trả lời thì cần tới ngần đó biến để ghi nhận Nếu thể hiện dưới dạng bảng thì biến chính là tên của cột chỉ tiêu hay đặc trưng mà chúng ta cần theo dõi của đối tượng – được xem như là các dòng
Mỗi câu hỏi có thể có 1 tập hợp phương án trả lời Những phương án đó là những giá trị được mã hóa bằng số Tập hợp các giá trị số đó được gọi là miền giá trị (Domain) của biến
Trang 391.5 Phân tích dữ liệu
Trong SPSS người ta có thể thực hiện các phân tích sau:
1 Kiểm tra dữ liệu
2 Thống kê mô tả
3 Lập bảng tổng hợp, phân tổ
4 Kiểm định thống kê
5 Kiểm soát quá trình sản xuất
6 Phân tích hồi quy
7 Dãy số thời gian
Trang 401.5 Phân tích dữ liệu ( tiếp theo )
1 Kiểm tra dữ liệu (Data Screening)
Xác định những giá trị vượt trội (Outliers) và các giá trị lỗi (Roque Values)
Sử dụng công cụ bảng phân bổ tần xuất ngoài việc để đếm số lần xuất hiện của từng giá trị riêng biệt, nó còn giúp ta tìm ra các giá trị lỗi hoặc các giá trị mã hóa sai sót hoặc không mong đợi
Khảo sát hai hay nhiều biến cùng một lúc Đối với các biến dạng định danh (nominal) hoặc thứ bậc (ordinal) sử dụng công cụ bảng chéo ta có thế xác định đýợc những sự kết hợp phi lý giữa hai hoặc nhiều biến