CHƯƠNG 9: SỬ DỤNG PHẦN MỀM THỐNG KÊ SPSS Sau khi học xong chương này, sinh viên có thể: − Hiểu được chức năng của phần mềm SPSS; − Sử dụng được một số tính năng cơ bản của phần mềm để th
Trang 1CHƯƠNG 9: SỬ DỤNG PHẦN MỀM THỐNG KÊ SPSS Sau khi học xong chương này, sinh viên có thể:
− Hiểu được chức năng của phần mềm SPSS;
− Sử dụng được một số tính năng cơ bản của phần mềm để thống kê các hoạt động trong doanh nghiệp
và các hộp thoại đơn giản
Chức năng chính của SPSS:
- Nhập và làm sạch dữ liệu;
- Xử lý biến đổi và quản lý dữ liệu;
- Tóm tắt, tổng hợp dữ liệu và trình bày dưới các dạng biểu bảng, đồ thị, bản đồ;
- Phân tích dữ liệu, tính toán các tham số thống kê và diễn giải kết quả
9.2 Nội dung chủ yếu của SPSS:
Nội dung của SPSS rất phong phú và đa dạng bao gồm từ việc thiết kế các bảng biểu và sơ đồ thống kê, tính toán các đặc trưng mẫu trong thống kê mô tả, đến một hệ thống đầy đủ các phương pháp thống kê phân tích như:
- So sánh các mẫu bằng nhiều tiêu chuNn tham số và phi tham số (Nonparametric Test), các mô hình phân tích phương sai theo dạng tuyến tính
Trang 2tổng quát (General Linear Models), các mô hình hồi quy đơn biến và nhiều biến, các hồi quy phi tuyến tính (Nonlinear), các hồi quy Logistic;
- Phân tích theo nhóm (Cluster Analysis);
- Phân tích tách biệt (Discriminatory Analysis);
- Và nhiều chuyên sâu khác (Advanced Statistics)
Một số ứng dụng chính của SPSS: Những nội dung nói trên, SPSS có thể
là đủ để giúp các nhà khoa học thực hiện việc xử lý số liệu nghiên cứu nói chung
và trong nghiên cứu các mảng chuyên ngành khác nhau của mình, chẳng hạn:
- Ứng dụng SPSS trong nghiên cứu tâm lý học: tâm lý tội phạm, tâm lý học sinh-sinh viên…;
- Ứng dụng SPSS trong nghiên cứu xã hội học: ý kiến của người dân trong việc xây dựng lại khu chung cư, thống kê y tế…;
- Ứng dụng SPSS trong nghiên cứu thị trường: nghiên cứu và định hướng phát triển sản phNm, mở rộng thị trường; sự hài lòng của khách hàng ;
- Ứng dụng SPSS nghiên cứu đa dạng sinh học, trong phát triển nông lâm nghiệp…
Với SPSS, người sử dụng có thể phân tích được thực trạng, tìm ra nhân tố ảnh hưởng, dự đoán được xu hướng xảy ra tiếp theo, giúp bạn đưa ra các quyết định một cách chính xác, giải quyết các vấn đề một cách nhanh chóng và cải thiện kết quả tốt hơn
9.3 Hướng dẫn sử dụng phần mềm và ví dụ minh họa
Đây là phần mềm chuyên dụng, do vậy mà việc sử dụng cũng đòi hỏi sự chuyên nghiệp Phải mua và cài đặt chương trình, khai báo biến Thích hợp cho
xử lý các biến định tính
(1) Khởi động SPSS tương tự các chương trình trong windows, Programs\SPSS for Windows\ SPSS for Windows
Trang 3Sau khi khởi động sẽ thấy màn hình nhập dữ liệu tương tự như Excel nhưng chỉ có 2 sheet (data view và variable view)
(2) Trước khi tiến hành phân tích cần nhập dữ liệu, có 3 cách:
− Mở data file đã có (*.sav)
− Đọc từ bảng tính (*.xls), từ CSDL(*.mdb), từ Text file (*.txt)
− Nhập trực tiếp
Trước khi nhập cần xác định các trường dữ liệu như các CSDL, vào variable view để khai báo, đã có sẵn các trường (name, type, width, decimals, label, values, missing, columns, align(left, right, center), measure (scaler- số đếm- thang đo định lượng, ordinal- thang đo thứ bậc, nominal-thang đo danh nghĩa, vùng, khu vực)) tùy yêu cầu khai báo cho phù hợp Sau khi đã khai báo, nhập tương tự Excel
(3) Tutorial: Chứa trong Help, hướng dẫn đầy đủ các bước sử dụng SPSS với bộ dữ liệu demo Để biết nội dung chi tiết của các tham số trong mỗi tùy chọn, nhấn help
(4) Một số phân tích thống kê thông dụng của SPSS: Analyze\ Descriptive Statistics\
Frequencies (tần suất): Đây là công cụ thường được dùng tóm lược thông tin về phạm vi và cấp độ của biến tại 1 thời điểm; dùng tóm lược thông tin và chuNn hóa về phạm vi của biến
Dùng Frequencies có thể là một lựa chọn để tóm tắt phạm vi biến; cung cấp thống kê để tóm tắt cấp độ của biến
Descriptives: tập trung vào phạm vi của biến và cung cấp việc lưu giữ giá trị chuNn hóa (z scores) của biến
Crosstabs: cho phép có được thông tin tóm tắt về mối liên hệ giữa 2 biến Means: cung cấp thống kê mô tả và bảng ANOVA để nghiên cứu mối liên
hệ giữa phạm vi và cấp độ của các biến
Trang 4Summarize: cung cấp thống kê mô tả và thông tin tóm tắt của sự kiện để nghiên cứu mối liên hệ giữa phạm vi và cấp độ của các biến
OLAP cubes: cung cấp thống kê mô tả để nghiên cứu mối liên hệ giữa phạm vi và cấp độ của các biến
Correlations: cung cấp mô tả tóm tắt mối liên hệ giữa phạm vi 2 biến
Khi thực hiện phân tích, nếu dữ liệu chưa được mở, SPSS yêu cầu mở, chọn CSDLcần phân tích
Hình 9.1
Phân tích tần xuất: chọn các biến cần phân tích chuyển vào Variable
Hình 9.2
Trang 5− Giá trị phân vị (điểm tứ phân vị, điểm cắt chia khoảng, phân vị );
− Độ phân tán (độ lệch chuNn, phương sai, khoảng biến thiên, max, min);
− Xu hướng trung tâm (kỳ vọng, trung vị, mod, tổng);
− Sự phân bố (độ nghiêng (hệ số bất đối xứng), độ nhọn)
Continue Chart\
Trang 6Chọn đồ thị thể hiện (dạng, giá trị thể hiện)
Chọn các biến và tham số trong option tương tự như phần trên
Explore (khảo sát, thăm dò): thường dùng trong ước lượng khoảng tin cậy của kỳ vọng, nhận biết các dữ liệu ngoài nhóm; kiểm tra giả thuyết; đặc điểm khác biệt trong nhóm các biến cố Chọn các biến vào danh sách phù hợp (bảng phụ thuộc, bảng nhân tố, nhãn trường hợp),
Trang 8Trong biểu đồ chọn (biểu đồ khối, mô tả, biểu đồ kiểm định) Tuỳ chọn báo cáo
Crosstabs (bảng tra chéo): là kỹ thuật cơ bản để nghiên cứu mối liên hệ giữa hai cấp độ của biến Thường dùng để kiểm tra sự độc lập và đo lường về sự liên
hệ và chấp thuận của các dữ liệu
Chọn dòng, cột
Hình 9.10
Exact: Kiểm định đúng (tiệm cận, mức tin cậy Monte Carlo (99%), đúng - thời gian kiểm định)
Thống kê gồm nhiều tham số thông thường ít dùng
- Ratio: tỷ lệ Chọn tử số và mẫu số từ các biến Thường ít dùng
Analyze\ Compare Means\
-Mean\ chọn các biến phụ thuộc và độc lập
Hình 9.11
Trang 9Trong option chọn các tham số thống kê theo yêu cầu, continue\OK
3 dạng t-Test
Hình 9.12
Hình 9.13
Trang 11Chọn contrast (đối chiếu), dạng đa thức, hệ số tương quan, continue
Post hoc: chọn với giả thiết cùng (hoặc khác) phương sai, continue
Hình 9.17
- LSD (Least Significant Difference): dùng kiểm định t để thực hiện tất cả các so sánh cặp giữa các trung bình nhóm, tương đương với việc thực hiện tất cả các kiểm định bội t giữa các cặp nhóm Không có điều chỉnh tỷ lệ sai số khi so sánh bội
- Bonferroni: loại kiểm định LSD cải tiến, có sự kiểm tra tất cả các tỷ lệ sai
số bằng cách cho trước sai số tỷ lệ cho mỗi kiểm định
Trang 12- Sidak: kiểm định so sánh nhiều cặp, sử dụng t statistic, giới hạn chặt hơn
so với Bonferroni
- Scheffe: so sánh cặp cùng lúc cho tất cả các kết hợp theo cặp có thể có của các trị trung bình Dùng thống kê mẫu F kém nhạy trong so sánh trung bình của các cặp biến
- R-E-G-W F (Ryan-Einot-Gabriel-Welsch): thủ tục giảm áp dùng F test
- R-E-G-W Q (Ryan-Einot-Gabriel-Welsch) thủ tục giảm áp dùng Studentized range
- S-N-K (Student-Newman-Keuls): thực hiện tất cả các so sánh cặp giữa các trung bình Nếu cỡ mẫu bằng nhau hoặc trung bình các nhóm được chọn thì so sánh cặp trung bình trong nội bộ các nhóm cùng loại Trị trung bình được xếp giảm dần, các sai khác lớn sẽ được kiểm định trước
-Tukey( Tukey's honestly Significant Difference): dùng Studentized range statistic để tiến hành các so sánh cặp giữa các nhóm Thiết lập các tỷ lệ sai số thử nghiệm cho việc tập hợp các so sánh cặp
- Tukey's b: thủ tục thay thế của Tukey, giá trị tối ưu là trung bình của giá trị thích hợp cho kiểm định Tukey và kiểm định S-N-K
- Duncan: tạo các so sánh cặp tương tự S-N-K, thiết lập mức bảo vệ cho tỷ
lệ sai số của kiểm định lựa chọn Dùng Studentized range statistic
- Hochberg's GT2: sa sánh bội tương tự
- Gabriel: kiểm định so sánh cặp dùng Studentized modulus tổng quát hơn Hochberg's GT2 khi kích thước mẫu khác nhau
- Waller-Duncan: kiểm định so sánh bội dùng t statistic; sử dụng ước lượng Bayes
- Dunnett: kiểm định t so sánh nhiều cặp
- Tamhane's T2: kiểm định so sánh cặp thận trọng dùng t test
- Dunnett's T3: kiểm định so sánh cặp dùng Studentized modulus
Trang 13- Games-Howell: kiểm định so sánh cặp đầy đủ
- Dunnett's C: kiểm định so sánh cặp dùng Studentized range
Option: chọn các tham số thống kê, continue
Hình 9.18
Analyze\ nonparametric tests\
Các kiểm định phi tham số
ChiSquare
Hình 9.19
Trang 14Hình 9.20
Hình 9.21
Kiểm định pháp tuyến (binominal test) tương tự Chi-Square
9.4 Thiết kế bảng câu hỏi cho SPSS
9.4.1 Số đo và thang đo
Đánh dấu bằng số hay các ký hiệu để mô tả đặc điểm của đối tượng nghiên cứu (sự chấp nhận, thái độ, thị hiếu) theo một qui luật cụ thể nào đó Mô tả bằng số cho phép phân tích dữ liệu bằng phương pháp thống kê và truyền đạt kết quả một cách dễ dàng Có 4 loại thang đo chính được sử dụng trong nghiên cứu Marketing: thang đo biểu danh, thang đo tỷ lệ, thang đo thứ tự và thang đo khoảng
Thang đo biểu danh (danh nghĩa) (Nominal scale)
Là thang đo sử dụng các con số đánh dấu (mã số) để phân loại đối tượng
Trang 15hoặc sử dụng như ký hiệu để phân biệt và nhận dạng đối tượng Thang đo biểu danh hay thang đo danh nghĩa không có ý nghĩa về mặt lượng mặc dù nó được
Thang đo thứ tự (Ordinal scale)
Là thang đo thể hiện sự xếp hạng, thể hiện mối quan hệ so sánh thứ tự giữa các loại đối tượng để chỉ ra phạm vi liên hệ đến một đặc tính nào đó Thang đo này cũng không có ý nghĩa về mặt lượng (không cho biết nhiều hơn hay ít hơn bao nhiêu, chỉ cho biết cấp độ chênh lệch) Ví dụ: Vui lòng xếp thứ tự các loại chất đốt mà anh (chị) ưa thích?
( ) Củi
( ) Than đá
( ) Dầu
( ) Gas
Thang đo khoảng (Interval scale)
Là thang đo cũng có thể dùng để xếp hạng các đối tượng nghiên cứu nhưng khoảng cách bằng nhau trên thang đo đại diện cho khoảng cách bằng nhau trong đặc điểm của đối tượng Một thang đo khoảng chứa đựng tất cả thông tin trong thang đo thứ tự nhưng nó cũng cho phép so sánh sự khác biệt giữa các đối tượng
Ví dụ: sự khác biệt giữa “3” và “4” thì bằng sự khác biệt giữa “1” và “2”, hoặc
sự khác biệt giữa “2” và “4” thì gấp đôi sự khác biệt giữa “1” và “2”
Thang đo tỷ lệ (Ratio scale)
Trang 16Là loại thang đo cao nhất, nó chứa đựng tất cả nội dung của thang đo biểu danh, thang đo thứ tự và thang đo khoảng Trong thang đo tỷ lệ, ta có thể nhận dạng hoặc phân loại đối tượng, xếp hạng đối tượng và so sánh sự khác biệt Thang đo tỷ lệ không chỉ cho biết sự khác biệt giữa 2 và 5 thì bằng sự khác biệt giữa giữa 14 và
17 mà nó còn cho biết thêm 14 thì gấp 7 lấn của 2
9.4.2 Tiến trình thiết kế bảng câu hỏi
Thiết kế bảng câu hỏi là một kỹ năng đòi hỏi thông qua kinh nghiệm,
và nó còn là một nghệ thuật Thiết kế bảng câu hỏi là một quá trình bao gồm
10 bước:
Bước 1: Xác định những thông tin cần thiết
Bước 2: Xác định hình thức phỏng vấn, thu dữ liệu
Bước 3: Xác định nội dung các câu hỏi cần thiết
Bước 4: Thiết kế câu hỏi để khắc phục trường hợp đáp viên không sẵn lòng trả lời
Bước 5: Quyết định cấu trúc câu hỏi (đóng, mở)
Bước 6: Quyết định từ ngữ sử dụng trong câu hỏi
Bước 7: Sắp xếp câu hỏi theo thứ tự hợp lý
Bước 8: Xác định hình thức bảng câu hỏi
Bước 9: Hoàn chỉnh bảng câu hỏi
Bước 10: Điều tra thử bảng câu hỏi
9.4.3 Cách thức mã hoá và nhập liệu
Mã hóa dữ liệu
Tiến hành mã hóa dữ liệu ở giao diện Variable View Bước mã hóa dữ liệu
nên được hoàn thành trước khi tiến hành nhập liệu
Giao diện Variable View thể hiện:
- Các hàng là các biến
- Các cột là các thuộc tính của biến
Trang 17Các thuộc tính của biến bao gồm:
- Tên biến (Name): ngắn gọn cho biết đang đề cập đến câu hỏi nào trong bảng câu hỏi Độ dài tối đa là 8 ký tự, không sử dụng dấu cách hoặc các ký hiệu đặc biệt (như !, ?, *, và ‘) Tên biến không được trùng lặp
- Loại dữ liệu (Type): mặc định là dạng số, có thể thay đổi định dạng
biến ở phần Variable Type
- Số lượng con số hoặc chữ (With) tối đa có thể nhập vào, có thể thay
đổi trong hộp Variable Type ở trên
- Số lượng chữ số thập phân (Decimals), có thể thay đổi trong hộp Variable Type ở trên
- Nhãn biến (Lable): mô tả chi tiết cho tên biến, có thể dài đến 256 ký
tự, có thể dùng ký hiệu đặc biệt
Nhãn trị số của biến (Value): dùng để mô tả cho từng trị số của biến (ví dụ
mã số 1 đại diện cho nhóm nam và 2 đại diện cho nữ)
- Trị số khuyết thiếu (Missing): định nghĩa các trị số như là khuyết thiếu của người sử dụng để giúp phân biệt trị số khuyết thiếu do đáp viên từ chối trả lời hay do câu hỏi đó không áp dụng đối với người này Các trị số được chỉ định là khuyết thiếu của người sử dụng được đánh dấu để SPSS có thể nhận ra trong các phép tính toán
Trang 189.4.4 Một số xử lý trên biến
Mã hóa lại biến
Trong quá trình phân tích dữ liệu người làm nghiên cứu đôi khi sẽ phải mã hoá lại biến để sử dụng cho nhiều mục đích khác nhau, và trường hợp đơn cử nhất là:
Khi nhà nghiên cứu muốn chuyển một biến định lượng (thang đo tỷ lệ) sang một biến định tính (thang đo biểu danh hay thứ tự)
Ví dụ: Khi thu thập thông tin về độ tuổi của bệnh nhân, chúng ta sử dụng thang đo tỷ lệ (dùng chính xác số tuổi của bệnh nhân: 52, 67, hay 81 tuổi…) Đến khi xử lý số liệu, nhà nghiên cứu lại muốn sử dụng nhóm tuổi để phân tích và viết báo cáo:
Trang 19Quy trình mã hoá lại biến như sau:
Vào menu Transform Recode into Different Variables…
Nếu chúng ta chọn Recode into Same Variables… thì biến cũ (số tuổi chính xác) sẽ mất đi và được thay thế bằng một biến mới với các biểu hiện mới (là nhóm tuổi)
Thông thường ta sẽ chọn Recode into Different Variables… để tạo ra
biến mới mà vẫn giữ lại biến cũ
Xuất hiện hộp thoại sau:
Đưa biến cần mã hoá lại từ khung chứa bộ biến sang khung Numeric Variable -> Output Variable
Tại khung Output Variable, khai báo tên và nhãn cho biến mới, Click chọn
Trang 20Change để thực hiện thay biến
Tiếp tục thay đổi giá trị của biến bằng cách click chọn Old and New Values…, mở hộp thoại sau:
Ta lần lượt khai báo giá trị cũ bên tay trái (Old Value) thành giá trị mới bên
tay phải (New Value), Click chọn Add sau mỗi lần khai báo Với giá trị cũ có
các dạng sau đây:
- Value: từng giá trị cũ rời rạc
- System-missing: giá trị khuyết hệ thống
- System or user missing: giá trị khuyết của hệ thống hoặc do người sử dụng định nghĩa
- Range: một khoảng giá trị (từ … đến … / range: … through: …)
- Range, LOWEST through value: một khoảng giá trị từ giá trị nhỏ nhất đến một giá trị được nhập vào
- Range, value through HIGHEST: một khoảng giá trị từ giá trị nhập vào đến giá trị lớn nhất
Chọn Continue trở về hộp thoại trước, và chọn OK để hoàn tất kệnh
Khai báo value cho biến vừa tạo tại ô Value của cửa sổ Variable View như hình sau:
Trang 21Tiếp tục thực hiện các phép thống kê mô tả hay kiểm định dựa trên biến mới vừa tạo nhằm phục vụ cho mục tiêu nghiên cứu
9.4.5 Làm sạch dữ liệu
Dữ liệu sau khi nhập xong có thể có sai sót do trong quá trình nhập liệu, nên việc làm sạch dữ liệu là rất cần thiết Có nhiều phương thức để làm sạch dữ liệu như: tìm ngay trên cửa sổ Data View, dùng bảng tần số đơn giản, hay bảng phối hợp 2 hay 3 biến… Trong những cách trên, việc lập bảng tần số để phát hiện lỗi trong quá trình nhập liệu là đơn giản nhất và hiệu quả cao
Khi tiến hành lập bảng tần số (bằng lệnh Frequency – xem them phần tính tần số), có bảng kết quả như sau:
Trên cửa sổ Data View, chọn toàn bộ cột tương ứng với biến có giá trị bị lỗi Vào menu Edit