Chuong 9 Su dung phan mem thong ke SPSS

CHƯƠNG 9: SỬ DỤNG PHẦN MỀM THỐNG KÊ SPSS Sau khi học xong chương này, sinh viên có thể: − Hiểu được chức năng của phần mềm SPSS; − Sử dụng được một số tính năng cơ bản của phần mềm để th

Trang 1

CHƯƠNG 9: SỬ DỤNG PHẦN MỀM THỐNG KÊ SPSS Sau khi học xong chương này, sinh viên có thể:

− Hiểu được chức năng của phần mềm SPSS;

− Sử dụng được một số tính năng cơ bản của phần mềm để thống kê các hoạt động trong doanh nghiệp

và các hộp thoại đơn giản

Chức năng chính của SPSS:

- Nhập và làm sạch dữ liệu;

- Xử lý biến đổi và quản lý dữ liệu;

- Tóm tắt, tổng hợp dữ liệu và trình bày dưới các dạng biểu bảng, đồ thị, bản đồ;

- Phân tích dữ liệu, tính toán các tham số thống kê và diễn giải kết quả

9.2 Nội dung chủ yếu của SPSS:

Nội dung của SPSS rất phong phú và đa dạng bao gồm từ việc thiết kế các bảng biểu và sơ đồ thống kê, tính toán các đặc trưng mẫu trong thống kê mô tả, đến một hệ thống đầy đủ các phương pháp thống kê phân tích như:

- So sánh các mẫu bằng nhiều tiêu chuNn tham số và phi tham số (Nonparametric Test), các mô hình phân tích phương sai theo dạng tuyến tính

Trang 2

tổng quát (General Linear Models), các mô hình hồi quy đơn biến và nhiều biến, các hồi quy phi tuyến tính (Nonlinear), các hồi quy Logistic;

- Phân tích theo nhóm (Cluster Analysis);

- Phân tích tách biệt (Discriminatory Analysis);

- Và nhiều chuyên sâu khác (Advanced Statistics)

Một số ứng dụng chính của SPSS: Những nội dung nói trên, SPSS có thể

là đủ để giúp các nhà khoa học thực hiện việc xử lý số liệu nghiên cứu nói chung

và trong nghiên cứu các mảng chuyên ngành khác nhau của mình, chẳng hạn:

- Ứng dụng SPSS trong nghiên cứu tâm lý học: tâm lý tội phạm, tâm lý học sinh-sinh viên…;

- Ứng dụng SPSS trong nghiên cứu xã hội học: ý kiến của người dân trong việc xây dựng lại khu chung cư, thống kê y tế…;

- Ứng dụng SPSS trong nghiên cứu thị trường: nghiên cứu và định hướng phát triển sản phNm, mở rộng thị trường; sự hài lòng của khách hàng ;

- Ứng dụng SPSS nghiên cứu đa dạng sinh học, trong phát triển nông lâm nghiệp…

Với SPSS, người sử dụng có thể phân tích được thực trạng, tìm ra nhân tố ảnh hưởng, dự đoán được xu hướng xảy ra tiếp theo, giúp bạn đưa ra các quyết định một cách chính xác, giải quyết các vấn đề một cách nhanh chóng và cải thiện kết quả tốt hơn

9.3 Hướng dẫn sử dụng phần mềm và ví dụ minh họa

Đây là phần mềm chuyên dụng, do vậy mà việc sử dụng cũng đòi hỏi sự chuyên nghiệp Phải mua và cài đặt chương trình, khai báo biến Thích hợp cho

xử lý các biến định tính

(1) Khởi động SPSS tương tự các chương trình trong windows, Programs\SPSS for Windows\ SPSS for Windows

Trang 3

Sau khi khởi động sẽ thấy màn hình nhập dữ liệu tương tự như Excel nhưng chỉ có 2 sheet (data view và variable view)

(2) Trước khi tiến hành phân tích cần nhập dữ liệu, có 3 cách:

− Mở data file đã có (*.sav)

− Đọc từ bảng tính (*.xls), từ CSDL(*.mdb), từ Text file (*.txt)

− Nhập trực tiếp

Trước khi nhập cần xác định các trường dữ liệu như các CSDL, vào variable view để khai báo, đã có sẵn các trường (name, type, width, decimals, label, values, missing, columns, align(left, right, center), measure (scaler- số đếm- thang đo định lượng, ordinal- thang đo thứ bậc, nominal-thang đo danh nghĩa, vùng, khu vực)) tùy yêu cầu khai báo cho phù hợp Sau khi đã khai báo, nhập tương tự Excel

(3) Tutorial: Chứa trong Help, hướng dẫn đầy đủ các bước sử dụng SPSS với bộ dữ liệu demo Để biết nội dung chi tiết của các tham số trong mỗi tùy chọn, nhấn help

(4) Một số phân tích thống kê thông dụng của SPSS: Analyze\ Descriptive Statistics\

Frequencies (tần suất): Đây là công cụ thường được dùng tóm lược thông tin về phạm vi và cấp độ của biến tại 1 thời điểm; dùng tóm lược thông tin và chuNn hóa về phạm vi của biến

Dùng Frequencies có thể là một lựa chọn để tóm tắt phạm vi biến; cung cấp thống kê để tóm tắt cấp độ của biến

Descriptives: tập trung vào phạm vi của biến và cung cấp việc lưu giữ giá trị chuNn hóa (z scores) của biến

Crosstabs: cho phép có được thông tin tóm tắt về mối liên hệ giữa 2 biến Means: cung cấp thống kê mô tả và bảng ANOVA để nghiên cứu mối liên

hệ giữa phạm vi và cấp độ của các biến

Trang 4

Summarize: cung cấp thống kê mô tả và thông tin tóm tắt của sự kiện để nghiên cứu mối liên hệ giữa phạm vi và cấp độ của các biến

OLAP cubes: cung cấp thống kê mô tả để nghiên cứu mối liên hệ giữa phạm vi và cấp độ của các biến

Correlations: cung cấp mô tả tóm tắt mối liên hệ giữa phạm vi 2 biến

Khi thực hiện phân tích, nếu dữ liệu chưa được mở, SPSS yêu cầu mở, chọn CSDLcần phân tích

Hình 9.1

Phân tích tần xuất: chọn các biến cần phân tích chuyển vào Variable

Hình 9.2

Trang 5

− Giá trị phân vị (điểm tứ phân vị, điểm cắt chia khoảng, phân vị );

− Độ phân tán (độ lệch chuNn, phương sai, khoảng biến thiên, max, min);

− Xu hướng trung tâm (kỳ vọng, trung vị, mod, tổng);

− Sự phân bố (độ nghiêng (hệ số bất đối xứng), độ nhọn)

Continue Chart\

Trang 6

Chọn đồ thị thể hiện (dạng, giá trị thể hiện)

Chọn các biến và tham số trong option tương tự như phần trên

Explore (khảo sát, thăm dò): thường dùng trong ước lượng khoảng tin cậy của kỳ vọng, nhận biết các dữ liệu ngoài nhóm; kiểm tra giả thuyết; đặc điểm khác biệt trong nhóm các biến cố Chọn các biến vào danh sách phù hợp (bảng phụ thuộc, bảng nhân tố, nhãn trường hợp),

Trang 8

Trong biểu đồ chọn (biểu đồ khối, mô tả, biểu đồ kiểm định) Tuỳ chọn báo cáo

Crosstabs (bảng tra chéo): là kỹ thuật cơ bản để nghiên cứu mối liên hệ giữa hai cấp độ của biến Thường dùng để kiểm tra sự độc lập và đo lường về sự liên

hệ và chấp thuận của các dữ liệu

Chọn dòng, cột

Hình 9.10

Exact: Kiểm định đúng (tiệm cận, mức tin cậy Monte Carlo (99%), đúng - thời gian kiểm định)

Thống kê gồm nhiều tham số thông thường ít dùng

- Ratio: tỷ lệ Chọn tử số và mẫu số từ các biến Thường ít dùng

Analyze\ Compare Means\

-Mean\ chọn các biến phụ thuộc và độc lập

Hình 9.11

Trang 9

Trong option chọn các tham số thống kê theo yêu cầu, continue\OK

3 dạng t-Test

Hình 9.12

Hình 9.13

Trang 11

Chọn contrast (đối chiếu), dạng đa thức, hệ số tương quan, continue

Post hoc: chọn với giả thiết cùng (hoặc khác) phương sai, continue

Hình 9.17

- LSD (Least Significant Difference): dùng kiểm định t để thực hiện tất cả các so sánh cặp giữa các trung bình nhóm, tương đương với việc thực hiện tất cả các kiểm định bội t giữa các cặp nhóm Không có điều chỉnh tỷ lệ sai số khi so sánh bội

- Bonferroni: loại kiểm định LSD cải tiến, có sự kiểm tra tất cả các tỷ lệ sai

số bằng cách cho trước sai số tỷ lệ cho mỗi kiểm định

Trang 12

- Sidak: kiểm định so sánh nhiều cặp, sử dụng t statistic, giới hạn chặt hơn

so với Bonferroni

- Scheffe: so sánh cặp cùng lúc cho tất cả các kết hợp theo cặp có thể có của các trị trung bình Dùng thống kê mẫu F kém nhạy trong so sánh trung bình của các cặp biến

- R-E-G-W F (Ryan-Einot-Gabriel-Welsch): thủ tục giảm áp dùng F test

- R-E-G-W Q (Ryan-Einot-Gabriel-Welsch) thủ tục giảm áp dùng Studentized range

- S-N-K (Student-Newman-Keuls): thực hiện tất cả các so sánh cặp giữa các trung bình Nếu cỡ mẫu bằng nhau hoặc trung bình các nhóm được chọn thì so sánh cặp trung bình trong nội bộ các nhóm cùng loại Trị trung bình được xếp giảm dần, các sai khác lớn sẽ được kiểm định trước

-Tukey( Tukey's honestly Significant Difference): dùng Studentized range statistic để tiến hành các so sánh cặp giữa các nhóm Thiết lập các tỷ lệ sai số thử nghiệm cho việc tập hợp các so sánh cặp

- Tukey's b: thủ tục thay thế của Tukey, giá trị tối ưu là trung bình của giá trị thích hợp cho kiểm định Tukey và kiểm định S-N-K

- Duncan: tạo các so sánh cặp tương tự S-N-K, thiết lập mức bảo vệ cho tỷ

lệ sai số của kiểm định lựa chọn Dùng Studentized range statistic

- Hochberg's GT2: sa sánh bội tương tự

- Gabriel: kiểm định so sánh cặp dùng Studentized modulus tổng quát hơn Hochberg's GT2 khi kích thước mẫu khác nhau

- Waller-Duncan: kiểm định so sánh bội dùng t statistic; sử dụng ước lượng Bayes

- Dunnett: kiểm định t so sánh nhiều cặp

- Tamhane's T2: kiểm định so sánh cặp thận trọng dùng t test

- Dunnett's T3: kiểm định so sánh cặp dùng Studentized modulus

Trang 13

- Games-Howell: kiểm định so sánh cặp đầy đủ

- Dunnett's C: kiểm định so sánh cặp dùng Studentized range

Option: chọn các tham số thống kê, continue

Hình 9.18

Analyze\ nonparametric tests\

Các kiểm định phi tham số

ChiSquare

Hình 9.19

Trang 14

Hình 9.20

Hình 9.21

Kiểm định pháp tuyến (binominal test) tương tự Chi-Square

9.4 Thiết kế bảng câu hỏi cho SPSS

9.4.1 Số đo và thang đo

Đánh dấu bằng số hay các ký hiệu để mô tả đặc điểm của đối tượng nghiên cứu (sự chấp nhận, thái độ, thị hiếu) theo một qui luật cụ thể nào đó Mô tả bằng số cho phép phân tích dữ liệu bằng phương pháp thống kê và truyền đạt kết quả một cách dễ dàng Có 4 loại thang đo chính được sử dụng trong nghiên cứu Marketing: thang đo biểu danh, thang đo tỷ lệ, thang đo thứ tự và thang đo khoảng

Thang đo biểu danh (danh nghĩa) (Nominal scale)

Là thang đo sử dụng các con số đánh dấu (mã số) để phân loại đối tượng

Trang 15

hoặc sử dụng như ký hiệu để phân biệt và nhận dạng đối tượng Thang đo biểu danh hay thang đo danh nghĩa không có ý nghĩa về mặt lượng mặc dù nó được

Thang đo thứ tự (Ordinal scale)

Là thang đo thể hiện sự xếp hạng, thể hiện mối quan hệ so sánh thứ tự giữa các loại đối tượng để chỉ ra phạm vi liên hệ đến một đặc tính nào đó Thang đo này cũng không có ý nghĩa về mặt lượng (không cho biết nhiều hơn hay ít hơn bao nhiêu, chỉ cho biết cấp độ chênh lệch) Ví dụ: Vui lòng xếp thứ tự các loại chất đốt mà anh (chị) ưa thích?

( ) Củi

( ) Than đá

( ) Dầu

( ) Gas

Thang đo khoảng (Interval scale)

Là thang đo cũng có thể dùng để xếp hạng các đối tượng nghiên cứu nhưng khoảng cách bằng nhau trên thang đo đại diện cho khoảng cách bằng nhau trong đặc điểm của đối tượng Một thang đo khoảng chứa đựng tất cả thông tin trong thang đo thứ tự nhưng nó cũng cho phép so sánh sự khác biệt giữa các đối tượng

Ví dụ: sự khác biệt giữa “3” và “4” thì bằng sự khác biệt giữa “1” và “2”, hoặc

sự khác biệt giữa “2” và “4” thì gấp đôi sự khác biệt giữa “1” và “2”

Thang đo tỷ lệ (Ratio scale)

Trang 16

Là loại thang đo cao nhất, nó chứa đựng tất cả nội dung của thang đo biểu danh, thang đo thứ tự và thang đo khoảng Trong thang đo tỷ lệ, ta có thể nhận dạng hoặc phân loại đối tượng, xếp hạng đối tượng và so sánh sự khác biệt Thang đo tỷ lệ không chỉ cho biết sự khác biệt giữa 2 và 5 thì bằng sự khác biệt giữa giữa 14 và

17 mà nó còn cho biết thêm 14 thì gấp 7 lấn của 2

9.4.2 Tiến trình thiết kế bảng câu hỏi

Thiết kế bảng câu hỏi là một kỹ năng đòi hỏi thông qua kinh nghiệm,

và nó còn là một nghệ thuật Thiết kế bảng câu hỏi là một quá trình bao gồm

10 bước:

Bước 1: Xác định những thông tin cần thiết

Bước 2: Xác định hình thức phỏng vấn, thu dữ liệu

Bước 3: Xác định nội dung các câu hỏi cần thiết

Bước 4: Thiết kế câu hỏi để khắc phục trường hợp đáp viên không sẵn lòng trả lời

Bước 5: Quyết định cấu trúc câu hỏi (đóng, mở)

Bước 6: Quyết định từ ngữ sử dụng trong câu hỏi

Bước 7: Sắp xếp câu hỏi theo thứ tự hợp lý

Bước 8: Xác định hình thức bảng câu hỏi

Bước 9: Hoàn chỉnh bảng câu hỏi

Bước 10: Điều tra thử bảng câu hỏi

9.4.3 Cách thức mã hoá và nhập liệu

Mã hóa dữ liệu

Tiến hành mã hóa dữ liệu ở giao diện Variable View Bước mã hóa dữ liệu

nên được hoàn thành trước khi tiến hành nhập liệu

Giao diện Variable View thể hiện:

- Các hàng là các biến

- Các cột là các thuộc tính của biến

Trang 17

Các thuộc tính của biến bao gồm:

- Tên biến (Name): ngắn gọn cho biết đang đề cập đến câu hỏi nào trong bảng câu hỏi Độ dài tối đa là 8 ký tự, không sử dụng dấu cách hoặc các ký hiệu đặc biệt (như !, ?, *, và ‘) Tên biến không được trùng lặp

- Loại dữ liệu (Type): mặc định là dạng số, có thể thay đổi định dạng

biến ở phần Variable Type

- Số lượng con số hoặc chữ (With) tối đa có thể nhập vào, có thể thay

đổi trong hộp Variable Type ở trên

- Số lượng chữ số thập phân (Decimals), có thể thay đổi trong hộp Variable Type ở trên

- Nhãn biến (Lable): mô tả chi tiết cho tên biến, có thể dài đến 256 ký

tự, có thể dùng ký hiệu đặc biệt

Nhãn trị số của biến (Value): dùng để mô tả cho từng trị số của biến (ví dụ

mã số 1 đại diện cho nhóm nam và 2 đại diện cho nữ)

- Trị số khuyết thiếu (Missing): định nghĩa các trị số như là khuyết thiếu của người sử dụng để giúp phân biệt trị số khuyết thiếu do đáp viên từ chối trả lời hay do câu hỏi đó không áp dụng đối với người này Các trị số được chỉ định là khuyết thiếu của người sử dụng được đánh dấu để SPSS có thể nhận ra trong các phép tính toán

Trang 18

9.4.4 Một số xử lý trên biến

Mã hóa lại biến

Trong quá trình phân tích dữ liệu người làm nghiên cứu đôi khi sẽ phải mã hoá lại biến để sử dụng cho nhiều mục đích khác nhau, và trường hợp đơn cử nhất là:

Khi nhà nghiên cứu muốn chuyển một biến định lượng (thang đo tỷ lệ) sang một biến định tính (thang đo biểu danh hay thứ tự)

Ví dụ: Khi thu thập thông tin về độ tuổi của bệnh nhân, chúng ta sử dụng thang đo tỷ lệ (dùng chính xác số tuổi của bệnh nhân: 52, 67, hay 81 tuổi…) Đến khi xử lý số liệu, nhà nghiên cứu lại muốn sử dụng nhóm tuổi để phân tích và viết báo cáo:

Trang 19

Quy trình mã hoá lại biến như sau:

Vào menu Transform  Recode into Different Variables…

Nếu chúng ta chọn Recode into Same Variables… thì biến cũ (số tuổi chính xác) sẽ mất đi và được thay thế bằng một biến mới với các biểu hiện mới (là nhóm tuổi)

Thông thường ta sẽ chọn Recode into Different Variables… để tạo ra

biến mới mà vẫn giữ lại biến cũ

Xuất hiện hộp thoại sau:

Đưa biến cần mã hoá lại từ khung chứa bộ biến sang khung Numeric Variable -> Output Variable

Tại khung Output Variable, khai báo tên và nhãn cho biến mới, Click chọn

Trang 20

Change để thực hiện thay biến

Tiếp tục thay đổi giá trị của biến bằng cách click chọn Old and New Values…, mở hộp thoại sau:

Ta lần lượt khai báo giá trị cũ bên tay trái (Old Value) thành giá trị mới bên

tay phải (New Value), Click chọn Add sau mỗi lần khai báo Với giá trị cũ có

các dạng sau đây:

- Value: từng giá trị cũ rời rạc

- System-missing: giá trị khuyết hệ thống

- System or user missing: giá trị khuyết của hệ thống hoặc do người sử dụng định nghĩa

- Range: một khoảng giá trị (từ … đến … / range: … through: …)

- Range, LOWEST through value: một khoảng giá trị từ giá trị nhỏ nhất đến một giá trị được nhập vào

- Range, value through HIGHEST: một khoảng giá trị từ giá trị nhập vào đến giá trị lớn nhất

Chọn Continue trở về hộp thoại trước, và chọn OK để hoàn tất kệnh

Khai báo value cho biến vừa tạo tại ô Value của cửa sổ Variable View như hình sau:

Trang 21

Tiếp tục thực hiện các phép thống kê mô tả hay kiểm định dựa trên biến mới vừa tạo nhằm phục vụ cho mục tiêu nghiên cứu

9.4.5 Làm sạch dữ liệu

Dữ liệu sau khi nhập xong có thể có sai sót do trong quá trình nhập liệu, nên việc làm sạch dữ liệu là rất cần thiết Có nhiều phương thức để làm sạch dữ liệu như: tìm ngay trên cửa sổ Data View, dùng bảng tần số đơn giản, hay bảng phối hợp 2 hay 3 biến… Trong những cách trên, việc lập bảng tần số để phát hiện lỗi trong quá trình nhập liệu là đơn giản nhất và hiệu quả cao

Khi tiến hành lập bảng tần số (bằng lệnh Frequency – xem them phần tính tần số), có bảng kết quả như sau:

Trên cửa sổ Data View, chọn toàn bộ cột tương ứng với biến có giá trị bị lỗi Vào menu Edit

Định dạng
Số trang	22
Dung lượng	623,9 KB