Thông tin về tập tin dữ liệu Một tập tin dữ liệu SPSS, ngoài dữ liệu thô, còn chứa các thông tin định nghĩa về các biến gồm có: tên, loại, các nhãn biến và nhãn giá trị.. Có nhiều
Trang 1Nội dung :
Thực hành : 45 tiết
Giới thiệu tổng quan về phần mềm SPSS
Các loại dữ liệu và thang đo
Phương pháp phân tích dữ liệu
Mã hóa và nhập liệu
Thống kê mô tả
Kiểm định giả thuyết trung bình của 2 tổng thể
Kiểm định phi tham số
Phân tích phýng sai
Tổng quan v hồi quy tuyến tính
Trang 2Vai trò của thông tin trong NCKH
Rủ ro
Luận cứ Luận chứng
Luận điểm
Trang 3Chương I: Giới thiệu về SPSS
1 Giới thiệu về thu thập xử lý thông tin trong
nghiên cứu khoa học
- Nghiên cứu KH cần thu thập và xử lý thông tin, qua trình đó thông qua 3 G/đoạn:
- Giai đoạn thiết kế;
- Giai đoạn thu thập thông tin;
- Giai đoạn xử lý và phân tích thông tin
Trang 42 Giai đoạn thiết kế:
Nhiệm vụ của giai đoạn thiết kế công trình
nghiên cứu thực nghiệm là xác định nội dung thông tin cần thu nhận;
phải vạch ra mọi “đường đi, nước bước”;(Xác
định chương trình nghiên cứu, phương án thu thập và xử lý thông tin )
Trang 53.Giai đoạn tiến hành
Đây là bước thu nhận thông tin riêng biệt và kiểm tra chất lượng thu nhận thông tin ngay tại chỗ Đặc điểm cơ bản của bước tiến hành
là thực hiện nghiêm chỉnh những yêu cầu, những điều hướng dẫn đã vạch ra ở bước
thiết kế
Trang 6 4 Nhiệm vụ chủ yếu của giai đoạn xử lý thông tin là chuyển thông tin riêng biệt sang thông tin tổng hợp, thực hiện tổng kiểm tra, đánh giá chất lượng và đánh giá triển vọng của thông tin tổng hợp, phân tích và kết luận Giai đoạn xử lý thông tin cũng có ba bước kế tiếp nhau là:
- Chuẩn bị cho việc xử lý thông tin,
- Xử lý thông tin và kết thúc
Trang 75 Quy trình nghiên cứu xử lý thông tin
Trang 8 -SPSS thực hiện
trong bước 5 chia ra các giai đoạn:
Trang 9 Một số thao tác cơ bản trên SPSS
Trang 11 Các thao tác về tập tin
trên thanh công cụ Data Editor.4123
Trang 12 Đóng một tập tin dữ liệu
thời điểm nên nó sẽ tự động đóng tập tin
dữ liệu cũ trước khi mở tập tin dữ liệu mới
Chọn Data Editor, File/Save hoặc File/Save
As (lưu với tên mới)
Trang 13 Thông tin về tập tin dữ liệu
Một tập tin dữ liệu SPSS, ngoài dữ liệu thô, còn
chứa các thông tin định nghĩa về các biến gồm
có: tên, loại, các nhãn biến và nhãn giá trị
Để hiển thị toàn bộ thông tin về biến trong tập tin dữ liệu đang mở, chọn Utilities/File Info (tập tin chưa mở, chọn File/Display File Info)
Đặc tính này giúp ta nắm vững cấu trúc tập tin
dữ liệu
Trang 14 In tập tin
phần của tập tin kết quả.In toàn bộ dữ liệu
Trang 15
In toàn bộ dữ liệu
In theo trang chỉ định
In dữ liệu đã chọn
Trang 16 Là đại lượng có thể nhận giá trị này hay giá trị khác,
trong trường hợp này hay trường hợp khác
liệu cần thu thập qua phỏng vấn, điều tra, quan sát … và dựa vào đó để phân tích, xử lý nhằm giải quyết vấn đề nghiên cứu
Trang 17 I- Phân loại dữ liệu
dạng chính:
Trang 18 Dữ liệu định tính
Phản ánh tính chất, sự hơn kém,
không tính được trị trung bình Có nhiều cách thể hiện các dữ liệu định
tính, ví dụ: giới tính nam hay nữ, bệnh
nặng hay nhẹ, kết quả điều trị tốt hay xấu, loại thuốc điều trị là ampicilin hay streptomycin, độ bỏng 1 hoặc 2 hoặc 3…
Vì vậy người ta còn phân ra dữ liệu
thứ tự (ordered data), dữ liệu định danh (norminal data)
Trang 19 Dữ liệu định lượng
(numeric), biến thiên liên tục (continuous) hoặc rời rạc (discrete) Ví
dụ: đo chiều cao của thanh niên ta sẽ có
những con số: 16.5; 1.70; 1.72,…, đó là
một biến số liên tục (continuous
variable); tiêm chủng cho trẻ em ở một
địa phương, có em được tiêm một lần, có
em hai lần hoặc ba lần (không thể có 1
lần rưỡi), đó là biến số rời rạc
Trang 20 Dữ liệu bán định lượng
Trong tùy từng lĩnh vực có những chỉ tiêu
khó đánh giá chính xác, vì vậy phải dùng
đến những cách thể hiện bán định lượng Ví
dụ ký sinh trùng sốt rét trong máu +, ++, +++; trứng giun trong phân +, ++, +++ Mặc dù xu hướng dùng bán định lượng ngày càng
ít đi, nhưng cũng có lúc cần đến Xử lý thống kê với các dữ liệu bán định lượng tương đối đơn giản, nhưng cách đánh giá vẫn giúp cho
ta biết được đáng tin cậy hay không và tin cậy ở mức độ nào
Trang 21II- Các loại thang đo
Ngay từ giai đoạn thiết kế đã phải xây dựng thang đo Thang đo là một trong những phương tiện để đo mối liên quan giữa các hiện tượng xã hội Thang đo là cách sắp xếp thông tin, là hệ thống những con số và những mối quan hệ giữa chúng Nó là phương tiện để đo mối liên quan theo từng nội dung nghiên cứu của khách thể cụ thể
Đặc trưng của mỗi thang đo với tư cách một
phương tiện để đo đều chứa ba yếu tố: độ
dài, số đo và chỉ số
Trang 22 Độ dài của thang đo thường có cực đại và cực tiểu, ví dụ: khoảng cách về mức lương (từ mức lương thấp
nhất đến mức lương cao nhất), về trình độ học vấn (từ
trình độ thấp nhất đến trình độ cao nhất),
những đơn vị phân chia độ dài của thang để xác định
vị trí của mọi khách thể có đặc tính xã hội cần nghiên cứu
như nhau hoặc không như nhau, có thể là con số tuyệt đối nhưng cũng có những số đo chỉ có tính chất tương
đối : nhiều hơn, ít hơn, yếu hơn, mạnh hơn,…
Chỉ số là một chỉ tiêu số lượng nào đó xác định vị trí của đối tượng điều tra hay tập hợp của các đối tượng điều tra theo một dấu hiệu nào đó trên thang Nó có thể là con số tuyệt đối như mức thu nhập bình
quân/tháng: 500.000 đồng/tháng,
Trang 231-Thang định danh (nominal Scale)
Nó thể hiện sự phân định những biến dạng của một dấu hiệu nào đó
hiệu (chỉ báo) nào đó được xếp bậc theo mức độ tăng dần hoặc giảm dần thể hiện sự hơn kém của các thang bậc đó,
Các loại thang đo
Trang 243- Thang khoảng cách(interval Scale)
của thang thứ tự Các biến thể của một hiện tượng xã hội nào đó cũng được xếp theo thứ tự và nó còn cho biết khoảng cách đều nhau giữa các biến thể đó
có khoảng cách giống nhau tại bất kỳ điểm nào trên thang đo, nên khoảng cách giữa 5 và 6 độ bằng với khoảng
cách giữa 9 và 10 độ
Trang 254-Thang tỷ lệ (ratio Scale) …
Thang tỷ lệ có tất cả đặc tính khoảng cách và thứ tự của thang khoảng cách Ngoài
ra, vì có điểm 0 được xác định một cách có
ý nghĩa, nên phép toán chia (tỷ số) có thể thực hiện được
cách(interval measurement) và Thang ( tỷ lệ (ratio measurement) dùng chung (Scale)
dùng cho biến định lượng,
Trang 26Mối liên hệ Dữ liệu và thang đo
Dữ liệu
Định tính Định lượng
Thang định danh Thanh Thứ bậc Thảng khoảng cách Thang tỷ lệ
Trang 27Chương 3: MÃ HÓA VÀ NHẬP DỮ LIỆU
I Chuẩn bị dữ liệu
Trong việc chuẩn bị dữ liệu, việc tiên đoán trước những dữ liệu nào là cần thiết đưa vào xử lý và phân tích là một bước quan trọng Nếu dữ liệu bị cắt xén một cách tùy tiện thì có thể dẫn đến tình trạng là khi xử lý mới thấy dữ liệu đó là cần thiết Khi ấy việc bổ sung dữ liệu sẽ rất phức tạp, đồng thời có thể hao tốn thời gian và tiền bạc, việc chuẩn bị dữ liệu thực hiện các vấn đề:
Trang 281.1 Kiểm tra tính hợp lệ dữ liệu (Validate data)
các phương pháp và biện pháp kiểm tra chất lượng được sử dụng để thu nhận các dữ liệu
được trả lời và những chỉ dẫn về thủ tục phỏng vấn để phát hiện ra những nguyên nhân dẫn đến những sai sót
Trang 292 Hiệu chỉnh dữ liệu
Hiệu chỉnh dữ liệu gồm 2 phần
Hiệu chỉnh dữ liệu tại chỗ khi thu nhận dữ liệu
Các nguyên nhân gây nhầm lẫn trong nghiên cứu thực địa là:
Sai lầm do chọn đối tượng
Sai lầm do không thực hiện đầy đủ
Sai lệch do không trả lời
Sai sót do giao tiếp giữa người phỏng vấn và người được phỏng vấn
Những sai sót lúc ghi nhận
Sự giả mạo
Hiệu chỉnh dữ liệu khi các bảng dữ liệu được tập hợp lại
Những cuộc phỏng vấn giả tạo
Những câu trả lời không đầy đủ
Những câu trả lời thiếu nhất quán
Những câu trả lời không thích hợp
Những câu trả lời không đọc được
Trang 30 Có 3 cách được sử dụng khi xử lý các sai
lầm nêu trên là:
sáng tỏ vấn đề
Trang 313- Mã hóa dữ liệu
việc nhận diện phân loại mỗi câu trả lời
trên một ký hiệu chỉ định Đây là một
bước quan trọng vì việc mã hóa dữ liệu
đúng đắn, hợp lý sẽ giúp cho máy tính dễ dàng đọc được dữ liệu và xử lý chúng theo yêu cầu của chúng ta
Trang 323.1 Cấu trúc dữ liệu
tin (record hoặc case)tương ứng với một dòng
Mỗi câu trả lời cho một câu hỏi được gọi là
trường tin (field) hoặc biến số (variable) Một
câu hỏi có thể tạo ra một trường tin hay nhiều trường tin tuỳ theo đó là câu hỏi một đáp ứng
(single response) hay có nhiều đáp ứng (multi
response) Trường tin là một tập hợp các ký tự
(ký tự số, ký tự chữ) tượng trưng một thông tin
được trả lời
Trang 33 3.2 Thủ tục mã hóa dữ liệu
trường tin
mà các trường tin có thể nhận để biểu diễn thông tin tương ứng với các trả lời của
từng câu hỏi
tin
Trang 34Mã hóa trước là việc quyết định thủ tục mã hóa ngay khi thiết kế bảng câu hỏi, do đó
ta có thể in các mã số (code) ngay trong
bảng câu hỏi Hình thức mã hóa này thích hợp với những câu hỏi thuộc về dạng luận
lý (chỉ chọn 1 trong 2 cách trả lời) hoặc
dạng chọn một trong các câu trả lời sẵn
(dạng câu hỏi đóng)
Trang 353.3 Nguyên tắc mã hóa dữ liệu
Số giá trị mã hóa thích hợp:
Số giá trị mã hóa phải đủ lớn để có thể biểu diễn hết các điểm khác biệt
trong dữ liệu.:
Được xếp trong cùng giá trị mã hóa phải tương tự nhau về đặc trưng
nghiên cứu, và ngược lại, những thông tin trả lời được xếp ở các giá trị mã hóa khác nhau phải có sự khác biệt về đặc trưng đang nghiên cứu đến mức đủ để có thể phân loại
Nguyên tắc loại trừ giữa các giá trị mã hóa:
Các giá trị mã hóa không được chồng chéo lên nhau, và chúng ta phải
xác định như thế nào để bất cứ tình huống trả lời nào cũng chỉ được xếp vào một giá trị mã hóa mà thôi
Nguyên tắc toàn diện:
Cấu trúc của các giá trị mã hóa phải được bao quát tất cả các tình huống
trả lời nhằm bảo đảm chúng được mã hóa
Nguyên tắc đóng kín:
Những khoảng cách, và các khoảng cách lớp này nên có độ rộng tương
đương thì tốt hơn là khác nhau
Nguyên tắc định điểm giữa của những khoảng cách lớp:
Nếu đối với những câu hỏi mà khi trả lời người ta hay làm tròn số thì
những khoảng cách lớp cần được thiết kế sao cho những con số cần được làm tròn (lớn hơn) rơi vào điểm giữa của khoảng cách lớp
Trang 363.4 Lập danh bạ mã hóa
Chức năng của danh bạ mã hóa là:
Giúp người làm công việc mã hóa thực hiện việc biến đổi từ một câu trả
lời ra một mã hiệu thích hợp mà máy tính đọc và hiểu được
Giúp nhà nghiên cứu nhận diện được các biến số mà họ muốn sử dụng
trong quá trình phân tích thống kê
Bảng phân tích mà máy tính in ra sau đó sẽ giúp nhà nghiên cứu nhận
diện được các loại biến số
Các cột của danh bạ mã hóa thông thường gồm có:
Số thứ tự của câu hỏi
Vấn đề của câu hỏi (thường là tóm tắt nội dung câu hỏi)
Tên của trường tin (biến số) phát sinh từ câu hỏi
Vị trí của biến số trong mẫu tin (theo số byte) cho biết độ dài của giá trị
mã hóa
Nhãn của biến số (variable label) thường được dùng để làm rõ ý nghiã
của tên biến số do tên biến số thường bị hạn chế về chiều dài (Cột này không bắt buộc)
Các giá trị mã hóa: là các giá trị mà biến số có thể nhận được để biểu
diễn thông tin được trả lời
Nhãn giá trị mã hóa (value label) thường dùng để miêu tả ý nghĩa của
các giá trị mã hóa
Trang 37 4- Tạo tập dữ liệu mới
Cửa sổ Data Editor có dạng như bảng tính (Excel ,Quattro ),
giúp ta tạo mới/sửa đổi một tập tin dữ liệu dạng SPSS chúng
một cách dễ dàng
Một số điểm cần lưu ý sau đây:
Mỗi dòng tương ứng với 1 quan sát hay với một bảng phỏng
vấn
Mỗi cột là một biến số đặc trưng cho một tính chất được đo
lường Thông thường mỗi câu hỏi tương ứng một cột, nhưng cũng có nhiều câu hỏi làm phát sinh nhiều biến sẽ được chứa trong nhiều cột
Mỗi ô (giao điểm của dòng và cột ) chứa một gía trị duy nhất
của một biến đối với một quan sát (hoặc một bảng phỏng vấn)
Ô chỉ chứa giá trị dữ liệu chứ không thể chứa được công thức như trong các chương trình bảng tính
Tập tin dữ liệu có dạng hình chữ nhật Kích thước tập tin dữ
liệu được xác định bởi số quan sát và số biến Với SPSS không
có ô trống trong phạm vi của tập tin dữ liệu Với các biến kiểu
số, các ô trống được xem là giá trị system-missing và sẽ có
nhiều cách xử lý chúng mà chúng ta chưa đề cập
Trang 384.1 Định nghĩa biến ( tạo biến)
a/ Tên biến
Tên mặc định của một biến mới là varxxxxx với xxxxx
là một số gồm 5 chữ số tính từ 00001 Để thay đổi tên biến, ta gõ tên mới vào hộp Variable Name theo các
quy ước sau đây:
Tên phải bắt đầu bằng một chữ cái và không được kết
thúc bằng một dấu chấm (period)
Không nên dùng dấu gạch dưới (underscore) để kết
thúc tên biến
Tên không được quá 8 ký tự
Tên không được chứa khoảng trắng và các ký tự đặc
biệt như !,?,*
Tên biến không được trùng nhau
Tên biến không phân biệt chữ thường và chữ hoa
Các từ khóa sau đây không được dùng làm tên biến
Trang 39 b/ Loại biến
SPSS mặc định loại biến mới là kiểu số (numeric)
Để thay đổi loại biến, ấn vào t mở hộp thoại Variable Type
Chúng ta có thể dùng các loại biến sau đây:
Numeric: gõ vào ô Width độ rộng của số lớn nhất kể cả dấu thập phân,
gõ vào ô Decimal Places số chữ số thập phân muốn hiển thị Độ rộng tối
đa của biến kiểu số là 40 và tối đa là 16 chữ số thập phân
Comma: tương tự loại Numeric nhưng kể thêm các dấu phẩy phân cách
hàng nghìn, và dấu thập phân được dùng làm dấu chấm (số thập phân dạng Mỹ)
Dot: Tương tự loại Numeric nhưng kể thêm các dấu chấm phân cách
hàng nghìn, và dấu thập phân được dùng là dấu phẩy (số thập phân dạng Pháp)
Scientific notation: hiển thị số dạng khoa học
Date: kiểu ngày hay giờ, chọn dạng thích hợp từ danh sách có sẵn
Dollar: dạng tiền tệ của Mỹ, có dấu $ ở phía trước số hiển thị
Custom currency: dạng tiền tệ do người dùng xác định
String: biến kiểu chuỗi, nếu không quá 8 ký tự gọi là sort Strings và được
dùng trong nhiều thủ tục của SPSS, ngược lại gọi là long Strings và chỉ được dùng giới hạn trong một số thủ tục SPSS mà thôi
Trang 40c/ Nhãn của biến và của giá trị dữ liệu
để mô tả gợi nhớ thêm ý nghĩa của biến
Nhãn của các giá trị dữ liệu dài tối đa 60
ký tự, dùng để mô tả thêm ý nghĩa của các giá trị dữ liệu Điều này đặc biệt hữu ích khi ta dùng các mã số để đại diện
các lớp dữ liệu
để đưa tên nhãn và ấn vào Values mở
hộp thoại Value Labels
Trang 41d/ Gán một nhãn:
Nhập giá trị vào hộp Value ( có thể kiểu số hay chuỗi )
Nhập một nhãn vào hộp Value Label
Ấn Add
Sửa đổi một nhãn:
Để vệt sáng tại nhãn cần sửa trong danh sách nhãn
Nhập vào giá trị mới hay tên mới
Ấn Change
Xóa một nhãn:
Để vệt sáng tại nhãn cần xóa trong danh sách nhãn
Ấn Remove
Trang 42e/ Mã hóa lại biến (recoding)
mã hóa lại biến:
sẵn cho một biến, ví dụ giới tính được
mã hóa là 0 cho nam và 1 cho nữ Bạn có thể thích mã hóa giới tính là 1 cho nữ và 2 cho nam
nhau của một biến định tính chỉ còn 2
hay 3 loại
Trang 43 Nhập vào tên biến mớiNhập vào nhãn mớiXác nhận tên biến mới1234Mã hóa khoảng thành một giá trịGiá trị
khuyết đã được mã hóaMô tả cách mã hóa lại biến
Để mã hóa giá trị khuyết, chọn System or User missing và System-missing trong hộp New Value Sau đó chọn Add để ghi lại thay đổi này Lúc đó trong cửa sổ Old -> New xuất hiện MISSING ->SYSMIS
Khi mã hóa lại biến định lượng thành biến định tính, quá trình thực hiện cũng tương tự Ví dụ, chúng ta hãy mã
hoá lại biến định lượng age thành biến định tính mới gọi là agecat (age in categories) Giả sử chúng ta muốn có những nhóm tuổi như sau: