Cụ thể, chúng tôi trình bày một số khái niệm cơ bản của lý thuyết xác suất thống kê như biến ngẫu nhiên, mẫu ngẫu nhiên và mẫu quan sát, thống kê và các đặc trưng thống kê… Đồng thời để
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH
TRỊNH THỊ PHƯỢNG
SỬ DỤNG SPSS ĐỂ TÌM HIỂU HỒI QUY ĐƠN
CỦA MỘT SỐ CHỈ TIÊU SINH LÝ
LUẬN VĂN THẠC SỸ TOÁN HỌC
Vinh, 2014
Trang 21
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH
TRỊNH THỊ PHƯỢNG
SỬ DỤNG SPSS ĐỂ TÌM HIỂU HỒI QUY ĐƠN
CỦA MỘT SỐ CHỈ TIÊU SINH LÝ
Chuyên ngành: Lý thuyết Xác suất và thống kê Toán học
Mã số: 60.46.01.06
LUẬN VĂN THẠC SĨ TOÁN HỌC
Người hướng dẫn khoa học: Tiến sĩ Nguyễn Trung Hòa
Vinh, 2014
Trang 32
MỤC LỤC
MỞ ĐẦU 3
CHƯƠNG 1 KIẾN THỨC CƠ SỞ 5
1.1 Biến ngẫu nhiên 5
1.1.1 Định nghĩa: 5
1.1.2 Phân loại biến ngẫu nhiên 5
1.1.3 Hàm phân phối xác suất 5
1.1.4 Các số đặc trưng của biến ngẫu nhiên 6
1.1.5 Vectơ ngẫu nhiên 8
1.2 Mẫu ngẫu nhiên và mẫu quan sát 8
1.2.1 Định nghĩa: 8
1.2.2 Các phương pháp chọn mẫu quan sát 9
1.3 Thống kê và các đặc trưng thống kê 9
1.3.1 Định nghĩa: 9
1.3.2 Trung bình mẫu 10
1.3.3 Phương sai mẫu 10
1.3.4 Tần suất mẫu 11
1.3.5 Một số đặc trưng khác 11
1.4 Phân tích hồi quy đơn tuyến tính 12
1.4.1 Phân tích hồi quy đơn tuyến tính 12
1.4.2 Phân tích hồi quy đơn phi tuyến 13
CHƯƠNG 2 SỬ DỤNG SPSS ĐỂ TÌM HIỂU VỀ HỒI QUY ĐƠN 14
CỦA MỘT SỐ CHỈ SỐ SINH LÝ 14
2.1 Giới thiệu tổng quan về phần mềm SPSS và quản lý dữ liệu 14
2.1.1 Giới thiệu chung về SPSS 14
2.1.2 Khởi động SPSS 16
2.1.3 Mở một file 17
2.1.4 Các màn hình SPSS: 18
2.1.5 Quản lý dữ liệu 22
2.2 Các tham số của phân phối 30
2.2.1 Các mức độ trung tâm 30
2.2.2 Các phân vị 30
2.2.3 Các tham số đo độ phân tán 31
2.2.4 Các tham số phản ánh phân phối 32
2.2.5 Mối quan hệ của các tham số 32
2.3 Trình bày dữ liệu thống kê 33
2.3.1 Lập bảng thống kê 33
2.3.2 Biểu đồ thống kê 34
2.4 Phân tích hồi quy 38
2.4.1 Tương quan tuyến tính và Hồi quy tuyến tính 38
2.4.2 Hồi quy đơn tuyến tính 40
2.4.3 Phân tích hồi qui tuyến tính với SPSS 40
2.4.4 SPSS với hồi quy bậc hai 48
2.4.5 Ứng dụng SPSS đối với một bài toán thực tế 49
KẾT LUẬN 54
TÀI LIỆU THAM KHẢO 55
Trang 43
MỞ ĐẦU
Việc ứng dụng tin học để xử lý số liệu trong các lĩnh vực khoa học - kỹ thuật, kinh tế - xã hội ngày càng trở thành yêu cầu cấp thiết đối với những người làm công tác thống kê, công tác nghiên cứu, công tác quản lý
Có nhiều phần mềm để xử lý số liệu trong đó có phần mềm SPSS, là một trong những phần mềm xử lý tài liệu thống kê mạnh nhất và được sử dụng phổ biến nhất hiện nay
Ưu điểm cơ bản của phần mềm này là sử dụng dễ dàng, cho phép thực hiện việc tính toán và phân tích các tài liệu thống kê theo những phương pháp từ đơn giản đến phức tạp
Để có thể sử dụng hiệu quả SPSS đòi hỏi phải có những hiểu biết nhất định về các phương pháp nghiên cứu thống kê như : Phân tổ, các tham số của phân phối, kiểm định các giả thuyết, phân tích hồi quy và tương quan, dự đoán
Là người làm công tác giảng dạy tại trường Cao đẳng Y tế Thanh Hoá, được nghiên cứu các kiến thức về toán học rất gần với các tham số trong SPSS,
để nâng cao kiến thức bổ trợ cho sinh viên trong việc đánh giá phân tích trong lĩnh vực của ngành, từ đó đưa ra các mô hình, dự báo, dự đoán Đồng thời để xử
lý và khảo sát các bài toán thống kê, vận dụng cách nhập, chọn lọc và sửa đổi dữ liệu, mã hoá sao cho phù hợp với mục đích nghiên cứu và ứng dụng kiến thức đã học trong môn học “ Xác suất và thống kê ứng dụng “ dựa trên một tệp dữ liệu thu thập có sẵn
Đó là lí do tôi chọn đề tài luận văn của mình là “SỬ DỤNG SPSS ĐỂ TÌM HIỂU HỒI QUY ĐƠN CỦA MỘT SỐ CHỈ TIÊU SINH LÝ”
Mục tiêu nghiên cứu của đề tài nhằm xác định nội dung cơ bản của phương pháp phân tích hồi quy và nghiên cứu một số ứng dụng của phương pháp phân tích hồi quy trong khoa học Y khoa
Luận văn có nhiệm vụ trình bày những khái niệm cơ bản của phương pháp phân tích hồi quy, các vấn đề liên quan đến phân tích hồi quy như phân tích tương quan, phương pháp bình phương nhỏ nhất Một số dạng hồi quy có
Trang 54
thể ứng dụng trong nghiên cứu khoa học Y khoa: hồi quy đơn Đề xuất một số ý kiến về việc vận dụng phương pháp phân tích hồi quy trong khoa học Y khoa Trong luận văn này, chúng tôi khai thác các phương pháp nghiên cứu đã được đề xuất để trình bày luận văn gồm 2 chương:
Chương 1 Kiến thức cơ sở
Trong chương này, chúng tôi trình bày một số khái niệm cơ bản liên quan chính đến nội dung của chương sau Cụ thể, chúng tôi trình bày một số khái niệm cơ bản của lý thuyết xác suất thống kê như biến ngẫu nhiên, mẫu ngẫu nhiên và mẫu quan sát, thống kê và các đặc trưng thống kê… Đồng thời để có kiến thức chuẩn bị cho việc nghiên cứu chúng tôi trình bày phần phân tích hồi quy đơn tuyến tính
Chương 2 Sử dụng SPSS để tìm hiểu về hồi quy đơn của một số chỉ số sinh lý Đây là nội dung chính của luận văn, bao gồm giới thiệu tổng quan về phần mềm SPSS và quản lý dữ liệu; các tham số của phân phối trình bày dữ liệu thống kê trong SPSS và phân tích hồi quy với một số chỉ tiêu của một bộ số liệu thực tế
Luận văn được thực hiện và hoàn thành tại trường Đại học Vinh dưới sự hướng dẫn tận tình của thầy giáo TS Nguyễn Trung Hòa Tác giả xin được bày
tỏ lòng biết ơn sâu sắc nhất đến thầy về sự hướng dẫn, động viên và tạo điều kiện thuận lợi cho tác giả trong suốt quá trình học tập và nghiên cứu
Nhân dịp này, tác giả cũng xin chân thành cảm ơn các thầy, cô giáo trong
tổ Xác suất và Thống kê toán, các thầy cô giáo trong Hội đồng chấm luận văn, Khoa toán, phòng sau Đại học- trường đại học Vinh Đồng thời, cho phép tôi nói lời cảm ơn tới gia đình và bạn bè đã động viên, góp ý kiến và tạo mọi điều kiện thực hiện luận văn này
Mặc dù đã có nhiều cố gắng, song luận văn không tránh khỏi những thiếu sót Tác giả rất mong nhận được những lời chỉ bảo, những ý kiến đóng góp của các thầy giáo, cô giáo và bạn đọc để luận văn được hoàn thiện hơn
Trang 61.1.2 Phân loại biến ngẫu nhiên
- Nếu tập các giá trị mà biến ngẫu nhiên nhận là một tập gồm một số hữu hạn điểm hoặc vô hạn nhưng đếm được, khi đó biến ngẫu nhiên gọi là biến ngẫu nhiên rời rạc
Ví dụ 1: Số con của một gia đình, số người bị bệnh trong n người đến
khám, số bệnh nhân điều trị khỏi trong tháng hay năm, số hồng cầu, số bạch cầu của một người là các biến ngẫu nhiên rời rạc
- Nếu tập các biến ngẫu nhiên nhận lấp đầy một khoảng nào đó trên trục
số, khi đó biến ngẫu nhiên được gọi là biến ngẫu nhiên liên tục
Ví dụ 2: Một người có chiều cao 170 cm là người có chiều cao đo được từ
trên 169,5 cm đến dưới 170,5 cm nếu chấp nhận sai lệch 0,5 cm Như vậy chiều cao là biến ngẫu nhiên liên tục Tương tự chiều cao, cân nặng, các kích thước đo được của cơ thể, của các cơ quan nội tạng là các biến ngẫu nhiên liên tục
1.1.3 Hàm phân phối xác suất
Trang 76
a.Định nghĩa: Hàm phân phối xác suất của biến ngẫu nhiên X, ký hiệu là F X (x)
là xác suất để biến ngẫu nhiên X nhận giá trị nhỏ hơn x, với x là một số thực bất
F X (x) là hàm không giảm, nghĩa là với x1 < x2 thì FX(x1) ≤ FX(x2)
Nếu X là biến ngẫu nhiên liên tục thì F X (x) liên tục trên toàn miền giá trị
của biến ngẫu nhiên X
i p x
1 Nếu X là biến ngẫu nhiên liên tục với hàm mật độ xác suất f(x) thì kỳ
vọng toán E(X) của biến ngẫu nhiên là E(X) =
dx x
xf )(
b.Các tính chất
E(X+Y) = E(X) + E(Y), E(X-Y) = E(X) - E(Y)
Nếu X và Y là các biến ngẫu nhiên độc lập thì
Trang 8Ef(X) =Error!f(x)p(x)dx nếu X có hàm mật độ p(x)
c.Ý nghĩa: Kỳ vọng của biến ngẫu nhiên là giá trị trung bình mà biến ngẫu
nhiên nhận, hoặc kỳ vọng của biến ngẫu nhiên là trọng tâm của phân phối xác suất với khối lượng bằng 1 Chính vì vậy mà người ta dùng kỳ vọng để xác định
vị trí của phân phối
D(X + Y)=D(X - Y) = DX + DY nếu X,Y là hai biến ngẫu nhiên độc lập
c.Ý nghĩa: Phương sai phản ánh mức độ phân tán của các giá trị của biến ngẫu nhiên xung quanh giá trị trung bình của nó
Độ lệch chuẩn của biến ngẫu nhiên X ký hiệu là x là căn bậc hai của phương sai:
x
= D (X)
Trang 98
giá trị có thể có của biến ngẫu nhiên X
với xác suất lớn nhất nếu là biến ngẫu nhiên rời rạc, tương ứng với cực đại của hàm mật độ xác suất nếu là biến ngẫu nhiên liên tục
1.1.5 Vectơ ngẫu nhiên
Định nghĩa: Giả sử X1, X2, , Xn là các biến ngẫu nhiên, khi đó X = ( X1, X2, , Xn)
được gọi là một vectơ ngẫu nhiên n chiều
Ví dụ: Tiến hành đo chiều cao, cân nặng, vòng ngực, vòng eo và vòng mông
của nữ sinh ở một trường M, gọi X1 là biến ngẫu nhiên biểu thị chiều cao, X2 là biến ngẫu nhiên biểu thị cân nặng, X3 là biến ngẫu nhiên biểu thị vòng ngực, X4
là biến ngẫu nhiên biểu thị vòng eo, X5 là biến ngẫu nhiên biểu thị vòng mông;
ta có vectơ ngẫu nhiên năm chiều (X1, X2, X3, X4, X5)
1.2 Mẫu ngẫu nhiên và mẫu quan sát
1.2.1 Định nghĩa:
Mẫu ngẫu nhiên kích thước n đối với một biến ngẫu nhiên X là tập hợp của n biến ngẫu nhiên X1, X2, , Xn độc lập được thành lập từ biến ngẫu nhiên
X và có cùng quy luật phân phối xác suất với X
Mẫu ngẫu nhiên thường được ký hiệu là W = (X1, X2, , Xn )
Giả sử X 1 nhận giá trị x 1 , X 2 nhận giá trị x 2 , , X n nhận giá trị x n , khi đó tập hợp n giá trị x 1, x 2 , , x n tạo thành một giá trị cụ thể của mẫu ngẫu nhiên và được gọi là mẫu quan sát, ký hiệu w = (x 1, x 2 , , x n )
Tập hợp các số liệu quan sát cụ thể gọi là các số liệu thực nghiệm
Mẫu ngẫu nhiên hai chiều: Giả sử trên cùng một tổng thể phải nghiên cứu đồng thời hai dấu hiệu nghiên cứu, trong đó dấu hiệu nghiên cứu thứ nhất có thể xem là biến ngẫu nhiên X còn dấu hiệu nghiên cứu thứ hai là biến ngẫu nhiên Y
Trang 109
Khi đó việc nghiên cứu hai dấu hiệu của tổng thể tương đương với việc nghiên cứu biến ngẫu nhiên hai chiều (X, Y)
Mẫu ngẫu nhiên hai chiều kích thước n của dấu hiệu nghiên cứu (X,Y) là
một dãy gồm n biến ngẫu nhiên hai chiều (X1, Y1), (X2, Y2), ,(Xn, Yn) độc lập
và có cùng quy luật phân phối xác suất với (X, Y)
Mẫu ngẫu nhiên hai chiều được kí hiệu là:
W = [(X1, Y1), (X2, Y2), ,(Xn, Yn)]
Khi đó giả sử thành phần (Xi, Yi) nhận giá trị (xi, yi), i = 1, ,n ta thu được mẫu
cụ thể w = [(x1, y1), (x2, y2), ,(xn, yn)] Các giá trị xi (i = 1, ,n) gọi là thành phần X của mẫu, các giá trị yi (i = 1, ,n) gọi là thành phần Y của mẫu
1.2.2 Các phương pháp chọn mẫu quan sát
Chọn mẫu đơn: lấy ngẫu nhiên theo danh sách
Chọn mẫu hệ thống: chọn ngẫu nhiên phần tử đầu tiên, các phần tử tiếp theo được chọn cách đều hoặc theo một quy luật nào đó
Chọn mẫu phân tầng: chia thành các nhóm, tầng theo một đặc tính nào đó rồi chọn mẫu từ các nhóm, các tầng đó
Chọn mẫu chùm: chọn mẫu chỉ trong một tập con nào đó được xem là đại diện cho tổng thể
1.3 Thống kê và các đặc trưng thống kê
1.3.1 Định nghĩa:
Thống kê về một biến ngẫu nhiên X là một hàm G = f(X1, X2, , Xn ) của
n biến ngẫu nhiên độc lập Xi (i = 1,…, n), trong đó Xi là bản sao của biến ngẫu nhiên gốc X (cùng phân phối xác suất với biến ngẫu nhiên X)
Vì thống kê là một hàm của các biến ngẫu nhiên nên nó cũng là một biến ngẫu nhiên
Trang 1110
Thống kê cũng có quy luật phân phối xác suất nhất định và cũng có các
Với một mẫu quan sát W = (X1, X2, , Xn ), ta tính được một giá trị bằng
số Gqs = f(X1, X2, , Xn ) của thống kê G, giá trị này được gọi là giá trị quan sát của thống kê G hay còn gọi là một thể hiện của thống kê G
1
Ví dụ: Một thanh tra thực phẩm kiểm tra một mẫu ngẫu nhiên 7 hộp cá ngừ mang cùng nhãn hiệu để xác định phần trăm các tạp chất lạ Các số liệu sau đây
đã được ghi lại: 1,8; 2,1; 1,7; 1,6; 0,9; 2,7 và 1,8
Khi đó trung bình mẫu là
Nhận xét: Trung bình mẫu là phương pháp đo được sử dụng phổ biến nhất để xác định vị trí trung tâm trong thống kê
1.3.3 Phương sai mẫu
Định nghĩa: Giả sử (X1, X2, , Xn ) là một mẫu ngẫu nhiên kích thước n với trung bình mẫu X , khi đó phương sai mẫu ký hiệu là S2 được xác định bởi
S2 =
1
) (
n
Ví dụ: So sánh giá cà phê ở 4 cửa hiệu tạp phẩm được lựa chọn ngẫu nhiên tại
Hà Nội, cho thấy các mức tăng từ tháng trước là 12, 15, 17 và 20 nghìn đồng cho 1 túi 0,5kg Tìm phương sai của biến ngẫu nhiên các mức tăng giá
Trang 12Độ lệch tiêu chuẩn mẫu ký hiệu bằng S là căn số bậc hai dương của
phương sai mẫu
1.3.4 Tần suất mẫu
Tần suất mẫu là biến ngẫu nhiên chỉ tần suất xuất hiện biến cố A: f = kn
Trong đó k là số lần xuất hiện A, n kích thước mẫu
Nếu A là một biến cố nào đó với xác suất xuất hiện A là p thì các giá trị đặc trưng của tần suất mẫu là
E(f) = p, D(f) = Error!
1.3.5 Một số đặc trưng khác
1.3.5.1 Định nghĩa Median mẫu (trung vị mẫu): Nếu ( X1, X2, , Xn)
là một mẫu ngẫu nhiên cỡ n được sắp xếp theo thứ tự tăng dần của độ lớn, khi
đó median mẫu được xác định bởi thống kê
~
X =
2 1
Ví dụ: Số tàu nước ngoài đến cảng biển phía đông vào 7 ngày được lựa chọn
ngẫu nhiên là 8, 3, 9, 5, 6, 8 và 5 Tìm median bằng cách bố trí các quan sát theo trật tự tăng theo độ lớn, chúng ta có : 3 5 5 6 8 8 9 Và từ đó suy ra X= 6 ~
Trang 1312
1.3.5.2 Định nghĩa Mode: Nếu X1, X2, , Xn không nhất thiết khác nhau hoàn toàn, biểu diễn một mẫu ngẫu nhiên có cỡ n Khi đó mode là giá trị
của mẫu mà xảy ra thường xuyên nhất hoặc có tần số lớn nhất
Mode có thể không tồn tại và khi nó tồn tại không nhất thiết là duy nhất
Ví dụ: Số lượng phim mà một tổng thể ngẫu nhiên 12 sinh viên đã tham
gia đóng tháng vừa rồi được ghi nhận như sau: 2, 0, 3, 1, 2, 4, 2, 5, 4, 0, 1 và 4 Trong trường hợp này, có hai mode 2 và 4, vì cả 2 và 4 đều xảy ra với tần số cao nhất Phân phối được xác định là phân phối hai mode
Nhận xét: Mode là tiêu chí thường được chú ý trong các bài toán kinh tế:
Để bán được lượng hàng hóa lớn thì người bán hàng nên quan tâm tới thị hiếu của số đông, chẳng hạn năm nay kiểu áo khoác nào được ưa chuộng
1.4 Phân tích hồi quy đơn tuyến tính
1.4.1 Phân tích hồi quy đơn tuyến tính
hết phải tương quan, còn tương quan thì chưa chắc đã hồi quy
Tương quan và hồi quy tuyến tính dùng để xem xét mối liên hệ giữa hai hay nhiều biến định lượng
Nếu kết luận được là 2 biến có liên hệ tương quan tuyến tính chặt chẽ với nhau qua hệ số tương quan r thì ta có thể mô hình hóa mối quan hệ nhân quả của chúng bằng mô hình hồi quy tuyến tính trong đó một biến được gọi là biến phụ thuộc Y còn biến kia là biến độc lập X
Một số tên gọi khác của biến phụ thuộc và biến độc lập như sau:
Biến phụ thuộc: biến được giải thích, biến được dự báo, biến được hồi quy, biến phản ứng, biến nội sinh
Biến độc lập: biến giải thích, biến dự báo, biến hồi quy, biến tác nhân hay biến kiểm soát, biến ngoại sinh
Trong phân tích tương quan các biến có tính chất đối xứng tức là không
có sự phân biệt giữa 2 biến, còn trong phân tích hồi quy ta ngầm giả định là X gây ra Y, ta ước lượng Y trên cơ sở đã biết X, tức là biến độc lập X ta đã biết giá trị còn biến phụ thuộc Y là một biến ngẫu nhiên
Trang 1413
Giả sử xét mối liên hệ tuyến tính giữa một biến phụ thuộc và một biến độc lập ta xây dựng mô hình hồi quy tuyến tính là phương trình có dạng:
Yi = α + β * Xi Trong đó: Xi là trị quan sát thứ i của biến độc lập, Yi là giá trị dự đoán thứ i của biến phụ thuộc, α, β là các hệ số hồi quy
Phương pháp để xác định hệ số hồi quy là phương pháp bình phương nhỏ nhất OLS (Ordinary least square)
Ví dụ, xây dựng mô hình hồi quy tuyến tính giữa biến Cân nặng và biến Tuổi (ở phần tương quan ta có hệ số r =0.935 tức là giữa 2 biến đã có mối quan
hệ tương quan tuyến tính rất mạnh)
Xét biến Cân nặng là biến phụ thuộc, biến Tuổi là biến độc lập ta có phương trình hồi quy như sau:
Cân nặng = α + β * Tuổi
Ở phương trình này độ dốc β là lượng tăng giảm (kg) của Cân nặng dự đoán do lượng tăng giảm của Tuổi Hằng số α (tung độ của vị trí tại đó đường thẳng cắt trục tung) là giá trị Cân nặng dự đoán khi Tuổi = 0
1.4.2 Phân tích hồi quy đơn phi tuyến
Mối liên hệ tương quan phi tuyến là mối liên hệ tương quan giữa các tiêu thức không được biểu hiện bằng một đường thẳng mà bằng các đường cong có
2 3 2 1
Yˆ Dấu của các tham số quyết định dạng đường xu hướng như sau:
- Nếu 2 và 3 đều dương: Y tăng nhanh dần theo thời gian
- Nếu 2 âm và 3 dương: Y giảm sau đó tăng
- Nếu 2 dương và 3 âm: Y tăng nhưng tốc độ tăng giảm dần sau đó đạt cực trị và bắt đầu giảm
Trang 1514
CHƯƠNG 2 SỬ DỤNG SPSS ĐỂ TÌM HIỂU VỀ HỒI QUY ĐƠN
CỦA MỘT SỐ CHỈ SỐ SINH LÝ 2.1 Giới thiệu tổng quan về phần mềm SPSS và quản lý dữ liệu
2.1.1 Giới thiệu chung về SPSS
Phần mềm SPSS (Statistical Product and Services Solutions) là một phần
mềm thống kê, thường được sử dụng trong nghiên cứu xã hội đặc biệt là trong
tâm lý học, y học, tiếp thị và xã hội học SPSS cung cấp một hệ thống quản lý
dữ liệu và khả năng phân tích thống kê với giao diện thân thiện cho người
dùng trong môi trường đồ hoạ, sử dụng các trình đơn mô tả và các hộp thoại đơn giản
Về cách sử dụng SPSS:
SPSS là phần mềm chuyên dụng xử lý thông tin sơ cấp - thông tin được thu thập trực tiếp từ đối tượng nghiên cứu Thông tin được xử lý là thông tin định lượng (có ý nghĩa về mặt thống kê) SPSS là một bộ chương trình rất dễ sử dụng nên thu hút được nhiều người sử dụng SPSS cung cấp một giao diện giữa người và máy cho phép sử dụng các Menu thả xuống để chọn các lệnh thực hiện Khi thực hiện một phân tích chỉ đơn giản chọn thủ tục cần thiết và chọn các biến phân tích rồi bấm OK là có kết quả ngay trên màn hình để xem xét
Chức năng chính của SPSS
Nhập và làm sạch dữ liệu;
Xử lý biến đổi và quản lý dữ liệu;
Tóm tắt, tổng hợp dữ liệu và trình bày dưới các dạng biểu bảng, đồ thị, bản đồ; Phân tích dữ liệu, tính toán các tham số thống kê và diễn giải kết quả Nội dung chủ yếu của SPSS:
Nội dung của SPSS rất phong phú và đa dạng bao gồm từ việc thiết kế các bảng biểu và sơ đồ thống kê, tính toán các đặc trưng mẫu trong thống kê mô tả, đến một hệ thống đầy đủ các phương pháp thống kê phân tích như: So sánh các
Trang 1615
mẫu bằng nhiều tiêu chuẩn tham số và phi tham số (Nonparametric Test), các
mô hình phân tích phương sai theo dạng tuyến tính tổng quát (General Linear
Models), các mô hình hồi quy đơn biến và nhiều biến, các hồi quy phi tuyến tính
(Nonlinear), các hồi quy Logistic; Phân tích theo nhóm (Cluster Analysis); Phân tích tách biệt (Discriminatory Analysis); và nhiều chuyên sâu khác (Advanced Statistics)
Cấu trúc, tổ chức dữ liệu trong SPSS:
SPSS tổ chức các file dưới dạng định dạng riêng (có thể trao đổi – nhập
và xuất sang các định dạng khác) và gồm các cấu trúc file như sau:
File dữ liệu: *.sav hoặc *.sys;
ASCII text (*.txt, *.dat);
Complex database – Oracle, Access;
Các tập tin từ các phần mềm thống kê khác (Stata, SAS)
Một số ứng dụng chính của SPSS:
SPSS có thể là đủ để giúp các nhà khoa học thực hiện việc xử lý số liệu nghiên cứu nói chung và trong nghiên cứu các mảng chuyên ngành khác nhau của mình, chẳng hạn: Ứng dụng SPSS trong nghiên cứu tâm lý học: tâm lý tội phạm, tâm lý học sinh-sinh viên…; Ứng dụng SPSS trong nghiên cứu xã hội học: ý kiến của người dân trong việc xây dựng lại khu chung cư, thống kê y tế…; Với SPSS,
ta có thể phân tích được thực trạng, tìm ra nhân tố ảnh hưởng, dự đoán được xu hướng xảy ra tiếp theo, giúp ta đưa ra các quyết định một cách chính xác, giải quyết các vấn đề một cách nhanh chóng và cải thiện kết quả tốt hơn
Trang 1716
Tóm lại: Trong phạm vi đề tài, ứng dụng phần mềm SPSS để tìm hiểu về
hồi quy đơn của một số chỉ tiêu sinh lý, bản thân tôi đã nghiên cứu về phần mềm, thông qua hệ thống Menu để thực hiện các thủ tục (câu lệnh), tôi thấy rằng phần mềm SPSS là một công cụ rất hữu ích cho việc thực hiện đề tài
Chúng tôi chỉ có thể giới thiệu sơ bộ về phần mềm SPSS với những menu, hộp thoại, thủ tục liên quan đến đề tài và quan trọng nhất diễn đạt được kết quả của việc ứng dụng phần mềm SPSS, đưa ra những kết luận, các con số có ý nghĩa về mặt khoa học
2.1.2 Khởi động SPSS
Trên màn hình desktop của Widows nhắp vào biểu tượng
Hoặc mở phím Start, All programs, SPSS for Windows, SPSS 16.0 for Windows
Sẽ xuất hiện cửa sổ SPSS Data Editor và một hộp thoại như sau:
Run the tutorial:
Chạy chương trình trợ giúp
Type in data: Nhập dữ liệu mới
Run an existing query:
Chạy một truy vấn dữ liệu đã có sẵn
Create new query using Database
Trang 1817
2.1.3 Mở một file
Nếu đã có sẵn một file dữ liệu, ta có thể mở nó bằng lựa chọn :
Open an existing data source và nhăp vào More Files;
Nếu đang ở trong cửa sổ SPSS Data Editor:
Từ thanh menu chọn: File / Open / Data…
Trong hộp thoại Open File, chọn file mà ta muốn mở: Nhắp Open
Bên cạnh các file được lưu dưới định dạng của SPSS, ta có thể mở các file
có định dạng của Excel, Lotus, dBASE, tab-deliminated mà không cần phải chuyển đổi chúng sang một định dạng trung gian hoặc nhập các thông tin định nghĩa dữ liệu
Để mở một tệp tin (file) Excel:
Tại cửa sổ SPSS Data Editor, từ thanh menu chọn : File /Open / Data… Trong hộp thoại Open File, chọn file mà ta muốn mở : Nhắp Open
Trong hộp thoại Open File, chọn nơi lưu giữ file (Look in); chọn loại file (Files of type) và sau đó chọn tên file (File name)
Trang 2019
Là nơi lưu trữ dữ liệu nghiên cứu với một cấu trúc cơ sỡ dữ liệu bao gồm cột, hàng và các ô giao nhau giữa cột và hàng, bảng Data view: Thể hiện trị số
dữ liệu thực hoặc các nhãn trị số được xác định
Thuộc tính của Data View giống như những gì được tìm thấy trong các phần mềm sử dụng bảng tính, (ví dụ như Excel) Tuy nhiên cũng có một số sự khác biệt quan trọng: Các hàng là các bản ghi/đối tượng/trường hợp (case) Từng hàng đại diện cho một đối tượng hoặc một quan sát Ví dụ từng người trả lời đối với một bảng hỏi/phiếu điều tra là một đối tượng
Các cột là các biến Từng cột đại diện cho một biến hoặc thuộc tính được
đo đạc Ví dụ từng mục trong một bảng hỏi là một biến
Các ô chứa các trị số Từng ô chứa một trị số của một biến cho một đối tượng Ô là sự kết hợp của đối tượng và biến Các ô chỉ chứa các trị số biến Không giống như các phần mềm sử dụng bảng tính, các ô trong Data Editor không thể chứa đựng các công thức
File dữ liệu có hình chữ nhật Hai hướng của file dữ liệu được xác định bởi số lượng các đối tượng và số lượng các biến Ta có thể nhập dữ liệu trong bất kể ô nào Nếu ta nhập dữ liệu vào một ô nằm bên ngoài các đường biên của file dữ liệu được xác định, hình chữ nhật dữ liệu sẽ được mở rộng để bao gồm bất kỳ mọi hàng và mọi cột nằm giữa ô đó và các đường biên của file Không có các ô “trống rỗng” trong các đường biên của file dữ liệu Đối với các biến dạng
số, các ô rỗng được chuyển thành trị số khuyết thiếu hệ thống Đối với các biến dạng chuỗi, một dấu cách vẫn được coi là một trị số
Màn hình quản lý biến (variable view):
Trang 2120
Là nơi quản lý các biến cùng với các thông số liên quan đến biến (có đuôi SAV) Bảng Variable View chứa đựng các thông tin về các thuộc tính của từng biến trong file dữ liệu
Trong một bảng Data view:
+ Các hàng là các biến
+ Các cột là các thuộc tính của biến
Có thể bổ sung hoặc xoá các biến và thay đổi thuộc tính của các biến, bao gồm:
- Tên biến (Name)
- Loại dữ liệu (Type)
- Số lượng con số hoặc chữ (With)
- Số lượng chữ số thập phân (Decimals)
- Mô tả biến/nhãn biến (Lable) và nhãn trị số biến (Values)
- Các trị số khuyết thiếu do người sử dụng thiết lập (Missing)
- Độ rộng của cột (Width)
Trang 2221
- Căn lề (Align)
- Thang đo (Measure)
Màn hình hiển thị kết quả (output):
Các phép phân tích thống kê sẽ cho ra các kết quả như bảng biểu, đồ thị
và các kết quả kiểm định các kết quả này sẽ được truy xuất ra màn hình cho phép ta xem và lưu giữ các kết quả phân tích dưới một tập tin (có đuôi là SPO), các kết quả có thể copy hoặc copy object sang các phần mềm khác như word hay excel
Màn hình cú pháp (syntax):
Cho phép ta xem và lưu trữ những cú pháp của một lệnh phân tích
Tác dụng:
Trang 2322
Lưu tiến trình làm việc
Tiết kiệm thời gian khi thực hiện các phép phân tích tương tự nhau
Thực hiện được tất cả các ứng dụng trong SPSS
Mở file syntax: File/ Open/ Syntax
Lưu file syntax: File/ Save as
Thực hiện các lệnh trong syntax với Paste
Thanh Menu Bar
Phần mềm SPSS cung cấp hệ thống Menu để thực hiện các thủ tục, hộp thoại thân thiện, từ đó có thể điều khiển và thực hiện cho mục đích người sử dụng:
File: thực hiện các chức năng với file như mở, đọc, lưu file,…
Edit: thực hiện các chức năng chỉnh sửa file: copy, paste, tìm kiếm và thay thế View: có thể thay đổi hình thức hiển thị của dữ liệu Chức năng phố biến nhất là Value Labels
Data: các chức năng định dạng, nhập dữ liệu: sắp xếp, trộn, đặt điều kiện
Transform: thay đổi dạng dữ liệu có sẵn bằng lệnh mã hóa lại biến, tính toán,… Analyze: thực hiện tất cả các phép phân tích đối với các biến số
Graphs: vẽ biểu đồ
Help: Trợ giúp
2.1.5 Quản lý dữ liệu
Trang 2423
SPSS có một bộ soạn thảo dữ liệu tương tự như Excel, bộ soạn thảo cho phép vào các dữ liệu và mô tả các thuộc tính của chúng Tuy nhiên, SPSS không có những công cụ quản lý dữ liệu thật mạnh, chỉ có các lệnh chuyển cấu trúc dữ liệu theo chiều ngang thành cấu trúc dữ liệu theo chiều dọc và ngược lại SPSS chỉ xử lý mỗi file dữ liệu ở một thời điểm và khó có thể phải thực hiện các nhiệm vụ phân tích với nhiều file dữ liệu cùng một lúc
2.1.5.1 Điều khiển file và biến đổi file
Các file dữ liệu không phải lúc nào cũng được tổ chức dưới các dạng lý tưởng Do vậy phải kết hợp các file dữ liệu sắp xếp dữ liệu theo một trật tự khác nhau, chọn một nhóm phụ các đối tượng, hoặc thay đổi đơn vị phân tích bằng cách gộp các đối tượng với nhau Một phạm vi lớn của khả năng biến đổi dữ liệu
Trộn các file Ta có thể trộn nhiều file với nhau Ta có thể kết hợp các file với cùng biến nhưng khác đối tượng hoặc cùng đối tượng nhưng khác biến
Chọn các nhóm phụ các đối tượng Ta có thể hạn chế các phân tích của mình trong một nhóm các đối tượng hoặc tiến hành đồng thời các phép phân tích trong các nhóm đối tượng khác nhau
Gộp chung/Tổng hợp dữ liệu Ta có thể thay đổi đơn vị của phép phân tích bằng cách tổng hợp các đối tượng với nhau dựa trị số của một hoặc một số biến lập nhóm
2.1.5.2 Các phép biến đổi dữ liệu
Trang 2524
Dữ liệu ban đầu (thô) chưa hoàn toàn thích hợp cho loại phân tích mà ta muốn tiến hành, các phân tích sơ bộ có thể bộc lộ các trình tự mã hoá bất tiện hoặc các sai số do mã hoá, hoặc biến đổi dữ liệu có thể bị đòi hỏi để bộc lộ mối quan hệ thực giữa các biến
Ta có thể thực hiện các phép biến đổi từ những nhiệm vụ đơn giản, chẳng hạn như thu nhỏ số nhóm/tổ để tiến hành phân tích, hoặc phức tạp hơn như tạo các biến mới dựa trên các phương trình phức tạp và các câu lệnh/khai báo có điều kiện, dựa vào các phép toán (+) cộng, (-) trừ, (*) nhân , (/) chia, (**) lũy thừa và các toán tử (>) lớn hơn, (<) nhỏ hơn, (>=) lớn hơn hoặc bằng, (<=) nhỏ hơn hoặc bằng, (=) bằng, (~=) không bằng, (&) và, ( ׀) hoặc, (~) không (NOT)
Cửa sổ Data Editor
Cửa sổ Data Editor cung cấp một phương pháp giống như bảng tính, thuận tiện để lập và hiệu đính các file dữ liệu Cửa sổ Data Editor tự động mở khi ta bắt đầu khởi động SPSS
Nhập dữ liệu
Ta có thể nhập dữ liệu trực tiếp từ bảng Data View trong cửa sổ Data Editor, nhập dữ liệu theo bất kỳ trật tự nào, nhập dữ liệu theo đối tượng hoặc theo biến, hoặc theo khu vực được chọn, hoặc theo từng ô, Ô hoạt động (ô con trỏ) luôn được làm sáng, Tên biến và số của hàng của ô hoạt động được thể hiện
ở góc cao bên trái của cửa sổ Data Editor
Khi ta chọn một ô và nhập một trị số thì nó sẽ được thể hiện ở khoang hiệu đính dữ liệu nằm ở trên của Data Editor, Các trị số không được ghi cho đến khi ta nhấn Enter hoặc chọn ô khác, Để nhập bất kỳ gì khác một dữ liệu dạng
số, trước hết phải định nghĩa loại dữ liệu
Nếu ta nhập một trị số vào một cột rỗng, Data Editor tự động tạo ra một biến mới và chỉ định một tên biến
Trang 2625
Hình 5-7: File dữ liệu làm việc trong Data View
Chọn các đối tượng (Select Cases)
Thủ tục Select Cases cung cấp một số phương pháp khác nhau để chọn một nhóm các đối tượng dựa vào các tiêu chí bao gồm các biến và các biểu thức phức
Unselected Cases Ta có thể lọc hoặc xoá bỏ các đối tượng không đáp ứng tiêu chuẩn lựa chọn Các đối tượng được lọc vẫn duy trì trong file dữ liệu nhưng bị loại ra khỏi phép phân tích Thủ tục Select Cases tạo ra một biến lọc, filter_$, để chỉ rõ tình trạng lọc Các đối tượng được chọn có trị số 1; các đối tượng không được chọn (bị lọc) có trị số 0 Các đối tượng bị lọc cũng được đánh dấu bằng một dấu gạch chéo qua số hàng trong cửa sổ Data Editor Để đóng tình trạng lọc
và bao gồm mọi đối tượng trong phép phân tích của ban, hãy chọn All Cases Các đối tượng bị xoá bỏ bị loại ra khỏi file dữ liệu và không thể phục hồi lại được nếu ta lưu file dữ liệu sau khi xoá bỏ các đối tượng
Hình 7-9: Hộp thoại Select Cases
Trang 2726
Sắp xếp các đối tượng
Sắp xếp các đối tượng (các hàng) của file dữ liệu dựa vào các trị số của một hoặc một số biến sắp xếp Từ cửa sổ có thể sắp xếp các đối tượng theo trật tự tăng dần hoặc giảm dần
Hình 7-1: Hộp thoại Sort Cases
Để sắp xếp các đối tượng
Trang 2827
Từ thanh menu chọn : Data / Sort Cases … Chọn một hoặc một số biến sắp xếp
Mã hoá lại dữ liệu
Ta có thể biến đổi trị số dữ liệu bằng cách mã hoá lại chúng, mục đích của việc
mã hóa là chuyển đổi thông tin nghiên cứu đã thu thập thành dạng thích hợp cho việc phân tích trên máy tính, phần mềm thống kê thường có dạng bảng tính và
số liệu phải được nhập vào các bảng tính này Trong hầu hết các tệp dữ liệu, thông tin cho từng đối tượng được nhập trên một hàng của bảng tính, mỗi cột của bảng tính tương ứng với một biến (hay trường) nghiên cứu
Có hai loại biến trong xử lý thống kê: biến định tính hoặc biến định lượng
Biến định tính là biến mà các câu trả lời bằng trạng thái ví dụ như giới tính (nam, nữ) có tiền sử mắc bệnh, ta nên mã hóa bằng số càng nhiều càng tốt như
của các đối tượng điều tra
vào một biến mới có các trị
số là nhóm tuổi nhưng chia
theo khoảng, ta có thể mã hoá các biến dạng số và dạng chuỗi, ta có thể mã hoá các biến dạng số sang dạng chuỗi và ngược lại
Hình 6-9: Hộp thoại Recode into Different Variables