Ma trận thông tin – Cấu trúc dữ liệu Cột: Các cột trong màn hình dữ liệu SPSS sẽ quản lý các biến hay tất cả các câu hỏi có trong bảng câu hỏi - Loại biến một trả lời - Loại biến nhiều
Trang 1GIỚI THIỆU VỀ QUI TRÌNH NGHIÊN CỨU VÀ QUI TRÌNH XỬ LÝ DỮ LIỆU
1 Qui trình của một cuộc nghiên cứu
- Bước 1: Xác định vấn đề cần nghiên cứu
- Bước 2: Xác định loại thông tin cần thu thập
- Bước 3: Nhận diện các nguồn gốc thông tin và chọn mẫu nghiên cứu
- Bước 4: Thiết kế nghiên cứu và xác định phương pháp thu thập thông tin.
- Bước 5: Thiết kế bảng câu hỏi
- Bước 6: Thu thập dữ liệu
- Bước 7: Xử lý, phân tích và diễn giải các dữ liệu đã được xữ lý
- Bước 8: Trình bày và báo cáo kết quả
-2 Xữ lý thông tin trong nghiên cứu thực địa và qui trình xữ lý
Việc xữ lý số liệu bắt đầu từ khi ta nhận được bảng câu hỏi đã được phỏng vấn Qui trình xữ lý số liệu bao gồm các bước sau:
Dữ liệu thô Kiểm tra – Hiệu đính – Mã hóa Nhập dữ liệu vào máy tính Làm sạch dữ liệu – Tạo bảng – Phân tíchthống kê
_oOo _
Trang 2GIỚI THIỆU VÈ SPSS
- Là phần mềm chuyên dụng xữ lý thông tin sơ cấp (thông tin được thu thập trực tiếp từ đối tượng nghiên cứu (người trả lời bảng câu hỏi) thông qua một bảng câu hỏi được thiết kế sẳn
- Thông tin được xữ lý là thông tin định lượng (có ý nghĩa về mặt thống kê)
- Phần mềm SPSS có tất cả 4 dạng màn hình:
Màn hình quản lý dữ liệu (data view): Là nơi lưu trữ dữ liệu nghiên cứu với:
o Cột: Đại diện cho một biến quan sát Mỗi cột sẽ chứa đựng tất cả các câu trả lời trong một câu hỏi trong bảng
câu hỏi
o Hàng: Đại diện cho một trường hợp quan sát (người trả lời), Ta phỏng vấn bao nhiêu người (tùy thuộc vào kích
thước mẫu) thì ta sẽ có bấy nhiêu hàng Mỗi hàng chứa đựng tất cả những câu trả lời (thông tin) của một dối tượng nghiên cứu
o Ô giao nhau giữa cột và hàng (cell): Chứa đựng một kết quả trả lời tương ứng với vấn đề cần khảo sát (biến) của
một đối tượng nghiên cứu cụ thể (người trả lời cụ thể)
Màn hình quản lý biến (variables view): Là nơi quản lý các biến với các thông số của nó Trong màn hình này mỗi
hàng chức đựng một biến, và mỗi cột chứa đựng các thông số của biến đó:
Trang 3o Loại biến (type): Thể hiện dạng dự liệu thể hiện trong biến Dạng số, và dạng chuỗi
o Số lượng chữ số của giá trị hiễn thị (Width): Giá trị dạng số được phép hiễn thị bao nhiêu con số.
o Số lượng chử số sau dấu phẩy (Decimals)
o Nhãn của biến (label): Tên biến chỉ được thể hiện tóm tắc bằng ký hiệu, nhãn của biến cho phép nêu rõ hơn về
ý nghĩa của biến
o Giá trị trong biến (Values): Cho phép khai báo các giá trị trong biến với ý nghĩa cụ thể (nhãn giá trị)
o Giá trị khuyết (Missing): Do thiết kế bảng câu hỏi có một số giá trị chỉ man tính chất quản lý, không có ý nghĩa
phân tích, để loại bỏ các biến này ta cần khai báo nó như là giá trị khuyết (user missing) SPSS mặc định giá trị khuyến (system missing) là một dấu chấm và tự động loại bỏ các giá trị này ra khỏi các phân tích thống kê
o Kích thướt cột (columns): Cho phép khai báo độ rộng của cột
o Ví trí (align): Vị trí hiễn thị các giá trị trong cột (phải, trái, giữa)
o Dạng thang đo lường (measures): Hiễn thị dạng thang đo lường của giá trị trong biến
Màn hình hiễn thị kết quả (output): Các phép phân tích thống kê sẽ cho ra các kết quả như bảng biểu, đồi thị và các
kết quả kiểm nghiệm, các kết quả này sẽ được truy xuất ra một màn hình, và được lưu giữ dưới một tập tin khác (có đuôi là SPO) Màn hình này cho phép ta xem và lưu giữ các kết quả phân tích
Trang 4 Màn hình cú pháp (syntax): màn hình này cho phép ta xem và lưu trữ những cú pháp của một lệnh phân tích Các cú
pháp được lưu trữ sẽ được sử dụng lại mà không thao tác các lệnh phân tích lại
Trang 5CHUẨN BỊ DỮ LIỆU
1 Kiểm tra và hiệu đính dữ liệu
Bảo đảm tính toàn vẹn và tính chính xác của từng bảng câu hỏi & từng câu trả lời
- Tính logic của các câu trả lời
- Tính đầy đủ của một câu trả lời và của một bảng câu hỏi
- Tính hợp lý và xác thực của các câu trả lời
2 Mã hoá dữ liệu
- Chuyển dịch câu trả lời thực của người trả lời vào từng nhóm, từng mẫu đại diện với các giá trị đại diện
- Mục đích của mã hóa là tạo nhãn cho các câu trả lời, thừơng là bằng các con số Mã hóa còn giúp giãm thiểu số lượngcác câu trả lời bằng cách nhóm các câu trả lời thành những nhóm có những đặc điểm giống nhau
- Mã hóa trước: Mã hóa trước các câu trả lời có sẳn ngay trên bảng câu hỏi trước khi tiến hành phỏng vấn
- Mã hoá sau: Mã hóa các câu hỏi chưa có câu trả lời sằn trên bảng câu hỏi mới phát sinh trong quá trình phỏng vấn
Trang 6- Bảng mã hóa dữ liệu
Câu hỏi (biến) Ý nghĩa câu hỏi Giá trị (câu trả lời)
2: Nữ
2: Công nhân3: Buôn bán cá thể
1: Tốt2: Bình thường3: Kém
_oOo _
Trang 7ĐỊNH BIẾN VÀ NHẬP DỮ LIỆU
1 Khái niệm về biến và các giá trị trong biến
1.1 Định biến (variables)
Theo yêu cầu bản câu hỏi:
- Biến một trả lời
- Biến nhiều trả lời
Theo kiểu dữ liệu:
Trang 81.2 Các giá trị chứa trong biến (value)
- Thang đo định danh (nominal):
Tạo ra sự khác biệt giữa các giá trị (1 khác 2, 2 khác 3)
- Thang đo thứ tự (ordinal):
Tạo ra sự khác biệt và
Một thứ tự nhất định giữa các giá trị (1<2<3)
- Thang đó khoảng cách (internal):
Tạo ra sự khác biệt,
Một thứ tự nhất định và
Một khảng cách giữa các giá trị (2-1=1; 5-2=3)
- Thang đo tỷ lệ (ratio):
Tạo ra sự khác biệt
Một thứ tự nhất định
Một khảng cách giữa các giá trị và
Một tỷ lệ giữa các giá trị (4/2=2; 9/3=3)
Trang 92 Phương pháp định biến trên SPSS (Define Variable)
Gán nhãn cho các biến và gán ý nghĩa cho các giá trị trong biến
Qui trình định biến này bao gồm:
- Gán tên cho biến (Variable name)
- Định ra dạng thang đo mà biến thể hiện (measurement)
- Gán nhãn cho biến (Variable Label)
- Định tên cho các giá trị trong biến (Value lables)
- Định ra kiểu biến (Type)
- Định nghĩa các giá trị khuyết (Missing Values)
- Định kích cở cho cột (Column format)
- Một số qui ước sau đây phải tuân theo khi khai báo tên biến:
Bắt đầu bằng một chử cái và không bắt đầu bằng dấu chấm(.)
Tên biến không được qua 8 ký tự
Không được chứa khoản trắng và các ký tự đặc biệt như (!), (?), (*)
Các từ khóa sau đây không được dùng làm tên biến: ALL, NE, EQ, TO, LE, LT, BY OR, GT, AND, NOT, GE,WITH
- SPSS mặc định là không có khai báo giá trị khuyết Có ba cách để khai báo các giá trị khuyết
(1) Khai báo bằng 3 giá trị rời rạc (Discrete missing values)
Trang 10(2) Khai báo một chuổi liên tục các giá trị (Range of missing values)
(3) Khai báo một chuổi các giá trị khuyết và một giá trị khuyết riêng biệt (Rang plus one discrete missing value)
- Đối với dữ liệu dạng chuổi, toàn bộ các giá trị vô dụng hoặc trống đều được xem là có nghĩa Để định nghĩa các giátrị vô nghĩa và các giá trị trống là giá trị khuyết ta phải nhập vào một khoảng trống vào trông ô định ra các giá trịkhuyết riêng biệt
3 Nhập dữ liệu
3.1 Ma trận thông tin – Cấu trúc dữ liệu
Cột: Các cột trong màn hình dữ liệu SPSS sẽ quản lý các biến hay tất cả các câu hỏi có trong bảng câu hỏi
- Loại biến một trả lời
- Loại biến nhiều trả lời
Dòng: Mỗi dòng trong màn hình dữ liệu SPSS sẽ quản lý tất cả các quan sát hay tất cả số bảng câu hỏi
Ô giao nhau giữa cột và dòng: Nơi chứa đựng giá trị của một biến trong một quan sát cụ thể Đây chính là cái mà nhà
nghiên cứu thu thập được và sẽ phân tích
Trang 12CÁC PHÉP BIẾN ĐỔI DỮ LIỆU VÀ THAO TÁC TRÊN TẬP DỮ LIỆU
1 Mã hóa lại (Recode)
Recode là công cụ dùng để định lại các giá trị của biến SPSS cung cấp cho ta hai loại Recode là Recode trên cùng một biến(Recode into same variables) và recode vào biến khác (Recode into different variable)
1.1 Mã hóa lại trên cùng một biến (Recode into same variables)
Recode trên cùng một biến là định lại những giá trị của những biến hiện tại hoặc rút ngắn bớt dãy các giá trị tồn tại thànhnhững giá trị mới trên cùng những biến đó
1.2 Mã hóa lại vào một biến khác (Recode into different variables)
Định lại giá trị hiện tại của một biến thành một giá trị mới trong một biến khác
2 Công cụ tự động mã hóa lại (Automatic Recode)
Là phương pháp mã hóa lại một cách tự động các giá trị dạng chuổi hoặc dạng số thành một biến mới chứa đựng các con sốnguyên liên tục, mỗi con số nguyên trong biến mới sẽ đại diện cho các giá trị dạng chuổi hoặc dạng số giống nhau Các giá trịdạng chuổi được recode theo thứ tự alphabe
Trang 133 Công cụ tính toán giữa các biến (Compute)
Công cụ compute được dùng để tính các giá trị mới từ các biến sẵn có trong cấu trúc dữ liệu Kết quả tính toán thường đượcchứa đựng trong một biến mới, hoặc là một biến khác sẳn có hoặc biến chứa đựng giá trị đang tính toán
4 Công cụ đếm (Count)
- Công cụ này được dùng để tạo ra một biến mới chứa tổng số số lần xuất hiện của một giá trị hay nhiều giá trị được chỉ
định ra trong danh sách các biến được chọn trong ô variables trong mỗi trường hợp
- Một biến mới sẽ được tạo ra khi ta thực hiện thủ tục Count gọi là biến đích (Taget variable) sẽ chứa đựng giá trị cộng dồnmỗi khi gặp được giá trị cần đếm trong một hoặc nhiều biến đã được khai báo trước trong hộp thoại Numeric variables
- Giá trị cần đếm sẽ được định rõ trong phần ô Define values (hình 14) Giá trị khai báo để đếm có thể là những giá trị cụthể nàu đó (Value), hoặc những giá trị rỗng (System missing) hoặc là một dãy các giá trị (range)
5 Categorize Variables
Công cụ này dùng để nhóm các dữ liệu liên tục dạng số thành những nhóm riêng biệt Tiến trình này tạo ra một biến mớichứa đựng các dữ liệu đã được phân nhóm, với mỗi nhóm chứa đựng một số lượng quan sát (cases) xấp xỉ bằng nhau Ví dụnhư đối với câu hỏi tuổi của người trả lời, các câu trả lời có thể là các con số từ 18 tuổi đến 50 tuổi Ta có thể dùng công cụCategorize Variables để phân các giá trị tuổi này thành các nhóm (do ta tự định) và các nhóm này có số lượng quan sát xấp xỉnhau
Trang 146 Tách tập dữ liệu (Split File)
- Cho phép tách dữ liệu trong tập dữ liệu đang quan sát thành những nhóm nhỏ riêng biệt và sau khi thực hiện lệnh tách filenày các phân tích xữ lý thống kê đề được thực hiện riêng biệt theo từng nhóm nhỏ dữ liệu này
- Việc phân tách này dựa trên việc phân dữ liệu thành những nhóm tương đương với các giá trị trong biến được lựa chọn đểtiến hành phân nhóm Được sử dụng cho việc phân tích dựa trên những giá trị của một hay nhiều biến đã được phânnhóm Nếu ta lựa chọn việc phân tách dựa trên nhiều biến (multiple grouping variables), Dữ liệu sẽ được nhóm theo thứ tựbiến được khai báo trong hộp thoại Groups Based On list
- Chọn Compare groups, Các dữ liệu phân tích sẽ được tách theo các giá trị của biến được lựa chọn để tách dữ liệu (hiễn thịtrong hộp Groups Based On list), và việc tách này mang tính chất so sánh do đó khi tiến hành phân tích dữ liệu các phântích dựa trên sự phân tách này những vẫn được thể hiện trên cùng một bảng
- Chọn Organize output by groups Các dữ liệu phân tích sẽ được tách theo các giá trị của biến được lựa chọn để tách dữ liệu(hiễn thị trong hộp Groups Based On list), và việc tách này mang tính chất tổ chức lại dữ liệu thành những nhóm nhỏ do đókhi tiến hành phân tích dữ liệu các phân tích dựa trên sự phân tách và được thể hiện một các riêng biệt giữa các nhómphân tách
- Chú ý sau ki tiến hành phân tích trên sự phân tách, để trở lại trạng thái bình thường của dữ liệu đòi hỏi phải bỏ đi lệnhtách dữ liệu vừa đưa ra bằng cách chọn phần Analyze all cases, do not create groups trong hộp thoại Slipt Files
Trang 157 Lựa chọn các quan sát (Select Cases)
- Select Cases đưa ra một vài phương pháp để lựa chọn ra những nhóm nhỏ các trường hợp quan sát dựa trên tiêu chuẩntrong biến và những điều kiện bên ngoài Ta còn có thể lựa chọn một mẫu ngẫu nhiên các trường hợp quan sát từ tổng thểdữ liệu của chúng ta bằng công cụ này
- Để tiến hành chọn lựa các trường hợp ta có thể dùng các cách sau:
Công cụ If conditions are satisfied cho phép ta lựa chọn các trường hợp dựa trên các biểu thức điều kiện Một biểu thứcđiều kiện cho ta các giá trị đúng, sai của các trường hợp quan sát Nếu kết quả của biểu thức điều kiện là đúng, trườnghợp đó được lựa chọn Nếu kết quả này là sai hoặc thiếu thì các trường hợp đó không được chọn
Công cụ random sample of cases cho phép chúng ta lựa chọn ngẫu nhiên một mẫu dựa trên một tỷ lệ phần trăm hoặcmột số chính xác các trường hợp sẽ được lựa chọn
Công cụ Base range cho phép lựa chọn các trưòng hợp theo số thứ tự hàng hiễn thị bên trái màn hình dữ liệu của SPSS
Trong phần Unselected Cases cho biết trạng thái của các trường hợp không được lựa chọn
o Filtered chỉ ra các trường hợp không được chọn vẫn được giữ lại trong tập tin nhưng sẽ bị loại trừ ra mọi phân tíchthống kê Select Cases tạo ra một biến lọc (FILTER_$), với các trường hợp được chọn có giá trị 1 và các trườnghợp không được chọn có giá trị 0
o Deleted cho phép loại bỏ toàn bộ các trường hợp không được chọn ra khỏi dữ liệu
Trang 16- Để nhận biết được các trường hợp nào được chọn hoặc không được chọn ta có thể nhìn vào các giá trị trong biếnFILTER_$, các trường hợp được chọn có giá trị 1 và những trường hợp không được chọn có giá trị 0 Hoặc ta có thể nhìnvào màn hình Data để phân biệt các trường hợp Với các trường hợp không được lựa chọn sẽ có một gạch chéo trong
thanh số thứ tự hàng bên trái màn hình Có thể dùng công cụ Sort Cases để xắp xếp theo thứ tự các trường hợp được chọn hay không được chọn (Sort cases theo biến FILTER_$).
8 Hợp nhất các tập dữ liệu (Merge files)
SPSS cho phép ta hợp các dữ liệu quan sát từ trong một tập dữ liệu bên ngoài vào tập dữ liệu đang sử dụng Hoặc hợp cácbiến mới trong tập dữ liệu bên ngoài vào tập dữ liệu đang hoạt động Cả hai đều tạo ra một tập dữ liệu mới có thể chứa tất cảcác quan sát được hợp lại hoặc tất cả các biến đưọc hợp tùy theo ta chọn Add Cases hay Adds Variables
8.1 Thêm vào các quan sát (Add Cases)
- Công cụ Add Cases cho phép ta hợp dữ liệu trong tập dữ liệu đang hoạt động với dữ liệu trong một tập dữ liệu bênngoài, với điều kiện tập dữ liệu đó phải chứa các biến giống như biến trong tập dữ liệu đang hoạt động Sau khi thaotác, một tập dữ liệu mới (chưa được khai báo tên, và ta phải tiến hành lưu và khai báo tên mới) sẽ được tạo ra chứa cácdữ liệu trong cả hai tập dữ liệu vừa được hợp lại với nhau Trong trường hợp hai tập dữ liệu hợp với nhau nhưng có cácbiến khác nhau (khác nhau về tên biến hoặc loại biến) thì sau khi hợp tập dữ liệu mới sẽ tự động loại bỏ các biến khácnhau này, ta có thể sẽ bị mất dữ liệu chứa trong các biến bị loại bỏ này
- Hộp thoại Unpaired Variables, liệt kê các biến không giống nhau giữa hai tập dữ liệu được tiến hành hợp nhất lại, cácbiến này sẽ bị loại trừ và không có trong tập dữ liệu mới được tạo ra từ việc hợp nhất hai tập dữ liệu ban đầu Các biến
này được ký hiệu khác nhau với ký hiệu (*) đại diện cho các biến trong tập dữ liệu đang hoạt động và (+) đại diện cho
Trang 17các biến trong tập dữ liệu được truy xuất từ bên ngoài, Những biến được liệt kê trong hộp thoại Unpaired Variables lànhững biến có những đặc điểm như sau:
Những biến có cùng ý nghĩa và kiểu dữ liệu như nhau nhưng lại được khai báo tên biến khác nhau
Hai biến giống tên nhau nhưng lại có kiểu dữ liệu khác nhau (type)
Các biến cùng là dạng chuổi nhưng lại không bằng nhau vầ số ký tự trong chuổi
- Ta có thể cho phép dữ liệu trong đó được hợp lại với nhau bằng cánh đánh dấu hai biến đó (trong hộp thoại UnpairedVariables và nhấn thanh Pair, lúc đó dữ liệu trong hai biến này sẽ được hợp nhất và được chứa đựng trong biến lấy tênbiến giống như tên biến trong tập tin đang hoạt động Hoặc ta co thể dùng công cụ Rename để khai báo lại tên biếnhoặc kiểu biến cho giống nhau
- Hộp thoại Variables in New Working Data File liệt kê các biến sẽ có trong tập tin mới được tạo ra từ việc hợp nhất haitập dữ liệu ban đầu Toàn bộ các biến trong hai tập tin ban đầu thỏa mãn các điều kiện giống nhau về tên và loại dữliệu (số hoặc chuổi) sẽ được liệt kê vào hộp thoại này
- Có thể loại bỏ những biến mà chúng ta không muốn có trong tập dữ liệu được tạo ra từ việc hợp nhất Bằng cách đánhdấu nó và chuyển sang hộp thoại Unpaired Variables
8.2 Thêm vào các biến (Add Variables)
- Công cụ Add Variables cho phép hợp nhất dữ liệu trong tập tin đang hoạt động với một tập tin bên ngoài với điều kiệntập tin bên ngoài này phải chứa đựng cùng các quan sát với tập tin đang sử dụng, nhưng khác nhau về biến (khai báotên biến khác với tập tin đang được sử dụng), quá trình này sẽ tạo ra một tập dữ liệu mới chứa cùng các quan sátnhưng tập hợp tất cả các biến khác nhau trong hai tập dữ liệu ban đầu
Trang 18- Các quan sát (Cases) trong cả hai tập tin cần hợp nhất phải được xắp xếp theo cùng một thứ tự
- Thông thường ta dùng một hay nhiều biến khóa để bảo đảm các trường hợp khớp với nhau (thường sử dụng biến IDchứa số bảng câuhỏi) Điều phải bảo đảm trước khi tiến hành hợp nhất biến giữa hai tập dữ liệu này là ta phải xắp xếpdữ liệu trong hai biến khóa của hai tập dữ liệu theo thứ tự từ nhỏ đến lớn
- Các biến có tên giống nhau trong tập tin đang hoạt động vào tập tin bên ngoài sẽ bị loại trừ khỏi tập tin mới được tạo
- Hộp thoại Excluded Variables liệt kê các biến sẽ bị loại trừ ra khỏi biến mới hợp thành Những biến này là những biến
có tên biến giống nhau Biến trong tập tin đang hoạt động được ký hiệu là (*), và những biến trong tập tin bên ngoài là
(+) Nếu muốn các biến giống tên nhau này có trong tập dữ liệu mới ta phải tiến hành rename nó lại và chuyển nó
sang hộp thoại chứa các biến sẽ có trong tập tin mới (New Working Data File)
- Hộp thoại Key Variables Biến khóa dựa vào đó các quan sát giống nhau được xác định Chú ý biến khóa này phải cócùng tên ở các hai tập tin cần hợp nhất Các trường hợp không thỏa mãn với biến khóa thì vẫn bao hàm trong tập dữliệu mới nhưng sẽ không được hợp với các trường hợp trong tập tin khác Những trường hợp này chỉ chứa đựng giá trịriêng biệt của tập dữ liệu mà nó bao hàm từ trước (trước khi tiến hành hợp nhất) và các trường hợp này sẽ có giá trịkhuyết trong các biến chứa đựng trong tập tin thứ hai mà ta sẽ hợp nhất
Trang 19TÓM TẮC VÀ PHÂN TÍCH DỮ LIỆU
1 Một số lý thuyết thống kê cơ bản
1.1 Các tham số thống kê đo lường độ tập trung hay hội tụ của dữ liệu (central tendency measurement)
- Giá trị trung bình (Mean): Là giá trị trung bình số học của một biến, được tính bằng tổng các giá trị quan sát chia cho số
quan sát Đây là dạng công cụ thường được dùng cho dạng đo khoảng cách và tỷ lệ Giá trị trung bình có đặc điểm là chịusự tác động của các giá trị ở mỗi quan sát, do đó đây là thang đo nhạy cảm nhất đối với sự thay đổi của các giá trị quansát
- Trung vị (Median): Là số nằm giữa (nếu lượng quan sát là số lẽ) hoặc là giá trị trung bình của hai quan sát nằm giữa (nếu số
lượng quan sát là số chẳn) của một dãy quan sát được xắp xếp theo thứ tự từ nhỏ đến lớn Đây là dạng công cụ thống kêthường được dùng để đo lường mức độ tập trung của dạng dữ liệu thang đo thứ tự, nó có đặc điểm là không bị ảnh hưởngcủa các giá trị đầu mút của dãy phân phối, do đó rất thích hợp để phân tích đối với dữ liệu có sự chênh lệch lớn về giá trị
ở hay đầu mút của dãy phân phối
- Mode: Là giá trị có tần suất xuất hiện lớn nhất của một tập hợp các số đo, dạng này thường được dùng đối với dạng dữ liệu
thang biểu danh Giống như trung vị, mode không bị ảnh hưởng bởi giá trị đầu mút của dãy phân phối
1.2 Các tham số thống kê đo lường mức độ phân tán của dữ liệu (Dispersion),
- Ta thấy số kích thướt mẫu của hai nhóm này bằng nhau, các giá trị đo lường mức độ tập trung của dữ liệu như mean,
Trang 20nhiều hơn nhóm 2, điều này có nghĩa các giá trị trong nhóm 1 phân tán hơn, các giá trị quan sát nằm xa giá trị trung bình của mẫu hơn là nhóm 2 Đo lường độ phân tán cho biết được những khác biệt giữa hai nhóm dữ liệu Có một số công cụ
đo lường độ phân tán của dữ liệu như:
- Phương sai (Variance): Dùng để đo lường mức độ phân tán của một tập các giá trị quan sát xung quanh giá trị trung bình
của tập quan sát đó Phương sai bằng trung bình các bình phương sai lệch giữa các giá trị quan sát đối với giá trị trung bìnhcủa các quan sát đó
- Độ lệch chuẩn (Standard deviation): Một công cụ khác dùng để đo lường độ phân tán của dữ liệu xung quanh giá trị trung
bình của nó Độ lệch chuẩn chính bằng căn bật hai của phương sai Vì phương sai là trung bình của các bình phương sailệch của các giá trị quan sát từ giá trị trung bình, việc khảo sát phương sai thường cho các giá trị rất lớn, do đó sử dụngphương sai sẽ gặp khó khăn trong việc diễn giải kết quả Sử dụng độ lệch chuẩn sẽ giúp dễ dàng cho việc diễn giải do cáckết quả sai biệt đưa ra sát với dữ liệu gốc hơn
- Khoảng biến thiên (Range): Là khoảng cách giữa giá trị quan sát nhỏ nhất đến giá trị quan sát lớn nhất.
- Sai số trung bình mẫu (Standard Error of Mean) Được dùng để đo lường sự khác biệt về giá trị trung bình của mẫu nghiên
cứu này so với mẫu nghiên cứu khác trong điều kiện có cùng phân phối Nó có thể được dùng để so sánh giá trị trung bìnhquan sát với một giá trị ban đầu nào đó (giả thuyết) Và ta có thể kết luận hai giá trị này là khác nhau nếu tỷ số về sự khácbiệt đối với standard error of mean nằm ngoài khoảng (-2,+2)
o Tính toán sai số trung bình mẫu là một công cụ nhằm xác định được các đo lường của ta đáng tin cậy như thế nào
Độ lệch chuẩn của mẫu Sai số chuẩn trung bình mẫu = -
Căn bật 2 của số mẫuSai số chuẩn của tỷ lệ % = Căn bật 2 của tỷ số (p(1-p)/n)
Trang 21o Thông qua sai số trung bình mẫu được tính toán ta có thể tính được khoảng tin cậy của các tham số đo lường
1.3 Khoảng tin cậy (Confident interval)
- Là một ước lượng xác định khoảng giá trị đặc trưng của tổng thể có thể rơi vào Dựa vào dữ liệu mẫu, với một độ tin cậycho trước ta có thể xác định được giá trị đại diện cho đám đông có thể nằm trong một khoảng ước lượng nào đó
- Ví dụ gọi x là mức thu nhập trung bình của đám đông cần ước lượng Với độ tin cậy mong muốn là 95% (nghĩa là các ướclượng sẽ luôn có một lượng sai số chấp nhận là 5%) Dựa vào mẫu quan sát ta có thể xác định được hai giá trị về thu nhậplà a và b sao cho xác suất để thu nhập trung bình đám đông x rơi vào khoảng a và b (a, b) là 95% Lúc này ta có thể diễngiải rằng với độ chính xác là 95% (hay chấp nhận 5% sai số) ta biết được thu nhập trung bình của đám đông nghiên cứunằm trong khoảng (a, b)
- Khoảng tin cậy (interval confidence) = Giá trị trung bình (hoặc %) +/- Z (t) Sx
1.4 Kiểm nghiệm giả thuyết (Hypothesis testing)
- Bên cạnh việc ước lượng các đặc trưng của tổng thể, các dữ liệu mẫu thu thập được còn được dùng để đánh giá xem mộtgiả thuyết nào đó về tổng thể là đúng hay sai Ta gọi đó là kiểm nghiệm giả thuyết Nói cách khác kiểm nghiệm giả thuyếtlà dựa vào các thông tin mẫu để đưa ra kết luận bác bỏ hay chấp nhận về giả thuyết của tổng thể
- Để kiểm nghiệm giả thuyết ta phải xây dựng giả thuyết Giả thuyết đã hình thành được gọi là giả thuyết H0 được xem nhưđúng cho đến khi ta có đủ căn cứ để kết luận khác hơn Nếu giả thuyết H0 không đúng thì phải có một giả thuyết nào đókhác H0 gọi là H1 là đúng
- Các dạng giả thuyết thiết lập
Giả thuyết về mối quan hệ hay tương quan giữa hai biến
Trang 22 H0: Hai biến khảo sát độc lập với nhau (không có quan hệ hoặc tương quan giữa 2 biến
Giả thuyết về các giá trị trung bình
H0: Giá trị trung bình của 2 hoặc nhiếu hơn 2 mẫu ngang bằng nhau
Giả thuyết về các phương sai
H0: Phương sai giữa 2 hoặc nhiều hơn 2 mẫu là ngang bằng nhau
2 Phân phối ngẫu nhiên
- Để kiểm nghiệm và đo lường các dãy số quan sát (rời rạc) cần phải chuyển các dãy số này qua dạng phân phối ngẫu nhiên liên tục, ta có phân phối t-student, phần chi bình phương, phân phối F sử dụng các dãy số phân phối ngẫu nhiên này để kiểm nghiệm thống kê
Trang 23Diện tích=α/2=.025
VÙNG BÁC BỎ H0
Diện
tích=α/2=.025
Giá trị t tính được Giá trị t
tính được