1. Trang chủ
  2. » Kinh Doanh - Tiếp Thị

Chương 5 xử lý dữ liệu

41 481 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 41
Dung lượng 1,22 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Chương 5 xử lý dữ liệuChương 5 xử lý dữ liệuChương 5 xử lý dữ liệuChương 5 xử lý dữ liệuChương 5 xử lý dữ liệuChương 5 xử lý dữ liệuChương 5 xử lý dữ liệuChương 5 xử lý dữ liệuChương 5 xử lý dữ liệuChương 5 xử lý dữ liệuChương 5 xử lý dữ liệuChương 5 xử lý dữ liệuChương 5 xử lý dữ liệuChương 5 xử lý dữ liệu

Trang 1

CHƯƠNG 5

XỬ LÝ DỮ LIỆU

Trang 3

5.1 Hiệu chỉnh dữ liệu

 Đây là bước kiểm tra chất lượng bảng câu hỏi nhằm đảm bảo không có bảng hỏi nào thiếu thông tin cần thiết theo yêu cầu thiết kế ban đầu

- Tính logic của các câu trả lời slide\1.ppt

- Tính đầy đủ của một câu trả lời và của một bảng hỏi

slide\2.ppt

- Tính hợp lý và xác thực của các câu trả lời

Trang 4

 Các phương pháp xử lý, hiệu chỉnh dữ liệu:

- Suy luận từ các câu trả lời khác

- Trả về cho bộ phận thu thập dữ liệu để làm sáng tỏ lại vấn đề

- Loại bỏ toàn bộ bảng câu hỏi

5.1 Hiệu chỉnh dữ liệu

Trang 5

 Khái niệm:

Mã hóa dữ liệu là chuyển đổi thông tin nghiên cứu

đã thu thập thành dạng ký hiệu thích hợp cho việc phân tích trên máy tính

 Phù hợp với vấn đề nghiên cứu và mục tiêu nghiên cứu

 Thống nhất

 Toàn diện

 Không trùng lắp

5.2 Mã hóa dữ liệu

Trang 6

 Giới thiệu cửa sổ làm việc của SPSS:

 Cửa sổ dữ liệu: có 2 loại kiểu nhìn (view)

- Data View: kiểu nhìn dùng để nhập liệu và thể hiện dữ liệu

đã nhập

- Variable View: kiểu nhìn dùng để khai báo biến

 Cửa sổ Output: hiển thị các kết quả khi thực hiện các lệnh xử lý

5.2 Mã hóa dữ liệu

Trang 9

Giúp khởi tạo file mới,

Gồm các lựa chọn về dữ liệu như chèn thêm biến, tìm theo giá trị của biến, sẵp xếp thứ tự các quan sát, định dạng các

biến có nhiều lựa chọn…

Gồm các lệnh về chuyển đổi biến, tính toán giá trị của biến,

mã hóa lại các biến…

Thực hiện các thủ tục phân tích thống

kê như tóm tắt dữ liệu, lập bảng tổng hợp, tiến hành các kiểm định so sánh

về giá trị trung bình, kiểm định tham số

và phi tham số, phân tích tương quan

và hồi quy, phân tích nhân tố…

Tạo các biểu đồ và đồ thị…

Trang 10

 Mã hóa tên biến (name):

 Tên biến cần đặt không có ký tự đặc biệt và không bắt đầu bằng ký số

Thông thường, ta hay đặt tên biến gần với câu hỏi hay theo số thứ tự câu hỏi mà biến đó mô tả Ví dụ, câu hỏi thứ ba thì khai báo tên biến là q3 hay là c3

 Cách mã trong SPSS: nhập trực tiếp tên biến dự kiến vào từng ô trong cột đầu tiên (Name) của bảng tính Variable View

5.2 Mã hóa dữ liệu

Trang 12

 Mã hóa kiểu biến (Type):

Có nhiều kiểu hiện thị khác nhau của biến để lựa chọn (đồng thời với độ rộng và phần thập phân của biến)

5.2 Mã hóa dữ liệu

Trang 13

 Nhãn biến (Label):

 Là lời giải thích cho tên biến Đặt nhãn biến phải

ngắn gọn nhưng có tính giải thích cao Nhãn này có thể dài bao nhiều tùy ý và sẽ xuất hiện thay cho tên biến trong phần bảng kết quả

 Cách mã trong SPSS: nhập trực tiếp (gõ không dấu) vào từng ô trong cột Label, mỗi nhãn tương ứng với tên biến trong cùng một dòng

5.2 Mã hóa dữ liệu

Trang 15

 Mã hóa các giá trị (Values):

 Là giai đoạn quan trọng nhất trong việc mã hóa dữ liệu bằng cách gán cho các dữ liệu thu thập được bởi những con số thích hợp

 Đối với câu hỏi đóng: Nhập các con số tương ứng với các câu trả lời đã được liệt kê sẵn

5.2 Mã hóa dữ liệu

Trang 16

 Cách mã trong SPSS: Mở hộp thoại Value Label và nhập nội dung cần khai báo Ví dụ:

5.2 Mã hóa dữ liệu

Trang 17

 Mã hóa các giá trị (Values):

 Đối với câu hỏi mở:

- Nhóm các câu trả lời có cùng ý nghĩa (không nên quá 10 nhóm)

- Gán các con số cho từng nhóm trả lời

Ví dụ: Khách du lịch quốc tế đến với Huế trong những năm qua:

1 = Châu Á

2 = Châu Âu

3 = Châu Mỹ

5.2 Mã hóa dữ liệu

Trang 18

 Có hai cách mã đối với câu hỏi mở:

- Mã hóa trước: dự kiến được các tình huống mà người trả lời sẽ đưa ra dựa vào lý thuyết và kinh nghiệm của các lần nghiên cứu trước để nhóm các câu trả lời thành các nhóm tương đồng

- Mã hóa sau: sau khi điều tra toàn bộ mẫu, đọc trước khoảng 30% các bảng hỏi để tính toán các tình huống và tìm cách nhóm các câu trả lời có ý nghĩa tương đồng

5.2 Mã hóa dữ liệu

Trang 19

 Mã hóa các giá trị khuyết (Missing):

 Trong trường hợp câu hỏi không được trả lời hay không có ý kiến đối với câu hỏi thì cũng phải được mã hóa

 Cách mã trong SPSS:

 Mã hóa giá trị khuyết trong hộp thoại Value Labels, sau

đó khai báo chính giá trị đã mã hóa đó trong hộp thoại Missing Value

 Ngoài ra, trong SPSS còn có một giá trị khuyết nữa, được gọi là giá trị khuyết hệ thống và được chương trình tự

động đặt dấu chấm (.) ở những vị trí không được nhập giá trị

5.2 Mã hóa dữ liệu

Trang 21

 Mã hóa các giá trị khuyết (Missing):

- Là công cụ mô tả quy luật của các giá trị khuyết: các giá trị khuyết nằm

ở đâu, có nhiều giá trị khuyết không, các dữ liệu quá lớn hay quá nhỏ hay các giá trị bị thiếu một cách ngẫu nhiên

- Ước lượng trung bình, phương sai và độ lệch chuẩn bằng các phương pháp listwise, pairwise, regression, EM (expectation maximization)

Listwise bỏ qua các trường hợp có giá trị khuyết ở bất kỳ biến nào

Pairwise bỏ qua các trường hợp có giá trị khuyết ở cặp biến đang xử lý Regression ước lượng các giá trị khuyết bằng thuật toán hồi quy EM ước lượng các giá trị khuyết bằng quá trình lặp Trong đó, ở mỗi bước lặp có một bước E tính giá trị trung bình của các tham số và một bước M tính các ước lượng hợp lý nhất

- Điền các giá trị khuyết bằng phương pháp regression hoặc EM

5.2 Mã hóa dữ liệu

Trang 22

 Columns: Khai báo độ rộng của cột biến khi ta nhập dữ liệu Mặc định của chương trình là 8

 Align: xác định vị trí dữ liệu được nhập trong cột Mặc định của chương trình là Right

 Measure: chọn loại thang đo thể hiện dữ liệu với 3 loại chính là Nominal (thang đo định danh), Ordinal (thang

đo thứ bậc) và Scale (bao gồm cả thang đo khoảng và thang đo tỷ lệ)

5.2 Mã hóa dữ liệu

Trang 23

 Lưu ý:

 Đối với những câu hỏi đa lựa chọn (multiple

answer), ta nên khai báo hai hay nhiều biến hơn

trong bảng mã hóa Variable View để thuận tiện hơn trong việc nhập dữ liệu sau này

 Ví dụ: slide\3.ppt

5.2 Mã hóa dữ liệu

Trang 25

 Bảng mã dữ liệu:

 Đây là danh mục chi tiết các mã số/ký tự đã được quy định cho các thông tin phân tích

 Chức năng:

- Giảm khả năng sai sót trong khâu nhập dữ liệu

- Giúp xác định được vị trí của các biến trong quá trình phân tích

5.2 Mã hóa dữ liệu

Trang 26

Cấu trúc của bảng mã dữ liệu

Trang 27

 Cấu trúc bảng dữ liệu (Data View)

 Cột: là nơi quản lý các biến (các câu hỏi trong bảng hỏi)

 Dòng: là nơi quản lý tất cả các thông tin trên từng bảng hỏi (số lượng dòng tương đương với kích cỡ mẫu)

 Ô giao nhau giữa cột và dòng: là nơi chưa đựng giá trị trả lời của một câu hỏi trong một bảng hỏi cụ thể

5.3 Nhập dữ liệu

Trang 29

 Nhập trực tiếp từ bàn phím:

 Nguyên tắc:

- Mỗi bảng hỏi được nhập trên 1 dòng

- Chỉ nhập các giá trị nhãn (Values): bằng số đối với biến số

và bằng chữ đối với biến ký tự

 Cách nhập trong SPSS:

5.3 Nhập dữ liệu

Trang 31

 Các kỹ thuật nhập dữ liệu:

 Nhập toàn bộ số liệu hai lần bởi hai người riêng biệt

 Nhập toàn bộ số liệu hai lần do một người thực hiện

 Nhập toàn bộ số liệu một lần, sau đó chọn ngẫu nhiên đơn

khoảng 20% bộ số liệu và nhập lại lần 2

 Nhập toàn bộ số liệu, chọn ngẫu nhiên đơn khoảng 20% bộ số liệu và kiểm tra lại bằng mắt

 Nhập toàn bộ số liệu một lần, không kiểm tra lần hai

5.3 Nhập dữ liệu

Trang 32

 Sự cần thiết: Dữ liệu sau khi nhập xong chưa thể đưa vào xử lý ngay vì thường gặp những lỗi cơ bản sau:

 Chất lượng của phỏng vấn và đọc soát

 Quá trình nhập dữ liệu: sai, sót, thừa

5.4 Làm sạch dữ liệu

Trang 33

Ví dụ: Bạn quy ước mã hóa 1 đại diện cho nam và 2 đại diện cho nữ, nhưng khi ta thực hiện lệnh đếm tần số giới tính thì lại cho kết quả như bảng dưới, điều này chứng tỏ bạn đã nhập nhầm

5.4 Làm sạch dữ liệu

Trang 34

 Các biện pháp ngăn ngừa:

 Thiết kế bảng câu hỏi rõ ràng, dễ hỏi, dễ trả lời

 Chọn lọc và huấn luyện phỏng vấn viên kỹ lưỡng, tiến hành điều tra phỏng vấn thử trước khi phỏng vấn thật để hiểu thống nhất, tránh sai sót

 Các bảng câu hỏi sau khi phỏng vấn xong phải được đọc soát kiểm lỗi, chỉnh sửa trước khi nhập

 Việc mã hóa phải được tiến hành tập trung với một số ít cá nhân phụ trách việc nhập liệu, không nên phân tán để tránh bị rối loạn do thiếu thống nhất

5.4 Làm sạch dữ liệu

Trang 35

 Các phương pháp làm sạch dữ liệu:

 Dùng bảng tần số

 Dùng bảng phối hợp hai biến hay ba biến

 Cách tìm lỗi đơn giản ngay trên cửa sổ dữ liệu (Data View)

5.4 Làm sạch dữ liệu

Trang 36

Bảng tần số

Quy trình thực hiện

- Trên cửa số Data View chọn toàn bộ cột biến có giá trị bị lỗi

- Trên thanh Menu, chọn Edit > Find

- Nhập giá trị lỗi vào ô Find what và nhấp nút

Find next để tìm vị trí các ô chứa giá trị lỗi

- Truy ngược lại số thứ tự của hàng đó để xác

định bảng hỏi tương ứng

Trang 37

Dùng bảng phối hợp hai hay ba biến

Quy trình thực hiện

- Lập bảng kết hợp biến rồi dựa vào các quan hệ logic để phát hiện lỗi

- Trên thanh Menu, chọn Data > Select Cases Trong hộp

thoại này, lựa chọn mục If condition is satisfied để chỉ

định lọc ra các trường hợp thỏa quan hệ logic cần xác định

- Nhấp chọn tiếp nút If… để xây dựng biểu thức hàm If

tại khung bên cạnh

- Nhấp Continue trở về hộp thoại trước và chọn OK

Trang 38

Mã hóa lại biến (recode)

- Giảm số biểu hiện của một biến định tính

- Chuyển một biến định lượng thành một biến định tínhQuy trình thực hiện

- Trên thanh Menu, chọn Transform > Recode > Into

Trang 39

- Sang phần Output Variable để đặt tên và nhãn cho biến

mới này

- Nhấp vào nút Old and new value để mở hộp thoại này

và xác định sự chuyển đổi giữa giá trị cũ và giá trị mới tương ứng

- Xác định xong nhấp nút Continue để trở về hộp thoại trước đó, nhấp chọn OK để thực hiện mã hóa lại =>

xuất hiện biến mới đã được mã hóa lại

- Chuyển sang Variable View, vào khai báo các thuộc

tính cho biến mới vừa được mã hóa lại

Một số xử lý trên biến

Trang 40

Chuyển một biến dạng Category thành một biến dạng

Dichtomy

- Biến dạng category là biến phân loại có thể có nhiều trị

số mã hóa tượng trưng cho nhiều biểu hiện khác nhau của biến

- Biến dạng dichtomy là biến phân loại chỉ có 2 trị số mã

hóa tượng trưng cho 2 biểu hiện của biến (ví dụ: nam

hay nữ, có dùng điện thoại hay không, có theo tôn giáo hay không)

Một số xử lý trên biến

Trang 41

Quy trình thực hiện

- Trên thanh Menu, chọn Transform > Count

- Khai báo tên biến Dichtomy muốn tạo trong khung Target

Variable và nhãn biến trong khung Target Lable

- Đưa các biến Category cần chuyển đổi vào khung Numeric

Variable

- Nhấp nút Define Values để mở hộp thoại này

- Nhập giá trị mã hóa tương ứng với biểu hiện cần chuyển đổi vào

khung Value rồi nhấp Add để đưa nó sang khung Values to

Count

- Nhấp Continue trở về hộp thoại trước đó và chọn OK

Một số xử lý trên biến

Ngày đăng: 22/03/2016, 17:38

HÌNH ẢNH LIÊN QUAN

Bảng tần số - Chương 5 xử lý dữ liệu
Bảng t ần số (Trang 36)

TỪ KHÓA LIÊN QUAN

w