SỐ LẦN XUẤT HIỆN Tần xuất – Tần xuất đối với một lớp nào đó của một biến là số các quan sát rơi vào lớp này – Bảng phân bố tần xuất... • Các phân bố tần xuất: – Chỉ ra các cá thể phân
Trang 1Bài giảng môn học
PHÂN TÍCH
SỐ LIỆU THỐNG KÊ
Giảng viên: Ths Dương Thị Mai Thương
Bộ môn: Khoa học máy tính – CNTT Email: duongmaithuongcntt@gmail.com
Mobile: 0945373858
1
Trang 3– Phân tích hồi quy và tương quan
– Phân tích chuỗi thời gian
• Cung cấp kỹ năng sử dụng phần mềm SPSS
3
Trang 4YÊU CẦU & ĐÁNH GIÁ
• 100% sinh viên lên lớp và thực hành
• Thực hiện chia nhóm để thảo luận, làm bài tập lớn, tiểu luận môn học
• Kết thúc môn sinh viên có thể phân tích thống
kê số liệu dựa trên phần mềm SPSS 19
Trang 5TÀI LIỆU THAM KHẢO
• [1] Dang Quang A and Bui The Hong, Statistical data analysis,
• www.netnam.vn/unescocourse/statistics.htm , 1999 ( Giáo trình điện tử theo đặt hàng của UNESCO)
• [2] Bùi Thế Hồng, Giáo trình phân tích thống kê dữ liệu và SPSS for
xã hội, NXB Giao thông vận tải, 2000
• [6] Hoàng Trọng, Chu Nguyễn Mộng Ngọc, Phân tích dữ liệu nghiên cứu với SPSS, NXB Hồng Đức, 2008 5
Trang 6Thời
gian
Tuần 1 Giới thiệu môn học, ôn tập các kiến thức
cơ bản
Chương 1 Phân loại dữ liệu, mã hóa,
nhập liệu và một số xử lý trên biến
Lý thuyết
Tuần
2,3
Chương 2 Làm sạch dữ liệu Chương 3 Tóm tắt và trình bày dữ liệu
Lý thuyết thực hành
Tuần 4 Chương 4 Kiểm định mối liên hệ giữa
hai biến định tính
Lý thuyết thực hành
Tuần 5 Chương 5 Phân tích liên hệ giữa biến
nguyên nhân định tính và biến kết quả định lượng:
Kiểm định trung bình quần thể
Lý thuyết thực hành
6
Trang 77
Thời
gian
Tuần 6 Chương 6 Phân tích liên hệ giữa biến
nguyên nhân định tính và biến kết quả
định lượng: Phân tích phương sai
Lý thuyết thực hành
Tuần 7 Kiểm tra bài 1
thực hành
Tuần 9 Chương 8 Kiểm định tỷ lệ
Chương 9 Tương quan và hồi quy
tuyến tính
Lý thuyết thực hành
Trang 8NỘI DUNG MÔN HỌC (đọc thêm)
• Chương 10: Hồi qui Bianry Logistic
• Chương 11: Đánh giá độ tin cậy của thang đo
• Chương 12: Phân tích nhân tố
• Chương 13: Phân tích biệt số
• Chương 14: Phân tích cụm
• Chương 15: Lập bản đồ nhận thức với đo lường đa
hướng và phân tích tương hợp
• Chương 16: Các tiện ích
8
Trang 9GIỚI THIỆU PHÂN TÍCH DỮ LIỆU
• Nghiên cứu và phân tích dữ liệu
Trang 10GIỚI THIỆU PHÂN TÍCH DỮ LIỆU
• Bản chất của phân tích dữ liệu
Trang 11BẢN CHẤT CỦA PT DỮ LIỆU (cont.)
• Dữ liệu trở thành thông tin khi nó liên quan
đến vấn đề nhận thức, kết luận và quyết định của người nghiên cứu
• Thông tin trở thành sự kiện khi thông tin hỗ
trợ cho việc ra quyết định
• Sự kiện trở thành tri thức khi nó được sử dụng
để hoàn tất quá trình ra quyết định một cách
thành công
11
Trang 12THỐNG KÊ VÀ PHÂN TÍCH DỮ LIỆU
• Thống kê: tập hợp các phương pháp dùng để
thu thập, phân tích, trình bày và diễn giải dữ
liệu
• Phân tích dữ liệu: cung cấp kinh nghiệm thực
hành được đúc kết để đẩy mạnh việc ứng dụng
tư duy thống kê và kỹ thuật thống kê nhằm
hiểu rõ các hiện tượng nghiên cứu, từ đó hỗ trợ cho việc ra quyết định
12
Trang 13Chương 1 PHÂN LOẠI DỮ LIỆU, MÃ HÓA NHẬP LIỆU VÀ MỘT SỐ XỬ LÝ
TRÊN BIẾN
13
Trang 14PHÂN LOẠI DỮ LIỆU
Dữ liệu định lượng
Thang đo khoảng cách
Thang đo tỉ
lệ
14
Trang 15PHÂN LOẠI DỮ LIỆU (cont.)
– Ví dụ: Tuổi, Thu nhập trong tháng…
15
Trang 16CÁC LOẠI THANG ĐO
• Thang đo danh nghĩa (phân loại) – nominal scale
– Các con số mang ý nghĩa phân loại đối tượng
– Ví dụ: Vui lòng cho biết tình trạng hôn nhân của bạn?
– Chứng minh các thang đo trên là biến phân loại
– Thứ tự thang đo phân loại có quan trọng ko?
Trang 17CÁC LOẠI THANG ĐO
• Thang đo thứ bậc – ordinal scale
– Các con số được sắp xếp theo một quy ước nào đó về thứ bậc hay sự hơn kém, nhưng không biết được
– Chứng minh đây là thang đo thứ bậc?
– Thang đo thứ bậc có phải là thang đo phân loại?
17
Trang 18CÁC LOẠI THANG ĐO
• Thang đo khoảng cách – interval scale
– Là một dạng đặc biệt của thang đo thứ bậc, cho biết khoảng cách giữa các thứ bậc
– Ví dụ: Theo bạn tầm quan trọng của việc chăm chỉ
đối với kết quả học tập? (1 = không quan trọng, 10 = rất quan trọng)
• Thang đo khoảng cách không có điểm 0 tuyệt đối
– Thang đo khoảng cách hay thứ bậc cho nhiều thông
tin hơn?
18
Trang 19CÁC LOẠI THANG ĐO
• Thang đo tỉ lệ - ration scale
– Thang đo tỉ lệ = thứ tự + khoảng cách + điểm
“0” là giá trị thật
– Ví dụ:
• Bạn đang có bao nhiêu tiền?
• Điểm trung bình học tập của bạn đạt bao nhiêu?
19
Trang 20VÍ DỤ THANG ĐO
• Giá trị 0 của biến có mang nghĩa tự nhiên
– Tôi hết sạch tiền
– Lương tôi chỉ bằng ½ sếp tôi
– Dân số Việt Nam gấp 10 lần dân số NewDilan
• Giá trị 0 không mang nghĩa tự nhiên
– 0 0 F là một điểm 0 nhân tạo
Trang 211 Đỗ Văn An Nam 21 Sinh viên
2 Lý Thu Hoa Nữ 34 Giáo viên
3 Đào Thị Lê Na Nữ 56 Nghỉ hưu
Trang 22NGUYÊN TẮC MÃ HÓA &
Trang 23NGUYÊN TẮC MÃ HÓA & NHẬP
LIỆU
• Chú ý:
– Chỉ mã hóa được thang đo định tính
– Mỗi cột là một biến cần khảo sát
– Mỗi hàng là thông tin của một đối tượng cần thu thập – Câu hỏi có nhiều khả năng trả lời?
• Ví dụ: Trong vòng 5 năm vừa qua, bạn đã đi
những địa danh nào?
Thái Nguyên, Hà Nội, Huế, Đà Nẵng, Sài Gòn, Khác
Biểu diễn dữ liệu trên?
23
Trang 24QUẦN THỂ VÀ MẪU
• Quần thể: Tập hợp các cá thể hoặc các đối
tượng mà người nghiên cứu cần quan tâm
– Quần thể loài người
– Quần thể sinh viên
– Quần thể khách sạn 3 sao
• Mẫu: Tập hợp các cá thể mà tập này có thể coi
là đại diện của quần thể được quan sát
Trang 25QUẦN THỂ HỮU HẠN
• Quần thể hữu hạn: Là quần thể mà cá thể có
thể liệt kê được
– Sinh viên lớp KHMT: Quần thể hữu hạn
– DS sinh viên lớp KHMT: DS liệt kê
– Dân số Việt Nam ?
Trang 26QUẦN THỂ GIẢ ĐỊNH
• Ví dụ: Từ lô 1000 bóng đèn do 1 nhà máy sản xuất, tiến hành thử 1 số bóng và ghi lại tuổi thọ
– 1000 bóng là quần thể hữu hạn
– Bóng đèn mang thử là mẫu
– Kết quả thu được là tuổi thọ của mẫu được thử
Trang 27QUẦN THỂ GIẢ ĐỊNH
– Với cùng công nghệ như vậy tiếp tục sản xuất bóng
đèn, các bóng đèn sẽ được sản xuất tạo thành quần
thể giả định (chưa sản xuất)
– Tuổi thọ của các bóng trong quần thể giả định đóng vai trò quan trọng và được dự đoán trước thông qua kết quả thử nghiệm đã có
Trang 28TỔ CHỨC CÁC DỮ LIỆU PHÂN LOẠI
Trang 30SỐ LẦN XUẤT HIỆN (Tần xuất)
– Tần xuất đối với một lớp nào đó của một biến là số
các quan sát rơi vào lớp này
– Bảng phân bố tần xuất
Trang 31TẦN XUẤT (cont.)
• Các phân bố tần xuất:
– Chỉ ra các cá thể phân bố như thế nào theo các
nhóm, dùng khi nhấn mạnh đến biến đang được quan sát
• Các phần trăm:
– Tần xuất tương đối của biến hay tỉ lệ của biến trên tổng số các quan sát
Trang 32TẦN XUẤT (cont.)
• Tần xuất tương đối đối với một lớp nào đó
của một biến bằng tần xuất của lớp này chia cho tổng quan sát
Trang 34CÁC DẠNG ĐỒ THỊ TẦN XUẤT
• Đồ thị dạng thanh
Trang 35CÁC DẠNG ĐỒ THỊ TẦN XUẤT (cont.)
• Đồ thị dạng cột chồng nhau
Trang 36CÁC DẠNG ĐỒ THỊ TẦN XUẤT (cont.)
• Đồ thị đạng đường
Trang 37DỮ LIỆU RỜI RẠC
• Tần xuất tích lũy ở một giá trị đã cho bằng
tổng tần xuất của tất các giá trị nhỏ hơn và bằng giá trị này
• Các tần xuất trong bảng 2.7 có thể biểu diễn trên đồ thị
Trang 38TỔNG HỢP DỮ LIỆU
Trang 39ĐỒ THỊ DẠNG CỘT
Trang 4040
Tin U i Tần xuất Tần xuất
tương đối
Tần xuất tích lũy
Tần suất tương đối tích lũy
Trang 41ĐỒ THỊ DẠNG ĐIỂM
Trang 42DỮ LIỆU LIÊN TỤC
• Độ chính xác: Trên lý thuyết độ chính xác là
tùy ý, thực tế lại phụ thuộc và dụng cụ đo
• Làm tròn: Làm giảm độ chính xác
Trang 43PHÂN BỐ TẦN XUẤT CỦA DL LIÊN TỤC
• Dữ liệu số liên tục được liệt kê trong bảng 2 cột như dữ liệu rời rạc
• Nhận xét
– Min = 41, max = 64 – Miền giá trị biến cân nặng 64-41=23 – Ta chia miền giá trị thành 5 khoảng nhỏ (43, 48,
53, 58, 63) tương ứng với các lớp: 40.5-45.5, 50.5, 50.5-60.5, 60.5-65.5
45.5-• Nếu bằng cận thì lấy nhóm trên
Trang 46LƢỢC ĐỒ CÂN NẶNG DẠNG CỘT
Trang 47DẠNG CHẤM
Trang 48DẠNG ĐƯỜNG
Trang 49CÁC SỐ ĐO VỊ TRÍ
• Mode : giá trị xuất hiện nhiều nhất trong tập dữ
liệu
• Median: điểm giữa của dữ liệu
• Mean: giá trị trung bình
Trang 50MODE CỦA DỮ LIỆU PHÂN NHÓM
• Mode của các dữ liệu định lượng rời rạc
– Mode của một tập dữ liệu là giá trị xuất hiện nhiều lần nhất trong tập dữ liệu
• Mode của biến số con là 2 (chiếm 35%)
– Dữ liệu là biến liên tục, các giá trị có thể hoàn
toàn khác nhau thì có tồn tại Mode ko?
• Biến liên tục thì xác suất xuất hiện của dữ liệu là bao nhiêu?
– Nếu dữ liệu được phân nhóm có thế tính được
Mode của nhóm ko?
Trang 5151
Trang 52MEDIAN CỦA DL LIÊN TỤC
• Median là giá trị chia tập hợp thành 2 nửa sao
cho các quan sát của nửa này nhỏ hơn bằng giá trị giữa, quan sát nửa kia lớn hơn bằng giá trị giữa
– Để tìm giá trị giữa nên sắp xếp dữ liệu
– Một tập quan sát được sắp thứ tự gọi là mẫu được sắp thứ tự
Trang 53MEDIAN
– Nếu số mẫu là lẻ thì Median ở chính giữa
– Nếu số mẫu là chẵn thì nên lấy giá trị trung bình của 2 mẫu trung tâm
Trang 54MEAN
• Mean: là giá trị trung bình số học của một
biến, được tính bằng tổng các giá trị quan sát chia cho số quan sát
– Đây là dạng công cụ thường được dùng cho dạng
Trang 55• Thay đổi đơn vị
– Nếu tất cả các tập quan sát được cộng (trừ) với 1
số dương thì bằng Mean cộng (trừ) số đó
– (59, 42, 73, 104, 48)/5 = 63.2 kg
Trang 57CÁC SỐ ĐO VỀ SỰ BIẾN THIÊN
• Nhận xét: Nếu 2 tập quan sát có cùng giá trị
trung bình thì tập nào có độ biến thiên nhỏ
hơn sẽ chính xác hơn
Trang 58MIỀN GIÁ TRÍ
• Định nghĩa:
– Hiệu số giữa quan sát lớn nhất và nhỏ nhất của tập
dữ liệu được gọi là miền giá trị của tập này
Trang 59ĐÁNH GIÁ MIỀN GIÁ TRỊ
• Miền giá trị tăng khi cỡ của tập quan sát tăng chứ ko bao giờ giảm (độ dàn trải của số liệu)
Trang 60MEAN DEVIATION
– Độ lệch trung bình là số đo về sự biến đôỉ
Trang 61MEAN DEVIATION
• Giá trị tuyệt đối của độ lệch là khoảng chênh
lệch giữa giá trị quan sát và giá trị trung bình mẫu
• Độ lệch tuyệt đối trung bình (độ lệch trung
bình)
Trang 62TRỊ TRUNG BÌNH CỦA QUẦN THỂ
• Định nghĩa:
– Giá trị trung bình của quần thể là
– Các độ lệch là yi – μ (i=1,2, )
– Độ lệch tuyệt đối là |yi – μ | (i=1,2, )
– Độ lệch trung bình của quần thể (tuyệt đối) là khoảng cách trung bình từ các điểm y1 y2 …, yn đến giá trị
trung bình của chúng
Trang 64VÍ DỤ
• Trò chơi tung đồng xu: Một cậu bé vạch một
đường nằm ngang sau đó lùi lại 2m và tung đồng
xu ba lần sao cho chúng rơi càng gần đường nằm ngang càng tốt Giả sử đồng xu rơi xuống cách cậu bé khoảng x1 x2 x3
Trang 65VÍ DỤ (cont.)
• Tổng khoảng cách của đồng xu so với đường
nằm ngang (đường này coi là trung bình của
một tổng thể vô hạn lần tung đồng xu)
• Khoảng cách trung bình (chia 3) là số đo sự phân tán các lần tung đồng xu xung quanh
đích
Trang 66VÍ DỤ (cont.)
– Tuy nhiên tổng khoảng cách của các đồng xu so với
đường vạch ngang (biểu diễn ):
x3 , 2m có thể ko phải là tâm của mẫu
– Để điều chỉnh lại cho nhỏ đi ta chia cho 2
Trang 67ĐỘ LỆCH CHUẨN
• Định nghĩa
Trang 68VÍ DỤ
• Độ lệch chuẩn của ví dụ bảng 4.1
Trang 69PHƯƠNG SAI QUẦN THỂ
• Định nghĩa
– Phương sai của một quần thể các quan sát y1 y2 …,
và ký hiệu là σ2
Trang 70ĐỘ LỆCH CHUẨN CỦA MẪU
• Định nghĩa 7
xn được ký hiệu là s và được tính theo công thức
Trang 71ĐỘ LỆCH CHUẨN CỦA MẪU
(cont.)
• Định nghĩa 8
ký hiệu là s2 và được tính theo công thức
Trang 72NGỮ NGHĨA CỦA PHƯƠNG SAI
• Khoảng cách từng cặp: Phương sai có ngữ nghĩa tự nhiên về khoảng cách từng cặp điểm
Trang 73NGỮ NGHĨA CỦA PHƯƠNG SAI
(cont.)
• Nhận xét
– Khoảng cách giữa các cặp càng lớn thì sự biến
thiên càng lớn
• Độ lêch trung bình của khoảng cách là: 20/10=2
• Độ lệch trung bình tuyệt đối và độ lệch trung bình khoảng cách ko có mối liên hệ
– Trung bình khoảng cách các cặp bình phương (xi – xj )2 và trung bình các độ lệch chuẩn mẫu
bình phương (xi - )2 có mối liên hệ trực tiếp
Trang 74(tiếp)
– Trung bình khoảng cách của từng cặp bình phương: 50/10 = 5
– Phương sai một mẫu gồm n quan sát: 2.5 (một nửa
trung bình của các khoảng cách bình phương)
Trang 75(tiếp)
• Định nghĩa
các cặp bình phương
Trang 77
CÁC ĐỘ ĐO BIẾN THIÊN
• Ví dụ:
– Hai mẫu có giá trị trung bình là: 4 – Độ lệch trung bình là; 6/4=1.5
Trang 78CÁC ĐỘ ĐO BIẾN THIÊN (tiếp)
– Độ lệch chuẩn của mẫu 1:
– Độ lệch chuẩn của mẫu 2:
– Giải thích:
• Độ lệch chuẩn là các bình phương của các độ lệch xung
quanh giá trị trung bình, trong mẫu 2 các cực trị ở xa giá trị trung bình, mẫu 1 thì gần hơn Do vậy, trong một số trường hợp nên sử dụng độ đo khác (miền giá trị của các góc phần
tư để mô tả sự biến thiên)
Trang 79– Người mua hàng nên mua lốp của hãng nào?
Trang 80…
– Tổng số tiền có thể ít hơn nếu mua lốp hãng B, cho
dù tuổi thọ trung bình có thể ngắn hơn vì chúng mòn như nhau hoặc gần như nhau
• Ví dụ 2: Nhầu đầu tư nông nghiệp sẽ đầu tư vào vùng đất A hay B nếu lượng mưa của chúng
tương ứng như sau:
– A: 40, 36, 25, 60, 54 ( sA = 14,7)
– B: 38, 40, 35, 50, 52 ( sB = 7,55)
• Đầu tư vào vùng đất B sẽ có lợi hơn!
Trang 81Kết luận
• Một số đo vị trí sẽ mô tả một tập các quan sát chính xác nếu độ biến thiên của tập này nhỏ và ngc lại
• Độ lệch trung bình và độ lệch chuẩn là khoảng cách trung bình so với giá trị trung bình
– Độ lệch trung bình là số học của các độ lệch tuyệt đối
– Độ lệch chuẩn là căn bậc hai của trung bình của
bình phương các độ lệch
Trang 83PHẦN MỀM PHÂN TÍCH VÀ XỬ
LÝ DỮ LIỆU
• Các phần mềm phục vụ phân tích và xử lý dữ liệu hiện nay: SAS, SPSS và STATA
– SAS: lớn nhất, đầy đủ nhất và đắt nhất => ít được
sử dụng tại VN
– STATA có phạm vi ứng dụng hẹp hơn thường
được sử dụng chủ yếu trong ngành Y tế
– SPSS có nhiều chức năng và linh hoạt hơn được sử dụng rộng rãi trong nhiều ngành khoa học khác
nhau như: Xã hội học, Y học, Nhân học, Tâm lý học, Kinh tế học, Marketing cả phiên bản cho các hệ điều hành Microsoft Windows, Mac, và
Linux/ UNIX
83
Trang 84CÁCH SỬ DỤNG SPSS
• SPSS là phần mềm chuyên dụng xử lý thông tin sơ cấp
• SPSS là một bộ chương trình rất dễ sử dụng
nên thu hút được nhiều người sử dụng
• SPSS cung cấp một giao diện giữa người và
máy cho phép sử dụng các Menu thả xuống để chọn các lệnh thực hiện
84
Trang 85QUẢN LÝ DỮ LIỆU
• SPSS có một bộ soạn thảo dữ liệu tương tự
như Excel, bộ soạn thảo cho phép vào các dữ
liệu và mô tả các thuộc tính của chúng
– SPSS không có những công cụ quản lý dữ liệu thật mạnh, chỉ có các lệnh chuyển cấu trúc dữ liệu theo chiều ngang thành cấu trúc dữ liệu theo chiều dọc
và ngược lại
– SPSS chỉ xử lý mỗi file dữ liệu ở một thời điểm và khó có thể phải thực hiện các nhiệm vụ phân tích với nhiều file dữ liệu cùng một lúc Các file dữ liệu
có thể có tới 4096 biến và số lượng bản ghi chỉ bị giới hạn trong dung lượng của đĩa cứng
•
85
Trang 86– Phân tích tồn tại, phân tích phương sai
– Phân tích nhân tố và phân tích nhiều chiều
86
Trang 87ỨNG DỤNG TRONG PHÂN TÍCH
THỐNG KÊ (tiếp)
• Sức mạnh lớn nhất của SPSS là lĩnh vực:
– Phân tích phương sai
– Khả năng lập các biểu bảng số liệu tổng hợp: đa dạng và linh hoạt, các bảng biểu,báo cáo được
trình bày đẹp, có thể hiệu chỉnh, in ra hoặc convert
• Yếu điểm của SPSS
– Khả năng xử lý đối với những vấn đề ước lượng phức tạp và do đó khó đưa ra được các ước lượng sai số đối với các ước lượng này
– SPSS cũng không hỗ trợ các công cụ phân tích dữ
Trang 88VẼ ĐỒ THỊ
• Thao tác đơn giản
• Đồ thị đó chất lượng cao, và có thể cắt/dán vào các tài liệu khác như vào Word hoặc
Powerpoint
– SPSS có ngôn ngữ cú pháp để tạo ra các đồ thị,
nhưng nguôn ngữ cú pháp đó tương đối phức tạp
và nhiều điểm trong giao diện tạo đồ thị lại không sẵn sàng trong ngôn ngữ cú pháp vì thế nên ít được
sử dụng tới
88
Trang 89Màn hình quản lý dữ liệu
(data view)
Là nơi lưu trữ
dữ liệu nghiên cứu với một cấu trúc cơ sở dữ liệu bao gồm cột, hàng và các
ô giao nhau giữa cột và hàng
Cột (Column): Đại diện cho
biến quan sát
Trang 90Màn hình quản lý dữ liệu
(data view)
Là nơi lưu trữ
dữ liệu nghiên cứu với một cấu trúc cơ sở dữ liệu bao gồm cột, hàng và các
ô giao nhau giữa cột và hàng
Hàng (Row): Đại diện cho một
trường hợp quan sát (người trả lời),