Bài giảng Thống kê ứng dụng - Chương 1 giới thiệu về Thống kê học. Thông qua chương này các bạn sẽ có những kiến thức tổng quan như: Thống kê học là gì, ba bước để làm thống kê, các khái niệm trong thống kê học, phương pháp thống kê,...và một số nội dung liên quan khác. Mời các bạn cùng tham khảo.
Trang 1Giới thiệu
Thống kê học
Trang 2Contents
1 Click to add title in here
2 Click to add title in here
3 Click to add title in here
4 Click to add title in here
5 Click to add title in here
6 Click to add title in here
Trang 42 Tóm tắt thông tin nhằm hỗ trợ quá trình tìm
hiểu về một vấn đề hoặc đối tượng nào đó
3 Đưa ra những kết luận dựa trên số liệu, và
4 Ước lượng hiện tại hoặc dự báo tương lai
Thống kê thường đi kèm với môn học song hành
là Xác xuất, là ngành học nhằm đưa ra các mô hình toán học về sự ngẫu nhiên và cho phép tính toán về sự ngẫu nhiên trong những trường hợp phức tạp
Trang 5Thống kê học
Ánh nắng mặt trời và ung thư da
Chứng cứ thuyết phục về mối liên hệ giữa việc tiếp xúc trực tiếp với ánh nắng mặt trời và ung
thư da đã được một nhà thống kê người Úc phát hiện ra, Ông Oliver Lancaster Ông quan sát thấy rằng tỷ lệ người bị ung thư da trong số dân da
trắng gốc Bắc Âu có tương quan thuận với vĩ độ của nơi họ ở, tức có tỷ lệ với lượng ánh nắng
mặt trời mà họ tiếp xúc: các tiểu bang ở phía bắc
có tỷ lệ ung thư da cao hơn các tiểu bang phía nam
Quan sát này chỉ có thể đưa ra được bằng việc thu thập đầy đủ các số liệu và đưa ra các quan sát có phương pháp về tỷ lệ ung thư da Đó là lý
do tại sao cần học thống kê
Trang 6Thống kê học
www.themegallery.com
kê Thông tin
Statistics
Trang 7Ba bước để làm thống kê
01 Suy nghĩ 02 Biểu thị 03 Trình bày
success
Trang 8Các khái niệm trong thống kê học
• Quần thể (population): một nhóm gồm các thành phần mà nhà thực hành thống kê
Trang 9Các khái niệm trong thống kê học
• Thông số (parameter): một đại lượng môt
Trang 10Các khái niệm trong thống kê học
• Các quần thể có các thông số; các mẫu có các trị số thống kê.
Trang 12• Xác định đặc điểm của dữ liệu
– VD: trung bình của mẫu
Trang 13Thống kê suy luận
• Quá trình tạo ra một ước lượng, dự đoán, hay quyết định về quần thể dựa trên mẫu.
Trang 14Dữ liệu thống kê
• Dữ liệu (Data): là đại lượng cùng ngữ cảnh
đi kèm.
• Ngữ cảnh của dữ liệu: “Five W’s”: Who,
What, When, Where and Why Có thể có
cả “How.”
• Dữ liệu không có ngữ cảnh đi kèm thì hầu như vô nghĩa.
Trang 15Dữ liệu thống kê
Họ và tên Tuổi Loại lao động Lương
ngày
Đội thi công
Bảo hiểm Pham Cam 18 Phổ thông 50000 1 Không
Trang 16Biến của dữ liệu
www.themegallery.com
Định tính
(Categorical)
Định lượng (Quantitative)Biến của
dữ liệu
Trang 17Trình bày dữ liệu định tính
Ba qui tắc trong phân tích dữ liệu
1. Vẽ/tạo hình ảnh – có thể lộ ra những điều
mà chúng ta không thấy từ dữ liệu thô.
2. Vẽ/tạo hình ảnh – những đặc điểm quan
trọng của dữ liệu sẽ được thể hiện Chúng
ta có thể thấy những điều chúng ta không mong đợi.
3. Vẽ/tạo hình ảnh – cách tốt nhất để nói với
người khác rằng dữ liệu của bạn có hình ảnh trình bày được lựa kỹ.
Trang 18Bảng tần suất
• Đếm số lượng của các giá trị dữ liệu cho mỗi loại.
• Tổ chức chúng vào một bảng chỉ số đếm, thể hiện tổng số lượng và loại.
Trang 19Bảng tần suất
• Bảng tần suất tương đối cũng tương tự,
nhưng thể hiện dạng phần trăm (thay vì số đếm) cho mỗi loại.
Trang 20Dự liệu tàu Titanic được trình bày hợp lý?
www.themegallery.com
Trang 21Biểu đồ thanh (Bar Charts)
• Biểu đồ thanh tần suất tương đối mô tả sự phân phối tương đối của số đếm cho mỗi loại.
• Thỏa mãn “nguyên lý diện tích”
Trang 22Biểu đồ hình bánh (Pie Charts)
• Khi quan tâm các phần trong tổng thể, biểu đồ bánh là chọn lựa hay.
Trang 23Bảng tùy thuộc
• Cho phép trình bày hai biến định tính cùng nhau
• Cho phép thể hiện các thành phần được phân phối như thế nào theo mỗi biến, và tùy thuộc
vào giá trị của biến khác
• VD: xem xét hạng vé và sự sống sốt của hàng khách trên tàu Titanic
Trang 24Bảng tùy thuộc
• Các cột và hàng lề bên phải và bên dưới cho ra tổng số và các phân phối tần suất cho mỗi một biến
• Mỗi phân phối tần suất gọi là phân phối lè của biến tương ứng
VD: Phân phối lề cho biến sống sót của tàu Titanic
Hạng
Sống sót
Nhất Nhì Ba Thủy thủ Sống 203 118 178 212
Chết 122 167 528 673
Trang 25Bảng tùy thuộc
• Mỗi phần tử của bảng cho ra số đếm của sự kết hợp giá trị của hai biến
• VD: phân tử thứ hai ở cột thủy thủ đoàn chỉ ra
673 thủy thủ chết khi tàu Titanic bị chìm
Trang 26Phân phối có điều kiện
• Phân phối có điều kiện cho ra phân phối của một biến chỉ cho các thành phần thỏa mãn một điều kiện nào đó của biến khác
• VD: phân phối có điều kiện của hạng vé với điều kiện sống
Hạng
Sống
Nhất Nhì Ba Thủy thủ Tổng
203 118 178 212 711 28.6% 16.6% 25.0% 29.8% 100%
Trang 27Phân phối có điều kiện
• Các phân phối có điều kiện cho thấy rằng có sự khác nhau về hạng vé và tỷ lệ sự sống sot
Trang 28Phân phối có điều kiện
• Sự phân phối của hạng vé với người sống sót
và sự phân phối của hạng vé với người không sống sót là khác nhau
• Hạng vé và sự sống sót là có sự liên hệ, nhưng chúng không độc lập
Trang 29Biểu đồ dạng thanh đốt
• Biểu đồ thanh đốt trình bày lượng thông tin
giống với biểu đồ bánh
• Biểu đồ thanh đốt giữa hạng vé và sự sống sót
Trang 30Phân phối 1 biến
• Giá trị trung bình
Trang 32Ví dụ
• Ví dụ: Có 2 dự án với kết quả dự kiến:
Dự án Lợi nhuận (tỷ) Xác suất (p)
Trang 34Ý nghĩa
Trang 35Chú ý
Trang 36Hệ số biến động CV
Trang 37Tính phương sai và độ lệch chuẩn với Excel
• Các functions:
– Phương sai : Var (địa chỉ chuỗi)
– Độ lệch chuẩn: Stdev (địa chỉ chuỗi)
www.themegallery.com
Trang 38Các phép biến đổi số liệu
thường sử dụng
www.themegallery.com
Trang 39Biến trung tâm hóa và chuẩn hóa
Standardized
Trang 40Biến trung tâm hóa và chuẩn hóa
Normalized
Trang 41Biến trung tâm hóa và chuẩn hóa
Adjusted Normalized
Trang 42Ví dụ
Tính giá trị phương sai (V) và từ đó suy
ra giá trị độ lệch chuẩn của tập số liệu xi nói trên
Trang 43Ví dụ
Tính giá trị phương sai (V) và từ đó suy
ra giá trị độ lệch chuẩn của tập số liệu xi nói trên
Trang 44Ví dụ
• Ví dụ: Có 2 dự án với kết quả dự kiến:
Dự án Lợi nhuận (tỷ) Xác suất (p)
Trang 45Ví dụ
• Ví dụ: Có 2 dự án với kết quả dự kiến:
Dự án Lợi nhuận (tỷ) Xác suất (p)