1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÀI GIẢNG TIN ỨNG DỤNG

31 270 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 31
Dung lượng 862,73 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Định nghĩa: Biến ngẫu nhiên X có phân phối chuẩn với các tham số m kỳ vọng, σ2 phương sai nếu nó có hàm mật độ:... Đồ thị hàm mật độ phân phối chuẩn... Liên hệ xác suất thống kê và các

Trang 1

Bài giảng tin ứng dụng

Gv: Trần Trung Hiếu

Bộ môn CNPM – Khoa CNTT

Email: tthieu@hua.edu.vn

Website: http://fita.hua.edu.vn/tthieu

Trang 2

Chương III: Các thống kê cơ bản,

tương quan & hồi quy

I Thống kê mô tả (Desriptive Statistics)

b Hồi quy tuyến tính

c Hồi quy phi tuyến

Trang 3

Giới thiệu về phân phối chuẩn

1 Phân phối chuẩn, còn gọi là phân phối Gauss, là

một phân phối xác suất cực kì quan trọng trong nhiều lĩnh vực Nó là họ phân phối có dạng tổng quát giống nhau, chỉ khác tham số vị trí ( giá trị trung bình μ) và tỉ

lệ ( phương sai σ2)

2 Định nghĩa: Biến ngẫu nhiên X có phân phối chuẩn với

các tham số m (kỳ vọng), σ2 (phương sai) nếu nó có hàm mật độ:

Trang 4

Đồ thị hàm mật độ phân phối chuẩn

Trang 5

Đồ thị hàm phân bố trong phân phối chuẩn

Trang 6

I Thống kê mô tả (Descriptive Statistics )

1 Ví dụ 1 – trang 23

2 Liên hệ xác suất thống kê và các thuật ngữ Excel sử dụng trong

thống kê mô tả

» Thống kê mô tả cho phép tính các số đặc trưng mẫu, các giá trị

thống kê mẫu như trung bình, độ lệch chuẩn, sai số chuẩn, trung

vị, mode…Số liệu tính toán được bố trí theo cột hoặc theo dòng

 Mean (trung bình hay kỳ vọng): đặc trưng cho giá trị trung bình

của DLNN

 Standard Deviation (độ lệch chuẩn), Sample Variance

(phương sai mẫu): đặc trưng cho độ phân tán các giá trị của DLNN xung quanh giá trị trung bình

 Standard Error (sai số chuẩn): Sai số của trung bình

 Median (trung vị): cho giá trị điểm giữa của dãy số, trong xác

suất là giá trị Me của đại lượng ngẫu nhiên X sao cho P(X<Me)=P(X>Me)

 Mode: là giá trị của biến ngẫu nhiên ứng với xác suất cực đại

hay giá trị có tần suất xuất hiện trong mẫu lớn nhất

Trang 7

I Thống kê mô tả (Descriptive Statistics )

2 Liên hệ xác suất thống kê và các thuật ngữ Excel sử dụng trong

thống kê mô tả (tiếp)

 Kurtosis (độ nhọn): trong xác suất, người ta chứng minh được

nếu DLNN X có phân phối chuẩn thì độ nhọn bằng 0 Ở đây,

độ nhọn đánh giá đường mật độ phân phối của dãy số liệu có nhọn hơn hay tù hơn đường mật độ chuẩn tắc (dương là nhọn hơn, âm là tù hơn) Nếu trong khoảng [-2,2] thì có thể coi số liệu xấp xỉ chuẩn

 Skewness (Độ lệch): Trong xác suất gọi là hệ số bất đối xứng

đánh giá sự phân phối các giá trị có cân đối đối với giá trị trung bình hay không, nếu các giá trị của X đối xứng qua kỳ vọng thì Skewness=0  biểu hiện ở đường phân phối lệch trái hay lệch phải (âm là lệch trái, dương là lệch phải) Nếu trong khoảng [-2,2] thì có thể coi như số liệu cân đối như trong phân phối chuẩn

 Confidence Level (Nửa độ dài khoảng tin cậy):

Trang 8

Kurtosis > 0 đường màu đỏ, Kurtosis <0 đường màu xanh

phía dưới, =0 đường màu xanh ở giữa (chuẩn)

Trang 9

Nếu Kurtosis > 0, kurtosis càng lớn đồ thị càng nhọn Nếu

kurtosis <0, kurtosis càng bé đồ thị càng tù

Trang 10

Skewness > 0 là lệch phải, <0 là lệch trái

Trang 11

II Tổ chức đồ

1 Ví dụ 2 – trang 25

2 Tần số xuất hiện của số liệu trong các khoảng cách

đều nhau cho phép phác họa biểu đồ tần số Để vẽ biểu đồ cần thực hiện qua 2 bước: bước chuẩn bị và bước vẽ tổ chức đồ

 Chuẩn bị:

» Dể số liệu ở một cột, một hàng hay một bảng chữ nhật

» Tìm giá trị lớn nhất (hàm Max), nhỏ nhất (hàm Min)

» Tính khoảng biến thiên R=Max-Min

» Chọn số khoảng k của miền phân tổ (thực tế chọn k từ 20-30, ví

dụ minh họa chọn k từ 6-10), có thể lấy bằng công thức 6*log(n) trong đó n là số giá trị của DLNN X (lấy giá trị nguyên xấp xỉ)

» Tìm giá trị bước tăng trong miền phân tổ h = R/k (Sử dụng hàm

Round(R/k,số chữ số lẻ)

» Tạo cột bin (Edit->Fill->Series, xem trang 25, 20)

Trang 12

II Tổ chức đồ

 Chuẩn bị:

 Vẽ tổ chức đồ

» Chọn Tool -> Data Analysis-> Histogram để khai báo các mục:

• Input range: Miền dữ liệu

• Input Bin: Miền phân tổ

• Labels: Nhãn ở dòng đầu nếu có

• Output range: Miền kết quả

• Pareto: Tần số sắp xếp trong tổ chức đồ là giảm dần

• Cumulative Percentage: Hiển thị đường tần suất cộng dồn %

• Chart output: Hiển thị biểu đồ

 Phân tích kết quả từ biểu đồ

» Trong khoảng nào số liệu xuất hiện nhiều nhất

» Hình dạng tổ chức đồ có giống hình dạng đường mật độ trong

phân phối chuẩn không (có tính đối xứng, nhô cao ở giữa-> dạng đường cong chuông) Nếu có thì kết luận dữ liệu có thể tuân theo luật chuẩn

Trang 14

Xem xét các đỉnh của các HCN xấp xỉ đường cong hàm mật độ trong phân phối chuẩn hay không ?

Trang 15

Xem xét trường hợp sau

Trang 16

III Tương quan và hồi quy

a Tính hệ số tương quan

- Ý nghĩa của hệ số tương quan: (xem lại)

- Excel cho phép tính hệ số tương quan đơn giữa các

biến

- Cách thực hiện: Vào Tools-> Data Analysis->

Correlation và khai báo các mục

- Input range: miền dữ liệu kể cả nhãn (nên có)

- Grouped by: số liệu nhóm theo cột hay hàng

- Labels in first row: tích vào nếu có nhãn ở dòng đầu hay cột

đầu

- Output range: miền output

- Nhấn OK để kết thúc, cho kết quả là bảng n hàng n cột

- Ví dụ 3: (Giáo trình)

Trang 17

III Tương quan và hồi quy

b Hồi quy tuyến tính

- Cho phép tìm phương trình hồi quy tuyến tính

đơn y=a*x +b và hồi quy tuyến tính bội

y=a1*x1 + a2*x2 + … + an*xn + b

- Dữ liệu input: Các biến độc lập chứa trong n

cột, biến phụ thuộc y để trong một cột, các giá trị tương ứng giữa biến độc lập và biến phụ thuộc được xếp trên cùng một hàng

- Ví dụ (giáo trình): Tìm đường hồi quy cuả

năng xuất lúa y phụ thuộc vào độ dài bông,

trọng lượng 1000 hạt, và số bông

Trang 18

18

Cách thực hiện: Data-> Analysis-> Regression

Trang 19

19

Xuất hiện hộp thoại

Miền dữ liệu của biến phụ

Hiện phần dư hay sai lệch giữa y

thực nghiêm và y theo hồi quy

Hiện đồ thị đường dự báo Hiện đồ thị phần dư

Trang 20

20

Kết quả

Trang 21

21

Phân tích kết quả

1 Nếu hệ số tương quan bội (Multiple R) xấp xỉ

>= 0.75 thì mô hình qui hoạch tuyến tính là

Adjusted R Square không sát R Square →

không phải tất cả các biến đưa vào là cần thiết

 R Square =0.7377 cho biết 73.77% sự biến động

của y do x1, x2, x3 gây nên

 Adjusted R Square = 66.62% không sát R Square

Trang 22

22

Phân tích kết quả

1 F thực nghiệm = 10.31281 với xác xuất

0.00158 nhỏ hơn xác xuất ý nghĩa 0.05 nên

phương trình hồi quy tuyến tính được chấp

ý nghĩa

Trang 23

23

6 Hồi quy phi tuyến

1 Các dạng hồi quy phi tuyến như hàm mũ,

hàm logarit, hàm đa thức, hàm căn bậc hai …

2 Có hai cách:

 Thông qua cách biến đổi đưa về dạng hồi

quy tuyến tính bội

 Vẽ đồ thị và tìm đường ngoại suy

Trang 24

24

6.1 Cách 1

1 Thông qua biến đổi ta đưa về dạng hồi

quy tuyến tính bội như hàm mũ, hàm

logarit, hàm đa thức, hàm căn bậc hai …

2 Ví dụ

Nghiên cứu về dân số, x là năm, y là dân số

Tìm đường hồi quy phi tuyến dạng đa thức bậc hai: Y = ax2 + bx + c Khi đó ta thêm cột X2 = X2

sau đó thực hiện tìm đường hồi quy bội tuyến tính với các biến độc lập X, X2 và hàm là Y

Trang 25

25

Làm tương tự như mục 5

Trang 26

26

Phân tích kết quả

1 Phân tích kết quả được phương trình:

Y = 0.397435 X2 + 8.228951 X + 12.96242

Trang 27

27

6.2 Cách 2

1 Vẽ đồ thị XY (Scatter) biểu diễn tương

quan giữa y và x, đồ thị dạng điểm, sau

đó tìm đường ngoại suy và hiện ra

phương trình hồi quy

2 Sinh viên xem lại về phần đồ thị

3 Sau khi vẽ xong đồ thị dạng XY bạn vào

Menu Chart>Add Trendline…

Trang 28

28

Ví dụ

Trang 31

31

Kết quả

Ngày đăng: 12/04/2015, 14:02

HÌNH ẢNH LIÊN QUAN

Đồ thị hàm mật độ phân phối chuẩn - BÀI GIẢNG TIN ỨNG DỤNG
th ị hàm mật độ phân phối chuẩn (Trang 4)
Đồ thị hàm phân bố trong phân phối chuẩn - BÀI GIẢNG TIN ỨNG DỤNG
th ị hàm phân bố trong phân phối chuẩn (Trang 5)
Hình ảnh về tổ chức đồ - BÀI GIẢNG TIN ỨNG DỤNG
nh ảnh về tổ chức đồ (Trang 13)
Đồ thị - BÀI GIẢNG TIN ỨNG DỤNG
th ị (Trang 30)

TỪ KHÓA LIÊN QUAN

w