Xác định tính chất chặt chẽ của các mối liên hệ giữa các yếu tốvà sử dụng các số liệu đã biết để dự báo sẽ giúp nhà quản lý rất nhiều trong việchoạch định các kế hoạch sản xuất kinh doan
Trang 3Kết luận
31
Tài liệu tham khảo
32
Trang 4quan trọng Trong đó phương pháp hồi quy tương quan đã được Francis Galton
sử dụng vào năm 1886 Trong một bài báo nổi tiếng của mình, ông đã cho rằngmột xu hướng về chiều cao của những đứa trẻ do cha mẹ cao không bình thườnghoặc thấp không bình thường sinh ra, người ta gọi xu hướng này là luật Galton
Trong bài báo của mình Galton dùng cụm từ “regression to mediocrity” qui về
trung bình Từ đó, vấn đề hồi quy được nhiều người quan tâm và hoàn thiện, cácứng dụng của phân tích hồi quy đã có nội dung rộng hơn nhiều
Phân tích hồi quy nghiên cứu mối phụ thuộc của một biến (gọi là biến phụthuộc hay biến được giải thích) với một hay nhiều biến khác (được gọi là (các)biến độc lập hay biến giải thích có giá trị đã biết) nhằm ước lượng và dự báotrung bình của biến phụ thuộc với các giá trị đã biết của (các) biến độc lập
Để giải quyết các bài toán thống kê một cách nhanh chóng, thuận lợi chonhững đối tượng quan tâm đến nó, trong phần mềm ứng dụng Microsoft OfficeExcel có sử dụng các hàm và sử dụng thêm công cụ phân tích dữ liệu DataAnalysis Data Analysis là một chức năng tính toán trong Microsoft OfficeExcel, là công cụ hữu hiệu trong việc giải các bài toán thống kê Data Analysis
là sự kết hợp của một số lượng rất nhiều các chương trình Các chương trìnhchức năng của nó bao gồm giao diện người dùng đồ họa, một số ngôn ngữ môhình đại số Data Analysis thực sự là một công cụ mạnh mẽ có thể giải quyết tốt , nhanh
Trang 5chóng các bài toán thống kê Để hiểu biết rõ hơn về phương pháp cũng như cách thứcgiải quyết một bài toán thống kê trên phần mềm Microsoft Office Excel, chúng
tôi lựa chọn đề tài luận văn Ứng dụng phần mềm Microsoft Office Excel để
giải bài toán thống kê Việc sử dụng phần mềm Microsoft Excel để giải các bài
toán thống kê đã được nhiều nhà toán học, nhà kinh tế quan tâm và nhiều tài liệu
đề cập đến
Nội dung khóa luận được trình bày thành hai chương
Chương 1: Kiến thức cơ sở
Chương 2: Giải các bài toán thống kê trên Microsoft Office Excel
Khóa luận được trình bày dựa trên những tài liệu giải các bài toán thống kê,các bài toán dự báo kinh tế và những webside về phần mềm Microsoft Exceltrên internet Tuy nhiên, do trình độ bản thân còn hạn chế nên khóa luận khôngtránh khỏi những thiếu sót hoặc chưa hiểu sâu vấn đề Bản thân tác giả rất mongđược sự góp ý, giúp đỡ của các thầy cô giáo và bạn đọc để tác giả có thể hoànthiện hơn bài khóa luận của mình
Tác giả xin chân thành cảm ơn sự giúp đỡ, hướng dẫn tận tình của các thầy
cô giáo trong tổ Xác suất thống kê và Toán ứng dụng – Khoa Toán, đặc biệt làPGS TS Trần Xuân Sinh và cô giáo Nguyễn Thị Thanh Hiền đã giúp đỡ tác giảhoàn thành khóa luận này
Vinh, tháng 05 năm 2011.
Tác giả
Trang 6
Chương 1 KIẾN THỨC CƠ SỞ1.1 Mô hình hồi quy tuyến tính
1.1.1 Định nghĩa Là mô hình hồi quy nói lên mức phụ thuộc tuyến tính của
một biến phụ thuộc với một hay nhiều biến độc lập mà phương trình của mô hình hồi quy có dạng tuyến tính đối với các hệ số.
1.1.2 Hồi quy tuyến tính bội
1.1.2.1 Mô hình
Xét đồng thời biến phụ thuộc y với nhiều biến độc lập x 1 , x 2 , …, x k Giả sử ta
có bộ số liệu có kích thước n (yi, xi1, …, xik), i = n 1 Kí hiệu X là ma trận số,
liệu của các biến x 1 , x 2 , …, x k
n
k j
k j
x x
x
x x
x
x x
21
1 1
còn y, ε , và m là véc tơ tương ứng với các biến y i,ε i, mj (i = n 1 , j = k, 0 ) ,
Phương trình hồi quy tuyến tính bội có dạng:
Các ε i là các biến ngẫu nhiên liên quan trực tiếp và gây ra sự bất định của yi
Ta yêu cầu ε i thỏa mãn 2 điều kiện:
(i) E(ε i ) = 0 ∀ i= n1 ,
(ii) E(ε iε j ) = σ2δij
, i, j = n1 ,
Trang 7và ε i được gọi là các nhiễu trắng (ký hiệu δ ii = 0 nếu i ≠ j và =1 nếu i = j) Giả
thiết (i) cho thấy ε i có dạng sai số ngẫu nhiên , còn (ii) yêu cầu chúng ta tạo dãykhông tương quan
Các giá trị quan sát của các biến có thể bố trí theo dạng cột hoặc dạng hàng
1.1.2.2 Ước lượng tham số hồi quy
Sử dụng phương pháp bình phương cực tiểu
Min Q(m 0 , m 1 , …, m k ) = Min∑
=n − − − −
x m x
m m y
1
2 1
(dấu t chỉ phép chuyển vị) Như vậy, nếu kí hiệu û là véc tơ các ước lượng của
m 0 , m 1 , m 2 , , m k. Lấy đạo hàm (2) theo véc tơ m và cho bằng 0 ta được :
+
= +
+
= +
i
i i i
i i
i
i i i
i i i
y x
m x m n m
y x x
x m x m x m
y x x
m x
x m x
m
2 2 1 1 0
1 2
1 2
2 1 1 1 0
2
2 2 2 2 1 1 2 0
với các tổng lấy theo i từ 1 đến n
Các hàm sử dụng.
+ Hàm LINEST dùng để tính các hệ số m 0 , m 1 , m 2 , , m k của phương trình hồiquy tuyến tính, cú pháp :
=LINEST(know_y’s, know_x’s, const, stats).
Trong đó know_y’s là vùng địa chỉ chứa giá trị đã biết của y, know_x’s là
vùng địa chỉ chứa giá trị đã biết của biến x, const là hằng số Ngầm định nếu
const = 1 (True) thì tính toán hệ số tự do m 0 , nếu const = 0 (False) bỏ qua m 0
(m 0 = 0) Stats là các tham số thống kê Ngầm định stats = 1(True) thì tính các
Trang 8tham số thống kê, nếu stats = 0 (False) thì bỏ qua Các tham số thống kê nếu
+ Hệ số xác định r 2 thuộc [0, 1] nếu r 2 =1 thì có quan hệ hoàn hảo trong mẫu,
nếu r 2 = 0 thì phương trình hồi quy không có tác dụng dự đoán y, sai số của giá
trị y se y
+ Hệ số F là thống kê F, dùng để xác định liệu giữa biến phụ thuộc và các
biến độc lập có quan hệ với nhau hay đó chỉ là thể hiện của tác động ngẫu nhiên
Hệ số df là bậc tự do, dùng để xác định mức tin cậy của mô hình hồi quy.
+ Các hệ số ss reg (regression sum of square) tổng bình phương giá trị hồi quy
và ss resid (residual sum of square ) tổng bình phương độ lệch.
+ Hàm TREND dùng để tính giá trị y theo hàm ước lượng (1) với các bộ giá trị cho trước ( x 1 , x 2 , , x k ), các bộ giá trị này có thể là các quan sát cũ hoặc các
dự báo mới Cú pháp hàm:
=TREND( know_y’s, know_x’s, new_x’s, const)
+ Trong đó know_y’s, know_x’s là vùng chỉ chứa giá trị tương ứng đã biết của y, x, new_x’s là giá trị mới của x Const là hằng số có giá trị logic Ngầm
định nếu const =1 (True) thì tính toán hệ số tự do m 0 , nếu const =0 (False) thì
m 0 = 0
1.1.3 Hồi quy tuyến tính đơn
Khi hai biến x và y phụ thuộc, ta quan tâm đầu tiên đến quan hệ hàm y = f(x) Nếu hàm f tùy ý, đây là quan hệ rất phức tạp Trong phần này ta giới hạn f có
dạng tuyến tính
y = mx + b, (5)
trong đó m, b là các hằng số thực cần xác định, x là biến độc lập (để đơn giản ta tất định hóa biến X và chuyển cách viết thành x), y là biến phụ thuộc và là biến
Trang 9ngẫu nhiên thể hiện của nó y i là đáp ứng đối với giá trị x i Ta vẫn có bộ mẫu cặpkích thước n là (xi, yi), i = n1 Ta thiết lập mô hình tuyến tính,
y i = mx i + b +ε i , i = n 1 , (6),với ε i là nhiễu trắng thỏa mãn 2 giả thiết ở mục 1.1.2.1.
1.1.3.1 Ước lượng tham số hồi quy
Sử dụng phương pháp bình phương cực tiểu
b x m
Y b X m
Y y X x
2
)(
))(
Bài giải Gọi X là trọng lượng cơ thể, Y là lượng huyết tương Ở đây n = 8
và các tổng lấy theo i = 81 : ,
Trang 10= 0,043615
b = 3,0025 – 0,043615.66,875 = 0,0857
Vậy sự phụ thuộc của lượng huyết tương vào trọng lượng cơ thể được mô tả bằng
y = 0,0436x + 0,0857.
Hồi quy tuyến tính đơn là trường hợp riêng của hồi quy tuyến tính bội (1) với n=1
Do đó, các hàm và lệnh đã trình bày với hồi quy tuyến tính bội cũng đúngvới hồi quy tuyến tính đơn Song hồi tuyến tính đơn có thêm các hàm
+ Hàm SLOPE ước lượng giá trị m của phương trình (2) Cú pháp:
= SLOPE( known_y’s, known_x’s)
Trong đó, known_y’s, known_x’s là vùng địa chỉ chứa giá trị tương ứng y, x + Hàm INTERCEPT ước lượng giá trị của b Cú pháp:
=INTERCEPT( known_y’s, known_x’s).
Trong đó, known_y’s, known_x’s là vùng địa chỉ chứa giá trị tương ứng y, x + Hàm FORECAST ước lượng giá trị y khi biết x Cú pháp:
=FORECAST( x, known_ y’s, known_x’s).
Trong đó: x là giá trị dùng để dự báo.
known_ y’s, known_x’s là vùng địa chỉ chứa giá trị tương ứng y, x.
1.2 Mô hình hồi quy phi tuyến
Trang 111.2.1 Định nghĩa Là các dạng mô hình hồi quy phi tuyến nói lên mức phụ
thuộc của một biến phụ thuộc với một hay nhiều biến độc lập mà phương trình của mô hình hồi quy có dạng phi tính đối với các hệ số Chẳng hạn, như hàm sản xuất CobbDouglas, hồi quy Parabol, hồi quy Hyperbol,…
Trong thực tế nếu ta gặp phải những trường hợp mà mức độ phụ thuộc giữahai biến là khá chặt nhưng chủ yếu là phi tuyến, thì khi đó việc dùng hồi quytrung bình tuyến tính để xấp xỉ sẽ khó chấp nhận được, song việc đi tìm quan hệhàm phi tuyến cho phù hợp để xấp xỉ lại là vấn đề khó khăn Trong phạm viphần này ta chỉ đề cập đến các trường hợp phụ thuộc phi tuyến nhưng có thể đưa
=LOGEST( known_y’s, known_x’s, const, stats )
Trong đó, known_y’s, known_x’s là các giá trị hoặc vùng địa chỉ chứa giá trị
đã biết của y, x tương ứng Const là hằng số Nếu const =1 (True) tính hệ số tự
do, nếu const = 0 (False) bỏ qua hệ số b Stats có giá trị logic nếu không in các thống kê hồi quy, nhập True hoặc bỏ trống thì hàm sẽ in các thống kê hồi quy giống hàm LINEST.
+ Hàm GROWTH dùng để tính các giá trị y theo (3) với các bộ giá trị (x 1 , x 2 , , x n )
cho trước làm việc hoàn toàn giống hàm TREND Cú pháp :
=GROWTH( known_y’s, known_x’s, new_x’s, const )
Trong đó, known_y’s, known_x’s, new_x’s, là các giá trị hoặc vùng địa chỉ đã biết của y, x tương ứng và giá trị mới của x.
Trang 12Const là hằng số Nếu const =1 (True) tính hệ số tự do b, nếu const = 0 (False) bỏ qua hệ số b.
Trang 13Chương 2 GIẢI CÁC BÀI TOÁN THỐNG KÊ TRÊN
MICROSOFT OFFICE EXCEL 2.1 Công cụ Data Analysis
Trình cài đặt thêm Analysis thường có trong gói phần mềm Microsoft Office
Khi cài đặt với lựa chọn Complete (đầy đủ) hoặc khi lựa chọn Custom (theo ý
người sử dụng) với lựa chọn cho Excel là Run all from my computer (cài đặt
Excel với đầy đủ các thành phần)
Để cài thêm công cụ Data Analysis, ta tiến hành các bước sau:
Bước 1: Mở một file Excel
Bước 2: Vào thực đơn Tools, chọn Add-Ins (xem hình 2.1)
Hình 2.1 Menu Tools trên thanh công cụ chọn Add-Ins.
Xuất hiện hộp thoại Add-Ins tích vào mục Analysis ToolPak và Analysis
ToolPak –VBA sau đó chọn OK (xem hình 2.2):
Trang 14
Hình 2.2 Hộp thoại Add-Ins chứa các chức năng mở rộng của Excel
Trong trường hợp Microsoft Excel chưa cài đặt công cụ Data Analysis sẽ xuất hiện thông báo, chọn Yes (xem hình 2.3).
2.2.1.1 Hàm hồi quy tuyến tính bội
Ví dụ : Lợi nhuận của doanh nghiệp (y) (đơn vị 1 triệu đồng) phụ thuộc vào
giá thành sản phẩm (x1), chi phí quản lý (x2), chi phí bán hàng (x3) được cho ởbảng sau
Trang 15Hãy tính hàm hồi quy tuyến tính bội dự báo lợi nhuận của doanh nghiệp vàước lượng giá trị lợi nhuận của doanh nghiệp khi giá thành x1 = 0,6 (triệu đồng),chi phí quản lý x2 = 35(triệu đồng), chi phí bán hàng x3 =25(triệu đồng).
Các bước thực hiện để giải bài toán :
Bước 1: Nhập dữ liệu bài toán vào bảng tính dưới dạng sau:
Hình 2.4 Tổ chức bài toán trên bảng tính.
Bước 2: Đánh dấu khối vùng từ C15: F19 để đưa kết quả ra bảng tính bằng
cách nhập công thức:
=LINEST(B5:B13,C5:E13,1,1)
Trang 16Sau đó, kết thúc bằng tổ hợp phím Ctrl + Shift + Enter.
Hàm LINEST dùng để tính hệ số của hàm hồi quy tuyến tính bội.Ta được kếtquả ở bảng sau:
Hình 2.5 Xuất kết quả
Sử dụng hàm TREND để ước lượng giá trị lợi nhuận y
Bước 3: Tính lợi nhuận y tại ô B14 bằng công thức:
=TREND(B5:B13,C5:E13,C14:E14,1)
Sau đó, kết thúc bằng tổ hợp phím Ctrl + Shift + Enter:
Trang 172.2.1.2 Hàm hồi quy tuyến tính đơn
Ví dụ Cho số liệu sau đây về năng suất (tạ/ha) của một loai cây trồng và
mức phân bón (tạ/ha) cho loại cây này tính trên một ha trong 10 năm liên tiếp.Hãy ước lượng mô hình hồi quy của năng suất phụ thuộc mức phân bón và dựbáo năng suất đạt được khi mức phân bón là 20 tạ/ ha
X 6 10 12 14 16 18 22 24 26 32
Y 40 44 46 48 52 58 60 68 74 80Các bước thực hiện giải bài toán:
Buớc 1: Nhập dữ liệu vào bảng tính ở dạng sau:
Trang 18
Hình 2.7 Tổ chức bài toán trên bảng tính.
Bước 2: Tính hệ số m của phương trình (5) tại ô B15 bằng công thức:
Trang 19
Hình 2.8 Xuất kết quả.
Bước 3: Sử dụng hàm FORECAST ước lượng giá trị Y.
Tính năng suất Y tại ô C13 bằng công thức:
=FORECAST(B13,C3:C12,B3:B12)
Sau đó, kết thúc bằng tổ hợp phím Ctrl + Shift + Enter ta được kết quả ở
bảng sau:
Trang 20Ví dụ Trong 10 tháng liên tiếp lượng hàng bán ra của một công ty rất thấp,
sau đó công ty đưa ra thị trường một sản phẩm mới và nhận thấy lượng hàng bán
ra theo hàm mũ Số đơn vị hàng bán ra Y trong 6 tháng tiếp theo X cho trongbảng sau:
Y 33100 47300 69000 10200
0
150000
220000Hãy ước lượng hàm hồi quy mũ
Trang 21Các bước thực hiện để giải bài toán:
Bước 1: Nhập dữ liệu vào bảng tính như hình 2.10.
Hình 2.10 Tổ chức bài toán trên bảng tính.
Bước 2: Đánh dấu khối vùng từ C10:D14 để đưa kết quả ra bảng tính bằng
cách nhập công thức:
=LOGEST(C3:C8,B3:B8,1,1)
Sau đó kết thúc bằng tổ hợp phím Ctrl + Shift + Enter ta được kết quả ở
bảng sau:
Trang 22
Hình 2.11 Xuất kết quả.
Vậy hàm hồi quy mũ dự báo lượng hàng bán ra trong các tháng tiếp theo là:
y = 495,3048.1,463276 x
Để dự báo hồi quy tuyến tính trong Excel ngoài việc sử dụng các hàm của
Excel ta sử dụng trình cài thêm Regression
2.2.2 Sử dụng trình cài thêm Regression để hồi quy và dự báo
Chọn Tool / Data Analysis / Regression / OK Các hộp thoại lần lượt xuất
hiện như hình sau:
Hình 2.11 Hộp thoại chứa các công cụ phân tích dữ liệu.
Trang 23
Hình 2.12 Hộp thoại Regression chứa các thông số của mô hình hồi quy.
2.2.2.1 Một số thuật ngữ trong bảng hộp thoại Regression
• Các lựa chọn nhập dữ liệu vào Input.
Input Y Range Vùng địa chỉ chứa biến phụ thuộc Y
Input X Range Vùng địa chỉ chứa các biến độc lập X
Labels Tích vào mục này để khắng định ô (các ô) đầu tiên
không chứa dữ liệu hồi quy
Constant is Zero Tích vào mục này để khẳng định hệ số tự do của
hàm hồi quy tuyến tính b=0.
Confidence Level
Độ tin cậy của hồi quy (mặc định là 95%) bằng
1-a với 1-a là mức ý nghĩ1-a h1-ay xác suất mắc s1-ai lầmloại một bác bỏ H0 trong khi H0 đúng
Trang 24• Các lựa chọn kết xuất kết quả Output Option.
Output Range Vùng hoặc ô phía trên bên trái của vùng chứa kết quả.New Worksheet Ply In kết quả ra một sheet khác
New Workbook In kết quả ra một file Excel
Residuals Sai số do ngẫu nhiên
Standardarlized Residuals Chuẩn hóa sai số
Residual plots Đồ thị sai số
Line fit plots Đồ thị hàm hồi quy tuyến tính
Normal Probability Plots Đồ thị xác suất phân phối chuẩn
Ví dụ Tính hàm hồi quy tuyến tính bội với số liệu cho trong bảng dưới :
733,300 3,089 76,200 283,500 15,844750,900 3,503 79,400 274,500 19,835747,600 3,817 77,000 268,000 21,797727,600 3,870 74,000 265,700 24,759694,400 3,706 64,400 259,600 28,093702,600 3,851 63,100 256,800 31,121714,000 4,170 66,300 259,300 32,759717,630 4,378 62,900 263,400 34,556750,000 5,000 66,700 273,100 36,788 Trong đó, Y là thu nhập quốc dân, X1 là sản lượng điện X2 là sản lượng than,
X3 là sản lượng lương thực, X4 là sản lượng thép Sử dụng lệnh Tool / Data
Anylysis.
Các bước thực hiện để giải bài toán :
Bước 1 : Nhập dữ liệu bài toán vào bảng tính dưới dạng sau :
Trang 25Hình 2.13 Tổ chức bài toán trên bảng tính.
Bước 2 : Chọn Tool / Data Analysis / Regression / OK Bảng hộp thoại Regression xuất hiện ta điền các thông tin như trong hình sau:
Hình 2.14 Khai báo các thông số của mô hình.