Nhập dữ liệu vào Excel từ nguồn bên ngoài Giả sử rằng đối với mỗi thành phố lớn nhất ở Hoa Kỳ, bạn muốn nhập dữ liệu vào Excel, tiểu bang và tên của mỗi thành phố được phân tách bằng dấ
TRỰC QUAN HÓA DỮ LIỆU
Tìm hiểu về Power Query
Power Query trong Excel, hay còn gọi là Tải & Chuyển đổi, cho phép người dùng nhập và kết nối dữ liệu từ các nguồn bên ngoài Công cụ này hỗ trợ biến đổi dữ liệu bằng cách xóa cột, thay đổi kiểu dữ liệu và kết hợp các bảng, sau đó tải truy vấn vào Excel để tạo biểu đồ và báo cáo Dữ liệu có thể được làm mới định kỳ để cập nhật thông tin mới nhất, và Power Query cho phép nhập dữ liệu từ nhiều nguồn khác nhau như cơ sở dữ liệu, dịch vụ đám mây và bảng tính Excel.
Dữ liệu đầu vào có thể được tổng hợp và chuyển đổi để tạo ra thông tin chi tiết hơn Quy trình này bao gồm ba giai đoạn chính: biến đổi, kết hợp và tải dữ liệu.
1.1.1 Nhập dữ liệu vào Excel từ nguồn bên ngoài
Để nhập dữ liệu về các thành phố lớn nhất ở Hoa Kỳ vào Excel, bạn cần tạo hai cột: một cột chứa tên thành phố và tiểu bang được phân tách bằng dấu phẩy, và cột còn lại chứa dân số của từng thành phố Do dân số các thành phố có thể thay đổi, bạn nên chọn cách làm mới dữ liệu một cách dễ dàng Bạn có thể lấy thông tin này từ trang Wikipedia, nơi cung cấp danh sách các thành phố có dân số ít nhất 100.000 người.
1 Mở sổ làm việc Excel mới
2 Trong nhóm Get & Transform Data trong thẻ Data , nhấp vào nút From Web
3 Trong hộp thoại From Web , nhập URL được liệt kê ở trên (xem hình 1-1) và nhấp vào OK
4 Trong hộp thoại Access Web Content (xem hình 1-2), giữ nguyên cài đặt mặc định và nhấp vào Connect
5 Hộp thoại Navigator mở ra liệt kê các bảng có trên trang web này ở bên trái Bấm vào tùy chọn Table 2 trong danh sách để hiển thị nội dung của bảng đó ở khung bên phải (Xem hình 1-3)
Hình 1-3: D ữ li ệ u v ề dân s ố các thành ph ố c ủ a Hoa K ỳ
6 Nhấn vào nút Transform Data ở dưới cùng bên phải hộp thoại Navigator Cửa sổ Power Query Editor mở ra, hiển thị một tập hợp con dữ liệu đã chọn
7 Nhấp vào thẻ Transform trong dải băng của cửa sổ Power Query Editor (Xem hình 1-4)
Hình 1-4: C ử a s ổ Power Query Editor v ớ i d ữ li ệ u đượ c nh ậ p và th ẻ Transform đượ c hi ể n th ị
8 Bạn chỉ cần dữ liệu từ cột 2 đến cột 4 nên cần loại bỏ các cột còn lại Đầu tiên, chọn cột 2022 Rank, nhấp chuột phải vào lựa chọn và chọn Remove Sau đó, giữ Shift và nhấp vào tất cả các cột ở bên phải cột 2022 Estimate, nhấp chuột phải vào vùng chọn và chọn Remove Columns (Lưu ý rằng vào thời điểm đọc nội dung này, tên cột có thể đã thay đổi.)
9 Chọn cột City và ST Sau đó, trong nhóm Text Column trong thẻ Transform , nhấp vào nút Merge Columns
10 Trong hộp thoại Merge Columns , mở menu Separator và chọn Comma Sau đó nhập tên mới cho cột đã hợp nhất tại đây, “City and State” vào hộp New Column Name và nhấp vào OK (Xem hình 1-5)
11 Dữ liệu của bạn sẽ giống như hình 1-6 Hãy bấm vào thẻ Home trong cửa sổ Power
Query Editor và bấm vào nút Close & Load trong nhóm Close ; hoặc bạn cũng có thể mở menu File và chọn Close & Load
Hình 1-6: D ữ li ệ u dân s ố thành ph ố đ ã đượ c chuy ể n đổ i c ủ a Hoa K ỳ
12 Dữ liệu được nhập vào Excel (Xem hình 1-7) Lưu sổ làm việc có chứa dữ liệu và đặt tên là UScities.xlsx
Hình 1-7: D ữ li ệ u đượ c nh ậ p vào Excel
Trong tương lai, hãy nhấp chuột phải vào bên trong dữ liệu của bạn rồi chọn
Sau khi nhấn nút Refresh, Excel sẽ lấy thông tin mới từ trang web làm nguồn dữ liệu, sau đó cập nhật dữ liệu trong trang tính theo định dạng mà bạn đã chọn.
1.1.2 Làm phẳng một bảng Excel
Sổ làm việc Flattentabletemp.xlsx chứa thông tin doanh số bán hàng của chín sản phẩm từ tháng 1 đến tháng 4 Để biến bảng này thành một bảng phẳng, cần sắp xếp mỗi mục thông tin trên một dòng riêng và tổ chức dữ liệu theo thứ tự chữ cái từ A đến Z theo tên sản phẩm Hơn nữa, bảng phẳng này cũng cần tự động cập nhật khi có dữ liệu mới được thêm vào bảng nguồn.
Hình 1-8: B ả ng mu ố n làm ph ẳ ng
Hãy sử dụng lệnh Unpivot Columns trên thẻ Transform để thực hiện việc này như sau:
1 Chọn dải ô dữ liệu A1:E7 và nhấn Ctrl+T để chuyển dải dữ liệu thành bảng
2 Trong thẻ Data , trong nhóm Get & Transform Data , hãy nhấn vào nút From Sheet hoặc nút From Table/Range
3 Cửa sổ Power Query Editor mở ra, hãy nhấn vào thẻ Transform
4 Chọn các cột January, February, March và April
5 Trong nhóm Any Column của thẻ Transform , hãy nhấn vào nút Unpivot Columns
6 Nhấn vào mũi tên xuống kế bên tiêu đề cột Product và chọn Sort Ascending
7 Trong thẻ Home của cửa sổ Power Query Editor , nhấn vào nút Close & Load trong nhóm Close Một cách khác, mở menu File và chọn Close & Load
8 Hãy thêm mục nhập mới vào dữ liệu nguồn của bạn về doanh số bán kẹo $125 trong tháng năm (May) Sau đó bấm chuột phải vào bảng đã làm phẳng và chọn Refresh Bạn sẽ thấy một hàng dữ liệu mới đã được thêm vào bảng phẳng (Xem hình 1-9)
Hình 1-9: B ả ng ph ẳ ng có thêm hàng d ữ li ệ u m ớ i
1.1.3 Tạo một bảng Excel từ một tập tin phẳng
Giả sử bạn có dữ liệu trong một tệp phẳng và muốn sử dụng nó để tạo bảng, chẳng hạn như chuyển đổi dữ liệu từ các giao dịch bán hàng có trong sổ làm việc.
CreateTabletemp.xlsx thành một bảng mới (Xem hình 1-10)
Hình 1-10: T ậ p tin ph ẳ ng Để tạo một bảng Excel từ một tệp phẳng, hãy làm như sau:
1 Chọn dải dữ liệu A1:C26 và nhấn Ctrl+T để chuyển dải dữ liệu thành bảng
2 Trong thẻ Data , trong nhóm Get & Transform Data , nhấn vào nút From Sheet hoặc
3 Cửa sổ Power Query Editor mở ra, hãy nhấn vảo thẻ Transform
4 Chọn các cột Attribute và Value
5 Trong nhóm Any Column của thẻ Transform , nhấn vào nút Pivot Column
6 Hộp thoại Pivot Column mở ra, hãy để nguyên các cài đặt mặc định và nhấp vào OK
7 Hãy nhấn vào thẻ Home trong cửa sổ Power Query Editor
8 Hãy chọn cột Values, rồi nhấn nút A-Z trong nhóm Sort của thẻ Home
9 Trong thẻ Home của cửa sổ Power Query Editor , hãy nhấn vào nút Close & Load trong nhóm Close Hoặc cách khác, mở menu File và chọn Close & Load Lưu tập tín với tên Createtable.xlsx
10 Hãy thêm mục nhập mới vào dữ liệu nguồn của bạn về doanh số bán nước ngọt 25 đơn vị trong tháng 1 (January) Sau đó nhấp chuột phải vào bảng và chọn Refresh , bảng của bạn hiện chứa giao dịch mới (Xem hình 1-11)
1.1.4 Hiệu chỉnh dữ liệu nhập vào Excel đúng với định dạng cần thiết
Mỗi hàng của sổ tính Salesfixtemp.xlsx (Xem hình 1-12) chứa các thông tin sau về doanh số bán hàng tại cửa hàng phần cứng:
- Mã sản phẩm và sản phẩm được bán (Product and Code)
- Người bán hàng và ngày giao dịch (Salesperson and Date)
- Doanh thu của giao dịch (Revenue)
Hình 1-12: D ữ li ệ u c ử a hàng ph ầ n c ứ ng
Để tổ chức dữ liệu hiệu quả, bạn có thể đặt mã sản phẩm, sản phẩm, nhân viên bán hàng và ngày bán vào các cột riêng biệt Tiếp theo, hãy sắp xếp các giao dịch theo thứ tự nhân viên bán hàng và sau đó theo sản phẩm từ A đến Z Khi có dữ liệu mới được thêm vào, bạn chỉ cần làm mới để cập nhật kết quả truy vấn, và kết quả cuối cùng sẽ được hiển thị như hình 1-13.
Hình 1-13: K ế t qu ả truy v ấ n c ử a hàng ph ầ n c ứ ng Để hiệu chỉnh dữ liệu nhập vào Excel đúng với định dạng cần thiết, hãy làm như sau:
1 Chọn dữ liệu trong trang tính và nhấn Ctrl+T để chuyển đổi nó thành bảng
2 Trong thẻ Data , trong nhóm Get & Transform Data , hãy bấm vào nút From Sheet hoặc From Table/Range (tùy thuộc vào phiên bản Office 365 đang sử dụng) để nhập dữ liệu vào cửa sổ Power Query Editor
3 Cửa sổ Power Query Editor mở ra, hãy chọn cột Product and Code
4 Trong nhóm Transform của thẻ Home , hãy nhấn vào nút Split Column và chọn By
Number of Characters từ trình đơn xuất hiện
5 Hộp thoại Split Column by Number of Characters mở ra, hãy nhập 3 vào ô Number of Characters, hãy chọn nút tuỳ chọn Once, as far left as possible, và nhấn OK
Tìm hiểu về Power Pivot
Power Pivot là một công cụ mạnh mẽ trong Excel, cho phép người dùng lưu trữ và truy vấn khối lượng lớn dữ liệu lên đến hàng trăm triệu hàng Công cụ này hỗ trợ việc kết hợp dữ liệu từ nhiều nguồn khác nhau, bao gồm cơ sở dữ liệu Microsoft Access, tệp văn bản, tệp Excel và dữ liệu từ các trang web.
Power Pivot cho phép người dùng dễ dàng tạo PivotTable và PivotChart từ dữ liệu lớn, đồng thời hỗ trợ việc tạo các cột tính toán để phân tích dữ liệu, chẳng hạn như tính lợi nhuận Công cụ này sử dụng hàm DAX (Biểu thức Phân tích Dữ liệu) để giúp tổng hợp dữ liệu từ nhiều hàng khác nhau một cách hiệu quả.
Power Pivot cho phép người dùng tạo các thước đo và chỉ số hiệu suất chính (KPI) để theo dõi hiệu suất so với mục tiêu Báo cáo Power Pivot có thể được xuất bản trên Microsoft SharePoint, giúp tự động làm mới dữ liệu và chia sẻ thông tin, đồng thời hỗ trợ giám sát CNTT Ngoài ra, Power Pivot cũng có thể được sử dụng làm nguồn dữ liệu cho các trải nghiệm phân tích và báo cáo khác Để cài đặt Power Pivot, bạn cần thực hiện theo các bước hướng dẫn cụ thể.
1 Nhấn vào thẻ File và chọn Options
2 Trong hộp thoại Excel Options, nhấn vào Add-Ins trong danh sách bên trái
3 Chọn COM Add-Ins từ danh sách Manage ở dưới cùng của khung bên phải và nhấn
4 Tích vào hộp kiểm Microsoft Power Pivot for Excel trong hộp thoại COM Add-Ins
5 Nhấn OK trong hộp thoại COM Add-Ins và sau đó nhấn OK trong hộp thoại Excel
Options Bạn sẽ thấy thẻ Power Pivot trên ribbon (Hình 1-18)
Hình 1-18: Các tu ỳ ch ọ n The Power Pivot th ẻ Power Pivot trên thanh ribbon
1.2.1 Nhập dữ liệu vào Power Pivot
Nhập dữ liệu từ hai nguồn khác nhau vào Power Pivot: Storesale.txt chứa thông tin giao dịch bán hàng từ 20 cửa hàng, bao gồm số cửa hàng, sản phẩm, ngày bán, số lượng và doanh thu; city.xlsx cung cấp danh sách thành phố tương ứng với mỗi cửa hàng Hình 1-19 minh họa một tập hợp con dữ liệu bán hàng cùng với vị trí của từng cửa hàng.
Hình 1-19: D ữ li ệ u bán hàng đượ c nh ậ p vào Power Pivot và v ị trí c ủ a t ừ ng c ử a hàng
Để tạo một PivotTable giúp phân tích hiệu quả bán hàng của từng sản phẩm ở mỗi tiểu bang, bạn cần thực hiện các bước sau:
1 Mở một sổ làm việc trống
2 Trong nhóm Data Model trên thẻ Power Pivot , hãy nhấp vào nút Manage Cửa sổ Power Pivot cho Excel sẽ mở ra (Xem hình 1-20)
3 Trong thẻ Home của cửa sổ Power Pivot , hãy bấm vào Get External Data và chọn
Tính năng này cho phép người dùng nhập dữ liệu từ nhiều nguồn khác nhau, bao gồm các cơ sở dữ liệu quan hệ, nguồn đa chiều, nguồn cấp dữ liệu, cũng như các tập tin Excel và văn bản.
Hình 1-21: Trình đơ n Get External Data cung c ấ p quy ề n truy c ậ p vào m ộ t s ố ngu ồ n d ữ li ệ u
To import data from SQL Server, Access, Analysis Services, or PowerPivot, select "From Database" in the Get External Data menu and choose your desired option The Get External Data menu allows you to import data from data services or existing connections.
4 Trong màn hình đầu tiên của hộp thoại Table Import Wizard , chọn Text File và nhấn
5 Trong màn hình 2 của trình hướng dẫn (xem hình 1-22), nhấp vào nút Browse bên cạnh trường File Path
Hình 1-22: Thi ế t l ậ p nh ậ p t ậ p tin v ă n b ả n cho Power Pivot
6 Trong hộp thoại Open , tìm và chọn tệp Storesale.txt rồi nhấp vào Open
7 Các trường dữ liệu trong file văn bản không được phân tách bằng dấu cách hoặc ký tự như dấu phẩy hoặc dấu chấm phẩy, vì vậy hãy mở trình đơn thả xuống Column Separator và chọn Tab (t)
8 Hàng dữ liệu đầu tiên chứa tiêu đề cột, vì vậy hãy chọn hộp kiểm Use First Row as
9 Nhấp vào Finish Sau đó bấm Close Excel nhập dữ liệu tệp văn bản vào Power Pivot (Xem hình 1-23)
Hình 1-23: M ộ t t ậ p con d ữ li ệ u đượ c nh ậ p t ừ t ệ p Storesale.txt
Bây giờ, hãy nhập tập tin States.xlsx vào Power Pivot để biết thành phố của từng cửa hàng
10 Trong cửa sổ Power Pivot , hãy nhấn vào Get External Data và chọn From Other
11 Trình hướng dẫn Table Import Wizard sẽ bắt đầu lại Trong màn hình 1, hãy chọn
Excel File và nhấn Next
12 Trong màn hình 2 của trình hướng dẫn, nhấp vào nút Browse , định vị và chọn tập tin city.xlsx trong hộp thoại Open và nhấp vào Open
13 Chọn hộp kiểm Use First Row as Column Headers và nhấp vào Next
14 Chọn Sheet1 và nhấn vào Finish để nhập dữ liệu city.xlsx vào Power Pivot (Xem hình 1-24)
Lưu ý: Cuối màn hình, bạn có thể đổi tên thẻ Sheet1 thành City bằng cách nhấp chuột phải vào Sheet1, chọn Rename và nhập tên mới là City.
Để phân tích doanh số bán hàng tại các thành phố khác nhau trong Power Pivot, cần thiết lập mối quan hệ giữa danh sách vị trí cửa hàng trong tệp city.xlsx và các cửa hàng được liệt kê trong tệp văn bản Điều này có thể thực hiện bằng cách truy cập thẻ Design trong cửa sổ Power Pivot và nhấn nút tương ứng để tạo kết nối giữa hai nguồn dữ liệu.
Create Relationship trong nhóm Relationships
15 Trong nhóm View của thẻ Home trong cửa sổ Power Pivot, hãy nhấn vào nút Diagram View
16 Trong chế độ xem Diagram , nhấp và kéo để vẽ một đường thẳng giữa hộp City và hộp Storesale để xác định mối quan hệ cần thiết (Xem hình 1-25)
Hình 1-25: S ơ đồ m ố i quan h ệ , cho phép liên k ế t các c ử a hàng gi ữ a các ngu ồ n d ữ li ệ u
Lưu ý: Có thể quản lý (chỉnh sửa hoặc xóa) mối quan hệ từ thẻ Design trong cửa sổ
17 Hãy nhấn vào nút Data View trong nhóm View trong thẻ Home của cửa sổ Power
Pivot để quay lại chế độ xem Data
1.2.2 Sử dụng Power Pivot để tạo một PivotTable Để sử dụng Power Pivot tóm tắt dữ liệu bán hàng này qua PivotTable, hãy thực hiện theo các bước sau:
1 Với cửa sổ Power Pivot trong chế độ xem Data , hãy nhấp vào nút PivotTable trên thẻ
2 Trong hộp thoại Create PivotTable , hãy chọn nút tùy chọn New Worksheet và nhấp vào OK
3 Trong ngăn PivotTable Fields , hãy nhấp vào tùy chọn All (xem hình 1-26) (Có thể cần phải bấm chuột phải vào PivotTable và chọn Show Field List để hiển thị ngăn này.)
4 Bấm vào hình tam giác bên cạnh các mục nhập City và Storesale trong ngăn PivotTable Fields để xem các cột trong từng nguồn dữ liệu
5 Kéo trường Revenue vào hộp Values , trường City vào hộp Rows và trường Product vào hộp Columns (Xem hình 1-27) Lưu ý rằng các trường được sử dụng trong PivotTable được chọn trong danh sách trường
Hình 1-27: Gán các tr ườ ng để t ạ o báo cáo PivotTable
6 Trong kết quả PivotTable, hãy bấm chuột phải vào cột Sum Of Revenue, chọn Value
Field Settings và bấm vào Number Format
7 Trong hộp thoại Format Cells , chọn Currency trong danh sách Categories
8 Bấm OK để đóng hộp thoại Format Cells và bấm OK lần nữa để đóng hộp thoại Value
Hình 1-28 trình bày một PivotTable cho thấy doanh thu từng sản phẩm được phân chia theo thành phố và được định dạng dưới dạng tiền tệ Cụ thể, sản phẩm thực phẩm (Food) tại Vũng Tàu đã đạt tổng doanh thu là $2.832,00.
Hình 1-28: PivotTable chia nh ỏ doanh s ố bán s ả n ph ẩ m theo thành ph ố
1.2.3 Sử dụng PivotTable và bộ phân tách (Slicer) để mô tả dữ liệu
Bạn có thể tạo bộ cắt để tóm tắt dữ liệu cho bất kỳ tập hợp con sản phẩm và cửa hàng nào, hãy làm theo các bước sau:
1 Bấm vào bất kỳ đâu trong PivotTable của bạn
2 Trong nhóm Filter trên thẻ PivotTable Analyze , hãy nhấp vào nút Insert Slicer
3 Trong hộp thoại Insert Slicers , chọn hộp kiểm Store (bên dưới City) và hộp kiểm Product (bên dưới Storesale) Sau đó nhấn OK
4 Hình 1-29 và tập tin Pivotwithslicers.xlsx hiển thị kết quả các bộ phân tách
PivotTable dưới đây thể hiện tổng doanh thu và số lượng sách và thực phẩm đã bán tại các cửa hàng 6, 12 và 15, nằm ở các thành phố Bình Dương, Phan Rang và Quy Nhơn Đây là những địa điểm duy nhất được hiển thị trong PivotTable Lưu ý rằng bạn có thể sử dụng tổ hợp phím Shift và Ctrl để chọn nhiều mục cụ thể trong bộ phân tách.
Hình 1-29: Các b ộ phân tách Product và Store
1.2.4 Hàm DAX và các cột được tính toán
Bạn có thể tạo công thức mới trong PivotTable bằng cách sử dụng các mục hoặc trường được tính toán Sau khi nhập dữ liệu vào Power Pivot, ngôn ngữ DAX (Biểu thức phân tích dữ liệu) cho phép bạn tạo các cột tính toán mới, giúp PivotTable trở nên ý nghĩa hơn Ví dụ, bạn có thể đặt năm, tháng và ngày cho mỗi giao dịch bán hàng trong các cột riêng biệt bằng cách thực hiện các bước hướng dẫn.
1 Chuyển sang bảng Storesale trong cửa sổ Power Pivot (Giống như một thẻ trang tính, thẻ dành cho bảng này nằm ở phần dưới bên trái của cửa sổ.)
2 Chọn cột trống đầu tiên
Trực quan hóa dữ liệu bằng bảng điều khiển
Trong thời đại hiện nay, dữ liệu trở thành một tài nguyên quý giá, và việc trực quan hóa thông qua dashboard là công cụ thiết yếu để quản lý và phân tích khối lượng lớn thông tin Dashboard, hay bảng điều khiển, cung cấp giao diện đồ họa giúp người dùng dễ dàng theo dõi các chỉ số và thông tin quan trọng thông qua biểu đồ, bảng biểu và các phương tiện trực quan khác, từ đó nâng cao hiệu suất làm việc.
Trực quan hóa dữ liệu là quá trình chuyển đổi thông tin từ dạng số liệu thô thành đồ họa, giúp nhận diện xu hướng, mô hình và ngoại lệ dễ dàng hơn Sinh viên ngành kinh tế - quản lý cần nắm vững cách sử dụng dashboard để trực quan hóa dữ liệu, điều này không chỉ nâng cao hiểu biết về dữ liệu mà còn tăng cường kỹ năng và hỗ trợ ra quyết định dựa trên thông tin vững chắc.
Hiện nay, có nhiều công cụ xây dựng dashboard với những tính năng nổi bật riêng, trong đó Excel của Microsoft là một lựa chọn mạnh mẽ và linh hoạt cho việc tạo bảng điều khiển dữ liệu Excel cho phép người dùng phân tích và trực quan hóa dữ liệu chi tiết, đáp ứng nhu cầu đa dạng Trước khi bắt đầu xây dựng bảng điều khiển, việc nắm vững các khái niệm cơ bản và nguyên tắc thiết kế là rất quan trọng Để thực hiện điều này, người dùng cần có kiến thức và kỹ năng sử dụng các hàm tìm kiếm, logic, thống kê, biểu đồ (Charts) và Sparklines.
Mục đích của việc tìm kiếm và trích xuất thông tin từ dữ liệu hiện có là nhằm tự động hóa quá trình truy vấn và rút trích dữ liệu dựa trên tiêu chí cụ thể Điều này không chỉ giúp người dùng tiết kiệm thời gian mà còn giảm thiểu nguy cơ sai sót do nhập liệu thủ công.
• Đối tượng áp dụng: Dữ liệu định tính và dữ liệu định lượng
• Công cụ: Bao gồm các hàm Vlookup, Hlookup, Match và Index
Cú pháp của VLOOKUP: VLOOKUP(lookup_value, table_array, col_index_num, [range_lookup])
Giá trị tìm kiếm (lookup_value) là giá trị mà người dùng muốn tra cứu, có thể là một giá trị cụ thể như "1234" hoặc là tham chiếu đến một ô chứa giá trị cần tìm.
• table_array: Phạm vi ô chứa dữ liệu người dùng muốn truy xuất VLOOKUP sẽ tìm kiếm lookup_value trong cột đầu tiên của table_array
Số thứ tự của cột trong table_array, được gọi là col_index_num, xác định cột mà người dùng muốn lấy giá trị tương ứng với lookup_value Đếm bắt đầu từ 1 cho cột đầu tiên trong bảng.
Khi sử dụng hàm VLOOKUP trong Excel, tham số [range_lookup] có thể được đặt là TRUE (hoặc 1) hoặc FALSE (hoặc 0) Nếu để TRUE hoặc bỏ trống, Excel sẽ mặc định là TRUE, và phạm vi tra cứu cần sắp xếp theo thứ tự tăng dần Trong trường hợp này, VLOOKUP sẽ trả về giá trị gần nhất phù hợp với lookup_value trong danh sách đã được sắp xếp Ngược lại, nếu đặt là FALSE, hàm sẽ chỉ trả về kết quả chính xác.
• Giá trị lookup_value phải nằm trong cột đầu tiên của table_array
• Cột chứa dữ liệu muốn trích xuất (col_index_num) phải nằm ở bên phải của cột chứa giá trị lookup_value
Ví d ụ : Làm thế nào để hiển thị mức xếp loại của sinh viên tại ô
VLOOKUP tại ô E2, sau đó sao chép sang các ô còn lại đến E11
Cú pháp hàm HLOOKUP: HLOOKUP(lookup_value, table_array, row_index_num, [range_lookup])
• lookup_value: Giá trị người dùng muốn tìm kiếm trong hàng đầu tiên của table_array
• table_array: Phạm vi ô chứa dữ liệu người dùng muốn truy xuất HLOOKUP sẽ tìm kiếm lookup_value trong hàng đầu tiên của table_array
Số thứ tự hàng trong table_array, được gọi là row_index_num, xác định hàng mà người dùng muốn lấy giá trị tương ứng với lookup_value Việc đếm bắt đầu từ 1 cho hàng đầu tiên.
Khi sử dụng hàm HLOOKUP trong Excel, tham số [range_lookup] có thể được đặt là TRUE, 1 hoặc để trống, trong đó Excel mặc định là TRUE Điều này yêu cầu phạm vi tra cứu phải được sắp xếp theo thứ tự tăng dần, giúp HLOOKUP tìm kiếm giá trị gần nhất phù hợp với lookup_value Ngược lại, nếu tham số này được đặt là FALSE, HLOOKUP sẽ chỉ trả về kết quả chính xác.
• Giá trị lookup_value phải nằm trong hàng đầu tiên của table_array
• Dòng chưa dữ liệu muốn trích xuất (row_index_num) phải nằm ở bên dưới của hàng chứa giá trị lookup_value
Ví d ụ : Làm thế nào để hiển thị mức xếp loại của sinh viên tại ô E2?
Nhập công thức HLOOKUP tại ô
E2, sau đó sao chép sang các ô còn lại đến
Cú pháp hàm INDEX: INDEX(array, row_num, [column_num])
• array: Phạm vi ô hoặc mảng muốn trả về giá trị
Số thứ tự hàng trong mảng mà người dùng muốn truy xuất giá trị được gọi là row_num Nếu row_num được chỉ định là 0, hàm INDEX sẽ trả về một mảng các giá trị của cột tương ứng.
Số thứ tự của cột trong mảng mà người dùng muốn truy xuất giá trị được gọi là [column_num] Đây là một tùy chọn; nếu không chỉ định, hàm INDEX sẽ trả về một mảng chứa tất cả giá trị của hàng đó Khi sử dụng hàm INDEX, người dùng cần lưu ý một số điểm quan trọng.
• INDEX chỉ trả về giá trị ở vị trí mà người dùng chỉ định
• Nếu [row_num] hoặc [column_num] là 0, hàm INDEX sẽ trả về một mảng của giá trị cho cột hoặc hàng tương ứng
Để hiển thị thông tin của sinh viên có số thứ tự bất kỳ tại ô B14 ở hàng 17 trong Excel 365, bạn chỉ cần nhập công thức INDEX vào ô A17 Excel sẽ tự động trả về một mảng giá trị tương ứng với hàng trong ô B14.
1.3.1.2 S ử d ụ ng hàm th ố ng kê a Thống kê tần số
Mục đích của việc mô tả sự xuất hiện của từng giá trị trong dữ liệu là hỗ trợ phân tích thông tin bằng cách cung cấp cái nhìn rõ ràng về phân bố và tần suất của các giá trị trong một tập dữ liệu Điều này giúp người phân tích hiểu rõ hơn về đặc điểm và xu hướng của dữ liệu, từ đó đưa ra những quyết định chính xác hơn.
• Đối tượng áp dụng: Dữ liệu định tính và dữ liệu định lượng (có số giá trị phân biệt dưới 10)
• Các tiêu chí thống kê: Tần số, tần suất
– Sử dụng hàm Countif (,)
– Sử dụng hàm Frequency (,)
– Sử dụng chức năng Data Analysis > Histogram *
Cú pháp hàm COUNTIF: COUNTIF(range, criteria)
• range: Phạm vi các ô muốn kiểm tra Phạm vi này có thể là một cột, một hàng, hoặc một khu vực cụ thể trong bảng tính
Tiêu chí là yếu tố quan trọng để đánh giá các ô trong một phạm vi cụ thể Nó có thể được biểu thị dưới dạng số, chuỗi văn bản, biểu thức hoặc hàm logic, giúp xác định các giá trị cần thiết cho việc phân tích và xử lý dữ liệu hiệu quả.
Để đếm số lần xuất hiện của từng giá trị điểm từ 1 đến 10 trong danh sách Điểm môn 1, bạn cần sử dụng công thức phù hợp trong các ô tương ứng Hãy tham khảo hình 1-47 để biết cách thực hiện.
Cú pháp hàm COUNTIFS: COUNTIFS (criteria_range1, criteria1, [criteria_range2, criteria2], )
• criteria_range1: Phạm vi ô đầu tiên mà bạn muốn áp dụng tiêu chí đầu tiên
• criteria1: Tiêu chí để đánh giá mỗi ô trong criteria_range1
• criteria_range2, criteria2, : Các phạm vi tiếp theo và tiêu chí tương ứng
Ví d ụ : Đếm số lần xuất hiện của từng sinh viên theo từng loại giới tính (nam, nữ) và từng lớp (D01, D02) (Xem hình 1-48)
Cú pháp hàm Frequency: FREQUENCY(data_array, bins_array)
• data_array: Mảng hoặc phạm vi dữ liệu cần phân tích tần suất
• bins_array: Mảng hoặc phạm vi ô chứa các giá trị biên
Ví d ụ : Đếm số lần xuất hiện của từng giá trị điểm (từ điểm 1 đến điểm 10) trong danh sách Điểm môn 1 (Xem hình 1-49)
Bước 2: Nhập công thức mảng
Bước 3: Nhấn giữ Ctrl+Shift+Enter
(1) Trước hết, cần kích hoạt Data Analysis ToolPak trong Excel bằng cách:
- Đi tới File > Options > Add-Ins, chọn "Excel Add-ins" trong danh sách "Manage" và nhấn "Go "
- Trong hộp thoại "Add-Ins", chọn "Analysis ToolPak" và nhấn "OK"
(2) Trong thanh menu của Excel, chọn tab “Data” > Data Analysis Nếu đã kích hoạt Analysis ToolPak sẽ thấy tùy chọn "Data Analysis" ở phần cuối của tab "Data"
(3) Trong hộp thoại “Data Analysis”, chọn “Histogram” và nhấn “OK”
Bài tập trắc nghiệm ôn tập chương
Câu 1: Power Query trong Excel được biết đến với tên gọi nào khác?
Câu 2: Power Query hỗ trợ việc làm mới dữ liệu định kỳ để làm gì?
A) Tăng hiệu suất làm việc
B) Tự động tạo báo cáo
C) Cập nhật thông tin mới nhất
Câu 3: Nguồn dữ liệu có thể được nhập vào Power Query từ đâu?
A) Chỉ từ bảng tính Excel
B) Chỉ từ cơ sở dữ liệu
C) Từ nhiều nguồn khác nhau như cơ sở dữ liệu, dịch vụ đám mây và bảng tính
D) Từ các tệp văn bản
Câu 4: Trong bước đầu tiên để nhập dữ liệu từ web, người dùng cần làm gì?
B) Mở sổ làm việc Excel mới
C) Chọn trang tính hiện có
Câu 5: Sau khi dữ liệu được tải vào
Power Query Editor, người dùng cần làm gì để loại bỏ các cột không cần thiết?
A) Chọn cột và nhấn Delete
B) Chọn cột và nhấn Remove Columns
C) Chọn cột và nhấn Hide
D) Chọn cột và nhấn Clear
Câu 6: Để hợp nhất các cột trong Power
Query, bạn cần chọn lựa chọn nào sau đây?
A) Combine Columns B) Merge Columns C) Consolidate Columns D) Join Columns
Câu 7: Lệnh nào được sử dụng để làm phẳng một bảng Excel?
A) Unpivot Columns B) Flatten Table C) Convert Table D) Transpose Columns
Câu 8: Khi làm việc với bảng dữ liệu từ tệp phẳng, nút nào cần được nhấn để chuyển đổi dữ liệu thành bảng? A) From File
B) From Sheet C) From Table/Range D) From Web
Câu 9: Để tạo một bảng Excel từ một tập tin phẳng, bạn cần nhấn vào nút nào để tạo bảng mới?
A) From Web B) Pivot Column C) Create Table D) Convert Range
Câu 10: Sau khi tạo bảng từ tập tin phẳng, bước cuối cùng để lưu tệp là gì?
A) Nhấn vào nút Save B) Nhấn vào nút Close & Load C) Nhấn vào nút Transform D) Nhấn vào nút Finish
Câu 11: Khi kết hợp các tệp từ một thư mục, lựa chọn nào được chọn để kết hợp dữ liệu mà không cần chuyển đổi?
Câu 12: Sau khi kết hợp dữ liệu từ nhiều trang tính vào một, làm thế nào để đảm bảo dữ liệu mới được cập nhật tự động?
A) Chạy lại truy vấn mỗi khi dữ liệu thay đổi
Câu 13: Lệnh nào được sử dụng để chia cột trong Power Query Editor?
Câu 14: Trong Power Query, công cụ nào cho phép người dùng lọc dữ liệu dựa trên các điều kiện nhất định?
Câu 15: Khi kết hợp dữ liệu từ nhiều nguồn khác nhau, tùy chọn nào trong Power Query cho phép bạn loại bỏ các giá trị trùng lặp?
Câu 16: Power Pivot cho phép kết hợp dữ liệu từ các nguồn nào?
B Chỉ cơ sở dữ liệu Access
C Nhiều nguồn dữ liệu khác nhau
D Chỉ dữ liệu từ trang web
Câu 17: Hàm nào không phải là hàm DAX?
Câu 18: Để cài đặt Power Pivot, bạn cần làm gì đầu tiên?
B Nhấn vào thẻ File và chọn Options
C Nhấn vào thẻ Data và chọn Get External Data
D Nhấn vào thẻ Insert và chọn PivotTable
Câu 19: Để nhập dữ liệu từ tệp Excel vào Power Pivot, bạn chọn tùy chọn nào trong trình đơn Get External Data?
Câu 20: Để tạo một mối quan hệ giữa hai nguồn dữ liệu trong Power Pivot, bạn bấm vào thẻ nào?
Câu 21: Khi sử dụng Power Pivot, để tạo một bộ phân tách, bạn cần nhấp vào nút nào?
Câu 22: Trong Power Pivot, để chuyển đổi dữ liệu thành dạng bảng, bạn phải làm gì đầu tiên?
C Thêm dữ liệu vào Data Model
D Nhấp vào Add to Data Model
Câu 23: Hàm nào được sử dụng để tạo các thước đo được tính toán trong Power Pivot?
Câu 24: Khi tạo PivotTable từ dữ liệu trong Power Pivot, để thấy danh sách các trường cột, bạn cần bấm vào nút nào trong ngăn PivotTable Fields?
Câu 25: Để định dạng doanh thu trong PivotTable dưới dạng tiền tệ, bạn phải bấm vào nút nào?
Câu 26: Khi nhập dữ liệu từ tệp văn bản vào Power Pivot, bạn nên chọn ô nào để dữ liệu có tiêu đề cột?
A Use First Row as Column Headers
B Use Second Row as Column Headers
Câu 27: Để hiển thị sơ đồ mối quan hệ trong Power Pivot, bạn nên bấm vào nút nào?
Câu 28: Khi muốn nhập dữ liệu từ một tệp văn bản vào Power Pivot, bạn cần chọn loại tệp nào trong hộp thoại
Câu 29: Để áp dụng định dạng tiền tệ cho dữ liệu trong PivotTable, bạn cần thực hiện bước nào trong hộp thoại Format Cells?
A Chọn Number trong danh sách
Categories và sau đó chọn Currency
B Chọn Text trong danh sách
Categories và sau đó chọn Currency
C Chọn Date trong danh sách
Categories và sau đó chọn Currency
D Chọn Percentage trong danh sách
Categories và sau đó chọn Currency
Câu 30: Để tạo mối quan hệ giữa hai bảng dữ liệu trong Power Pivot, bạn cần làm gì trong chế độ Diagram
A Kéo và thả một trường từ bảng này vào trường tương ứng trong bảng khác
B Nhấp vào nút Create Relationship trong nhóm Relationships
C Chọn hai bảng và nhấp vào nút Add
D Chọn hai bảng và nhấp vào nút Merge
Câu 31: Hàm INDEX có tham số nào không phải là của nó?
Câu 32: Hàm FREQUENCY phân tích tần suất của dữ liệu qua các gì?
Câu 33: Để sử dụng công cụ Histogram trong Excel, bạn cần kích hoạt gì?
Câu 34: Biểu đồ Histogram chủ yếu được dùng để làm gì?
A Hiển thị sự phân phối của dữ liệu số
B So sánh hai bộ dữ liệu
C Tạo bảng điều khiển dữ liệu
D Xác định xu hướng thời gian
Câu 35: Biểu đồ Box plot dùng để hiển thị thông tin gì?
A Phân phối dữ liệu qua năm số liệu tổng kết
B Tần suất của các giá trị
C Xu hướng theo thời gian
D Phân tích dữ liệu theo nhóm
Câu 36: Công cụ nào giúp trực quan hóa sự thay đổi của dữ liệu qua một chuỗi sự kiện?
Câu 37: Hàm nào được sử dụng để tính phương sai mẫu của dữ liệu?
Câu 38: Hàm nào sử dụng để tính tần số của các giá trị trong một dãy số?
A) Một hệ thống máy tính
B) Một loại giao diện đồ họa cung cấp cái nhìn tổng quan về các chỉ số hiệu suất chính
C) Một phần mềm phân tích dữ liệu
D) Một thiết bị thu thập dữ liệu
Câu 40: Để tạo ra một bảng điều khiển, bạn cần phải làm gì đầu tiên?
A) Thu thập dữ liệu gốc
B) Thiết lập bố cục mô phỏng
C) Xác định các chỉ số đo lường
D) Xác định mục đích và đối tượng của bảng điều khiển
Câu 41: Phác thảo cấu trúc bảng điều khiển giúp:
A) Xác định nhóm dữ liệu và bộ lọc
B) Thu thập dữ liệu từ các nguồn khác nhau
C) Tính toán các chỉ số đo lường
Câu 42: Bảng điều khiển có thể được cập nhật thông qua:
A) API B) Tính toán các chỉ số đo lường C) Xác định cấu trúc dữ liệu D) Tạo các biểu đồ
Câu 43: Một tính năng quan trọng của bảng điều khiển là:
A) Xác định đối tượng người dùng B) Phân loại dữ liệu thành các danh mục C) Xác định nguồn dữ liệu
D) Tạo các công cụ trực quan
Câu 44: Biểu đồ nào phù hợp để hiển thị phân phối dữ liệu?
A) Pie Chart B) Line Chart C) Histogram D) Bar Chart
Câu 45: Điều nào sau đây không phải là loại Form Control?
Câu 46: Khi tạo một Combo Box, bạn nên liên kết nó với ô nào để xác định lựa chọn của người dùng?
ỨNG DỤNG EXCEL GIẢI CÁC BÀI TOÁN KINH TẾ
Bài toán tiền gửi và tiền vay trả góp
Trong tài chính, nguyên tắc quan trọng là tiền cần được vận động và đầu tư để sinh lời Người có tiền có thể đầu tư vào các dự án hoặc gửi ngân hàng để bảo toàn giá trị và nhận thêm lợi nhuận Ngược lại, người đi vay không chỉ phải trả gốc mà còn phải trả lãi cho số tiền vay Bài viết dưới đây sẽ trình bày các phương pháp và kỹ thuật sử dụng phần mềm MS Excel để tính toán các khoản tiền này.
2.1.1.1 Lãi đơ n và lãi kép
Trường hợp khách gửi một khoản tiền vào ngân hàng với thời hạn n kỳ, ngân hàng có thể tính lãi cho khách theo các phương thức:
– Tính lãi đơn: Lãi kỳ trước không được nhập gốc để tính lãi cho kỳ sau:
– Tính lãi kép: Lãi kỳ trước được nhập gốc sau mỗi kỳ để tính lãi cho kỳ sau;
– Tính lãi kết hợp: Lãi được nhập gốc sau mỗi k kỳ tính lãi
Cho P: số tiền gửi, r: lãi suất, n: số kỳ, F 0 , F 1 , F 2 , … F n = F: giá trị tích lũy sau các kỳ 0,1, 2, …n Tổng số tiến (gốc + lãi) khách được nhận sau khoảng thời gian trên:
– Trường hợp tính lãi đơn: F = P + n P r
– Trường hợp tính lãi kép:
– Trường hợp tính lãi kết hợp (n chia hết cho k):
2.1.1.2 Giá tr ị hi ệ n t ạ i, giá tr ị t ươ ng lai c ủ a dòng ti ề n đề u
Một khách hàng gửi đều đặn số tiền A vào ngân hàng trong n kỳ với lãi suất r/kỳ Trong lĩnh vực tài chính, các khoản thu và chi của tổ chức, cá nhân hoặc dự án được gọi là dòng tiền (cash flow), bao gồm hai loại: dòng vào (thu nhập - inflow) và dòng ra.
(khoản chi – outflow), dòng tiền có giá trị đều trong các kỳ được gọi là dòng tiền đều
Giá trị tương lai (Future Value) của dòng tiều đều A trên được tính theo công thức:
Giá trị hiện tại (Present Value) của dòng tiền đều:
2.1.2 Tính giá trị dòng tiền với các hàm tài chính Excel
Excel cung cấp một thư viện hàm tài chính phong phú, bao gồm các hàm tính toán giá trị dòng tiền với các tham số như giá trị hiện tại (pv), giá trị tương lai (fV), lãi suất (rate), số kỳ (nper), số tiền chi trả mỗi kỳ (pmt) và kiểu chi trả (type), với giá trị mặc định là 0.
Một số hàm dòng tiền đều thông dụng:
Hàm FV(rate, nper, pmt, [pv], type) được sử dụng để tính giá trị tương lai của dòng tiền Hàm PV(rate, nper, pmt, [fv], type) giúp xác định giá trị hiện tại của dòng tiền đều Trong khi đó, hàm RATE(nper, pmt, pv, [fv], [type]) được áp dụng để tính toán lãi suất.
NPER(rate, pmt, pv, [fv], [type]): Tính số kỳ
Chú ý: Các giá trị pv, fv, pmt mang giá trị dương (+) đối với dòng tiền vào hoặc giá trị âm (-) đối với dòng tiền ra
Một số ví dụ minh họa
Ví dụ 2.1 Tính giá trị tương lai của khoản đầu tư
Một nhà đầu tư đã mua trái phiếu trị giá 100 triệu đồng với thời hạn 5 năm và lãi suất 10%/năm, lãi suất được nhập gốc hàng năm Sau mỗi năm, giá trị tích lũy của trái phiếu sẽ tăng lên do lãi suất được cộng vào gốc, tạo ra lợi nhuận ngày càng cao Cụ thể, sau năm đầu tiên, giá trị tích lũy đạt 110 triệu đồng, năm thứ hai là 121 triệu đồng, năm thứ ba là 133,1 triệu đồng, năm thứ tư là 146,41 triệu đồng và sau năm thứ năm, tổng giá trị tích lũy sẽ là 161,05 triệu đồng Lợi nhuận sau 5 năm là 61,05 triệu đồng, phản ánh sự gia tăng đáng kể từ khoản đầu tư ban đầu.
Thực hiện: Lập bảng tính và vẽ biểu đồ như hình 2-1
Hình 2-1: Giá tr ị tích l ũ y và t ổ ng l ợ i nhu ậ n c ủ a kho ả n đầ u t ư trái phi ế u
Ví dụ 2.2 Tính giá trị tương lai của dòng tiền đều
Khách hàng gửi 100 triệu đồng vào ngân hàng và mỗi năm bổ sung thêm 10 triệu đồng Sau 5 năm, tổng số tiền khách hàng có được sẽ là 100 triệu đồng cộng với 50 triệu đồng từ 5 lần gửi thêm, dẫn đến tổng số tiền là 150 triệu đồng.
Thực hiện: Lập bảng tính như hình 2-2
Hình 2-2: Tính giá tr ị t ươ ng lai c ủ a dòng ti ề n đề u
Công thức tính toán: [B5] = FV(B3, B4, B2, B1)
Ví dụ 2.3 Tính số tiền trả đều mỗi kỳ
Một khách hàng vay ngân hàng 100 triệu đồng, trả đều trong 24 tháng với lãi suất 1%/tháng Hỏi số tiền khách phải trả mỗi tháng?
Thực hiện: Lập bảng tính như hình 2-3
Hình 2-3: Tính s ố ti ề n tr ả đề u m ỗ i k ỳ
Công thức tính toán: [B4] = PMT(B3, B2, B3, B1)
Ví dụ 2.4 Tính số kỳ
Một khách hàng gửi 100 triệu đồng vào ngân hàng với lãi suất 10%/năm và lãi được nhập gốc vào cuối mỗi năm Sau đó, vào cuối mỗi năm, khách hàng tiếp tục gửi thêm 10 triệu đồng Câu hỏi đặt ra là sau bao nhiêu năm khách hàng sẽ có tổng số tiền tích lũy đạt 300 triệu đồng?
Thực hiện: Lập bảng tính như hình 2-4
Công thức tính toán: [B5] = NPER(B3, B2, B1, B4)
Ví dụ 2.5 Tính lãi suất
Một tiểu thương vay 10 triệu đồng của người quen, sau trả góp trong 12 tháng, mỗi tháng trả 1 triệu đồng Tính lãi suất mà người này phải trả
Thực hiện: Lập bảng tính như hình 2-5
Hình 2-5: Tính lãi su ấ t vay
Công thức tính toán: [B4] = RATE(B3, B2, B1)
Ví dụ 2.6 Tính giá trị hiện tại - Ra quyết định đầu tư
Công ty X đang xem xét đầu tư vào một dự án với vốn đầu tư ban đầu là 1.000.000 đô la Dự kiến, công ty sẽ thu về 140.000 đô la mỗi năm từ dự án này.
Công ty đang xem xét việc đầu tư vào một dự án trong vòng 12 năm tới, nhưng cần cân nhắc liệu dự án này có mang lại lợi nhuận cao hơn so với việc đầu tư vào các dự án khác với lãi suất 8% mỗi năm hay không Quyết định có nên thực hiện dự án này hay không phụ thuộc vào khả năng sinh lời và tiềm năng phát triển của nó so với các lựa chọn đầu tư khác.
Thực hiện: Lập bảng tính giá hiện tại của các khoản thu về với mức chiết khấu 8% như hình 2-6
Hình 2-6: Tính giá tr ị hi ệ n t ạ i c ủ a các kho ả n thu trong d ự án
Công thức tính toán: [B22] = PV(B20, B19, B21)
Giá trị hiện tại của dòng tiền thu về (1,055,051 USD) lớn hơn số tiền bỏ ra đầu tư => nên đầu tư vào dự án được nêu
Khi khách hàng vay tiền từ ngân hàng, hai bên sẽ thỏa thuận về số tiền vay, lãi suất, số kỳ hạn và cách thức trả nợ (gốc và lãi) Một số phương thức trả nợ phổ biến thường được áp dụng trong các hợp đồng vay.
– Trả toàn bộ số tiền (gốc + lãi) một lần;
– Trả góp nhiều kỳ với số tiền đều;
– Trả góp nhiều kỳ với số tiền gốc cố định, lãi giảm dần theo số dư nợ; –
Ngân hàng xây dựng lịch trả nợ dựa trên phương thức thanh toán đã thỏa thuận, cung cấp thông tin chi tiết cho từng kỳ trả, bao gồm kỳ hạn, ngày trả, dư nợ đầu kỳ, số tiền thanh toán và dư nợ cuối kỳ.
Ví dụ 2.7 Lập lịch trả nợ với số tiền trả đều
Một khách hàng vay ngân hàng 1 tỷ (1,000 triệu) đồng với lãi suất 10%/năm, trả đều trong 10 năm Lập lịch trả nợ cho khách hàng trên
• Sử dụng công thức tài chính
– ST Trả lãi = Lãi PS = Dư nợ ĐK * Lãi suất
– ST Trả gốc = ST trả đều – ST trả lãi
– Dư nợ CK = Dư nợ ĐK – ST trả gốc
– Số tiền trả đều: Hàm PMT;
– Dư nợ CK: Hàm FV;
– Trả gốc (kỳ): Hàm PPMT;
Cú pháp của hàm PMT là: PMT(rate, per, nper, pv, [fv], [type]), trong đó rate đại diện cho lãi suất, per là kỳ thanh toán, nper là tổng số kỳ, pv là số tiền vay, [fv] là dư nợ, và [type] xác định thời điểm thanh toán (đầu kỳ hoặc cuối kỳ) như đã trình bày ở phần trước.
Câu 1: Một khách hàng gửi ngân hàng số tiền 200 triệu đồng với thời thời gian
Khách hàng gửi tiền trong 15 tháng với lãi suất 0.5% mỗi tháng sẽ nhận được số tiền khác nhau tùy thuộc vào cách ngân hàng tính lãi a) Nếu ngân hàng áp dụng lãi đơn, lãi suất sẽ không được nhập gốc, dẫn đến số tiền nhận được là số tiền gốc cộng với lãi suất tính trên số gốc ban đầu b) Trong trường hợp ngân hàng áp dụng lãi kép, lãi suất sẽ được nhập gốc hàng tháng, giúp số tiền nhận được tăng lên đáng kể c) Nếu ngân hàng tính lãi nhập gốc sau mỗi 3 tháng, lãi suất sẽ được cộng vào gốc sau mỗi quý, tạo ra một mức lãi suất hiệu quả khác d) Cuối cùng, nếu ngân hàng tính lãi nhập gốc sau mỗi 6 tháng, số tiền khách hàng nhận được sẽ thấp hơn so với lãi suất kép hàng tháng, nhưng vẫn cao hơn so với lãi đơn.
Khách hàng gửi 500 triệu đồng vào ngân hàng với lãi suất 0.5% mỗi tháng và lãi được nhập gốc hàng tháng Mỗi tháng, khách hàng tiếp tục gửi thêm 5 triệu đồng Sau 36 tháng, tổng số tiền khách hàng tích lũy được là bao nhiêu? Để đạt được số tiền 1 tỷ đồng, khách hàng cần gửi tiền trong bao lâu với hình thức này?
PV rA c) Để tích lũy được số tiền 1 tỷ đồng sau 36 tháng, mỗi tháng khách phải gửi thêm vào sổ bao nhiêu tiền?
Hai ngân hàng cung cấp khoản vay 60 triệu đồng cho khách hàng với thời gian trả góp 60 tháng, trong đó khách hàng sẽ trả gốc 1 triệu đồng mỗi tháng Bên cạnh khoản trả gốc, khách hàng còn phải thanh toán thêm một khoản lãi suất hàng tháng được tính theo quy định của ngân hàng.
• Ngân hàng 1: Tính lãi đều mỗi tháng, bằng 65% số tiền vay
• Ngân hàng 2: thu lãi giảm dần theo số dư thực tế với lãi suất 1.15%/ tháng
Phân tích hiệu quả đầu tư
Trong các dự án đầu tư, dòng tiền thường không ổn định qua các kỳ Để đánh giá hiệu quả của những dự án này, các nhà đầu tư thường áp dụng nhiều phương pháp khác nhau, bao gồm phân tích NPV (Giá trị hiện tại ròng) và IRR (Tỷ lệ hoàn vốn nội bộ).
Cho dự án X thực hiện trong n kỳ với dòng tiền các kỳ lần lượt là F 0 , F 1 , F 2 , ,
F n Chỉ số NPV (Giá trị hiện tại ròng - Net Present Value) dự án là một giá trị được tính theo công thức:
Tỷ suất chiết khấu dòng tiền dự án được xác định bằng công thức (1 + 𝑟), trong đó r là tỷ lệ phần trăm Giá trị của r khi NPV = 0 được gọi là lãi suất nội hay tỷ suất hoàn vốn nội (Internal Rate of Return - IRR).
NPV và IRR là hai chỉ số tài chính quan trọng trong việc đánh giá hiệu quả dự án đầu tư Dự án có NPV > 0 được xem là hiệu quả và nên đầu tư, trong khi NPV < 0 cho thấy dự án không hiệu quả và không nên đầu tư Nếu NPV = 0, cần xem xét thêm trước khi quyết định đầu tư Khi không xác định được suất chiết khấu, IRR sẽ được sử dụng để so sánh hiệu quả các dự án; dự án được coi là hiệu quả nếu IRR vượt qua ngưỡng cho trước, và IRR càng cao thì hiệu quả tài chính càng lớn.
2.2.2 Tính NPV và IRR với các hàm Excel
Cho dòng tiền các kỳ của một dự án cùng suất chiết khấu Để tính NPV cho dự án trên Excel, có thể thực hiện một trong hai cách:
- Sử dụng công thức tài chính;
Cú pháp: NPV( rate, value_1 , [ value_2 ], …) với rate: suất chiết khấu, value_1, value_2, …: dòng tiền kỳ 1, 2, … Để tính IRR, có thể sử dụng các phương pháp:
– Phương pháp đồ thị: Vẽ đồ thi NPV theo suất chiết khấu Vị trí điểm cắt giữa đường NPV và trục hoành cho giá trị IRR
Cú pháp hàm IRR là: IRR(values, [guess]), trong đó "values" đại diện cho dòng tiền của các kỳ, còn "guess" là giá trị dự đoán có thể bỏ qua Khi một dự án có nhiều giá trị IRR, hàm sẽ trả về giá trị gần nhất với giá trị dự đoán đã nhập.
Công ty X muốn đầu tư vào một dự án với thời hạn 13 năm Bảng dưới cho dòng tiền dự báo các năm của dự án:
Năm Dòng tiền (tỷ đồng) Năm Dòng tiền (tỷ đồng)
Nếu công ty không đầu tư vào dự án này, họ có thể chọn đầu tư vào các dự án khác với tỷ suất lợi nhuận bình quân 8% mỗi năm Để quyết định xem có nên đầu tư vào dự án này hay không, cần tính toán giá trị hiện tại ròng (NPV) của dự án Nếu NPV dương, công ty nên đầu tư; nếu NPV âm, họ nên xem xét các lựa chọn khác.
Thực hiện: Lập bảng tính (Tính NPV theo 2 cách) và vẽ biểu đồ NPV (Xem hình 2-8)
Sử dụng công thức tài chính:
Ví dụ 2.9 Vẽ đồ thị NPV và tính IRR
Cho dự án X thực hiện trong 6 năm với dòng tiền dự báo cho trong bảng dưới đây:
Năm Dòng tiền Năm Dòng tiền
- Vẽ đồ thị biểu diễn mối quan hệ giữa NPV với suất chiết khấu
- Tính IRR của dự án
Thực hiện: Lập bảng tính và vẽ đồ thị như trong hình 2-9
Hình 2-9: V ẽ bi ể u đồ NPV và tính IRR
Câu 1: Một công ty đang đánh giá khả năng đầu tư vào một trong hai dự án A và
B thực hiện trong 12 năm với dòng tiền dự báo:
- Dự án A: Vốn ban đầu 10 triệu USD, thu về mỗi năm 1.15 triệu USD (năm 1
- Dự án B: thời gian 12 năm, vốn ban đầu 9 triệu USD, lợi nhuận thu về mỗi năm (từ năm 1 tới năm 12) lần lượt ls3 0.5, 0.8, 1.2, 1.5, 2, 2.3, 2.5, 2.6, 2.5, 2.5, 2.2, 2.0 triệu USD
Để đánh giá khả năng đầu tư vào các dự án, cần tính toán NPV (Giá trị hiện tại ròng) và IRR (Tỷ suất sinh lợi nội bộ) cho mỗi dự án với tỷ lệ chiết khấu là 8% Sau khi phân tích, công ty sẽ có cơ sở để quyết định xem có nên đầu tư vào các dự án này hay không, và nếu có, dự án nào là lựa chọn tối ưu nhất.
Công ty X đang xem xét lựa chọn giữa hai dự án A và B, với thời gian thực hiện 10 năm và vốn đầu tư ban đầu là 12 triệu USD cho mỗi dự án Các nghiên cứu dự báo lợi nhuận từ mỗi dự án sẽ được phân tích để đưa ra quyết định tối ưu.
Yêu cầu: Vẽ biểu đồ NPV theo lãi suất và tính IRR cho hai dự án trên
Ông X hiện có khoản tiền lớn gửi tiết kiệm với lãi suất 8%/năm và đang dự định rút 3 tỷ đồng để mua một miếng đất đẹp gần khu công nghiệp Sau đó, ông sẽ đầu tư thêm 6 tỷ đồng để xây dựng khu nhà trọ gồm 25 phòng cho thuê trong 9 năm, với mức giá thuê lần lượt là 3 triệu đồng/tháng trong 3 năm đầu, 3.5 triệu đồng/tháng trong 3 năm tiếp theo, và 4 triệu đồng/tháng trong 3 năm cuối Dự kiến, vào năm thứ 6, ông sẽ chi 500 triệu đồng cho việc sơn sửa lại nhà Cuối cùng, vào đầu năm thứ 10, ông dự định bán toàn bộ khu nhà và đất với giá 10 tỷ đồng.
Yêu cầu: Tính NPV và IRR cho dự án (lấy suất chiết khấu bằng với lãi suất tiết kiệm
Bài toán điểm hòa vốn
Phân tích điểm hòa vốn là một yếu tố quan trọng trong việc lập kế hoạch kinh doanh, giúp doanh nghiệp xác định sản lượng, thời gian thực hiện, giá bán, doanh thu, chi phí và lợi nhuận Việc này làm rõ mối quan hệ giữa doanh thu, chi phí và sản lượng, đồng thời cho thấy tác động của chi phí cố định và chi phí biến đổi đến lợi nhuận và thời gian hòa vốn Qua đó, nhà quản lý có thể kiểm soát và lựa chọn phương án sản xuất tối ưu Bài viết sẽ trình bày một số lý thuyết và kỹ thuật cơ bản để phân tích điểm hòa vốn trên MS Excel.
2.3.1.1 M ộ t s ố khái ni ệ m c ơ b ả n Điểm hòa vốn là qui mô SX – KD) cần đạt để tổng doanh thu bằng với tổng chi phí Các thuộc tính của điểm hòa vốn bao gồm số lượng sản phẩm hòa vốn (sản lượng hòa vốn); doanh thu hòa vốn; thời gian hòa vốn; công suất hòa vốn (tỷ lệ sản lượng hòa vốn/tổng sản lượng trong kỳ)
Các khoản chi phí phục vụ cho việc sản xuất – kinh doanh sản phẩm được chia thành hai loại:
Định phí là các chi phí cố định không phụ thuộc vào số lượng sản phẩm, bao gồm khấu hao thiết bị, tiền thuê mặt bằng, lãi vay dài hạn, chi phí quảng cáo và chi phí quản lý.
– Biến phí: Chi phí biến đổi phụ thuộc vào số sản phẩm (nguyên liệu chính, phụ, chi phí vận chuyển, nhân công trực tiếp, …)
2.3.1.2 Các công th ứ c liên quan
Goal Seek là một thành phần trong bộ công cụ Data What – If Analysis của MS
Excel Goal Seek được sử dụng chủ yếu để tìm nghiện gần đúng cho các phương trình một biến
Cho hàm số y = f(x) Để tìm nghiệm gần đúng của phương trình f(x) = a trên MS Excel, thực hiện lần lược các bước:
– Xây dựng bảng tính với hai ô cơ bản:
+ Ô chứa giá trị biến x (giá trị tùy ý)
+ Ô công thức tính giá trị f(x) phụ thuộc giá trị ô chứa x
– Vào thẻ lệnh Data, trong nhóm Data Tools, nhấn chọn What – If Analysis, rồi chọn Goal Seek Sau đó, xuất hiện hộp thoại Goal Seek (Xem hình 2-10)
Để sử dụng tính năng Goal Seek, bạn cần nhập các thông số như sau: trong hộp "Set cell", chọn ô chứa công thức f(x); trong hộp "To value", nhập giá trị a; và trong hộp "By changing cell", chọn ô biết x Sau khi hoàn tất, nhấn OK để kết thúc và xem kết quả trong hộp thoại Goal Seek.
OK để giữ lại kết quả tính toán (hoặc, Cancel để thoát.)
Trong phân tích điểm hòa vốn, lợi nhuận phụ thuộc vào số lượng sản phẩm Do đó, có thể sử dụng công cụ Goal Seek để xác định số lượng sản phẩm cần thiết nhằm đạt được lợi nhuận gần bằng 0.
Ví dụ 2.10 Xác định điểm hòa vốn
Công ty X dự kiến sản xuất 3.000 đơn vị sản phẩm A vào năm 2018 với giá bán 20.000 USD mỗi sản phẩm Để thực hiện kế hoạch này, công ty cần chi 15 triệu USD cho các khoản chi phí cố định như khấu hao thiết bị, nhà xưởng, chi phí quảng cáo và quản lý, cùng với 10.000 USD biến phí cho mỗi sản phẩm, bao gồm nguyên liệu, điện, nước và lương trực tiếp.
Yêu c ầ u: Tính Số lượng sản phẩm hòa vốn, doanh thu hòa vốn, công suất hòa vốn, thời gian hòa vốn cho công ty
Thực hiện: Lập bảng tính và chạy Goal Seek với các tham số (Xem hình 2-11)
Hình 2-11: Tìm đ i ể m hòa v ố n v ớ i Goal Seek
[B8] = B4 * B7 [B9] = B2 + B7 * B3 [B10] = B8 – B9 Kết quả thực hiện được hiển thị trong hình 2-12
2.3.3 Vẽ đồ thị điểm hòa vốn Đồ thị điểm hòa vốn là công cụ trực quan thể hiện rõ mối quan hệ doanh thu – chi phí - số lượng sản phẩm sản suất – kinh doanh Kiểu biểu đồ thường hay được sử dụng để vẽ đồ thị điểm hòa vốn và biểu đồ đường thẳng (biểu đồ Line) Để vẽ đồ thị điểm hòa vốn, thực hiện lần lượt các bước:
Tạo một bảng dữ liệu bao gồm ba cột chính: Số lượng sản phẩm, Doanh thu và Chi phí Bạn có thể bổ sung thêm các cột chi tiết như Định phí và Biến phí để cung cấp cái nhìn tổng quan hơn về tình hình tài chính.
• Tạo và hiệu chỉnh biểu đồ
Ví dụ 2.11 Đồ thị điểm hòa vốn (tiếp Ví dụ 3.16)
Bảng số liệu và đồ thị hòa vốn như trong hình 2-13
Hình 2-13: B ả ng s ố li ệ u và đồ th ị đ i ể m hòa v ố n
Công ty XX dự kiến sản xuất 5,000 đơn vị sản phẩm A trong năm tới, và để thực hiện kế hoạch này, công ty cần chi trả một số khoản chi phí cần thiết.
- Chi phí cố định: 650 triệu đồng (chi phí mua sắm thiết bị, thuê nhà xưởng, chi phí quản lý, quảng cáo);
- Biến phí/đơn vị sản phẩm: 2.7 triệu đồng (chi phí nguyên vật liệu, điện, nước, nhân công trực tiếp)
Dự kiến, mỗi sản phẩm sẽ được bán với giá trung bình 3.4 triệu đồng Cần lập bảng dự toán doanh thu, chi phí và lợi nhuận để đánh giá hiệu quả kinh doanh Đồng thời, cần xây dựng bảng phân tích và đồ thị điểm hòa vốn cho sản phẩm này để xác định thời điểm doanh thu bắt đầu vượt chi phí.
Chị Mai chuyên chế biến sữa bắp tại nhà và cung cấp cho các quán ăn nhỏ trong vùng, với chi phí cố định hàng tháng là 4,000,000 đồng và chi phí biến đổi 2,000 đồng cho mỗi chai sữa bắp, được bán với giá 3,000 đồng Để hòa vốn, chị cần bán 5,000 chai sữa bắp mỗi tháng Nếu chi phí cố định tăng lên 10%, điểm hòa vốn mới sẽ cần tính toán lại Chị Mai cũng dự đoán rằng nếu giá bán giảm xuống còn 2,500 đồng/chai, số lượng bán có thể tăng thêm 1,000 chai, dẫn đến một điểm hòa vốn mới cần được xác định.
Câu 3: Nhà máy XYZ chuyên chế biến cao su thành phẩm từ cao su nguyên liệu Cho bảng kế hoạch sản xuất năm 2018 của xí nghiệp:
KẾ HOẠCH SẢN XUẤT NĂM 2018
(Đơn vị tính: Triệu đồng)
Sản lượng dự kiến (tấn thành phẩm) 5,000
Giá nguyên liệu chính (/tấn) 35
Tỷ lệ thành phẩm/nguyên liệu chính 55%
Chi phí NVL chính (/tấn TP) 120
Chi phí NVL phụ (/tấn TP) 2.1
Chi phí điện + nước (/tấn TP) 1.5
Lương trực tiếp (/tấn TP) 3.2
(Đơn vị tính: Triệu đồng)
CP cố định (khấu hao TB, CP QL, QC) ?
Biến phí/ĐV (NVL, điện, nước, lương TT) ?
Yêu cầu: a) Lập và hoàn tất bảng tính trên b) Lập bảng phân tích hòa vốn và đồ thị điểm hòa vốn cho nhà máy.
Phân tích độ nhạy
Doanh nghiệp cần lập kế hoạch sản xuất và dự toán doanh thu, chi phí, lợi nhuận dựa trên các yếu tố đầu vào như sản lượng, giá nguyên liệu và giá bán sản phẩm Tuy nhiên, trong quá trình thực hiện, những yếu tố này có thể biến động, ảnh hưởng đến kết quả đầu ra Do đó, việc phân tích rủi ro là cần thiết để lường trước các tình huống và đánh giá tác động của biến động đầu vào, từ đó chuẩn bị các phương án quản lý và phòng tránh rủi ro, nhằm nâng cao hiệu quả sản xuất và kinh doanh.
Một số kỹ thuật phổ biến để phân tích rủi ro bao gồm phân tích độ nhạy, phân tích tình huống, phân tích mô phỏng và phân tích rủi ro dựa trên các hàm xác suất – thống kê Bài viết này sẽ tập trung vào việc sử dụng Excel để tạo các bảng phân tích độ nhạy và phân tích tình huống, hỗ trợ cho các phương pháp phân tích tương ứng.
Phân tích độ nhạy là quá trình đánh giá tác động của các yếu tố đầu vào đến kết quả của bài toán Việc này giúp xác định mức độ ảnh hưởng của từng yếu tố, từ đó cung cấp thông tin quý giá cho việc ra quyết định và tối ưu hóa quy trình.
– Cung cấp các thông tin về mức độ biến thiên có thể có của các thông số cần biết
– Giúp các nhà quản lý xác định được các yếu tố có ảnh hưởng mạnh nhất tới kết quả dự báo để có các quyết sách phù hợp
Kỹ thuật phân tích độ nhạy bao gồm:
– Phân tích độ nhạy một chiều: Đánh giá mức độ tác động của một yếu tố đầu vào tới kết quả;
– Phân tích độ nhạy hai chiều: Đánh giá mức độ tác động của hai yếu tố đầu vào tới kết quả bài toán
Kết quả phân tích độ nhạy được thể hiện qua bảng số liệu, được tạo ra bằng cách sử dụng công cụ Data Table, một phần trong bộ công cụ Data.
What – If Analysis của MS Excel
Ví dụ 2.12 Phân tích độ nhạy một chiều và hai chiều
Công ty XYZ lập kế hoạch sản xuất năm 2018 cho mặt hàng A như hình 2-14
Hình 2-14: K ế ho ạ ch s ả n xu ấ t n ă m 2018 – Nhà máy XYZ
Chi phí nguyên liệu dự kiến dao động từ 4 triệu đến 5 triệu đồng/tấn, trong khi giá bán sản phẩm nằm trong khoảng 8 triệu đến 9 triệu đồng/tấn Để đánh giá tác động của hai yếu tố này đến lợi nhuận, cần lập các bảng phân tích độ nhạy một chiều và hai chiều.
L ậ p phân tích độ nh ạ y m ộ t chi ề u
– Tạo bảng phân tích độ nhạy một chiều dạng hàng (hoặc dạng cột)
Để thực hiện phân tích dữ liệu, bạn cần nhập công thức tham chiếu đến ô kết quả trong ô đầu hàng thứ hai của bảng phân tích dạng hàng hoặc ô đầu cột thứ hai của bảng phân tích dạng cột Sau đó, hãy quét vùng bảng phân tích để hoàn thành quá trình.
Để sử dụng chức năng Data Table trong Excel, bạn vào thẻ lệnh Data, chọn What-If Analysis trong nhóm Data Tools, sau đó chọn Data Table Hộp thoại Data Table sẽ xuất hiện Tiếp theo, bạn cần nhập thông số cho Data Table bằng cách gõ địa chỉ hoặc nhấp chọn ô yếu tố thay đổi vào hộp Row input cell cho bảng phân tích dạng hàng, hoặc vào hộp Column input cell cho bảng phân tích dạng cột.
– Nhấp OK để kết thúc Kết quả phân tích độ nhạy một chiều được hiển thị như hình 2-16
Hình 2-15: Phân tích độ nh ạ y m ộ t chi ề u v ớ i công c ụ Data Table
Hình 2-16: B ả ng k ế t qu ả phân tích độ nh ạ y m ộ t chi ề u
L ậ p b ả ng phân tích độ nh ạ y hai chi ề u
– Tạo bảng phân tích độ nhạy hai chiều Nhập công thức [D3] = B18; – Quét vùng bảng phân tích;
– Vào thẻ lệnh Data, trong nhóm Data Tools, chọn What – If Analysis, rồi chọn Data Table (Xem hình 2-17)
– Nhấp OK để kết thúc Kết quả phân tích độ nhạy hai chiều được hiển thị như hình 2-18
Hình 2-17: Phân tích độ nh ạ y hai chi ề u v ớ i công c ụ Data Table
Hình 2-18: B ả ng k ế t qu ả phân tích độ nh ạ y hai chi ề u
Kỹ thuật phân tích độ nhạy giúp đánh giá tác động của một hoặc hai yếu tố đầu vào đến biến kết quả, trong khi kỹ thuật phân tích tình huống cho phép xem xét tác động của nhiều yếu tố theo các kịch bản cụ thể.
Các kịch bản thường được xây dựng: Kịch bản Tốt, kịch bản Xấu, kịch bản Bình thường, kịch bản Thuận lợi, kịch bản Khó khăn, …
Ví dụ 2.13 Phân tích tình huống (Tiếp Ví dụ 2.12)
Lập bảng phân tích tình huống cho công ty XYZ theo các kịch bản
Giá bán 9.0 8.5 8.0 Để lập bảng phân tích tình huống trên Excel, lần lượt thực hiện các bước:
– Vào thẻ lệnh Data, trong nhóm Data Tools, chọn What – If Analysis, rồi chọn Scenario Manager Xuất hiện hộp thoại Scenario Manager (Xem hình 2-19)
Để khởi tạo các tình huống, hãy nhấp vào nút Add để thêm tình huống mới Hộp thoại Edit Scenario sẽ xuất hiện, cho phép bạn nhập tên tình huống và chỉ định các ô biến đầu vào Sau khi hoàn tất, nhấp OK để tiếp tục.
Hình 2-20: H ộ p tho ạ i mô t ả tình hu ố ng
– Nhập giá trị các yếu tố đầu vào, rồi nhấp OK để kết thúc tình huống (Xem hình 2-21)
Hình 2-21: Nh ậ p giá tr ị đầ u vào cho tình hu ố ng
Để thực hiện tổng kết, bạn cần nhấp vào Summary, sau đó hộp thoại Scenario sẽ xuất hiện Tiếp theo, chỉ định ô kết quả trong hộp thoại Result cell và nhấn OK để hoàn tất Kết quả sẽ hiển thị dưới dạng bảng phân tích tình huống, như minh họa trong hình 2-23.
Hình 2-22: Ch ỉ đị nh ô k ế t qu ả
Hình 2-23: K ế t qu ả phân tích tình hu ố ng
Tiếp theo Bài tập 1, mục 2.3, chúng ta sẽ thực hiện các yêu cầu sau: a) Dự báo giá bán mặt hàng A có thể dao động từ 3,0 đến 3,6 triệu và sản lượng tiêu thụ từ 3,000 đến 6,000 đơn vị sản phẩm Sử dụng công cụ Data Table để lập bảng phân tích độ nhạy một chiều và hai chiều, nhằm đánh giá tác động của các yếu tố này đến lợi nhuận công ty b) Sử dụng công cụ Scenario Manager để lập bảng phân tích tình huống và tính lợi nhuận theo các kịch bản đã đề ra.
Kịch bản Xấu Bình thường Tốt
Tiếp theo Bài tập 3, mục 2.3, cần thực hiện các yêu cầu như sau: a) Dự báo rằng giá nguyên liệu chính có thể dao động từ 30 đến 40 triệu đồng, trong khi giá bán thành phẩm có thể dao động từ 100 đến 150 triệu đồng/tấn Sử dụng công cụ Data Table để lập bảng phân tích độ nhạy một chiều và hai chiều nhằm đánh giá tác động của các yếu tố này đến lợi nhuận của mặt hàng b) Sử dụng công cụ Scenario Manager để lập bảng phân tích tình huống và tính lợi nhuận theo các kịch bản đã đề ra.
Kịch bản Rất xấu Xấu BT Tốt Rất tốt
Câu 3: Tiếp theo Bài tập 3, mục 2.2., thực hiện tiếp các yêu cầu sau:
Sử dụng công cụ Data Table để thực hiện phân tích độ nhạy một chiều và hai chiều giúp đánh giá ảnh hưởng của sự thay đổi chi phí sửa nhà và giá bán lại khu đất đến NPV của dự án.
Ví dụ 2.2 Sử dụng công cụ Scenario Manager để lập bảng phân tích tình huống (tính NPV của dự án) cho các kịch bản sau:
Kịch bản Xấu Bình thường Tốt
Đọc thêm
2.5.1 Tìm phương án tối ưu trong sản xuất – kinh doanh
Bài toán tìm phương án sản xuất – kinh doanh tối ưu là một dạng bài toán tối ưu quan trọng trong lĩnh vực kinh tế Trong toán học và tin học, bài toán tối ưu được định nghĩa là việc tìm kiếm giải pháp hiệu quả nhất hoặc gần nhất cho một vấn đề cụ thể Các bài toán tối ưu này có ứng dụng rộng rãi trong thực tiễn, giúp doanh nghiệp nâng cao hiệu suất và tối ưu hóa quy trình sản xuất.
– Bài toán tìm phương án sản xuất – kinh doanh có chi phí thấp nhất (hoặc lợi nhuận cao nhất);
– Bài toán xây dựng khẩu phần có chi phí thấp nhất;
– Bài toán tìm phương án vận tải có chi phí thấp nhất;
Qui trình giải quyết bài toán tối ưu trên Excel:
– Mô hình hóa bài toán;
– Sử dụng công cụ Solver để tìm lời giải tối ưu
2.5.1.2 Mô hình hóa bài toán
Mọi bài toán tối ưu có thể được diễn đạt như sau: Cho tập biến độc lập X tuân thủ các ràng buộc C của hàm mục tiêu G phụ thuộc vào X Mục tiêu là tìm bộ giá trị của X để G đạt được giá trị lớn nhất hoặc nhỏ nhất.
Cho X = {x1, x2, … xn} Các loại ràng buộc phổ biến trong bài toán:
Ràng buộc nhị nhân (giá trị 0 hoặc 1)
Ví dụ 2.14 Bài toán tìm phương án sản xuất tối ưu
Xí nghiệp X sản xuất 3 loại sản phẩm A, B, C từ 2 loại nguyên liệu NL_1 và NL_2 với định mức sử dụng trên mỗi sản phẩm được cho trong bảng bên dưới
B ả ng 1: Đị nh m ứ c nguyên li ệ u s ử d ụ ng
Để tối ưu hóa lợi nhuận cho xí nghiệp, cần xác định số lượng sản phẩm A, B và C cần sản xuất, với lợi nhuận lần lượt là 2, 4 và 3 đơn vị tiền tệ Xí nghiệp hiện có 600 đơn vị nguyên liệu NL_1 và 900 đơn vị nguyên liệu NL_2 Với giả định rằng toàn bộ sản phẩm đều có thể tiêu thụ, việc lập kế hoạch sản xuất hợp lý sẽ giúp xí nghiệp đạt được lợi nhuận cao nhất.
Mô hình hóa bài toán
Gọi x1, x2 và x3 lần lượt là số sản phẩm A, B, C được sản xuất Ta có ràng buộc:
Ràng buộc quan hệ: Lượng nguyên liệu sử dụng < Lượng nguyên liệu có
NL_1: 1.5 x1 + 1.8 x2 + 1.6 x3 < 600 NL_2: 2 x1 + 3 x2 + 2.4 x3 < 900 Ràng buộc nguyên, không âm: x1, x2, x3 nguyên > 0 x1, x2, x3 > 0 Hàm mục tiêu (Lợi nhuận): G = 2 x1 + 4 x2 + 3 x3
Yêu c ầ u: Tìm bộ giá trị {x1, x2, x3} sao cho G lớn nhất
Ví dụ 2.15 Bài toán xác định khẩu phần thức ăn
Một chủ trại chăn nuôi gia súc ước tính rằng để đảm bảo sự phát triển bình thường cho đàn vật nuôi, cần cung cấp hàng ngày ít nhất 700 đơn vị protein, 300 đơn vị lipid và 4200 đơn vị glucid Hiện tại, trên thị trường có hai loại thức ăn A và B với hàm lượng dinh dưỡng và giá bán được trình bày trong Bảng 5.
B ả ng 2: Hàm l ượ ng dinh d ưỡ ng và đơ n giá th ứ c ă n gia súc
Hàm lượng dinh dưỡng Thức ăn
Để xây dựng khẩu phần tối ưu cho đàn vật nuôi, cần xác định lượng thức ăn cung cấp đủ dinh dưỡng với chi phí thấp nhất Việc lựa chọn loại thức ăn phù hợp không chỉ giúp tiết kiệm chi phí mà còn đảm bảo sức khỏe và phát triển tốt cho vật nuôi.
Mô hình hóa bài toán
Để xác định số gram thức ăn A (x1) và B (x2) cần mua, ta cần tuân thủ các ràng buộc dinh dưỡng, trong đó lượng dinh dưỡng cung cấp từ thức ăn phải lớn hơn lượng dinh dưỡng yêu cầu.
Protit: 0.1 x1 + 0.2 x2 > 700 Lipit: 0.1 x1 + 0.1 x2 > 300 Gluxit: 0.7 x1 + 0.6 x2 > 4200 Ràng buộc không âm: x1, x2 > 0
Hàm mục tiêu (Chi phí): G = 4x1+ 6x2
Yêu cầu: Tìm x1, x2 sao cho G có giá trị nhỏ nhất
Xây dựng bảng tính thể hiện mô hình bài toán (Xem hình 2-24, 2-25) với các thành phần cơ bản:
– Các ô biến độc lập, khởi đầu bằng các giá trị tiên đoán
– Các ô công thức (tính giá trị hàm mục tiêu và giá trị vế trái của các ràng buộc quan hệ) phụ thuộc vào các ô biến độc lập
Hình 2-24: Bài toán l ậ p k ế ho ạ ch s ả n xu ấ t
Hình 2-25: Bài toán xây d ự ng kh ẩ u ph ầ n t ố i ư u
2.5.1.3 S ử d ụ ng công c ụ Solver để tìm ph ươ ng án t ố i ư u
Solver là một công cụ mạnh mẽ trong MS Excel, chuyên dùng để giải quyết các bài toán tối ưu Nó hoạt động theo nguyên tắc lặp, giúp nhanh chóng tìm ra bộ giá trị của các biến độc lập gần nhất với giá trị dự đoán, đồng thời thỏa mãn các ràng buộc đã đặt ra Mục tiêu của Solver là tối đa hóa (hoặc tối thiểu hóa) giá trị hàm mục tiêu hoặc đạt được một giá trị cụ thể nào đó.
Solver là một thành phần của bộ công cụ cài thêm (Add Ins) của MS Excel Để cài thêm Solver, thực hiện lần lượt các bước:
– Vào thẻ lệnh File, chọn Options, rồi chọn Add – Ins Trong danh sách của ô Manage, chọn Excel Add-ins, sau đó nhấn nút Go (Xem hình 2-26)
– Xuất hiện hộp thoại Add – Ins, đánh dấu hộp kiểm Solver (Xem hình 2-
Sử dụng công cụ Solver:
– Vào thẻ lệnh Data, trong nhóm Analysis, nhấn chọn Solver Hộp thoại
Solver Paramaters xuất hiện (Xem hình 2-28)
– Chỉ định ô hàm mục tiêu (Set Objective)
– Chọn tiêu chí tối ưu (To Max/Min/Value of)
– Chỉ định vùng biến (By changing variable cells)
In the Subject to Constraints box, you can easily manage your constraints by using the options provided: click "Add" to include new constraints, "Change" to modify existing ones, "Delete" to remove specific constraints, and "Reset all" to clear all entries Additionally, you can utilize the "Load" and "Save" features to efficiently import or export your constraints.
– Nhấp Solve để tìm lời giải;
– Xuất hiện hộp thoại Result, nhấp OK để giữ kết quả, Cancel để thoát khỏi
Một số tùy biến khác
• Đặt/bỏ ràng buộc các biến không âm (Make unconstrained variables Non- negatinve;
• Chọn phương pháp (Select Solving Method);
Các loại ràng buộc trong Solver:
– Ràng buộc nhị phân (Binary)
Hình 2-29: H ộ p tho ạ i mô t ả ràng bu ộ c trong Solver
Ví dụ 2.16 Giải bài toán qui hoạch tuyến tính
Tìm giá trị lớn nhất của hàm số: Y = 2x1 - 5x2 + 3x3 + 2x4 Thỏa mãn các ràng buộc sau đây:
Thực hiện: Lập bảng tính như hình 2-30
Hình 2-30: Gi ả i bài toán qui ho ạ ch tuy ế n tính
– Nhấp Data | Solver, đặt thông số cho hộp thoại (Xem hình 2-31)
Hình 2-31: Gi ả i bài toán qui ho ạ ch tuy ế n tính – H ộ p tho ạ i Solver
– Nhấn vào Solve Hộp thoại Solver Result xuất hiện (Xem hình 2-32) Nhấn vào OK để giữ lại kết quả, Cancel để khôi phục lại các giá trị ban đầu
Kết quả giải bài toán qui hoạch tuyến tính được thể hiện như trong hình 2-33
Hình 2-33: Gi ả i bài toán qui ho ạ ch tuy ế n tính – K ế t qu ả th ự c hi ệ n
Sử dụng công cụ Solver để tối ưu hóa kế hoạch sản xuất và khẩu phần thức ăn, như minh họa trong Ví dụ 2.14 và Ví dụ 2.15 Kết quả cho bài toán lập kế hoạch sản xuất được trình bày trong hình 2-35, trong khi kết quả cho bài toán khẩu phần thức ăn có thể thấy ở hình 2-37.
Hình 2-34: H ộ p tho ạ i Solver - Gi ả i bài toán l ậ p k ế ho ạ ch s ả n xu ấ t t ố i ư u
Hình 2-35: K ế t qu ả th ự c hi ệ n - K ế ho ạ ch s ả n xu ấ t t ố i ư u
Hình 2-36: H ộ p tho ạ i Solver – Gi ả i bài toán xác đị nh kh ẩ u ph ầ n th ứ c ă n t ố i ư u
Hình 2-37: K ế t qu ả th ự c hi ệ n - Kh ẩ u ph ầ n th ứ c ă n t ố i ư u
2.5.1.4 M ộ t s ố thông báo l ỗ i th ườ ng g ặ p
Solver hoạt động theo nguyên tắc lặp, điều chỉnh giá trị các biến độc lập để tối ưu hóa hàm mục tiêu Nếu không tìm được giải pháp như mong muốn, Solver sẽ thông báo lỗi Một số thông báo lỗi phổ biến khi sử dụng Solver bao gồm các vấn đề về tính khả thi của bài toán.
– Solver could not find feasible solution: Không có lời giải chấp nhận được
– The maximum iteration was reached, continue anyway? Số bước lặp đã đạt đến giá trị giới hạn được cho
– The maximum time limit was reached, continue anyway? Thời gian chạy vượt quá giới hạn lựa chọn
Khi gặp lỗi, người dùng có thể điều chỉnh giá trị đầu của các biến để gần hơn với bộ nghiệm hoặc thay đổi chế độ hoạt động của Solver thông qua hộp thoại Options (Xem hình 2-38).
Constraint Precision: Độ chính xác của kết quả (Solver: Số được thiết lập càng nhỏ, độ chính xác càng cao)
Sử dụng Tính Năng Tự Động Co Giãn: Điều chỉnh các giá trị của biến độc lập, hàm mục tiêu và các ràng buộc với một tỷ lệ tương tự để giảm thiểu ảnh hưởng của các giá trị quá lớn hoặc quá nhỏ, từ đó nâng cao độ chính xác của kết quả.
Show Iteration Results: Hiển thị giá trị cho mỗi giải pháp thử (trial solution)
During the Solver process, the Show Trial Solution dialog box will appear; click Continue to proceed or Stop to halt the process and display the results.
Ignore Integer Constraints: cBỏ qua ác ràng buộc giá trị nguyên, giá trị nhị phân Integer Optimality (%): Tỷ lệ sai số so với giá trị tối ưu
Max Time (Seconds): Thời gian chạy tối đa (giây)
Iterations: Số lần lặp tối đa
Câu 1: Tìm giá trị lớn nhất của hàm số: f = 12x1 + 9x2 + 10x3 + 8x4 thỏa mãn các ràng buộc:
Hình 2-38: H ộ p tho ạ i Option (công c ụ Solver)
Câu 2: Tìm giá trị nhỏ nhật của hàm số y = 10 + (x1 – 0.5) 2 + (x2 + 2) 2 thỏa mãn các ràng buộc:
Công ty XYZ chuyên sản xuất ghế tựa và bàn học trẻ em, với thời gian lao động và nguyên liệu cần thiết cho mỗi sản phẩm lần lượt là 4 giờ và 5 kg gỗ cho ghế tựa, cùng 7 giờ và 18 kg gỗ cho bàn học Lợi nhuận cho mỗi chiếc ghế là 200 ngàn đồng, trong khi bàn học mang lại 400 ngàn đồng Hiện tại, công ty có 1200 giờ lao động và 2500 kg gỗ để sản xuất Để tối ưu hóa lợi nhuận, cần lập kế hoạch sản xuất hiệu quả nhất cho công ty.
Câu 4: Bếp ăn xí nghiệp X muốn xây dựng khẩu phần ăn trưa cho công nhân với
4 loại thực phẩm A, B, C, D với thành phần dinh dưỡng và giá bán được cho trong bảng dưới:
Th.ph.A Th.ph.B Th.ph.C Th.ph.D
Để đảm bảo mỗi công nhân nhận đủ dinh dưỡng với chi phí thấp nhất, khẩu phần tối ưu cần cung cấp tối thiểu 1,200 calories, 20gr đạm, 50gr chất béo, 200gr chất bột và 15gr chất xơ mỗi bữa Một gợi ý là sử dụng các thực phẩm như gạo, đậu, rau củ và dầu thực vật, kết hợp với nguồn protein từ thịt gà hoặc cá, nhằm đạt được các yêu cầu dinh dưỡng mà vẫn tiết kiệm chi phí.
Bài tập trắc nghiệm ôn tập chương
Câu 1: Lãi suất nào sau đây được tính bằng cách nhập gốc sau mỗi kỳ để tính lãi cho kỳ sau?
Câu 2: Trong Excel, hàm nào được sử dụng để tính giá trị tương lai của dòng tiền đều?
Câu 3: Khi lập lịch trả nợ với số tiền trả đều, hàm Excel nào được dùng để tính số tiền trả đều hàng kỳ?
Câu 4: Trong các phương thức trả nợ, phương thức nào yêu cầu trả góp nhiều kỳ với số tiền đều?
A) Trả toàn bộ số tiền một lần
B) Trả góp nhiều kỳ với số tiền đều
C) Trả góp nhiều kỳ với số tiền gốc cố định, lãi giảm dần
D) Trả nợ dần theo số dư nợ giảm dần
Câu 5: Một khách hàng vay ngân hàng 100 triệu đồng, trả đều trong
24 tháng với lãi suất 1%/tháng
Hàm Excel nào sau đây dùng để tính số tiền phải trả mỗi tháng?
Câu 6: Nếu NPV của một dự án lớn hơn 0, điều đó có nghĩa là gì?
A Dự án có thể đầu tư hoặc không
B Dự án không nên đầu tư
C Dự án nên đầu tư
D Dự án có thể không hiệu quả
Câu 7: IRR (Internal Rate of
A Là tỷ lệ phần trăm chiết khấu mà tại đó NPV của dự án bằng 0
B Là chỉ số đánh giá lợi nhuận dự án dựa trên dòng tiền hiện tại
C Là số tiền mà dự án thu được sau khi chiết khấu
D Là số tiền mà dự án thu được khi không chiết khấu
Câu 8: Điều kiện để một dự án được coi là có hiệu quả đầu tư là gì?
Câu 9: Phương pháp nào sau đây không phải là cách tính IRR?
A Vẽ đồ thị NPV theo suất chiết khấu
B Sử dụng hàm IRR trong Excel
C Tính toán thủ công từng dòng tiền
D Sử dụng công thức tài chính khác để so sánh với NPV
Câu 10: Điểm hòa vốn trong phân tích kinh doanh là gì?
A) Sản lượng tối đa có thể sản xuất B) Khi tổng doanh thu bằng tổng chi phí C) Chi phí cố định cộng với chi phí biến đổi
D) Doanh thu tối đa có thể đạt được
Câu 11: Chi phí nào sau đây là chi phí cố định?
A) Nguyên liệu chính B) Tiền thuê mặt bằng C) Chi phí vận chuyển D) Chi phí nhân công trực tiếp
Câu 12: Khi sử dụng Goal Seek trên MS Excel, hộp thoại nào không cần nhập thông số?
A) Hộp Set cell B) Hộp To value C) Hộp By changing cell D) Hộp View cell
Câu 13: Khi vẽ đồ thị điểm hòa vốn, kiểu biểu đồ nào thường được sử dụng?
A) Biểu đồ cột (Bar chart) B) Biểu đồ hình tròn (Pie chart) C) Biểu đồ đường thẳng (Line chart) D) Biểu đồ tán xạ (Scatter chart)
Câu 14: Các loại chi phí trong sản xuất – kinh doanh được chia thành những loại nào?
A) Chi phí cố định và chi phí không xác định
B) Chi phí biến đổi và chi phí không rõ
C) Định phí và biến phí
D) Chi phí cao và chi phí thấp
Câu 15: Trong công cụ Goal Seek của MS Excel, hộp thoại "Set cell" dùng để làm gì?
A) Xác định giá trị cần đạt được
C) Chỉ định ô chứa công thức tính giá trị
D) Nhập giá trị mong muốn
Câu 16: Mục đích chính của phân tích độ nhạy là gì?
A) Đánh giá mức độ tác động của nhiều yếu tố đầu vào đến kết quả bài toán
B) Cung cấp thông tin về mức độ biến thiên có thể có của các thông số cần biết
C) Xác định các kịch bản tốt nhất và xấu nhất cho doanh nghiệp
D) Xây dựng các tình huống và mô phỏng chúng trên Excel
Câu 17: Kỹ thuật phân tích độ nhạy một chiều dùng để đánh giá điều gì?
A) Mức độ tác động của nhiều yếu tố đầu vào tới kết quả
B) Mức độ tác động của một yếu tố đầu vào tới kết quả
C) Mức độ biến thiên của giá bán sản phẩm
D) Tác động của các kịch bản tới lợi nhuận doanh nghiệp
Câu 18: Để thực hiện phân tích độ nhạy hai chiều trên Excel, bạn cần làm gì?
A) Tạo bảng phân tích tình huống và nhập công thức vào ô đầu hàng
B) Tạo bảng phân tích độ nhạy một chiều và chỉ định ô dữ liệu
C) Tạo bảng phân tích độ nhạy hai chiều và chỉ định hai ô dữ liệu đầu vào
D) Tạo kịch bản tốt, xấu và bình thường trong hộp thoại Scenario Manager
Kỹ thuật phân tích tình huống giúp đánh giá mức độ tác động của nhiều yếu tố theo một số kịch bản nhất định, từ đó cung cấp cái nhìn sâu sắc về ảnh hưởng của các yếu tố đầu vào tới kết quả bài toán.
C) Tác động của biến động giá mua nguyên liệu đối với chi phí
D) Mức độ biến thiên của các thông số đầu vào trong bảng phân tích độ nhạy
Câu 20: Để tạo bảng phân tích tình huống trên Excel, bạn cần thực hiện bước nào đầu tiên?
A) Tạo bảng phân tích độ nhạy hai chiều và chỉ định ô dữ liệu
B) Vào thẻ lệnh Data, chọn What – If Analysis, rồi chọn Scenario Manager C) Tạo bảng phân tích độ nhạy một chiều và quét vùng bảng phân tích D) Nhập giá trị các yếu tố đầu vào và nhấp OK để kết thúc tình huống.
PHÂN TÍCH DỮ LIỆU VỚI SPSS
Dữ liệu và thang đo
Theo đặc điểm về giá trị, dữ liệu nghiên cứu được chia thành hai loại là dữ liệu định tính và dữ liệu định lượng (Xem hình 3-1)
Dữ liệu định tính là loại dữ liệu phản ánh các đặc điểm và sự khác biệt của sự vật, hiện tượng, thường được biểu diễn bằng chuỗi hoặc số Đặc biệt, với dữ liệu định tính, việc tính toán trị trung bình là không khả thi.
Ví dụ về dữ liệu định tính:
(1) Khi mô tả về giới tính, có các biểu hiện là nam, nữ, khác
(2) Khi mô tả về tình trạng hôn nhân, có các biểu hiện là độc thân, đã kết hôn, ly hôn, góa bụa
Dữ liệu định lượng là loại dữ liệu thể hiện mức độ và sự khác biệt của các sự vật, hiện tượng thông qua các con số Loại dữ liệu này cho phép thực hiện các phép tính như giá trị trung bình, giúp phân tích và so sánh hiệu quả hơn.
Ví dụ về dữ liệu định lượng:
(1) Khảo sát về thu nhập của viên chức làm việc tại các trường đại học trên địa bàn TP
Hồ Chí Minh Thu nhập là những số tiền cụ thể như 15,000,000 VNĐ, 18,000,000 VNĐ,
Khảo sát độ tuổi của nhân viên văn phòng tại quận 1, TP Hồ Chí Minh cho thấy sự đa dạng về độ tuổi, với những con số cụ thể như 25 tuổi, 30 tuổi, 33 tuổi, và nhiều độ tuổi khác.
Thang đo là công cụ quan trọng để mã hóa tình trạng và mức độ của các đơn vị khảo sát dựa trên các đặc trưng được xem xét Thông thường, thang đo này được thực hiện bằng ký số, với thứ tự tăng dần từ trên xuống.
Thang đo được phân thành bốn loại chính: thang đo danh nghĩa và thang đo thứ bậc thuộc nhóm dữ liệu định tính, trong khi thang đo khoảng cách và thang đo tỷ lệ thuộc nhóm dữ liệu định lượng.
3.1.2.1 Thang đ o danh ngh ĩ a (nominal scale)
Thang đo danh nghĩa phân loại đối tượng và đặt tên cho các biểu hiện, ấn định cho chung một ký số tương ứng
Hình 3-1: Phân lo ạ i d ữ li ệ u và thang đ o Ý nghĩa: Các con số chỉ dùng để phân loại đối tượng, nên không thể sắp xếp, so sánh…
Các phép toán thống kê áp dụng cho dữ liệu mã hóa bằng thang đo danh nghĩa bao gồm phép đếm, tính tần suất và xác định giá trị mô hình.
Ví dụ về thang đo danh nghĩa: Câu hỏi khảo sát về tình trạng nhà ở của sinh viên tại một trường đại học ở TP Hồ Chí Minh
Tình trạng nhà ở hiện tại? ¨ Ở nhà thuê ¨ Ở nhà cha mẹ ¨ Ở ký túc xá
Các biểu hiện trên có thể được mã hóa như sau: 1 = Ở nhà thuê, 2 = Ở nhà cha mẹ, 3 = Ở ký túc xá
Thang đo thứ bậc là phương pháp phân loại đối tượng và gán tên cho các biểu hiện, với mỗi biểu hiện được gán một ký số tương ứng Các con số này được sắp xếp theo thứ tự nhất định, phản ánh sự hơn kém giữa các đối tượng, tuy nhiên không thể xác định khoảng cách chính xác giữa chúng.
Các phép toán có thể áp dụng cho dữ liệu được mã hóa theo thang đo thứ bậc bao gồm số trung vị, số mô hình, khoảng và khoảng tứ trung vị.
Ví dụ về thang đo thứ bậc: Câu hỏi khảo sát về mức độ hài lòng của hài lòng của khách hàng đối với dịch vụ của nhà hàng
Mức độ hài lòng của khách hàng? ¨ Hài lòng ¨ Bình thường ¨ Không hài lòng
Cách biểu hiện trên có thể được mã hóa và theo quy ước giảm dần mức độ hài lòng như sau: 3 = Hài lòng, 2 = Bình thường, 1 = Không hài lòng
3.1.2.3 Thang đ o kho ả ng (interval scale)
Thang đo khoảng phân loại là phương pháp gán tên cho các biểu hiện và quy định một ký số tương ứng, giúp sắp xếp các giá trị với khoảng cách nhất định Ý nghĩa của nó là cho phép các con số được sắp xếp theo thứ bậc và xác định khoảng cách giữa các giá trị, từ đó thể hiện sự hơn kém một cách rõ ràng.
Các phép toán thống kê với dữ liệu mã hóa bằng thang đo khoảng bao gồm tính toán số trung vị, số mô hình, khoảng, khoảng tứ trung vị, khoảng biến thiên, số trung bình và độ lệch chuẩn Các phép toán này cho phép thực hiện các phép tính cộng và trừ, nhưng không hỗ trợ phép chia.
Ví dụ về thang đo khoảng: Câu hỏi khảo sát: “Tầm quan trọng của các yếu tố sau đây đối với chất lượng đào tạo đại học?”
Các yếu tố trong ví dụ trên được đánh giá theo thang điểm từ “Không quan trọng” đến “Rất quan trọng”, với các mức độ tương ứng là 1, 2, 3, 4 và 5 Mỗi mức độ này cách nhau một đơn vị, thể hiện sự khác biệt rõ rệt trong tầm quan trọng của từng yếu tố.
Thang đo tỷ lệ phân loại đối tượng là phương pháp gán tên cho các biểu hiện và ấn định ký số tương ứng, với khoảng cách nhất định giữa các giá trị Điều này có ý nghĩa trong việc sắp xếp các con số theo thứ bậc, cho phép xác định mức độ hơn kém và khoảng cách giữa chúng.
Các phép toán thống kê áp dụng cho dữ liệu được mã hóa bằng thang đo tỷ lệ bao gồm số trung vị, số mode, khoảng, khoảng tứ trung vị, khoảng biến thiên, số trung bình, độ lệch chuẩn, và hỗ trợ các phép tính như cộng, trừ, và chia.
Ví dụ về thang đo tỷ lệ:
(1) Câu hỏi khảo sát: “Độ tuổi?”
Người 40 tuổi gấp 2 lần tuổi so với người 20 tuổi, nhưng chỉ bằng 2/3 lần tuổi so với người 60 tuổi
(2) Câu hỏi khảo sát: “Thu nhập bình quân?”
Người có thu nhập 20 triệu/tháng gấp đôi so với người có thu nhập 10 triệu/tháng.
Giới thiệu phần mềm SPSS
Khởi động SPSS bằng một trong những cách sau đây:
Cách 1: Nhấp đôi vào biểu tượng phần mềm SPSS trên màn hình desktop
Cách 2: Chọn mở chương trình SPSS từ thực đơn Start
Sau đó, hộp thoại IBM SPSS Statistics 21 sẽ hiển thị như hình 3-2
Hình 3-2: H ộ p tho ạ i IBM SPSS Statistics 21
Giao diện phần mềm SPSS có các thành phần như hình 3-3
M ở hươ ́ ng dẫn sư ̉ du ̣ ng
Thư ̣ c hiê n Script co ̣ ́ sẵn
M ở tâ p tin dư ̣ ̃ liê u ̣ không pha ̉ i la ̀ SPSS
M ở tâ p tin dư ̣ ̃ liê u có ̣ sẵn
Data Editor: dạng bảng tính để định nghĩa, nhập, hiệu chỉnh và thể hiện dữ liệu
Viewer: thể hiện kết quả phân tích dữ liệu
Multidimention pivot table kết quả dạng bảng trụ
High revolution graphics kết quả phân tích dạng đồ thị
Database access truy xuất dữ liệu CSDL bên ngoài SPSS
Data transformation biến đổi dữ liệu gốc cho phù hợp với mục đích nghiên cứu
Các thẻ lệnh trên màn hình giao diện
Thẻ Data là một khái niệm quan trọng trong việc định nghĩa đặc trưng của biến, kiểm tra tính hợp lệ của dữ liệu và thực hiện các thao tác như sắp xếp, biến đổi biến hoặc quan sát Ngoài ra, thẻ Data cũng hỗ trợ trong việc phân tách và kết hợp các tập tin dữ liệu, giúp tối ưu hóa quy trình xử lý thông tin.
Th ẻ Transform: Tạo biến mới từ biến có sẵn; thiết lập các chuỗi dữ liệu thời gian; xử lý các trường hợp quan sát thiếu dữ liệu… (Xem hình 3-4)
Th ẻ Graphs: có tính năng xây dựng các loại biểu đồ khác nhau như Bar, 3-D Bar,
Pie, Area, Box-Plot, Population,
Thẻ Analyze cung cấp nhiều công cụ phân tích dữ liệu quan trọng, bao gồm phân tích thống kê mô tả, kiểm định trung bình tổng thể, phân tích tương quan, phân tích hồi quy, cũng như các kiểm định tham số và phi tham số Những công cụ này giúp người dùng hiểu rõ hơn về dữ liệu và rút ra những kết luận có giá trị từ các thông tin thu thập được.
3.2.3 Làm việc với tập tin SPSS
Các định dạng tập tin SPSS bao gồm: Tập tin dữ liệu có dạng như sau *.sav hoặc
*.sys ; tập tin cú pháp có dạng *.sps ; tập tin kết quả có dạng *.spv ; tập tin script có dạng
SPSS còn đọc tập tin từ các định dạng khác như *.xls (phần mềm Excel), *.txt (phần mềm Text), *.dta (phần mềm Stata), *.wf1 (phần mềm EViews),
Có hai cách để thực hiện tạo mới tập tin SPSS:
Cách 1: Khởi động SPSS => chọn Type in data từ các lựa chọn bên phải để thực hiện tạo một tập tin mới Sau đó, nhấn nút OK
Cách 2: Từ cửa sổ hiện có của SPSS, chọn thẻ lệnh File ® New ® Data
Sau khi thực hiện một trong hai thao tác trên, màn hình soạn thảo dữ liệu sẽ xuất hiện như hình 3-7
Hình 3-7: Màn hình Data Editor
Bây giờ, người dùng đã tạo một tệp mới, có thể nhập dữ liệu và định nghĩa các biến
Có thể thực hiện mở tập tin SPSS có sẵn theo một trong các cách sau đây:
- Cách 1: Nhấn hai lần vào biểu tượng của tập tin SPSS
- Cách 2: Khởi động SPSS, chọn Open an existing data source, rồi nhấn nút OK
- Cách 3: Từ cửa sổ hiện có của
SPSS, chọn thẻ lệnh File ®
Khi thực hiện xong các thao tác trong cách 2 và cách 3, hộp thoại Open Data sẽ xuất hiện để chọn tập tin SPSS có sẵn muốn mở (Xem hình 3-8)
Hình 3-8: SPSS - H ộ p tho ạ i Open Data
3.2.3.3 L ư u t ậ p tin SPSS Để thực hiện lưu tập tin SPSS, thực hiện một trong những cách sau đây:
- Cách 1: Đối với tập tin SPSS đang mở, nhấn tổ hợp phím Ctrl + S
To save a new SPSS file, navigate to the File menu and select Save This will open the Save Data As window, where you can enter your desired file name in the File Name field and then click the Save button.
Hình 3-9: Hộp thoại Save Data As
3.2.4 Làm việc với Data Editor
Data Editor hiển thị dưới dạng bảng tính và có hai thẻ lệnh nằm ở phía trái bên dưới màn hình: Data View và Variable View.
Data View thể hiện trị số dữ liệu thực hoặc các nhãn trị số được xác định
Hình 3-10: Màn hình Data View
Các thao tác hiệu chỉnh dữ liệu trong Data View bao gồm thay đổi giá trị dữ liệu, cắt, sao chép và dán các giá trị, cũng như thêm hoặc xóa các đối tượng và biến Ngoài ra, người dùng còn có thể thay đổi thứ tự của các biến để tổ chức dữ liệu một cách hiệu quả hơn.
Variable View thể hiện thông tin định nghĩa biến bao gồm nhãn biến, nhãn trị số biến, loại dữ liệu, thang đo, và các trị số khuyết thiếu.
Hình 3-11: Màn hình Variable View
Các quy tắc khai báo biến:
Tên biến: Khi thực hiện đặt tên cho biến phải thực hiện các lưu ý như sau:
1 Tên bắt đầu bằng một ký chữ, các ký tự còn lại có thể là chữ, số, hoặc ký tự đặc biệt (@, #, _, $), và không kết thúc bởi dấu chấm (.)
2 Biến không trùng lắp, không phân biệt chữ hoa/thường
3 Độ dài biến không quá 8 ký tự
Kiểu dữ liệu: (Xem hình 3-12)
1 Xác định loại dữ liệu với từng biến
2 Mặc định là kiểu số (chiều dài 8, 2 số thập phân)
Nhãn trị số của biến là một chỉ định mô tả cho từng trị số của biến, với chiều dài tối đa là 60 ký tự.
Viewer cho phép người dùng xem kết quả từ các thao tác trên dữ liệu, điều chỉnh cách hiển thị kết quả và lưu trữ tài liệu theo tổ chức với định dạng phù hợp.
3.2.6 Tiếng Việt trong SPSS Để thực hiện thay đổi phông chữ, kích cỡ chữ trong tập tin dữ liệu, vào thẻ lệnh
View ® Fonts thì màn hình Fonts sẽ xuất hiện (Xem hình 3-15), thực hiện các thao tác hiệu chỉnh rồi nhấn nút OK để hoàn thành
3.2.7 Thay đổi mặc định của chương trình Để thay đổi mặc định của chương trình SPSS, vào thẻ lệnh Edit ® Options, màn hình Options xuất hiện (Xem hình 3-16), tiến hành thay đổi thông số theo ý muốn, sau đó nhấn nút Apply để áp dụng những thay đổi mới thực hiện, rồi nhấn nút OK để kết thúc
Biến đổi dữ liệu
3.3.1.1 Chuy ể n đổ i giá tr ị bi ế n b ằ ng công c ụ (Recode)
Mục đích của việc sử dụng công cụ mã hóa biến (Recode) là rất đa dạng, nhưng một lý do phổ biến là để chuyển đổi từ biến định lượng (biến liên tục) sang biến định tính (biến phân loại).
Dữ liệu về điểm thi của 70 sinh viên được ghi nhận bằng biến liên tục exam_score cần được thống kê và sắp xếp theo quy tắc Việc này giúp phân tích hiệu suất học tập và đưa ra các quyết định giáo dục hợp lý.
Old value Xếp vào nhóm Giá trị biến mới
Từ 70 trở lên Giỏi 5 Để thực hiện biến đổi tạo ra biến mới và sắp xếp lại giá trị biến, vào thẻ lệnh
Transform > Recode into Different Variables Hộp thoại Recode into Different Variables sẽ xuất hiện (Xem hình 3-17)
Kéo thả biến exam_score bên cột trái vào cột Numeric Variable -> Output Variable hoặc nhấn chọn biến và nhấn nút , sẽ thấy kết quả như sau:
Hình 3-17: H ộ p tho ạ i Recode into Different Variables
Tại khu vực Output Variable, đặt tên biến mới vào ô Name và nhãn cho biến vào ô Label Sau đó bấm nút Change, kết quả tiếp theo sẽ như hình 3-18
Hình 3-18: H ộ p tho ạ i Recode into Different Variables - Đặ t tên cho bi ế n output
Nhấn vào nút "Old and New Values" để mở hộp thoại định nghĩa lại các giá trị cho biến mới dựa trên biến cũ Trong hộp thoại này, bạn sẽ nhập các giá trị của biến cũ ở bên trái và tương ứng với đó là giá trị của biến mới ở bên phải.
Hình 3-19: H ộ p tho ạ i Recode into Different Variable: Old and New Values (1)
Với các giá trị nhỏ 40 của biến exam_score, thực hiện như hình 3-20 và nhấn vào nút Add
Hình 3-20: H ộ p tho ạ i Recode into Different Variable: Old and New Values (2)
Sau khi nhấp nút add, các giá trị nhỏ hơn 40 trong biến exam_score sẽ nhận giá trị là 1 trong biến mới (Rank) (Xem hình 3-21)
Để chuyển đổi các giá trị trong biến, chúng ta chọn tùy chọn Range và nhập giá trị cho hai đầu khoảng (như hình 3-22) Ví dụ, khoảng giá trị từ 40-49 sẽ được gán giá trị hai trong biến mới; sau khi nhập, hãy nhấn nút Add để hoàn tất.
Hình 3-22: H ộ p tho ạ i Recode into Different Variable: Old and New Values (4)
Tiếp tục như thế với các khoảng giá trị còn lại (Xem hình 3-23)
Hình 3-23: H ộ p tho ạ i Recode into Different Variable: Old and New Values (5)
Giá trị từ 70 trở lên, chọn như hình 3-24
Hình 3-24: H ộ p tho ạ i Recode into Different Variable: Old and New Values (6)
Hình 3-25: H ộ p tho ạ i Recode into Different Variable: Old and New Values (7)
Sau khi hoàn tất việc thiết lập biến đổi dữ liệu, hãy nhấp vào nút Tiếp tục Bạn sẽ trở lại hộp thoại "Recode into Different Variables", trong đó sẽ hiển thị các thông tin như hình 3-26.
Hình 3-26: H ộ p tho ạ i Recode into Different Variable: Old and New Values (8)
Nhấp nút OK, SPSS sẽ thực hiện xử lý và cho ra kết quả bằng dòng lệnh xuất hiện trong cửa sổ Output
RECODE exam_score (Lowest thru 39=1) (40 thru 49=2) (50 thru 59=3) (60 thru 69=4)
VARIABLE LABELS Rank 'Xep loai'
Cuối cùng, kiểm tra lại và tiến hành đặt lại nhãn (Label) cho các giá trị của biến mới (Xem hình 3-27)
Hình 3-27: T ạ o nhãn cho bi ế n mã hóa
Mục đích của việc tạo ra biến có 2 giá trị (Dichotomy) từ biến phân loại (Category) với nhiều giá trị là để áp dụng một trong những kỹ thuật xử lý dữ liệu phổ biến, nhằm tạo ra các biến giả (Dummy Variable) cho các phương trình hồi quy tuyến tính.
Cách thức thực hiện thông qua ví dụ:
Trong nghiên cứu này, 10 người được khảo sát về môn thể thao ưa thích của họ, bao gồm bơi lội, đạp xe và chạy bộ, với các câu trả lời được lưu trữ trong biến danh nghĩa favourite_sport Để tiến hành phân tích và dự báo, cần chuyển đổi các biến phân loại này thành các biến nhị phân nhằm xác định xem mỗi cá nhân có tham gia vào một môn thể thao cụ thể hay không.
Dữ liệu và các giá trị của biến favourite_sport như hình 3-28
To create dummy variables, navigate to Transform > Create Dummy Variables in your software In the Create Dummy Variables dialog box that appears, drag and drop the variable "favourite_sport" into the designated area for creating dummy variables.
Tích vào ô hộp kiểm Create main-effect để cấu hình các thông số của các biến
Trong SPSS, để tạo ra các biến "giả", người dùng cần điền vào ô Root Name, ví dụ là "fs", và để ô Macro Name trống SPSS sẽ tự động tạo ra các biến "giả" theo thứ tự fs_1, fs_2, fs_3, tương ứng với các giá trị trong biến favourite_sport Cụ thể, fs_1 đại diện cho môn bơi lội, fs_2 cho môn đạp xe, và fs_3 cho môn chạy bộ Các biến này sẽ có giá trị 0 hoặc 1, cho biết từng người khảo sát yêu thích môn thể thao nào, với giá trị 1 thể hiện sự yêu thích.
Sau khi đã xong các thiết lập, chúng ta nhấp vào nút OK SPSS sẽ tiến hành xử lý Kết quả có thể nhìn thấy trong cửa sổ Ouput
Trong cửa sổ Variable View, cũng thấy các biến mới được tạo ra (Xem hình
Hình 3-30: Màn hình k ế t qu ả các bi ế n gi ả đượ c t ạ o ra
Trong cửa sổ Data View, kiểm tra lại các dữ liệu để đảm bảo sự chính xác (Xem hình 3-31)
Hình 3-31: Màn hình Data View c ủ a các bi ế n gi ả
Công cụ Compute Variable cho phép người dùng tạo biến mới dựa trên kết quả tính toán từ các biến hiện có.
Quản lý khách sạn muốn đánh giá mức độ hài lòng của khách hàng thông qua khảo sát Dữ liệu được thu thập về năm yếu tố: (1) Quá trình check in, (2) Mức độ sạch sẽ của phòng, (3) Các dịch vụ tại khách sạn, (4) Mức độ chuyên nghiệp của nhân viên, và (5) Quá trình check out Khách hàng đánh giá theo thang điểm từ 1 (Rất đồng ý) đến 5 (Rất không đồng ý) Quản lý sẽ tổng hợp số điểm để lưu trữ vào một biến mới nhằm phục vụ cho phân tích Để thực hiện, sử dụng công cụ Compute Variable bằng cách chọn Transform > Compute Variable để mở hộp thoại Compute Variable.
Để lưu trữ kết quả tính toán, đầu tiên bạn cần nhập tên biến mới vào ô Target Variable, ví dụ như "overall_satisfaction" Sau đó, nhấp vào nút Type & Label để thay đổi kiểu và nhãn cho biến.
Hình 3-32: Màn hình Compute Variable (1)
Click on Continue to return to the original dialog box Enter the SUM() function in the Numeric Expression field Drag and drop the variables check_in_process, hotel_room_cleanliness, services_offered, staff_professionalism, and check_out_process into the designated area as shown in Figure 3-33.
Hình 3-33: Màn hình Compute Variable (2)
Nhấn nút OK để SPSS bắt đầu quá trình tính toán Sau khi hoàn tất, hãy chuyển sang cửa sổ Data View để kiểm tra lại kết quả.
Hình 3-34: K ế t qu ả sau khi th ự c hi ệ n Compute Variable
Nhấp vào nút để chuyển đổi giữa hai kiểu hiển thị dạng “nhãn” (Label) hoặc dạng giá trị (Value) (Xem hình 3-35)
Hình 3-35: K ế t qu ả chuy ể n đổ i gi ữ a hai ki ể u hi ể n th ị d ạ ng “nhãn” (Label) và d ạ ng giá tr ị (Value)
Biến mới bây giờ đã xuất hiện thêm trong cửa sổ Variable View (Xem hình 3-
Hình 3-36: Bi ế n k ế t qu ả sau khi th ự c hi ệ n Compute Variale trên c ử a s ổ Variable View
Trình bày dữ liệu
Phân tích thống kê là một phương pháp phổ biến được sử dụng để tổng hợp và phân tích dữ liệu theo các tiêu chí cụ thể Ví dụ, nó có thể được áp dụng để thống kê số lượng sinh viên theo giới tính hoặc để tính toán mức thu nhập trung bình của nhân viên trong các công ty, xí nghiệp hay tập đoàn.
Thống kê tần số giúp đếm số lần xuất hiện của các thực thể trong dữ liệu Ví dụ, bạn có thể xác định số lượng đơn hàng bán xe theo từng quốc gia sản xuất.
(1) Xác định biến cần thống kê Trong ví dụ này là biến made_in
(2) Chạy công cụ phân tích thống kê tần số
Chọn menu Analyze -> Descriptive Statistics -> Frequencies … Hộp thoại Frequency xuất hiện như hình 3-37
Hình 3-37: H ộ p tho ạ i Frequencies Đọc bảng kết quả xuất hiện trong màn hình Output
Theo bảng kết quả phân tích tần số cho biến made_in, tổng số xe bán ra là 115 chiếc Trong đó, xe xuất xứ từ America chiếm 46.1% với 53 xe, xe từ Germany chiếm 18.3% với 21 xe, xe từ Japan chiếm 33% với 38 xe, và xe từ Korea chỉ chiếm 2.6% với 3 xe.
Công cụ thống kê tần số hiện đã được nâng cấp với tính năng tạo biểu đồ, bao gồm biểu đồ cột, biểu đồ tròn, biểu đồ Histogram và đường phân phối Tính năng này sẽ được trình bày chi tiết trong phần thống kê dữ liệu bằng phương pháp đồ thị.
Thống kê mô tả là phương pháp cho phép phân tích các đại lượng thống kê của một biến định lượng trong dữ liệu Các đại lượng này bao gồm: giá trị lớn nhất (Max), giá trị nhỏ nhất (Min), giá trị trung bình (Mean), tổng giá trị (Sum), phương sai (Variance), độ lệch chuẩn (Std deviation), độ lệch đường phân phối (Kurtosis), và độ xiên đường phân phối (Skewness) Ví dụ, khi thực hiện thống kê mô tả cho biến giá, chúng ta có thể thu thập và phân tích các chỉ số này để hiểu rõ hơn về đặc điểm của biến giá trong tập dữ liệu.
(1) Xác định biến cần thống kê mô tả Trong ví dụ này là biến price
(2) Chạy công cụ phân tích thống kê mô tả
To analyze descriptive statistics in your data, select the Analyze tab, then navigate to Descriptive Statistics and choose Descriptives This will open the Descriptives dialog box Next, move the variable 'price' from the list to the Variable(s) area, and click the Options button to select the desired statistical measures The Options dialog box will appear; check the boxes for the statistics you wish to include, and then click Continue to return to the Descriptives dialog box.
Hình 3-38: H ộ p tho ạ i Descriptives và Descriptives: Options
Sau đó, nhấn nút OK và đọc kết quả xuất hiện trong màn hình Output
Theo bảng thống kê mô tả, có 113 trường hợp hợp lệ trong tổng số 115 trường hợp bán xe, trong đó có 2 trường hợp không có giá đề nghị từ nhà sản xuất Các giá trị thống kê tương ứng đã được ghi nhận.
Thống kê mô tả theo nhóm
Trong thực tế, việc cần thiết phải có các giá trị thống kê của một biến dựa trên giá trị của biến khác là điều thường gặp Chẳng hạn, có thể thực hiện thống kê mô tả về giá xe theo từng quốc gia sản xuất, từ đó giúp phân tích và so sánh giá trị xe giữa các nước.
(1) Xác định biến cần thống kê mô tả Trong ví dụ này là biến price, biến phân nhóm là made_in
(2) Chạy công cụ phân tích thống kê mô tả nhóm Explore
Statistics -> Explore … Sau đó, hộp thoại, Explore sẽ xuất hiện
Biến phân nhóm thuộc Factor
List, trong ví dụ này là biến made_in Biến thống kê thuộc
Dependent List, trong ví dụ này là biến price Có thể lựa chọn kết quả xuất ra gồm phần thống kê
(Statistics), hoặc các biểu đồ (Plots) hoặc cả hai (Both) trong phần
(3) Nhấn nút OK và đọc các bảng kết quả trong màn hình Output
Trong phần phân tích thống kê mô tả, chỉ có hai trường hợp giá trị trống ở trường price, nhưng không xác định được chính xác vị trí của chúng Công cụ Explore cho phép xác định một trường hợp thiếu thông tin giá ở nhóm xe xuất xứ America và một trường hợp ở nhóm xe xuất xứ Japan Hơn nữa, Explore còn cung cấp khả năng thống kê mô tả chi tiết giá price theo từng nhóm nước sản xuất, như thể hiện trong bảng kết quả thống kê dưới đây.
SPSS cung cấp nhiều công cụ đồ họa để trình bày dữ liệu, bao gồm biểu đồ cột, biểu đồ cột 3D, biểu đồ đường, biểu đồ hình tròn, biểu đồ Scatter/Dot và biểu đồ tần suất Histogram Việc lựa chọn loại đồ thị phù hợp phụ thuộc vào mục đích sử dụng; ví dụ, nếu cần xác định tỷ lệ phần trăm của các nhóm, biểu đồ hình tròn là lựa chọn lý tưởng Để hiểu rõ hơn về cách trình bày dữ liệu bằng đồ thị, hãy xem xét ví dụ về việc vẽ biểu đồ tần suất Histogram cho biến giá (price).
(1) Chọn menu Graphs -> Legacy Dialogs -> Histogram Hộp thoại Histogram xuất hiện (Xem hình 3-40)
(2) Khai báo biến cần vẽ đồ thị Trong ví dụ này biến là price
Có thể chọn hiển thị đường cong phân phối chuẩn cho biến giá (price) để xác định xem biến này có phân phối chuẩn hay không Nếu cần, hãy đặt tên cho đồ thị trong hộp thoại Titles và khai báo các biến tương ứng cho Rows.
Columns Kết quả vẽ biểu đồ hiển thị như hình 3-41
Hình 3-41: Biểu đồ Frequency của biến price
Cho tập tin dữ liệu sinhvien1.sav gồm 04 biến với mô tả sau đây:
- Biến Gender : biến dạng số, lưu số giới tính, trong đó 2 là nữ, 1 là nam
- Biến Age_Range : biến dạng số, lưu số khoảng tuổi của quan sát 1 là từ 20 đến
46 tuổi, 2 là từ 46 tuổi trở lên
- Biến Head_size: biến dạng số, lưu số đo vòng đầu của quan sát
- Biến Brain_weight: biến dạng số, lưu số đo cân nặng bộ não của quan sát
- Biến Weight : biến dạng số, cho biết cân nặng của quan sát tính bằng đơn vị lbs
Câu 1: Thực hiện thống kê mô tả cho các biến Brain_weight và Head_size
Câu 2: Hãy cho biết Min, Max, Mean của số đo cân nặng não bộ cho từng nhóm giới tính
Câu 3: Vẽ đồ thị tỉ lệ so sánh số lượng quan sát theo giới tính
Câu 4: Vẽ đồ thị phân phối biến Weight
Cho tập tin dữ liệu sinhvien2.sav gồm 05 biến với mô tả sau đây:
- Biến Tuoi : biến dạng số, lưu số tuổi của quan sát
- Biến CanNang : biến dạng số, lưu số cân nặng của quan sát
- Biến NhipTim : biến dạng số, lưu số nhịp tim của quan sát
- Biến GioiTinh: biến dạng số, lưu số giới tính, trong đó 0 là nữ, 1 là nam
- Biến SucKhoe: biến dạng số, lưu chỉ số sức khỏe của quan sát
Câu 1: Thực hiện thống kê mô tả cho biến Tuoi
Câu 2: Hãy cho biết Min, Max, Mean của số đo cân nặng cho từng nhóm GioiTinh Câu 3: Vẽ đồ thị phân phối biến NhipTim.
Thống kê suy diễn cơ bản
3.5.1 Kiểm định mối liên hệ giữa hai biến định tính
Mục đích của kiểm định Chi-Square là xác định mối liên hệ có ý nghĩa thống kê giữa hai biến định tính Phương pháp này thường áp dụng cho các biến phân loại, bao gồm thang đo danh nghĩa (Nominal) và thang đo thứ bậc (Ordinal).
Kiểm định Chi-Square thường được áp dụng để xác định mối liên hệ giữa việc tập thể dục và bệnh tim, cũng như giữa giới tính người mua và sự lựa chọn xe hơi thể thao.
Để thực hiện phân tích thống kê với hai biến phân loại có thang đo nominal hoặc ordinal, cần đảm bảo rằng các quan sát là độc lập và các giá trị mong đợi không nhỏ hơn 5.
H0: Không có mối liên quan giữa 2 biến phân loại
H1: Có mối liên quan giữa 2 biến phân loại
Kiểm định thống kê Chi-Square được áp dụng để phân tích mối quan hệ giữa hai biến phân loại, cụ thể là property_type và buyer_type, nhằm xác định xem có sự liên hệ có ý nghĩa thống kê giữa chúng hay không.
Biến property_type có 4 giá trị: (1) Flat; (2) Bungalow; (3) Detached House; (4) Terrace Biến buyer_type có 4 giá trị: (1) Single male; (2) Single female; (3) Married Couple; (4) Family
Mục đích của kiểm định là xác định mối liên hệ có ý nghĩa thống kê giữa người mua và loại nhà mà họ lựa chọn Để thực hiện kiểm định Chi-Square, bạn cần vào phần Analyze và chọn Descriptive Statistics.
Hộp thoại Crosstabs mở ra, chúng ta kéo thả biến Property_type vào khung Row(s), biến Buyer_type vào khung Column(s)
Tiếp tục nhấp vào nút
Statistics được mở ra (Xem hình 3-
43), tích chọn Chi-square và Phi and
Cramer’s V theo hình vì hai biến có thang đo dạng Nominal Sau đó bấm
Continue để trở về lại hộp thoại
Nhấn nút Cell để mở hộp thoại Cell Display, sau đó chọn hộp kiểm Obsereved và Expected trong khung Count để hiển thị kết quả thống kê tần số cho từng nhóm và kiểm tra giả định về giá trị mong đợi (Expected Value) (Xem hình 3-44).
Hình 3-44: H ộ p tho ạ i Crosstabs: Cell Display
Sau khi đã tùy chỉnh xong các tùy chọn cho phù hợp, quay trở lại hộp thoại
Crosstabs và nhấp OK để SPSS xử lý và trả ra kết quả
Kiểm định thống kê Chi-Square giữa hai biến phân loại Property_type và buyer_type Kết quả cho thấy
1/ Không có giá mong đợi Descriptive Statistics > Explore Khi hộp thoại Explorer xuất hiện, kéo thả biến dep_score vào ô Dependent List và nhấn nút Plots Hộp thoại Explore: Plots sẽ hiện ra để người dùng chọn các tùy chọn cần thiết.
Trong khung Boxplots chọn Factor levels together để SPSS vẽ biểu đồ Box
Plots giúp kiểm tra các giá trị ngoại lệ
Chọn vào Normality plots with tests giúp kiểm tra biến liên tục đưa vào kiểm định có xấp xỉ phân phối chuẩn hay không
Sau khi đã chọn đầy đủ, nhấn vào nút Continue để trở lại hộp thoại Explore
Nhấp OK và đọc kết quả từ màn hình output
Quan sát các biểu đồ nhận thấy:
Dựa vào biểu đồ boxplot: không có giá trị ngoại lệ đặc biệt
Biểu đồ Q-Q plot cho thấy rằng biến liên tục gần như tuân theo phân phối chuẩn Trong khi đó, giả định về tính độc lập của các quan sát được coi là đã được thỏa mãn, vì điều này thuộc về giai đoạn thiết kế nghiên cứu.
Sau khi đã kiểm tra xong các giả định, thực hiện kiểm định One – Sample T-test bằng cách vào Analyze > Compare Means > One-Sample T Test Hộp thoại One-
Để thực hiện kiểm định Sample T-test, bạn cần mở phần mềm và kéo thả biến dep_score vào khu vực Test Variable(s) Bạn có thể thêm nhiều biến để kiểm định đồng thời Cuối cùng, hãy nhập giá trị cần kiểm định vào khu vực Test Value.
Hình 3-46: H ộ p tho ạ i One-Sample T Test
Nhấp chọn nút Options, hộp thoại
One-Sample T-Test: Options được mở ra (Xem hình 3-47)
Trong ví dụ này các tùy chọn đều được thiết lập mặc định Chúng ta nhấn vào nút Continue để trở lại hộp thoại
One-Sample T-Test và nhấp nút OK để
SPSS xử lý ra kết quả
Hình 3-47: H ộ p tho ạ i One-Sample T Test
Chỉ số t=-2.381, p-value: 0.022 nhỏ hơn 0.05
Như vậy, bác bỏ giả thuyết H0, trung bình của tổng thể bằng 4 Chấp nhận giả thuyết
H1: trung bình của tổng thể khác với 4
Mức độ khác biệt: Mean difference: -.27750 (khoảng tin cậy 95% -.5132 tới -.0418)
Một nhà máy sản xuất đĩa thắng cần sản xuất đĩa thắng có đường kính 322mm Bộ phận đảm bảo chất lượng sẽ lấy 16 mẫu từ mỗi trong 8 dây chuyền sản xuất Để xác định dây chuyền nào đạt tiêu chuẩn chất lượng với độ tin cậy 95%, cần áp dụng kiểm định One Sample T Test.
Dữ liệu trong file brakes.sav bao gồm biến machine, lưu trữ thứ tự dây chuyền sản xuất, và biến brake, chứa thông tin số đo của các đĩa thắng cho từng dây chuyền sản xuất.
3.5.3 Kiểm định trung bình hai tổng thể
3.5.3.1 Ki ể m đị nh trung bình hai m ẫ u độ c l ậ p (Independent samples t-test)
Mục đích của việc kiểm định trung bình hai mẫu độc lập là để xác định xem có sự khác biệt nào giữa giá trị trung bình của hai tổng thể hay không, cũng như để so sánh giá trị trung bình giữa hai nhóm.
Các giả định của kiểm định trung bình hai mẫu độc lập:
(1) Phân phối của các nhóm so sánh có xấp xỉ phân phối chuẩn
(2) Không có giá trị ngoại lệ đặc biệt
- Các quan sát độc lập với nhau
- Có sự đồng nhất phương sai của hai nhóm (Levene's test for equality of variances)
H0: giá trị trung bình tổng thể của hai nhóm không khác biệt
H1: giá trị trung bình tổng thể của hai nhóm có sự khác biệt
Ví dụ: Nghiên cứu sau đây muốn kiểm định sự khác biệt giữa 2 nhóm Nam (Male) và
Nữ (Female) có khác biệt về cảm nhận hay không sau khi xem xong một quảng cáo
Phân tích tương quan
3.6.1 Hệ số tương quan Pearson
Hệ số tương quan Pearson, ký hiệu là r, được sử dụng để đo lường cường độ và hướng của mối quan hệ tuyến tính giữa hai biến liên tục Giá trị của hệ số này có thể nằm trong khoảng từ -1 đến +1.
Nếu r > 0, cho biết hai biến có liên hệ tuyến tính thuận
Nếu r < 0, cho biết hai biến có liên hệ tuyến tính nghịch
Nếu r = 0, cho biết hai biến không có liên hệ hoặc liên hệ phi tuyến
Mối liên hệ này có tính chất đối xứng
Công thức toán học sử dụng để tính hệ số tương quan giữa hai biến x và y như sau:
Trong đó, cov(x,y) là hiệp phương sai của x và y, var(x) là phương sai của x và var(y) là phương sai của y
Hình 3-52: Các tr ườ ng h ợ p t ươ ng quan tuy ế n tính r = –0.90 r = 0.00 r = 0.90
Trong kiểm định thống kê, giả thuyết H0 và H1 được thiết lập để xác định mối tương quan giữa hai biến Đối với kiểm định hai phía, H0: r = 0 chỉ ra rằng không có mối tương quan, trong khi H1: r ≠ 0 cho thấy có sự tương quan giữa hai biến Ngược lại, trong kiểm định một phía, H0: r = 0 vẫn biểu thị không có mối tương quan, nhưng H1 có thể là r > 0, chỉ ra mối tương quan thuận, hoặc H1: r < 0, thể hiện mối tương quan nghịch giữa hai biến.
Để thực hiện phân tích tương quan Pearson, cần đảm bảo hai biến liên tục có thang đo khoảng hoặc tỷ lệ Mỗi cặp quan sát phải có giá trị trên cả hai biến, đồng thời cả hai biến cần phải tuân theo phân phối chuẩn Ngoài ra, các quan sát cần phải độc lập và không có trường hợp bất thường.
Mục tiêu nghiên cứu: Có mối quan hệ như thế nào giữa chỉ số VO2 tối đa và nhịp tim?
Câu hỏi nghiên cứu: Chỉ số VO2 tối đa và nhịp tim có mối quan hệ với nhau hay không?
Chỉ số VO2 tối đa và nhịp tim là hai biến liên tục quan trọng trong nghiên cứu thể chất Giả thuyết H0 được đặt ra là "Chỉ số VO2 tối đa và nhịp tim không có mối liên hệ với nhau", nhằm kiểm tra sự tương quan giữa hai chỉ số này trong các hoạt động thể thao.
Kiểm tra giả thiết cả hai biến “chỉ số VO2 tối đa” và “nhịp tim” đều có phân phối chuẩn
Hình 3-53: Đồ th ị phân ph ố i c ủ a hai bi ế n nh ị p tim và ch ỉ s ố VO2 t ố i đ a
Dựa vào đồ thị phân phối (Histogram) của hai biến (Xem hình 3-53), có thể kết luận rằng cả hai biến đều tuân theo phân phối chuẩn, cho phép áp dụng phân tích tương quan Pearson Để thực hiện phân tích tương quan này trên phần mềm SPSS, cần thực hiện một chuỗi các thao tác cụ thể.
Correlate ® Bivariate , rồi chọn biến vào vùng Variables, tại vùng
Correlation Coefficients tích chọn vào ô Pearson, tại vùng Test of
Significance chọn Two-tailed nếu muốn biết cả hướng của mối tương quan, chọn One-tailed nếu chỉ muốn biết hai biến có tương quan tuyến tính hay không
(Xem hình 3-54) Sau đó, nhấn nút OK để hoàn thành Hình 3-54: Phân tích t ươ ng quan Pearson
Kết quả phân tích tương quan Pearson được trình bày trong hình 3-55
Bảng Correlations cho thấy giá trị Sig (2-tailed) là 0.477, vượt quá mức ý nghĩa quan sát là 0.01, điều này chỉ ra rằng khả năng xảy ra sai lầm khi bác bỏ giả thuyết H0 là rất cao Do đó, chúng ta chấp nhận giả thuyết H0.
Vậy chỉ số VO2 tối đa và nhịp tim không có liên hệ với nhau Hình 3-55: K ế t qu ả phân tích t ươ ng quan
Mục tiêu nghiên cứu: Có mối quan hệ như thế nào giữa chỉ số VO2 tối đa và cân nặng?
Câu hỏi nghiên cứu: Chỉ số VO2 tối đa và cân nặng có mối quan hệ với nhau hay không?
Chỉ số VO2 tối đa và cân nặng là hai biến liên tục, với giả thiết H0 cho rằng chúng không có mối liên hệ với nhau Do cả hai biến đều có phân phối chuẩn, phân tích tương quan Pearson có thể được áp dụng để đánh giá mối quan hệ giữa chúng.
Kết quả phân tích tương quan Pearson được trình bày trong hình 3-56
Dựa vào bảng Correlations, giá trị Sig.(2-tailed) là 0.002, nhỏ hơn mức ý nghĩa quan sát là 0.01, cho thấy xác suất xảy ra sai lầm khi bác bỏ giả thiết H0 là rất nhỏ Do đó, chúng ta có thể kết luận rằng giả thiết H0 bị bác bỏ.
H0 Vậy chỉ số VO2 tối đa và cân nặng có liên hệ với nhau Hệ số tương quan r = -0.307, hai biến có mối tương quan nghịch
Hình 3-56: K ế t qu ả phân tích t ươ ng quan
3.6.2 Hệ số tương quan Spearman
Hệ số tương quan hạng Spearman, ký hiệu là rs (phát âm là "rho"), là một chỉ số dùng để đo lường cường độ và hướng của mối quan hệ giữa hai biến liên tục, hai biến thứ bậc, hoặc một biến thứ bậc và một biến liên tục.
Có thể áp dụng tương quan Spearman để kiểm tra mối liên hệ giữa hiệu suất thi và thời gian ôn tập, với cả hai yếu tố này được đo trên thang đo liên tục.
Có thể áp dụng tương quan Spearman’s để xác định mối liên hệ giữa mức độ hoạt động thể chất và nồng độ cholesterol Mức độ hoạt động thể chất được phân loại theo thang đo thứ bậc (tĩnh, thấp, trung bình và cao), trong khi nồng độ cholesterol được đo bằng thang đo liên tục với đơn vị mmol/L.
Có thể áp dụng tương quan Spearman để khảo sát mối liên hệ giữa trầm cảm và thời gian thất nghiệp, trong đó trầm cảm được đánh giá theo thang đo thứ bậc (không, nhẹ, trung bình và nặng) và thời gian thất nghiệp cũng được phân loại theo thang đo thứ bậc (thất nghiệp ngắn hạn, trung hạn và dài hạn).
Các yêu cầu của tương quan hạng Spearman’s:
Khi sử dụng phân tích dữ liệu với tương quan Spearman, cần đảm bảo rằng dữ liệu đáp ứng các giả định cần thiết trong quy trình phân tích.
Giả định 1 đề cập đến việc có hai biến được đo trên thang đo liên tục và/hoặc thứ bậc Điều này có thể bao gồm: (a) hai biến liên tục; (b) hai biến thứ bậc; hoặc (c) một biến liên tục và một biến thứ bậc.
Các ví dụ về biến liên tục bao gồm thời gian sửa đổi (tính bằng giờ), chỉ số IQ để đo trí thông minh, hiệu suất thi với thang điểm từ 0 đến 100, và cân nặng tính bằng kg.
Hồi quy tuyến tính
Phân tích hồi quy là phương pháp mô hình hóa mối quan hệ tuyến tính giữa một biến phụ thuộc (Y) và nhiều biến độc lập (Xi), không giống như tương quan, phân tích hồi quy không có tính đối xứng Ví dụ điển hình về phân tích hồi quy là nghiên cứu các yếu tố ảnh hưởng đến chất lượng ký túc xá tại một trường đại học.
3.7.1 Hồi quy tuyến tính đơn biến
Mô hình hồi quy tuyến tính đơn biến có công thức tổng quát là Yi = 𝛽₀ + 𝛽₁ * Xi + 𝜖i, trong đó Yi là giá trị dự đoán của biến phụ thuộc, Xi là giá trị quan sát của biến độc lập, 𝛽₀ và 𝛽₁ là các hệ số hồi quy được xác định theo phương pháp OLS, và 𝜖i là phần dư với biến độc lập ngẫu nhiên N(0,σ²) Hình 3-60 minh họa một ví dụ về đồ thị hồi quy tuyến tính đơn.
Một số giả định và yêu cầu về dữ liệu đối với biến phụ thuộc Y và biến độc lập X đó là (1) hai biến liên tục
Để thực hiện phân tích hồi quy tuyến tính, cần đảm bảo các điều kiện sau: (1) có thang đo khoảng hoặc tỷ lệ, (2) các quan sát có giá trị trên cả hai biến, (3) tồn tại mối quan hệ tuyến tính giữa hai biến, (4) các giá trị của biến Y độc lập với nhau, (5) biến Y có phân phối chuẩn với phương sai không đổi, (6) các giá trị trung bình nằm trên đường thẳng, và (7) phần dư có phân phối chuẩn Hình 3-60 minh họa ví dụ đồ thị hồi quy tuyến tính đơn.
Quy trình thực hiện trên SPSS
(1) Vào thẻ Analyze ® Regression ® Linear …
(2) Chọn biến vào ô Dependent và Independent
(3) Kiểm định các giả định, nhấn vào nút Statistics… Muốn hiển thị các biểu đồ, nhấn vào nút Plots… (Xem hình 3-61)
Hình 3-61: H ộ p tho ạ i Linear Regression: Statistics và Plots
(4) Sau khi đã thực hiện các lựa chọn ở hộp thoại Statistics và Plots (nếu có), nhấn OK
(5) Đọc kết quả từ màn hình output
Quan sát kết quả từ bảng Variables Entered/Removed b trong hình 3-62, có các thông tin như sau:
Model: cho phép chạy nhiều mô hình mỗi lần thực hiện hồi quy, cột Model là số thứ tự của mô hình
The "Variables Entered" feature allows for the input of variables in blocks and facilitates stepwise regression analysis Conversely, the "Variables Removed" section lists any variables excluded from the regression, typically remaining empty unless stepwise regression is applied.
Method: phương pháp Ví dụ: từng bước, nhập một lần (Enter)…
Quan sát kết quả từ bảng Model Summary trong hình 3-63, có các thông tin như sau:
Model là số thứ tự của mô hình hồi quy
R là tương quan giữa biến độc lập và biến phụ thuộc
R-Squared là mức độ biến thiên của biến phụ thuộc được giải thích bởi biến độc lập,
Hình 3-63: B ả ng Model Summary đo lường mức độ phù hợp của mô hình đối với mẫu (có thể viết là R 2 )
Adjusted R-Square là mức độ biến thiên của biến phụ thuộc được giải thích bởi biến độc lập
Ví dụ: 9.5% (R 2 = 0.095) sự biến thiên của chỉ số VO2 tối đa được giải thích bởi cân nặng
R-Squared tăng khi thêm biến độc lập (X) vào mô hình, bất kể biến đó có ý nghĩa thống kê hay không Trong khi đó, Adjusted R-Squared chỉ tăng khi biến độc lập (X) thực sự có ý nghĩa thống kê và ảnh hưởng đến biến phụ thuộc (Y) R-Squared không thể có giá trị âm, nhưng Adjusted R-Squared có thể âm khi R-Squared gần bằng 0.
Quan sát kết quả từ bảng ANOVA trong hình 3-64, có các thông tin như sau:
Sum of squares: tổng các bình phương df: bậc tự do, Residual = n – 1…
Mean Square là giá trị của Sum of
F và Sig là kiểm định F (Mức độ phù hợp của mô hình với tổng thể) và p-value Hình 3-64: B ả ng Anova a
F = Mean Square (Regression)/Mean Square (Residual)
Giả thuyết H0 cho rằng tất cả các hệ số hồi quy của mô hình đều bằng 0 Khi giá trị Sig nhỏ hơn mức ý nghĩa quan sát (α), chúng ta bác bỏ giả thuyết H0, cho thấy rằng ít nhất một trong các hệ số hồi quy không bằng 0, và do đó mô hình hồi quy có ý nghĩa thống kê Ngược lại, nếu giá trị Sig lớn hơn mức ý nghĩa quan sát (α), chúng ta chấp nhận giả thuyết H0, điều này có nghĩa là tất cả các hệ số hồi quy đều bằng 0 và mô hình hồi quy không có ý nghĩa thống kê.
Ví dụ trên, Sig = 0.002 < α = 0.01, bác bỏ giả thuyết H0, suy ra tất cả các hệ số hồi quy không đồng thời bằng 0
Quan sát kết quả từ bảng Coefficients trong hình 3-65, có các thông tin như sau:
B là cột chứa các hệ số hồi quy tuyến tính
Std Error là sai số chuẩn cho các hệ số
Beta là các hệ số được chuẩn hóa t và Sig là kiểm định t và p- value
Giả thuyết H0 cho rằng hệ số hồi quy của mô hình bằng 0 Nếu giá trị Sig lớn hơn mức ý nghĩa quan sát (α), chúng ta chấp nhận H0, nghĩa là hệ số hồi quy không có ý nghĩa thống kê và cần loại bỏ b/beta tương ứng khỏi phương trình hồi quy Ngược lại, nếu Sig nhỏ hơn mức ý nghĩa quan sát (α), chúng ta bác bỏ H0, cho thấy hệ số hồi quy có ý nghĩa thống kê và cần giữ lại b/beta tương ứng trong phương trình hồi quy.
Trong ví dụ này, giá trị Sig của hằng số (Constant) gần bằng 0.000 và Sig của biến cân nặng là 0.002, nhỏ hơn mức ý nghĩa α Điều này dẫn đến việc bác bỏ giả thuyết H0, cho thấy rằng các hệ số hồi quy khác không và do đó cần giữ lại b/beta tương ứng trong phương trình hồi quy.
Phương trình hồi quy đơn là = 57.541
3.7.2 Hồi quy tuyến tính đa biến (bội)
Mô hình tổng quát của hồi quy tuyến tính bội như sau:
Trong nghiên cứu này, Y i đại diện cho giá trị dự đoán thứ i của biến phụ thuộc, trong khi X ik là giá trị quan sát thứ i của biến độc lập thứ k Các hệ số hồi quy riêng phần b i được xác định theo phương pháp OLS, và 𝜀 5 là phần dư, biến độc lập ngẫu nhiên N(0,s 2) Một ví dụ cụ thể là việc xác định mức độ tác động của các yếu tố ảnh hưởng đến ý định mua nước hoa tại TP HCM.
Hồi quy tuyến tính đa biến yêu cầu một số giả định và dữ liệu quan trọng, bao gồm: (1) các biến độc lập và phụ thuộc phải là liên tục, với thang đo khoảng hoặc tỷ lệ; (2) các quan sát cần có giá trị độc lập; (3) cần có mối quan hệ tuyến tính giữa các biến độc lập và phụ thuộc; (4) các giá trị của biến cần phải tuân thủ các giả định thống kê nhất định.
Y độc lập với nhau, có phân phối chuẩn với phương sai không đổi, không tồn tại đa cộng tuyến giữa các biến độc lập, và phần dư cũng phải có phân phối chuẩn.
Quy trình thực hiện trên SPSS:
(1) Xem xét ma trận hệ số tương quan
Quan sát thấy các hệ số tương quan giữa các biến độc lập thấp và không có ý nghĩa (Xem hình 3-66)
Hệ số tương quan giữa chỉ số VO2 tối đa và cân nặng cho thấy mối liên hệ tương đối cao và có ý nghĩa, trong khi đó, mối tương quan với các biến độc lập khác lại thấp và không có ý nghĩa Do đó, chỉ biến cân nặng có thể được sử dụng trong mô hình hồi quy, dẫn đến việc áp dụng phương trình hồi quy đơn.
Hình 3-66: Ma trận tương quan (ví dụ 1)
Ví dụ 2: Khảo sát ảnh hưởng của biến dung tích động cơ và sức ngựa lên giá bán của xe ô tô
Quan sát cho thấy các hệ số tương quan giữa các biến độc lập cao, điều này có thể dẫn đến hiện tượng đa cộng tuyến Để tìm hiểu thêm về kiểm tra hiện tượng này, bạn có thể tham khảo phần nội dung bổ sung Hệ số tương quan giữa biến phụ thuộc Giá và các biến độc lập cũng cần được xem xét kỹ lưỡng.
Dung tích động cơ và sức ngựa là hai yếu tố quan trọng trong việc đánh giá hiệu suất của một chiếc xe Việc sử dụng hai biến độc lập này trong mô hình hồi quy bội có thể giúp phân tích mối quan hệ giữa chúng và các yếu tố khác, từ đó đưa ra những dự đoán chính xác hơn về hiệu suất xe.
Hình 3-67: Ma trận tương quan (ví dụ 2)
(2) Xây dựng phương trình hồi quy
Vào thẻ Analyze ® Regression ® Linear … Sau đó, hộp thoại Linear Regression xuất hiện (Xem hình 3-68) Chọn biến price vào ô Dependent và biến độc lập engine_s và housepow vào ô Independent
- Thiết lập các tùy chọn để kiểm định các giả định bằng cách nhấn vào nút
Để kiểm tra độ phù hợp của tập dữ liệu với mô hình hồi quy tuyến tính, hãy tích vào hộp kiểm "Model fit" Đồng thời, để thực hiện các ước tính, bạn cũng cần tích vào hộp kiểm "Estimates".
- Hiển thị các biểu đồ, nhấn vào nút
- Khi hoàn tất chọn các tùy chọn kiểm định và biểu đồ, hãy nhấn OK
- Sau đó, đọc kết quả từ màn hình output Hình 3-69: H ộ p tho ạ i Linear Regression:
Cách đọc kết quả các bảng tương tự như hồi quy đơn Hệ số xác định tổng thể R 2
= 0.725, nên các biến độc lập giải thích được khoảng 72,5 % sự biến thiên của biến phụ thuộc Phương trình hồi quy bội là Trong đó,
X1 là dung tích động cơ và X2 là sức ngựa
(3) Kiểm tra các giả thuyết
Kiểm tra các giả định mô hình hồi quy
Trong phần này, chúng tôi sẽ kiểm tra các giả định trong phương pháp phân tích hồi quy đơn và hồi quy bội Để áp dụng phương trình hồi quy vào thực tế, các giả định tương ứng cần phải được thỏa mãn đồng thời Việc thực hiện phân tích hồi quy đơn hoặc bội yêu cầu đảm bảo rằng tất cả các giả định này đều được đáp ứng.
Giả định 1: Biến phụ thuộc phải là biến định lượng hoặc định danh thứ bậc
Giả định 2: (Các) biến độc lập phải là biến định lượng hoặc định danh thứ bậc
Giả định 3: Tồn tại mối quan hệ tuyến tính giữa biến phụ thuộc với (các) biến độc lập Giả định 4: Độc lập sai số
Giả định 5: Liên hệ tuyến tính phần dư
Giả định 6: Phương sai sai số không đổi giữa phần dư với (các) biến độc lập
Giả định 7: Phân phối chuẩn phần dư
Ngoài các giả định trong hồi quy đơn, cần chú ý đến giả định đa cộng tuyến Để đảm bảo tính chính xác của mô hình, các giả định này phải được thỏa mãn, đặc biệt là khi xem xét các ví dụ với mức ý nghĩa alpha = 0.01.
Trường hợp hồi quy đơn
- Phân tích hồi quy đơn: tập tin dữ liệu là standard-multiple-regression.sav biến phụ thuộc là VO2max, biến độc lập là weight
Hình 3-73: Xem xét gi ả đị nh 1,2
Biến phụ thuộc VO2max và biến độc lập weight đều thuộc dạng thang đo khoảng cách/tỉ lệ, điều này cho thấy hai giả định này đều được thỏa mãn.
Giả định 3 là xem xét việc tồn tại mối quan hệ tuyến tính giữa biến phụ thuộc với (các) biến độc lập
Thực hiện phân tích tương quan cho hai biến VO2max và weight
(1) Kiểm tra phân phối chuẩn của hai biến
Hình 3-74: Xem xét gi ả đị nh 3
Hai biến có phân phối chuẩn (Xem hình 3-74), do đó thực hiện phân tích tương quan đơn Pearson cho hai biến VO2max và weight
(2) Chạy phân tích tương quan đơn Pearson, và được bảng kết quả như sau:
Theo bảng kết quả Correlations, giá trị Sig = 0.002 nhỏ hơn mức ý nghĩa alpha (0.01), cho thấy có mối quan hệ tuyến tính giữa biến phụ thuộc VO2max và biến độc lập weight Do đó, giả định 3 không bị vi phạm.
3.8.3 Xem xét giả định 4 Để có thể kiểm tra giả định về độ c l ậ p sai s ố , dựa vào giá trị Durbin-Watson có được từ bảng Model Sumary So sánh nó với giá trị dU tra từ bảng Durbin-Watson chuẩn ứng với số biến độc lập, số quan sát và mức ý nghĩa, nếu nó nằm trong khoảng [dU, 4-dU], giả định độc lập sai số không vi phạm Ngược lại, ta kết luận giả định độc lập sai số bị vi phạm
Trường hợp hồi quy đơn:
Giá trị Durbin-Watson là 1.986, nằm trong khoảng [1.562, 2.438] theo bảng Durbin-Watson chuẩn cho một biến độc lập với 100 quan sát và mức ý nghĩa 0.01 Do đó, tính độc lập của sai số không bị vi phạm.
3.8.4 Xem xét giả định 5 Để kiểm tra giả định liên h ệ tuy ế n tính ph ầ n d ư , cần xem xét tính phân bố ngẫu nhiên của các điểm giá trị tương ứng của giá trị phần dư chuẩn và giá trị dự báo chuẩn Nếu các điểm ảnh phân bố ngẫu nhiên, giả định liên hệ tuyến tính này không bị vi phạm
Công cụ phân tích hồi quy SPSS cung cấp tùy chọn Plots cho phép tạo ra các biểu đồ kết quả, trong đó có biểu đồ Scatterplot (Xem hình 3-75)
Hình 3-75: Ki ể m tra gi ả đị nh: Liên h ệ tuy ế n tính ph ầ n d ư
Sau khi thực hiện phân tích hồi quy với tùy chọn Plots, chúng ta có được đồ thị Scatterplot thể hiện sự phân bố của các điểm ảnh giữa giá trị phần dư và giá trị dự báo Sự phân bố ngẫu nhiên của các điểm ảnh này cho thấy giả định về mối liên hệ tuyến tính của phần dư không bị vi phạm.
Tính phân bố ngẫu nhiên của các điểm ảnh được xác định bởi cách mà chúng phân bố trong không gian Một phân bố được coi là ngẫu nhiên khi không rơi vào ba trường hợp cụ thể mà các nhà khoa học đã xác định Ngược lại, nếu phân bố điểm ảnh có cấu trúc hoặc quy luật rõ ràng, thì nó sẽ được xem là không ngẫu nhiên.
(Nguồn tham khảo: https://statistics.laerd.com)
3.8.5 Xem xét giả định 6 Để có thể kiểm tra giả định ph ươ ng sai sai s ố không đổ i gi ữ a ph ầ n d ư v ớ i (các) bi ế n độ c l ậ p , ta cần thực hiện kiểm tra tính tương quan hạng giữa các giá trị tuyệt đối của phần dư và (các) biến độc lập Như vậy trước hết ta cần có các giá trị phần dư
Trong công cụ phân tích hồi quy của SPSS, tùy chọn Save cho phép người dùng lưu giữ các giá trị phần dư tương ứng với từng bộ giá trị phân tích, giúp dễ dàng theo dõi và phân tích kết quả.
Khi bạn chọn tính năng lưu giữ, bảng dữ liệu sẽ được thêm vào cột giá trị ZRE_1, với chỉ số 1 thể hiện số lần phân tích hồi quy được thực hiện trong cùng một tập tin dữ liệu.
Hình 3-76: Ki ể m tra gi ả đị nh: Ph ươ ng sai sai s ố không đổ i gi ữ a ph ầ n d ư v ớ i (các) bi ế n độ c l ậ p
(1) Tạo biến mới ABS_Res là giá trị tuyệt đối của biến phần dư chuẩn ZRE_1 bằng công cụ Transform -> Compute Variable … (Xem hình 3-77)
Hình 3-77: Tính tr ị tuy ệ t đố i cho ph ầ n d ư chu ẩ n
Thực hiện kiểm tra quan hệ tương quan hạng Spearman giữa biến giá trị tuyệt đối và biến độc lập trong phân tích hồi quy, trong đó biến độc lập được xác định là trọng số (weight).
(3) Đọc bảng kết quả và kết luận
Trong bảng kết quả phân tích tương quan hạng, ta có giá trị Sig = 0.002 nhỏ hơn mức ý nghĩa Do đó có mối liên hệ giữa ABS_Res và weight
Vậy giả định này bị vi phạm
3.8.6 Xem xét giả định 7 Để kiểm tra giả định về phân ph ố i chu ẩ n ph ầ n d ư , ta thực hiện như sau:
Với tùy chọn Plots trong công cụ phân tích hồi quy của SPSS, chọn tương ứng như trong hình 3-78
Hình 3-78: Ki ể m tra gi ả đị nh: Phân ph ố i chu ẩ n ph ầ n d ư
Dựa vào đồ thị Histogram với đường cong phân phối, ta có thể xác định liệu giả định phân phối chuẩn của phần dư có bị vi phạm hay không Trong trường hợp này, rõ ràng phần dư có phân phối chuẩn, cho thấy giả định này không bị vi phạm.
Trường hợp hồi quy tuyến tính bội đối với các giả định 1, 2, 3, 4, 5, 6 và 7
Thực hiện tương tự như đối với hồi quy đơn, nhưng có thêm giả định về hiện tượng đa cộng tuyến
3.8.7 Xem xét giả định: Hiện tượng đa cộng tuyến
Trong mô hình hồi quy, hiện tượng đa cộng tuyến xảy ra khi các biến độc lập có mối quan hệ chặt chẽ và tuyến tính với nhau, dẫn đến sự phụ thuộc lẫn nhau giữa các biến này Điều này có thể được biểu diễn dưới dạng hàm số, ví dụ như khi có hai biến độc lập tương quan mạnh.
Hồi quy tuyến tính với biến định tính
Biến giả (dummy variable) là công cụ quan trọng trong mô hình hồi quy, giúp lượng hoá các biến định tính, thể hiện sự hiện diện hoặc mức độ khác nhau của một thuộc tính Ví dụ về biến định tính bao gồm trình độ học vấn (như tiểu học, trung học cơ sở, trung học phổ thông, cao đẳng, đại học, sau đại học) và mùa (xuân, hạ, thu, đông) Ngược lại, biến định lượng là các biến có giá trị quan sát dưới dạng số, chẳng hạn như tuổi và thu nhập Truyền thống, các mô hình hồi quy chủ yếu sử dụng biến giải thích là biến định lượng để phân tích dữ liệu.
Mô hình hồi quy chứa biến độc lập là biến giả
Biến giả là một loại biến định tính với hai giá trị gán là 0 và 1, phản ánh hai nhóm tính chất khác nhau mà không dùng để so sánh Ví dụ, biến giả có thể được sử dụng để biểu thị mùa hè, trong đó hạ = 1 nếu là mùa hè và hạ = 0 nếu không phải là mùa hè.
Giả sử có biến định tính X2 có hai phạm trù và có tác động đến biến Y Gọi D là biến giả thể hiện biến X2
Xét bài toán hồi quy bội có chứa biến giả: Y = β1 + β2D + β3X3 +… + βkXk+ 𝜀 5
• Các hệ số β1, β3, , βk có ý nghĩa
Hệ số β2 phản ánh sự khác biệt giữa giá trị trung bình của Y trong nhóm quan sát có D = 1 và nhóm có D = 0, khi các biến Xj được giữ không đổi.
Nếu D=0 thì mô hình hồi quy bội có dạng: Y = β1 + β3X3 +… + βkXk+ 𝜀 5
Khi D=1, mô hình hồi quy bội được biểu diễn dưới dạng Y = β1 + β2 + β3X3 +… + βkXk + 𝜀 Để xác định ảnh hưởng của biến độc lập D đến biến phụ thuộc Y, chúng ta tiến hành kiểm định giả thuyết với H0: β2 = 0 và H1: β2 ≠ 0.
Xem xét tác động của thu nhập hộ gia đình (triệu đồng/năm) và khu vực sinh sống (thành phố/nông thôn) đến biến chi tiêu của hộ gia đình (triệu đồng/năm) Các biến được gọi tên như sau: thu nhập, khu vực sinh sống và chi tiêu.
• Y: là biến chi tiêu của hộ gia đình
• TN: là biến thu nhập của hộ gia đình
• TP: là biến giả thể hiện liệu hộ gia đình đó có sống ở thành phố hay không Nếu
Trong nghiên cứu này, TP được sử dụng để phân loại hộ gia đình thành hai nhóm: TP = 0 cho hộ không sống ở thành phố và TP = 1 cho hộ sống ở thành phố Mô hình hồi quy cho thấy rằng ở nông thôn, giá trị Y được xác định bởi công thức Y = 55.177 + 0.497*TN + 𝜀5, trong khi ở thành phố, giá trị Y được điều chỉnh với một hệ số bổ sung, cụ thể là Y = 55.177 + 27.079 + 0.497*TN + 𝜀5.
Số 27.079 cho biết sự khác biệt của 2 nhóm hộ gia đình ở nông thôn và thành phố Khi thu nhập (TN) bằng 0 thì chi tiêu trung bình của hộ gia đình ở nông thôn (TP
Khi thu nhập bằng 0, chi tiêu trung bình của hộ gia đình ở thành phố đạt 82.256 triệu đồng/năm, cao hơn so với 27.079 triệu đồng/năm của hộ gia đình nông thôn Mức thu nhập 55.177 triệu đồng/năm cho thấy sự chênh lệch rõ rệt trong chi tiêu giữa hai khu vực Đặc biệt, mỗi khi thu nhập tăng thêm 1 triệu đồng/năm, chi tiêu trung bình của cả hộ gia đình ở thành phố và nông thôn đều tăng lên 0.497 triệu đồng/năm.
Dựa vào R 2 ta thấy TN và TP giải thích được 84.3% sự thay đổi của Y Kiểm định
R 2 = 0 có P_value ≈ 0.000 nên mô hình là phù hợp Trong mô hình thì 55.177 và 0.497 có ý nghĩa thống kê, số 27.079 không có ý nghĩa thống kê
Mô hình hồi quy chứa biến giả và biến tương tác
Trong trường hợp biến giả, hai hàm hồi quy có thể chỉ khác nhau ở hệ số chặn, nhưng trong nhiều tình huống, chúng còn khác nhau cả về hệ số góc Do đó, cần bổ sung biến tương tác giữa biến độc lập và biến giả vào mô hình để có được kết quả chính xác hơn.
Ví dụ: Giả sử sau khi đưa thêm biến TN*TP vào mô hình, ta có:
Y = 71.751 - 3.104*TP + 0.401*TN + 0.236 (TN*TP) + 𝜀 5 với R 2 = 0.861 Ở nông thôn: Y = 71.751 + 0.401*TN + 𝜀 5 Ở thành phố: Y = 71.751 - 3.104 + 0.401*TN + 0.236*TN + 𝜀 5
Biến định tính có nhiều phạm trù
Trong thực tế, nhiều biến định tính có hơn hai phạm trù, chẳng hạn như biến loại hình doanh nghiệp với ba phạm trù: doanh nghiệp nhà nước, doanh nghiệp tư nhân và doanh nghiệp có vốn đầu tư nước ngoài Để phân tích, chúng ta có thể sử dụng hai biến giả.
• NN=1 nếu doanh nghiệp là doanh nghiệp nhà nước; NN=0 nếu không phải là doanh nghiệp nhà nước
• TN=1 nếu doanh nghiệp là doanh nghiệp tư nhân; TN=0 nếu không phải là doanh nghiệp tư nhân
Một cách tổng quát, để đưa biến định tính có m phạm trù vào mô hình, ta sẽ cần (m-1) biến giả 0-1
Phạm trù cơ sở là khái niệm dùng để chỉ trường hợp mà tất cả các biến giả trong một biến định tính đều nhận giá trị bằng 0 Đây là phạm trù gốc, từ đó các phạm trù khác được so sánh Ví dụ, trong trường hợp này, nhóm "doanh nghiệp có vốn đầu tư nước ngoài" (bao gồm doanh nghiệp FDI) được xem là phạm trù cơ sở.
Kỹ thuật tạo ra m biến giả 0-1 giúp biểu diễn thông tin cho biến định tính với m phạm trù Tuy nhiên, khi tổng các biến giả bằng 1, chúng ta gặp phải vấn đề đa cộng tuyến hoàn hảo, vi phạm giả thiết 4 Do đó, thường chỉ sử dụng (m-1) biến giả để tránh vấn đề này.
1) biến giả cho biến định tính có m phạm trù Trường hợp nếu muốn sử dụng cả m biến giả thì cần sử dụng mô hình không có hệ số chặn
Biến thứ bậc (ordinal) là một trường hợp đặc biệt của biến định tính, trong đó các giá trị có thể được sắp xếp theo thứ tự Chẳng hạn, mức độ hài lòng của doanh nghiệp về dịch vụ công thường được xếp hạng từ 1 (rất không hài lòng) đến 5 (rất hài lòng) Tương tự, trình độ học vấn của người dân có thể được phân loại thành các nhóm như dưới phổ thông trung học, phổ thông trung học, đại học và trên đại học Những biến này có đặc điểm chung là có thể xếp theo thứ tự tăng dần hoặc giảm dần Mặc dù thông tin này thường được biểu diễn bằng số, việc sử dụng trực tiếp các biến này trong mô hình có thể dẫn đến kết luận thiếu chính xác Do đó, trong các trường hợp này, việc sử dụng biến giả là cần thiết.
Dựa trên file dữ liệu regression_binary.xlsx, chứa thông tin về thu nhập cá nhân, chúng ta có biến thu nhập (Income) là biến liên tục và biến giới tính (Gender) là biến định tính nhị phân với hai giá trị Male và Female Mục tiêu là xây dựng mô hình hồi quy tuyến tính nhằm dự đoán thu nhập dựa trên giới tính.
1 Nhập file dữ liệu Excel vào SPSS
2 Chạy hồi quy tuyến tính với Income là biến phụ thuộc và Gender là biến độc lập
3 Kiểm tra hệ số hồi quy và giá trị p-value để đánh giá mức độ ảnh hưởng của biến
Dữ liệu từ file regression_multiple_dummy.xlsx chứa điểm số môn Toán của học sinh, với biến mathScore là biến liên tục và biến schoolType là biến định tính có ba giá trị: Public, Private và Charter Mục tiêu là xây dựng mô hình hồi quy tuyến tính nhằm dự đoán điểm số Toán dựa trên loại trường học mà học sinh theo học.
1 Nhập file dữ liệu Excel vào SPSS
2 Chuyển đổi biến schoolType thành biến giả (dummy variables)
3 Chạy hồi quy tuyến tính với mathScore là biến phụ thuộc và các biến giả tương ứng với schoolType là các biến độc lập
4 Phân tích kết quả để xem loại trường học có ảnh hưởng như thế nào đến điểm số môn Toán
Bài tập trắc nghiệm ôn tập chương
Câu 1: Dữ liệu định tính và định lượng được phân loại dựa trên tiêu chí nào?
A Cách thức thu thập dữ liệu
B Đặc điểm về giá trị
C Đặc điểm về thời gian
D Đặc điểm về nguồn gốc
Câu 2: Dữ liệu định tính không thể thực hiện phép tính nào sau đây?
C Xác định giá trị mô hình
Câu 3: Trong thang đo thứ bậc, các con số được sắp xếp theo cách nào?
A Theo khoảng cách giữa các giá trị
B Theo thứ tự hơn kém
C Theo giá trị trung bình
Câu 4: Câu hỏi khảo sát về tình trạng nhà ở của sinh viên thuộc loại thang đo nào?
Câu 5: Khi mở tập tin SPSS có sẵn, bạn có thể thực hiện theo cách nào?
A Nhấn đôi vào biểu tượng tập tin
B Khởi động SPSS và chọn New Data
D Thay đổi tên tập tin
Câu 6: Thang đo nào phân loại đối tượng và đặt tên cho các biểu hiện mà không thể sắp xếp các con số?
C) Thang đo khoảng cách D) Thang đo tỷ lệ
Câu 7: Công cụ nào được sử dụng để thực hiện thống kê tần số trong SPSS?
Câu 8: Để kiểm tra mối liên hệ giữa hai biến định tính, kiểm định nào được sử dụng?
Câu 9: Trong kiểm định Chi- Square, giả thuyết nào là giả thuyết null (H0)?
A Có mối liên hệ giữa hai biến phân loại
B Không có mối liên hệ giữa hai biến phân loại
C Mối liên hệ giữa hai biến phân loại là không đáng kể
D Mối liên hệ giữa hai biến phân loại là đáng kể Đáp án: B
Câu 10: Trong kiểm định One- Sample T-Test, nếu p_value nhỏ hơn 0.05, bạn sẽ làm gì với giả thuyết null (H0)?
Câu 11: Trong phân tích thống kê mô tả nhóm, cái gì là một thông tin quan trọng khi đánh giá biến phân nhóm?
C Tỉ lệ phần trăm của nhóm
D Giá trị min và max
Câu 12: Khi kiểm định sự khác biệt giữa hai nhóm với kiểm định t độc lập, giả thuyết nào là giả thuyết thay thế (H1)?
A Giá trị trung bình tổng thể của hai nhóm không khác biệt
B Giá trị trung bình tổng thể của hai nhóm có sự khác biệt
C Không có mối liên hệ giữa hai biến phân loại
D Có mối liên hệ giữa hai biến phân loại
Câu 13: Hệ số tương quan Pearson có thể dao động từ giá trị nào đến giá trị nào?
Câu 14: Khi giá trị của hệ số tương quan Pearson là 𝑟 > 0, điều này cho biết gì?
A Hai biến có liên hệ tuyến tính nghịch
B Hai biến có liên hệ tuyến tính thuận
C Hai biến không có liên hệ
D Hai biến có liên hệ phi tuyến
Câu 15: Để thực hiện phân tích tương quan Pearson, cần phải có điều kiện gì về các biến?
A Hai biến phải là biến thứ bậc
B Hai biến phải là biến liên tục
C Một biến phải là biến liên tục, một biến phải là biến thứ bậc
D Cả hai biến phải là biến danh mục
Câu 16: Khi thực hiện phân tích tương quan Spearman, hai biến cần phải đáp ứng yêu cầu gì?
A Cả hai biến phải là biến liên tục
B Cả hai biến phải là biến danh mục
C Có thể là hai biến liên tục hoặc một biến liên tục và một biến thứ bậc
D Một biến phải là biến thứ bậc và một biến phải là biến danh mục
Câu 17: Khi phân tích tương quan Pearson, giá trị Sig (2-tailed) là 0.477 Điều này có nghĩa là gì?
A Có thể bác bỏ giả thuyết H0
B Có thể chấp nhận giả thuyết H0
C Có mối tương quan thuận
D Có mối tương quan nghịch
Câu 18: Trong hồi quy tuyến tính đa biến, điều kiện nào là yêu cầu đối với các biến độc lập?
A Các biến phải là biến danh mục
B Các biến không được có đa cộng tuyến
C Các biến phải là biến thứ bậc
D Các biến phải có phân phối chuẩn
Câu 19: Khi thực hiện phân tích hồi quy tuyến tính trong SPSS, bước đầu tiên là gì?
A Vào thẻ Analyze và chọn Regression
B Nhấn vào nút Statistics trong hộp thoại Regression
C Chọn biến vào ô Dependent và Independent
D Kiểm tra các giả định
Câu 20: Khi thực hiện kiểm định hai phía (two-tailed) cho hệ số tương quan Pearson, giả thuyết