Những công cụ được sử dụng để phân tích dữ liệu hiện nay Ngoài ra, còn một số phần mềm được sử dụng để phân tích số liệu lớn Big data như: Azure HDInsight, Elaticsearch, Lumify, Apache
Trang 1Hà Nội
Viện Điện
Trang 2I Tổng quan về phân tích dữ liệu
II Phần mềm phân tích dữ liệu và Excel
III Ứng dụng Excel trong phân tích và xử lí số liệu
IV Kết luận
BỐ CỤC
Trang 3Chương I : Tổng quan về phân tích dữ liệu
1.1 Lý do cần phần tích dữ liệu
Dữ liệu là thông tin dưới dạng dữ kiện hoặc dạng số, được thu thập để kiểm tra, đánh giá và sử dụng
để giúp ra quyết định; hoặc dưới dạng phiếu điện tử mà máy tính có thể lưu trữ và sử dụng được
Hiện nay, nhiều lĩnh vực trên thế giới đang dần được số hoá và dữ liệu hóa Trên cơ sở dữ liệu hóa đó giúp cho người dùng dễ dàng tiếp cận, theo dõi, quản lí, phân tích và đánh giá vấn đề đang quan tâm, tìm hiểu trong suốt quá trình nghiên cứu, khảo sát
Phân tích dữ liệu quá trình phát hiện, giải thích và truyền đạt các mô hình có ý nghĩa trong dữ liệu Đặc biệt có giá trị trong các lĩnh vực có nhiều thông tin được ghi lại, phân tích dựa vào sự ứng dụng đồng thời của số liệu thống kê, lập trình máy tính và nghiên cứu hoạt động để định lượng hiệu suất.
Ứng dụng của phân tích dữ liệu: giao thông, công nghệ, y tế, con người, an toàn thông tin, kinh doanh
thường mại, an ninh, ….
Trang 4Chương II : Phần mềm phân tích dữ liệu và Excel
2.1 Những công cụ được sử dụng để phân tích dữ liệu hiện nay
Ngoài ra, còn một số phần mềm được sử dụng để phân tích số liệu lớn (Big data) như: Azure HDInsight, Elaticsearch, Lumify, Apache SAMOA, Plotly, Apache Spark, Splice Machine,… cung cấp các mô hình phân tích, giúp cho các cá nhân, nhóm, hệ thống và doanh nghiệp có hệ thống các thuật toán và kỹ thuật phân tích tiên tiến, khoa học.
Trang 52.2 Phần mềm Excel
2.2.1 Giới thiệu chung về Excel
Phần mềm bảng tính dùng để trợ giúp tính toán được sử dụng rộng rãi trong nhiều lĩnh vực nghiên cứu khoa học, phân tích tài chính, kế toán – thống kê…Có rất nhiều chương trình phần mềm bảng tính khác nhau ví dụ như Excel, Google trang tính, …Trong số đó, đồ án tập trung vào nghiên cứu ứng dụng Excel
Microsoft Excel là một chương trình ứng dụng thuộc bộ Microsoft Office, là một công cụ mạnh
để thực hiện các bảng tính chuyên nghiệp Cũng như các chương trình bảng tính Lotus, Quattro,
… bảng tính của Excel cũng bao gồm nhiều ô được tạo bởi các dòng và cột, việc nhập dữ liệu và tính toán trong Excel cũng có những điểm tương tự
Excel là chương trình xây dựng cơ sở dữ liệu và phân tích số liệu của hàng triệu doanh nghiệp trên thế giới Trẻ em cũng được học sử dụng ở trường Excel, với nhiều tính năng mới trong phiên bản cập nhật gần đây, xứng đáng giữ vững vị trí phần mềm xử lý dữ liệu hàng đầu thế giới
Chương II : Phần mềm phân tích dữ liệu và Excel
Trang 62.2 Phần mềm Excel
2.2.2 Các thao tác cơ bản trong Excel
Thao tác ban đầu: Khởi động, trang bảng tính, thoát khỏi Excel, lưu giữ và đóng bảng tính
Nhập dữ liệu trong bảng tính
Hiệu chỉnh và định dạng bảng tính
Sử dụng các hàm cơ bản trong Excel: Hàm số học, hàm kí tự, hàm Logic, hàm điều kiện, …
Đồ thị trong Excel: vẽ, hiệu chỉnh và định dạng đồ thị
2.2.3 Phiên bản Excel trong Office 365 mới nhất hiện nay
Dạng biểu đồ mới (dạng biểu đồ, dạng phễu,…)
Tính năng vẽ ưu việt (sử dụng bút chì số, viết tay phương trình,…)
Chia sẻ liên kết dễ dàng hơn (chèn liên kết gần đây, lưu nhanh vào các thưc mục gần
đây,…)
Chương II : Phần mềm phân tích dữ liệu và Excel
6
Trang 72.2 Phần mềm Excel
2.2.4 Lí do sử dụng Excel để phân tích dữ liệu
Excel đã trở thành một công cụ quản lí và phân tích dữ liệu quan trọng trong mọi lĩnh vực hiện nay
Excel có nhiều tính năng ưu việt và có giao diện rất thân thiện với người sử dụng
Excel Office 365 cung cấp rất nhiều thông tin quan trọng cho người dùng trong việc tiếp cận các tính năng mới để phân tích, quản lí, theo dõi dữ liệu một cách hiệu quả, thuận tiện.
Nhờ vào các ô bảng tính với các cột được đánh dấu bằng chữ trong khi các dòng ngang được đánh dấu bằng số giúp thao tác tìm kiếm và chèn dữ liệu dễ dàng, thực hiện các phép tính toán hay các hàm phức tạp hay tạo chart, biểu đồ hay histogram bằng cách chèn dữ liệu vào.
Chương II : Phần mềm phân tích dữ liệu và Excel
Trang 8Chương III : Ứng dụng Excel trong phân tích và xử lí số liệu
3.1 Ứng dụng VBA xử lý dữ liệu trong Excel
• VBA (Visual Basic for Applications) là ngôn ngữ lập trình của Excel nói riêng và các ứng dụng khác của Microsoft Office nói chung Nó được tích hợp sẵn trong các ứng dụng của Microsoft Office
• Lập trình VBA trong Excel làm cho máy tính có khả năng tự động thực hiện các thao tác người dùng muốn làm trong Excel Vì vậy, khi muốn thực hiện chức năng nào đó
ta chỉ cần gọi các câu lệnh đã lập trình sẵn bằng VBA thì Excel sẽ tự động thực hiện các thao tác đó một cách nhanh chóng và tiết kiệm thời gian so với sử dụng bằng tay.
8
Trang 9Chương III : Ứng dụng Excel trong phân tích và xử lí số liệu
3.1 Ứng dụng VBA xử lý dữ liệu trong Excel
Để lập trình VBA trong Excel 365 ta thực hiện
các bước sau:
a) Chọn File Options một cửa sổ Excel
Options hiện ra
b) Trong cửa sổ Excel Options ta chọn
Customize Developer rồi nhấn OK
c) Khi đó trên thanh công cụ Excel sẽ xuất
hiện thẻ Developer Chọn Developer
Visual Basic
d) Một cửa sổ Visual Basic for Applications
sẽ mở ra Click chuột phải vào
VBAProject chọn Insert Module
Hình 3.1 Cửa sổ Visual Basic for Applications
Trang 10Chương III : Ứng dụng Excel trong phân tích và xử lí
số liệu
3.2 Ví dụ dùng VBA xử lí số liệu tìm công thức xấp xỉ của mối quan hệ giữa độ rọi (lux) của ánh sáng với điện trở của quang trở
Bảng 3.1 là dữ liệu về điện trở và độ rọi
của một quang trở Ta cần đi xác định mối
quan hệ giữa điện trở và độ rọi đó
Để thực hiện điều đó ta có thể dùng
VBA xử lý dữ liệu và tìm công thức xấp xỉ
cho mối quan hệ giữa điện trở và độ rọi
(lux) của một quang trở.
Trang 11Chương III : Ứng dụng Excel trong phân tích và xử lí số liệu
3.2 Ví dụ dùng VBA xử lí số liệu tìm công thức xấp xỉ của mối quan hệ giữa độ rọi (lux) của ánh sáng với điện trở của quang trở
Khi ánh sáng chiếu vào quang trở thì điện trở của
quang trở thay đổi, ánh sáng càng sáng thì điện trở
càng giảm, tuy nhiên mối hệ giữa điện trở và ánh
sáng không phải là tuyến tính mà thay đổi theo cấp số
nhân (Như hình 3.2).
Tuy nhiên dạng mỗi quan hệ giữa log(lux) và log(R )
có thể coi là tuyến tính có dạng(Như hình 3.3):
log(lux) = m*log(R ) + b (3.1)
Từ đó ta có thể xấp xỉ công thức mối quan hệ của độ
rọi và điện trở là:
lux = Rm * 10b (3.2)
Hình 3.2 Mối quan hệ giữa điện trở (R) và độ rọi (lux)
Hình 3.3 Mối quan hệ giữa log(lux) và log(R )
Trang 12Chương III : Ứng dụng Excel trong phân tích và xử lí
số liệu
3.2 Ví dụ dùng VBA xử lí số liệu tìm công thức xấp xỉ của mối quan hệ giữa độ rọi (lux) của ánh sáng với điện trở của quang trở
Thuật toán thực hiện các bước xử lý như sau:
Đầu tiên ta nhập các giá trị tương ứng của điện trở(R ) và
độ rọi(lux) của quang trở vào bảng trong Sheets
rawData.
Sau khi nhập xong ta chạy đoạn code như ở PL1 Đầu
tiên ta sẽ tìm kích thước của bảng đã nhập trong Sheets
rawData(số hàng và cột) Dựa vào kích thước đã tìm
được ta copy vùng dữ liệu cần xử lý trong Sheets
rawData xang Sheets Lux_Analysis.
Sau khi dữ liệu được copy xang Sheets Lux_Analysis ta
tính toán log10(lux) và log10(R) Bằng cách dùng vòng lặp
for ta có thể dễ dàng tính toán các giá trị trên tương ứng
với từng giá trị lux và R trong bảng dữ liệu
Hình 3.4 Lưu đồ thuật toán
12
Trang 13Chương III : Ứng dụng Excel trong phân tích và xử lí
số liệu
3.2 Ví dụ dùng VBA xử lí số liệu tìm công thức xấp xỉ của mối quan hệ giữa độ rọi (lux) của ánh sáng với điện trở của quang trở
- Tiếp theo ta sử dụng các giá trị log10(lux) và
log10(R) tính toán được ở trên để đi tìm tham số
m và b trong công thức xấp xỉ (3.2).
- Với giá trị tìm được của m và b ta tính toán được
giá trị của lux theo công thức (3.2) Đây là giá trị
tính toán theo công thức xấp xỉ nên cần tiến hành
so sánh với giá trị thực tế Ta tính sai số tương
đối để thực hiện việc so sánh đó.
- Cuối cùng sau tất cả các bước trên việc tính toán
đã hoàn thành và đoạn code đã chạy xong.
Hình 3.4 Lưu đồ thuật toán
Trang 14Chương III : Ứng dụng Excel trong phân tích và xử lí
số liệu
3.2 Ví dụ dùng VBA xử lí số liệu tìm công thức xấp xỉ của mối quan hệ giữa độ rọi (lux) của ánh sáng với điện trở của quang trở
Kết quả đạt được khi thực hiện với dữ liệu như
trong Bảng 3.1 (Như trong hình 3.5)
Các giá trị tìm được là:
m = -0.255493441
b = 4.143133773
Với các giá trị trên ta có công thức xấp xỉ
mối quan hệ của độ rọi và điện trở là:
Trang 15Chương III : Ứng dụng Excel trong phân tích và xử lí
số liệu
3.2 Ví dụ dùng VBA xử lí số liệu tìm công thức xấp xỉ của mối quan hệ giữa độ rọi (lux) của ánh sáng với điện trở của quang trở
Dùng công thức 3.3 ta tính toán được giá trị độ
rọi(lux ) theo điện trở (r ) như bảng 3.2
Sai số tương đối giữa giá trị xấp xỉ tính theo công thức
(3.3) và giá trị thực tế được tính toán và thể hiện trong bảng
3.2
Từ bảng 3.2 ta thấy sai số tương đối của công thức khá
nhỏ Hầu hết sai số khoảng dưới 4% Điều đó cho thấy việc
tính toán công thức khá chính xác
Qua ví dụ trên ta thấy việc ứng dụng VBA vào
trong tính toán xử lý dữ liệu giúp tiết kiệm thời gian và có
độ chính xác khá cao Ta có thể xử lý những bộ dữ liệu
tương tự một cách nhanh chóng hơn
Hạn chế còn tồn tại khi thực hiện xử lý bằng đoạn
code này là khi nhập giá lux và r vào mà để trống một số ô
giá trị nào đó sẽ khiến quá trình tính toán bị sai lệch
Giá trị lux tính theo công thức tìm được Sai số tương đối
Trang 16Chương III : Ứng dụng Excel trong phân tích và xử lí số liệu 3.3 Ví dụ dùng VBA phân tích dữ liệu về nhiệt độ của các ngày trong tháng
Trang 17Chương III : Ứng dụng Excel trong phân tích và xử lí
số liệu
3.3 Ví dụ dùng VBA phân tích dữ liệu về nhiệt độ của các ngày trong tháng
Thuật toán thực hiện các bước xử lý như sau:
- Đầu tiên ta import dữ liệu vào Excel như đã nói ở trên.
- Sau khi import dữ liệu ta copy dữ liệu bao gồm Year, Month,
Day, Hour, Minute, Temperature từ Sheets data_raw xang Sheets
data.
- Dùng lặp for để gộp các giá trị Year, Month, Day lại thành một
cột date và các giá trị Hour, Minute lại thành một cột time trong
Sheets data.
- Xác đinh vị trí các cột date, time, Temperature per hour trong
Sheets data
- Copy cột date từ Sheets data xang Sheets analysis Trong Sheets
analysis cột date được xử lý để lọc bỏ các giá trị trùng lặp Sau
đó ta copy cột giờ trong Sheets data xang Sheets analysis, lọc bỏ
các giá trị trùng lặp và chuyển thành hàng từ 0h đến 23h
Trang 18Chương III : Ứng dụng Excel trong phân tích và xử lí
số liệu
3.3 Ví dụ dùng VBA phân tích dữ liệu về nhiệt độ của các ngày trong tháng
- Tìm vị trí cột Temperature per hour để copy dữ liệu từ cột này
trong Sheets data xang Sheets analysis Ở Sheets analysis dữ liệu
nhiệt độ được xếp theo hàng ứng với mỗi ngày
- Cuối cùng trong Sheets analysis ta tính giá trị trung bình nhiệt độ
trong ngày, tìm giá trị nhiệt độ lớn nhất và nhỏ nhất trong ngày
Các giá trị này sau đó sẽ dùng để dự báo nhiệt độ trung bình,
nhiệt độ lớn nhất, nhỏ nhất cho các ngày sau Sau đó tạo một
Workbooks để lưu kết quả dự báo đó
Hình 3.22 Lưu đồ thuật toán dự báo nhiệt độ
18
Trang 19Chương III : Ứng dụng Excel trong phân tích và xử lí
số liệu 3.3 Ví dụ dùng VBA phân tích dữ liệu về nhiệt độ của các ngày trong tháng
Hình 3.27 Kết quả dự báo nhiệt độ lớn nhất trong ngày
• Kết quả dự đoán dựa trên nhiệt độ lớn nhất trong ngày (Như hình 3.27)
Trang 20Chương III : Ứng dụng Excel trong phân tích và xử lí
Trang 21Chương III : Ứng dụng Excel trong phân tích và xử lí số liệu
3.3 Ví dụ dùng VBA phân tích dữ liệu về nhiệt độ của các ngày trong tháng
Từ bảng trên ta thấy kết quả dự báo dựa trên
trung bình nhiệt độ trong ngày khá chính xác
trong một vài ngày đầu tiên Các ngày tiếp theo
dự báo không còn chính xác nữa Càng về sau
kết quả dự báo càng sai khác nhiều Các dự báo
dựa trên nhiệt độ lớn nhất và nhỏ nhất trong
ngày độ chính xác thấp hơn so với dự báo dựa
trên trung bình nhiệt độ trong ngày
Trang 22Chương III : Ứng dụng Excel trong phân tích và xử lí số liệu
3.3 Ví dụ dùng VBA phân tích dữ liệu về nhiệt độ của các ngày trong tháng
Một số hạn chế còn tồn tại khi thực hiện xử lý dữ liệu nhiệt độ là:
o Khi Workbooks lưu kết quả xử lý đang được mở mà ta chạy đoạn code
xử lý sẽ gây ra lỗi Vì vậy cần đóng Workbooks này trước khi thực
hiện chạy đoạn code.
o Tên Workbooks lưu kết quả xử lý là cố định vì vậy mỗi lần thực hiện
chạy code sẽ ghi đè nội dung mới lên file đã tồn tại
22
Trang 23KẾT LUẬN
• Microsoft Excel là một ứng dụng bảng tính khá phổ biến hiện nay, được nhiều người sử dụng để thu thập và phân tích dữ liệu, nâng cao, tạo lập và khai thác cơ sở dữ liệu, phân tích và dự đoán, dự báo kinh tế, vẽ đồ thị, …Người dùng có thể sử dụng bảng tính trong Excel để giải quyết các bài toán kinh tế, kế toán, tài chính và các cơ sở dữ liệu trong quá trình học tập, nghiên cứu cũng như làm việc, phân tích và quản lí dữ liệu sau này.
• Hiện nay có rất nhiều phần mềm phân tích số liệu là một công cụ không thể thiếu đối với các nhà thống kê ở nhiều lĩnh vực như: SAS, SPSS, STATA, R…đặc biệt là phần mềm Excel phù hợp với nhiều đố tượng với tính năng dễ dàng tiếp cận và sử dụng
• Với những tính năng ưu việt trên, Excel đã trở thành một công cụ quản lí và phân tích dữ liệu quan trọng trong mọi lĩnh vực hiện nay
• Microsoft Excel phù hợp với nhiều đối tượng từ doanh nhân, sinh viên, chuyên gia hay bất kỳ ai muốn thu thập và phân tích dữ liệu
Trang 24EM XIN CẢM ƠN THẦY CÔ VÀ CÁC BẠN
ĐÃ CHÚ Ý THEO DÕI