Bảng phân công công việcHọ và tên Công việc được giao Tỉ lệ hoàn thành Cao Trần Minh Thư Chạy mô hình orange ví dụ cho mỗi 100% phương pháp của chương 2 Lời mở đầu, cảm ơn, kết luận tổng
Trang 1TRƯỜNG ĐẠI HỌC KINH TẾ HỒ CHÍ MINH
KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH
BỘ MÔN CÔNG NGHỆ THÔNG TIN
BÁO CÁO TIỂU LUẬN HỌC PHẦN KHOA HỌC DỮ LIỆU
Đề tài: Ứng dụng phân lớp Car evaluation
GVHD: TS.GVC Nguyễn Quốc Hùng
Nhóm thực hiện:
Họ tên sinh viên:
Cao Trần Minh Thư ( Trưởng nhóm)
Nguyễn Lâm Yên Thảo
Đỗ Thị Thanh Thương Ngô Thị Ngọc Trâm Hoàng Thị Thu Hương
TP Hồ Chí Minh, Tháng 6/2021
Trang 2MỤC LỤC
Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 5 Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG VÍ DỤ NHƯ PHẦN MỀM 10 Chương 3: ỨNG DỤNG CÁC PHƯƠNG PHÁP VÀO BÀI TOÁN CỤ THỂ 31 Chương 4: KẾT QUẢ MÔ HÌNH 40Trang 3Bảng phân công công việc
Họ và tên Công việc được giao Tỉ lệ hoàn thành Cao Trần Minh Thư Chạy mô hình orange ví dụ cho mỗi 100%
phương pháp của chương 2 Lời mở đầu, cảm ơn, kết luận tổng thể
Chỉnh sửa tổng hợp các file
Ngô Thị Ngọc Trâm Chạy orange bài toán cụ thể, chuẩn bị tài
liệu của chương 3 100% Chương 4
Đỗ Thị Thanh Thương Soạn tài liệu chươnng 2 100% Nguyễn Lâm Yên Thảo Soạn tài liệu chương 2 100% Hoàng Thị Thu Hương Soạn tài liệu chương 1 100% Tất cả thành viên cùng nhau sửa check đạo văn
Trang 4
Lời giới thiệu
Thời kì 4.0 như hiện nay, việc ứng dụng công nghệ thông tin, tin học hóa được xem là một trong những yếu tố quan trọng mang tính chất quyết định trong các hoạt động, từ của chính phủ, các công ty, các doanh nghiệp sản xuất…Nó đóng vai trò cực kì quan trọng, tạo tiền điền cho sự thành công, những bước đột phá mạnh mẽ
Xu hướng tương lai mà mọi người có thể nhận thấy rằng hầu như tất cả các nghiệp vụ hiện đại ngày nay mà các Data Engineer, các nhà khoa học đang làm hằng ngày sẽ dần được thay thế bởi nhưng công cụ , ứng dụng automation, mang lại sự tiết kiệm trong khâu chi phí thực hiện, sự khả quan và độ chính xác cao Đây là một trong những mục tiêu của ngành công nghiệp đang cố gắng để tự động hóa những công việc tay chân nhàm chán nặng nhọc, thay vào đó những sáng tạo của con người ở những mục tiêu, vai trò trách nhiệm khác quan tring5 hơn
Orange là một trong những công cụ data mining được phát minh nhầm hướng tới
sự tự động hóa này ứng dụng được thiết kế đơn giản, dễ sử dụng nhớ giao diện đơn giản, các chức năng được sắp xếp bố trí một cách mạch lạc dễ hiễu cho mọi người có thể sử dụng
Trong bài tiểu luận này của nhóm, chúng em sẽ tiến hành phân lớp dữ liệu một dataset để làm rõ hơn các ứng dụng của việc phân lớp dữ liệu trong Orange làm như thế nào, làm rõ những phương pháp cũng như là xem xét phương pháp nào
là tốt nhất cho một mô hình…
Do kiến thức cũng như một số kĩ năng còn nhiều hạn hẹp và khó có thể tránh khỏi những sai sót trong quá trình thực hiện, rất mong thầy bỏ qua và góp ý để bài làm của nhóm chúng em được tốt hơn và hoàn thiện hơn.
Trang 5Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI
THIỆU ĐỀ TÀI.
1.Khoa học dữ liệu và các khái niệm liên quan
Khoa học dữ liệu là một ngành mới xuất hiện trong thời gian gần đây trên toàn thếgiới.Với đúng như tên gọi của nó,KHDL tức là 1 ngành khoa học chuyên nghiên cứu
về tất các các loại dữ liệu Dữ liệu được đề cập đến ở đây vô cùng đa dạng và có sốlượng,tốc độ phát triển vô cùng lớn.Dữ liệu có nguồn gốc từ mọi nơi,mọi ngành nghềtrong cuộc sống.Do đó,khái niệm một cách chuyên ngành thì KHDL là việc quản lý vàphân tích các loại dữ liệu,trích xuất các giá trị từ dự liệu từ đó tìm ra các điều mìnhhiểu biết,các tri thức hành động từ các cơ sở dữ liệu và những quyết định dẫn dắt đếnhành động
Bên cạnh khái niệm KHDL thì chúng ta còn làm quen với khái niệm ‘’nhàKHDL’’.Nhà KHDL được hiểu đơn giản tức là những người làm trong ngànhKHDL.Theo Josh Blumenstock: “Nhà KHDL là người biết thống kê nhiều hơnnhà khoa học máy tính và biết khoa học máy tính nhiều hơn nhà thống kê”.Bên cạnh
đó còn có một định nghĩa khác của Shlomo Aragmon như sau: “Nhà KHDL = NhàKhoa học + Lập trình viên + Huấn luyện viên + Người kể chuyện + Nghệ sĩ”…Địnhnghĩa này ý nói sự đa dạng trong công việc của nhà KHDL.Và từ những định nghĩatrên,chúng ta hiểu rằng để trở thành một nhà KHDL chúng ta phải nắm các kiến thức ,sử dụng các kỹ thuật và lý thuyết rút từ nhiều lĩnh vực với biên độ rộng của toánhọc, khoa học thống kê, khoa học thông tin, và khoa học máy tính, bao gồm xử lý tínhiệu, lý thuyết xác suất, học máy, lý thuyết học thống kê, khai phá dữ liệu, cơ sở dữliệu, … vv Để từ đó có thể cho ra những thông tin chính xác và đáng tin cậy
Trang 62.Các chủ điểm chính trong khoa học dữ liệu
KHDL là nơi giao thoa dữ liệu giữa các lĩnh vực khác nhau.Theo sơ đồ venn về khoahọc dữ liệu của drew Conway chúng ta nhận thấy sơ đồ tập trung vào ba khu vực vàgiao điểm chính:
1 Kỹ năng máy tính ở cấp độ thâm nhập: Trong lĩnh vực này, từ “Thâm nhập ”thu hút sự chú ý của chúng ta, cũng như cuốn sách mà Conway là đồng tác giả.Trên thực tế, nó không liên quan đến việc thâm nhập như một hoạt động bấthợp pháp ,chẳng hạn như khả năng làm việc với các tệp văn bản từ dòng lệnh,hiểu các hoạt động vectơ và ma trận và tất nhiên, suy nghĩ trong một cách cực
kỳ thuật toán Rõ ràng, Khoa học dữ liệu yêu cầu dữ liệu và những dữ liệu nàyđược thu thập và quản lý bằng kỹ thuật số, vì vậy công nghệ máy tính là rất cầnthiết Nhiều người sử dụng Python trong Machine Learning, nhưng cũng có R,Julia, Matlab và nhiều ngôn ngữ và nền tảng khác đôi khi khiến những ngườichưa có kinh nghiệm phát điên (tỷ lệ phần trăm cao người dùng mới từ bỏ càiđặt python nếu có vấn đề phụ thuộc)
2 Kiến thức toán học và thống kê: Conway khẳng định không nhất thiết phải cóbằng tiến sĩ thống kê nhưng cần có đủ kiến thức để hiểu và chạy hồi quy tuyếntính và hiểu các hệ số của nó
3 Chuyên môn liên quan: Chuyên môn để biết những gì bạn đang làm và những
gì bạn có thể mong đợi từ nó Biết các quy tắc hơn là định hướng hoạt độngkinh doanh, lĩnh vực và khu vực bạn đang làm việc
3.Vòng đời khoa học dữ liệu
* Hiểu biết Kinh doanh: Chu trình hoàn chỉnh xoay quanh mục tiêu doanh nghiệp Bạn
sẽ giải quyết điều gì nếu bạn không còn gặp vấn đề cụ thể? Điều đặc biệt cần thiết là phải đạt được mục tiêu của doanh nghiệp thương mại một cách chân thành vì thực tế
đó sẽ là mục tiêu cuối cùng của bạn trong quá trình phân tích Chỉ sau khi nhận thức được mong muốn, chúng ta mới có thể đặt ra mục tiêu đánh giá chính xác đồng bộ với mục tiêu của doanh nghiệp Bạn cần hiểu liệu khách hàng có mong muốn giảm thiểu tổn thất tiết kiệm hay họ muốn dự đoán tỷ giá của một loại hàng hóa, v.v
* Hiểu dữ liệu: Điều này bao gồm một loạt tất cả dữ liệu có thể truy cập được Ở đây, bạn cần phải chăm chú làm việc với nhóm doanh nghiệp thương mại vì họ chắc chắn nhận thức được thông tin nào hiện có, dữ kiện nào nên được sử dụng cho vấn đề doanhnghiệp thương mại này và các thông tin khác nhau Bước này bao gồm mô tả dữ liệu, cấu trúc của chúng, mức độ liên quan của chúng, loại bản ghi của chúng Khám phá thông tin bằng cách sử dụng đồ thị Về cơ bản, trích xuất bất kỳ dữ liệu nào mà bạn có thể nhận được về thông tin thông qua việc khám phá dữ liệu một cách đơn giản
* Chuẩn bị dữ liệu: Điều này bao gồm các bước như chọn dữ liệu có thể áp dụng, tích hợp dữ liệu bằng cách hợp nhất các tập dữ liệu, làm sạch nó, xử lý các giá trị bị thiếu thông qua loại bỏ chúng hoặc bổ sung chúng, xử lý dữ liệu không chính xác thông qua loại bỏ chúng, thêm vào đó kiểm tra các ngoại lệ khi sử dụng âm mưu hộp và đối phó với chúng Xây dựng dữ liệu mới, lấy các phần tử mới từ các phần tử hiện tại Định dạng dữ liệu thành cấu trúc ưa thích, loại bỏ các cột và tính năng không mong muốn Chuẩn bị dữ liệu là bước tốn nhiều thời gian nhất nhưng được cho là bước thiết yếu
Trang 7nhất trong chu trình tồn tại hoàn chỉnh Mô hình của bạn sẽ chính xác như dữ liệu của bạn.
*Phân tích Dữ liệu Khám phá: Bước này bao gồm việc tìm hiểu một số khái niệm về câu trả lời và các yếu tố ảnh hưởng đến nó, sớm hơn so với việc xây dựng mô hình thực Phân phối dữ liệu bên trong các biến đặc biệt của một ký tự được khám phá bằng
đồ thị cách sử dụng biểu đồ thanh, Mối quan hệ giữa các khía cạnh khác biệt được ghi lại thông qua các biểu diễn đồ họa như biểu đồ phân tán và bản đồ độ ấm Nhiều chiến lược trực quan hóa dữ liệu được sử dụng đáng kể để khám phá từng đặc điểm riêng lẻ
và bằng cách kết hợp chúng với các tính năng khác nhau
*Mô hình hóa dữ liệu: Mô hình hóa dữ liệu là trung tâm của việc phân tích dữ liệu Một mô hình lấy dữ liệu có tổ chức làm đầu vào và đưa ra đầu ra ưu tiên Bước này bao gồm việc chọn loại mô hình phù hợp(toán hồi quy,toán phân cụm hay là toán phânloại…vv).Sau khi quyết định họ mô hình, trong số các thuật toán trong họ đó, chúng tacần chọn ra các thuật toán để có hiệu lực và thực thi chúng 1 cách tốt nhất chúng ta bên cạnh việc điều chỉnh tham số sao cho thích hợp nhất thì còn cần phải làm cho có
sự ổn định phù hợp giữa hiệu suất tổng thể và khả năng tổng quát hóa Chúng tôi không còn mong muốn mô hình nghiên cứu dữ liệu và hoạt động kém trên dữ liệu mới
*Đánh giá mô hình: Tại đây mô hình sẽ được đánh giá để xem nó có được thiết kế để triển khai hay không? Mô hình kiểm tra dựa trên dữ liệu không nhìn thấy, được đánh giá dựa trên một tập hợp các chỉ số đánh giá được suy nghĩ thận trọng Ngoài ra, chúngtôi cũng cần khẳng định rằng mô hình phù hợp với thực tế Nếu chúng tôi không đạt được kết quả cuối cùng chất lượng trong quá trình đánh giá, chúng tôi phải lặp lại quy trình mô hình hóa hoàn chỉnh cho đến khi đạt được giai đoạn yêu thích của số liệu Bất
kỳ giải pháp khoa học dữ liệu nào, một mô hình học máy, đơn giản giống như con người, phải phát triển, phải có khả năng tự cải tiến với dữ liệu mới, thích ứng với một thước đo đánh giá mới Chúng ta có thể xây dựng nhiều hơn một mô hình cho một hiện tượng nhất định, tuy nhiên, rất nhiều trong số chúng có thể không hoàn hảo Việc đánh giá mô hình giúp chúng tôi lựa chọn và xây dựng một mô hình lý tưởng
*Triển khai mô hình: Mô hình sau khi đánh giá nghiêm ngặt sẽ được triển khai cuối cùng trong cấu trúc và kênh ưu tiên Đây là bước cuối cùng trong vòng đời của khoa học dữ liệu Mỗi bước trong vòng đời của khoa học dữ liệu được xác định ở trên phải được thực hiện cẩn thận Nếu bất kỳ bước nào được thực hiện không đúng cách, và do
đó, sẽ ảnh hưởng đến bước tiếp theo và toàn bộ nỗ lực sẽ trở thành lãng phí Ví dụ: nếu
dữ liệu không còn được tích lũy đúng cách, bạn sẽ mất hồ sơ và bạn sẽ không còn xây dựng được một mô hình lý tưởng Nếu thông tin không được làm sạch đúng cách, mô hình sẽ không hoạt động nữa Nếu mô hình không được đánh giá đúng, nó sẽ thất bại trong thế giới thực Ngay từ khâu nhận thức kinh doanh đến khi triển khai mô hình, mỗi bước đều phải dành sự quan tâm, thời gian và công sức phù hợp
4.Tương lai của khoa học dữ liệu
Khoa học dữ liệu là một lĩnh vực ngày càng phát triển và dự kiến sẽ tăng nhu cầu trong tương lai gần Một số thay đổi quan trọng được liệt kê bên dưới
Trang 8Dữ liệu: Với sự gia tăng triệt để của quá trình tạo dữ liệu, hiệu suất của các thuật toán
dự đoán sẽ cải thiện theo thời gian vì có nhiều dữ liệu có cấu trúc hơn để đưa ra suy luận Hiện tượng này được thúc đẩy bởi sự phát triển của các thiết bị dựa trên Mạng xãhội và IoT, tạo ra nhiều dữ liệu có cấu trúc hơn
Thuật toán: Các thuật toán Máy học như Thuật toán Di truyền và Thuật toán Học tăng cường được mong đợi sẽ cải thiện theo thời gian để tạo ra các hệ thống thông minh hơn
Máy tính phân tán: Với những tiến bộ của công nghệ blockchain, phát triển TPU (Bộ
xử lý căng thẳng) và GPU (Bộ xử lý đồ họa) nhanh hơn có sẵn trên đám mây, Khoa học dữ liệu nhìn thấy một tương lai nơi phần cứng tính toán mạnh mẽ hơn hỗ trợ các thuật toán ngày càng phức tạp
Thêm Dữ liệu và các Thuật toán và Phần cứng được cải tiến cùng nhau được kỳ vọng
sẽ mang lại những cải tiến đáng kể trong lĩnh vực Khoa học Dữ liệu trong tương lai gần
Kết luận
Khoa học dữ liệu là một lĩnh vực nghiên cứu phức tạp được thổi phồng Phần lớn, sự cường điệu là đúng và nó mang lại giải pháp cho các vấn đề như đã hứa Một số lĩnh vực khoa học dữ liệu thậm chí đã bắt đầu vượt trội hơn con người và xu hướng đó dự kiến sẽ tăng lên trong tương lai gần Bạn có thể tham gia khóa đào tạo về Khoa học dữ liệu để nâng cao sự nghiệp của mình
Khoa học dữ liệu chắc chắn là công việc “hấp dẫn nhất” trong thế kỷ 21 Nó xác định ranh giới đang chảy máu của công nghệ hiện tại và hứa hẹn những tiến bộ công nghệ hơn nữa trong tương lai gần Đây cũng là một trong những công việc có nhu cầu và được trả lương cao nhất trong ngành Do đó, không có thời điểm nào tốt hơn để trở thành Nhà khoa học dữ liệu hơn bây giờ!
Giới thiệu về đề tài
1 Khái quát
Dữ liệu xuất hiện từ mô hình phân cấp đơn giản Mục tiêu phân loại là dùng để phân loại các nhóm xe dựa trên các thuộc tính như giá mua, số cửa, số người ngồi, độ an toàn,…
2 Thông tin thuộc tính:
- mua: vhigh, high, med, low
Trang 9- giá bảo trì: vhigh, cao, trung bình, thấp.
Trang 10Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG VÍ DỤ NHƯ PHẦN MỀM Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC
- Cũng giống như các chương trình bảng tính điện tử khác, bảng tính trong Microsoft Excel được xây dựng dựa trên bảng tính giấy và thường được sử dụng trong các công việc kế toán Dữ liệu liên quan sẽ được lưu trữ trong các bảng - là tập hợp các ô chữ nhật nhỏ được sắp xếp thành các hàng và các cột
- Trong thời đại kĩ thuật số ngày càng hiện đại, con người được tiếp cận với công nghệthông tin với mạng và máy tính, với các nguồn thông tin khổng lồ, vì thế mà việc xử lícác thông tin, dữ liệu cũng ngày càng phức tạp và khó khăn hơn Để dễ dàng và thuậnlợi hơn trong các công việc thì con người cần có những thiết kế thông minh, hiện đạigiúp công việc của họ trở nên đơn giản hơn Chính vì vậy, mà phần mềm Excel với rấtnhiều tính năng, công cụ ưu việt đã được sử dụng rộng rãi trong nhiều lĩnh vực ngànhnghề khác nhau như: kế toán, nhân sự hành chính, giáo viên, kĩ sư,… Đặc biệt là tronglĩnh vực của khoa học dữ liệu như thống kê, dự báo, phân tích dữ liệu để đưa ra quyếtđịnh cho các nhà quản trị Mục địch chính của Khoa học dữ liệu là biến một lượng lớncác dữ liệu chưa qua xử lí, làm thế nào để phân tích , đinh vị mô hình kinh doanh, từ
đó giúp các tổ chức giảm được chi phí, tăng hiệu quả làm việc Để làm được nhữngđiều đó thì cần sự hổ trợ của các phần mềm thông minh trong đó Excel cũng chiếmmột vị trí quan trọng
- Excel cung cấp cho người dùng khá nhiều giao diện làm việc, tuy nhiên thì chúng cũng khá giống nhau Excel là chương trình bảng tính điện tử đầu tiên cho phép người dùng có thể thay đổi font, kiểu chữ , hình dạng bảng tính, và gợi ý cho người dùng cách xử lý thông minh hơn Ngoài ra thì Excel còn hỗ trợ việc vẽ đồ thị thì các dữ liệu cho trước, phân tích, thống kê dữ liệu, dự báo phương hướng
2: Một số hàm thông dụng trong Excel:
a/ Hàm COUNT:là hàm dùng để trả về số lượng các ô có kiểu dữ liệu số trong danh sách Ví dụ: = COUNT(2,3,5,7, “A”) → Kết quả: 4
b/ Hàm COUNTA: là hàm dùng để trả về số lượng các ô có nội dung khác rỗng trong danh sách Ví dụ:=COUNTA(4,7,8, B) → Kết quả: 4
c/ Hàm COUNTBLANK: dùng để trả về số lượng các ô có nội dung rỗng trong danh sách
d/ Hàm COUNTIF: hàm dùng để trả về số lượng các ô thỏa mãn điều kiện
Trang 11Ví dụ:
e/ Hàm SUM: dùng để tính tổng các số trong một vùng giá trị
f/ Hàm SUMIF: ( Vùng-chứa-điều-kiện, điều-kiện, [vùng-tính-tổng]) trả về tổng các ô trong vùng tính tổng tương ứng với các ô trong vùng chứa điều kiện thỏa mãn điều kiện Ví dụ:
g/ Hàm SUMPRODUCT: Trả về tổng của tích các ô tương ứng Ví dụ:
h/ Hàm RAND: trả về 1 số ngãu nhiên trong khoảng từ 0 đến 1
i/ Hàm MIN: trả về giá trị nhỏ nhất củ các số trong danh sách
j/ Hàm MAX: trả về giá trị lớn nhất của các ô trong danh sách
k/ Hàm AVERAGE: trả về giá trị tring bình của các ô rong danh sách
l/ Hàm AVERAGEIF (vùng-1, điều-kiện, vùng-2): trả về giá trị trung bình của các ô rong vùng-2 tương ứng giá trị các ô trong vùng-1 thỏa mãn điều kiện Ví dụ:
m/ Hàm VLOOKUP (giá-trị-dò, bảng-dò, cột, kiểu-dò): dùng giá trị dò để dò tìm trên cột dầu tiên của bảng dò (không tìm thấy kết quả trả về #N/A) Ví dụ:
n/ Hàm HLOOLUP(giá-trị-dò, bảng-dò, kiểu-dò): dùng giá-trị-dò để dò tìm trên dòng đầu tiên của bảng-dò ( không tìm thấy trả về #N/A)
B : Công cụ phân tích dữ liệu trong Excel ( Data Analysis):
I: Khái niệm:
Trang 12- Để sử dụng công cụ Data Analysis trong Excel thì chúng ta cần biết được khái niệm phân tích dữ liệu là gì để thực hiện phân tích nó một cách chính xác Vậy, phân tích
dữ liệu là một quá trình kiểm tra, làm sạch, chuyển đổi và mô hình hóa dữ liệu để đưa
ra các thông tin, kết luận và hỗ trợ đưa ra các quyết định hữu ích
- Chúng ta đang bước vào kỷ nguyên số với nhu cầu lưu trữ và khai thác các nguồn dữliệu ngày một lớn Chính vì thế mà các công ty hay các chuyên gia phân tích dữ liệu cần có một công cụ tối ưu, giúp họ thực hiện các phân tích thống kê phức tạp một cách nhanh chóng và chính xác, giúp tiết kiệm thời gian xử lí công việc Nắm bắt được nhu cầu của người dùng, Excel đã đưa ra chức năng Data Analysis để người dùng phân tích dữ liệu một cách dễ dàng hơn
- Data Analysis là công cụ thống kê, chuyên về phân tích dữ liệu trong Excel Các kĩ thuật phân tích có thể thực hiện trong Excel như : tính phương sai, hàm tương quan, hiệp phương sai, thống kê mô tả, hồi quy tuyến tính, làm trơn hàm mũ, báo cáo tổng hợp nhóm, hợp nhất dữ kiệu, tổng hợp dữ liệu đa chiều, phân tích tối ưu,… Đây là những kĩ thuật phân tích phức tạp và mất nhiều thời gian xử lí nếu không có công cụ Data Analysis Nhưng trong phần mềm Excel công cụ Data Analysis bị ẩn và người dùng cần phải kích hoạt nó Như vậy kích hoạch chức năng này như thế nào? Các bước để kích hoạt Data Analysis: gồm có 3 bước:
Bước 1: chọn “File” → chon “Options”
Bước 2: vào mục “Add-Ins” → chọn “Analysis ToolPak” sau đó bấm vào“Go”
Bước 3: Sau khi bấm “Go” thì sẽ hiện ra 1 giao diện cửa sổ “Add-Ins”
Chọn “Analysis ToolPak” rồi bấm “Ok”
II: Nội dung:
1/ Công cụ SUBTOTAL: Chức năng Subtotal cho phép tổng hợp từng nhóm dữ liệucủa các cột kiểu số trong cơ sở dữ liệu, chẳng hạn như tìm tổng, số lớn nhất, số nhỏnhất, số trung bình, … Kết quả tổng hợp được đặt trên hay dưới mỗi nhóm
Cách thực hiện:
Bước 1: sắp xếp dữ liệu theo cột muốn gom nhóm ( Nhân viên thực hiện)
Bước 2: chọn cơ sở dữ liệu hay trỏ chuột vào một ô bất kì
Bước 3: chọn Data → Outline → Subtotal, xuất hiện hộp thoại Subtotal
+ At each change in: chọn cột gom nhóm.
+ Use funtion: chọn hàm thống kê để tổng hợp dữ liệu.
+ Add subtotal to: chọn cột thống kê giá trị.
+ Replace curent subtotals: chọn để thay kết quả thống kê trước đó.
+ Page break between group: chọn để ngắt trang giữa các nhóm, khi in ra giấy
thì mỗi nhóm một trang giấy
+ Summary below data: chọn để kết quả tổng hợp dưới mõi nhóm.
+ Remove All: để xóa bỏ các kết quả tổng hợp.
Bảng dữ liệu cần tổng hợp:
Trang 13Bảng tổng hợp số tiền từng nhân viên bán:
2/ Công cụ CONSOLIDATE:
- Cho phép hợp nhất dữ liệu từ nhiều bảng dữ liệu khác nhau
- Consolidate có thể hợp nhất dữ liệu theo 2 hình thức:
+ Tổng hợp theo vị trí: các bảng dữ liệu giống nhau về cấu trúc
+ Tổng hợp theo hạng mục (theo hàng và theo cột): các bảng dữ iệu khác nhau vềcấu trúc
Các bước thực hiện:
1 Chọn vùng sẽ chứa dữ liệu được hợp nhất
2 Chọn Data → Data Tools → Consolidate, xuất hiện hộp thoại consolidate
+ Funtion: chọn hàm tổng hợp.
+ Reference: để tham chiếu lần lượt cá bảng dữ liệu nguồn.
+ All Reference: chứa tất cả các vùng dữ liệu nguồn cần thiết cho việc hợp nhất + Top row: chọn nếu muốn dung tên của vùng nguồn.
+ Left column: chọn nếu muốn dùng các giá trị đầu tiên của vùng nguồn.
+ Create links to source data: chọn nếu muốn dữ liệu hợp nhất được cập nhật mỗi
khi có thay đổi ở vùng dữ liệu nguồn
Trang 14a/ Phương pháp: Trung bình trượt (Moving Average)
Trang 15b/ Phương pháp: San bằng mũ ( Exponential Smoothing)
Cách thực hiện:
1 Chuẩn bị bảng số liệu cần dự báo
2 Chọn lệnh Data Data Analysis Exponential Smoothing
3 Khai thác thông sô Input và Output Options
+ Input Range: tham chiếu đến vùng dữ liệu thực tế.
+ Damping factor: giá trị dùng làm hệ số san bằng Đó là giá trị dùng để điều
chỉnh sự bất ổn dữ liệu, giá trị mặc định là Damping factor=0.3
+ Labels: tùy chọn hàng/ cột đầu tiên có chứa tiêu đề hay không.
Cách thực hiện:
1.Chuẩn bị bảng số liệu cần dự báo
2 Chọn lênh Data → Data Analysis → Moving Average, xuất hiện hộp thoạiMoving Average
3 Khai thác các thông số Input và Output Options
+ Input Range: tham chiếu đến vùng dữ liệu thực tê.
+ Labels in First Row: khai báo dòng đầu tiên của input range có chứa tiêu đề
cột hay không
+ Interval: số lượng các kì trước đó muốn tính (w).
+ Output Range: tham chiếu đến vùng xuất kết quả Những ô không đủ số lượng
trước đó để tính toán sẽ nhận giá trị #N/A
+ Chart Output: tùy chọn dùng tạo biểu đồ nhúng cùng với vùng xuất kết quả.
Trang 16
c/ Phương pháp: Hồi quy (Regression): là nghiên cứu sự phụ thuộc của một biến ( biếnphụ thuộc) vào một hay nhiều biến khác (biến độc lập)
Cách thực hiện bằng công cụ Regression:
1 Chuẩn bị bảng số liệu cần dự báo
2 Chọn lệnh Data Data Analysis Regression, xuất hiện hộp thoại Regression
3 Khai báo các thông số Input và Output Opions
+ Input Y Range: vùng địa chỉ chứa biến phụ thuộc Y.
+ Input X Range: vùng địa chỉ chứa biến đọc lập X.
+ Labels: click vào mục này khẳng định ô đầu tiên không chứa giá trị hồi quy.
+ Constant is Zero: tích vào mục này để khẳng định hệ số tự do của hàm hồi qui
tuyến tính a = 0
+ Confident Level: độ tin cậy của hàm hồi quy (mạc định là 95%).
+ Output Range: vùng hoạc ô phía bên trái của chứa vùng kết quả.
+ New Worksheet Ply: in kết quả ra một sheet khác.
+ New Workbook: in kết quả ra một file Excel mới.
+ Residuals: sai số ngẫu nhiên
+ Standardlized Residuals: chuẩn hóa sai số.
+ Residuals Plots: đồ thị sai số.
+ Line Fit Plots: đồ thị hàm hồi qui tuyến tính.
+ Normal Probability Plots: đồ thị xác suất phân phối chuẩn.
Trang 175/ Phân tích tối ưu: là sử dụng công cụ Solver trong Excel cung cấp các lệnh và cáctính năng để giải quyết vấn đề về quyết định Solver Add-Ins đặc biệt hữu dụng vớicác bài toán tối ưu, ví dụ như tối thiểu chi phí, tối ưu hóa lợi nhuận… Qui trình giảiSolver cần thực hiện các bước sau:
1 Xây dựng hàm mục tiêu
2 Xây dựng các ràng buộc
3 Tổ chức dữ liệu trên bảng tính excel
4 Sử dụng Solver để tìm phương án tối ưu: chọn lệnh Data → Analysis → Solver.Khai báo các tham số của bài toán
B Phần mềm orange:
Trang 18Lập trình và thống kê toán là một trong những kĩ năng không thể thiếu để tiến hành xây dựng các mô hình phân tích và nghiên cứu phức tạp Các công cụ automation mạnh mẽ, trực quan và tiết kiệm được chi phí thực nghiệm đang dần được sử dụng rộng rãi nhằm đem lại hiệu quả cao hơn.
Orange là một trong những công cụ Data mining nhắm đến mục tiêu tự động hoá Đây là một công cụ cực kỳ dễ sử dụng, gọn nhẹ, kéo và thả, nhờ vào giao diện nhỏ gọn, các toolbox được sắp xếp hợp lý mạch lạc mà ai cũng có thể bắt đầu Trên Dialog Welcome của orange có phân ra các mục Tutorials và
Examples để có thể tham khảo nhanh cách sử dụng, đánh giá các ví dụ rất dễ hiểu Và quan trọng hơn, nó là nguồn mở.
Orange làm được gì? Orange cung cấp cho người dùng tập các toolbox tinh gọn
nhất chúng ta có thể bắt tay ngay vào phân tích dữ liệu:
Data: dùng để rút
trích, biến đổi, và nạp dữ liệu (ETL process).
Visualize: dùng
để biểu diễn biểu
đồ (chart) giúp quan sát dữ liệu được tốt hơn.
fan Deep-learning based
đang theo đuổi.
Trang 19Evaluate: các phương pháp đánh giá mô hình máy học.
Unsupervised: gồm các hàm
machine learing gom nhóm dữ liệu.
Orange là một nền tảng được xây dựng để tạo các đường ống học máy trên quy trình làm việc GUI Những người không có kỹ năng
mã hóa có thể vận hành Orange một cách dễ dàng Người ta có thể thực hiện mọi nhiệm vụ ngay từ khi chuẩn bị dữ liệu đến đánh giá mô hình mà không cần viết một dòng mã nào.
Chỉ mất 30 phút để tạo một mô hình bằng Orange Không có bất kỳ kinh nghiệm nào trước đây về việc sử dụng một công cụ, cùng một kiểu mô hình demo phải mất hơn một giờ để được xây dựng bằng các công cụ nguồn mở khác.
Tiến hành phân lớp dữ liệu cần 2 bước:
- Bước 1: Xây dựng mô hình
- Bước 2: Sử dụng mô hình – kiểm tra tính đúng đắn của mô hình và dùng nó
để phân lớp dữ liệu mới
Trang 20Một số phương pháp phân lớp:
1 Cây quyết định (Decision Tree):
Trong lý thuyết quản trị, cây quyết định là một đồ thị của các quyết định cùng các kết quả có thể xảy ra của nó nhằm xây dựng một kế hoạch để đạt được mục tiêu mong muốn
Trong lĩnh vực khai thác dữ liệu, cây quyết định là một kiểu mô hình dữ báo, một phương pháp thông dụng nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước
Thuật toán dùng trong phần mềm orange: TREE (Thuật toán với sự đơn giản
hóa dữ liệu):
Đầu vào
o Dữ liệu: dữ liệu đầu vào
o Tiền xử lý: phương pháp tiền xử lý
Đầu ra
o Learner: thuật toán quyết định Tree
o Mô hình: mô hình được đào tạo
Tree là một thuật toán đơn giản phân chia dữ liệu thành các nút bởi các lớp dữ liệu Nó
là tiền thân của Random Forest Tree trong phần mềm Orange được
thiết kế bên
trongvà có thể xử lý cả bộ dữ liệu rời rạc và liên tục Nó cũng có thể được sử dụng cho cả nhiệm vụ phân loại và hồi quy
Name: Người học có
thể được đặt tên theo
ý muốn Tên mặc định là Tree
Thông số:
Induce binary tree:
xây dựng cây nhị phân (chia thành hai nút con)
Min number of instances in leaves:
(số tối thiểu các ví dụlá) nếu được chọn, thuật toán sẽ không bao giờ đặt số nút ít hơn số dữ liệu tham khảo
Trang 21Do not split subsets smaller than (Không phân chia các tập hợp nhỏ hơn): cấm thuật
toán phân chia các nút có ít hơn số lượng ví dụ đã cho
Limit the maximal tree depth (Giới hạn độ sâu cây tối đa): giới hạn độ sâu của cây
phân loại ở số cấp nút được chỉ định
Stop when majority reaches (Dừng khi đa số đạt) [%]: dừng phân chia các nút sau khi
đạt đến phần lớn ngưỡng đã chỉ định
Tạo một báo cáo Sau khi thay đổi cài đặt, bạn cần nhấp vào Apply Ngoài ra, đánh dấu
vào ô bên trái và các thay đổi sẽ tự động lưu
Ưu khuyết điểm:
Ưu điểm:
- Dễ hiểu.
- Không đòi hỏi việc chuẩn hóa dữ liệu.
- Có thể xử lý trên nhiều kiểu dữ liệu khác nhau.
- Xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn.
Khuyết điểm:
- Khó giải quyết trong tình huống dữ liệu phụ thuộc thời gian.
- Chi phí xây dựng mô hình cao.
Mô hình Demo bằng công cụ orange
2 Hồi quy logistic (Logistic Regression)
Hồi quy logistic là một thuật toán khác được mượn bởi machine learning từ lĩnhvực thống kê Đây là phương thức tốt nhất cho các vấn đề phân loại nhị phân (vấn đề với hai lớp giá trị)
Là môt mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một tập các giá trị đầu vào (biểu diễn dưới dạng vector)
Trang 22 hồi quy logistic hoạt động tốt hơn khi bạn loại bỏ các thuộc tính không liên quan đến biến đầu ra cũng như các thuộc tính tương tự nhau Đây là một mô hình có thể học hỏi nhanh và có hiệu quả với các vấn đề phân loại nhị phân.
Thuật toán dùng trong phần mềm orange: Thuật toán phân loại hồi quy logistic với chính quy hóa LASSO (L1) hoặc sườn núi (L2)
Đầu vào
o Dữ liệu: dữ liệu đầu vào
o Tiền xử lý: phương pháp tiền xử lý
Đầu ra
o Học viên: thuật toán học hồi quy logistic
o Mô hình: mô h.nh được đào tạo
o Các hệ số: hệ số hồi quy logistic
Hồi quy logistic học mô hình hồi quy logistic từ dữ liệu Nó chỉ hoạt động cho các nhiệm vụ phân loại:
1 Một cái tên mà theo
đó người học xuất hiện trong các vật dụng khác Tên mặc định là Hồi quy Logistic
2 Quy tắcloại (hoặc L1hoặcL2) Đặt cường độ chi phí (mặc định là C = 1)
3 Nhấn Áp dụng để cam
kết thay đổi Nếu Áp dụng
Tự động được đánh dấu, các thay đổi sẽ được truyềnđạt tự động