BỘ GIÁO DỤC VÀ ĐÀO TẠOĐẠI HỌC UEH KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH BÀI TIỂU LUẬN CUỐI KỲ MÔN KHOA HỌC DỮ LIỆU NGHIÊN CỨU CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG ĐỂ DỰ BÁO KHẢ NĂN
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC UEH KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH
BÀI TIỂU LUẬN CUỐI KỲ MÔN KHOA HỌC DỮ LIỆU
NGHIÊN CỨU CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG ĐỂ DỰ BÁO KHẢ NĂNG ĐĂNG KÝ MỘT KHOẢN TIỀN GỬI
CÓ KỲ HẠN CỦA KHÁCH HÀNG
Giảng viên hướng dẫn: : TS Thái Kim Phụng
Mã lớp học phần: : 22C1INF50905971 – Sáng thứ 2 Nhóm sinh viên thực hiện – MSSV : Nguyễn Bảo Hà - 31211026611
Ng Hồ Quỳnh Hoa - 31211024872
Trang 2Châu Yến Linh - 31211022112 Thái Ái Thuận - 31211023244
Thành phố Hồ Chí Minh, ngày 30 tháng 10 năm 2022
Trang 3DANH SÁCH THÀNH VIÊN
Trang 4LỜI CẢM ƠN
Lời đầu tiên, chúng em xin gửi lời cảm ơn chân thành nhất đến thầy TháiKim Phụng Trong suốt quá trình học tập và tìm hiểu bộ môn “Khoa học dữliệu”, chúng em đã nhận được rất nhiều sự quan tâm giúp đỡ, hướng dẫn tậntình từ thầy Để có thể hoàn thành dự án này, không chỉ có công sức và sự cốgắng của các thành viên trong nhóm mà còn nhờ sự giúp đỡ của thầy
Do kiến thức còn nhiều hạn chế nên bài dự án này của chúng em có thể sẽkhông tránh khỏi được những thiếu sót Bản thân chúng em rất mong nhậnđược nhận những góp ý đến từ thầy để bài luận này có thể hoàn thiện hơn.Chúng em tin rằng đây sẽ là những hành trang vô cùng bổ ích trên conđường sau này Một lần nữa nhóm xin gửi lời cảm ơn chân thành đến thầy, xinchúc thầy luôn nhiều sức khỏe, hạnh phúc và thành công trên con đường sựnghiệp
Chúng em xin chân thành cảm ơn!
Trang 5DANH MỤC CHỮ VIẾT TẮT
Trang 6DANH MỤC BẢNG BIỂU- HÌNH VẼ VÀ BIỂU ĐỒ
Hình 1 : Làm sạch dữ liệu 10
Hình 2 : Lựa chọn dữ liệu 11
Hình 3 : Quy trình khai phá dữ liệu 12
Hình 4 : Bước 1 của quá trình trình phân lớp: Xây dựng mô hình phân lớp .14
Hình 5 : Bước 2.1 của quá trình trình phân lớp: Đánh giá mô hình 15
Hình 6 : Bước 2.2 của quá trình trình phân lớp: Phân lớp dữ liệu mới 15
Hình 7 : Minh họa thuật toán phân lớp Hồi quy Logistic (Logistic Regression) 16
Hình 8 : Minh họa thuật toán phân lớp cây quyết định (Decision tree) 17
Hình 9 : Minh họa thuật toán phân lớp Support Vector Machine (SVM) .18 Hình 10 : Minh họa thuật toán phân lớp Mạng Nơ ron nhân tạo (Neural Network) 19
Hình 11 : Minh họa phương pháp ma trận nhầm lẫn (Confusion matrix) .22 Hình 12 : Minh họa phương pháp ROC 24
Hình 13 : Minh họa phương pháp AUC 25
Hình 14 : Mô tả các thuộc tính của các biến 30
Hình 15 : Mô tả các thuộc tính của các biến 31
Hình 16 : Mô tả các thuộc tính của các biến 31
Hình 17 : Tổng quan về quy trình huấn luyện và dự báo bằng sơ đồ 32
Hình 18 : Kết quả của mô hình đánh giá phân lớp bằng Hồi quy logistic 32
Hình 19 : Ma trận nhầm lẫn với Hồi quy logistic 33
Hình 20 : Các thuộc tính của bộ dữ liệu dự báo 34
Hình 21 : Các thuộc tính của bộ dữ liệu dự báo 34
Hình 22 : Các thuộc tính của bộ dữ liệu dự báo 34
Hình 23 : Kết quả của dự báo bằng Hồi quy logistic 35
Hình 24 : Chỉ số Logistic Regression 35
Trang 8CHƯƠNG 1: GIỚI THIỆU 1.1 Lý do chọn đề tài
Với sự phát triển nhanh chóng của internet hiện nay thì các thiết bị thôngminh như smartphone, tablet hay PC, laptop đang là công cụ giải trí đượcngười tiêu dùng sử dụng phổ biến và để lại những thông tin quan trọng mà cácdoanh nghiệp cần khai thác Hơn hết, sự kết nối giữa các công cụ thông minhvới nhau dựa trên nền tảng internet cho phép người tiêu dùng và các tổ chức cóthể tương tác trực tiếp từ đó có thể trao đổi và truyền tải dữ liệu cho nhau Từvấn đề này, có thể thấy khối lượng dữ liệu và nhu cầu thu thập, xử lý và phântích dữ liệu của các doanh nghiệp càng gia tăng, bởi lẽ sự tiếp cận các nền tảngcông nghệ trong đời sống của người dân hiện nay rất cao Một minh chứng côvùng cụ thể đó là vào năm 2019, tập đoàn công nghệ Cisco đã dự đoán khốilượng dữ liệu có thể đạt đến 500 Zettabytes ở năm 2020
Đối với các doanh nghiệp cạnh tranh cùng ngành, ngoài việc cạnh tranh vềnguồn cung ứng, đối tác, giá cả và khách hàng thì nguồn dữ liệu là một yếu tố
vô cùng quan trọng Nếu biết cách tận dụng tốt thì doanh nghiệp đó sẽ tạo nênnhững lợi thế khác biệt với các đối thủ còn lại Như vậy, nhờ quá trình đi sâuvào bộ dữ liệu để phân tích và tìm kiếm các giá trị tiềm ẩn bên trong mà datamining được cho là một công cụ lợi hại và không thể thiếu từ đó mang lại nhiềulợi thế to lớn cho công ty nên nhu cầu đế phát huy và sử dụng các công nghệkhai phá dữ liệu cho đến thời điểm hiện tại là rất cao
Khai phá dữ liệu là một quá trình dài hạn chuyển biến dữ liệu thu thậpđược thành các thông tin có giá trị và tương quan mật thiết với nguồn dữ liệulớn của doanh nghiệp Từ đó doanh nghiệp sẽ chủ động hơn trong việc tìmkiếm những khách hàng tiềm năng, đưa ra được các chiến sách marketing phùhợp với xu hướng thị trường cũng như các kế hoạch phát triển kinh doanh phùhợp với cơ cấu doanh nghiệp Một trong những ý nghĩa quan trọng nhất củakhai phá dữ liệu chính là hỗ trợ khả năng thấu hiểu với khách hàng Khai phá
dữ liệu sẽ dựa trên các yếu tố như: độ tuổi, sở thích, thói quen, tâm lý tiêu
Trang 9dùng, khu vực đại lý, thu nhập, để có các định được nhu cầu của từng phânkhúc khách hàng một cách chính xác nhất Từ những kết quả đã đạt được thìdoanh nghiệp có những kế hoạch triển khai các sản phẩm và dịch vụ để tươngtác phù hợp với khách hàng.
Lĩnh vực marketing, cơ bản khai phá dữ liệu là cho phép các doanh nghiệphiểu các điều ẩn đằng sau dữ liệu giao dịch mua bán, sử dụng dịch vụ củakhách hàng Từ đó, doanh nghiệp có thể lên kế hoạch và khởi động các chiếndịch marketing mới Đặc biệt hơn các ngân hàng sử dụng khai phá dữ liệu đểhiểu rõ hơn rủi ro thị trường Nó thường được áp dụng cho xếp hạng tín dụng
và cho các hệ thống chống gian lận thông minh để phân tích các giao dịch, giaodịch thẻ, mô hình mua hàng và dữ liệu tài chính của khách hàng Khai phá dữliệu cũng cho phép các ngân hàng tìm hiểu thêm về thông tin, sở thích hoặcthói quen trực tuyến của khách hàng Từ đó tối ưu hóa lợi nhuận cho các chiếndịch marketing của họ, nghiên cứu hiệu suất của các kênh bán hàng hoặc quản
lý nghĩa vụ tuân thủ quy định Vì vậy nhờ công cụ khoa học mà các ngân hàng
có thể tiếp thị dịch vụ và dự đoán được mức an toàn, sinh lời, ít rủi ro củakhách hàng đồng thời giúp cho các doanh nghiệp tìm được các lợi ích chung tốtnhất
Cụ thể hơn, ngân hàng có nhiều kế hoạch tiếp cận để bán tiền gửi có kỳhạn cho khách hàng của họ như tiếp thị qua email, quảng cáo, tiếp thị qua điệnthoại và tiếp thị kỹ thuật số Các chiến dịch tiếp thị qua điện thoại vẫn là mộttrong những cách hiệu quả nhất để tiếp cận với mọi người Tuy nhiên, họ yêucầu đầu tư rất lớn vì các trung tâm cuộc gọi lớn được thuê để thực sự thực hiệncác chiến dịch này Do đó, điều quan trọng là phải xác định trước những kháchhàng có nhiều khả năng chuyển đổi nhất để họ có thể được nhắm mục tiêu cụthể thông qua cuộc gọi Để làm được điều đó, sự phát triển của các mô hìnhtoán học và các giải thuật hiệu quả là chìa khóa quyết định dự đoán xem liệukhách hàng có đăng ký một khoản tiền gửi có kỳ hạn hay không Qua đó,
chúng em quyết định chọn đề tài “Nghiên cứu về dự báo khả năng đăng ký
một khoản tiền gửi có kỳ hạn của khách hàng.” làm đề tài nghiên cứu
Trang 101.2 Mục tiêu nghiên cứu
Bài nghiên cứu chủ yếu tập trung vào các mục tiêu như sau:
- Bài nghiên cứu tiến hành phân tích các lý thuyết của khai phá dữ liệunhằm tập trung làm rõ những vấn đề của bài nghiên cứu
- Xác định mô hình nào mang lại đánh giá có độ chính xác cao nhất trongviệc nghiên cứu về dự đoán khả năng đăng ký một khoản tiền gửi có kỳhạn của khách hàng
- Dựa trên mô hình đã được huấn luyện trong quá trình nghiên cứu, đưa rađược kết luận về khả năng đăng ký một khoản tiền gửi có kỳ hạn của kháchhàng và từ đó đưa ra các giải pháp tối ưu
- Tạo tiền đề phát triển các bài nghiên cứu sau này
1.3 Đối tượng và phạm vi nghiên cứu
* Đối tượng nghiên cứu:
- Mô hình Khoa học dữ liệu (KHDL) và phân tích thuật toán để góp phần
dự đoán khả năng đăng ký một khoản tiền gửi có kỳ hạn của khách hàng
- Lấy dữ liệu của 4521 khách hàng của một tổ chức ngân hàng tại Bồ ĐàoNha
- Dữ liệu huấn luyện: 3000 khách hàng đầu tiên dùng để training
- Dữ liệu dự báo: 1521 khách hàng còn lại trong bộ dữ liệu 4521 kháchhàng
* Phạm vi nghiên cứu:
Được thực hiện dựa trên 5421 khách hàng của một tổ chức ngân hàng tại
Bồ Đào Nha gồm 13 chỉ số đo lường: age, job, marital, education, default,balance, housing, loan, duration, campaign, pdays, previous, poutcome
1.4 Phương pháp nghiên cứu
Trang 11- Phương pháp thu thập dữ liệu: tôi đã thu thập dữ liệu dựa trên nguồn
kaggle.com Đây được xem là một trong những nguồn đáng tin cậy để thu
thập các dữ liệu về các chỉ số thuộc lĩnh vực tài chính
- Phương pháp nghiên cứu: Bài nghiên cứu được sử dụng Excel (2016) để
xử lí số liệu và chương trình Orange để chạy mô hình dự báo
1.5 Cấu trúc bài nghiên cứu
Đề tài được kết cấu thành 4 chương như sau:
- Chương 1: Giới thiệu
- Chương 2: Cơ sở lý luận
- Chương 3: Phân tích dữ liệu huấn luyện và dự báo
- Chương 4: Kết luận và hạn chế - giải pháp
Trang 12CHƯƠNG 2: CƠ SỞ LÝ LUẬN 2.1 Khai phá dữ liệu
2.1.1 Khái niệm
Khai phá dữ liệu (Data Mining) là quá trình phân loại, sắp xếp các tậphợp dữ liệu lớn, nhằm mục đích xác định các mẫu và thiết lập mối liên hệ,giải quyết vấn đề nhờ việc phân tích dữ liệu Các MCU khai phá dữ liệugiúp các doanh nghiệp có thể dự đoán xu hướng tương lai
Đây là một quá trình phức tạp gồm kho dữ liệu chuyên sâu cũng nhưcác công nghệ tính toán Ngoài ra, khai phá dữ liệu không chỉ giới hạn việctrích xuất dữ liệu mà còn được sử dụng để chuyển đổi, làm sạch, tích hợp
dữ liệu và phân tích mẫu
2.1.2 Quá trình khai phá dữ liệu
Quá trình khai phá dữ liệu gồm 7 bước chính sau:
- Bước 1 : Làm sạch dữ liệu Đây là bước đầu tiên trong quá trình khai phá
dữ liệu cũng là bước khá quan trọng Những dữ liệu bẩn hay bất thường sẽđược loại bỏ nhằm tránh thu được kết quả sai lệch, không có tính chính xáccao Bên cạnh đó còn gây tốn kém thời gian và tiền bạc
Trang 13Hình 1: Làm sạch dữ liệu
- Bước 2 : Tích hợp dữ liệu Các chuyên gia sẽ thực hiện dọn dẹp dữ liệu
bổ sung trong các cơ sở dữ liệu khác nhau Việc này giúp cải thiện độchính xác của kết quả hơn và đảm bảo chất lượng dữ liệu để đáp ứng cácyêu cầu kinh doanh Trong quá trình tích hợp dữ liệu, nhiều nguồn dữ liệu
Trang 14- Bước 4 : Chuyển đổi dữ liệu Ở bước này, các kỹ sư sẽ chuyển đổi dữliệu sang dạng phù hợp với mục tiêu khai thác Dữ liệu sẽ được hợp nhất
để tối ưu hóa quy trình khai phá dữ liệu và giúp dễ dàng phân biệt các mẫutrong tập dữ liệu cuối cùng
- Bước 5 : Khai phá dữ liệu Các ứng dụng khai phá dữ liệu được sử dụng
để trích xuất các xu hướng và tối ưu hoá việc khám phá kiến thức để tạo rathông tin kinh doanh Một cách đơn giản, ở bước này, các kỹ sư trích xuất
dữ liệu hữu ích từ nhóm dữ liệu hiện có
- Bước 6 : Đánh giá mẫu Chuyên gia sẽ sử dụng mô hình, dữ liệu lịch sử
và thông tin thời gian thực để tìm hiểu về khách hàng, nhân viên và doanh
số bán hàng Các phương pháp trực quan hóa và tóm tắt dữ liệu được sửdụng để người dùng có thể hiểu được bộ dữ liệu của mình
- Bước 7 : Trình bày thông tin Dữ liệu sẽ được trình bày dưới dạng báocáo Thông tin được thể hiện dưới dạng cây, bảng, biểu đồ và ma trận
Hình 3: Quy trình khai phá dữ liệu
2.1.3 Các kỹ thuật khai phá
Có 6 kỹ thuật cốt lõi trong việc khai phá dữ liệu:
Phân lớp (Classification): Dự báo dữ liệu thông qua bộ dữ liệu huấn
luyện, phân loại đối tượng
Trang 15Hồi quy (Regression): Dùng để khám phá và ánh xạ dữ liệu.
Phân cụm (Clustering): Giúp việc mô tả dữ liệu trở nên dễ dàng hơn
bằng các xác định tập hợp hữu hạn các cụm với nhau
Tổng hợp (Summarization): Cho phép người làm tìm kiếm một mô
tả nhỏ gọn
Mô hình ràng buộc (Dependency modeling): Người làm sẽ tìm
được mô hình cục bộ mô tả các phụ thuộc dựa vào phương pháp mô hìnhràng buộc
Dò tìm biến đổi và độ lệch (Change and Deviation Detection): Tìm
ra những thay đổi quan trọng
2.1.4 Ứng dụng khai phá dữ liệu
Ngày nay, khai phá dữ liệu được ứng dụng phổ biến trong các lĩnhvực, có thể kể đến như: tài chính, chăm sóc sức khoẻ, viễn thông,marketing và sales, thương mại điện tử, giáo dục, kỹ thuật sản xuất, … vàrất nhiều lĩnh vực khác
2.1.5 Công cụ khai phá dữ liệu được sử dụng trong bài nghiên cứu Orange
-Orange là phần mềm dùng để khai thác dữ liệu theo phương diện mãnguồn mở Orange thiết lập một giao diện lập trình sinh động và trực quan,giúp người dùng dễ theo dõi, từ đó phân tích dữ liệu một cách nhanh vàchính xác Orange dựa trên những công cụ dùng để trực quan hóa dữ liệu,khai thác và phân tích dữ liệu chính xác thông qua ngôn ngữ lập trình.Ngoài ra, Orange cũng là một phần mềm kết hợp công cụ khai phá dữ liệu
và học máy, và cung cấp những trực quan tương tác, thẩm mỹ cho ngườidùng phần mềm, nó được viết bằng Python Orange là phần mềm mà nhóm
em sẽ sử dụng trong bài nghiên cứu
Trang 162.2 Phân lớp dữ liệu
2.2.1 Khái niệm
Phân lớp dữ liệu chính là một trong những hướng nghiên cứu chínhcủa khai phá dữ liệu Phân lớp dữ liệu là quá trình phân một đối tượng dữliệu vào một hay nhiều lớp đã cho trước nhờ vào một mô hình phân lớp
Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãntrước đó Quá trình gán nhãn cho đối tượng dữ liệu chính là quá trình phânlớp dữ liệu
2.2.2 Quy trình phân lớp dữ liệu
Quá trình phân lớp dữ liệu gồm 2 bước chính:
- Bước 1 : Xây dựng mô hình phân lớp
Xây dựng mô hình là mô tả một tập những lớp được định nghĩa trước.Trong đó mỗi bộ hoặc mẫu được gán thuộc ᴠề một lớp được định nghĩatrước như là được хác định bởi thuộc tính nhãn lớp , tập hợp của những bộđược ѕử dụng trong ᴠiệc ѕử dụng mô hình được gọi là tập huấn luуện Môhình được biểu diễn là những luật phân lớp, câу quуết định ᴠà những côngthức toán học Kết quả của bước này là mô hình phân lớp đã được huấnluyện Hình 2.3 dưới đây miêu tả quá trình này
Trang 17Hình 4: Bước 1 của quá trình trình phân lớp: Xây dựng mô hình phân lớp
- Bước 2 : Sử dụng mô hình chia thành 2 bước nhỏ.
Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)
Dữ liệu đầu vào là một tập dữ liệu mẫu khác đã được gán nhãn và tiền
xử lý Tuy nhiên thuộc tính đã được gán nhãn này bị “lờ” khi được đưa vào
mô hình tiến hành phân lớp
Muốn xác định được tính đúng đắn của mô hình, ta cần so sánh thuộctính gán nhãn của dữ liệu đầu vào và kết quả phân lớp của mô hình
Hình 5: Bước 2.1 của quá trình trình phân lớp: Đánh giá mô hình
Bước 2.2: Phân lớp dữ liệu mới
Dữ liệu đầu vào là dữ liệu “khuyết” thuộc tính cần dự đoán lớp(nhãn) Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệunày dựa vào những gì được huấn luyện ở bước 1
Trang 18Hình 6: Bước 2.2 của quá trình trình phân lớp: Phân lớp dữ liệu mới
2.2.3 Các phương pháp đánh giá mô hình
2.2.3.1 Phương pháp hồi quy logistic (Logistic Regression)
Hồi quy logistic là một kỹ thuật phân tích dữ liệu sử dụng toánhọc để tìm ra mối quan hệ giữa hai yếu tố dữ liệu Sau đó sử dụngmối quan hệ tìm được để dự đoán giá trị của những yếu tố đó dựatrên yếu tố còn lại Dự đoán thường cho ra một số kết quả hữu hạn,như có hoặc không
Có 3 dạng hồi quy Logistic:
- Hồi quy logistic nhị phân: Biến phụ thuộc chỉ có 2 kếtquả/lớp có thể xảy ra
- Hồi quy logistic đa thức: Biến phụ thuộc chỉ có 2 hoặc 3kết quả/lớp trở lên có thể có, thứ tự được xếp ngẫu nhiên
- Hồi quy logistic thông thường: Biến phụ thuộc chỉ có 2hoặc nhiều hơn 3 kết quả / lớp có thể có, xếp theo đúng thứ
tự
Trang 19Hình 7: Minh họa thuật toán phân lớp Hồi quy Logistic (Logistic Regression)
2.2.3.2 Phương pháp cây quyết định (Decision Tree)
Trong lý thuyết quản trị, cây quyết định là đồ thị các quyếtđịnh cùng các kết quả có khả năng đi kèm nhằm hỗ trợ quá trình raquyết định
Trong lĩnh vực khai thác dữ liệu, cây quyết định là phươngpháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước
Cây quyết định bao gồm hai loại đó là cây hồi quy và cây phânloại Cây hồi quy có ước tính mô hình là các giá trị số thực và câyphân loại được dùng trong các mô hình có giá trị cuối cùng nằmmục đích chính là phần loại
Một tập dữ liệu có thế được biểu diễn bởi nhiều cây quyết địnhtương ứng Cuối cùng, cây nào ngắn gọn nhất sẽ được lựa chọn(theo nguyên lý Ockham’s Razor)
Trang 20Hình 8: Minh họa thuật toán phân lớp cây quyết định (Decision tree)
2.2.3.3 Phương pháp SVM (Support Vector Machine)
SVM là một thuật toán có giám sát, SVM nhận dữ liệu vào,xem chúng như những các vector trong không gian và phân loạichúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳngtrong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu
Để kết quả phân lớp chính xác nhất, ta cần phải xác định siêuphẳng (hyperplane) có khoảng cách đến các điểm dữ liệu (margin)của tất cả các lớp càng xa càng tốt Khi đó, sai số tổng quát hóa của
kỹ thuật phân loại càng bé
Hiện nay, SVM có nhiều biến thể phù hợp với các bài toánphân loại khác nhau và cũng có thể được sử dụng cho hồi quy hoặccác nhiệm vụ khác
Trang 21Hình 9: Minh họa thuật toán phân lớp Support Vector Machine (SVM)
2.2.3.4 Phương pháp mạng lưới Nơ-ron nhân tạo (Neural
Network)
Neural network hay còn gọi là Mạng nơ-ron nhân tạo là mạng
sử dụng các mô hình toán học phức tạp để xử lý thông tin Chúngdựa trên mô hình hoạt động của các tế bào thần kinh và khớp thầnkinh trong não của con người Giống như bộ não của con người,mạng nơ-ron nhân tạo kết nối các nút đơn giản, còn được gọi là tếbào thần kinh Và một tập hợp các nút như vậy tạo thành một mạnglưới các nút, do đó có tên là mạng nơ-ron nhân tạo Đặc biệt, neuralnetwork có khả năng tương thích với mọi thứ ngay từ khi chúng tathay đổi dữ liệu đầu vào Nó có thể đưa ra các kết quả một cách tốtnhất mà chúng ta không cần phải xây dựng các tiêu chí đầu ra
Trang 22Hình 10: Minh họa thuật toán phân lớp Mạng Nơ ron nhân tạo (Neural Network)
2.2.4 Chi tiết mô hình khai phá dữ liệu bằng Hồi quy logistic
Ở mục 2.2.3.1 chúng ta đã tìm hiểu về khái niệm của Hồi quy logistic
và các dạng của phương pháp này, bây giờ chúng ta sẽ tìm hiểu chi tiếthơn về Hồi quy logistic
2.2.4.1 Ưu điểm của Hồi quy logistic
Hồi quy logistic dễ thực hiện hơn nhiều so với các phươngpháp khác, đặc biệt là trong Machine Learning Quá trình thiết lập
mô hình này yêu cầu đào tạo và thử nghiệm mô hình Trong khi đó,hồi quy logistic dễ đào tạo và triển khai hơn so với các phươngpháp khác
Hồi quy logistic hoạt động tốt đối với các trường hợp tập dữliệu có thể phân tách tuyến tính Tập dữ liệu này có thể vẽ mộtđường thẳng tách hai lớp dữ liệu ra khỏi nhau Hồi quy logisticđược sử dụng khi biến Y của bạn chỉ có thể nhận hai giá trị và nếu
dữ liệu có thể phân tách tuyến tính, thì việc phân loại nó thành hailớp riêng biệt sẽ hiệu quả hơn