Nghiên cứu nhân khẩu học, xác định phân khúc khách hàng, phân tích kết hợp và các kỹ thuật khác cho phép người làm marketing sử dụng những khối lượng dữ liệu lớn về mua hàng tiêu dùng, k
Trang 1VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC
BÁO CÁO CUỐI KÌ
HỆ HỖ TRỢ QUYẾT ĐỊNH
ĐỀ TÀI: ĐẠI CƯƠNG VỀ PHÂN TÍCH DỮ LIỆU
Giảng viên hướng dẫn:
Trang 2Mục lục
Danh mục hình vẽ 3
LỜI MỞ ĐẦU 4
1 Phân tích dữ liệu là gì? 5
2 Các quá trình khám phá tri thức 8
2.1 Chuẩn bị dữ liệu 8
2.2 Tiền xử lý dữ liệu 10
2.3 Khai phá dữ liệu 18
2.4 Đánh giá kết quả 22
2.5 Hiển thị kết quả 23
3 Các dạng dữ lệu 23
3.1 Dữ liệu nhị phân 23
3.2 Dữ liệu phân lớp 28
3.3 Dữ liệu dạng thứ tự 30
3.4 Dữ liệu giá trị khoảng 31
3.5 Dữ liệu thuộc giá trị tỷ lệ 31
3.6 Dữ liệu chuỗi và chuỗi thời gian 31
3.7 Dữ liệu liên tục và dữ liệu rời rạc 33
3.8 Dữ liệu mờ 34
3.9 Dữ liệu văn bản 35
3.10 Dữ liệu đồ thị 37
4 Các dạng phân tích dữ liệu 38
4.1 Phân tích mô tả 38
4.2 Phân tích dự báo 39
4.3 Phân tích tối ưu 39
5 Các tác cụ phân tích dữ liệu 40
5.1 Phân tích hồi quy 40
5.2 Phân tích sự kết hợp 41
5.3 Phân tích phân cụm 46
5.4 Phân lớp 59
5.5 Phân tích chuỗi và chuỗi thời gian 63
6 Một số khái niệm về Máy học 65
6.1 Máy học 65
Trang 36.2 Học không giám sát 67
6.3 Học có giám sát 68
6.4 Học bán giám sát 69
6.5 Học kết hợp 69
Danh mục tài liệu tham khảo 71
KẾT LUẬN 72
Trang 4Danh mục hình vẽ
Hình 1: Chia theo độ rộng 11
Hình 2: Chia theo độ sâu 12
Hình 3: Cây quyết định quy nạp 15
Hình 4: Biến đổi wavelet, phân tích thành phần cơ bản 15
Hình 5: Phương pháp biểu đồ 16
Hình 6: Phương pháp gom nhóm 17
Hình 7: Spreadsheet và Giải pháp tối ưu Paul & Giovanni Food cho k = 2 27
Hình 8: Solver cho Paul & Giovanni Food 28
Hình 9: Một quy trình chung của phân loại dữ liệu 29
Hình 10: Dữ liệu dạng thứ tự 31
Hình 11: Dữ liệu liên tục 33
Hình 12: Dữ liêu rời rạc 34
Hình 13: Dữ liệu mờ 35
Hình 14: Dữ liệu đồ thị 37
Hình 15: Phân loại kĩ thuật phân cụm 47
Hình 16: Tổng quan về các phương pháp phân cụm được thảo luận trong phần này 54
Hình 17: Mô tả thuật toán K-Means 55
Hình 18: Quá trình phân lớp dữ liệu 61
Hình 19: Quá trình phân lớp dữ liệu 61
Hình 20: Học không giám sát 67
Hình 21: Học có giám sát 68
Hình 22: Học bán giám sát 69
Trang 5LỜI MỞ ĐẦU
Những phân tích đã trở thành định hướng cho công nghệ trong thập niên này Các công
ty như là IBM, Oracle, Microsoft, và các công ty khác đã và đang tạo ra những đơn vị tổ chức mới tập trung vào phân tích dữ liệu giúp hỗ trợ kinh doanh và để việc kinh doanh đầu tư trở nên hiệu quả hơn, hữu hiệu hơn trong các hoạt động của họ Người ra quyết định đang sử dụng nhiều hơn những công cụ điện toán hóa để hỗ trợ công việc của họ Ngay cả người tiêu dùng cũng đang sử dụng những công cụ các phân tích một cách trực tiếp hay gián tiếp để đưa ra quyết định cho những hoạt động thường nhật như là mua sắm,
sự không chắc chắn và rủi ro đã được nghiên cứu trong nhiều năm Một khối kiến thức lớn
đã được phát triển giúp giải thích triết lý liên quan đến việc đưa ra quyết định và cũng cung cấp các kỹ thuật để kết hợp sự không chắc chắn và rủi ro trong việc đưa ra quyết định Bài báo cáo này chúng em mong có thể phần nào khái quát về phân tích dữ liệu để một phần nào đó giúp các bạn hiểu hơn về phân tích dữ liệu , các quá trình khám phá tri thức, các dạng về: dữ liệu và phân tích dữ liệu , các tác vụ phân tích dữ liệu và các khái niệm khái quát về máy học
Trang 61 Phân tích dữ liệu là gì?
Phân tích dữ liệu là quá trình phát hiện, giải thích và truyền đạt các mô hình có ý nghĩa trong dữ liệu Đặc biệt có giá trị trong các lĩnh vực có nhiều thông tin được ghi lại, phân tích dựa vào sự ứng dụng đồng thời của số liệu thống kê, lập trình máy tính và nghiên cứu hoạt động để định lượng hiệu suất.
Ứng dụng của phân tích dữ liệu:
+ Tối ưu hóa marketing: Marketing đã tiến hóa từ một quy trình sáng tạo thành một quy trình phụ thuộc chặt chẽ với dữ liệu Các tổ chức marketing sử dụng phân tích dữ liệu nhằm xác định kết quả của các chiến dịch và nỗ lực marketing và hướng dẫn quyết định đầu tư cũng như định vị mục tiêu khách hàng Nghiên cứu nhân khẩu học, xác định phân khúc khách hàng, phân tích kết hợp và các kỹ thuật khác cho phép người làm marketing sử dụng những khối lượng dữ liệu lớn về mua hàng tiêu dùng, khảo sát và nhóm để hiểu và truyền đạt chiến lược marketing
+ Phân tích web: cho phép những người làm marketing thu thập thông tin về phiên truy cập và tương tác trên các trang web Google Analytics là một ví dụ điển hình của công cụ miễn phí và phổ thông của mục đích này Các tương tác này cung cấp cho hệ thống phân tích dữ liệu web những thông tin cần thiết để theo dõi nguồn giới thiệu, tìm kiếm từ khóa, xác định địa chỉ IP, theo dõi hoạt động của khách tới thăm Với những thông tin này, người làm marketing có thể cải thiện các chiến dịch marketing, nội dung sáng tạo trên website và kiến trúc thông tin của trang web
Các kỹ thuật phân tích thường sử dụng trong marketing bao gồm mô hình marketing hỗn hợp, phân tích định giá và chiết khấu, tối ưu hóa lực lượng bán hàng và phân tích khách hàng (như xác định phân khúc) Phân tích web và tối ưu hóa trang web và các chiến dịch trực tuyến ngày nay thường kết hợp chặt chẽ với các kỹ thuật phân tích marketing truyền thống Ảnh hưởng của truyền thông kỹ thuật số cũng tạo ra một số thay đổi về các thuật
Trang 7ngữ, do đó mô hình marketing hỗn hợp cũng thường được tham chiếu tới mô hình phân phối trong ngữ cảnh kỹ thuật số hoặc marketing hỗn hợp.
Các công cụ và kỹ thuật này hỗ trợ cả về các quyết định chiến lược marketing (như dành tổng cộng bao nhiêu ngân sách cho marketing, phân bố ngân sách cho các nhãn hàng
và marketing hỗn hợp như thế nào) và về các chiến thuật để định vị khách hàng tiềm năng nhất với thông điệp tối ưu, bằng phương pháp hiệu quả chi phí nhất trong một thời gian lý tưởng
+ Phân tích dữ liệu con người: Ứng dụng này của phân tích dữ liệu hỗ trợ các công ty quản lý về mặt nhân sự, với mục tiêu là lựa chọn những nhân viên nào để tuyển dụng, khen thưởng hoặc thăng cấp, giao nhiệm vụ gì và các vấn đề nhân sự khác Ví dụ, một phân tích
có thể cho thấy rằng những cá nhân với một kiểu lý lịch nhất định sẽ có nhiều khả năng thành công ở một vị trí cụ thể nào đó, do đó họ là những người phù hợp nhất nên được tuyển dụng Phân tích nhân sự đang trở nên ngày càng quan trọng để hiểu rõ những hồ sơ với kiểu hành vi nào sẽ thành công hay thất bại Trong khi phân tích con người được áp dụng cho các nhân viên trong một tổ chức, các kỹ thuật xác định phân khúc khách hàng lại được sử dụng để nghiên cứu hồ sơ khách hàng và phát hiện những khách hàng tiềm năng nhất của thị trường
+ Phân tích dữ liệu danh mục: Một ứng dụng phổ biến của phân tích dữ liệu kinh doanh là phân tích danh mục Trong đó, một ngân hàng hoặc tổ chức cho vay có một tập hợp các tài khoản khách hàng với nhiều biến số về giá trị và rủi ro Các khách hàng này
có thể khác nhau về địa vị xã hội (giàu có, trung lưu hoặc nghèo, v.v ), vị trí địa lý, giá trị ròng và các yếu tố khác Người cho vay phải cân bằng giữa lợi nhuận thu được trên khoản vay với rủi ro vỡ nợ cho từng khoản vay Câu hỏi đặt ra là làm thế nào để đánh giá được danh mục một cách tổng thể
Khoản vay ít rủi ro nhất có thể là cho những đối tượng rất giàu có, nhưng có rất ít đối tượng thuộc loại này Mặt khác, có rất nhiều người nghèo có thể cho vay, tất nhiên là với rủi ro lớn hơn Một vài số dư cần phải giới hạn nhằm tối ưu hóa lợi nhuận và tối thiểu hóa rủi ro Giải pháp phân tích dữ liệu có thể kết hợp phân tích chuỗi thời gian với nhiều vấn
đề khác để đưa ra quyết định về việc khi nào nên cho vay với từng nhóm phân khúc
Trang 8khách hàng, hoặc quyết định về mức lãi suất cho từng đối tượng trong phân khúc danh mục để bù đắp tổn thất từ toàn thể đối tượng trong danh mục đó.
+ Phân tích dữ liệu rủi ro: Các mô hình dự báo trong ngành ngân hàng được phát triển nhằm đưa ra sự chắc chắn cho chỉ số rủi ro của từng khách hàng riêng lẻ Chỉ số tín dụng được xây dựng để dự báo hành vi phạm pháp của các cá nhân và được sử dụng rộng rãi để đánh giá mức tín dụng xứng đáng của người nộp hồ sơ vay vốn
Bên cạnh đó, phân tích rủi ro được thực hiện trong khoa học và lĩnh vực bảo hiểm Nó cũng được dùng rộng rãi trong các tổ chức tài chính như các công ty về cổng thanh toán trực tuyến để phân tích xem một giao dịch là có thực hay gian lận bằng việc sử dụng lịch
sử giao dịch của khách hàng Ứng dụng này được dùng rộng rãi hơn trong mua hàng thanh toán bằng thẻ tín dụng, ví dụ khi có sự tăng đột biến trong khối lượng giao dịch của một khách hàng, khách hàng đó sẽ nhận được cuộc gọi để xác nhận giao dịch đó có phải được khởi tạo bởi họ hay không Ứng dụng này sẽ giúp giảm thiểu tổn thất trong những trường hợp kể trên
+ Phân tích dữ liệu kỹ thuật số: Phân tích dữ liệu kỹ thuật số là một nhóm các hoạt động kinh doanh và kỹ thuật nhằm xác định, khởi tạo, thu thập, xác minh hay chuyển đổi
dữ liệu kỹ thuật số thành báo cáo, nghiên cứu, phân tích, đề xuất, tối ưu hóa, dự báo hoặc
tự động hóa Ứng dụng này cũng bao gồm SEO (Search Engine Optimization - Tối ưu hóa công cụ tìm kiếm) trong đó các tìm kiếm từ khóa được theo dõi và trở thành dữ liệu được
sử dụng cho mục đích marketing Thậm chí các banner quảng cáo và lần nhấp chuột cũng thuộc phân tích dữ liệu kỹ thuật số Ngày càng có nhiều công ty về marketing và thương hiệu phụ thuộc vào phân tích dữ liệu kỹ thuật số cho công việc marketing kỹ thuật số của
họ, trong đó MROI (Marketing Return On Investment - lợi nhuận marketing từ đầu tư) là một chỉ số hoạt động quan trọng
+ Phân tích dữ liệu an ninh: Phân tích dữ liệu an ninh có liên quan đến công nghệ thông tin, nhằm thu thập và phân tích các sự kiện an ninh để tìm ra những yếu tố nào mang tới rủi ro lớn nhất Sản phẩm trong lĩnh vực này bao gồm quản lý bảo mật thông tin - sự kiện và phân tích dữ liệu hành vi người dùng
Trang 9+ Phân tích dữ liệu phần mềm: Phân tích dữ liệu phần mềm là quá trình thu thập và phân tích thông tin về cách thức một phần mềm được sản xuất và sử dụng như thế nào
• Dữ liệu trong thực tế có chất lượng xấu
- DL thiếu, không đầy đủ: thiếu giá trị của thuộc tính, thiếu các thuộc tính quan tâm, hoặc chỉ chứa DL tích hợp
VD: tuổi, cân nặng = “”
Trang 10- DL bị tạp, nhiễu (noise): chứa lỗi hoặc các sai biệt
VD: Lương = “-100 000”
- DL mâu thuẫn: có sự không thống nhất trong mã hoặc trong tên
VD: Tuổi =42, Ngày sinh = 03/07/1997; US=USA?
- “DL không chất lượng, không cho kết quả khai thác tốt”
+ Quyết định đúng đắn phải dựa trên các DL chính xác
VD: việc trùng lắp hoặc thiếu DL có thể dẫn tới việc thống kê không chính xác, thậm chí làm lạc lối
+ Nhà kho DL cần sự tích hợp đồng nhất các DL chất lượng
• Những vấn đề cơ bản để chuẩn bị dữ liệu:
- Cách thức làm sạch dữ liệu (Data Cleaning)
- Cách thức diễn giải dữ liệu (Data Transformation)
- Cách thức nắm bắt giá trị thiếu (Data Imputation)
- Trọng số của các trường hợp (Data Weighting and Balancing)
- Xử lý dữ liệu ngoại lai và không mong muốn khác (Data Filtering)
- Cách thức nắm bắt dữ liệu thời gian/chuỗi thời gian (Data Abstraction)
- Cách thức rút gọn dữ liệu để dùng (Data Reduction)
+ Bản ghi (Data Sampling)
+ Biến (Dimensionality Reduction)
+ Giá trị (Data Discretization)
- Cách thức tạo biến mới (Data Derivation)
Trang 112.2 Tiền xử lý dữ liệu
Tiền xử lý dữ liệu bao gồm các bước:
- Làm sạch dữ liệu (data cleaning)
- Chọn lọc dữ liệu (data selection)
- Rút gọn dữ liệu (data reduction)
- Mã hoá dữ liệu
• Làm sạch dữ liệu (data cleaning)
- Làm sạch DL là vấn đề quan trọng bậc nhất của nhà kho DL
- Các nhiệm vụ của công đoạn làm sạch DL
+ Điền các giá trị còn thiếu:
· Bỏ qua các mẫu tin có giá trị thiếu:
o Thường dùng khi thiếu nhãn của lớp (trong phân lớp)
o Dễ, nhưng không hiệu quả, đặc biệt khi tỷ lệ giá trị thiếu của thuộc tính cao
· Điền các giá trị thiếu bằng tay: vô vị + không khả thi
· Điền các giá trị thiếu tự động:
o Thay thế bằng hằng số chung VD: “không biết” Có thể thành lớp mới trong
DL
o Thay thế bằng giá trị trung bình của thuộc tính
o Thay thế bằng giá trị trung bình của thuộc tính trong một lớp
o Thay thế bằng giá trị có nhiều khả năng nhất: suy ra từ công thức Bayesian, cây quyết định hoặc thuật giải EM (Expectation Maximization)
+ Xác định các sai biệt và khử DL tạp, nhiễu:
· Gom nhóm (Clustering):
o Phát hiện và loại bỏ các khác biệt
Trang 12· Phương pháp hồi qui (Regression):
o Đưa DL vào hàm hồi qui
· Kết hợp sự kiểm tra giữa máy tính và con người (Computer/human inspection)
o Phát hiện giá trị nghi ngờ và kiểm tra bởi con người
· Phương pháp rời rạc hóa: chia giỏ (Binning)
o Chia theo độ rộng (Equal-width - khoảng cách) : Chia vùng giá trị thành N khoảng cùng kích thước
Độ rộng của từng khoảng = (giá trị lớn nhất - giá trị nhỏ nhất)/N
Ví dụ : Không tốt cho dữ liệu bị lệch
Hình 1: Chia theo độ rộng
o Chia theo độ sâu (Equal-depth – tần suất) : Chia vùng giá trị thành N khoảng mà mỗi khoảng có chứa gần như cùng số lượng mẫu
Trang 13Hình 2: Chia theo độ sâu
+ Sửa chữa các DL mâu thuẫn
• Chọn lọc dữ liệu (data selection) :
- Tập hợp DL từ nhiều nguồn khác nhau vào trong một CSDL
+ Chỉ chọn những DL cần thiết cho tiến trình khai thác DL
- Sơ đồ tập hợp DL
- Loại bỏ DL dư thừa và trùng lặp
- Phát hiện và giải quyết các mâu thuẫn trong DL
- Sơ đồ tập hợp DL
+ Bài toán nhận diện thực thể
· Làm thế nào để các thực thể từ nhiều nguồn DL trở nên tương xứng
· US=USA; customer_id = cust_number
+ Sử dụng siêu DL(metadata)
- Loại bỏ DL dư thừa, trùng lặp
+ Một thuộc tính là thừa nếu nó có thể suy ra từ các thuộc tính khác
+ Cùng một thuộc tính có thể có nhiều tên trong các CSDL khác nhau
+ Một số mẫu tin DL bị lặp lại
+ Dùng phép phân tích tương quan
· r=0: X và Y không tương quan
· r>0 : tương quan thuận X↑↔Y↑
Trang 14· r<0: tương quan nghịch X↓↔ Y ↑
- Giải quyết mâu thuẫn trong DL
+ Ví dụ : trọng lượng được đo bằng kg hoặc pound
+ Xác định chuẩn và ánh xạ dựa trên siêu dữ liệu (meta data)
• Rút gọn dữ liệu (data reduction) :
- DL có thể quá lớn đối với 1 số chương trình KTDL: Tốn nhiều thời gian
- Rút gọn DL : DL được rút gọn ( kích thước) sao cho vẫn thu được cùng ( hoặc gần như cùng) kết quả phân tích
- Các phương pháp :
+ Tổng hợp và tổng quát hóa:
· Tổ hợp từ 2 thuộc tính (đối tượng) trở lên thành 1 thuộc tính ( đối tượng) VD : các thành phố tổng hợp vào vùng, khu vực, nước, …
· Tổng hợp/ tổng quát DL cấp thấp vào DL cấp cao :
o Giảm kích thước tập DL : giảm số thuộc tính
o Tăng tính lý thú của mẫu + Giảm chiều DL
· Chọn lựa đặc trưng ( tập con các thuộc tính)
o Chọn m từ n thuộc tính, m ≤ n
o Loại bỏ các thuộc tính không liên quan, dư thừa
· Cách xác định thuộc tính không liên quan ?
o Số liệu thống kê
o Độ lợi thông tin
· Giảm chiều DL bằng cách nào?
o Vét cạn : Có 2^d tập con thuộc tính của d thuộc tính à Độ phức tạp tính toán quá cao
Trang 15o PP Heuristic
v PP Heuristic - Stepwise forward
Đầu tiên : chọn thuộc tính đơn tốt nhất
Chọn tiếp thuộc tính tốt nhất trong số còn lại, …
Ví dụ : tập thuộc tính ban đầu {A1,A2,A3,A4,A5,A6}
Tập rút gọn ban đầu ={}
B1= {A1}
B2= {A1,A4}
B3= {A1,A4, A6}
v PP Heuristic - Stepwise backward
Đầu tiên : loại thuộc tính đơn xấu nhất
Loại tiếp thuộc tính xấu nhất trong số còn lại, …
Ví dụ : tập thuộc tính ban đầu ={A1,A2,A3,A4,A5,A6}
B1= {A1,A3,A4,A5,A6}
B2= {A1,A4,A5,A6}
B3= {A1,A4, A6}
v PP Heuristic –Kết hợp
Đầu tiên : chọn thuộc tính đơn tốt nhất và loại thuộc tính đơn xấu nhất
Chọn tiếp thuộc tính tốt nhất và loại tiếp thuộc tính xấu nhất trong số còn lại, …
Ví dụ : tập thuộc tính ban đầu {A1,A2,A3,A4,A5,A6}
Tập rút gọn ban đầu ={A1,A2,A3,A4,A5,A6}
B1= {A1,A3,A4,A5,A6}
B2= {A1,A4,A5,A6}
B3= {A1,A4, A6}
v PP Heuristic – Cây quyết định quy nạp:
Đầu tiên : xây dựng cây quyết định
Loại các thuộc tính không xuất hiện trên cây
Ví dụ : tập thuộc tính ban đầu {A1,A2,A3,A4,A5,A6}
Trang 16Tập rút gọn = {A1, A4, A6}
Hình 3: Cây quyết định quy nạp
+ Nén DL:
· Mã hoá hoặc biến đổi dữ liệu
· Nén không mất thông tin (lossless)
o DL có thể phục hồi lại
· Nén có mất thông tin (lossy)
o DL không thể phục hồi lại hoàn toàn
· Dùng biến đổi wavelet, phân tích thành phần cơ bản (principal component analysis-PCA),
·
Hình 4: Biến đổi wavelet, phân tích thành phần cơ bản
·
+ Giảm số lượng ((numerosity reduction)
· Chọn dạng biểu diễn DL khác, “nhỏ hơn”
Trang 17· PP tham số :
o Sử dụng mô hình toán học để lưu giữ các tham số ( của DL)
o Mô hình hồi qui và log-tuyến tính
· PP không tham số :
o Không sử dụng mô hình toán học mà lưu biểu diễn rút gọn
o Biểu đồ, gom nhóm, lấy mẫu
· PP hồi qui tuyến tính :Y = α + βX (chỉ lưu α , β )
· PP hồi qui bội : Y = b0 + b1 X1 + b2 X2
· Mô hình log-tuyến tính : Xác suất : p(a, b, c, d) = αab βac χ adδ bcd
· PP biểu đồ (histogram)
o PP thông dụng để rút gọn DL
o Phân chia DL vào các giỏ và chiều cao của cột là số đối tượng nằm trong mỗi giỏ Chỉ lưu giá trị trung bình của mỗi giỏ
o Hình dáng của biểu đồ tùy thuộc vào số lượng giỏ
o Ví dụ: Chiều dài cánh hoa ( 10 và 20 giỏ)
Hình 5: Phương pháp biểu đồ
Trang 18· PP gom nhóm
Hình 6: Phương pháp gom nhóm
o Phân chia DL vào các nhóm và lưu biểu diễn của nhóm
o Rất hiệu quả nếu DL tập trung thành nhóm nhưng ngược lại khi DL rải rác
o Rất nhiều thuật toán gom nhóm
· PP lấy mẫu (sampling)
o Dùng tập mẫu ngẫu nhiên nhỏ hơn nhiều để thay thế cho tập DL lớn
o PP lấy mẫu ngẫu nhiên không thay thế (SRSWOR)
o PP lấy mẫu ngẫu nhiên có thay thế (SRSWR )
o PP lấy mẫu theo nhóm/phân cấp
- Phân cấp khái niệm :
+ Tập hợp và thay thế khái niệm cấp thấp bằng khái niệm cấp cao hơn
- PP mã hóa DL dạng số :
+ Chia giỏ
Trang 19+ Phân tích biểu đồ
+ Gom nhóm
+ Rời rạc hoá theo entropy
+ Phân đoạn tự nhiên
- DL dạng phi số :
+ Tạo sơ đồ phân cấp
- Ví dụ :
+ Chuyển đổi giá trị logic thành 1,0
+ Chuyển đổi giá trị ngày tháng thành số
+ Chuyển đổi các cột có giá trị số lớn thành tập các giá trị trong vùng nhỏ hơn, chẳng hạn chia chúng cho hệ số nào đó
+ Nhóm các giá trị có cùng ngữ nghĩa như : Hoạt động trước CMT8 là nhóm 1; từ 01/08/45 – 31/06/54 ; nhóm 2; từ 01/07/54 – 30/4/75 là nhóm 3, …
+ Thay thế giá trị của Tuổi = trẻ, trung niên, già
2.3 Khai phá dữ liệu
• Khái niệm: Khai phá dữ liệu (data mining) là một tiến trình sử dụng các công cụ phân tích dữ liệu khác nhau để khám phá ra các mẫu dưới nhiều góc độ khác nhau nhằm phát hiện ra các mối quan hệ giữa các dữ kiện, đối tượng bên trong CSDL, kết quả của việc khai phá là xác định các mẫu hay các mô hình đang tồn tại bên
trong, nhưng chúng nằm ẩn khuất ở các CSDL Để từ đó rút trích ra được các mẫu,
các mô hình hay các thông tin và tri thức từ các CSDL
• Ứng dụng của khai phá dữ liệu:
- Quản lý quan hệ khách hàng Quản lý quan hệ khách hàng (CRM) là sự mở
rộng của truyền thống tiếp thị Mục tiêu của CRM là tạo mối quan hệ trực
tiếp với khách hàng bằng cách phát triển sự thân mật hiểu nhu cầu và mong
muốn của họ
- Ngân hàng Khai thác dữ liệu có thể giúp các ngân hàng sau:
Trang 20+ Tự động hóaquy trình đăng ký khoản vay bằng cách dự đoán chính xác các mặc định có thể xảy ra nhất
+ Phát hiện thẻ tín dụng gian lận và ngân hàng trực tuyến giao dịch
+ Xác định các cách để tối đa hóa giá trị của khách hàng bằng cách bán cho họ các sản phẩm và dịch vụ mà họ có nhiều khả năng mua nhất
+ Tối ưu hóa lợi nhuận bằng tiền mặt bằng cách dự báo chính xác dòng tiền vào ngân hàng các thực thể (ví dụ: máy ATM, chi nhánh ngân hàng)
+ Dự báo mức tiêu thụ của các loại sản phẩm khác nhau (dựa trên điều kiện
môi trường và mùa vụ) để tối ưu hóa hậu cần và, do đó, tối đa hóa doanh số
+ Khám phá các mô hình thú vị trong sự chuyển động của sản phẩm (đặc biệt đối với các sản phẩm có hạn sử dụng vì chúng dễ bị hết hạn, dễ hỏng và nhiễm bẩn) trong chuỗi cung ứng bằng cách phân tích dữ liệu cảm giác và RFID
- Sản xuất
+ Dự đoán lỗi máy móc trước khi họ xảy ra thông qua việc sử dụng dữ liệu
cảm giác (cho phép cái được gọi là bảo trì dựa trên điều kiện)
+ Xác định sự bất thường và tương đồng trong các hệ thống sản xuất để tối ưu hóa năng lực sản xuất
+ Khám phá mô hình mới lạ để xác định và cải thiện chất lượng sản phẩm
- Bảo hiểm
+ Dự báo số tiền yêu cầu bồi thường cho tài sản và chi phí bảo hiểm y tế để lập kế
hoạch kinh doanh tốt hơn
+ Xác định kế hoạch tỷ lệ tối ưu dựa trên phân tích khiếu nại và dữ liệu khách hàng
Trang 21+ Dự đoán khách hàng nào có nhiều khả năng mua các chính sách mới đặc biệt đặc trưng
+ Xác định và ngăn chặn các khoản thanh toán yêu cầu không chính xác và các hoạt động gian lận
- Phần cứng và phần mềm máy tính
+ Dự đoán lỗi ổ đĩa trước khi chúng thực sự xảy ra
+ Xác định và lọc nội dung Web và email không mong muốn
+ Phát hiện và ngăn chặn cầu bảo mật mạng máy tính
+ Xác định các sản phẩm phần mềm không an toàn
- Chính phủ và quốc phòng
+ Dự báo chi phí di chuyển quân nhân và thiết bị
+ Dự đoán một nước cờ đối thủ và do đó, phát triển chiến lược thành công hơn cho các cam kết quân sự
+ Dự đoán mức tiêu thụ tài nguyên để lập kế hoạch tốt hơn và lập ngân sách; + Xác định các lớp kinh nghiệm, chiến lược và bài học kinh nghiệm độc đáo từ quân đội hoạt động để chia sẻ kiến thức tốt hơn trong toàn tổ chức
- Ngành du lịch (hãng hàng không, khách sạn / khu nghỉ dưỡng, công ty cho thuê xe) + Dự đoán doanh số của các dịch vụ khác nhau (loại ghế trong máy bay, loại phòng trong khách sạn / khu nghỉ dưỡng,loại xe trong các công ty cho thuê xe) để tối ưu hóa giá dịch vụ nhằm tối đa hóa doanh thu như một chức năng của các giao dịch thay đổi theo thời gian (thường được gọi là quản lý lợi nhuận)
+Dự báo nhu cầu tại địa điểm khác nhau để phân bổ tốt hơn các nguồn lực tổ chức hạn chế
+ Xác định khách hàng có lợi nhuận cao nhất và cung cấp cho họ các dịch vụ được cá nhân hóa để duy trì hoạt động kinh doanh lặp lại của họ
+ Giữ lại giá trị nhân viên bằng cách xác định và hành động trên các nguyên nhân gốc
rễ cho sự tiêu hao
- Chăm sóc sức khỏe
Trang 22+ Xác định người mà không bảo hiểm y tế và các yếu tố tiềm ẩn hiện tượng không mong muốn này
+ Xác định mối quan hệ lợi ích chi phí mới giữa các phương pháp điều trị khác nhau
để phát triển các chiến lược hiệu quả hơn
+ Dự báo mức độ và thời gian nhu cầu tại các địa điểm dịch vụ khác nhau để phân bổ tối ưu các nguồn lực tổ chức
+ Hiểu những lý do cơ bản cho sự tiêu hao của khách hàng và nhân viên
• Quy trình khai phá dữ liệu:
Bước 1: Hiểu biết về kinh doanh
Bước 2: Hiểu dữ liệu
Bước 3: Chuẩn bị dữ liệu
Bước 4: Xây dựng mô hình
Bước 5: Kiểm tra và Đánh giá
Bước 6: Triển khai
• Các phương pháp khai phá dữ liệu
- Phân loại (Classification): Là phương pháp dự báo, cho phép phân loại một đối tượng vào một hoặc một số lớp cho trước
- Hồi qui (Regression): Khám phá chức năng học dự đoán, ánh xạ một mục dữ liệu thành biến dự đoán giá trị thực
- Phân nhóm (Clustering): Một nhiệm vụ mô tả phổ biến trong đó người ta tìm cách xác định một tập hợp hữu hạn các cụm để mô tả dữ liệu
- Tổng hợp (Summarization): Một nhiệm vụ mô tả bổ sung liên quan đến phương pháp cho việc tìm kiếm một mô tả nhỏ gọn cho một bộ (hoặc tập hợp con) của dữ liệu
- Mô hình ràng buộc (Dependency modeling): Tìm mô hình cục bộ mô tả các phụ thuộc đáng kể giữa các biến hoặc giữa các giá trị của một tính năng trong tập dữ liệu hoặc trong một phần của tập dữ liệu
- Dò tìm biến đổi và độ lệch (Change and Deviation Dectection): Khám phá những thay đổi quan trọng nhất trong bộ dữ liệu
Trang 23• Công cụ phần mềm khai thác
- YALE Là công cụ miễn phí cho học máy và khai thác dữ liệu
- Weka Phần mềm mã nguồn mở phục vụ cho khai thác dữ liệu viết bằng Java
- Parago Khai thác dữ liệu và Quản lý ICT Asset cho trường học
- Tanagra Phần mềm thống kê và khai thác dữ liệu mã nguồn mở
2.4 Đánh giá kết quả
- Các mô hình phát triển được đánh giá và đánh giá về tính chính xác và tổng quát của chúng Bước này đánh giá mức độ mà mô hình được chọn (hoặc mô hình) đáp ứng các mục tiêu kinh doanh và, nếu vậy, ở mức độ nào (tức là, làm nhiều hơn các
mô hình cần được phát triển và đánh giá) Một tùy chọn khác là kiểm tra (các) mô hình đã phát triển trong kịch bản trong thế giới thực nếu thời gian và ngân sách hạn chế cho phép Mặc dù kết quả của các mô hình phát triển dự kiến sẽ liên quan đến mục tiêu kinh doanh ban đầu, những phát hiện khác không nhất thiết liên quan đến mục tiêu kinh doanh ban đầu nhưng điều đó cũng có thể tiết lộ thông tin bổ sung hoặc gợi ý cho các hướng trong tương lai thường được phát hiện
- Bước kiểm tra và đánh giá là một nhiệm vụ quan trọng và đầy thách thức.Không có giá trị nào được thêm vào bởi tác vụ khai thác dữ liệu cho đến khi giá trị kinh doanh thu được từ các mẫu kiến thức được phát hiện được xác định và công nhận Xác định doanh nghiệp giá trị từ các mẫu kiến thức được phát hiện có phần giống với chơi với các câu đố Các mẫu kiến thức được trích xuất là những mảnh ghép của câu đố cần được đặt cùng nhau trong bối cảnh của mục đích kinh doanh cụ thể.Thành công của việc này hoạt động nhận dạng phụ thuộc vào sự tương tác giữa các nhà phân tích dữ liệu, nhà phân tích kinh doanh và người ra quyết định (như quản lý doanh nghiệp) Bởi vì các nhà phân tích dữ liệu có thể không có sự hiểu biết đầy đủ về các mục tiêu khai thác dữ liệu và những gì họ có nghĩa là doanh nghiệp và các nhà phân tích kinh doanh và người ra quyết định có thể không có kiến thức kỹ thuật để giải thích kết quả của các giải pháp toán học tinh vi, sự tương tác giữa chúng là cần thiết Để đúng diễn giải các mẫu kiến thức, thường là cần
Trang 24thiết để sử dụng nhiều kỹ thuật lập bảng và trực quan hóa (ví dụ: trục bảng, lập bảng chéo các kết quả, biểu đồ hình tròn, biểu đồ, sơ đồ hộp, biểu đồ phân tán)
2.5 Hiển thị kết quả
- Phát triển và đánh giá các mô hình không phải là kết thúc của dự án khai thác dữ liệu Ngay cả khi mục đích của mô hình là để có một khám phá dữ liệu đơn giản, kiến thức thu được từ việc thăm dò đó sẽ cần phải được tổ chức và được trình bày theo cách mà người dùng cuối có thể hiểu và hưởng lợi từ việc khai phá dữ liệu
- Tùy thuộc vào yêu cầu, việc triển khai giai đoạn có thể đơn giản như tạo báo cáo hoặc phức tạp như thực hiện quy trình khai thác dữ liệu lặp lại doanh nghiệp
- Giám sát và bảo trì các mô hình rất quan trọng nếu kết quả khai thác dữ liệu trở thành một phần của công việc hàng ngày kinh doanh và môi trường của nó Chuẩn bị kỹ lưỡng về chiến lược bảo trì giúp tránh những khoảng thời gian dài không cần thiết
sử dụng không chính xác các kết quả khai thác dữ liệu
- Để việc triển khai (các) kết quả khai thác dữ liệu, dự án cần một kế hoạch chi tiết về quy trình giám sát, nhất là đối với các mô hình khai thác dữ liệu phức tạp
CƠ SỞ TOÁN VÀ TOÁN HỌC TỔNG HỢP
Một biến rời rạc chỉ có thể mang duy nhất 1 trạng thái chứa thông tin “0”, và 2 là số tự nhiên đứng sau 1 Đó là lý do vì sao bit – một biến chỉ có thể mang 2 giá trị là đơn vị chủ yếu và tiêu chuẩn của thông tin
Trang 25Một bộ gồm n bit có thể có 2ntrạng thái Số trạng thái của tập hợp những biến rời rạc dựa vào lũy thừa của số các biến và như định luật lũy thừa của số trạng thái của mỗi biến 10 bits có nhiều trạng thái hơn (1024) là 3 ký tự thập phân (1000) 10k bits là quá đủ để biểu diễn thông tin như một số nào đó hay bất kì thứ gì, cái mà yêu cầu 3k kí tự thập phân, cho nên thông tin có chứa các biến rời rạc như 3, 4, 5, 6, 7, 8, 9, 10… các trạng thái đều có thể được thay thế bởi việc được phân bổ gấp hai, ba hoặc bốn lần số bits Vì vậy việc sử dụng các số khác nhỏ hơn 2 không thực sự mang lại lợi ích nào hơn
Về mặt toán học, biến nhị phân x chỉ đơn giản là biến số nguyên chung bị giới hạn trong khoảng từ 0 đến 1
0 ≤ x ≤ 1
Tuy nhiên, chúng ta thường chỉ viết điều này dưới dạng x = 0 hoặc 1 Biến nhị phân cho phép chúng ta mô hình hóa các quyết định logic trong các bài toán tối ưu hóa Ví dụ: các biến nhị phân có thể được sử dụng để mô hình hóa các quyết định như liệu có (x = 1) hay (x = 2) để đặt một cơ sở tại một địa điểm nhất định, có hay không chạy dây chuyền sản xuất, hoặc có đầu tư vào một cổ phiếu nhất định hay không
1 Sử dụng biến nhị phân để tạo logic ràng buộc
Các biến nhị phân cho phép chúng ta tạo ra một loạt các ràng buộc logic Ví dụ, giả sử rằng nếu dự án 1 được chọn, thì dự án 4 cũng phải được chọn Suy nghĩ đầu tiên có thể là kết hợp một hàm IF trong Excel; tuy nhiên, nhớ lại rằng chúng ta đã lưu ý trong Chương
13 rằng các hàm như vậy phá hủy thuộc tính tuyến tính của Excel; do đó, chúng ta cần thể hiện các ràng buộc như vậy khác nhau Nếu dự án 1 được chọn, thì x1 = 1 và chúng ta cũng muốn buộc x4 trở thành 1 Điều này có thể được thực hiện bằng cách sử dụng các ràng buộc sau:
X 4 ≥ X 1
Trang 26Về mặt toán học, nếu x1 = 1 thì ràng buộc này ngụ ý rằng X4 ≥ 1 và do đó, x4 phải bằng
1 Nếu x1 = 0, thì x4 ≥ 0 và x4 có thể là 0 hoặc 1 Bảng 2 tóm tắt cách tạo nhiều loại điều kiện logic sử dụng các biến nhị phân
Bảng 2: Bảng các điều kiện logic bằng cách sử dụng biến nhị phân
Điều kiện logic Ví dụ ràng buộc
Nếu không phải A, thì B B ≥ 1 - A hoặc A + B ≥ 1
Nếu A, thì không phải B B ≤ 1 - A hoặc A + B ≤ 1
Nếu A, thì B và C (B ≥ A và C ≥ A) hoặc B + C ≥ 2A
Nếu A và B thì C C ≥ A + B - 1 hoặc A + B - C ≤ 1
Ví dụ: Hãng thực phẩm Paul & Giovanni
Paul & Giovanni Foods phân phối nguồn cung cấp cho các nhà hàng ở năm thành phố lớn: Houston, Las Vegas, New Orleans, Chicago và San Francisco Trong một nghiên cứu để cấu hình lại chuỗi cung ứng của họ, họ đã xác định được bốn địa điểm có thể có cho các trung tâm phân phối: Los Angeles, Denver, Pensacola và Cincinnati Chi phí cung cấp cho mỗi thành phố của khách hàng từ mỗi trung tâm phân phối được hiển thị dưới đây: Chi phí Houston Las Vegas New Orleans Chicago Francisco
Los Angeles $40,000 $11,000 $75,000 $70,000 $60,000
Pensacola $24,000 $44,000 $45,000 $80,000 $90,000
Cincinnati $32,000 $55,000 $90,000 $20,000 $105,000
Trang 27P & G Food mong muốn xác định cấu hình chuỗi cung ứng tốt nhất để giảm thiểu chi phí
Xác định Xij = 1 nếu thành phố khách hàng j được gán cho trung tâm phân phối i và 0 nếu không và Yi = 1 nếu trung tâm phân phối i được chọn trong số các vị trí tiềm năng Bài toán tối ưu hóa số nguyên là:
Trang 28Bài toán này có thể dễ dàng được sử dụng để đánh giá các lựa chọn thay thế cho các giá trị khác nhau của k sử dụng các kỹ thuật phân tích tham số Ví dụ: khi k = 1, bài toán chọn Los Angeles với tổng chi phí là 256.000 đô la; khi k = 3, Los Angeles, Cincinnati và Pensacola được chọn với chi phí tối thiểu là 160.000 đô la; và nếu tất cả bốn trung tâm phân phối được chọn, kết quả giải pháp giống nhau Người quản lý chuỗi cung ứng có thể
sử dụng thông tin này để xác định sự đánh đổi liên quan đến việc mở số lượng trung tâm phân phối khác nhau
Hình 7: Spreadsheet và Giải pháp tối ưu Paul & Giovanni Food cho k = 2
Trang 29Hình 8: Solver cho Paul & Giovanni Food
3.2 Dữ liệu phân lớp
Phân loại là vấn đề xác định một tập hợp các loại (quần thể phụ) mà một quan sát mới thuộc về, trên cơ sở tập hợp dữ liệu chứa các quan sát (hoặc trường hợp) có thành viên danh mục được biết đến Nhiều vấn đề trong thế giới thực có thể được mô hình hóa thành các vấn đề phân loại, chẳng hạn như gán một email nhất định vào các lớp spam spam, hoặc không thư rác, tự động gán các danh mục (ví dụ:về tin tức sắp tới và chỉ định chẩn đoán cho một bệnh nhân nhất định như được mô tả bởi các đặc điểm quan sát của bệnh nhân (giới tính, huyết áp, sự hiện diện hoặc không có triệu chứng nhất định, v.v.) Một quy trình chung về phân loại dữ liệu được trình bày trong Hình 2.2, thường bao gồm hai giai đoạn - giai đoạn đào tạo và giai đoạn dự đoán
Trong giai đoạn đào tạo, dữ liệu được phân tích thành một tập hợp các tính năng dựa trên các mô hình tạo tính năng, chẳng hạn như mô hình không gian vectơ cho dữ liệu văn bản Các tính năng này có thể là phân loại (ví dụ: Điên, Niết, Niết, Một, hay, một nhóm máu,
Trang 30đối với nhóm máu, đối với nhóm máu) (ví dụ: số lần xuất hiện của một phần từ trong email) hoặc giá trị thực (ví dụ: đo huyết áp) Một số thuật toán chỉ hoạt động về mặt dữ liệu rời rạc như ID3 và yêu cầu dữ liệu có giá trị thực hoặc giá trị nguyên phải được phân tách thành các nhóm (ví dụ: dưới 5, từ 5 đến 10 hoặc lớn hơn 10) Sau khi biểu diễn dữ liệu thông qua các tính năng được trích xuất này, thuật toán học tập
Hình 9: Một quy trình chung của phân loại dữ liệu
sẽ sử dụng thông tin nhãn cũng như chính dữ liệu để tìm hiểu chức năng bản đồ f (hoặc trình phân loại)
từ các tính năng đến nhãn, chẳng hạn như,
f (f ăn) → nhãn (2.1)Trong giai đoạn dự đoán, dữ liệu được biểu thị bằng bộ tính năng được trích xuất trong quy trình đào tạo và sau đó chức năng bản đồ (hoặc trình phân loại) học được
từ giai đoạn đào tạo sẽ thực hiện trên
tính năng đại diện dữ liệu để dự đoán các nhãn Lưu ý rằng bộ tính năng được sử dụng trong giai đoạn đào tạo phải giống với bộ tính năng trong giai đoạn dự đoán
Trang 31Có nhiều phương pháp phân loại trong tài liệu Những phương pháp này có thể được phân loại
rộng rãi vào các phân loại tuyến tính, máy vectơ hỗ trợ, cây quyết định và mạng thần kinh Một
phân loại tuyến tính đưa ra quyết định phân loại dựa trên giá trị của sự kết hợp tuyến tính của các tính năng Ví dụ về phân loại tuyến tính bao gồm phân biệt tuyến tính Fisher, hồi quy logistic, phân loại vịnh ngây thơ, v.v Theo trực giác, một siêu phẳng tốt có thể đạt được khoảng cách lớn nhất đến điểm dữ liệu huấn luyện gần nhất của bất kỳ lớp nào (được gọi là lề chức năng), vì nói chung, lề càng lớn thì sai số tổng quát hóa của bộ phân loại càng thấp Do đó, máy vectơ hỗ trợ xây dựng một siêu phẳng hoặc tập hợp các siêu phẳng bằng cách tối đa hóa lề Trong các cây quyết định, một cây có thể được học bằng cách chia bộ nguồn thành các tập hợp con dựa trên kiểm tra giá trị tính năng Quá trình này được lặp lại trên mỗi tập hợp con dẫn xuất theo cách đệ quy được gọi là phân vùng đệ quy Đệ quy được hoàn thành khi tập hợp con tại một nút có tất cả các giá trị giống nhau của tính năng đích hoặc khi phân tách không còn tăng giá trị cho các dự đoán
3.3 Dữ liệu dạng thứ tự
Dữ liệu thứ tự chỉ là thứ tự xếp hạng Những mệnh đề có thể là A > B và B < C nhưng
ta không thể tính toán được sự khác biệt giữa hai nhóm này về mặt số học Một ví dụ điển hình là danh sách top 10, thể hiện dữ liệu thứ tự Thông thường thì dạng dữ liệu phân loại
sẽ được định dạng là dạng Dữ liệu thứ tự nếu như có bao hàm sự trật tự trước sau, nhưng
có một vấn đề là chúng ta sẽ không bao giờ biết được chính xác sự khác biệt giữa những
dữ liệu riêng lẻ ở những thứ hạng sắp xếp khác nhau
Phân loại thứ tự thứ tự (ordinal) là dạng dự liệu mang một số ý nghĩa về thứ tự giữa
các giá trị của nó Ví dụ hình dưới đây cho việc phân loại kích cỡ áo Thứ tự giữa các nhóm
được thể hiện rất rõ ràng trong trường hợp này như khi nói về “size” áo sơ mi thì S < M < L
Trang 32Hình 10: Dữ liệu dạng thứ tự
Tương tự, cỡ giày, trình độ học vấn, vai trò của nhân viên… là các ví dụ khác cho dạng phân loại thứ tự Như vậy chúng ta đã có cái nhìn khái quát về dạng dữ liệu phân loại, tiếp theo hãy xem xét các phương pháp để xử lý chúng
3.4 Dữ liệu giá trị khoảng
Đây là một loại dữ liệu dạng số học, cái mà bạn có thể đo đạc được khoảng cách nói chung chứ không thể đo về tỉ lệ Nhiệt độ hay lịch theo ngày là ví dụ điển hình cho dữ liệu giá trị khoảng Mọi sự khác nhau về mặt số học giữa hai giá trị dữ liệu liền kề nhau trên thang đo số học được đo lường bằng cách hoàn toàn giống nhau, như vậy ta có thể nhận thấy sự khác biệt rõ rệt
3.5 Dữ liệu thuộc giá trị tỷ lệ
Bậc cao nhất của dữ liệu số học là thang đo tỉ lệ Với dữ liệu giá tri tỉ lệ, chúng ta có thể so sánh một cách rất rõ rệt và mang lại nhiều ý nghĩa bằng cách chia hoặc trừ Điều rõ rệt ấy ở đây tức là bạn đã đạt được gấp đôi lượng khách khách hàng đến nhà hàng nếu như lượng khách đó đi từ 50 lên 100 khách trong 1 tháng Dữ liệu tỉ lệ cũng thêm cả giá trị “0” vào miền xác định của dữ liệu và đương nhiên dữ liệu giá trị tỉ lệ sẽ bắt đầu với “0” đầu tiên (cái mà dữ liệu giá trị khoảng không hề có) cho nên kể cả khi bạn nói bạn có 0 khách hàng tháng này thì nó vẫn có nghĩa Cân nặng và thu nhập là hai đại lượng đặc trưng dễ hiểu nhất, tuy nhiên nhiệt độ lại không có giá trị “0” , khi đó ta lại nói rằng điều ấy nghĩa
là không có nhiệt độ
3.6 Dữ liệu chuỗi và chuỗi thời gian
Trong dữ liệu chuỗi thíi gian , dữ liệu chuỗi bao gồm chuỗi dữ liệu số dài, được ghi lại trong các khoảng thời gian bằng nhau (ví dụ: mỗi phút, mỗi giờ hoặn mỗi ngày) Dữ liệu
Trang 33chuỗi thời gian có thể được tạo ra bởi nhiều quá trình tự nhiên và kinh tế như thị tríng chứng khoán, và quan sát khoa học, y tế
+Tìm kiêm sự giống nhau trong dữ liệu chuỗi thời gian
Một tập dữ liệu chuỗi thời gian bao gồm các chuỗi các giá trị số thu được qua sự lặp lại
đo thời gian Các giá trị thường được đo ở các khoảng thời gian bằng nhau (Ví dụ: mỗi phút giờ hoặc ngày) Cơ sở dữ hiện chuỗi thời gian là phổ biến trong nhiều ứng dụng chẳng hạn như phân tích thị trường chứng khoán, dự báo kinh tế và bán hàng, phân tích ngân sách, nghiên cứu tiện Ích nghiên cứu hàng tồn kho dự báo năng suất dư báo khối lượng công việc và quy trình và kiểm soát chất lượng Chúng cũng hữu Ích cho việc nghiên cứu các hiện tượng tự nhiên (Ví dụ: bầu khí quyển nhiệt độ, gió, động đất) thí nghiệm khoa học
và kỹ thuật và y tế, phương pháp điều trị
Không giống như các truy vấn cơ sở dữ liện thông thường, tìm chính xác dữ liệu khớp với một truy vấn nhất định, một tìm kiếm tương tự tìm thấy các chuỗi dữ liệu chỉ khác một chút so với truy vấn đã cho sự nối tiếp Nhiều truy vấn tương tư chuỗi thời gian yêu cầu khớp nối tiếp, nghĩa là tìm một tập hợp các chuỗi chứa các chuỗi tương tự như một truy vấn đã cho sự nối tiếp Đối với tìm kiếm tương tự, trước tiên thường cần thực hiện dữ liệu hoặc thứ nguyên giảm và chuyển đổi dữ liệu chuỗi thời gian Các kỹ thuật giảm kích thước điển hình bao gồm (1) biến đổi Fonrier rời rạc (DFT), (2) biến đổi sóng con rời rạc (DWT)
và (3) phân rã giá trị Số Ít (SVD) dựa trên phân tích thành phần chính (PCA).Bởi vì những khái niệm này đã được nêu trong phần 3 của cuốn sách và sự giải thích nằm ngoài phạm vi của cuốn sách này nên chúng tôi sẽ không đi sâu vào chi tiết ở đây Với các kỹ thuật như vậy dữ liệu hoặc tín hiệu được ánh xạ tới tín hiệu trong một không gian được chuyển đổi Một tập hợp con của các hệ số biến đổi “mạnh nhất” của điểm số được lưu dưới dạng các tính năng
Các tính năng này tạo thành một không gian đặc trưng, là hình chiếu của không gian được chuyển đổi Các chỉ số có thể được xây dựng trên dữ liệu chuỗi thời gian gốc hoặc biến đổi để tăng tốc lên một tìm kiếm đối với tìm kiếm tương tự dựa trên truy vấn, các kỹ
Trang 34thuật bao gồm chuẩn hóa biến đổi, khớp nguyên tử (nghĩa Ià tìm cặp cửa sổ không khe hở nhỏ chiều dài tương tự nhau) khâu cửa sổ (nghĩa Ià, khâu các cửa số tương tự để tạo thành cập của các chuỗi con tương tự lớn cho phép khoảng cách giữa các đấu nối tiếp nguyên tử)
và thứ tư tiếp theo (nghĩa là, sắp xếp tuyến tính các trận đấu nối tiếp để xác định xem đủ các mảnh tương tự tồn tại hay không) Nhiều gói phần mềm tồn tại cho một tìm kiếm tương
tự trong dữ liệu chuỗi thời gian
3.7 Dữ liệu liên tục và dữ liệu rời rạc
+ Dữ liệu liên tục: Dữ liệu liên tục có thể là bất kỳ con số nào trong một khoảng (
khoảng này có thể là vô cùng) Có vô số khả năng cho giá trị của con số trong dữ liệu liên tục Ví dụ, chiều cao là biến liên tục, người thấp nhất theo kỷ lục Guinness chỉ cáo 20,5 inches và người cao nhất thế giới là 99 inches, theo đó 21,5 là điểm đầu và 99 là điểm cuối, chiều cao của một người bình thường có thể rơi vào bất kỳ số nào trong đoạn này
Hình 11: Dữ liệu liên tục
+ Dữ liệu rời rạc:
Dữ liệu rời rạc, bản chất là số nguyên, là những dữ liệu đếm được và riêng biệt – nó chỉ có thể là những con số chắc chắn Ví dụ, cha mẹ bạn là số người rời rạc – bạn không thể có
Trang 35một nửa của cha mẹ được Dưới ví dụ dưới đây, số lượng đã được định nghĩa rõ ràng (1, 2,
số cụ thể nhưng không ít thì nhiều vẫn là dữ liệu mờ
+ Dữ liệu mờ một chiều: kết quả đo lường của một biến liên tục một chiều ví dụ như thời gian vòng đời của một đơn vị sinh học, đo độ dài, đo âm lượng, chiều cao của cây, mực nước trong hồ hoặc của con sông, đo lường vận tốc, đo lường khối lượng lớn
Một kiểu dữ liệu mờ một chiều đặc biệt là những dữ liệu dưới dạng đoạn [a;b]⊆
Như là những dữ liệu được ghi nhận bởi những thiết bị đo lường kỹ thuật số bởi vì chúng chỉ có hữu hạn những số các chữ số
+ Dữ liệu mờ dạng vector có giá trị
Rất nhiều những dữ liệu của thống kê là nhiều chiều Ví dụ, kết quả đo lường lý tưởng
tương ứng là những vector thực (x1, … , x k)∈ k Trong ứng dụng thì dữ liệu mờ cũng
Trang 36thường không không rõ ràng ở một góc độ nào đó nhưng cũng không phải là một vector rõ ràng Ví dụ:
Tọa độ của một vật trong không gian như tàu thủy trên radar, dữ liệu không gian theo thời gian, những dữ liệu nhiều chiều không rõ ràng dưới dạng vector (x1 ,…,xn ) của số mờ
xi
Dưới đây là tính biến thiên và sự mờ
3.9 Dữ liệu văn bản
Dữ liệu văn bản là đầu vào sử dụng thường xuyên cho thuật toán học máy vì nó mang
sự biểu diễn tự nhiên của dữ liệu bằng ngôn ngữ của chúng ta Nó phong phú đến nỗi nó cũng chứa câu trả lời cho điều mà chúng ta đang tìm kiếm Phương pháp phổ biến nhất khi
xử lý văn bản là sử dụng phương pháp mô hình túi – từ Theo biện pháp này, mỗi chữ trở thành một đặc tính và văn bản trở thành vector chứa phần tử không (0) với mọi đặc trưng (nội dung, chữ cái) trong phần thân của chúng Khi được đưa cho một tập dữ liệu văn bản,
số đặc tính của nó là bao nhiêu? Thật đơn giản Chỉ trích xuất tất cả chữ riêng biệt trong
Hình 13: Dữ liệu mờ