- Khi kết hợp các thuộc tính từ cơ sở dữ liệu này sang cơ sở dữ liệu khác trong quá trình tích hợp, phải đặc biệt chú ý đến cấu trúc của dữ liệu.Ví dụ: Trong một hệ thống, chiết khấu có
Trang 2Tổng quát chung :
-Mục đích :
+Tích hợp cẩn thận có thể giúp giảm và tránh dư thừa và không nhất quán trongtập dữ liệu kết quả Điều này có thể giúp cải thiện độ chính xác và tốc độ của quá trình khai thác dữ liệu
Trang 31 Vấn đề nhận dạng thực thể
- Kết hợp dữ liệu từ nhiều nguồn vào một kho dữ liệu nhất quán Các nguồn này có thể bao gồm nhiều cơ
sở dữ liệu, khối dữ liệu hoặc tệp phẳng.Một số tài nguyên dữ liệu khớp với nhau, trở nên có giá trị nếu chúng được tích hợp
- Vậy vấn đề nhận dạng thực thể là gì ?
+Tích hợp lược đồ và đối sánh đối tượng có thể phức tạp
+ Làm cách nào để đối sánh các thực thể tương đương trong thế giới thực từ nhiều nguồn dữ liệu
2
Trang 4Ví dụ: A.cust-id = B.cust-number Ở đây A, B là hai bảng cơ sở dữ liệu khác nhau Cust-id là thuộc tính của bảng A, cust-number là thuộc tính của bảng B Ở đây cust-id và cust-number là thuộc tính của các bảng khác nhau và không có mối quan hệ giữa các bảng này, nhưng thuộc tính cust-id và Thuộc tính cust-number đang nhận các giá trị giống nhau Đây là một ví dụ về Vấn đề Nhận dạng Thực thể trong mối quan hệ
select *from A,B where A.cust-id=B.cust-number
Trang 5- Khi kết hợp các thuộc tính từ cơ sở dữ liệu này sang cơ sở dữ liệu khác trong quá trình tích hợp, phải đặc biệt chú ý đến cấu trúc của dữ liệu.
Ví dụ: Trong một hệ thống, chiết khấu có thể được áp dụng cho đơn đặt hàng, trong
khi trong một hệ thống khác, chiết khấu được áp dụng cho từng mục hàng riêng lẻ
trong đơn đặt hàng
Nếu điều này không được nắm bắt trước khi tích hợp, các mặt hàng trong hệ thống
có thể bị giảm giá một cách không thích hợp
4
Trang 62 Phân tích dự phòng và tương quan
2.1 Dư Thừa và tương quan dữ liệu
Một thuộc tính có thể bị dư thừa do :+ Được “bắt nguồn” từ một thuộc tính hoặc tập hợp các thuộc tính khác
+Sự không nhất quán trong cách đặt tên thuộc tính
Trang 72.2 phân tích tương quan của các thuộc tính danh
nghĩa Một số điểm dư thừa có thể được phát hiện bằng
phân tích tương quan
Ví dụ:Phân tích tương quan của các thuộc tính danh nghĩa bằng
cách sử dụng χ2 (còn được gọi là thống kê Pearson ).còn được gọi là thống kê Pearson )
Ta tìm mối quan hệ tương quan giữa hai thuộc tính, A và B (còn được gọi là thống kê Pearson ).với A là giớitính và là thể loại đọc sách)
A[i] : gồm Nam và Nữ
B[j] : gồm hư cấu và phi hư cấu
6
Trang 8Oij:là tần xuất thưc.
Eij: là tần xuất dự kiến
Công thức tính Eij
Áp Dụng công thức:
Tính tần xuất dự kiến(Eij) của Nam – Hư cấu là A[1]B[1]:
Trang 10Ứng dụng kết quả thu được
Đối với bảng 2 × 2 này, bậc tự do là (còn được gọi là thống kê Pearson ).2 - 1) (còn được gọi là thống kê Pearson ).2 - 1) = 1 Đối với 1 bậc dom tự do,giá trị χ2 cần thiết để bác bỏ giả thuyết ở mức ý nghĩa 0,001 là 10,828
Vì giá trị tính toán của chúng tôi cao hơn giá trị này, chúng tôi có thể bác
bỏ giả thuyết rằng giới tính và cách đọc ưa thích là độc lập và kết luận
rằng hai thuộc tính có tương quan (còn được gọi là thống kê Pearson ).mạnh) với một nhóm người nhất định
Trang 112.3 Hệ số tương quan cho dữ liệu số
Đối với thuộc tính số, chúng ta có thể đánh giá mối tương quan giữa hai thuộc tính A
và B bằng cách tính toán hệ số tương quan (còn được gọi là thống kê Pearson ).còn được gọi là hệ số mô men sản phẩm
của Pearson, được đặt theo tên người phát minh ra nó, Karl Pearson)
Trong đó
• n là số bộ giá trị,
• ai và bi là giá trị tương ứng của A và B trong bộ giá trị i,
• A¯ và B¯ là giá trị trung bình tương ứng của A và B,
• σA và σB là độ lệch chuẩn tương ứng của A và BA và σA và σB là độ lệch chuẩn tương ứng của A và BB là độ lệch chuẩn tương ứng của A và B
• Tổng (còn được gọi là thống kê Pearson ).aibi) là tổng của tích chéo AB (còn được gọi là thống kê Pearson ).nghĩa là đối với mỗi bộ, giá trị của A được nhân với giá trị của B trong bộ đó)
9
Trang 12Lưu ý rằng −1 ≤ rA, B ≤ +1.
• Nếu rA, B lớn hơn 0, thì A và B có tương quan thuận, nghĩa là giá trị của A tăng khi giá trị của B tăng Giá trị càng cao, mối tương quan càng mạnh
• Nếu giá trị kết quả bằng 0, thì A và B là độc lập và không có mối tương quan giữa chúng
• Nếu giá trị kết quả nhỏ hơn 0, thì A và B là âm tương quan, trong đó giá trị của một thuộc tính tăng lên khi giá trị của thuộc tính khác giảm bớt Điều này có nghĩa là mỗi thuộc tính không khuyến khích thuộc tính kia.Biểu đồ phân tán cũng có thể là :
10
Trang 13Ví Dụ:
Giả sử có 5 sinh viên được hỏi điểm trung bình trung học và điểm trung bình đại học
của họ, với các câu trả lời như sau:
Chúng tôi muốn biết: điểm trung bình của trường trung học và đại học có liên quan với nhautheo dữ liệu này không, và nếu chúng có liên quan với nhau, làm cách nào tôi có thể sử dụngđiểm trung bình trung học để dự đoán điểm trung bình đại học?
Có hai câu trả lời để đưa ra:
đầu tiên, chúng có liên quan với nhau không vàthứ hai, chúng liên quan với nhau như thế nào
11
Trang 14• Nhìn vào dữ liệu này, có thể thấy rõ ràng rằng điểm trung bình đại học luôn kém hơn điểm trung học phổ thông, và điểm trung bình trung học càng nhỏ thì điểm trung bình đại học càng nhỏ.
• Nhưng một mối quan hệ bền chặt như thế nào, nếu có, dường như rất khó để định lượng
• Đầu tiên chúng ta sẽ thảo luận về cách tính toán và diễn giải cái gọi là hệ số tương quan để giúp quyết định xem hai biến số có liên quan hay không Nói cách khác, nó có thể trả lời câu hỏi đầu tiên của chúng ta
• Chúng tôi sẽ trả lời câu hỏi thứ hai trong các phần sau Đầu tiên, hãy xác định hệ số tương quan về mặt toán học
12
Trang 15Trong ví dụ trên, hệ số tương quan rất gần với +1 Do đó, chúng ta có thể kết luận rằng thực sự cómột mối quan hệ tích cực mạnh mẽ giữa điểm trung bình trung học và điểm trung bình đại học
Trang 162.4 Phương sai của dữ liệu số
Trong lý thuyết xác suất và thống kê, tương quan và hiệp phương sai là hai thước đo tương
tự để đánh giá mức độ thay đổi của hai thuộc tính cùng nhau Xem xét hai thuộc tính số
A và B, và tập hợp n quan sát {(còn được gọi là thống kê Pearson ).a1, b1), , (còn được gọi là thống kê Pearson ).an, bn)} Giá trị trung bình của A và B,
tương ứng, còn được gọi là giá trị mong đợi trên A và B, nghĩa là,
Hiệp phương sai giữa A và B được định nghĩa là
Trang 17Nếu chúng ta so sánh Eq (còn được gọi là thống kê Pearson ).3.3) cho rA, B (còn được gọi là thống kê Pearson ).hệ số tương quan) với Eq (còn được gọi là thống kê Pearson ).3.4) đối với hiệp phương sai,chúng ta thấy rằng
15
Trang 18Trong đó σA và σB là độ lệch chuẩn tương ứng của A và BA và σA và σB là độ lệch chuẩn tương ứng của A và BB lần lượt là độ lệch chuẩn của A và B Nó cũng có thể được chỉ ra rằng
Phương trình này có thể đơn giản hóa các phép tính
Đối với hai thuộc tính A và B có xu hướng thay đổi cùng nhau, nếu A lớn hơn A¯ (còn được gọi là thống kê Pearson ).giá trị
kỳ vọng của A), thì B có khả năng lớn hơn B¯ (còn được gọi là thống kê Pearson ).giá trị kỳ vọng của B) Do đó, hiệp
phương sai giữa A và B là dương
Mặt khác, nếu một trong các thuộc tính có xu hướng cao hơn giá trị mong đợi của nó khi thuộc tính kia thấp hơn giá trị mong đợi, thì hiệp phương sai của A và B là số âm Nếu A
và B độc lập (còn được gọi là thống kê Pearson ).tức là chúng không có mối tương quan) thì E (còn được gọi là thống kê Pearson ).A · B) = E (còn được gọi là thống kê Pearson ).A) · E (còn được gọi là thống kê Pearson ).B) Do
đó, hiệp phương sai là Cov (còn được gọi là thống kê Pearson ).A, B) = E (còn được gọi là thống kê Pearson ).A · B) - A¯ B¯ = E (còn được gọi là thống kê Pearson ).A) · E (còn được gọi là thống kê Pearson ).B) - A¯ B¯ = 0
Tuy nhiên, điều ngược lại là không đúng Một số cặp biến ngẫu nhiên (còn được gọi là thống kê Pearson ).thuộc tính) có thể
có hiệp phương sai bằng 0 nhưng không độc lập Chỉ theo một số giả định bổ sung
Trang 19Ví Dụ: Phân tích hiệp phương sai của các thuộc tính số.
Hãy xem bảng 3.2, trình bày một ví dụ mô phỏng về giá cổ phiếu được quan sát tại thời điểmcủa AllElectronics và HighTech, một công ty công nghệ cao
Nếu phiếu cổ được ảnh hưởng bởi xu hướng cùng ngành, giá của họ sẽ tăng hay giảm giốngnhau?
17
Trang 20Do đó, với hiệp phương sai dương, chúng ta có thể nói rằng giá cổ phiếu của cả haicông ty cùng tăng.
Phương sai là một trường hợp đặc biệt của hiệp phương sai, trong đó hai thuộc tính giống hệt nhau (còn được gọi là thống kê Pearson ).tức là hiệp phương sai của một thuộc tính với chính nó) Phương sai đãđược thảo luận trong Chương 2
Trang 21Khi dữ liệu được tích hợp từ một số cơ sở dữ liệu hoặc ứng dụng thì các thuộc tính dữ liệu dưthừa thường xảy ra Lượng dư thừa và trùng lặp bộ(còn được gọi là thống kê Pearson ).dữ liệu) là những vấn đề quan trọng trongtích hợp dữ liệu trong quá trình khai thác dữ liệu.
19
Trang 22S.No Petal length Petal Width Sepal Length Sepal Width
Chúng ta hãy xem xét bảng trên của tập dữ liệu là một tập hợp các giá trị Bộ giá trị đầu tiên
và cuối cùng giống nhau trong bảng Vì vậy, Bộ giá trị cuối cùng được coi là một bản sao
Chúng ta coi bộ giá trị là trùng lặp nếu tất cả các giá trị thuộc tính của hai hàng giống nhau
Các dư thừa giữa các thuộc tính và các bộ giá trị trùng lặp phải được phát hiện Các bộ dữ liệu
trùng lặp cho kết quả giống nhau riêng lẻ và điều này ảnh hưởng đến hiệu suất tổng thể của
các thuật toán học máy nếu tập dữ liệu chứa các bộ dữ liệu trùng lặp Các bộ giá trị trùng lặp
cũng có thể dẫn đến khó khăn trong việc bảo trì cơ sở dữ liệu
Trang 2320
Trang 244 Phát hiện và giải quyết xung đột giá trị dữ liệu
Tích hợp dữ liệu cũng liên quan đến việc phát hiện và giải quyết các xung đột về giá trị dữliệu
Đối với cùng một thực thể trong thế giới thực, các giá trị thuộc tính từ các nguồn khác nhau
có thể khác nhau
VD: chương trình giảng dạy và chương trình chấm điểm riêng Một trường đại học có thể áp dụng hệ thống một phần tư, cung cấp ba khóa học trên hệ thống cơ sở dữ liệu và ấn định điểm từ A + đến F, trong khi một trường đại học khác có thể áp dụng hệ thống học kỳ, cung cấp hai khóa học trên cơ sở dữ liệu và ấn định điểm từ 1
Rất khó để đưa ra các quy tắc chuyển đổi giữa các khóa học chính xác giữa hai trường đạihọc, làm cho việc trao đổi thông tin trở nên khó khăn
Trang 25Các thuộc tính cũng có thể khác nhau ở cấp độ trừu tượng, trong đó một thuộc tính trong mộttem hệ thống được ghi ở mức trừu tượng thấp hơn so với cùng một thuộc tính trong hệ thốngkhác.
Ví dụ: tổng doanh số bán hàng trong một cơ sở dữ liệu có thể đề cập đến một chi nhánh của Tất cả các cửa hàng điện tử, trong khi một thuộc tính cùng tên trong cơ sở dữ liệu khác có thể đề cập đến tổng doanh số bán hàng cho Tất cả các cửa hàng Điện tử trong một khu vực nhất định.
22
Trang 26Tài liệu tham khảo
1. https://www.javatpoint.com/entity-identification-problem-in-data-mining
2 [1] 2011 Data Mining - Concepts and Techniques
3. https://www.geeksforgeeks.org/tuple-duplication-in-data-mining/