PowerPoint Presentation Tích hợp dữ liệu Data Integration 191201999 Đồng Văn Dương 191203508 Trần Văn Tú 191212289 Nguyễn Thành Long 191203129 Nguyễn Minh Hiệp 191202253 Dương Đình Hùng Tổng quát chun.
Trang 2Tổng quát chung :
-Mục đích :
+Tích hợp cẩn thận có thể giúp giảm và tránh dư thừa và không nhất quán trong tập dữ liệu kết quả Điều này có thể giúp cải thiện độ chính xác và tốc độ củaquá trình khai thác dữ liệu
Trang 3- Kết hợp dữ liệu từ nhiều nguồn vào một kho dữ liệu nhất quán Các nguồn này có thể bao gồm nhiều cơ sở dữ liệu, khối dữ liệu hoặc tệp phẳng.Một số tài nguyên dữ liệu khớp với nhau, trở nên có giá trị nếu chúng được tích hợp.
- Vậy vấn đề nhận dạng thực thể là gì ?
+Tích hợp lược đồ và đối sánh đối tượng có thể phức tạp
+ Làm cách nào để đối sánh các thực thể tương đương trong thế giới thực từ nhiều nguồn
dữ liệu
1 Vấn đề nhận dạng thực thể
Trang 4Ví dụ: A.cust-id = B.cust-number Ở đây A, B là hai bảng cơ sở dữ liệu khác nhau
Cust-id là thuộc tính của bảng A, number là thuộc tính của bảng B Ở đây Cust-id và
cust-number là thuộc tính của các bảng khác nhau và không có mối quan hệ giữa các bảng này, nhưng thuộc tính cust-id và Thuộc tính cust-number đang nhận các giá trị giống nhau Đây là một ví dụ về Vấn đề Nhận dạng Thực thể trong mối quan hệ
Trang 5- Khi kết hợp các thuộc tính từ cơ sở dữ liệu này sang cơ sở dữ liệu khác trong quá trình tích hợp, phải đặc biệt chú ý đến cấu trúc của dữ liệu.
Ví dụ: Trong một hệ thống, chiết khấu có thể được áp dụng cho đơn đặt hàng, trong khi trong một hệ thống khác, chiết khấu được áp dụng cho từng mục hàng riêng lẻ trong đơn đặt hàng
Nếu điều này không được nắm bắt trước khi tích hợp, các mặt hàng trong hệ thống
có thể bị giảm giá một cách không thích hợp
Trang 6Một thuộc tính có thể bị dư thừa do :
+ Được “bắt nguồn” từ một thuộc tính hoặc tập hợp các thuộc tính khác
+Sự không nhất quán trong cách đặt tên thuộc tính
2.1 Dư Thừa và tương quan dữ liệu
2 Phân tích dự phòng và tương quan
Trang 72.2 phân tích tương quan của các thuộc tính danh nghĩa
Một số điểm dư thừa có thể được phát hiện bằng phân tích
tương quan
Ví dụ:Phân tích tương quan của các thuộc tính danh nghĩa bằng
cách sử dụng χ2 (còn được gọi là thống kê Pearson ).
Ta tìm mối quan hệ tương quan giữa hai thuộc tính, A và B (với A là giới tính và là thể loại đọc sách)
A[i] : gồm Nam và Nữ
B[j] : gồm hư cấu và phi hư cấu
Trang 8Oij:là tần xuất thưc.
Eij: là tần xuất dự kiến
Công thức tính Eij
Áp Dụng công thức:
Tính tần xuất dự kiến(Eij) của Nam – Hư cấu là A[1]B[1]:
Trang 9Ứng dụng kết quả thu được
Đối với bảng 2 × 2 này, bậc tự do là (2 - 1) (2 - 1) = 1 Đối với 1 bậc dom tự do, giá trị χ2 cần thiết để bác bỏ giả thuyết ở mức ý nghĩa 0,001 là 10,828
Vì giá trị tính toán của chúng tôi cao hơn giá trị này, chúng tôi có thể bác
bỏ giả thuyết rằng giới tính và cách đọc ưa thích là độc lập và kết luận
Trang 102.3 Hệ số tương quan cho dữ liệu số
Đối với thuộc tính số, chúng ta có thể đánh giá mối tương quan giữa hai thuộc tính A và
B bằng cách tính toán hệ số tương quan (còn được gọi là hệ số mô men sản phẩm của Pearson, được đặt theo tên người phát minh ra nó, Karl Pearson)
Trong đó
• n là số bộ giá trị,
• ai và bi là giá trị tương ứng của A và B trong bộ giá trị i,
• A¯ và B¯ là giá trị trung bình tương ứng của A và B,
• σA và σB là độ lệch chuẩn tương ứng của A và B
• Tổng (aibi) là tổng của tích chéo AB (nghĩa là đối với mỗi bộ, giá trị của A được nhân với giá trị của B trong bộ đó)
Trang 11Biểu đồ phân tán cũng có thể là :
Trang 12Ví Dụ:
Giả sử có 5 sinh viên được hỏi điểm trung bình trung học và điểm trung bình đại học
của họ, với các câu trả lời như sau:
Chúng tôi muốn biết: điểm trung bình của trường trung học và đại học có liên quan với nhau theo dữ liệu này không, và nếu chúng có liên quan với nhau, làm cách nào tôi có thể sử dụng điểm trung bình trung học để dự đoán điểm trung bình đại học?
Có hai câu trả lời để đưa ra:
đầu tiên, chúng có liên quan với nhau không và
thứ hai, chúng liên quan với nhau như thế nào
Trang 13• Nhìn vào dữ liệu này, có thể thấy rõ ràng rằng điểm trung bình đại học luôn kém hơn điểm trung học phổ thông, và điểm trung bình trung học càng nhỏ thì điểm trung bình đại học càng nhỏ
• Nhưng một mối quan hệ bền chặt như thế nào, nếu có, dường như rất khó để định lượng
• Đầu tiên chúng ta sẽ thảo luận về cách tính toán và diễn giải cái gọi là hệ số tương quan để giúp quyết định xem hai biến số có liên quan hay không Nói cách khác, nó có thể trả lời câu hỏi đầu tiên của chúng ta
• Chúng tôi sẽ trả lời câu hỏi thứ hai trong các phần sau Đầu tiên, hãy xác định hệ số tương quan về mặt toán học
Trang 152.4 Phương sai của dữ liệu số
Trong lý thuyết xác suất và thống kê, tương quan và hiệp phương sai là hai thước đo tương
tự để đánh giá mức độ thay đổi của hai thuộc tính cùng nhau Xem xét hai thuộc tính số
A và B, và tập hợp n quan sát {(a1, b1), , (an, bn)} Giá trị trung bình của A và B, tương ứng, còn được gọi là giá trị mong đợi trên A và B, nghĩa là,
Hiệp phương sai giữa A và B được định nghĩa là
Trang 16Nếu chúng ta so sánh Eq (3.3) cho rA, B (hệ số tương quan) với Eq (3.4) đối với hiệp phương sai, chúng ta thấy rằng
Trang 17Trong đó σA và σB lần lượt là độ lệch chuẩn của A và B Nó cũng có thể được chỉ ra rằng
Phương trình này có thể đơn giản hóa các phép tính
Đối với hai thuộc tính A và B có xu hướng thay đổi cùng nhau, nếu A lớn hơn A¯ (giá trị
kỳ vọng của A), thì B có khả năng lớn hơn B¯ (giá trị kỳ vọng của B) Do đó, hiệp phương sai giữa A và B là dương
Mặt khác, nếu một trong các thuộc tính có xu hướng cao hơn giá trị mong đợi của nó khi thuộc tính kia thấp hơn giá trị mong đợi, thì hiệp phương sai của A và B là số âm Nếu A
và B độc lập (tức là chúng không có mối tương quan) thì E (A · B) = E (A) · E (B) Do đó, hiệp phương sai là Cov (A, B) = E (A · B) - A¯ B¯ = E (A) · E (B) - A¯ B¯ = 0
Tuy nhiên, điều ngược lại là không đúng Một số cặp biến ngẫu nhiên (thuộc tính) có thể
có hiệp phương sai bằng 0 nhưng không độc lập Chỉ theo một số giả định bổ sung
Trang 18Ví Dụ: Phân tích hiệp phương sai của các thuộc tính số.
Hãy xem bảng 3.2, trình bày một ví dụ mô phỏng về giá cổ phiếu được quan sát tại thời điểm của AllElectronics và HighTech, một công ty công nghệ cao
Nếu phiếu cổ được ảnh hưởng bởi xu hướng cùng ngành, giá của họ sẽ tăng hay giảm giống nhau?
Trang 19Do đó, với hiệp phương sai dương, chúng ta có thể nói rằng giá cổ phiếu của cả hai công ty cùng tăng.
Phương sai là một trường hợp đặc biệt của hiệp phương sai, trong đó hai thuộc tính giống hệt nhau (tức là hiệp phương sai của một thuộc tính với chính nó) Phương sai đã được thảo luận trong Chương 2
Trang 20Khi dữ liệu được tích hợp từ một số cơ sở dữ liệu hoặc ứng dụng thì các thuộc tính dữ liệu dư thừa thường xảy ra Lượng dư thừa và trùng lặp bộ(dữ liệu) là những vấn đề quan trọng trong tích hợp dữ liệu trong quá trình khai thác dữ liệu
Trang 21S.No Petal length Petal Width Sepal Length Sepal Width
Chúng ta hãy xem xét bảng trên của tập dữ liệu là một tập hợp các giá trị Bộ giá trị đầu tiên
và cuối cùng giống nhau trong bảng Vì vậy, Bộ giá trị cuối cùng được coi là một bản sao Chúng ta coi bộ giá trị là trùng lặp nếu tất cả các giá trị thuộc tính của hai hàng giống nhau.Các dư thừa giữa các thuộc tính và các bộ giá trị trùng lặp phải được phát hiện Các bộ dữ liệu trùng lặp cho kết quả giống nhau riêng lẻ và điều này ảnh hưởng đến hiệu suất tổng thể của các thuật toán học máy nếu tập dữ liệu chứa các bộ dữ liệu trùng lặp Các bộ giá trị trùng lặp cũng có thể dẫn đến khó khăn trong việc bảo trì cơ sở dữ liệu
Trang 224 Phát hiện và giải quyết xung đột giá trị dữ liệu
Tích hợp dữ liệu cũng liên quan đến việc phát hiện và giải quyết các xung đột về giá trị dữ liệu
Đối với cùng một thực thể trong thế giới thực, các giá trị thuộc tính từ các nguồn khác nhau
có thể khác nhau
VD: chương trình giảng dạy và chương trình chấm điểm riêng Một trường đại học có thể áp dụng hệ thống một phần tư, cung cấp ba khóa học trên hệ thống cơ sở dữ liệu và ấn định điểm từ A + đến F, trong khi một trường đại học khác có thể áp dụng hệ thống học kỳ, cung cấp hai khóa học trên cơ sở dữ liệu và ấn định điểm từ 1
Rất khó để đưa ra các quy tắc chuyển đổi giữa các khóa học chính xác giữa hai trường đại học, làm cho việc trao đổi thông tin trở nên khó khăn
Trang 23Các thuộc tính cũng có thể khác nhau ở cấp độ trừu tượng, trong đó một thuộc tính trong một tem hệ thống được ghi ở mức trừu tượng thấp hơn so với cùng một thuộc tính trong hệ thống khác.
Ví dụ: tổng doanh số bán hàng trong một cơ sở dữ liệu có thể đề cập đến một chi nhánh của Tất cả các cửa hàng điện tử, trong khi một thuộc tính cùng tên trong cơ sở dữ liệu khác có thể
đề cập đến tổng doanh số bán hàng cho Tất cả các cửa hàng Điện tử trong một khu vực nhất định.
Trang 24Tài liệu tham khảo
1 https://www.javatpoint.com/entity-identification-problem-in-data-mining
2 [1] 2011 Data Mining - Concepts and Techniques
3 https://www.geeksforgeeks.org/tuple-duplication-in-data-mining/