Tích hợp dữ liệu data integration

PowerPoint Presentation Tích hợp dữ liệu Data Integration 191201999 Đồng Văn Dương 191203508 Trần Văn Tú 191212289 Nguyễn Thành Long 191203129 Nguyễn Minh Hiệp 191202253 Dương Đình Hùng Tổng quát chun.

Trang 2

Tổng quát chung :

-Mục đích :

+Tích hợp cẩn thận có thể giúp giảm và tránh dư thừa và không nhất quán trong tập dữ liệu kết quả Điều này có thể giúp cải thiện độ chính xác và tốc độ củaquá trình khai thác dữ liệu

Trang 3

- Kết hợp dữ liệu từ nhiều nguồn vào một kho dữ liệu nhất quán Các nguồn này có thể bao gồm nhiều cơ sở dữ liệu, khối dữ liệu hoặc tệp phẳng.Một số tài nguyên dữ liệu khớp với nhau, trở nên có giá trị nếu chúng được tích hợp.

- Vậy vấn đề nhận dạng thực thể là gì ?

+Tích hợp lược đồ và đối sánh đối tượng có thể phức tạp

+ Làm cách nào để đối sánh các thực thể tương đương trong thế giới thực từ nhiều nguồn

dữ liệu

1 Vấn đề nhận dạng thực thể

Trang 4

Ví dụ: A.cust-id = B.cust-number Ở đây A, B là hai bảng cơ sở dữ liệu khác nhau

Cust-id là thuộc tính của bảng A, number là thuộc tính của bảng B Ở đây Cust-id và

cust-number là thuộc tính của các bảng khác nhau và không có mối quan hệ giữa các bảng này, nhưng thuộc tính cust-id và Thuộc tính cust-number đang nhận các giá trị giống nhau Đây là một ví dụ về Vấn đề Nhận dạng Thực thể trong mối quan hệ

Trang 5

- Khi kết hợp các thuộc tính từ cơ sở dữ liệu này sang cơ sở dữ liệu khác trong quá trình tích hợp, phải đặc biệt chú ý đến cấu trúc của dữ liệu.

Ví dụ: Trong một hệ thống, chiết khấu có thể được áp dụng cho đơn đặt hàng, trong khi trong một hệ thống khác, chiết khấu được áp dụng cho từng mục hàng riêng lẻ trong đơn đặt hàng

Nếu điều này không được nắm bắt trước khi tích hợp, các mặt hàng trong hệ thống

có thể bị giảm giá một cách không thích hợp

Trang 6

Một thuộc tính có thể bị dư thừa do :

+ Được “bắt nguồn” từ một thuộc tính hoặc tập hợp các thuộc tính khác

+Sự không nhất quán trong cách đặt tên thuộc tính

2.1 Dư Thừa và tương quan dữ liệu

2 Phân tích dự phòng và tương quan

Trang 7

2.2 phân tích tương quan của các thuộc tính danh nghĩa

Một số điểm dư thừa có thể được phát hiện bằng phân tích

tương quan

Ví dụ:Phân tích tương quan của các thuộc tính danh nghĩa bằng

cách sử dụng χ2 (còn được gọi là thống kê Pearson ).

Ta tìm mối quan hệ tương quan giữa hai thuộc tính, A và B (với A là giới tính và là thể loại đọc sách)

A[i] : gồm Nam và Nữ

B[j] : gồm hư cấu và phi hư cấu

Trang 8

Oij:là tần xuất thưc.

Eij: là tần xuất dự kiến

Công thức tính Eij

Áp Dụng công thức:

Tính tần xuất dự kiến(Eij) của Nam – Hư cấu là A[1]B[1]:

Trang 9

Ứng dụng kết quả thu được

Đối với bảng 2 × 2 này, bậc tự do là (2 - 1) (2 - 1) = 1 Đối với 1 bậc dom tự do, giá trị χ2 cần thiết để bác bỏ giả thuyết ở mức ý nghĩa 0,001 là 10,828

Vì giá trị tính toán của chúng tôi cao hơn giá trị này, chúng tôi có thể bác

bỏ giả thuyết rằng giới tính và cách đọc ưa thích là độc lập và kết luận

Trang 10

2.3 Hệ số tương quan cho dữ liệu số

Đối với thuộc tính số, chúng ta có thể đánh giá mối tương quan giữa hai thuộc tính A và

B bằng cách tính toán hệ số tương quan (còn được gọi là hệ số mô men sản phẩm của Pearson, được đặt theo tên người phát minh ra nó, Karl Pearson)

Trong đó

• n là số bộ giá trị,

• ai và bi là giá trị tương ứng của A và B trong bộ giá trị i,

• A¯ và B¯ là giá trị trung bình tương ứng của A và B,

• σA và σB là độ lệch chuẩn tương ứng của A và B

• Tổng (aibi) là tổng của tích chéo AB (nghĩa là đối với mỗi bộ, giá trị của A được nhân với giá trị của B trong bộ đó)

Trang 11

Biểu đồ phân tán cũng có thể là :

Trang 12

Ví Dụ:

Giả sử có 5 sinh viên được hỏi điểm trung bình trung học và điểm trung bình đại học

của họ, với các câu trả lời như sau:

Chúng tôi muốn biết: điểm trung bình của trường trung học và đại học có liên quan với nhau theo dữ liệu này không, và nếu chúng có liên quan với nhau, làm cách nào tôi có thể sử dụng điểm trung bình trung học để dự đoán điểm trung bình đại học?

Có hai câu trả lời để đưa ra:

 đầu tiên, chúng có liên quan với nhau không và

 thứ hai, chúng liên quan với nhau như thế nào

Trang 13

• Nhìn vào dữ liệu này, có thể thấy rõ ràng rằng điểm trung bình đại học luôn kém hơn điểm trung học phổ thông, và điểm trung bình trung học càng nhỏ thì điểm trung bình đại học càng nhỏ

• Nhưng một mối quan hệ bền chặt như thế nào, nếu có, dường như rất khó để định lượng

• Đầu tiên chúng ta sẽ thảo luận về cách tính toán và diễn giải cái gọi là hệ số tương quan để giúp quyết định xem hai biến số có liên quan hay không Nói cách khác, nó có thể trả lời câu hỏi đầu tiên của chúng ta

• Chúng tôi sẽ trả lời câu hỏi thứ hai trong các phần sau Đầu tiên, hãy xác định hệ số tương quan về mặt toán học

Trang 15

2.4 Phương sai của dữ liệu số

Trong lý thuyết xác suất và thống kê, tương quan và hiệp phương sai là hai thước đo tương

tự để đánh giá mức độ thay đổi của hai thuộc tính cùng nhau Xem xét hai thuộc tính số

A và B, và tập hợp n quan sát {(a1, b1), , (an, bn)} Giá trị trung bình của A và B, tương ứng, còn được gọi là giá trị mong đợi trên A và B, nghĩa là,

Hiệp phương sai giữa A và B được định nghĩa là

Trang 16

Nếu chúng ta so sánh Eq (3.3) cho rA, B (hệ số tương quan) với Eq (3.4) đối với hiệp phương sai, chúng ta thấy rằng

Trang 17

Trong đó σA và σB lần lượt là độ lệch chuẩn của A và B Nó cũng có thể được chỉ ra rằng

Phương trình này có thể đơn giản hóa các phép tính

Đối với hai thuộc tính A và B có xu hướng thay đổi cùng nhau, nếu A lớn hơn A¯ (giá trị

kỳ vọng của A), thì B có khả năng lớn hơn B¯ (giá trị kỳ vọng của B) Do đó, hiệp phương sai giữa A và B là dương

Mặt khác, nếu một trong các thuộc tính có xu hướng cao hơn giá trị mong đợi của nó khi thuộc tính kia thấp hơn giá trị mong đợi, thì hiệp phương sai của A và B là số âm Nếu A

và B độc lập (tức là chúng không có mối tương quan) thì E (A · B) = E (A) · E (B) Do đó, hiệp phương sai là Cov (A, B) = E (A · B) - A¯ B¯ = E (A) · E (B) - A¯ B¯ = 0

Tuy nhiên, điều ngược lại là không đúng Một số cặp biến ngẫu nhiên (thuộc tính) có thể

có hiệp phương sai bằng 0 nhưng không độc lập Chỉ theo một số giả định bổ sung

Trang 18

Ví Dụ: Phân tích hiệp phương sai của các thuộc tính số.

Hãy xem bảng 3.2, trình bày một ví dụ mô phỏng về giá cổ phiếu được quan sát tại thời điểm của AllElectronics và HighTech, một công ty công nghệ cao

Nếu phiếu cổ được ảnh hưởng bởi xu hướng cùng ngành, giá của họ sẽ tăng hay giảm giống nhau?

Trang 19

Do đó, với hiệp phương sai dương, chúng ta có thể nói rằng giá cổ phiếu của cả hai công ty cùng tăng.

Phương sai là một trường hợp đặc biệt của hiệp phương sai, trong đó hai thuộc tính giống hệt nhau (tức là hiệp phương sai của một thuộc tính với chính nó) Phương sai đã được thảo luận trong Chương 2

Trang 20

Khi dữ liệu được tích hợp từ một số cơ sở dữ liệu hoặc ứng dụng thì các thuộc tính dữ liệu dư thừa thường xảy ra Lượng dư thừa và trùng lặp bộ(dữ liệu) là những vấn đề quan trọng trong tích hợp dữ liệu trong quá trình khai thác dữ liệu

Trang 21

S.No Petal length Petal Width Sepal Length Sepal Width

Chúng ta hãy xem xét bảng trên của tập dữ liệu là một tập hợp các giá trị Bộ giá trị đầu tiên

và cuối cùng giống nhau trong bảng Vì vậy, Bộ giá trị cuối cùng được coi là một bản sao Chúng ta coi bộ giá trị là trùng lặp nếu tất cả các giá trị thuộc tính của hai hàng giống nhau.Các dư thừa giữa các thuộc tính và các bộ giá trị trùng lặp phải được phát hiện Các bộ dữ liệu trùng lặp cho kết quả giống nhau riêng lẻ và điều này ảnh hưởng đến hiệu suất tổng thể của các thuật toán học máy nếu tập dữ liệu chứa các bộ dữ liệu trùng lặp Các bộ giá trị trùng lặp cũng có thể dẫn đến khó khăn trong việc bảo trì cơ sở dữ liệu

Trang 22

4 Phát hiện và giải quyết xung đột giá trị dữ liệu

Tích hợp dữ liệu cũng liên quan đến việc phát hiện và giải quyết các xung đột về giá trị dữ liệu

Đối với cùng một thực thể trong thế giới thực, các giá trị thuộc tính từ các nguồn khác nhau

có thể khác nhau

VD: chương trình giảng dạy và chương trình chấm điểm riêng Một trường đại học có thể áp dụng hệ thống một phần tư, cung cấp ba khóa học trên hệ thống cơ sở dữ liệu và ấn định điểm từ A + đến F, trong khi một trường đại học khác có thể áp dụng hệ thống học kỳ, cung cấp hai khóa học trên cơ sở dữ liệu và ấn định điểm từ 1

Rất khó để đưa ra các quy tắc chuyển đổi giữa các khóa học chính xác giữa hai trường đại học, làm cho việc trao đổi thông tin trở nên khó khăn

Trang 23

Các thuộc tính cũng có thể khác nhau ở cấp độ trừu tượng, trong đó một thuộc tính trong một tem hệ thống được ghi ở mức trừu tượng thấp hơn so với cùng một thuộc tính trong hệ thống khác.

Ví dụ: tổng doanh số bán hàng trong một cơ sở dữ liệu có thể đề cập đến một chi nhánh của Tất cả các cửa hàng điện tử, trong khi một thuộc tính cùng tên trong cơ sở dữ liệu khác có thể

đề cập đến tổng doanh số bán hàng cho Tất cả các cửa hàng Điện tử trong một khu vực nhất định.

Trang 24

Tài liệu tham khảo

1 https://www.javatpoint.com/entity-identification-problem-in-data-mining

2 [1] 2011 Data Mining - Concepts and Techniques

3 https://www.geeksforgeeks.org/tuple-duplication-in-data-mining/

Định dạng
Số trang	24
Dung lượng	612,16 KB