Nghiên cứu phần tử ngoại lai trong cơ sở dữ liệu và ứng dụng
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
VIỆN CÔNG NGHỆ THÔNG TIN
Trang 2
Công trình được hoàn thành tại:
Viện Công nghệ Thông tin - Viện Khoa học và Công nghệ Việt Nam
Người hướng dẫn khoa học: 1- PGS.TS Vũ Đức Thi
2- PGS.TS Lê Hải Khôi
Phản biện 1: PGS.TS Nguyễn Thanh Thuỷ
Phản biện 2: GS.TS Đặng Huy Ruận
Phản biện 3: PGS.TS Nguyễn Xuân Huy
Luận án được bảo vệ trước Hội đồng chấm luận án cấp Nhà nước, họp tại: Viện Công Nghệ Thông tin - Viện Khoa học và Công nghệ Việt Nam
Vào hồi 15h 30’ giờ ngày 26 tháng 08 năm 2007
Có thể tìm hiểu luận án tại:
- Thư viện Viện Công Nghệ Thông tin
- Thư viện Quốc gia Hà Nội
Trang 3CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ LIÊN QUAN ĐẾN LUẬN ÁN
1 Phạm Hạ Thuỷ (2001), "Thiết kế phần mềm kiểm toán trên nền cơ sở dữ liệu của
Kiểm toán Nhà nước", Tạp chí Tin học và điều khiển T17( 3),p.61-64
2 Phạm Hạ Thuỷ (2005), "Ứng dụng cây quyết định vào việc xác định rủi ro kiểm
toán", Tạp chí Kiểm toán Số T60 (8), p.32-35
3 Phạm Hạ Thuỷ (2005), “Phát hiện phần tử ngoại lai theo luật hợp thành và ứng
dụng trong việc phát hiện sai sót trong chứng từ kế toán”, Tạp chí Tin học Tài
chính, số 29, p 24-25
4 Phạm Hạ Thuỷ (2005), “ Xác định phần tử ngoại lai trong cơ sở dữ liệu quan hệ”,
Tạp chí Tin học và điều khiển,T21(4),p.352-360
5 Phạm Hạ Thuỷ - Hoàng Xuân Huấn (2006), "Phát hiện phần tử ngoại lai trong cơ
sở dữ liệu nhờ phân tích hồi qui", Tạp chí Tin học và Điều khiển, T22(1),
p.45-52
6 Vũ Đức Thi - Phạm Hạ Thuỷ (2007), " Phụ thuộc hàm xấp xỉ và phần tử ngoại lai
đối với phụ thuộc hàm", Tạp chí Tin học và Điều khiển, T23(1), p.80-85
Một số báo cáo tại các hội thảo quốc gia về CNTT
1 Vũ Đức Thi - Phạm Hạ Thuỷ, " Find out Strong Dependencies over Relational
Database", Hội thảo khoa học quốc gia lần thức ba " Nghiên cứu phát triển và
ứng dụng công nghệ thông tin và truyền thông" - ICT.rda'06 được tổ chức tại Hà
Nội tháng 5/2006
2 Vũ Đức Thi- Phạm Hạ Thuỷ, "Kiểm tra một quan hệ thoả phụ thuộc hàm xấp xỉ
loại 2 và phát hiện phần tử ngoại lai đối với phụ thuộc hàm xấp xỉ", Hội thảo
quốc gia " Một số vấn đề chọn lọc của công nghệ thông tin" lần thứ 9 được tổ
chức tại Đà lạt tháng 6/ 2006;
Trang 4MỞ ĐẦU
Phát hiện phần tử ngoại lai (Outlier Detection) là một trong nội dung của khám phá tri thức trong cơ sở dữ liệu (KDD), là công việc cần thiết trong tổ chức những kho dữ liệu lớn (Data Warehouse) và trong quá trình tích hợp và làm sạch dữ liệu Việc phát hiện phần tử ngoại lai trong CSDL có vai trò quan trọng để giải quyết nhiều bài toán thực tế: phân tích dữ liệu nhằm phát hiện những hiện tượng bất thường, những gian lận, sai sót trong hoạt động quản lý tài chính, sản xuất kinh doanh; trong việc kiểm tra ngăn chặn những gian lận trong giao dịch điện tử; trong việc tổ chức kiểm soát, làm sạch dữ liệu trong tổ chức quản lý khai thác những kho dữ liệu lớn Việc giải quyết bài toán phát hiện phần tử ngoại lai trong cơ sở dữ liệu (CSDL) có ý nghĩa cả về mặt
lý thuyết tổ chức cơ sở dữ liệu và thực tế ứng dụng hiện nay
Lý thuyết về phát hiện phần tử ngoại lai cũng gắn liền với sự phát triển của khai phá dữ liệu (Data mining) với các công trình nghiên cứu của Barnett và Lewis (1994), của Arning, Agrawal, Raghavan (1996),
E Knorr (1998, 2002), K Penny và I Jollife (2001), A Nicholson (2002), J Hardin và D Jocke (2004) và nhiều tác giả khác Gần đây phần tử ngoại lai vẫn là tâm điểm nghiên cứu của nhiều tác giả Càng ngày càng có nhiều nghiên cứu ứng dụng việc phát hiện phần tử ngoại lai vào trong các lĩnh vực khác nhau của đời sống xã hội: phòng chống tội phạm máy tính; kiểm soát mạng; xử lý nhiễu, phát hiện mẫu, phát hiện dị thường và làm sạch dữ liệu trong học máy và nghiên cứu y học
Tuy nhiên các phương pháp phát hiện phần tử ngoại lai của các tác giả đi trước mới chỉ đề xuất cho các tập dữ liệu nói chung, chưa đi sâu vào các loại dữ liệu có cấu trúc cụ thể Mặt khác việc phát hiện phần tử ngoại lai chỉ mới dựa trên việc xử lý các phần tử trong nội bộ của tập dữ liệu Vai trò của các ràng buộc, luật biết trước (các thông tin bên ngoài có tính chất qui định, định hướng) mà các phần tử của tập dữ liệu buộc phải tuân theo chưa được đặt ra (mà trong thực tế những bài toán phát hiện hiên tượng gian lận, sai sót (hiện tượng ngoại lai) trong
Trang 5các lĩnh vực kế toán, kiểm toán, quản lý kinh tế thì lại chủ yếu là dựa vào các qui định, các luật biết trước) Điều này làm hạn chế đến hiệu quả của việc phát hiện khi áp dụng vào những trường hợp CSDL cụ thể hoặc đối với mục tiêu nhằm phát hiện những phần tử vi phạm những luật (các ràng buộc hoặc qui tắc) được cho trước
Hoạt động kiểm toán của Kiểm toán Nhà nước hiện nay là việc
kiểm tra, đánh giá và xác nhận tính đúng đắn, trung thực của báo cáo
tài chính; việc tuân thủ pháp luật; tính kinh tế, hiệu lực và hiệu quả
trong quản lý, sử dụng ngân sách, tiền và tài sản nhà nước Hiện nay hoạt động kiểm toán nhà nước ở Việt nam được tiến hành chủ yếu bằng cách thủ công Việc kiểm tra đánh giá mất rất nhiều công sức và thời gian, có nhiều rủi ro xẩy ra (sự bỏ sót, đánh giá sai lệch…).Vì vậy việc nghiên cứu về mặt lý thuyết các vấn đề về tổ chức các cơ sở dữ liệu (chứng từ, tài liệu kế toán), phân tích dữ liệu, mô hình hoá, xây dựng các thuật toán, phương pháp giải quyết các bài toán phân tích, kiểm tra, kiểm soát thông tin, phát hiện phần tử ngoại lai trong các CSDL, và đặc biệt là trong các CSDL dạng quan hệ là hết sức cần thiết và có ý nghĩa trong việc xây dựng các phần mềm dùng cho kiểm toán Luận án "Nghiên cứu phần tử ngoại lai trong cơ sở dữ liệu và
ứng dụng" được thực hiện nhằm mục tiêu đề xuất một số những mô
hình, thuật toán mới trong xử lý file dữ liệu trong hệ thống CSDL liên quan đến việc phát hiện phần tử ngoại lai trong CSDL quan hệ và có ý nghĩa trong việc ứng dụng vào lĩnh vực hoạt động quản lý tài chính và kiểm toán nhà nước
Những nội dung được lựa chọn nghiên cứu của Luận án là những
mô hình, phương pháp tổ chức, xử lý file dữ liệu trong CSDL quan hệ; những phương pháp, thuật toán sử dụng trong lĩnh vực khám phá tri thức và khai thác dữ liệu có liên quan đến việc phát hiện những phẩn tử ngoại lai
Trọng tâm của Luận án là giải quyết bài toán phát hiện phần tử ngoại lai trong CSDL, song bên cạnh đó Luận án cũng tiến hành nghiên cứu và đề xuất những vấn đề lý thuyết trong CSDL quan hệ như
Trang 6thuật toán tìm khóa của một quan hệ, các điều kiện để quan hệ ở dạng chuẩn 2NF, việc phát hiện những phần tử ngoại lai (theo nghĩa vi phạm các ràng buộc về phụ thuộc hàm, các dạng chuẩn ) Đồng thời Luận
án cũng đề xuất một số thuật toán tìm luật kết hợp, xây dựng cây quyết định, xây dựng mô hình lấy mẫu phục vụ cho mục đích phát hiện phần
tử ngoại lai
Một số mục tiêu cụ thể của Luận án được đặt ra là:
- Nghiên cứu phần tử ngoại lai trong cơ sở dữ liệu lớn dựa trên phụ thuộc hàm, khoá và các dạng chuẩn nhằm giải quyết một số bài toán cụ thể về phát hiện phần tử ngoại lai trong cơ sở dữ liệu quan hệ;
- Hoàn thiện thêm lý thuyết về phụ thuộc mạnh trong cơ sở dữ liệu quan
hệ và ứng dụng phụ thuộc mạnh trong việc phát hiện phần tử ngoại lai;
- Nghiên cứu phụ thuộc xấp xỉ loại 2 và ứng dụng vào việc phát hiện phần tử ngoại lai;
- Cải tiến thuật toán xây dựng cây phân lớp và thuật toán tìm luật kết hợp phân lớp;
- Nghiên cứu, đề xuất một số mô hình ứng dụng phát hiện phần tử ngoại lai vào thực tiễn hoạt động kiểm toán và quản lý tài chính
Với việc hoàn thành các mục tiêu đã đặt ra, Luận án đã đạt được một số kết quả, đóng góp một phần trong việc phát triển lý thuyết về tổ chức và xử lý các file dữ liệu trong cơ sở dữ liệu và khai thác dữ liệu Luận án có ý nghĩa thực tế trong việc giải quyết một số bài toán trong lĩnh vực kiểm toán và quản lý tài chính trong bối cảnh công cuộc tin học hoá đang được triển khai mạnh mẽ trong các lĩnh vực này
Luận án gồm 151 trang được bố cục thành 4 chương cùng với phần mở đầu, kết luận và giới thiệu tài liệu tham khảo
Chương 1 Lý thuyết cơ sở và các công trình nghiên cứu liên quan, Luận án trình bày một số lý thuyết và công trình nghiên cứu của
các tác giả đi trước làm cơ sở cho việc nghiên cứu
Trang 7Chương 2 Phát hiện phần tử ngoại lai trong cơ sở dữ liệu quan hệ, Luận án trình bày những kết quả nghiên cứu của tác giả về lý
thuyết phát hiện phần tử ngoại lai trong CSDL quan hệ
Chương 3 Cây quyết định và chọn mẫu xác định ngoại lai,
Luận án trình bày kết quả nghiên cứu của tác giả về một số thuật toán cải tiến xây dựng cây quyết định, phát hiện luật kết hợp phân lớp; mô hình chọn mẫu thống kê phát hiện phần tử ngoại lai trong CSDL quan
hệ
Chương 4 Ứng dụng trong thực tế hoạt động kiểm toán, Luận
án trình bày một số mô hình ứng dụng kết quả nghiên cứu về phát hiện phần tử ngoại lai trong CSDL quan hệ vào hoạt động kiểm toán và phân tích kinh tế
Trang 8Các khái niệm về phụ thuộc hàm, khoá và các dạng chuẩn của quan hệ được tác giả của luận án sử dụng để xây dựng khái niệm về phần tử ngoại lai đối với phụ thuộc hàm, khoá và các dạng chuẩn cũng như các thuật toán dùng để phát hiện phần tử ngoại lai trong từng trường hợp
Khái niệm phần tử ngoại lai trong một tập dữ liệu dùng để chỉ những phần tử có sự khác biệt so với đa số các phần tử còn lại của tập dữ liệu
Có nhiều phương pháp nghiên cứu về phần tử ngoại lai, tuy nhiên các phương pháp phát hiện phần tử ngoại lai của các tác giả đi trước mới chỉ đề xuất cho các tập dữ liệu nói chung, chưa đi sâu vào các loại dữ liệu có cấu trúc cụ thể Việc phát hiện phần tử ngoại lai chỉ mới dựa trên việc xử lý các phần tử trong nội bộ của tập dữ liệu, vai trò của các ràng buộc, luật biết trước (các thông tin bên ngoài có tính chất qui định, định hướng) mà các phần tử của tập dữ liệu buộc phải tuân theo chưa được đặt ra Điều này làm hạn chế đến hiệu quả của việc phát hiện khi áp dụng vào những trường hợp CSDL cụ thể hoặc đối với mục tiêu nhằm phát hiện những phần tử vi phạm những luật (các ràng buộc hoặc qui tắc) được cho trước Trong thực tế những bài toán phát hiện gian lận, sai sót trong các lĩnh vực kế toán, kiểm toán, quản lý kinh tế thì lại chủ yếu là dựa vào các qui định, các luật biết trước Vì vậy việc nghiên cứu, đề xuất những mô hình, phương pháp phát hiện phần tử ngoại lai cho những mô hình dữ liệu cụ thể, đặc biệt là đối với mô hình
Trang 9dữ liệu quan hệ là việc cần thiết Trong Luận án này, chúng tôi đưa ra một số phương pháp phát hiện phần tử ngoại lai trong cơ sở dữ liệu quan hệ dựa theo phụ thuộc hàm, khóa và các dạng chuẩn có ý nghĩa trong việc giải quyết một số bài toán cụ thể của thực tế
Phân lớp dữ liệu (data classification) là một phương pháp quan trọng cho nhiều ứng dụng khai phá dữ liệu nói chung và việc phát hiện
phần tử ngoại lai nói riêng Phân lớp dữ liệu có ý nghĩa làm tăng hiệu
quả đối với quá trình phát hiện phần tử ngoại lai khi chúng ta tiến
hành phân lớp dữ liệu thành các tập con mà trong mỗi tập con có những đặc trưng riêng Các phần tử ngoại lai trong từng tập khác nhau
sẽ có khả năng xuất hiện khác nhau Có nhiều thuật toán dùng cho việc xây dựng cây quyết định phân lớp Chúng tôi giới thiệu một số phương pháp và thuật toán phổ biến được sử dụng như ID3, C4.5 của R Quinlan (1990, 1993); phương pháp phân lớp dựa trên cây quyết định
và luật kết hợp của Bing Liu, Hsu, Ma (1998); phương pháp dựa trên cây quyết định và phụ thuộc hàm xấp xỉ của Kwok-Wa Lam và Victor C.S.Lee (2004) Trong Luận án chúng tôi đề xuất một số cải tiến đối với các thuật toán này có ý nghĩa làm giảm khối lượng tính toán
CHƯƠNG 2 PHÁT HIỆN PHẦN TỬ NGOẠI LAI TRONG
CƠ SỞ DỮ LIỆU QUAN HỆ
Đây là chương trọng tâm, trình bày những kết quả nghiên cứu chính của Luận án Các nội dung chính bao gồm:
1 Mô hình phát hiện phần tử ngoại lai dựa theo luật
Trong nội dung được trình bày chúng tôi đưa ra mô hình phát hiện phần tử ngoại lai dựa theo luật (Rules – Based) trong CSDL quan
hệ Các ràng buộc, qui tắc đối với CSDL quan hệ được đề cập ở đây có nhiều loại khác nhau bao gồm các luật qui định về sự phụ thuộc dữ liệu: phụ thộc hàm, khoá đối với sơ đồ quan hệ hoặc file dữ liệu; phụ thuộc tương quan giữa các thuộc tính; một hệ ràng buộc cho trước mà
Trang 10các phần tử của tập dữ liệu phải tuân theo; các luật qui định về các dạng chuẩn của sơ đồ quan hệ
2.Phần tử ngoại lai đối với phụ thuộc hàm, khóa của quan hệ
Khái niệm về phần tử ngoại lai đối với phụ thuộc hàm, khóa là các khái niệm mới mà chúng tôi đưa ra cùng với việc giải quyết vấn đề tìm các phần tử trong một bảng dữ liệu vi phạm các điều kiện của phụ thuộc hàm, khóa đối với một quan hệ Hiện tượng vi phạm này cũng thường xảy ra trong thực tế đối với quá trình cập nhật dữ liệu vào các bảng dữ liệu sau khi một cơ sở dữ liệu đã được thiết kế xong (sai sót hoặc cố tình khi cập nhật dữ liệu) Các hiện tượng này cần được phát hiện và xử lý Việc ứng dụng lý thuyết về phát hiện phần tử ngoại lai đối với phụ thuộc hàm, khóa vào thực tế họat động kiểm toán được chúng tôi trình bày chi tiết trong Chương 4
Giả sử X→ Y là một phụ thuộc hàm được giả thiết đúng trên quan hệ r Những cặp phần tử (ti, tj) với ti, tj ∈ r mà ti(X) = tj(X) nhưng
ti(X) ≠ tj(Y) được gọi là cặp ngoại lai đối với phụ thuộc hàm X→Y
Cho bảng dữ liệu r được giả thiết là một quan hệ trên sơ đồ quan
hệ (R,F); B được giả thiết là tập các khoá của r Cặp phần tử (ti, tj) với
liệu sai do cố ý hoặc không cố ý
Trong kết quả nghiên cứu chúng tôi đưa ra và chứng minh Định
lý 2.1 và mệnh đề 2.1 về dấu hiệu nhận biết các cặp phần tử ngoại lai đối với phụ thuộc hàm, khóa của một quan hệ r Dấu hiệu nhận biết được dựa
Trang 11trên việc tính toán hệ bằng nhau Er của quan hệ r được định nghĩa như sau:
Er = { Ei,j: 1≤ i < j ≤m , Ei,j = {a ∈ R: ti(a) = tj(a)}}
- Định lý 2.1 (nhận biết cặp ngoại lai đối với phụ thuộc hàm)
Cho r là một bảng dữ liệu được giả thiết là một quan hệ trên sơ
đồ quan hệ (R, F); E r là hệ bằng nhau của r; X→Y là một phụ thuộc hàm được giả thiết đúng trên r Cặp phần tử (t i , t j ) với t i , t j∈ r là cặp ngoại lai đối với phụ thuộc hàm X→ Y khi và chỉ khi E i, j ∈ E r mà X⊆
E i,j và Y⊄ E i,j
- Mệnh đề 2.1 (Nhận biết cặp ngoại lai theo khoá)
Cho bảng dữ liệu r được giả thiết là một quan hệ trên sơ đồ quan
hệ (R, F); B được giả thiết là tập các khoá của r; E r là hệ bằng nhau của r Khi đó nếu ta có E i,j ∈ E r chứa một khoá K∈ B nào đó (tức là K
⊆ E i,j ) thì cặp phần tử (t i , t j ) với t i , t j∈ r (tương ứng với E i,j ) là một cặp ngoại lai đối với khoá
Các thuật toán được đề xuất:
-Thuật toán 1 -Xác định các cặp ngoại lai đối với phụ thuộc hàm
-Thuật toán 2 - Xác định các cặp ngoại lai theo khoá
Phần tử ngoại lai đối với một số phụ thuộc hàm đặc biệt
Trong thực tế chúng ta thường gặp một số loại phụ thuộc hàm đặc biệt như dạng bằng nhau, dạng tỉ lệ mà ta có thể xác định chính xác các phần tử ngoại lai (không chỉ ở dạng các cặp ngoại lai) Trong mục này chúng tôi đưa ra khái niệm cũng như các thuật toán xác định phần tử ngoại lai đối với một số phụ thuộc hàm dạng đặc biệt này mà chúng có
ý nghĩa trong giải quyết một số bài toán trong thực tế (kiểm tra việc khai báo thuế phải nộp, kiểm tra định mức tiêu hao nguyên vật liệu ) các thuật toán được đề xuất:
- Thuật toán 3- Xác định phần tử ngoại lai đối với phụ thuộc hàm
dạng bằng nhau
Trang 12- Thuật toán 4- Xác định phần tử ngoại lai đối với phụ thuộc hàm dạng tỉ
lệ
3 Phần tử ngoại lai đối với hệ ràng buộc dạng phụ thuộc hàm
Trong thực tế chúng ta gặp bài toán phải kiểm tra sự thoả mãn một hệ ràng buộc dạng phụ thuộc hàm của các bộ giá trị của một quan
hệ cho trước Các ràng buộc này thực chất là các luật kết hợp (Associate rules) đã biết trước đối với một quan hệ nào đó Việc phát hiện những bộ của quan hệ không thoả mãn những luật kết hợp này có
ý nghĩa trong nhiều ứng dụng thực tế của hoạt động kiểm toán Các khái niệm và thuật toán được chúng tôi đưa ra trong Mục 2.5 Chương 2 nhằm giải quyết bài toán về phát hiện phần tử ngoại lai đối với một hệ các luật kết hợp trong một quan hệ
-Thuật toán 5- Xác định phần tử ngoại lai đối với hệ ràng buộc dạng
phụ thuộc hàm
4 Phần tử ngoại lai đối với các dạng chuẩn
Trong thực tế sau khi một CSDL quan hệ được thiết kế xong, trong quá trình cập nhật dữ liệu xảy ra hiện tượng các bảng dữ liệu có chứa những bản ghi làm cho bảng dữ liệu không còn thỏa mãn điều kiện dạng chuẩn được thiết kế Hiện tượng này xuất hiện khi các bản ghi (phần tử) được cập nhật sai Ta sẽ gọi các phần tử này là các phần tử ngoại lai của các dạng chuẩn Việc phát hiện ra những bản ghi này để
xử lý có ý nghĩa làm sạch dữ liệu và chuẩn hóa một quan hệ, giúp cho việc tiến hành khai thác dữ liệu được chính xác
Các kết quả nghiên cứu của chúng tôi được trình bày trong mục 2.6, Chương 2 của Luận án Trong nội dung chúng tôi trình bày khái niệm và một số thuật toán để phát hiện các phần tử ngoại lai theo các dạng chuẩn 2NF, 3NF, BCNF là các dạng chuẩn được dùng phổ biến
trong thiết kế CSDL Để xây dựng thuật toán phát hiện phần tử ngoại
lai đối với các dạng chuẩn 3NF và BCNF chúng tôi sử dụng các dấu hiệu nhận biết một quan hệ là ở 3NF và BCNF đã được một số tác giả
đề xuất
Trang 13Để xây dựng thuật toán phát hiện ngoại lai đối với 2NF, trước hết chúng tôi đưa ra thuật toán tìm tất cả các khóa có thể từ một phản khóa (Thuật toán 6) Chúng tôi phát biểu và chứng minh Mệnh đề 2.2 về điều kiện cần và đủ để một quan hệ ở dạng chuẩn 2NF Trên cơ sở đó chúng tôi đưa ra thuật toán để kiểm tra một quan hệ ở 2NF và phát hiện các phần tử ngoại lai đối với dạng chuẩn này
Mệnh đề 2.2 (Điều kiện để quan hệ ở dạng 2NF)
Giả sử quan hệ r có tập bằng nhau M = {H1, H2, ,Hq}; tập bằng nhau cực đại Mr = {M1, M2, Mp}; Fn là tập các thuộc tính thứ cấp Đặt
- Nếu r được giả thiết là ở 2NF thì cặp tu, tv tương ứng với Eu,v= H
sẽ là cặp ngoại lai đối với 2NF
Các thuật toán được đề xuất:
Thuật toán 6- Tìm tất cả các khóa có thể từ một phản khóa
Thuật toán 7 - Xác định các cặp phần tử ngoại lai đối với dạng chuẩn
2NF
Thuật toán 8- Xác định các cặp ngoại lai đối với dạng chuẩn 3NF Thuật toán 9- Xác định các cặp ngoại lai đối với dạng chuẩn BCNF
5 Phụ thuộc mạnh và phần tử ngoại lai
Phụ thuộc mạnh (Strong dependencies) được một số tác giả đề xuất vào nghiên cứu, có ý nghĩa trong việc giải quyết nhiều bài toán thực tế Cho R là một tập hữu hạn không rỗng các thuộc tính, r = {t1, t2, tm} là một quan hệ trên R và A, B ⊆ R Ta nói rằng B phụ thuộc mạnh vào A trên r, kí hiệu là A⎯ ⎯→S B nếu: ∀ ti, tj ∈ r : nếu với mỗi a ∈
A mà t1(a) = t2(a) thì ta có ∀ b∈B: h1(b) = h2(b)