Trong đó tập trung nghiên cứu kỹ thuật phân hoạch dữ liệu không phụ thuộc vào các bộ được đánh dấu để định vị các phân hoạch; nghiên cứu cách giải bài toán tối ưu bằng giải thuật di truy
Trang 1KHOA CÔNG NGHỆ THÔNG TIN
Họ và tên tác giả
VŨ VĂN HUY
Tên đề tài
THỦY VÂN CƠ SỞ DỮ LIỆU QUAN HỆ DỰA
TRÊN KỸ THUẬT TỐI ƢU HOÁ ÁP DỤNG
GIẢI THUẬT DI TRUYỀN
LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH
GIẢI THUẬT DI TRUYỀN
Chuyên ngành: Khoa học máy tính
Mã số: 604801
LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS BÙI THẾ HỒNG
Thái Nguyên - 2009
Trang 2Tôi xin cam đoan luận văn “Thủy vân cơ sở dữ liệu quan hệ dựa trên kỹ
thuật tối ƣu hoá áp dụng giải thuật di truyền” này là công trình nghiên cứu
của riêng tôi Các số liệu sử dụng trong luận văn là trung thực Các kết quả
nghiên cứu được trình bày trong luận văn chưa từng được công bố tại bất kỳ
công trình nào khác
Vũ Văn Huy
Để hoàn thành luận văn này, trước tiên tôi xin chân thành cảm ơn sự
chỉ bảo tận tình của TS Bùi Thế Hồng, người đã nhiệt tình chỉ bảo góp ý giúp
tôi hoàn thành luận văn này
Tôi xin chân thành cảm ơn Khoa Công nghệ thông tin – Đại học Thái Nguyên, Viện Công nghệ thông tin đã tạo điều kiện giúp tôi hoàn thành luận
văn này
Tôi xin chân thành cảm ơn bạn Võ Phúc Nguyên – Gv Khoa Điện Tử
- ĐH Kỹ thuật công nghiệp Thái Nguyên đã trợ giúp tôi rất nhiều trong quá
trình hoàn thành luận văn này
Lời sau cùng tôi xin chân thành cảm ơn những người thân trong gia đình cùng các bạn đồng nghiệp đã động viên tôi hoàn thành luận văn này
Vũ Văn Huy
Trang 3MỤC LỤC
MỤC LỤC 1
DANH MỤC CÁC THUẬT NGỮ 3
DANH MỤC CÁC HÌNH VẼ 4
DANH MỤC CÁC BẢNG BIỂU 5
MỞ ĐẦU 6
1 Lý do lựa chọn đề tài 6
2 Mục tiêu nghiên cứu 7
3 Phạm vi nghiên cứu 7
4 Phương pháp nghiên cứu 7
5 Ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài 8
6 Cấu trúc của luận văn 8
CHƯƠNG 1 – TỔNG QUAN VỀ THUỶ VÂN VÀ GIẢI THUẬT DI TRUYỀN 9
1.1 Cơ bản về kỹ thuật giấu tin 10
1.1.1 Khái niệm về giấu tin 10
1.1.2 Phân loại các kỹ thuật giấu tin 10
1.1.3 Mục đích của giấu tin 12
1.1.4 Môi trường giấu tin 12
1.2 Cơ bản về thuỷ vân 14
1.2.1 Khái niệm thuỷ vân 14
1.2.2 Một số vấn đề có liên quan đến thuỷ vân 16
1.2.3 Khái niệm thuỷ vân cơ sở dữ liệu 17
1.3 Một số ứng dụng của thuỷ vân 18
1.3.1 Bảo vệ bản quyền tác giả (copyright protection) 18
1.3.2 Phát hiện xuyên tạc thông tin (authentication and tamper detection) 18
1.3.3 Lấy dấu vân tay hay dán nhãn (fingerprinting and labeling) 19
1.3.4 Điều khiển thiết bị (Device control) 19
1.3.5 Theo dõi quá trình sử dụng (Tracking) 19
1.3.6 Theo dõi truyền thông (Broadcast Monitoring) 19
1.3.7 Truyền tin bí mật (Concealed Communication) 20
1.4 Giải thuật di truyền 20
CHƯƠNG 2 – THỰC TRẠNG NGHIÊN CỨU THUỶ VÂN CƠ SỞ DỮ LIỆU QUAN HỆ 22 2.1 Tình hình nghiên cứu trong nước 22
2.2 Tình hình nghiên cứu trên thế giới 22
2.2.1 Theo kiểu dữ liệu (Data type) 23
2.2.2 Theo kiểu biến dạng (Distortion) 23
2.2.3 Theo độ nhạy (Sensitivity) 24
2.2.4 Theo thông tin thuỷ vân (watermark information) 25
2.2.5 Tính kiểm tra được 26
2.2.6 Theo cấu trúc dữ liệu (Data structure) 27
CHƯƠNG 3 – NỘI DUNG VÀ CÁC KẾT QUẢ NGHIÊN CỨU 29
3.1 Phân hoạch dữ liệu 29
3.2 Nhúng thuỷ vân 33
3.2.1 Mã hoá bit đơn 34
3.2.2 Áp dụng giải thuật di truyền giải bài toán tối ưu 38
3.2.3 Thuật toán nhúng thuỷ vân 41
3.2.4 Đánh giá ngưỡng giải mã 42
3.3 Giải mã thuỷ vân 46
3.4 Kết quả thực nghiệm 48
KẾT LUẬN VÀ KIẾN NGHỊ 52
PHỤ LỤC 54
TÀI LIỆU THAM KHẢO 57
Trang 4Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
DANH MỤC CÁC THUẬT NGỮ
MSB (Most significant bit): Bit ý nghĩa nhất
LSB (Least significant bit): Bit ít ý nghĩa nhất
MAC (Message Authentication Code) : Mã xác thực thông điệp
GA (Genetic Algorithms): Giải thuật di truyền
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
DANH MỤC CÁC HÌNH VẼ
Hình 1.1 1 Một cách phân loại kỹ thuật giấu tin 11 Hình 3 1 Cách phân hoạch bộ dữ liệu 32 Hình 3 2 Thống kê phân bố tập Xmax, Xmin và cách lấy ngưỡng T* 45
Trang 54 Phương pháp nghiên cứu
5 Ý nghĩa khoa học và ý nghĩa thực tiễn
6 Cấu trúc của luận văn
1 Lý do lựa chọn đề tài
Ngày nay, các ứng dụng và các sản phẩm số trong đó bao gồm cả các
cơ sở dữ liệu quan hệ được phát triển và phân phối rộng khắp trong môi trường Internet, vì vậy việc chứng minh quyền sở hữu đối với các sản phẩm này sau khi chuyển giao là một vấn đề rất cần thiết Việc thực thi quyền sở hữu dữ liệu là một yêu cầu quan trọng đòi hỏi các giải pháp đồng bộ, bao gồm các khía cạnh về kỹ thuật, về tổ chức, và cả luật pháp Mặc dù vẫn chưa có được những giải pháp toàn diện như vậy nhưng trong các năm gần đây, các kỹ thuật thuỷ vân đã đóng một vai trò quyết định nhằm giải quyết vấn đề về quyền sở hữu này
Hiện nay, mới chỉ có một vài cách tiếp cận đối với bài toán thuỷ vân dữ liệu quan hệ được đề xuất Tuy nhiên, những kỹ thuật này không bền vững trước các tấn công thông thường và các tấn công gây hại, vì vậy cần có một
kỹ thuật thủy vân cơ sở dữ liệu quan hệ có độ bền vững cao hơn nhất là đối với các tấn công xoá, sửa, và chèn các bản ghi
Luận văn “thủy vân cơ sở dữ liệu quan hệ dựa trên kỹ thuật tối ưu hoá áp dụng giải thuật di truyền” trình bày kỹ thuật thuỷ vân cơ sở dữ liệu
Trang 6Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
dựa vào kỹ thuật tối ưu hoá Kỹ thuật này phải đảm bảo bền vững trước các
tấn công thêm, bớt và thay đổi giá trị của các bộ trong quan hệ
2 Mục tiêu nghiên cứu
Mục tiêu chính của luận văn là đi sâu nghiên cứu kỹ thuật tối ưu hoá để
mã hoá và giải mã thuỷ vân Trong đó tập trung nghiên cứu kỹ thuật phân
hoạch dữ liệu không phụ thuộc vào các bộ được đánh dấu để định vị các phân
hoạch; nghiên cứu cách giải bài toán tối ưu bằng giải thuật di truyền với các
ràng buộc trên thuộc tính được chọn để tiến hành thủy vân, và nghiên cứu kỹ
thuật phát hiện thủy vân dựa vào một ngưỡng tối ưu
3 Phạm vi nghiên cứu
Phạm vi nghiên cứu của đề tài là đi sâu nghiên cứu về mặt lý thuyết của
thuỷ vân và áp dụng cho cơ sở dữ liệu quan hệ
Nghiên cứu về cơ chế mã hoá và giải mã thuỷ vân cơ sở dữ liệu quan
hệ dựa trên kỹ thuật tối ưu hoá áp dụng thuật toán di truyền
4 Phương pháp nghiên cứu
Luận văn này là luận văn thuộc ngành kỹ thuật chuyên ngành khoa học
máy tính nên phương pháp nghiên cứu chủ yếu ở đây là phương pháp tiếp cận
lý thuyết, sau đó áp dụng lý thuyết vào một ngôn ngữ lập trình cụ thể để kiểm
chứng Dựa trên những kết quả kiểm chứng đó để đưa ra các kết luận và các
đề xuất nhằm hoàn thành mục tiêu nghiên cứu của luận văn
Cụ thể trong luận văn này, tác giả lấy thông tin tiêu thụ điện làm cơ sở
dữ liệu phục vụ cho nghiên cứu; nghiên cứu về lý thuyết thuỷ vân; nghiên cứu
về cách giải bài toán tối ưu hoá bằng giải thuật di truyền; sử dụng phần mềm
Matlab để lập trình kiểm chứng lý thuyết
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
5 Ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài
Đưa ra cơ sở khoa học của việc áp dụng kỹ thuật tối ưu hoá để mã hoá
và giải mã thuỷ vân trong đó sử dụng giải thuật di truyền để giải quyết bài toán tối ưu hoá
Kết quả nghiên cứu của đề tài rất có ý nghĩa trong việc chứng minh quyền sở hữu đối với các sản phẩm số hoá, đặc biệt là trong cơ sở dữ liệu quan hệ sau khi đã phân phối hoặc chuyển giao Đồng thời việc chứng minh quyền sở hữu này cũng là một vấn đề rất quan trọng trong môi trường ứng dụng dựa trên Internet nhằm phát tán và truyền tải thông tin
6 Cấu trúc của luận văn
Ngoài phần mở đầu và phần kết luận, luận văn được trình bày thành ba chương như sau:
- Chương 1 Tổng quan về thuỷ vân và giải thuật di truyền
Chương này chủ yếu trình bày về các thông tin cơ bản của kỹ thuật giấu tin, các khái niệm cơ bản về thuỷ vân và ứng dụng thực tiễn của thuỷ vân, sơ lược về giải thuật di truyền
- Chương 2 Thực trạng nghiên cứu về thuỷ vân cơ sở dữ liệu quan hệ
Chương này chủ yếu trình bày về thực trạng nghiên cứu về thuỷ vân
cơ sở dữ liệu quan hệ ở trong nước và trên thế giới
- Chương 3 Nội dung và các kết quả nghiên cứu
Chương này đi sâu mô tả chi tiết lý thuyết các bước tiến hành thí nghiệm áp dụng kỹ thuật tối ưu hoá cho mã hoá và giải mã thuỷ vân số
Trang 7CHƯƠNG 1 – TỔNG QUAN VỀ THUỶ VÂN VÀ
GIẢI THUẬT DI TRUYỀN
1 Cơ bản về giấu tin
2 Cơ bản về thuỷ vân
3 Một số ứng dụng của thuỷ vân
4 Giải thuật di truyền
Thông tin kỹ thuật số đã đem lại những thay đổi sâu sắc trong xã hội và
trong cuộc sống của chúng ta ngày nay Những thuận lợi mà thông tin kỹ
thuật số mang lại cũng sinh ra những thách thức và cơ hội mới cho xã hội hiện
đại Mạng Internet toàn cầu đã biến thành một xã hội ảo nơi diễn ra quá trình
trao đổi thông tin trong mọi lĩnh vực của đời sống Và chính trong môi trường
mở và tiện nghi như thế xuất hiện những vấn nạn, tiêu cực đang rất cần đến
các giải pháp hữu hiệu cho các vấn đề an toàn thông tin như nạn ăn cắp bản
quyền, nạn xuyên tạc thông tin, truy nhập thông tin trái phép, sao chép bất
hợp pháp các sản phẩm trí tuệ số v.v
Giải pháp cho những vấn đề trên đã được biết đến và áp dụng đó là giải
pháp giấu tin (DataHiding), được nghiên cứu phát triển trong khoảng hơn
chục năm gần đây Trong đó thuỷ vân (watermark) là một thành phần của
phương pháp giấu tin
Giấu thông tin bao gồm hai kỹ thuật chính là thuỷ ấn (watermarking)
và giấu tin bí mật (steganograph) đang được quan tâm nghiên cứu và phát
triển Các thành tựu đạt được trong lĩnh vực nghiên cứu này đã bắt đầu được
áp dụng hiệu quả cho mục đích bảo vệ bản quyền, chống sao chép, phân tán
trái phép các sản phẩm trong môi trường số hoá và nhiều mục đích khác
Nhiều phương pháp giấu thông tin khác nhau đã được đề xuất, mỗi phương pháp có những ưu điểm, nhược điểm riêng và thích hợp cho một nhóm các ứng dụng
1.1 Cơ bản về kỹ thuật giấu tin 1.1.1 Khái niệm về giấu tin
Giấu thông tin (Datahiding) là kỹ thuật nhúng (embedding) một lượng thông tin số nào đó vào trong một đối tượng dữ liệu số khác Một trong những
yêu cầu cơ bản của giấu tin là đảm bảo tính chất ẩn của thông tin được giấu đồng thời không làm ảnh hưởng đến chất lượng của dữ liệu gốc Đây là phương pháp đã và đang được rất nhiều nước trên thế giới nghiên cứu và ứng dụng rất mạnh mẽ
Sự khác biệt chủ yếu giữa mã hoá thông tin và giấu thông tin là mã hoá làm cho các thông tin hiện rõ là nó có được mã hoá hay không, còn với giấu thông tin thì người ta sẽ khó biết được là có thông tin giấu bên trong
1.1.2 Phân loại các kỹ thuật giấu tin
đây nên xu hướng phát triển chưa ổn định Nhiều phương pháp mới, theo nhiều khía cạnh khác nhau đang được đề xuất, vì vậy đã tồn tại nhiều cách phân loại rất khác nhau
Dựa trên việc thống kê các công trình đã công bố trên các tạp chí, cùng với thông tin về tên và tóm tắt nội dung của các công trình đã công bố trên Internet, người ta chia lĩnh vực giấu tin ra làm hai hướng lớn, đó là watermarking và steganography
Steganography quan tâm tới ứng dụng che giấu các bản tin đòi hỏi độ
bí mật cao và dung lượng lớn
Trang 8Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Watermark (thủy vân) quan tâm nhiều đến ứng dụng giấu các mẩu tin
ngắn nhưng đòi hỏi độ bền vững lớn của thông tin cần giấu (trước các biến
đổi thông thường của tệp dữ liệu môi trường)
Hình 1.1 1 Một cách phân loại kỹ thuật giấu tin
Đối với từng hướng lớn trên, quá trình phân loại theo các tiêu chí khác
nhau dựa theo ảnh hưởng các tác động từ bên ngoài, người ta có thể chia
watermark thành hai loại, một loại bền vững với các tác động sao chép trái
phép, loại thứ hai lại cần tính chất hoàn toàn đối lập: dễ bị phá huỷ trước các
tác động nói trên Cũng có thể chia watermark theo đặc tính, một loại cần
được che giấu để chỉ có một số người tiếp xúc với nó có thể thấy được thông
tin, loại thứ hai đối lập, cần được mọi người nhìn thấy
Information hiding Giấu thông tin Steganograp
hy Giấu tin mật
Watermarkin
g Thuỷ vân số
Robust Copyright marking Thuỷ vân bền vừng
Fragile marking
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
1.1.3 Mục đích của giấu tin
Bảo mật thông tin bằng giấu tin có hai khía cạnh Một là bảo mật cho
dữ liệu đem giấu (embedded data), chẳng hạn như giấu tin mật: thông tin
mật được giấu kỹ trong một đối tượng khác sao cho người khác không phát
hiện được (steganography) Hai là bảo mật chính đối tượng được dùng để giấu dữ liệu vào (host data), chẳng hạn như ứng dụng bảo vệ bản quyền, phát hiện xuyên tạc thông tin (watermarking)
1.1.4 Môi trường giấu tin
Kỹ thuật giấu tin đã được nghiên cứu và áp dụng trong nhiều môi trường dữ liệu khác nhau như trong dữ liệu đa phương tiện (text, image, audio, video), trong sản phẩm phần mềm và gần đây là những nghiên cứu trên môi trường cơ sở dữ liệu quan hệ Trong các môi trường dữ liệu đó thì dữ liệu
đa phương tiện là môi trường chiếm tỉ lệ chủ yếu trong các kỹ thuật giấu tin
a Giấu tin trong ảnh
Giấu thông tin trong ảnh, hiện nay, là một bộ phận chiếm tỉ lệ lớn nhất trong các chương trình ứng dụng, các phần mềm, hệ thống giấu tin trong đa phương tiện bởi lượng thông tin được trao đổi bằng ảnh là rất lớn và hơn nữa giấu thông tin trong ảnh cũng đóng vai trò hết sức quan trọng trong các hầu hết các ứng dụng bảo vệ an toàn thông tin như: nhận thực thông tin, xác định xuyên tạc thông tin, bảo vệ bản quyền tác giả, điều khiển truy cập, giấu thông tin mật Vì vậy vấn đề giấu tin trong ảnh này đang được quan tâm rất lớn của các nhà nghiên cứu
Thông tin sẽ được giấu cùng với dữ liệu ảnh nhưng chất lượng ảnh ít bị thay đổi và không thể nhận biết được bằng thị giác của con người, nó chỉ có thể bị phát hiện bởi “thị giác máy” Ngày nay, khi ảnh số đã được sử dụng rất phổ biến, thì giấu thông tin trong ảnh đã đem lại rất nhiều những ứng dụng
Trang 9quan trọng trên nhiều lĩnh vực trong đời sống xã hội thì việc nhận thực chữ kí
số, xác thực thông tin đã trở thành một vấn đề cực kì quan trọng khi mà việc
ăn cắp thông tin hay xuyên tạc thông tin bởi các tin tặc đang trở thành một
vấn nạn đối với bất kì quốc gia nào, tổ chức nào Một đặc điểm của giấu
thông tin trong ảnh đó là thông tin được giấu trong ảnh một cách vô hình, nó
như là một cách mà truyền thông tin mật cho nhau mà người khác không thể
biết được bởi sau khi giấu thông tin thì chất lượng ảnh gần như không thay
đổi đặc biệt đối với ảnh mầu hay ảnh xám
b Giấu tin trong audio
Giấu thông tin trong audio mang những đặc điểm riêng khác với giấu
thông tin trong các đối tượng đa phương tiện khác Một trong những yêu cầu
cơ bản của giấu tin là đảm bảo tính chất ẩn của thông tin được giấu đồng thời
không làm ảnh hưởng đến chất lượng của dữ liệu gốc Để đảm bảo yêu cầu
này, kỹ thuật giấu thông tin trong ảnh phụ thuộc vào hệ thống thị giác của con
người - HVS (Human Vision System) còn kỹ thuật giấu thông tin trong audio
lại phụ thuộc vào hệ thống thính giác HAS (Human Auditory System) Và
một vấn đề khó khăn ở đây là hệ thống thính giác của con người nghe được
các tín hiệu ở các giải tần rộng và công suất lớn nên đã gây khó dễ đối với các
phương pháp giấu tin trong audio Nhưng thật may là HAS lại kém trong việc
phát hiện sự khác biệt các dải tần và công suất điều này có nghĩa là các âm
thanh to, cao tần có thể che giấu được các âm thanh nhỏ thấp một cách dễ
dàng Các mô hình phân tích tâm lí đã chỉ ra điểm yếu trên và thông tin này sẽ
giúp ích cho việc chọn các audio thích hợp cho việc giấu tin
Vấn đề khó khăn thứ hai đối với giấu thông tin trong audio là kênh
truyền tin Kênh truyền hay băng thông chậm sẽ ảnh hưởng đến chất lượng
thông tin sau khi giấu Giấu thông tin trong audio đòi hỏi yêu cầu rất cao về
tính đồng bộ và tính an toàn của thông tin Các phương pháp giấu thông tin trong audio đều lợi dụng điểm yếu trong hệ thống thính giác của con người
c Giấu thông tin trong video
Cũng giống như giấu thông tin trong ảnh hay trong audio, giấu tin trong video cũng được quan tâm và được phát triển mạnh mẽ cho nhiều ứng dụng như điều khiển truy cập thông tin, nhận thực thông tin và bảo vệ bản quyền tác giả Các kỹ thuật giấu tin trong video cũng được phát triển mạnh mẽ và cũng theo hai khuynh hướng là thuỷ vân số và datahiding Một phương pháp giấu tin trong video được đưa ra bởi Cox là phương pháp phân bố đều Ý tưởng cơ bản của phương pháp là phân phối thông tin giấu dàn trải theo tần số của dữ liệu chứa gốc Một số nhà nghiên cứu khác đã dùng những hàm Cosin riêng và các hệ số truyền sóng riêng để giấu tin Trong các thuật toán khởi nguồn thì thường các kỹ thuật cho phép giấu các ảnh vào trong video nhưng thời gian gần đây các kỹ thuật cho phép giấu cả âm thanh và hình ảnh vào video
Giấu tin là một công nghệ mới rất phức tạp, nó đang được các nhà khoa học tập trung nghiên cứu ở nhiều nước trên thế giới Tuy nhiên, những kết quả thực nghiệm cho thấy để thực sự ứng dụng thực tế thì lĩnh vực này cần phải có thêm thời gian để nghiên cứu và thẩm định
1.2 Cơ bản về thuỷ vân 1.2.1 Khái niệm thuỷ vân Thuỷ vân số (digital watermarking) là quá trình chèn thông tin vào dữ
liệu số đảm bảo không thể cảm nhận được bằng các giác quan của con người nhưng lại dễ dàng phát hiện bởi các thuật toán của máy tính Một dấu thuỷ
vân (watermark) mà một mẫu thông tin trong suốt và không thể nhìn thấy
Trang 10Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
được bằng các giác quan được chèn vào một vị trí thích hợp trong dữ liệu số
bằng cách sử dụng một thuật toán đặc biệt
Tuỳ thuộc vào mục đích và ứng dụng mà các yêu cầu của hệ thống
watermarking được đặt ra Với các hệ thống thực tế, hệ thống thuỷ vân đòi hỏi
các yêu cầu sau:
+ Tính không nhận thấy đƣợc (Imperceptibility): Các điều chỉnh
gây ra do nhúng watermark phải thấp hơn ngưỡng cảm thụ của con người,
nghĩa là các mẫu dùng trong nhúng watermark chỉ được phép thay đổi rất nhỏ
trong giới hạn cho phép
+ Tính bền vững (Robustness): Đây là một yêu cầu nòng cốt của
watermarking Tùy vào từng loại ứng dụng mà tính bền vững này bằng được
nhìn nhận dưới nhiều quan điểm khác nhau, nếu như đối với các ứng dụng
dùng để bảo vệ quyền sở hữu thì watermark cần phải bền vững qua một số các
hành động cập nhật nội dung của dữ liệu Nếu như đối với ứng dụng để chống
làm giả hoặc chống lại sự thay đổi trên dữ liệu thì đòi hỏi watermark phải huỷ
bỏ khi có các tác vụ này xảy ra
+ Tính không chia tách đƣợc (Inseparability): Sau khi dữ liệu được
nhúng watermark thì yêu cầu là phải rất khó hoặc không thể tách thành 2 phần
riêng biệt như lúc đầu
+ Bảo mật (Security): Sau khi đã nhúng watermark vào dữ liệu, thì
yêu cầu là chỉ cho phép những user có quyền mới chỉnh sửa và phát hiện được
watermark điều này được thực hiện nhờ vào key dùng làm khoá trong giải
thuật nhúng watermark vào dữ liệu và giải thuật phát hiện ra watermark trong
dữ liệu
+ Tìm lại watermark: Có thể cần hoặc không cần đến dữ liệu gốc vẫn
có thể tìm lại được thuỷ vân đã nhúng
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
+ Trích watermark hay kiểm chứng: Cho phép kiểm tra sự tồn tại
của watermark trong dữ liệu đã nhúng
1.2.2 Một số vấn đề có liên quan đến thuỷ vân Visible watermarks – thủy vân hiện, giống như tên gọi, nó là những
mẫu thông tin, tương tự như những logo được chèn vào ảnh hoặc video Kỹ thuật này chủ yếu áp dụng cho ảnh để đánh dấu các ảnh trong cơ sở dữ liệu ảnh hoặc ngăn chặn sự mua bán trên web có sử dụng những ảnh này Kỹ thuật kết hợp thuỷ vân với ảnh gốc dùng cách thay đổi độ sáng của ảnh gốc bằng cách dùng một hàm thuỷ vân với một khoá bí mật Khoá bí mật này xác định giá trị giả ngẫu nhiên dùng cho việc điều chỉnh độ sáng, mục đích là để gây khó khăn hơn cho các tấn công xoá bỏ dấu nổi này
Watermarking – Thuỷ vân, ngược lại với steganography, nó có thêm
khái niệm là bền vững với các tấn công Ngay cả nếu sự tồn tại của thông tin
ẩn là bị lộ thì kỹ thuật này cũng sẽ gây ra sự khó khăn cho kẻ tấn công nếu không biết được khoá bí mật Lý do của sự bền vững này đó là phương thức thuỷ vân có thể nhúng nhiều lần các thông tin nhỏ và dữ liệu cần bảo vệ hơn
là phương thức steganographic Trên thực tế thì steganographic và watermarking không phải là hai phương thức có phần bổ sung cho nhau nhiều hơn là đối lập nhau
Fingerprinting và labeling (lấy dấu vân tay và gán nhãn) là các thuật
ngữ biểu thị các ứng dụng đặc biệt của thuỷ vân, chúng giống như những thông tin của tạo hoá hoặc những đặc trưng được nhúng vào các đối tượng Fingerprinting có nghĩa là quá trình thuỷ vân với các thông tin được nhúng hoặc là mã duy nhất xác định tác giả hoặc xác định dữ liệu gốc hoặc mã duy nhất bên cạnh các chuỗi mã có chứa các đặc trưng dữ liệu
Trang 11Bitstream watermarking (thủy vân dòng bit) đôi khi được sử dụng
cho nén dữ liệu thuỷ vân ví dụ như video Thuật ngữ nhúng các kỹ hiệu thay
thế cho watermarking được các ấn phẩm trước đây sử dụng, nhưng nó không
được tiếp tục sử dụng nữa, và từ đó dẫn đến sự hiểu nhầm giữa mã hoá và
thuỷ vân Mã hoá (cryptographic) phục vụ cho mục đích xác định quyền tác
giả Chúng được sử dụng để nhận dạng bất kỳ thay đổi nào trong dữ liệu đã
được đánh dấu và xác thực người gửi Tuy nhiên thuỷ vân chỉ được sử dụng
để xác thực trong các ứng dụng đặc biệt và thường được thiết kế cho việc
chống lại các thay đổi và chỉnh sửa
Fragile watermarks (Thuỷ vân dễ vỡ) là các thuỷ vân có sự rất hạn
chế về mặt bền vững đối với dữ liệu Chúng được áp dụng để nhận dạng các
thay đổi của dữ liệu đã thuỷ vân hơn là gìn giữ thông tin, nếu có các tấn công
nhằm xoá bỏ thuỷ vân thì việc này cũng sẽ phá huỷ luôn cả dữ liệu gốc
1.2.3 Khái niệm thuỷ vân cơ sở dữ liệu
Thuỷ vân cơ sở dữ liệu là kỹ thuật cho phép người chủ dữ liệu có thể
nhúng một thuỷ vân ẩn vào dữ liệu Một thuỷ vân thường mô tả những thông
tin có thể được dùng để chứng minh quyền sở hữu dữ liệu, chẳng hạn như là
tên chủ sở hữu, nguồn gốc, hoặc người tiếp nhận nội dung này Việc nhúng
thông tin an toàn đòi hỏi thuỷ vân được nhúng trong dữ liệu không thể bị làm
giả mạo hoặc bị tẩy xoá một cách dễ dàng Nhúng ẩn có nghĩa là thuỷ vân
không thể nhìn thấy được trong dữ liệu Hơn thế nữa, việc phát hiện thuỷ vân
được thực hiện theo phương pháp “mù”, tức là không đòi hỏi dữ liệu gốc cũng
như thuỷ vân gốc Đồng thời, khi nhúng thuỷ vân vào dữ liệu cần phải đảm bảo
các thay đổi trên dữ liệu là trong giới hạn cho phép của từng ứng dụng cụ thể
1.3 Một số ứng dụng của thuỷ vân 1.3.1 Bảo vệ bản quyền tác giả (copyright protection)
Đây là ứng dụng cơ bản nhất của kỹ thuật thuỷ vân số Một thông tin nào đó mang ý nghĩa quyền sở hữu tác giả (người ta gọi nó là thuỷ vân - watermark) sẽ được nhúng vào trong các sản phẩm, thuỷ vân đó chỉ một mình người chủ sở hữu hợp pháp các sản phẩm đó có và được dùng làm minh chứng cho bản quyền sản phẩm Giả sử có một thành phẩm dữ liệu dạng đa phương tiện như ảnh, âm thanh, video cần được lưu thông trên mạng Để bảo
vệ các sản phẩm chống lại hành vi lấy cắp hoặc làm nhái cần phải có một kỹ thuật để “dán tem bản quyền” vào sản phẩm này Việc dán tem hay chính là việc nhúng thuỷ vân cần phải đảm bảo không để lại một ảnh hưởng lớn nào đến việc cảm nhận sản phẩm Yêu cầu kỹ thuật đối với ứng dụng này là thuỷ vân phải tồn tại bền vững cùng với sản phẩm, muốn bỏ thuỷ vân này mà không được phép của người chủ sở hữu thì chỉ còn cách là phá huỷ sản phẩm
1.3.2 Phát hiện xuyên tạc thông tin (authentication and tamper detection)
Một tập thông tin sẽ được giấu trong phương tiện chứa, sau đó được sử dụng để nhận biết xem dữ liệu trên phương tiện gốc có bị thay đổi hay không Các thuỷ vân nên được ẩn để tránh sự tò mò của đối phương, hơn nữa việc làm giả các thuỷ vân hợp lệ hay xuyên tạc thông tin nguồn cũng cần xem xét Trong các ứng dụng thực tế, người ta mong muốn tìm được vị trí bị xuyên tạc cũng như phân biệt được các thay đổi (ví dụ như phân biệt xem một đối tượng
đa phương tiện chứa thông tin giấu đã bị thay đổi, xuyên tạc nội dung hay là chỉ bị nén mất dữ liệu) Yêu cầu chung đối với ứng dụng này là khả năng giấu thông tin cao và thuỷ vân không cần bền vững
Trang 12Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
1.3.3 Lấy dấu vân tay hay dán nhãn (fingerprinting and labeling)
Thuỷ vân trong những ứng dụng này được sử dụng để nhận diện người
gửi hay người nhận một thông tin nào đó Ví dụ như các vân khác nhau sẽ
được nhúng vào các bản copy khác nhau của thông tin gốc trước khi chuyển
cho nhiều người Với những ứng dụng này thì yêu cầu là đảm bảo độ an toàn
cao cho các thuỷ vân, tránh khả năng xoá dấu vết trong khi phân phối
1.3.4 Điều khiển thiết bị (Device control)
Các thiết bị phát hiện thuỷ vân (ở đây sử dụng phương pháp phát hiện
thuỷ vân đã giấu mà không cần thông tin gốc) được gắn sẵn vào trong các hệ
thống đọc ghi, tùy thuộc vào việc có thủy vân hay không để điều khiển (cho
phép/cấm) truy cập Ví dụ như hệ thống quản lí sao chép DVD đã được ứng
dụng ở Nhật Nhà sản xuất sẽ trang bị cho các phương tiện dùng để nhân bản
(như CD writer…) khả năng phát hiện xem digital media có chứa watermarks
hay không, nếu có thì sẽ từ chối không nhân bản
1.3.5 Theo dõi quá trình sử dụng (Tracking)
Digital watermarking có thể được dùng để theo dõi quá trình sử dựng
của các digital media Mỗi bản sao của sản phẩm được chứa bằng một
watermark duy nhất dùng để xác định user là ai Nếu có sự nhân bản bất hợp
pháp, ta có thể truy ra người vi phạm nhờ vào watermark được chứa bên trong
các phương tiện này
1.3.6 Theo dõi truyền thông (Broadcast Monitoring)
Các công ty truyền thông và quảng cáo có thể dùng kỹ thuật digital
watermarking để quản lý xem có bao nhiêu khách hàng đã dùng dịch vụ mà
họ cung cấp
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
1.3.7 Truyền tin bí mật (Concealed Communication)
Bởi vì digital watermarking là một dạng đặc biệt của việc che dấu dữ liệu (steganography) nên người ta có thể dùng để truyền các thông tin bí mật
1.4 Giải thuật di truyền Giải thuật di truyền (GA - Genetic Algorithms) là kỹ thuật giúp giải
quyết bài toán bằng cách mô phỏng theo sự tiến hoá của con người hay của sinh vật nói chung (dựa trên thuyết tiến hoá muôn loài của Darwin) trong điều kiện luôn thay đổi của môi trường sống Thuật toán di truyền là một hướng tiếp cận tính toán gần đúng, nghĩa là mục tiêu của thuật toán di truyền không nhằm đưa ra lời giải chính xác tối ưu mà là đưa ra lời giải tương đối tối ưu Giải thuật di truyền là một kỹ thuật của khoa học máy tính nhằm tìm kiếm giải pháp thích hợp cho các bài toán tối ưu tổ hợp (combinatorial optimization) Giải thuật di truyền là một phân ngành của giải thuật tiến hoá vận dụng các nguyên lý của tiến hoá như di truyền, đột biến, chọn lọc tự nhiên, và lai ghép
Giải thuật di truyền thường được ứng dụng nhằm sử dụng ngôn ngữ máy tính để mô phỏng quá trình tiến hoá của một tập hợp những đại diện trừu tượng (gọi là những nhiễm sắc thể) của các giải pháp có thể chấp nhận được (gọi là những cá thể) cho bài toán tối ưu hoá Tập hợp này sẽ tiến triển theo hướng chọn lọc những giải pháp tốt hơn Tìm kiếm giả thuyết thích hợp bắt đầu với một quần thể, hay một tập hợp có chọn lọc ban đầu của các giả thuyết Các cá thể của quần thể hiện tại khởi nguồn cho quần thể thế hệ kế tiếp bằng các hoạt động lai ghép và đột biến ngẫu nhiên – được lấy mẫu sau các quá trình tiến hoá giống như tiến hoá sinh học Ở mỗi bước, các giả thuyết trong quần thể hiện tại được ước lượng liên hệ với đại lượng thích nghi đã cho, với các giả thuyết phù hợp nhất được chọn theo xác suất là các hạt giống
Trang 13cho việc sản sinh thế hệ kế tiếp Thuật giải di truyền đã được ứng dụng một
cách thành công và được phát triển rộng rãi trong nhiều lĩnh vực
Giải thuật di truyền (GA) cung cấp một phương pháp học được thúc đẩy
bởi sự tương tự với sự tiến hoá sinh học Thay vì tìm kiếm các giả thuyết từ
tổng quát đến cụ thể hoặc từ đơn giản đến phức tạp, GA tạo ra các giả thuyết
kế tiếp bằng cách lặp việc đột biến và việc tái hợp các phần của giả thuyết
được biết hiện tại là tốt nhất ở mỗi bước, một tập các giả thuyết được gọi là
quần thể hiện tại được cập nhật bằng cách thay thế vài phần nhỏ quần thể bởi
cá thể con của các giả thuyết tốt nhất ở thời điểm hiện tại Sự phổ biến của
GA được thúc đẩy bởi các yếu tố sau:
Tiến hoá là một phương pháp mạnh, thành công cho sự thích nghi bên
trong các hệ thống sinh học
GA có thể tìm kiếm trên các không gian giả thuyết có các phần tương
tác phức tạp, ở đó ảnh hưởng của mỗi phần lên toàn thể độ thích nghi
giả thuyết khó có thể mô hình hoá
GA có thể được thực hiện song song và có thể tận dụng thành tựu của
phần cứng máy tính mạnh
CHƯƠNG 2 – THỰC TRẠNG NGHIÊN CỨU THUỶ VÂN CƠ SỞ DỮ LIỆU QUAN HỆ
1 Tình hình nghiên cứu trong nước
2 Tình hình nghiên cứu trên thế giới
2.1 Tình hình nghiên cứu trong nước
Cho đến nay, các nhà khoa học ở Việt Nam đã có một số công trình đã được công bố trong đó có áp dụng kỹ thuật thuỷ vân, trong đó chủ yếu tập trung vào các lĩnh vực như thuỷ vân audio, thuỷ vân video, thuỷ vân ảnh Các công trình nghiên cứu về thuỷ vân cơ sở dữ liệu vẫn còn hạn chế và đang được tiếp tục nghiên cứu tuy nhiên vẫn chưa nhiều về số lượng các công trình Các công trình về thuỷ vân sơ sở dữ liệu thông thường nghiên cứu theo một
số hướng như sau:
Phương pháp sử dụng các bít trọng số nhỏ [1,2] LSB khá đơn giản cho việc cài đặt, tuy nhiên thông tin giấu không bền vững trước nhiều hình thức tấn công Phương pháp này thích hợp cho mục đích giấu thông tin mật Phương pháp gán và sử dụng thuộc tính chẵn lẻ [3,4] có một số ưu điểm như đơn giản trong cài đặt, dễ kiểm soát chất lượng môi trường giấu tin,
có độ bền vững cao trước nhiều hình thức tấn công Phương pháp này có hiệu quả cao khi áp dụng cho môi trường giấu tin không chịu nén tổn hao, có cho phép sai số
2.2 Tình hình nghiên cứu trên thế giới
Căn cứ vào các công trình nghiên cứu, các bài báo đã công bố, có thể phân chia thuỷ vân cơ sở dữ liệu theo các dạng như sau:
Trang 14Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
2.2.1 Theo kiểu dữ liệu (Data type)
a) Thuỷ vân dữ liệu kiểu số (watermarking numerical data) có các nghiên cứu
của R Agrawaland J Kiernan: Watermarking Relational Databases VLDB,
2002
Giả thiết cơ bản của nghiên cứu này là chấp nhận một lượng thay đổi
với các số nhỏ ở bit ít ý nghĩa nhất của các giá trị dữ liệu kiểu số
Ý tưởng cơ bản là phải đảm bảo rằng các vị trí bit nhúng đó có chứa
các giá trị đặc trưng để có thể xác định được bởi khoá bí mật K
Để nhận dạng lại thuỷ vân đã nhúng, người ta đã tiến hành so sánh các
giá trị đánh dấu được tính toán với các giá trị bit đã lưu trong cơ sở dữ liệu
Thuỷ vân được nhận dạng nếu tỷ lệ phần trăm trùng lặp lớn hơn một ngưỡng
T nào đó cho trước
b) Watermarking categorical data có các nghiên cứu của
+ R Sion: Proving ownership over categorical data ICDE 2004
+ E Bertino, B.C Ooi, Y.Yang, and R Deng: Privacy and ownership
preserving of outsourced medical data ICDE 2005
Ý tưởng cơ bản của các nghiên cứu này là: đối với mỗi nhóm thuộc tính
X nào đó, thay đổi một số giá trị của thuộc tính này thành các giá trị khác sao
cho các thay đổi này là chấp nhận được Các thay đổi này sẽ tuỳ thuộc vào
từng ứng dụng cụ thể
2.2.2 Theo kiểu biến dạng (Distortion)
Ba nhà khoa học Y Li, H Guo, và S Jajodia công bố công trình
“Tamper Detection and Localization for Categorical Data Using Fragile
Watermarks”, DRM 2004
Ý tưởng cơ bản của nghiên cứu này là: Tất cả các bộ được phân hoạch
một cách bí mật thành g nhóm thông qua hàm băm H(K,r.P) Một dấu thuỷ
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
vân (watermark) khác được nhúng vào mỗi nhóm, vì vậy bất kỳ một thay đổi nào trên dữ liệu đều có thể được nhận dạng và định vị với độ chính xác cao tới cấp nhóm
2.2.3 Theo độ nhạy (Sensitivity)
Hệ thống thuỷ vân có thể được phân thành hai dạng là bền vững và dễ
bị phá huỷ thông qua độ nhạy của chúng đối với các tấn công cơ sở dữ liệu + Thuỷ vân bền vững (Robust watermarks) được sử dụng cho bảo vệ bản quyền, chứng mình quyền sở hữu, hoặc chống lại sự sao chép lậu + Thuỷ vân dễ bị phá huỷ (Fragile watermarks) được sử dụng để định
vị và phát hiện sự giả mạo dữ liệu
Thuỷ vân được tính toán bằng cách băm tất cả các bộ thành các nhóm Bất kỳ thay đổi nào tới dữ liệu đều có thể được nhận dạng chi tiết đến
mức nhóm dữ liệu với tỉ lệ thành công/lỗi là 2lng!
Trang 15*) Các tác giả H Guo, Y Li, A Liu, và S Jajodia với công trình “A
Fragile Watermarking Scheme for Detecting Malicious Modifications of
Database Relations” IS 2006
Đóng góp của công trình này là cải thiện độ chính xác khi xác định vị
trí làm giả trong dữ liệu
2.2.4 Theo thông tin thuỷ vân (watermark information)
a) Nhúng một bit đến nhiều bit
R Sion, M Atallah, và S Prabhakar với công trình “Rights Protection
for Relational Data” SIGMOD 2003
Thuỷ vân một tập các số thực bằng cách thay đổi các phân phối của nó
Phương pháp này được thực hiện bằng cách:
+ Sắp xếp các giá trị thông qua khoá được băm của tập các bit ý nghĩa
nhất của các giá trị đã được chuẩn hoá
+ Phân hoạch chúng thành các tập con không giao nhau
+ Nhúng một bit thuỷ vân vào một tập con bằng cách thực hiện các
thay đổi rất nhỏ, như vậy các đầu ra trong phân phối là nhỏ hơn (hoặc lớn
hơn) một ngưỡng nhỏ (hoặc lớn) nào đó
b) Nhúng từ nhiều bit đến cả một dấu vân tay
Y Li, V Swarup, và S Jajodia với công trình “Fingerprinting
Relational Databases: Schemes and Specialties” TDSC 2005 Đặc điểm của
phương pháp là:
+ Định danh đối tượng sử dụng dữ liệu
+ Nhiều bit fingerprint được sử dụng để xác định đối tượng người dùng
Công trình này giải quyết được các giả thiết đặt ra như sau:
+ Kẻ giả mạo cố tình chèn thêm thuỷ vân khác nữa vào dữ liệu đã được thuỷ vân
+ Một nhóm người dùng muốn nhúng thuỷ vân riêng của mỗi người vào dữ liệu và xác minh lại quyền sở hữu của họ một cách độc lập
Giải pháp của nghiên cứu này đưa ra là: Mở rộng nghiên cứu của Agrawal và Kiernan là nhúng nhiều thuỷ vân khác nhau W1, W2, W3,… vào
dữ liệu với các khoá K1, K2, K3,…khác nhau
Giải pháp của tác giả đưa ra là:
+ Công khai khoá + Thuỷ vân (công khai): Khoá chính, bit ý nghĩa nhất được chọn (most significant bit)
Trang 16Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
+ Dấu xác thực: Số hiệu chủ sở hữu (owner ID), khoá thuỷ vân (key),
hàm băm, thời điểm tạo dữ liệu, tính pháp lý, thuộc lĩnh vực nào
2.2.6 Theo cấu trúc dữ liệu (Data structure)
a) Sử dụng khoá chính ảo (Virtual primary key)
Y Li, V Swarupand S Jajodia với công trình “Constructing a Virtual
Primary Key for Fingerprinting Relational Data” DRM 2003
Giải quyết vấn đề đặt ra là: Nhiều lược đồ thuỷ vân đều dựa vào sự tồn
tại của khoá chính, điều này tồn tại một số nhược điểm như sau:
+ Không thể áp dụng thuỷ vân trực tiếp với những quan hệ mà không
tồn tại khoá chính
+ Rất dễ bị tấn công bởi kẻ tấn công đơn giản là thực hiện thay đổi
hoặc xoá khoá chính
Ý tưởng cơ bản để giải quyết các vấn đề trên được nêu ra trong công
trình này là:
+ Xây dựng khoá chính ảo bằng cách kết hợp các bit ý nghĩa nhất của
một số thuộc tính để tạo khoá chỉnh ảo
+ Các thuộc tính khác nhau được chọn cho mỗi bộ là dựa vào một khoá
bí mật
+ Nhược điểm của phương pháp này là làm tăng gấp đôi nguy cơ thất
bại khi nhận dạng lại thuỷ vân đã nhúng bởi vì, khi tao ra thêm một khoá
chính ảo, một số bit thuỷ vân sẽ được nhúng ít lần hơn các bit khác vào dữ
liệu Điều này làm gia tăng khả năng thất bại trong nhận dạng thuỷ vân nếu bị
tấn công
b) Xử lý dữ liệu theo khối (Data cube)
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
J Guo, Y Li, R Deng, và K Chen công bố công trình “Rights Protection for Data Cubes” ISC 2006
Dữ liệu dạng khối là một dạng dữ liệu phổ biến mà hỗ trợ tốt cho việc khai thác một lượng lớn dữ liệu đa chiều Thao tác phố biến nhất đối với dữ liệu dạng này là truy vấn tổ hợp
c) Xử lý theo dòng dữ liệu (Streaming data)
*) R Sion, M Atallah, và S Prabhakar công bố công trình công trình nghiên cứu “Resilient Rights Protection for Sensor Streams” VLDB 2004
Ý tưởng của công trình này là sử dụng một số các giá trị cực trị và các giá trị lân cận của nó như là những đối tượng mang các bit thuỷ vân Lựa chọn các giá trị cực trị và thuỷ vân mọi giá trị lân cận (LSB) dựa trên một khoá bí mật và các bit ý nghĩa nhất của chúng (MSB) Mọi mẫu đều bao gồm đầy đủ các giá trị cực trị và các giá trị lân cận của nó
*) H Guo, Y Li, và S Jajodia với công trình “Chaining Watermarks for Detecting Malicious Modifications to Streaming Data” IS 2007
Ý tưởng của nghiên cứu này là phân hoạch một luồng dữ liệu dạng số thành các nhóm và nhúng một thuỷ vân vào mỗi nhóm Việc phân nhóm là dựa vào các điểm động bộ Một thuỷ vân dùng để nhúng được tính toán bằng cách băm nhóm đã được băm trước đó hiện tại và nhóm đã băm trước đó tiếp theo, từ đó thuỷ vân được móc nối với nhau Việc nhận dạng thuỷ vân có thể được thực hiện và định vị các thay đổi ngay cả khi một số nhóm đã bị xoá toàn bộ cả nhóm