HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN NGUYỄN THỊ HỒNG MÔ HÌNH BIỂU DIỄN TRỰC QUAN DỮ LIỆU KHÔNG GIAN – THỜI GIAN ĐA BIẾN Chuyên ngành: Khoa Học Máy Tính Mã số: 62.48.01.01 TÓM TẮT L
Trang 1ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
NGUYỄN THỊ HỒNG
MÔ HÌNH BIỂU DIỄN TRỰC QUAN
DỮ LIỆU KHÔNG GIAN – THỜI GIAN ĐA BIẾN
Chuyên ngành: Khoa Học Máy Tính
Mã số: 62.48.01.01
TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
NĂM 2020
Trang 2Công trình được hoàn thành tại: Trường Đại học Công nghệ Thông tin – Đại học Quốc gia TP Hồ Chí Minh
Người hướng dẫn khoa học: PGS TS Trần Vĩnh Phước
Có thể tìm hiểu luận án tại:
- Thư viện Quốc gia Việt Nam
- Thư viện Trường Đại học Công nghệ Thông tin – ĐHQG – HCM
Trang 3Đồ họa trình bày hay đồ họa mô tả cũng được nhiều nhà khoa học khảo sát như là trực quan hóa trình bày, hay trực quan hóa mô tả, là cách trình bày, mô tả bằng kỹ thuật đồ họa Đồ họa trình bày hay đồ họa mô tả
sử dụng ngôn ngữ hình vẽ để thể hiện hình dạng, tính chất, ý nghĩa của nguồn vào Đồ họa trình bày chú trọng nhiều đến cách hiển thị thân thiện người dùng, tính mỹ thuật của hình vẽ, và tính chất thu hút sự chú ý của người dùng vào những nội dung đặc biệt Đồ họa trình bày được sử dụng trong lĩnh vực khoa học để mô tả các thí nghiệm, các hiện tượng tự nhiên, v.v còn gọi là trực quan hóa khoa học
Trực quan hóa sử dụng trong lĩnh vực khoa học được gọi là trực quan hóa khoa học (scientific visualization) Trực quan hóa khoa học sử dụng
kỹ thuật đồ họa để mô tả các hiện tượng khoa học Trong nghiên cứu khoa học, các hình vẽ được dùng để minh họa, giải thích, suy diễn các hiện tượng khoa học, và để hướng dẫn nghiên cứu (Hình 1.1) Trực quan hóa khoa học là một phần của quá trình nghiên cứu, những nhà khoa học sử dụng hình vẽ để mô tả cụ thể bản chất của những hiện tượng trừu tượng đang nghiên cứu
Hình 1.1: Minh họa về trực quan hóa khoa học
Trang 42
1.1.2 Trực quan hóa dữ liệu
Những năm gần đây, do sự bùng nổ nguồn dữ liệu và nhu cầu khai phá tri thức từ dữ liệu, trực quan hóa dữ liệu đang phát triển theo một tốc
độ rất nhanh như hàm mũ Những đồ thị trực quan hướng đến hỗ trợ người dùng phân tích dữ liệu bằng phương pháp nhìn – hiểu Trực quan hóa dữ liệu là một tiến trình tạo ra hình ảnh biểu diễn tập dữ liệu, định tính và/hoặc định lượng, mà người xem có thể trích xuất thông tin, khai phá tri thức, hoặc truyền thông Do đó, đồ thị trực quan phải dễ đọc đối với người nhìn và đóng góp tích cực vào việc trích xuất thông tin, khai phá tri thức, và truyền thông
1.1.3 Hệ thống trực quan hóa dữ liệu
Nhằm mục đích hỗ trợ khai phá tri thức từ những tập dữ liệu tĩnh nhiều biến, luận án này tiếp cận hệ thống trực quan hóa là một hệ thống kết nối dữ liệu với thông tin và/hoặc tri thức Hệ thống gồm 2 hợp phần chính, kỹ thuật trực quan xây dựng trên máy tính và cảm nhận trực quan của con người (Hình 1.2)
13
Thông tin / Tri thức
Kỹ thuật trực quan Cảm nhận trực quan
1.2 MỤC TIÊU NGHIÊN CỨU
Mục tiêu của luận án là xây dựng khung trực quan hóa và các mô hình khối nhiều chiều để biểu diễn trực quan dữ liệu phi không gian nhiều biến, dữ liệu không gian – thời gian nhiều biến, dữ liệu di chuyển nhiều biến, và dữ liệu bay nhiều biến đáp ứng tính chất cảm nhận bằng thị giác của con người
Trang 53
1.3 CÂU HỎI NGHIÊN CỨU
Luận án tiếp cận những đặc điểm của dữ liệu kết hợp với những nguyên lý cảm nhận bằng thị giác của con người để xây dựng khung trực quan hóa và các mô hình khối nhiều chiều biểu diễn dữ liệu nhiều biến để giải ba câu hỏi nghiên cứu sau:
1 Câu hỏi nghiên cứu 1: Làm thế nào biểu diễn nhiều biến dữ liệu
trên môi trường hiển thị 2D?
2 Câu hỏi nghiên cứu 2: Làm thế nào hiển thị một đồ thị nhiều chiều
có những tính chất trực quan như người dùng mong muốn?
3 Câu hỏi nghiên cứu 3: Làm thế nào khắc phục hạn chế về kích
thước và độ phân giải của môi trường hiển thị 2D?
1.4 PHƯƠNG PHÁP LUẬN
1.4.1 Phương pháp tổng thể
Luận án áp dụng nguyên lý Gestalt: ‘tổng thể thì nhiều hơn tổng cộng
các thành phần’ để đề xuất phương pháp biểu diễn trực quan dữ liệu nhiều
biến bởi một khối nhiều chiều
1.4.2 Phương pháp chia-để-trị (divide-and-conquer)
Luận án được cấu trúc thành 5 chương như sau:
- Chương một: giới thiệu tổng quát về luận án
- Chương hai: trực quan hóa dữ liệu: tiếp cận có tính hệ thống
- Chương ba: khối nhiều chiều biểu diễn trực quan dữ liệu
- Chương bốn: khung trực quan hóa
- Chương năm: tóm tắt những đóng góp khoa học
Trang 64
Chương 2: TRỰC QUAN HÓA DỮ LIỆU: TIẾP CẬN CÓ TÍNH
HỆ THỐNG (Data Visualization: Systematic Approach)
2.1 TRỰC QUAN HÓA DỮ LIỆU
2.1.1 Khái niệm
Trực quan hóa dữ liệu không chỉ hỗ trợ người dùng trích xuất thông tin, ý nghĩa dữ liệu, mà còn hỗ trợ phân tích dữ liệu, khuếch đại tri thức Trực quan hóa dữ liệu còn phối hợp với phương pháp mô hình trong phân tích dữ liệu để xây dựng mô hình toán hoặc để phát hiện những tri thức, qui luật mới (Hình 2.1)
Dữ liệu
Mô hình toán
Trực quan hóa
Tri thức
Hình 2.1: Trực quan hóa phối hợp với mô hình toán
2.1.2 Trực quan hóa dữ liệu khuếch đại tri thức
Hình 2.2: Trực quan hóa dữ liệu khuếch đại tri thức con người thông qua khả
năng và cách nhìn – hiểu đồ thị trực quan của người dùng
Khai phá tri thức bằng trực quan hóa gồm 2 giai đoạn, kỹ thuật trực quan ánh xạ dữ liệu thành đồ thị trực quan và cảm nhận trực quan bằng cách nhìn – hiểu (Hình 2.2)
2.1.3 Trực quan hóa hỗ trợ tri thức của con người
Tiếp cận trực quan hóa hỗ trợ sự hiểu biết của con người về thế giới thực (Hình 2.3) Nhận thức thế giới thực là một tiến trình trừu tượng hóa dần từ thế giới thực cụ thể đến tri thức trừu tượng
Nhìn-hiểu
Tri thức mới
Dữ liệu trực quanÁnh xạ trực quanĐồ thị
Trang 75
Tri thức
Trực quan hóa
Dữ liệu
Thông tin
Xử lý dữ liệu
Tiến trình nhận thức thế giới thực một cách
tự nhiên
Tiến trình nhận thức thế giới thực với sự đóng góp của trực quan hóa
Hình 2.3: Trực quan hóa hỗ trợ sự hiểu biết của con người về thế giới thực
2.1.4 Nâng cấp nhận thức con người tương ứng với nâng cấp giá trị
dữ liệu
Xử lý Phân tích
Nâng cấp sự hiểu biết của con người Nâng cấp giá trị của
dữ liệu
Thu thập Thế giới thực Khái quát
Hình 2.4: Tiến trình nâng cấp sự hiểu biết của con người tương ứng với tiến
trình nâng cấp giá trị của dữ liệu
2.1.5 Đặc điểm của trực quan hóa trong khuếch đại tri thức
Trực quan hóa giúp con người hợp tác với máy tính trên cơ sở những tri thức sẵn có của mỗi người để nhận biết và hiểu biết nhiều hơn, nhanh hơn về thế giới thực bằng cách biến đổi dữ liệu thành thông tin mới, tri thức mới
2.2 NGUYÊN LÝ CẢM THỤ THÔNG TIN BẰNG THỊ GIÁC 2.2.1 Hệ thống cảm thụ trực quan
Con người cảm thụ một thực thể nào đó bằng cách tiếp nhận ánh
Trang 86
sáng do chính vật ấy phát ra hoặc ánh sáng do phản chiếu từ nguồn sáng khác Những tia sáng này vào mắt được tiếp nhận bởi các tế bào hình que và tế bào hình nón (Hình 2.5)
Hình 2.5: Hệ cảm thụ trực quan
2.2.2 Nguyên lý Gestalt
Nguyên lý Gestalt được đề xướng trong thập niên 1920 bởi ba nhà tâm lý học người Đức là Wertheimer, Koffka, và Kohler đã đúc kết những công trình nghiên cứu về những đặc tính cảm nhận bằng thị giác của con người Nguyên lý Gestalt còn được gọi là luật thị giác Gestalt
và được phát biểu như sau “Tổng thể thì nhiều hơn tổng cộng của các hợp phần”
2.2.3 Nhìn – hiểu
Lý thuyết Gestalt cho rằng con người không thể hiểu biết tổng thể
từ các tri thức từng phần mà chỉ có thể hiểu biết từng phần từ những tri
thức tổng thể, nghĩa là tri thức tổng thể thì nhiều hơn tổng cộng các tri
thức thành phần
2.3 ÁNH XẠ TRỰC QUAN
Ánh xạ trực quan là tiến trình biến đổi dữ liệu thành những đồ thị tương thích với tính chất của dữ liệu, biến dữ liệu và quan hệ giữa các biến dữ liệu
2.4 TÍNH CHẤT CỦA ĐỒ THỊ TRỰC QUAN
Các nghiên cứu đã xác định những biến trực quan cơ bản gồm một biến phẳng và sáu biến thị giác mà một người thiết kế khung trực quan hóa dữ liệu có thể áp dụng cách đánh giá đồ thị trực quan dựa trên những tính chất phối hợp, chọn lọc, thứ tự, định lượng, tầm giá trị
2.5 PHÂN TÍCH TRỰC QUAN
Phân tích trực quan là một tiến trình khai thác dữ liệu, trích xuất thông tin, phát hiện tri thức bằng cách tương tác với những hình ảnh, đồ thị biểu diễn trực quan dữ liệu trên máy tính
Phân tích dữ liệu là một qui trình lặp gồm 5 bước sau:
Trang 97
What
Hình 2.6: Tam giác 3W gồm 3 đỉnh What-When-Where
Căn cứ vào mức độ liên quan của câu hỏi với các biến và các giá trị của biến, Bertin đã chia các câu hỏi phân tích thành 3 mức, mức sơ cấp (elementary level), mức trung gian (intermediate level), và mức toàn thể (overall or global level) Trong đó, câu hỏi mức sơ cấp liên quan đến một giá trị của một biến nào đó, câu hỏi mức trung gian liên quan đến một nhóm giá trị của một biến nào đó, câu hỏi mức toàn thể liên quan đến tất
cả giá trị của một biến nào đó Trong khi đó, Andrienko phân loại câu hỏi phân tích thành 2 mức, câu hỏi sơ cấp (elementary questions) giống định nghĩa của Bertin và câu hỏi khác (synoptic questions)
Luận án đã tiếp cận cách sử dụng dữ liệu và biến dữ liệu để trả lời những câu hỏi cho mục tiêu trích xuất thông tin hoặc tìm kiếm tri thức để
đề xuất cách phân loại câu hỏi phân tích thành 3 nhóm, câu hỏi sơ cấp (elementary questions), câu hỏi biến thiên (variation questions), và câu hỏi tương quan (correlation questions)
Câu hỏi sơ cấp được xử lý trên từng giá trị của biến dữ liệu Với nguyên lý cho rằng tại mỗi thời điểm, một đối tượng tồn tại tại một vị trí
và chỉ một vị trí, Peuquet đã đề xuất tam giác What-When-Where (Hình 2.6) Tam giác What-When-Where là một tiếp cận quan trọng để đặt ra
và trả lời những câu hỏi sơ cấp
2.6 TRƯỜNG VÀ ĐỐI TƯỢNG
2.6.1 Khái niệm
Trường địa lý: Trường địa lý, gọi đơn giản là trường, là một ánh xạ
từ tập vị trí không gian đến tập giá trị được định nghĩa Mỗi trường biểu diễn một biến dữ liệu có một và chỉ một giá trị tại mỗi vị trí không gian
Trang 108
Đối tượng địa lý: Đối tượng địa lý, gọi đơn giản là đối tượng, là khái
niệm trừu tượng chỉ một thực thể chiếm một phần không gian trong một khoảng thời gian và vẫn tồn tại dù vị trí hoặc thuộc tính có thay đổi
2.6.2 Dữ liệu mô tả trường và đối tượng
Khoa học máy tính số hóa các trường hiện tượng và các đối tượng
để lưu trữ trong các mô hình dữ liệu không gian (Hình 2.7) Trong đó, dữ liệu của trường hiện tượng hoặc đối tượng được rời rạc hóa theo không gian và thời gian
Thế giới thực chứa các hiện tượng và thực thể không gian
Mô hình không gian chứa các trường không gian và đối tượng không gian
Mô hình hóa
Mô hình
dữ liệu không gian theo trường không gian hoặc đối tượng không gian
Số hóa
Hình 2.7: Khoa học thông tin địa lý và khoa học máy tính mô hình hóa và số
hóa thế giới thực như những mô hình dữ liệu không gian
2.7 BIẾN DỮ LIỆU
2.7.1 Dữ liệu
Dữ liệu được sử dụng trong việc làm quyết định sau khi được phân tích tìm ra những ý nghĩa, những qui luật ẩn chứa bên trong dữ liệu Đến nay, có nhiều phương pháp khác nhau để phân tích dữ liệu, trong đó trực quan hóa là một tiếp cận đang được nhiều nhà khoa học tập trung nghiên cứu phát triển Mức độ trừu tượng về ý nghĩa tăng dần từ dữ liệu, đến thông tin, rồi tri thức (Hình 2.8)
Thế giới thực
Dữ liệu Thông tin Tri thức
Thu thập
Xử lý Phân tích
Hình 2.8: Quan hệ Dữ liệu-Thông tin-Tri thức với mức độ trừu tượng tăng dần
Trang 11Dữ liệu thứ
tự (Ordinal)
Dữ liệu khoảng cách (Inteval)
Dữ liệu tỉ lệ (Ratio)
2.7.3.2 Tính chất
Thời gian có hai đặc tính cơ bản là phân cấp và hạt Tính chất phân cấp của thời gian được biểu diễn bởi cây thời gian phân cấp: năm, tháng, ngày, giờ, phút, giây, …Tính chất hạt của thời gian được hiểu như là sự chứa đựng của đơn vị đo thời gian mức trên đối với mức dưới: năm chứa tháng, tháng chứa ngày, ngày chứa giờ, … (Hình 2.9)
Hình 2.9: Tính chất phân cấp và hạt của thời gian
Thời gian cũng có tính chất vừa tuyến tính vừa tuần hoàn (Hình 2.10, Hình 2.11)
Trang 1210
2.7.3.3 Biến thời gian
Biến thời gian là tập của những thời điểm hoặc tập của những thời đoạn Trong đó, một thời điểm là một trừu tượng toán học vì đó là một điểm trên trục thời gian, không hình dạng, không kích thước
2.7.3.4 Toán tử thời gian
Quan hệ theo vị trí tương đối giữa các đơn vị thời gian của các tập khác nhau trên trục thời gian gọi là quan hệ topology Topology của hai đơn vị thời gian gồm 7 trường hợp như (Hình 2.12)
Hình 2.12: Topology của hai đơn vị thời gian X và Y
2.7.4 Không gian
Không gian được đề cập ở đây là một không gian vật lý liên tục gồm
vô số các vị trí trên mặt đất Trong nhiều khảo sát, một tập không gian gồm một số hữu hạn các phần tử rời rạc, được ghi nhận và xử lý như những vị trí rời rạc có khoảng cách Không gian khảo sát là một tập các
vị trí khảo sát được xác định bởi những đa giác (polygones) trên mặt đất, mỗi đa giác là một phần tử của tập, còn gọi là đơn vị không gian…
2.8 BIẾN TRỰC QUAN
Trong trực quan hóa dữ liệu, biến trực quan là đầu ra của các ánh xạ biến đổi biến dữ liệu Các biến trực quan không những chỉ thị các giá trị của các biến dữ liệu mà còn phải chỉ thị quan hệ giữa các biến dữ liệu Biến trực quan chỉ thị các biến dữ liệu gồm biến phẳng và biến thị giác
2.8.1 Biến phẳng
Biến phẳng là những biến trực quan trình bày giá trị của các biến dữ liệu trên mặt phẳng để hiển thị dữ liệu như những đồ thị với những dạng hình học khác nhau
2.8.2 Biến thị giác
Biến thị giác là những biến trực quan tác động vào tính chất của mắt
người khi cảm nhận hình ảnh để nâng cao khả năng của con người khi
nhìn – hiểu các đồ thị
Trang 1311
Bảng 2.2: Các kiểu biến thị giác
Biến thị giác Dấu hiệu trực quan của các biến thị giác
Tính phối hợp
Tính thứ tự
Tính định lượng
Độ dài
Tính thứ tự
Trang 1412
Chương 3: KHỐI NHIỀU CHIỀU BIỂU DIỄN TRỰC QUAN DỮ
LIỆU (Multidimensional Cube for Representing Data)
3.1 GIỚI THIỆU
Biểu diễn trực quan dữ liệu bằng những hình ảnh đồ thị để người dùng nhìn-hiểu những ý nghĩa của dữ liệu Cách biểu diễn dữ liệu cùng với tri thức và trải nghiệm của người nhìn-hiểu sẽ trích xuất ra thông tin hoặc khai phá những tri thức mới ở những mức giá trị khác nhau
3.2 NHỮNG THÀNH TỰU KHOA HỌC TRONG BIỂU DIỄN TRỰC QUAN DỮ LIỆU
3.2.1 Những kiểu biểu diễn trực quan dùng hệ tọa độ phi trực giao
A 1 A A 2 2 A A 3 3 A A 4 4 A A 5 5 A A 6 6 A A 7 7 A A 8 8
Hình 3.1: Tọa độ song song biểu
diễn những biến dữ liệu
Hình 3.2: Biểu đồ sao biểu diễn giá
trị và quan hệ của những biến dữ liệu tại các thời điểm t t t1, ,2 3
Hình 3.3: Biểu đồ sao 3D biểu diễn
Hình 3.4: Bánh xe thời gian biểu
diễn những biến dữ liệu
Tr
Trụ
c quGóc quay
Trục gốc
Hình 3.5: Tọa độ trụ biểu diễn biến dữ liệu thuộc tính tham chiếu thời gian
Trang 15Vị trí không gian Tọa độ mặt đất
Hình 3.7: Khối không gian – thời
gian biểu diễn vị trí không gian –
thời gian
Hình 3.8: Khối không gian – thời gian và khối thời gian nhiều biến được sử
dụng đồng thời để biểu diễn dữ liệu không gian – thời gian nhiều biến
3.3 QUAN HỆ CỦA CÁC BIẾN DỮ LIỆU
3.3.1 Tam giác Đối tượng – Vị trí – Thời gian
What
Hình 3.9: Tam giác quan hệ 3W:
What – Where - When
Đối tượng
không gian - thời gian
Hình 3.10: Tam giác OTL Đối
tượng (Objects)– Thời gian
Trang 1614
3.3.2 Tứ giác Đối tượng – Thuộc tính – Thời gian – Vị trí
Thuộc tính tham chiếu không gian
Thuộc tính tham chiếu thời gian
Đối tượng không gian
Đối tượng thời gian
Đối tượng không gian - thời gian
của
có những
Hình 3.11: Tứ giác mô tả quan hệ Đối tượng-Thuộc tính-Thời gian-Vị trí
Tứ giác (Hình 3.11) mô tả các quan hệ (QH) như sau:
3.3.3 Ngũ giác Đối tượng – Thuộc tính – Thời gian – Vị trí 2D – Vị trí 3D
Đối tượng
Thời gian Thuộc tính
Hình 3.12: Ngũ giác Đối tượng–Thuộc tính – Thời gian – Vị trí 2D – Vị trí 3D
Luận án đề xuất chia tách tập vị trí không gian thành tập vị trí không gian mặt đất, gọi là tập vị trí 2D, và tập vị trí không gian có độ cao, gọi là
Trang 1715
tập vị trí 3D Quan hệ này được biểu diễn bởi Ngũ giác OATL23, còn gọi
là Sao OATL23 Và bổ sung thêm các quan hệ như sau:
3.4 KHỐI NHIỀU CHIỀU (Multidimensional Cube)
Khối nhiều chiều được thiết kế để biểu diễn dữ liệu nhiều biến Luận
án phân ra thành 3 loại khối nhiều chiều sau:
Đối tượng, Thuộc tính, Thời gian tương ứng các quan hệ QH1, QH3, QH4, QH9 trong hình 3.12
Đối tượng, Thuộc tính, Thời gian, Vị trí 2D tương ứng với các quan hệ QH2, QH5, QH6, QH7, QH8 trong hình 3.12
Đối tượng, Thuộc tính, Thời gian, Vị trí 3D tương ứng với các quan hệ QH10, QH11 trong hình 3.12
3.4.1 Khối nhiều chiều phi không gian (Non-spatial Multidimensional
Cube)
Cấu trúc khối nhiều chiều phi không gian
Khối nhiều chiều phi không gian là một biến thể của hệ tọa độ song song (Hình 3.13) Các bộ dữ liệu trên bảng được trình bày trên mặt phẳng C j là mặt phẳng song song với các trục thuộc tính và thẳng góc với trục biến tham chiếu chung, gọi là mặt quan hệ (Hình 3.14)
Mặt thuộc tính
Trục song song biểu diễn
Hình 3.13: (a) Khối nhiều chiều phi
không gian là một biến thể của tọa độ
song song; (b) Khối nhiều chiều phi
không gian biểu diễn nhiều biến thuộc
tính
Hình 3.14: Khối nhiều chiều
phi không gian hỗ trợ phân tích quan hệ giữa các biến dữ liệu trên mặt quan hệ C j
Truc biến thuộc tính
i
A
j
C