Đó là các giải pháp thu thập thông tin giao thông; quy hoạch, điều tiết đường sá; điều khiển giao thông; xác định lưu lượng và cung cấp thông tin giao thông tới người tham gia giao thông
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM ĐỨC DƯƠNG
MÔ HÌNH VÀ TRỰC QUAN HOÁ DỮ LIỆU TRẠNG THÁI GIAO THÔNG TRÊN NỀN WEB
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Người hướng dẫn khoa học: TS NGUYỄN NGỌC HÓA
HÀ NỘI - 2015
Trang 3LỜI CẢM ƠN
Trước tiên tôi xin gửi lời cảm ơn chân thành và sự biết ơn sâu sắc tới TS Nguyễn Ngọc Hóa, người thầy đã chỉ bảo và hướng dẫn tận tình cho tôi trong suốt quá trình nghiên cứu khoa học và thực hiện luận văn này
Tôi xin chân thành cảm ơn các thày cô giáo đã giảng dạy trong suốt những năm tôi học tại trường Đại học Công nghệ đã trang bị cho tôi những kiến thức quý báu và động lực nghiên cứu
Cuối cùng, tôi xin gửi lời cảm ơn tới gia đình, người thân, bạn bè, đồng nghiệp đã luôn giúp đỡ, động viên, khuyến khích tôi trong cuộc sống và trong công việc
Tôi xin chân thành cảm ơn!
Tác giả Phạm Đức Dương
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan luận văn thạc sĩ “Mô hình và trực quan hoá dữ liệu trạng thái giao thông trên nền Web” là do tôi viết dưới sự hướng dẫn của thầy giáo TS Nguyễn Ngọc Hóa thuộc Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội Luận văn được hoàn thành trên cơ sở nghiên cứu, tổng hợp và phát triển các nghiên cứu về mô hình, kỹ thuật trực quan hóa dữ liệu trong nước và trên thế giới do tôi thực hiện
Tôi xin cam đoan các đề xuất trong luận văn do chính tôi thực hiện qua quá trình nghiên cứu đưa ra, các nội dung liên quan trong luận văn có nguồn gốc
từ nghiên cứu của người khác đều được ghi rõ nguồn gốc trong phần tài liệu tham khảo, nếu có gì sai sót tôi xin hoàn toàn chịu trách nhiệm
Trang 5MỤC LỤC
MỞ ĐẦU 1
Chương 1 Các vấn đề lý thuyết liên quan 3
1.1 Hệ thống thông tin địa lý (GIS) 3
1.1.1 Khái niệm về GIS 3
1.1.2 Các thành phần của GIS 4
1.1.2.1 Phần cứng 4
1.1.2.2 Phần mềm 4
1.1.2.3 Dữ liệu 4
1.1.2.4 Con người 5
1.1.2.5 Phương pháp quản lý 5
1.1.3 Cấu trúc dữ liệu trong GIS 5
1.1.3.1 Dữ liệu bản đồ 5
1.1.3.2 Dữ liệu thuộc tính 7
1.1.3.3 Mối quan hệ giữa dữ liệu bản đồ và dữ liệu thuộc tính 7
1.1.4 Các chức năng của GIS 7
1.1.5 Các đặc điểm của GIS 8
1.1.6 Ứng dụng của GIS 8
1.1.7 WebGIS 9
1.2 Trực quan hóa dữ liệu 9
1.2.1 Tổng quan 9
1.2.1.1 Trực quan hóa 9
1.2.1.2 Trực quan hóa thông tin (Information visualization) 11
1.2.1.3 Trực quan hóa dữ liệu (Data visualization) 11
1.2.2 Kiến trúc và mô hình trực quan hóa dữ liệu 14
1.2.2.1 Mô hình khái niệm 14
1.2.2.2 Mô hình tham khảo trực quan hóa thông tin 15
1.2.3 Thiết kế trực quan hóa dữ liệu 17
1.2.3.1 Bộ ba Designer-Reader-Data 17
1.2.3.2 Quá trình trực quan hóa dữ liệu 19
1.2.3.3 Các trạng thái của dữ liệu trong quá trình trực quan hóa dữ liệu 20
1.3 Trực quan hóa dữ liệu theo địa lý (Geovisualization) 20
1.3.1 Giới thiệu 20
1.3.2 Ứng dụng thực tế của trực quan hóa dữ liệu theo địa lý 21
1.3.3 Một số loại bản đồ trực quan hóa dữ liệu theo địa lý 21
Trang 61.4 Ứng dụng trực quan hóa dữ liệu biểu diễn trạng thái giao thông 28
1.4.1 Khả năng ứng dụng trực quan hóa dữ liệu biểu diễn trạng thái giao thông 28
1.4.2 Tham khảo trực quan hóa dữ liệu biểu diễn trạng thái giao thông 29
Chương 2 Nghiên cứu xây dựng giải pháp trực quan hoá dữ liệu trạng thái giao thông trên nền bản đồ số 33
2.1 Thu thập và xử lý dữ liệu 33
2.2 Mô hình và kỹ thuật trực quan hoá dữ liệu trạng thái giao thông 35
2.2.1 Kỹ thuật vẽ đồ họa thực hiện trực quan hóa dữ liệu 35
2.2.1.1 Lý thuyết cơ bản về vẽ đồ họa 35
2.2.1.2 Thuật toán trình bày đồ họa 37
2.2.2 Mô hình trực quan hóa dữ liệu trạng thái giao thông 37
2.2.3 Mô hình kiến trúc hệ thống giải pháp trực quan hoá dữ liệu trạng thái giao thông 39
2.2.4 Kỹ thuật xây dựng hệ thống trực quan hóa dữ liệu trạng thái giao thông 40
2.2.4.1 Kỹ thuật xây dựng trực quan hóa tình trạng trên các tuyến đường giao thông 40
2.2.4.2 Kỹ thuật xây dựng trực quan hóa tổng hợp tình trạng giao thông bằng biểu đồ 44
2.3 Công cụ xây dựng hệ thống trực quan hoá dữ liệu trạng thái giao thông 45 2.3.1 PostgreSQL/PostGIS 45
2.3.2 Apache 47
2.3.3 Map Server 47
2.3.4 Công cụ lập trình 48
2.3.4.1 JavaScript 48
2.3.4.2 Leaflet 49
2.3.4.3 D3 49
2.3.4.4 Heatmap 50
Chương 3 Xây dựng và thử nghiệm ứng dụng trực quan hóa dữ liệu trạng thái giao thông Hà Nội 52
3.1 Yêu cầu đặt ra 52
3.2 Phân tích, thiết kế hệ thống 52
3.2.1 Mô hình kiến trúc hệ thống 52
3.2.2 Chức năng hệ thống 53
3.2.3 Lược đồ cơ sở dữ liệu 54
3.3 Xây dựng ứng dụng và thử nghiệm 58
Trang 73.3.1 Môi trường ứng dụng 58
3.3.2 Dữ liệu thử nghiệm 58
3.3.3 Các vấn đề và giải pháp trong quá trình triển khai 59
3.3.3.1 Sử dụng heatmap thể hiện trạng thái giao thông trên tuyến đường 59
3.3.3.2 Kết hợp Leaflet và Heatmap 60
3.3.3.3 Thao tác với dữ liệu dạng GeoJSON 60
3.3.3.4 Kết nối cơ sở dữ liệu 61
3.3.3.5 Xây dựng biểu đồ tổng hợp dữ liệu trạng thái giao thông 61
3.3.3.6 Cập nhật dữ liệu thời gian thực 62
3.4 Kết quả thử nghiệm 62
3.5 Đánh giá 65
KẾT LUẬN CHUNG 66
Trang 8DANH MỤC HÌNH VẼ
Hình 1.1 Mô hình hệ thống thông tin địa lý 3
Hình 1.2 Các thành phần của GIS 4
Hình 1.3 Sự thể hiện quang cảnh sự vật dưới các lớp bản đồ khác nhau 6
Hình 1.4 Trực quan hóa khoa học mô phỏng sự bất ổn định Raleigh-Taylor bởi sự hòa trộn giữa 2 chất lưu 10
Hình 1.5 Mô hình phân tích và trình diễn dữ liệu 12
Hình 1.6 Mô hình khái niệm của trực quan hóa 15
Hình 1.7 Vai trò của mô hình dữ liệu trong phần mềm trực quan hóa 15
Hình 1.8 Sơ đồ mô tả mô hình tham khảo trực quan hóa thông tin 16
Hình 1.9 Bản chất của trực quan hóa dựa vào đánh giá mối quan hệ giữa 3 thành phần 18
Hình 1.10 Bản đồ Choropleth 21
Hình 1.11 Bản đồ Cartogram 22
Hình 1.12 Bản đồ Proportional Symbol 23
Hình 1.13 Bản đồ kết hợp proportional symbol với cartograms 24
Hình 1.14 Bản đồ Pinpoint 24
Hình 1.15 Bản đồ nổi tiếng về chiến dịch nước Nga của Napoleon 25
Hình 1.16 Bản đồ Subway 26
Hình 1.17 Bản đồ Isopleth 26
Hình 1.18 Bản đồ Stream plots 27
Hình 1.19 Bản đồ Prism 27
Hình 1.20 Đồ thị mô tả thời gian chờ đợi theo số lượng xe tải 28
Hình 1.21 Ví dụ sử dụng Score Cards và Dash boards 29
Hình 1.22 Kết quả cuộc thi MIT Big Data Challenge 32
Hình 2.1 Sự tương tác giữa các trạng thái dữ liệu 35
Hình 2.2 Luật vẽ trực giao 36
Hình 2.3 Mô hình trực quan hóa trạng thái giao thông 38
Hình 2.4 Mô hình kiến trúc hệ thống WebGIS 40
Hình 2.5 Kết quả hiển thị các điểm trên bản đồ 42
Hình 2.6 Kết quả vẽ theo phương pháp “đóng hộp” 43
Hình 2.7 Kết quả vẽ theo phương pháp mật độ nhân 44
Hình 3.1 Mô hình kiến trúc 53
Hình 3.2 Sơ đồ áp dụng mô hình trực quan hóa 53
Hình 3.3: Lược đồ cơ sở dữ liệu 55
Hình 3.4 Tập các điểm biểu diễn trên tuyến đường 60
Trang 9Hình 3.5 Màn hình chương trình thử nghiệm 63
Hình 3.6 Biểu đồ tổng hợp trạng thái giao thông theo thời điểm 64
Hình 3.7 Biểu đồ tổng hợp trạng thái giao thông theo ngày 64
Hình 3.8 Biểu đồ tổng hợp trạng thái giao thông theo tuần 64
Hình 3.9 Biểu đồ tổng hợp trạng thái giao thông theo tháng 64
Hình 3.10 Biểu trực quan trạng thái giao thông trên bản đồ theo thời điểm chọn 65
Trang 10MỞ ĐẦU
Hà Nội là thủ đô của Việt Nam và cũng là một trong những thành phố có
số dân và mật độ dân cư cao của cả nước nên giao thông Hà Nội có tầm quan trọng nhất định trong việc đáp ứng nhu cầu đi lại và vận chuyển hàng hóa ngày một tăng Tuy nhiên, hiện nay Hà Nội cũng như các thành phố lớn khác đang hàng ngày phải đối mặt với vấn nạn ùn tắc giao thông
Để giải quyết tình trạng ùn tắc giao thông trên địa bàn Hà Nội, dựa trên những phân tích về nguyên nhân ùn tắc giao thông, Hà Nội đã đệ trình Chính phủ 4 nhóm giải pháp nhằm nâng cấp cơ sở hạ tầng giao thông, phục vụ sự tăng trưởng kinh tế - xã hội của thủ đô gồm: Nhóm các giải pháp kỹ thuật, Nhóm các giải pháp hành chính, Nhóm các giải pháp kinh tế, Nhóm các giải pháp tuyên truyền
Một phần trong các giải pháp này là đẩy mạnh việc ứng dụng CNTT một cách tổng thể trong ngành giao thông Đó là các giải pháp thu thập thông tin giao thông; quy hoạch, điều tiết đường sá; điều khiển giao thông; xác định lưu lượng và cung cấp thông tin giao thông tới người tham gia giao thông, cảnh báo sớm cho người tham gia giao thông về tình trạng ùn tắc tại các tuyến phố, để người dân chủ động thay đổi phương tiện, hướng đi trên đường …
Với thực trạng đó, luận văn này chú trọng đến việc tìm hiểu, nghiên cứu xây dựng mô hình và trực quan hoá dữ liệu trạng thái giao thông trên nền bản đồ
số một số tuyến phố của thủ đô Hà nội Đây cũng là một trong những nhiệm vụ nghiên cứu trong đề tài nghiên cứu mã số 01C-04/08-2014-2 của Sở Khoa học
và Công nghệ Hà Nội thực hiện từ năm 2014 Mục đích chính của đề tài nhằm cung cấp thông tin một cách trực quan cho người xem về tình trạng ùn tắc tại các tuyến phố để có ứng xử thích hợp khi tham gia giao thông Trong khuôn khổ luận văn này, toàn bộ phần giải pháp thu thập dữ liệu trạng thái giao thông được tách rời và được định hướng ngoài phạm vi luận văn
Từ mục tiêu đó, những kết quả thu được trong luận văn được trình bày trong 3 chương chính, ngoài phần mở đầu và kết luận, bao gồm:
Chương 1: Các vấn đề lý thuyết liên quan giới thiệu các lý thuyết phục vụ
mục đích của đề tài là xây dựng Mô hình và trực quan hoá dữ liệu trạng thái giao thông trên nền bản đồ số Các lý thuyết đó bao gồm: Hệ thống thông tin địa lý,
lý thuyết về trực quan hóa dữ liệu, trực quan hóa dữ liệu theo địa lý, khả năng ứng dụng trực quan hóa dữ liệu để biểu diễn trạng thái giao thông
Chương 2: Nghiên cứu xây dựng giải pháp trực quan hoá dữ liệu trạng thái giao thông trên nền bản đồ số đưa ra các kỹ thuật trực quan hóa trong hệ
thống giao thông và đề xuất mô hình trực quan hóa tình trạng giao thông Hà
Trang 11Nội Chương này cũng giới thiệu mô hình hệ thống và các công cụ mã nguồn
mở để triển khai mô hình trực quan hóa
Chương 3: Thử nghiệm xây dựng ứng dụng trực quan hóa với dữ liệu trạng thái giao thông Hà Nội bằng cách sử dụng các công cụ, mô hình đã giới
thiệu trong chương 2 để xây dựng thử nghiệm hệ thống trực quan hoá dữ liệu trạng thái giao thông trên nền bản đồ số từ thông tin trạng thái giao thông của một số tuyến phố chính Hà Nội
Phần kết luận tổng kết, đánh giá những kết quả đạt được của luận văn và
đưa ra hướng phát triển các nội dung nghiên cứu của luận văn
Trang 12Chương 1 Các vấn đề lý thuyết liên quan
1.1 Hệ thống thông tin địa lý (GIS)
Hệ Thông tin địa lý (GIS) là một công cụ máy tính để lập bản đồ và phân tích các sự vật, hiện tượng thực trên trái đất Công nghệ GIS kết hợp các thao tác
cơ sở dữ liệu thông thường (như cấu trúc hỏi đáp) và các phép phân tích thống
kê, phân tích địa lý, trong đó phép phân tích địa lý và hình ảnh được cung cấp duy nhất từ các bản đồ Những khả năng này phân biệt GIS với các hệ thống thông tin khác và khiến cho GIS có phạm vi ứng dụng rộng trong nhiều lĩnh vực khác nhau (phân tích các sự kiện, dự đoán tác động và hoạch định chiến lược)[1]
1.1.1 Khái niệm về GIS
Có nhiều cách tiếp cận khác nhau liên quan đến định nghĩa Hệ thống thông tin địa lý [1]:
Định nghĩa theo chức năng: GIS là một hệ thống bao gồm 4 hệ con: Dữ
liệu vào, quản trị dữ liệu, phân tích dữ liệu và dữ liệu ra
Định nghĩa theo khối công cụ: GIS là tập hợp phức tạp của các thuật toán Định nghĩa theo mô hình dữ liệu: GIS gồm các cấu trúc dữ liệu được sử
dụng trong các hệ thống khác nhau (cấu trúc dạng Raster và Vecter)
Định nghĩa về mặt công nghệ: GIS là công nghệ thông tin để lưu trữ, phân
tích và trình bày các thông tin không gian và thông tin phi không gian, công nghệ GIS có thể nói là tập hợp hoàn chỉnh các phương pháp và các phương tiện nhằm sử dụng và lưu trữ các đối tượng
Định nghĩa theo sự trợ giúp và ra quyết định: GIS có thể coi là một hệ
thống trợ giúp việc ra quyết định, tích hợp các số liệu không gian trong một cơ chế thống nhất
Nói tóm lại theo BURROUGHT: “GIS như là một tập hợp các công cụ cho việc thu nhập, lưu trữ, thể hiện và chuyển đổi các dữ liệu mang tính chất không gian từ thế giới thực để giải quyết các bài toán ứng dụng phục vụ các mục đích cụ thể”
Mô hình chung một hệ thống thông tin địa lý được thể hiện tại hình 1.1
Hình 1.1 Mô hình hệ thống thông tin địa lý
Trang 131.1.2 Các thành phần của GIS
GIS được kết hợp bởi năm thành phần chính được biểu diễn tại hình 1.2 bao gồm: phần cứng, phần mềm, dữ liệu, con người và phương pháp quản lý[1,6,14]
Hình 1.2 Các thành phần của GIS 1.1.2.1 Phần cứng
Phần cứng là hệ thống máy tính trên đó một hệ GIS hoạt động Ngày nay, phần mềm GIS có khả năng chạy trên rất nhiều dạng phần cứng, từ máy chủ trung tâm đến các máy trạm hoạt động độc lập hoặc liên kết mạng
1.1.2.2 Phần mềm
Phần mềm GIS cung cấp các chức năng và các công cụ cần thiết để lưu giữ, phân tích và hiển thị thông tin địa lý Các thành phần chính trong phần mềm GIS là:
+ Công cụ nhập và thao tác trên các thông tin địa lý
+ Hệ quản trị cơ sở dữ liệu (DBMS)
+ Công cụ hỗ trợ hỏi đáp, phân tích và hiển thị địa lý
+ Giao diện đồ hoạ người-máy (GUI) để truy cập dễ dàng
1.1.2.3 Dữ liệu
Có thể coi thành phần quan trọng nhất trong một hệ GIS là dữ liệu Các
dữ liệu địa lý và dữ liệu thuộc tính liên quan có thể được người sử dụng tự tập hợp hoặc được mua từ nhà cung cấp dữ liệu thương mại Hệ GIS sẽ kết hợp dữ liệu không gian với các nguồn dữ liệu khác, thậm chí có thể sử dụng DBMS để
tổ chức lưu giữ và quản lý dữ liệu
Trang 141.1.2.4 Con người
Công nghệ GIS sẽ bị hạn chế nếu không có con người tham gia quản lý hệ thống và phát triển những ứng dụng GIS trong thực tế Người sử dụng GIS có thể là những chuyên gia kỹ thuật, người thiết kế và duy trì hệ thống, hoặc những người dùng GIS để giải quyết các vấn đề trong công việc
1.1.2.5 Phương pháp quản lý
Ðây là hợp phần rất quan trọng để đảm bảo khả năng hoạt động của hệ thống, là yếu tố quyết định sự thành công của việc phát triển công nghệ GIS Hệ thống GIS cần được điều hành bởi một bộ phận quản lý, bộ phận này phải được
bổ nhiệm để tổ chức hoạt động hệ thống GIS một cách có hiệu quả để phục vụ người sử dụng thông tin
1.1.3 Cấu trúc dữ liệu trong GIS[1]
Chúng ta đều biết rằng bản đồ là phương tiện tốt nhất để hiển thị các thông tin địa lý Các dữ liệu không gian bao gồm ba loại chính gồm: điểm, đường và vùng; vị trí của chúng được xác định bởi các tọa độ Theo truyền thống, bản đồ là tờ giấy phẳng, nó có tọa độ hai chiều Bản đồ có các ký hiệu, bao gồm các đường và màu sắc khác nhau biểu thị các đặc điểm khác nhau
Cơ sở dữ liệu của hệ thống thông tin địa lý gồm hai phần cơ bản là dữ liệu bản đồ (hay gọi là dữ liệu đồ thị) và dữ liệu thuộc tính (hay gọi là dữ liệu phi đồ họa) Mỗi một loại dữ liệu có đặc trưng riêng và chúng yêu cầu lưu trữ, xử lý và hiển thị khác nhau
1.1.3.1 Dữ liệu bản đồ
Bản đồ là tài liệu miêu tả những đối tượng và những đặc trưng tự nhiên trong thực tế của thế giới thực Kỹ thuật làm bản đồ đã được phát triển để miêu
tả được sự phân loại của các đặc trưng, để nhận dạng được các nhãn, hình dạng
bề mặt của trái đất và luồng di chuyển của tài nguyên hoặc hàng hóa
Hệ thống GIS dùng các dữ liệu đồ thị để tạo ra một bản đồ hay hình ảnh bản đồ trên màn hình hoặc trên giấy thông qua thiết bị ngoại vi Có 6 loại thông tin dùng để thể hiện hình ảnh bản đồ và ghi chú của nó trong hệ thống thông tin địa lý như sau:
Trang 15Dữ liệu bản đồ có thể lưu trữ ở dạng Vector hoặc dạng Raster Dữ liệu dạng Vector là các điểm tọa độ (X, Y) hoặc là các quy luật tính toán toạ độ và nối chúng thành các đối tượng trong một hệ thống tọa độ nhất định Dữ liệu Raster (ảnh đối tượng) là dữ liệu được tạo thành bởi các ô lưới có độ phân giải xác định Loại dữ liệu này chỉ dùng cho mục đích diễn tả và minh hoạ chi tiết bằng hình ảnh thêm cho các đối tượng quản lý của hệ thống
Để phản ánh toàn bộ các thông tin cần thiết của bản đồ dưới dạng đối tượng số, các đối tượng địa lý còn được phản ánh theo cấu trúc phân mảnh và phân lớp thông tin
a) Cấu trúc phân mảnh
Một đối tượng địa lý về mặt không gian có thể liên tục trên một phạm vi rộng Tuy nhiên trong cơ sở dữ liệu GIS, do hạn chế về các lý do kỹ thuật như khả năng lưu trữ, xử lý, quản lý dữ liệu mà các đối tượng địa lý lưu trữ dưới dạng cách mảnh (mapsheet, tile) Tuy nhiên khái niệm chia mảnh trong cơ sở dữ liệu GIS không hoàn toàn đồng nhất với khái niệm chia mảnh bản đồ thông thường Một mảnh (tile) trong cơ sở dữ liệu GIS có thể có hình dạng bất kỳ miễn sau cho phù hợp với khả năng quản lý và xử lý của hệ thống Theo xu hướng hiện nay, các hệ thống GIS đã cung cấp những công cụ cho phép người sử dụng
tự động quản lý các mảnh trong cơ sở dữ liệu
b) Cấu trúc phân lớp thông tin
Một trong những bước quan trọng xây dựng cơ sở dữ liệu GIS là phân loại các lớp thông tin (layer, class) Hệ thống GIS lưu trữ các đối tượng địa lý theo các lớp thông tin như hình 1.3 Mỗi lớp thông tin lưu trữ một loạt các đối tượng
có chung một tính chất, đặc điểm giống nhau Thiết kế các lớp thông tin rất quan trọng đối với bất kỳ một hệ thống GIS nào Cách phân lớp thông tin sẽ ảnh hưởng rất lớn đến tính hiệu quả, khả năng xử lý và sử dụng lâu dài của cơ sở dữ liệu không gian
Hình 1.3 Sự thể hiện quang cảnh sự vật dưới các lớp bản đồ khác nhau
Trang 16Dữ liệu bản đồ giúp chúng ta xác định được vị trí địa lý, hình dạng trong không gian của đối tượng Thêm vào đó, dữ liệu thuộc tính giúp chúng ta mô tả
về đặc tính, đặc điểm và các thông tin liên quan tại đối tượng địa lý xác định mà chúng khó hoặc không thể biểu thị toàn bộ trên bản đồ
1.1.3.2 Dữ liệu thuộc tính
Là những thông tin mô tả về đặc tính, đặc điểm và các thông tin liên quan khác gắn liền với đối tượng địa lý xác định Các thông tin của dữ liệu thuộc tính bao gồm:
- Ðặc tính của đối tượng: liên kết chặt chẽ với các thông tin đồ họa, các dữ liệu này được xử lý và phân tích theo ngôn ngữ truy vấn cấu trúc (SQL) Chúng được liên kết với các hình ảnh đồ họa thông qua các chỉ số xác định chung, thông thường gọi là mã địa lí
- Dữ liệu tham khảo địa lý: Mô tả các sự kiện hoặc hiện tượng xảy ra tại một vị trí xác định Không giống các thông tin đặc tính, chúng không mô tả về bản thân các hình ảnh bản đồ, thay vào đó chúng mô tả các danh mục hoặc các hoạt động như cho phép xây dựng các khu công nghiệp mới, nghiên cứu y tế, báo cáo hiểm họa môi trường liên quan đến các vị trí địa lí xác định
- Chỉ số địa lý: là các chỉ số về tên, địa chỉ, khối, phương hướng định vị, liên quan đến các đối tượng địa lí, được lưu trữ trong Hệ thống thông tin địa lí
để lựa chọn, liên kết và tra cứu dữ liệu Một chỉ số địa lý có thể bao gồm nhiều
bộ xác định cho các thực thể sử dụng từ các cơ quan khác nhau như là lập danh sách các mã địa lý mà chúng xác định mối quan hệ không gian giữa các vị trí hoặc giữa các hình ảnh hay thực thể địa lý
1.1.3.3 Mối quan hệ giữa dữ liệu bản đồ và dữ liệu thuộc tính
Hệ thống GIS sử dụng phương pháp chung để liên kết hai loại dữ liệu đó thông qua bộ xác định, lưu trữ đồng thời trong các thành phần đồ thị và phi đồ thị Các bộ xác định có thể đơn giản là một số duy nhất liên tục, ngẫu nhiên hoặc
là các chỉ báo địa lí hay dữ liệu vị trí lưu trữ Bộ xác định cho một thực thể có thể chứa tọa độ phân bố của nó, số hiệu mảnh bản đồ, mô tả khu vực hoặc là một con trỏ đến vị trí lưu trữ của dữ liệu liên quan
1.1.4 Các chức năng của GIS
Trong các cơ sở dữ liệu thông thường, phần phân tích dữ liệu thường được ghép chung vào phần hỏi đáp, tra cứu Trong hệ GIS, phần phân tích dữ liệu có một chức năng riêng và thường là rất mạnh, rất đặc trưng Cơ sở toán học cho chức năng này là đại số bản đồ Chính ở điều này làm cho các hệ GIS khác
Trang 17với các hệ thống khác và đây cũng là một tiêu chuẩn đặc trưng để đánh giá về khả năng của một hệ GIS
Các phép xử lý, phân tích của chức năng này dành riêng cho dữ liệu không gian Ngoài ra, GIS còn có khả năng phân tích không chỉ với dữ liệu không gian mà còn phân tích cả hai loại dữ liệu không gian và phi không gian trong mối liên hệ thống nhất với nhau Các chức năng cơ bản của GIS là[1,6,14]:
- Chuyển đổi hệ toạ độ, phép chiếu, nắn chỉnh bản đồ
- Thực hiện các phép toán số học, logic, hình học, đại số
- Chồng xếp, làm sạch, làm trơn, tách hoặc hợp các lớp thông tin không gian
và phi không gian
- Phân loại các lớp thông tin trên bản đồ
- Nội suy bề mặt cho điểm, đường, tạo bề mặt địa hình từ các đường đồng mức, tạo ảnh phối cảnh ba chiều, tính toán độ dốc
- Tính toán thống kê khoảng cách, mô hình hoá và kết hợp với các hệ chuyên gia
- Xác định chọn lọc vùng theo một tiêu chuẩn bất kỳ
1.1.5 Các đặc điểm của GIS[1]
Hệ thống thông tin địa lý trước hết là một hệ thống thông tin cũng như các
hệ thống thông tin khác, ví dụ như thương mại, pháp luật, ngân hàng, Các hệ thống thông tin nói chung đều bao gồm các phần:
- Hệ thống thiết bị phần cứng bao gồm máy tính hoặc hệ mạng máy tính, các thiết bị đầu vào, các thiết bị đầu ra
- Hệ thống phần mềm bao gồm phần mềm hệ thống, phần mềm quản trị, phần mềm ứng dụng
- Hệ thống thông tin đầu vào và hệ thống cập nhật thông tin
- Hệ thống CSDL bao gồm các loại dữ kiện cần thiết
- Hệ thống hiển thị thông tin và giao diện với người sử dụng
Sự khác nhau giữa hệ thống thông tin địa lý với các hệ thống thông tin khác chỉ ở hai điểm sau:
- CSDL bao gồm các dữ liệu địa lý và các dữ liệu thuộc tính (các dữ liệu chữ, số, dữ liệu multimedial, ) và mối quan hệ giữa hai loại dữ liệu này
- Hệ thống thông tin đầu vào và hệ thống hiển thị thông tin đòi hỏi những đặc thù riêng về độ chính xác
1.1.6 Ứng dụng của GIS[1]
Ngày nay, trên thế giới hệ thông tin địa lý đã trở nên không thể thiếu được trong các ứng dụng kinh doanh, quản trị, nghiên cứu… Nhiều cơ quan chính
Trang 18phủ, các công ty đã đầu tư rất nhiều tiền, công sức để xây dựng hệ thông tin địa
lý cho riêng mình và thực tế cho thấy kết quả thu được hoàn toàn tương xứng chi phí bỏ ra
Ở nước ta trong những năm gần đây đã và đang có nhiều tổ chức, cơ quan
và nhiều người đã bắt đầu quan tâm nghiên cứu các ứng dụng của hệ thông tin địa lý, đặc biệt là nhiều cơ quan Nhà nước đã bắt đầu xây dựng hệ thông tin địa
lý trong công tác quản lý như quản lý đất đai, quản lý đô thị, quản lý giao thông, quản lý hệ thống thoát nước, quy hoạch đường nông thôn, quản lý và sử dụng hợp lý tài nguyên thiên nhiên
Nhìn chung, hệ thống thông tin địa lý được xây dựng để phục vụ cho nhiều mục tiêu khác nhau, đặc biệt là trợ giúp cho lao động trí óc của con người Cùng một cơ sở dữ liệu nhưng nhiều đối tượng khác nhau khai thác, mỗi đối tượng sẽ khai thác theo khía cạnh riêng của mình
1.1.7 WebGIS[6,14]
WebGIS hay công nghệ GIS trên nền Web là hệ thống thông tin địa lý phân tán trên một mạng các máy tính để tích hợp, trao đổi các thông tin địa lý trên mạng Internet
Trong cách thực hiện việc phân tích GIS, dịch vụ này giống như kiến trúc Client-Server của Web Xử lý thông tin địa lý được chia thành các nhiệm vụ ở phía Server và phía Client Điều này cho phép người dùng có thể truy xuất, thao tác và nhận kết quả từ việc khai thác dữ liệu GIS từ trình duyệt web của họ một cách đơn giản không cần sự hỗ trợ của phần mềm GIS tại máy người sử dụng
1.2 Trực quan hóa dữ liệu
1.2.1 Tổng quan
1.2.1.1 Trực quan hóa[19,21]
Trực quan hóa (Visualization hoặc visualisation) là kỹ thuật tạo ra
những hình ảnh, biểu đồ để diễn tả thông điệp Trực quan hóa nghiên cứu trình bày một cách trực quan, tương tác khối dữ liệu trừu tượng để tăng cường nhận thức của con người
Trực quan hóa thông qua những hình tượng trực quan đã diễn tả những ý tưởng trừu tượng và cụ thể từ thủa sơ khai của loài người Những ví dụ trong lịch sử như những hình vẽ trong hang động, chữ tượng hình Ai Cập, hình học Hi Lạp và những phương pháp mang tính cách mạng của những bản vẽ kỹ thuật dành cho mục tiêu khoa học và công nghệ của Leonardo da Vinci
Ngày nay, trực quan hóa đã mở rộng ứng dụng trong các ngành khoa học, đào tạo, công nghệ, môi trường tương tác, dược, điển hình của ứng dụng trực
Trang 19quan hóa là sử dụng đồ họa máy tính Việc phát minh ra đồ họa máy tính có thể
là sự phát triển quan trọng nhất của trực quan hóa kể từ khi phát minh ra cách phối cảnh trung tâm từ thời kỳ Phục Hưng Và sự phát triển của animation cũng giúp gia tăng khả năng của trực quan hóa
Việc sử dụng trực quan hóa để biểu diễn dữ liệu không phải là hiện tượng mới Nó đã được sử dụng trong bản đồ, bản vẽ khoa học, những sơ đồ dữ liệu từ hàng ngàn năm trước Đồ họa máy tính ngay từ khi ra đời đã được sử dụng để nghiên cứu các vấn đề khoa học Tuy nhiên, trong những ngày đầu sự thiếu năng lực đồ họa đã hạn chế lợi ích của chúng có thể mang lại
Tầm quan trọng của trực quan hóa như hiện nay bắt đầu từ năm 1987 khi xuất bản cuốn “Visualization in Scientific Computing, a special issue of Computer Graphics” Từ đó đã có vài hội nghị, hội thảo đã được bảo trợ bởi IEE Computer Society và ACM SIGGRAPH dành cho những chủ đề thông thường
và những lĩnh vực đặc biết như trực quan hóa khối lượng
Trực quan hóa khoa học thường được thực hiện bởi những phần mềm chuyên biệt Một số phần mềm chuyên biệt đó được phát hành dưới dạng mã mở
và thường là bắt nguồn từ các trường đại học, trong môi trường học thuật thì việc chia sẻ công cụ phần mềm và cho phép sử dụng mã nguồn mở là bình thường Bên cạnh đó, có nhiều phần mềm bản quyền trực quan hóa khoa học được phát triển và cung cấp Một ví dụ của trực quan hóa khoa học tại hình 1.4
Hình 1.4 Trực quan hóa khoa học mô phỏng sự bất ổn định Raleigh-Taylor bởi
sự hòa trộn giữa 2 chất lưu
Trực quan hóa được phân thành nhiều nhánh phát triển, một số loại tiêu biểu được giới thiệu dưới đây:
+ Trực quan hóa khoa học (Scientific visualization)
+ Trực quan hóa thông tin (Information visualization)
+ Trực quan hóa giáo dục (Educational visualization)
+ Trực quan hóa tri thức (Knowledge visualization)
Trang 20+ Trực quan hóa sản phẩm (Product visualization)
+ Truyền thông trực quan (Visual communication)
+ Phân tích trực quan (Visual analytics)
Trọng tâm của nó là sự trình bày thông tin trong không gian thông tin lớn
và thay đổi liên tục Nghiên cứu phân tích trực quan tinh lọc những sự vận hành thực tế và tri giác khiến cho người dùng xác định được những kết quả định trước
và khám phá những kết quả không định trước không gian thông tin phức tạp
1.2.1.2 Trực quan hóa thông tin (Information visualization) [20]
Trong thời đại thông tin chúng ta thường cảm thấy dường như đang bị quá tải thông tin Lượng thông tin phát triển nhanh chóng cần phải được làm giảm bớt; dữ liệu thô sẽ trở lên có ích khi chúng ta biết cách sử dụng các phương pháp khai thác chính xác chúng Thật may mắn là con người chúng ta là một tạo vật
có khả năng trực quan tốt Một số trong chúng ta có thể phát hiện được các mô hình từ những dòng số liệu, thậm chí một đứa trẻ nhỏ cũng có thể hiểu những được biểu đồ cột như sự biểu diễn trực quan số liệu Do đó, trực quan hóa thông tin có khả năng ứng dụng lớn
Trực quan hóa thông tin là cách nhanh nhất để thông tin cho người khác Như từ ngữ thể hiện thì trực quan hóa có thể sử dụng để nói dối, xuyên tạc, làm hiểu sai sự thực Tuy nhiên, khi thực hiện một cách cẩn thận và trung thực thì quá trình trực quan hóa có thể giúp chúng ta có những cái nhìn mới, những mô hình sáng tỏ một cách bất ngờ và những phương hướng mới về những thông tin còn tiềm ẩn xung quanh thế giới
Trực quan hóa thông tin là một chuyên gia kể chuyện Hay nói văn hoa hơn, trực quan hóa là quá trình ánh xạ thông tin tới thị giác Nguyên tắc thủ công
là khai thác dữ liệu và biểu diễn các giá trị của nó một cách trực quan Ví dụ như một biểu đồ đơn giản được sinh ra từ quy luật đơn giản như sau: Giá trị lớn hơn tương ứng với những cột cao hơn
Lĩnh vực nổi bật của trực quan hóa thông tin là nghiên cứu tương tác người – máy, khoa học máy tính, đồ họa, thiết kế trực quan, tâm lý học và những nghiên cứu nghiệp vụ Chúng được ứng dụng gần như đến giới hạn trong các lĩnh vực: nghiên cứu khoa học, thư viện số, khai phá dữ liệu, phân tích số liệu tài chính, nghiên cứu thị trường, quản lý sản phẩm trong sản xuất
và nghiên cứu y tế
1.2.1.3 Trực quan hóa dữ liệu (Data visualization) [3,5,9,22]
Trực quan hóa dữ liệu là một phân nhánh của trực quan hóa với những thống kê được trình bày bằng đồ họa gắn liền với các thông tin địa lý hoặc dữ
Trang 21liệu không gian (như những bản đồ chuyên đề) được phân tán trong các dạng biểu đồ
Trực quan hóa dữ liệu được quan niệm bởi nhiều ngành lý thuyết tương đương như một mô hình hiện đại của truyền thông trực quan Nó không thuộc riêng một lĩnh vực nào mà là sự giao thoa của nhiều ngành Một số người quan niệm nó như một nhánh hiện đại của thống kê mô tả, một số khác coi nó là công
cụ phát triển lý thuyết nền Nó bao gồm sự sáng tạo và nghiên cứu phương thức trình diễn trực quan dữ liệu
Mục tiêu chính của trực quan hóa dữ liệu là truyền thông tin rõ ràng và hiệu quả cho người sử dụng thông qua đồ họa được lựa chọn như bảng biểu hoặc biểu đồ Một trực quan hóa hiệu quả giúp cho người dùng đưa ra các phân tích
và luận điểm về dữ liệu và luận cứ Nó khiến dữ liệu phức tạp trở thành dễ hiểu
và dễ sử dụng hơn Người sử dụng có thể có những động tác phân tích đặc biệt như tạo phép so sánh, nhân quả và áp dụng thiết kế đồ họa (để hiển thị so sánh, nhân quả…) Bảng biểu thường được dùng khi xem xét phép đo lường của một biến và các loại biểu đồ sẽ hiển thị kết quả hoặc liên hệ với dữ liệu của một hay nhiều biến
Trực quan hóa dữ liệu có cả tính khoa học và nghệ thuật Tốc độ dữ liệu sinh ra ngày càng lớn cùng với sự gia tăng của nền kinh tế phụ thuộc vào thông tin Dữ liệu được tạo bởi hoạt động internet và sự tăng khối lượng cảm biến môi trường như dữ liệu vệ tinh hay camera giao thông sẽ dẫn đến tình trạng “Big Data” Gia công, phân tích và liên kết dữ liệu hiện có ở nhiều định dạng khác nhau là thách thức lớn cho trực quan hóa dữ liệu
a) Tổng quan
Hình 1.5 Mô hình phân tích và trình diễn dữ liệu
Trực quan hóa dữ liệu hướng đến những công nghệ sử dụng để truyền tải
dữ liệu hoặc thông tin bằng cách chuyển đổi chúng thành các đối tượng trực
Trang 22quan được trình bày bằng đồ họa Mục đích chính là làm cho thông tin rõ ràng
và hiệu quả khi sử dụng Nó là một trong các bước trong phân tích dữ liệu hoặc khoa học dữ liệu Theo Friedman (2008) thì “Mục tiêu chính của trực quan hóa
dữ liệu để làm thông tin rõ ràng và hiệu quả thông qua phương tiện đồ họa Nó không có nghĩa trực quan hóa dữ liệu cần phải trông thật tẻ nhạt vì mục đích hiệu quả hay là trông thật phức tạp vì mục đích làm đẹp Để truyền tải tính hiệu quả thì thẩm mỹ và chức năng phải đi cùng nhau, cung cấp cái nhìn vào bên trong khối dữ liệu phức tạp và rải rác bằng cách liên kết các khía cạnh chính của
nó bằng cách trực quan hơn Do đó, người thiết kế thường thất bại khi cố gắng đạt sự cân bằng giữa hình thức và chức năng, tạo nên sản phẩm đẹp tuyệt vời nhưng lại không chứa đựng được mục tiêu chính của nó là truyền tải thông tin”
Bởi vậy, Fernanda Viegas và Martin M Wattenberg đã đề xuất một ý tưởng trực quan hóa không chỉ là truyền tải thông tin rõ ràng mà còn khiến cho người xem chú ý và chờ đợi
Trực quan hóa dữ liệu liên hệ gần với trình bày dữ liệu bằng đồ họa, trực quan hóa thông tin, trực quan hóa khoa học, phân tích khảo sát dữ liệu và thống
kê đồ họa Trong thiên niên kỷ mới, trực quan hóa dữ liệu đa trở thành một lĩnh vực năng động trong nghiên cứu, giảng dạy và phát triển Trực quan hóa dữ liệu
đã liên kết trực quan hóa khoa học và trực quan hóa thông tin
b) Những đặc điểm để hiển thị hiệu quả bằng đồ họa
Người sử dụng hiển thị dữ liệu thực thi những công tác phân tích cụ thể như tạo sự so sánh hay xác định nguyên nhân sự việc Nguyên tắc thiết kế của hiển thị dữ liệu bằng đồ họa là cần phải hỗ trợ được các công tác phân tích đó
Nó tuân theo nguyên tắc sau: Một thống kê trình bày bằng đồ họa xuất sắc bao gồm rất nhiều ý tưởng phức tạp để truyền tải một cách đúng đắn, chính xác và hiệu quả Hiển thị bằng đồ họa cần phải:
- Hiển thị được dữ liệu
- Hiển thị thực chất ý nghĩa của dữ liệu hơn là phương pháp, thiết kế hay công nghệ xây dựng đồ họa
- Tránh bóp méo ý nghĩa của dữ liệu
- Hiển thị nhiều chữ số trong không gian nhỏ
- Tạo sự liên kết trong khối dữ liệu lớn
- Khuyến khích thị giác có thể so sánh giữa các phần dữ liệu
- Bộc lộ dữ liệu ở nhiều cấp, từ tổng quan tới chi tiết
- Phục vụ cho mục đích rõ ràng: Mô tả, khảo sát, sắp xếp dữ liệu hoặc biểu diễn, trang trí
- Kết hợp chặt chẽ giữa thống kê với diễn tả bằng lời về khối dữ liệu
Trang 231.2.2 Kiến trúc và mô hình trực quan hóa dữ liệu
1.2.2.1 Mô hình khái niệm[5,8]
Mặc dụ trực quan hóa đã thay đổi nhanh chóng trong những thế kỷ gần đây, những công cụ và hệ thống hỗ trợ cho nó được phát triển đặc trưng hơn là được thiết kế chính thức Thêm vào đó, có 2 phương hướng trực quan hóa song hành nhau Thứ 1 là do sự tăng trưởng dữ liệu kèm theo sự giảm giá của thiết bị phần cứng hỗ trợ; Khi đó trực quan hóa thể hiện ở dạng quan trọng hơn trước kia đặc biệt là trong các lĩnh vực ứng dụng Tuy nhiên, công nghệ hỗ trợ thường không áp dụng được cho nhiều ứng dụng Xu hướng thứ 2 xuất phát từ sự dư thừa trong dữ liệu Một cách tiếp cận không định trước tiêu biểu không định trước được độ lớn và phức tạp của vấn đề Thay vì yêu cầu tính toán, sự truy cập
dự liệu là trở ngại thông thường Bước đầu tiên để phân tích trực quan hóa thành các tập chuyển đổi có thể làm nổi bật những giới hạn được xác định bằng mô hình khái niệm và phép phân loại phát triển
Hình 1.6 thể hiện phân tích thông thường của mô hình trực quan hóa thành tập các mô hình cơ sở
- Mô hình dữ liệu: Biểu diễn sự hiển thị dữ liệu
- Mô hình người dùng: biểu diễn yêu cầu mà người dùng cần đáp ứng
- Mô hình tương tác: Biểu diễn sự tương tác giữa người dùng và hệ thống trực quan hóa
- Mô hình tính toán: Biểu diễn công thức tính toán
- Mô hình truyền thông: Biểu diễn sự tương tác giữa các thành phần trong
Trang 24Hình 1.6 Mô hình khái niệm của trực quan hóa
2.1 Các mô hình dữ liệu
Mô hình dữ liệu là sự biểu diễn của dữ liệu, nó mô tả dữ liệu (như: kiểu
dữ liệu, …) và cách sử dụng dữ liệu (như giao diện lập trình ứng dụng…) Như tại hình 1.7 thể hiện mô hình dữ liệu là lớp biểu diễn logic và nằm ở giữa lớp biểu diễn vật lý và biểu diễn trực quan
Hình 1.7 Vai trò của mô hình dữ liệu trong phần mềm trực quan hóa
Trong trường hợp đặc biệt, lớp này cung cấp công cụ thông thường cho tất
cả ứng dụng cho định dạng dữ liệu, cung cấp siêu dữ liệu tạo công thức, thực thi Lớp này cung cấp khả năng tính toán, phân tích và công cụ trực quan hóa, cung cấp hạ tầng để truy cập và biểu diễn dữ liệu Giống như một hệ thống quản
lý dựa trên dữ liệu, nó sẽ ở bên trên hệ điều hành và cho phép xây dựng các ứng dụng Từ đó, mô hình dữ liệu sẽ ẩn đằng sau hệ thống tính toán ở bên dưới để
mô phỏng, phân tích và trực quan hóa để người dùng tập trung vào nhận thức
dữ liệu thông qua các cơ chế thông thường để truy cập, sử dụng và trao đổi
1.2.2.2 Mô hình tham khảo trực quan hóa thông tin
Mô hình tham khảo trực quan hóa thông tin là một kiến trúc phần mềm mẫu triển khai quy trình trực quan hóa thành chuỗi các bước riêng rẽ, từ thu
Trang 25nhận dữ liệu và mô hình hóa đến mã hóa trực quan dữ liệu thành sự biểu diễn các hiển thị tương tác Quá trình này được minh họa ở hình 1.8
Hình 1.8 Sơ đồ mô tả mô hình tham khảo trực quan hóa thông tin
Dữ liệu nguồn được ánh xạ đến các bảng dữ liệu phục vụ trực quan hóa Những bảng dữ liệu này sau đó được sử dụng để xây dựng trừu tượng trực quan của dữ liệu, mô hình hóa các tính chất trực quan như vị trí, màu sắc, hình dáng,…Trừu tượng trực quan này sau đó được dùng để tạo những hướng nhìn tương tác với dữ liệu, với người sử dụng sự tương tác có khả năng thay đổi hiệu quả tại tất cả các mức của hệ thống
- Bước đầu tiên là tập hợp dữ liệu nguồn để tiến hành trực quan Chúng có thể là bảng các hình, các đồ họa mạng xã hội, cấu trúc file hoặc bất kỳ tập dữ liệu nào đó
- Dữ liệu nguồn này sau đó được dùng để xây dựng các bảng dữ liệu, đó là những đặc trưng bên trong của dữ liệu khi nó được trực quan Tiến trình chuyển đổi từ dữ liệu nguồn sang bảng dữ liệu có thể chỉ tập trung vào đọc dữ liệu ở file hoặc cơ sở dữ liệu nhưng cũng có thể bao gồm cả chuyển đổi dữ liệu
- Những bảng kết quả (có thể biểu diễn cấu trúc dữ liệu theo hệ thống như biểu đồ hoặc cây) sau đó được ánh xạ trực quan để tạo ra trừu tượng trực quan là một mô hình dữ liệu bao gồm các đặc trưng trực quan như các lớp không gian, màu sắc, kích thước, hình thể Những trừu tượng trực quan này có nhiệm vụ chứa đầy đủ thông tin cần thiết để biểu diễn trực quan dữ liệu
- Hành động biểu diễn dữ liệu trong trừu tượng trực quan được thực hiện thông qua tiến trình chuyển đổi quang cảnh, trong đó các thành phần biểu diễn
sẽ vẽ ra nội dung của trừu tượng trực quan thành các quang cảnh tương tác Những quang cảnh này có thể cung cấp những cách nhìn khác nhau của dữ liệu,
ví dụ như cung cấp cách di chuyển và zoom đến khu vực đặc biệt bằng cách sử dụng chuỗi các hiển thị nhỏ và phức tạp để hiển thị các hình ảnh nhanh của dữ liệu thay đổi liên tục
Trang 26- Người sử dụng tương tác với trực quan hóa (thường thông qua đầu vào
là chuột và bàn phím) có thể phản hồi vào tiến trình này, gây ra sự thay đổi hoặc cập nhật bất cứ trạng thái nào của trực quan hóa Ví dụ như kéo một đối tượng, phóng đến một quang cảnh hoặc mở một file dữ liệu khác
Mô hình tham khảo trình bày ở trên khá giống với mẫu mô hình - hiển thị
- điều khiển (model-view-controller) thiết kế để thực thi giao diện người sử
dụng Mẫu này phân chia thành phần giao diện người sử dụng thành:
- Một mô hình chứa những dữ liệu trả về
- Một hoặc nhiều hướng nhìn thể hiện nội dung của mô hình
- Bộ phận điều khiển cho phép người sử dụng bổ sung, cập nhập mô hình
và hướng nhìn theo đáp ứng
Mô hình trực quan hóa tham chiếu này mở rộng mẫu thông thường bằng cách thêm vào các mức Những bảng dữ liệu chứa những mô hình dữ liệu cơ bản cho rất nhiều loại trực quan hóa mà mỗi sự trừu tượng trực quan chứa một mô hình trực quan riêng với hướng nhìn và điều khiển của chính nó
1.2.3 Thiết kế trực quan hóa dữ liệu[8,9,10]
Trực quan hóa dữ liệu dẫn đến việc trình bày một cách trực quan dữ liệu được lựa chọn sẽ có những yêu cầu cơ bản bao gồm:
- Thuật toán vẽ (có thể cho phép người dùng điểu chỉnh nhưng thường là được sinh ra bởi các phương thức của máy tính)
- Dễ dàng sinh ra với dữ liệu khác nhau (cùng định dạng thì có thể sử dụng lại để biểu diễn những tập dữ liệu khác nhau với tính chất cà số chiều tương tự)
- Có tính thẩm mỹ
- Dữ liệu được làm giàu tương đối
Trực quan hóa dữ liệu ban đầu được thiết kế bởi con người nhưng sau đó được vẽ theo thuật toán với các phần mềm vẽ đồ họa, đồ thị, sơ đồ Điểm lợi của phương pháp này là các mối quan hệ để dễ dàng cập nhật hoặc sinh ra trực quan với dữ liệu mới có cùng cấu trúc
1.2.3.1 Bộ ba Designer-Reader-Data
Có thể hiểu trực quan hóa dữ liệu được hỗ trợ bởi một bộ 3 giống như chiếc ghế 3 chân gồm người thiết kế, người xem và dữ liệu Mỗi bộ phận tác động dựa trên vai trò của mình để tạo nên một trực quan hóa ổn định, hiệu quả
Mỗi chân của chiếc ghế có mối liên hệ với 2 chiếc còn lại Khi tính toán, đánh giá được mức độ quan trọng của các mối quan hệ sẽ dẫn đến xác định được dạng trực quan hóa cần sử dụng như thể hiện ở hình 1.10
Trang 27Hình 1.9 Bản chất của trực quan hóa dựa vào đánh giá mối quan hệ giữa 3
thành phần
a, Người thiết kế
Người thiết kế biết được mục tiêu cần đạt được của trực quan hóa và tạo
ra trực quan hóa vì những lý do đó Có ý thức về động cơ, mục đích và sự ưu tiên sẽ giúp người thiết kế tạo ra trực quan hóa thành công hơn là tạo một sự biểu diễn trực quan dữ liệu đơn thuần
b, Người xem
Điểm ảnh hưởng thứ 2 là người xem Sự mong đợi tiếp thu của người xem đóng vai trò đặc biệt trong bộ 3 này, nó có thể là trợ thủ lớn nhất hay trở ngại lớn nhất hoặc cả 2 trong quá trình thực hiện mục tiêu truyền thông điệp một cách
Cách ta chọn dạng thức trực quan hóa thể hiện khía cạnh tốt nhất của dữ liệu là phải có hiểu biết về dữ liệu, tôn trọng dữ liệu Thay vì cố gắng chuyển về định dạng phù hợp thì hãy cân nhắc đến giá trị vốn có, quan hệ và cấu trúc của
dữ liệu Những câu hỏi điển hình bao gồm:
- Hệ thống là gì? (time-series, hierarchy, …)
Trang 28- Có bao nhiêu chiều cần thể hiện? Những chiều nào là quan trọng nhất?
- Kiểu liên kết là gì?
- Các biến hoạt động thế nào?
- Giá trị có thể phân đoạn? Liên tục hay không liên tục? Có tuyến tính hay không? Giới hạn như thế nào?
- Có bao nhiêu phân đoạn cần thể hiện?
Sự hiểu biết về hình dạng của dữ liệu sẽ dẫn đến quyết định thiết kế chính xác Mỗi quan hệ liên quan và tính chất của dữ liệu cần được giải mã với một tính chất trực quan phù hợp; Đặc điểm của mỗi chiều dữ liệu dẫn đến một cách giải mã tính chất trực quan phù hợp
1.2.3.2 Quá trình trực quan hóa dữ liệu
Quá trình tạo trực quan hóa dữ liệu bao gồm 4 bước chính sau:
- Xác định yêu cầu:
Bước đầu tiên là xác định yêu cầu cần giải quyết Nó có thể là bất cứ thứ gì
có thể rất rộng và sâu về chuyên môn như thể hiện tại sao những báo cáo lỗi trả về không có xu hướng giảm xuống, hoặc là thể hiện khoảng thời gian ước tính phù hợp cho một sản phẩm bất kỳ trong dây chuyền sản xuất Ví dụ như: Thể hiện số lượng chú ý đến nội dung “trực quan hóa dữ liệu” được trình bày bởi số lượng bài báo đăng trên tạp chí chuyên ngành công nghệ thông tin theo thời gian
- Phân tích dữ liệu
Có dữ liệu rồi thì cần phải phân tích để hiểu ý nghĩa của nó Do đó, phân tích là bước chủ yếu nhất trong tạo trực quan hóa dữ liệu Chỉ có thông qua phân tích dữ liệu mới hiểu được dữ liệu, từ đó truyền đạt thông tin của dữ liệu cho người khác
- Trực quan hóa dữ liệu
Chúng ta đã phân tích và hiểu dữ liệu (theo phân tích chi tiết) và hiểu thông tin cần truyền đạt cho người khác Và trực quan hóa dữ liệu là thực hiện việc truyền đạt thông tin đó
Trang 291.2.3.3 Các trạng thái của dữ liệu trong quá trình trực quan hóa dữ liệu
Cần phải làm những trường phù hợp như một phần của tiến trình đơn lẻ Người thiết kế đồ họa có thể học kỹ thuật máy tính cần thiết để trực quan hóa và người thực hiện thống kê có thể liên kết đến dữ liệu hiệu quả hơn do hiểu được những điểm trực quan chính của dữ liệu bên cạnh dữ liệu được trình bày
Tiến trình hiểu dữ liệu bắt đầu với tập số liệu và câu hỏi Các bước sau đây là thủ tục dẫn đến câu trả lời:
- Thu thập: Thu thập dữ liệu từ file ở ổ đĩa hoặc từ nguồn dữ liệu trên mạng
- Phân tích cú pháp: Cung cấp một số cấu trúc để hiểu ý nghĩa dữ liệu và xếp loại
- Lọc: Bỏ những dữ liệu không cần thiết
- Khai phá: Sử dụng các phương thức trong thống kê và khai phá dữ liệu như một cách để nhận thức mẫu hoặc đặt dữ liệu theo ngữ cảnh chính xác
- Biểu diễn: Chọn một mô hình trực quan cơ sở như đồ thị, danh sách hoặc cây để biểu diễn dữ liệu
- Cải tiến: Cải tiến sự biểu diễn cơ sở để làm nó rõ ràng và trực quan hơn
- Tương tác: Bổ sung các phương thức để điều chỉnh dữ liệu hoặc điều khiển những đặc điểm, nội dung cho phép hiển thị
Tất nhiên những bước trên không bắt buộc phải theo một cách cứng nhắc Trong quá trình thực hiện có thể bỏ qua một số bước tùy theo tính chất, độ phức tạp của dữ liệu hoặc yêu cầu trực quan hóa
1.3 Trực quan hóa dữ liệu theo địa lý (Geovisualization) [15,23,24]
1.3.1 Giới thiệu
Trực quan hóa theo địa lý hướng đến một tập hợp các công cụ và kỹ thuật
hỗ trợ phân tích dữ liệu theo địa lý thông qua sử dụng trực quan hóa tương tác Như là sự kết hợp giữa trực quan hóa khoa học và trực quan hóa thông tin, trực quan hóa theo địa lý nhấn mạnh khả năng tạo ra kiến thức từ những dữ liệu được lưu trữ hoặc thông tin được truyền tải Để làm được điều đó, trực quan hóa theo địa lý truyền tải thông tin theo địa lý bằng cách kết hợp sự hiểu biết của con người, cho phép khai thác dữ liệu và tạo quyết định
Theo truyền thống, bản đồ tính có khả năng khai thác giới hạn, sự diễn tả
đồ họa gắn bó chặt chẽ với thông tin địa lý như ở dưới đây GIS và trực quan hóa theo địa lý cho phép bản đồ có tính tương tác cao hơn; bao gồm khả năng khảo sát các lớp khác nhau của bản đồ, phóng to – thu nhỏ bản đồ, thay đổi biểu diễn trực quan của bản đồ Trực quan hóa theo địa lý thể hiện một tập các công nghệ và thực thi bản đồ, kết hợp với sự phát triển khả năng xử lý đồ họa của
Trang 30máy tính để đưa ra sự thay đổi bản đồ trong thời gian thực, cho phép người dùng thay đổi dữ liệu được ánh xạ ngay lập tức
1.3.2 Ứng dụng thực tế của trực quan hóa dữ liệu theo địa lý
Trực quan hóa theo địa lý đã xâm nhập nhiều lĩnh vực khác nhau do khả năng hỗ trợ ra quyết định và xử lý tạo kiến thức mới của nó Những lĩnh vực nổi bật ứng dụng trực quan hóa theo địa lý bao gồm: Cứu hỏa tại những vùng hoang
dã, quản lý rừng, khảo cổ học, nghiên cứu môi trường, quy hoạch đô thị,…
1.3.3 Một số loại bản đồ trực quan hóa dữ liệu theo địa lý
Sử dụng bản đồ có lẽ là lĩnh vực lớn nhất trong trực quan hóa dữ liệu Có nhiều biến thể trong sử dụng bản đồ trong trực quan hóa dữ liệu, mỗi cái có một thế mạnh riêng Mỗi biến thể này có thể bao gồm cả những biến thể khác và có thể tiến xa hơn như tạo thành một loại bản đồ mới Dưới đây giới thiệu một số dạng bản đồ trực quan hóa thông thường
Choropleth là một trong số loại bản đồ thường sử dụng trong trực quan
hóa dữ liệu theo địa lý Giống như tên gọi thì màu sắc là thành phần quan trọng của loại bản đồ này Màu sắc được gán cho các giá trị dữ liệu khác nhau và giá trị cho mỗi vùng được sử dụng để tô màu cho vùng đó Phương pháp này khá dễ hiểu nhưng lại có vài vấn đề về đồ họa khi khó phân biệt màu sắc đối với những giá trị lân cận nhau
Hình 1.10 Bản đồ Choropleth
Trang 31Cartogram là một phương pháp làm giảm nhẹ vấn đề vùng thể hiện của
phương pháp choropleth Cartogram hiển thị bản đồ trực quan thông qua việc định lại kích thước các đối tượng trên bản đồ Trong Cartogram, các đối tượng địa lý dạng vùng sẽ được thể hiện với hình dạng không phải tương ứng với diện tích thật của chúng, mà là tương ứng với một biến định lượng khác – ví dụ như dân số, GDP, …
Hình 1.11 Bản đồ Cartogram Proportional Symbol là một phương pháp làm giảm nhẹ vấn đề vùng
thể hiện của phương pháp choropleth Điển hình của nó là một bản đồ sử dụng các hình khối tròn hoặc định dạng khác ở giữa một vùng Kích thước của các khối quan hệ với giá trị dữ liệu Một biến thể thường thấy của phương
Trang 32pháp này là sử dụng các biểu đồ tròn cho các hình khối để thể hiện nhiều thông tin trong một bản đồ Đôi khi, phương pháp này gặp vấn đề che khuất nhưng nó có thể được giải quyết bằng cách điều chỉnh độ mờ hoặc sử dụng các tỷ lệ biểu tượng phù hợp
Hình 1.12 Bản đồ Proportional Symbol
Người ta có thể kết hợp phương pháp proportional symbol với cartograms
để có một bản đồ lai, phương pháp này tương đối hiệu quả để biểu diễn dữ liệu
Trang 33Hình 1.13 Bản đồ kết hợp proportional symbol với cartograms
Pinpoint hiển thị vị trí chính xác của đối tượng Chúng hiện đang ngày
càng phổ biến khi mà dữ liệu gốc thường bao gồm cả vị trí chính xác Những bản đồ thể hiện người dùng twitter và ảnh flickr thường được trực quan theo cách này Một phiên bản phổ biến của nó là những bản đồ cho phép tìm kiếm như google maps để hiển thị chính xác địa điểm của đối tượng tìm kiếm
Hình 1.14 Bản đồ Pinpoint Connection tương tự như pinpoint nhưng được bổ sung các điểm và
đường nối giữa các điểm đó Trong những ví dụ về kỹ thuật này, những đường nối là trừu tượng (như các cuộc gọi điện thoại hay những trả lời tweet) và được biểu diễn là các đường trên bản đồ
Trang 34Bản đồ nổi tiếng về chiến dịch nước Nga của Napoleon là một phiên bản của connection với đại lượng được thêm vào là chiều rộng của đường kết nối thể hiện lực lượng quân đội
Hình 1.15 Bản đồ nổi tiếng về chiến dịch nước Nga của Napoleon
Subway là một phiên bản của connection Đường kết nối là quan trọng
nhất trong những bản đồ này, vị trí các ga không cần chính xác Các bản đồ này thường được thiết kế bằng cách đơn giản hóa đoạn đường thành các đường theo một vài góc khác nhau
Trang 35Hình 1.16 Bản đồ Subway
Isopleth có ý nghĩa là khoảng giá trị và nó chính là những gì phương pháp
này thể hiện Chúng ta thường bắt gặp những bản đồ này với dữ liệu thời tiết như: Bản đồ radar, nhiệt độ, lượng mưa…
Hình 1.17 Bản đồ Isopleth
Trang 36Stream plots thường không được hấy trong những bản đồ địa lý thông
thường Chúng hiển thị giống như hướng gió khiến có cảm giác liên quan đến thời tiết Người ta thường kết hợp loại bản đồ này với isopleth
Hình 1.18 Bản đồ Stream plots Prism là một dạng bản đồ 3D với nhiều vấn đề Kỹ thuật này bao hàm cả
việc thay đổi chiều cao của vùng dựa trên giá trị độ cao Vấn đề lớn nhất của phương pháp này là thường có một vài vùng bị khuất sau những cột cao hơn của vùng khác Cũng rất khó đọc các giá trị trên đối tượng 3D và còn khó hơn nữa là việc đặt thước tỷ lệ trên bản đồ
Hình 1.19 Bản đồ Prism
Trang 371.4 Ứng dụng trực quan hóa dữ liệu biểu diễn trạng thái giao thông[4]
1.4.1 Khả năng ứng dụng trực quan hóa dữ liệu biểu diễn trạng thái giao thông
Hệ thống giao thông tồn tại trong ít nhất 2 dạng không gian: Thứ 1 là dạng không gian địa lý và một dạng không kém phần quan trọng đó là không gian thời gian, nó thể hiện mối quan hệ với thời gian đã trải qua được tạo ra bởi
hệ thống Sự khác biệt giữa không gian địa lý và không gian thời gian đó là những tính chất của chúng bao gồm bên trong hệ thống giao thông
Có 2 điểm quan trọng trong trực quan hóa dữ liệu cho hệ thống giao thông gồm:
- Dùng mô hình ảo để thể hiện trạng thái của mạng giao thông để quản lý
và công bố
- Trực quan hóa bằng hình ảnh để mô phỏng đầu ra
Như ví dụ dưới đây mô phỏng hệ thống Điều khiển xe tải tự động (AGVS) và đồ thị mô tả thời gian chờ đợi theo số lượng xe tải Phần mềm là một trực quan hóa mô phỏng hệ thống hoạt động thế nào Nó có khả năng hoạt động ở cả mô hình động và mô hình tĩnh Ở trạng thái tĩnh, người dùng có thể theo dõi đường đi theo thời gian còn ở trạng thái động, sự chuyển động được điều khiển bởi bộ đếm thời gian
Hình 1.20 Đồ thị mô tả thời gian chờ đợi theo số lượng xe tải
Theo hướng của đề tài này là tìm hiểu kỹ thuật trực quan hóa cho mô phỏng giao thông nhiều tác nhân, do đó khảo sát hiệu quả của ứng dụng là mục tiêu chính Hughes đã nghiên cứu xu hướng và phương pháp trực quan hóa dữ
Trang 38liệu giao thông Dựa trên đó, đưa ra 2 kỹ thuật chính dùng để trực quan hóa cho
hệ thống giao thông gồm:
- Trực quan hóa sử dụng bản đồ: Do dữ liệu tự nhiên của hệ thống giao thông thường dựa trên các thông tin địa lý, sử dụng bản đồ làm nền và trực quan hóa các dữ liệu giao thông trên đó Điển hình là các thông tin đường giao thông quan hệ với nhau bao gồm: nguồn, đích và đường đi giữa chúng Do đó, sẽ càng
có ý nghĩa để sử dụng bản đồ để trực quan hóa những dữ liệu này
- Sử dụng Score Cards và Dash boards: Các kỹ thuật này có thể sử dụng
để theo dõi Khóa chỉ thị hiệu năng (Key Performance Indicators - KPIs) của hệ thống và cả những thay đổi cấp hệ thống Một ví dụ mô hình trực quan của Score Cards bằng cách sử dụng biểu đồ dạng cột để trực quan hóa KPIs như hình 1.21 dưới đây
Hình 1.21 Ví dụ sử dụng Score Cards và Dash boards
1.4.2 Tham khảo trực quan hóa dữ liệu biểu diễn trạng thái giao thông[25]
Nhóm MIT Big Data Initiative tại CSAIL đã tổ chức một cuộc thi với mục đích khuyến khích suy nghĩ về dữ liệu và sử dụng dữ liệu để xác định các vấn đề
xã hội Big Data hứa hẹn một thế giới tốt hơn khi dữ liệu được sử dụng để đưa
ra các quyết định tốt hơn từ việc đầu tư tiền đến quản lý sức khỏe, dạy dỗ con cái và quản lý thành phố, quản lý tài nguyên … Những thay đổi được cho phép bởi sự phát triển của những công nghệ và công cụ mới cho ta khả năng đo lường, giám sát, ghi lại, tổng hợp và truy vấn tất các các loại dữ liệu về chúng ta
và thế giới xung quanh chúng ta
MIT Big Data Challenge sẽ xác định những thách thức thực tế ở những lĩnh vực khác nhau như giao thông, sức khỏe, tài chính và giáo dục và tạo những