Tuy nhiên, việc sử dụng các dữ liệu thứ cấp cũng có một số nhược điểm là: + Số liệu thứ cấp này đã được thu thập cho các nghiên cứu với các mục đích khác và có thể hoàn toàn không hợp vớ
Trang 1BỘ CÔNG THƯƠNG
TRUNG TÂM THÔNG TIN CÔNG NGHIỆP VÀ THƯƠNG MẠI
BÁO CÁO TỔNG HỢP ĐỀ TÀI NGHIÊN CỨU
NGHIÊN CỨU LÝ THUYẾT VÀ PHƯƠNG PHÁP LUẬN XÂY DỰNG CSDL THEO MÔ HÌNH DATA WARE HOUSE
VÀ METADATA
CNĐT : ĐỖ VĂN CHIẾN
9558
HÀ NỘI – 2012
Trang 2MỤC LỤC
A MỤC TIÊU ĐỀ TÀI 7
B TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC 7
C PHƯƠNG PHÁP NGHIÊN CỨU 8
D NỘI DUNG NGHIÊN CỨU 8
CHƯƠNG I Nghiên cứu lý thuyết và phương pháp luận của công tác khảo sát, nội dung và nhiệm vụ của khảo sát 8
I.1 Nghiên cứu cơ sở lý thuyết về Khảo sát dữ liệu nguồn 8
1. Khái niệm dữ liệu nguồn. Tại sao cần khảo sát dữ liệu nguồn 8
2. Xác định mục đích khảo sát 11
3. Xác định các yêu cầu cần đạt được của kết quả khảo sát 11
4. Xác định phương pháp khảo sát 11
5. Xác định qui mô và đối tượng khảo sát 13
6. Xây dựng qui trình và kế hoạch khảo sát 13
7. Thiết kế mẫu phiếu khảo sát 13
8. Báo cáo khảo sát 20
I.2 Nghiên cứu cơ sở lý thuyết về Khảo sát nhu cầu thông tin của người sử dụng 21
1. Thông tin và nhu cầu thông tin 21
2. Mục đích của khảo sát nhu cầu sử dụng thông tin 24
3.Phương pháp khảo sát 24
4.Xử lý và phân tích kết quả điều tra 26
I.3 Nghiên cứu cơ sở lý thuyết khảo sát yêu cầu và phương thức cung cấp thông tin 26
1.Nhu cầu thông tin và các đối tượng dùng tin 26
2.Các phương thức truyền và cung cấp thông tin 27
3.Phương pháp và mục tiêu khảo sát 28
I.4 Nghiên cứu cơ sở lý thuyết của tổng hợp và viết tài liệu khảo sát 29
1. Cấu trúc của báo cáo nghiên cứu, khảo sát 29
2. Xây dựng các nguyên tắc phân loại và biên tập thông tin khảo sát 30
3. Xây dựng các tiêu chí trong kết quả khảo sát. Lập báo cáo khảo sát 35
CHƯƠNG II Nghiên cứu cơ sở lý thuyết và công nghệ về thiết kế hệ thống kho dữ liệu và ứng dụng BI 36
II.1 Nghiên cứu cơ sở lý thuyết và công nghệ về thiết kế kho dữ liệu nguồn36 1.Giới thiệu 36
Trang 32.Định nghĩa kho dữ liệu nguồn 36
3.Cấu trúc của một kho dữ liệu nguồn 37
II.2 Nghiên cứu cơ sở lý thuyết và công nghệ về thiết kế kho dữ liệu và datamart 39
1. Định nghĩa kho dữ liệu và Datamart 39
2.Tại sao cần thiết kế Data Mart 42
II.3 Nghiên cứu cơ sở lý thuyết và công nghệ về thiết kế ETL - Extract - Transformation - Load 42
1. Khái niệm ETL 42
2. Các kiểu kiến trúc ETL 44
II.4 Nghiên cứu cơ sở lý thuyết và công nghệ về thiết kế tầng dữ liệu đa chiều cho người dùng ( End - User) 46
1.Khái niệm dữ liệu đa chiều 46
2.Ngôn ngữ MDX 47
3. Công nghệ thiết kế tầng dữ liệu đa chiều 49
4. Giới thiệu sản phẩm MS. SQL Server – Analysis Services 49
II.5 Nghiên cứu cơ sở lý thuyết và công nghệ về thiết kế khai thác và phân tích thông tin .58
1. Khai thác và phân tích thông tin là gì 58
2. Hướng tiếp cận trong data ming 59
3. Ứng dụng của khai phá dữ liệu 60
4.Các bước khai thác và phân tích thông tin 61
5.Hạ tầng công nghệ 63
II.6 Nghiên cứu cơ sở lý thuyết và công nghệ về thiết kế giải pháp tập trung và tích hợp số liệu 63
1. Khái niệm tập trung dữ liệu 63
2. Tích hợp dữ liệu là gì 64
3. Kiến trúc logic tích hợp dữ liệu 65
4.Cơ chế tích hợp dữ liệu 65
5.Các bước triển khai tập trung và tích hợp dữ liệu 66
6.Giới thiệu bộ công cụ Oracle Warehouse Builder 66
II.7 Nghiên cứu cơ sở lý thuyết và công nghệ về thiết kế giải pháp làm sạch, chuẩn hóa và cung cấp số liệu 68
1. Khái niệm chuẩn hóa dữ liệu 68
2. Các dạng chuẩn hóa dữ liệu 68
3. Làm sạch dữ liệu 70
Trang 4II.8 Nghiên cứu cơ sở lý thuyết và công nghệ về thiết kế Giải pháp xây dựng
cơ sở dữ liệu đa chiều với OLAP 72
1. OLAP là gì? 72
2. Mô hình dữ liệu đa chiều là gì 73
3. Giới thiệu dịch vụ OLAP (OLAP Services) của Microsoft SQL Server 74
4. So sánh OLAP với OLTP 75
5. Các mô hình lưu trữ hỗ trợ OLAP 76
6. Kiến trúc khối (cube) của OLAP 79
7 Mô hình kiến trúc dịch vụ OLAP 80
II.9 Nghiên cứu cơ sở lý thuyết và công nghệ về thiết kế Giải pháp cung cấp thông tin đến từng đối tượng sử dụng 83
1. Các đối tượng người sử dụng 83
2. Các giải pháp cung cấp thông tin 84
II.10 Nghiên cứu cơ sở lý thuyết và công nghệ về thiết kế Giải pháp để người sử dụng tự truy cập, khai thác, tìm kiếm và phân tích và dự báo thông tin 89
1. Nhu cầu khai thác, tìm kiếm, phân tích và dự báo thông tin 89
2. Các giải pháp công nghệ chung phục vụ phát hiện tri thức và khai phá dữ liệu 91
3. Một số nguyên tắc chung trong thiết kế giải pháp khai thác thông tin thuận tiện cho người sử dụng 104
4. Giải pháp của một số hãng phần mềm lớn 107
CHƯƠNG III Nghiên cứu cơ sở lý thuyết và công nghệ về thiết kế kho dữ liệu và tập trung dữ liệu 108
III.1 Nghiên cứu cơ sở lý thuyết và công nghệ về xây dựng các kịch bản tạo CSDL trung chuyển 108
1 Nguồn dữ liệu 109
2. Khu vực xử lý 109
III.2 Nghiên cứu cơ sở lý thuyết và công nghệ về xây dựng kịch bản tạo CSDL chứa các chủ đề 112
III.3 Nghiên cứu cơ sở lý thuyết và công nghệ về xây dựng kịch bản tạo các module để load dữ liệu từ DSA về kho tập trung và từ kho tập trung về Data Mart 113
1. Các khái niệm chung 113
2. Xây dựng kịch bản cho khu vực DSA 116
3. Xây dựng kịch bản cho các Data Mart 118
4. Thực thi DM trong SQL 2008 124
III.4 Nghiên cứu cơ sở lý thuyết và công nghệ về xây dựng kịch bản tạo các JOB để chạy các module trên theo lịch đặt sẵn 125
1. Lý do, mục đích nghiên cứu 125
Trang 52. Phương pháp nghiên cứu 126
3. Tìm hiểu chung về xây dựng kịch bản chạy các module theo lịch sẵn 129
4. Sự cần thiết của JOB trong hệ thống thông tin 130
5. Cơ sở công nghệ về cài đặt 131
6. Biện pháp triển khai, áp dụng vào thực tiễn 133
III.5 Nghiên cứu cơ sở lý thuyết và công nghệ về xây dựng các module để làm sạch và tích hợp dữ liệu 137
1. Tìm hiểu chung về module để làm sạch và tích hợp dữ liệu 137
2. Sự cần thiết của làm sạch dữ liệu và tích hợp dữ liệu trong hệ thống thông tin 139
3. Cơ sở công nghệ 140
CHƯƠNG IV Nghiên cứu cơ sở lý thuyết và công nghệ về xây dựng CSDL đa chiều với OLAP 147
IV.1 Nghiên cứu cơ sở lý thuyết và công nghệ về xác định các chiều dữ liệu từ thiết kế thi công 147
1. Khái niệm chung 147
2. Phân tích đa chiều 148
3. Định hướng công nghệ 150
4. Cách xác định chiều 151
IV.2 Nghiên cứu cơ sở lý thuyết và công nghệ về xác định các thông tin số liệu từ thiết kế thi công 151
1. Triển khai OLAP trong SQLSERVER 152
IV.3 Nghiên cứu cơ sở lý thuyết và công nghệ về xác định các nấc phân cấp thông tin trên cơ sở thiết kế thi công 162
1. Xác định khối 162
2. Xử lý các khối 163
3. Khối ảo 163
4. Xác định các chiều 163
5. Chiều có phân cấp 164
6. Fact table (Fact) 164
7. Slice 164
Hình IV.23. Khối dữ liệu và các lát cắt 165
8. Các phân hoạch (Partitions) 165
IV.4 Nghiên cứu cơ sở lý thuyết và công nghệ về tạo các hierachy 166
1. Khái niệm về hierachy 166
2. Định nghĩa và tạo các phân cấp trong Oracle 11g 169
IV.5 Nghiên cứu cơ sở lý thuyết và công nghệ về Dùng OLAP API để tạo CSDL đa chiều 170
Trang 61. Khái niệm CSDL đa chiều 170
2. Sử dụng dịch vụ SSAS để xây dựng các cơ sở dữ liệu nhiều chiều 171
CHƯƠNG V Nghiên cứu cơ sở lý thuyết và công nghệ về xây dựng tầng ứng dụng để tìm và khai phá thông tin 174
V.1 Nghiên cứu cơ sở công nghệ về Cài đặt ứng dụng Web 174
1. Khái niệm ứng dụng web 174
2. Đặc điểm của Dịch vụ Web 175
3. Kiến trúc của Dịch vụ Web 175
4. Các thành phần của Dịch vụ Web 177
5. An toàn cho dịch vụ Web 180
6. Xây dựng một dịch vụ Web 181
7. Tích hợp dịch vụ Web theo chuẩn 181
V.2 Nghiên cứu cơ sở công nghệ về Cài đặt LDAP 182
1. Khái niệm về LDAP 182
2. Sự cần thiết của LDAP trong hệ thống thông tin 183
3. Cơ sở công nghệ về cài đặt LDAP 183
4. Triển khai, áp dụng vào thực tiễn 186
V.3 Nghiên cứu cơ sở công nghệ về cách dùng BI để Lập báo cáo tổng hợp 187
1. Business Intelligence (BI) là gì 187
2. Các hoạt động chính của BI 188
3. BI dành cho ai 190
4. Một số bước cơ bản để tạo lập báo cáo từ hệ thống BI 190
5. Tạo lập báo cáo trong một số hệ thống BI 192
V.4 Nghiên cứu cơ sở công nghệ về cách dùng BI để lập báo cáo phân tích 194
1.Khái niệm báo cáo phân tích 194
2. Kỹ thuật phân tích dữ liệu 196
3. Truy vấn và báo cáo 198
4. Công nghệ phân tích nhiều chiều 198
5. Mô hình hóa các chiều với InfoSphere Data Architect của IBM ‐ Kỹ thuật xuôi chiều trong InfoSphere Data Architect 199
V.5 Nghiên cứu cơ sở công nghệ về cách dùng BI để dự báo thông tin 205
1. BI và dự báo thông tin 205
2. Phân tích dự đoán 207
Trang 7Forecasting) 209
4. Dự báo và khai khoáng dữ liệu 212
5. Tham khảo một số thuật toán 215
V.6 Nghiên cứu cơ sở công nghệ về phương pháp nhúng các ứng dụng BI vào bộ Live Office 222
1. Khái niệm Live Office 222
2. Làm việc với nội dung Crystal Reports trong Live Office 223
3. Làm việc với nội dung Web Intelligence trong Live Office 226
4. Làm việc với các truy vấn trong Live Office 228
5. Thực hiện các tác nghiệp chung đối với đối tượng Live Ofice 230
6. Thực hiện các tác nghiệp nâng cao 232
V.7 Nghiên cứu cơ sở công nghệ về truy vấn và khai thác thông tin dựa trên các thông tin có sẵn 232
1. Khái niệm chung 232
2. Các bước khai phá dữ liệu từ các thông tin có sẵn dưới dạng văn bản 234
3. Các bộ máy tra cứu tìm tin trên Internet 248
V.8 Nghiên cứu cơ sở công nghệ về truy vấn và khai thác thông tin theo các báo cáo theo nhu cầu 249
1.Tìm hiểu chung về truy vấn và khai thác thông tin theo báo cáo 249
2.Sự cần thiết của xây dựng báo cáo từ truy vấn và khai thác thông tin theo nhu cầu 251
3.Thiết kế báo cáo 252
4.Kết quả, đánh giá 253
V.9 Nghiên cứu cơ sở công nghệ về truy vấn và khai thác thông tin để chia sẻ thông tin với người khác 256
1.Tìm hiểu chung về việc chia sẻ thông tin 256
2.Sự cần thiết trong việc về truy vấn và khai thác thông tin để chia sẻ thông tin với người khác 259
Kết luận và kiến nghị 259
Tài liệu tham khảo 261
Trang 8A MỤC TIÊU ĐỀ TÀI
Với mục đích tạo lập một hệ thống thông tin chính thống, nền tảng, đầy đủ, chuyên ngành - là hệ thống những thông tin, chỉ tiêu, thông số cơ bản và chuyên sâu, đặc thù về thực trạng các loại sản phẩm, nguồn lực, hoạt động, tiềm lực phát triển và các yếu tố liên quan trực tiếp của ngành cơ khí Việt nam, phục vụ xây dựng chiến lược, hoạch định chính sách, điều hành, quản lý Nhà nước và phát triển kinh tế công nghiệp, thương mại Việt nam, phục vụ chuyển dịch cơ cấu kinh tế và công nghiệp hoá, hiện đại hoá đất nước, Trung tâm thông tin Công nghiệp và Thương mại được giao thực hiện nhiệm vụ
“Xây dựng cơ sở dữ liệu ngành cơ khí Việt Nam”
Có thể nói, cơ khí là một ngành có mối liên quan với hầu hết tất cả các ngành trong nền kinh tế Chính vì vậy, để có thể thu thập, xử lý dữ liệu ngành cơ khí,
dữ liệu sẽ đến từ rất nhiều nguồn, với rất nhiều chủng loại thông số Hơn nữa,
để đánh giá đúng, đủ về ngành cơ khí, cần có các công cụ cho phép khai thác thông tin đa chiều, đa tầng và nhanh chóng
Để đáp ứng các yêu cầu xử lý hệ thống thông tin như trên, nhóm thực hiện đề xuất nghiên cứu công nghệ nhà kho dữ liệu (Data Ware House) với các mô hình BI (Business Intelligence), OLAP (Online Analytical Processing) và đặt
ra mục tiêu nghiên cứu các vấn đề lý thuyết và công nghệ liên quan trực tiếp đến các mô hình này
B TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC
Trên thế giới, đặc biệt là ở các nước có trình độ công nghệ phát triển, việc ứng dụng mô hình Data Ware House và tổ chức và khai thác các hệ thống thông tin lớn với mục đích khai phá dữ liệu, khám phá tri thức, hỗ trợ ra quyết định là việc không còn xa lạ Để hỗ trợ, rất nhiều hãng phần mềm như Oracle, Microsoft, SAP, …liên tục phát triển và hoàn thiện các sản phẩm để đáp ứng nhu cầu cũng như để sử dụng hết công suất các sản phẩm phần cứng cũng liên tục được nâng cấp
Tại Việt Nam, về lý thuyết, trong những năm gần đây, Data Ware House cũng được nhắc đến nhiều nhưng để triển khai trong thực tế, có thể nói là chưa ghi nhận được một thành công cụ thể nào Lý do thì có rất nhiều nhưng chủ yếu vì nguồn dữ liệu của các hệ thống thông tin thường rất khó thu thập, khó qui chuẩn Điều này vẫn đúng ngay cả đối với một số doanh nghiệp lớn, đã áp dụng các hệ thống quản lý toàn công ty như ERP, CRM … Đây cũng chính là một trong những khó khăn mà nhiệm vụ “Xây dựng CSDL ngành cơ khí Việt Nam” cần khắc phục Trên thực tế, việc xây dựng các hệ thống thông tin lớn
có một vai trò rất quan trọng trong quản lý nhà nước và cần có những bước đi quyết liệt để nâng cao năng lực quản lý của tất cả các cấp
Data Ware House là một mô hình tổ chức dữ liệu dùng để xử lý dữ liệu có những đặc tính như sau:
Trang 9- Nguồn dữ liệu đa dạng, phong phú, cần qui chuẩn, làm sạch, tích hợp
- Dữ liệu cần phải tính toán, xử lý để phục vụ quá trình khai thác nhanh, nhiều đối tượng, với các nhu cầu khác nhau, với các góc nhìn khác nhau và nhiều tiêu chí
Đây cũng chính là đặc điểm của dữ liệu ngành cơ khí Việt Nam và cũng chính là lý do nhóm thực hiện lựa chọn Data Ware House để tổ chức CSDL ngành cơ khí Việt Nam
C PHƯƠNG PHÁP NGHIÊN CỨU
Đây là đề tài có nội dung thuần túy về các vấn đề lý thuyết nên phương pháp nghiên cứu được sử dụng sẽ là tham khảo các tài liệu về các vấn đề liên quan
D NỘI DUNG NGHIÊN CỨU
CHƯƠNG I Nghiên cứu lý thuyết và phương pháp luận của công tác khảo sát, nội dung và nhiệm vụ của khảo sát
I.1 Nghiên cứu cơ sở lý thuyết về Khảo sát dữ liệu nguồn
1 Khái niệm dữ liệu nguồn Tại sao cần khảo sát dữ liệu nguồn
Dữ liệu đóng vai trò không thể thiếu được trong các cuộc điều tra nghiên cứu, khảo sát Từ các dữ liệu thu thập được, qua quá trình xử lý, có thể rút ra được các kết quả quan trọng của cuộc khảo sát Để phục vụ điều tra, khảo sát, người ta chia các loại dữ liệu thành hai loại: dữ liệu thứ cấp và dữ liệu sơ cấp
a Dữ liệu thứ cấp
Dữ liệu thứ cấp là dữ liệu do người khác thu thập, sử dụng cho các mục đích
có thể là khác với mục đích nghiên cứu của chúng ta Dữ liệu thứ cấp có thể
là dữ liệu chưa xử lý (còn gọi là dữ liệu thô) hoặc dữ liệu đã xử lý Như vậy,
dữ liệu thứ cấp không phải do người nghiên cứu trực tiếp thu thập
Các dữ liệu thứ cấp có thể là:
+ Các báo cáo của chính phủ, bộ ngành, số liệu của các cơ quan thống kê về tình hình kinh tế xã hội, ngân sách quốc gia, xuất nhập khẩu, đầu tư nước ngoài, dữ liệu của các công ty về báo cáo kết quả tình hình hoạt động kinh doanh, nghiên cứu thị trường
Trang 10+ Các báo cáo nghiên cứu của cơ quan, viện, trường đại học
+ Các bài viết đăng trên báo hoặc các tạp chí khoa học chuyên ngành và tạp chí mang tính hàn lâm có liên quan
+ Tài liệu giáo trình hoặc các xuất bản khoa học liên quan đến vấn đề nghiên cứu
+ Các bài báo cáo hay luận văn của sinh viên các trường đại học trong ngoài nước, các luận văn thạc sĩ, tiến sĩ các ngành khoa học liên quan
Vì là nguồn dữ liệu đã được xử lý, ưu điểm của việc sử dụng dữ liệu thứ cấp
là tiết kiệm tiền bạc, thời gian Tuy nhiên, việc sử dụng các dữ liệu thứ cấp cũng có một số nhược điểm là:
+ Số liệu thứ cấp này đã được thu thập cho các nghiên cứu với các mục đích khác và có thể hoàn toàn không hợp với vấn đề của chúng ta; khó phân loại
dữ liệu; các biến số, đơn vị đo lường có thể khác nhau
+ Dữ liệu thứ cấp thường đã qua xử lý nên khó đánh giá được mức độ chính xác, mức độ tin cậy của nguồn dữ liệu
Do vậy, khi sử dụng các dữ liệu thứ cấp, để đảm bảo tính chính xác của dữ liệu, phải kiểm tra xem các kết quả nghiên cứu của người khác là dựa vào dữ liệu thứ cấp hay sơ cấp và nếu có điều kiện, nên kiểm tra dữ liệu gốc
b Các nguồn dữ liệu thứ cấp
Là những tường trình không trực tiếp đối với một sự kiện Nguồn thứ cấp có thể dựa trên nội dung nguồn chính hoặc các nguồn thứ cấp khác nhằm tạo ra một cái nhìn tổng quan, hoặc để đưa ra các khẳng định có tính phân tích hoặc tổng hợp Các nguồn thứ cấp có thể là:
+ Danh mục và thư mục: Trên cơ sở bộ danh mục và thư mục của các thư viện, chúng ta có thể tìm kiếm dữ liệu cần thiết theo tác giả, chủ đề, thời gian
+ Tự điển: Dùng để xác định nghĩa của các từ chuyên môn trong nghề Ngoài
ra, có thể dùng để xác định các sự liện trong ngành, tên tuổi các nhân vật cũng như các tổ chức có tầm ảnh hưởng trong lĩnh vực quan tâm
+ Bách khoa toàn thư: Dùng để tìm hiểu các thông tin cơ sở hay lịch sử cũng như tìm hiểu các thời điểm quan trọng, những sự kiện có ý nghĩa đối với chuyên ngành quan tâm
+ Cẩm nang: Dùng để tìm hiểu các sự kiện cũng như các cá nhân liên quan,
có tầm ảnh hưởng đến vấn đề đang quan tâm
+ Danh bạ: Dùng để xác định các tổ chức và các nhân vật liên quan, qua đó xác định các thông tin cơ bản như địa chỉ, email để liên lạc
+ Internet: các trang web
+ Các nguồn của chính phủ: các tổ chức chính phủ, các văn bản luật, qui định
và từ các cục, tổng cục thống kê
c Đánh giá các nguồn dữ liệu thứ cấp
Trang 11Để đánh giá các nguồn dữ liệu thứ cấp, người ta thường sử dụng một số tiêu chí sau:
+ Mục đích: Tìm hiểu xem tác giá đang cố gắng thực hiện điều gì, điều này có phù hợp với mục đích của ta hay không
+ Phạm vi: Tìm hiểu ngày, tháng, niên đại cũng như các đối tượng được nêu trong dữ liệu
+ Căn cứ tin cậy: Xác định chuyên môn của tác giả cũng như mức độ học thuật của nội dung tài liệu
+ Định dạng: Tìm hiểu thứ tự của nội dung cũng như tính đa dụng của tài liệu qua các thông tin về tài liệu như: có sử dụng chỉ số hay không, có thể truy tìm, có thể tải về từ Internet hay không
d Dữ liệu sơ cấp
Khi dữ liệu thứ cấp không có sẵn hoặc không thể giúp trả lời các câu hỏi nghiên cứu của chúng ta, chúng ta phải tự mình thu thập dữ liệu cho phù hợp với vấn đề nghiên cứu đặt ra Các dữ liệu tự thu thập này được gọi là dữ liệu
sơ cấp Hay nói cách khác, dữ liệu sơ cấp là dữ liệu do chính người nghiên cứu thu thập
e Nguồn dữ liệu sơ cấp
Là những nguồn rất gần với căn nguyên của vấn đề đang tìm hiểu Ví dụ về nguồn sơ cấp bao gồm: các di tích khảo cổ học; hình ảnh; tư liệu lịch sử như
là nhật ký, kết quả điều tra dân số, phim hay biên bản của việc giám sát, điều trần công khai, xử án, hay phỏng vấn; bảng kết quả của các cuộc điều tra, thăm dò ý kiến; các kết quả được ghi lại hoặc thu lại của các thực nghiệm trong phòng thí nghiệm hoặc ngoài thực địa, các thí nghiệm hoặc quan sát, các kết quả thí nghiệm đã được công bố bởi những người thực sự tham gia nghiên cứu; hồi ký tự truyện, tác phẩm triết học gốc, kinh sách của các tôn giáo, văn bản của cơ quan quản lý, các tác phẩm nghệ thuật và giả tưởng như thơ, kịch bản, kịch bản phim, tiểu thuyết, phim, video, và chương trình truyền hình
Các thông tin thu được từ các cuộc điều tra, căn cứ vào phạm vi điều tra có thể được chia thành hai loại: điều tra toàn bộ và điều tra chọn mẫu
+ Điều tra toàn bộ: Là tiến hành thu thập thông tin trên tất cả các đơn vị thuộc tổng thể nghiên cứu
Ưu điểm của điều tra toàn bộ là thu thập được thông tin về tất cả các đơn vị tổng thể Tuy nhiên loại điều tra này có một số nhược điểm sau:
- Số lượng đơn vị thuộc tổng thể chung thường rất lớn nên quá trình điều tra thường mất nhiều thời gian và tốn kém
- Trong một số trường hợp do thời gian kéo dài dẫn đến số liệu kém chính xác do hiện tượng tự biến động theo thời gian
Trang 12- Trong một số trường hợp, điều tra toàn bộ sẽ không thực hiện được ví
dụ như kiểm tra chất lượng sản phẩm phải phá hủy các đơn vị thuộc đối tượng nghiên cứu
+ Điều tra chọn mẫu: Để nghiên cứu tổng thể, ta chỉ cần lấy ra một số phần
tử đại diện để nghiên cứu và từ đó suy ra kết quả cho tổng thể bằng các phương pháp thống kê
Điều tra chọn mẫu thường được sử dụng vì các lý do sau:
- Tiết kiệm chi phí
- Cung cấp thông tin kịp thời cho quá trình nghiên cứu
- Đáng tin cậy Đây là yếu tố rất quan trọng, nó làm cho điều tra chọn mẫu trở nên có hiệu quả và được chấp nhận Tuy nhiên, để có sự tin cậy này, chúng ta phải có phương pháp khoa học để đảm bảo tính chính xác
để chi cần chọn ra một số quan sát mà có thể suy luận ra cả tổng thể rộng lớn
f Tại sao cần khảo sát dữ liệu nguồn
Như vậy, để nghiên cứu, khảo sát một vấn đề, dữ liệu đầu vào là vô cùng quan trọng Để thu thập được dữ liệu, việc trước tiên là xác định được các nguồn cung cấp dữ liệu, loại nguồn, loại dữ liệu để xác định rõ khả năng cung cấp cho từng loại dữ liệu Chỉ khi xác định được rõ các thông tin về nguồn dữ liệu, mới có thể xác định được phương pháp thu thập dữ liệu
2 Xác định mục đích khảo sát
+ Đánh giá các nguồn cung cấp dữ liệu
+ Kết luận về khả năng cung cấp dữ liệu
+ Kết luận về chất lượng cung cấp dữ liệu
+ Điều chỉnh các thông tin trong mẫu phiếu khảo sát cung cấp thông tin + Xác định các khó khăn trong việc cung cấp thông tin
3 Xác định các yêu cầu cần đạt được của kết quả khảo sát
+ Xác định rõ các nguồn cung cấp từng loại thông tin
+ Hoàn thiện mẫu phiếu điều tra thông tin
+ Xác định tần xuất cung cấp thông tin
+ Xác định loại thông tin thu thập từ các nguồn
+ Xác định hình thức cung cấp thông tin
+ Hình thành cơ sở xây dựng các chuẩn dữ liệu
+ Xác định phương pháp thu thập dữ liệu
4 Xác định phương pháp khảo sát
Như đã phân tích ở các phần trên, nguồn dữ liệu bao gồm hai loại: nguồn dữ liệu thứ cấp và nguồn dữ liệu sơ cấp Đối với từng loại nguồn dữ liêu, chúng
ta cần có những phương pháp khảo sát khác nhau
a Đối với các nguồn dữ liệu thứ cấp
Trang 13+ Xác định thông tin nào có thể thu thập được từ các nguồn thứ cấp Trong nhiệm vụ xây dựng CSDL ngành cơ khí, một số thông tin có thể cung cấp
từ nguồn dữ liệu thứ cấp như: tổng sản lượng các sản phẩm ngành cơ khí hàng năm, tổng kim ngạch xuất/nhập khẩu các sản phẩm ngành cơ khí, tổng số lao động làm việc trong ngành cơ khí … Các số liệu này đều có thể lấy từ các báo cáo thông kê hàng năm của tổng cục thống kê
+ Đánh giá chất lượng các nguồn dữ liệu thứ cấp theo các tiêu chí
+ Xây dựng chuẩn cho dữ liệu từ các nguồn thứ cấp
+ Xây dựng qui trình cung cấp dữ liệu từ các nguồn thứ cấp
Đối với các nguồn dữ liệu thứ cấp, nhóm nghiên cứu sử dụng phương pháp đánh giá trực tiếp đối với từng nguồn dữ liệu
b Đối với các nguồn dữ liệu sơ cấp
+ Xác định các nguồn dữ liệu sơ cấp
+ Xây dựng kế hoạch khảo sát, đánh giá chất lượng các nguồn dữ liệu sơ cấp
+ Xây dựng chuẩn dữ liệu cho dữ liệu từ nguồn sơ cấp
+ Xây dựng qui trình cung cấp dữ liệu từ các nguồn sơ cấp
Để phục vụ cho cơ sở dữ liệu ngành cơ khí Việt Nam, nhóm nghiên cứu xác định nguồn dữ liệu sơ cấp chủ yếu là các sở sông thương và các viện nghiên cứu, các hiệp hội ngành nghê Vì số lượng các đơn vị có hạn (khoảng 100 đơn vị) nên nhóm nghiên cứu quyết định sử dụng phương pháp “điều tra toàn bộ” đối với các nguồn dữ liệu sơ cấp
Các phương pháp điều tra khảo sát áp dụng trong trường hợp này có thể là:
b.1 Phỏng vấn trực tiếp (cá nhân hoặc nhóm)
Đây là phương pháp thu nhập dữ liệu mà người phỏng vấn và người được phỏng vấn gặp nhau trực tiếp để hỏi và trả lời Địa điểm phỏng vấn có thể tại trụ sở làm việc của đối tác hoặc trụ sở làm việc của nhóm nghiên cứu Mức
độ chính xác của số liệu thu thập phụ thuộc vào kỹ năng đặt câu hỏi một cách khéo léo, sự tinh tế trong việc nêu câu hỏi nhằm theo dõi và kiểm tra đối tượng phỏng vấn
Yêu cầu đối với người hỏi là:
- Không được thiên kiến hay xen quan điểm cá nhân vào câu hỏi, hoặc hướng đối tượng phỏng vấn vào cách trả lời
- Phải trung thực, không bịa ra câu trả lời, bớt câu hỏi, tự điền câu trả lời
- Có kỹ năng giao tiếp, giọng nói, ngữ điệu, y phục phù hợp với hoàn cảnh và đối tượng phỏng vấn
Ưu điểm của phương pháp phỏng vấn trực tiếp
- Người phỏng vấn trực tiếp gặp đối tượng nên có thể thuyết phục đối tượng trả lời
- Có điều kiện giải thích rõ về các câu hỏi cũng như cách thức thực hiện các câu trả lời
Trang 14Nhược điểm của phương pháp này là:
- Phí tổn cao, di chuyển nhiều, mất nhiều thời gian để đến được đối tượng phỏng vấn
- Người được phỏng vấn có thể không bố trí được nhiều thời gian để trả lời
- Sự có mặt của người phỏng vấn, thái độ cứng nhắc của người hỏi có thể làm người trả lời né tránh câu hỏi hoặc trả lời không thật
5 Xác định qui mô và đối tượng khảo sát
a Đối với các nguồn dữ liệu thứ cấp
+ Xây dựng form mẫu cho khảo sát nguồn dữ liệu thứ cấp
+ Khảo sát các nguồn dữ liệu từ các website của các cơ quan chính phủ trên Internet
+ Khảo sát các nguồn dữ liệu từ các kho tư liệu của các cơ quan chức năng như: thư viện khoa học kỹ thuật, thư viện quốc gia, cục thông tin khoa học
và công nghệ quốc gia, tổng cục tiêu chuẩn đo lường chất lượng, các vụ chức năng thuộc Bộ Công Thương, Trung tâm thông tin …
+ Khảo sát nguồn dữ liệu từ các tạp chí, ấn phẩm chuyên ngành
+ Phỏng vấn trực tiếp một số chuyên gia trong ngành
b Đối với các nguồn dữ liệu sơ cấp
+ Xây dựng bảng hỏi cho khảo sát nguồn dữ liệu sơ cấp
+ Gửi phiếu điều tra cho tất cả các sở công thương các tỉnh/thành trên cả nước
+ Gửi phiếu điều tra cho các viện nghiên cứu, hiệp hội ngành nghề liên quan
+ Gửi phiếu điều tra cho các vụ chức năng thuộc các bộ ngành quản lý liên quan
6 Xây dựng qui trình và kế hoạch khảo sát
+ Xây dựng mẫu phiếu điều tra
+ Điều tra mẫu từ 2 – 5 sở công thương bằng phương pháp phỏng vấn trực tiếp
+ Điều chỉnh lại mẫu phiếu điều tra
+ Tiến hành khảo sát đại trà cho tất cả các đối tượng theo kế hoạch
+ Xử lý kết quả khảo sát và đưa ra kết luận về các nguồn dữ liệu chính thức
+ Xây dựng các chuẩn dữ liệu
+ Xây dựng qui trình thu thập dữ liệu từ tất cả các nguồn, đối với tất cả các loại hình dữ liệu
7 Thiết kế mẫu phiếu khảo sát
Phiếu khảo sát là một trong những kỹ thuật để thu thập dữ liệu, nó bao hàm một tập hợp các câu hỏi và các câu trả lời một cách logic nhất định
a Những thuộc tính của một phiếu khảo sát tốt
Phiếu khảo sát tốt phải giúp quá trình điều khiển bảng câu hỏi và giúp ghi chép rõ ràng, chính xác Phiếu khảo sát có nhiệm vụ:
Trang 15- Chuyển tải thông tin muốn hỏi (hay thông tin yêu cầu đạt được) vào trong các câu hỏi; sau quá trình phỏng vấn, đòi hỏi người nghiên cứu phải có thông tin theo mục tiêu nghiên cứu
- Giúp người được phỏng vấn hiểu rõ ràng các câu hỏi
- Khuyến khích người được phỏng vấn hợp tác
- Hướng dẫn rõ ràng những điều người được hỏi muốn biết và cách trả
xử lý thông tin được hiệu quả
b Các bước thiết kế một phiếu khảo sát
Do sự chính xác và thích hợp của các dữ liệu thu thập được phụ thuộc chủ yếu vào phiếu khảo sát, việc thiết kế một bảng câu hỏi tốt sẽ có tác dụng rất lớn đến thành công của dự án nghiên cứu
Người ta đã tổng kết được 8 bước cơ bản về trình tự thiết kế một bảng câu hỏi
Hình I.1 Các bước trong thiết kế một bảng câu hỏi
Xác định các dữ liệu riêng biệt cần tìm Xác định phương pháp phỏng vấn Đánh giá nội dung bảng câu hỏi Quyết định các dạng câu hỏi và câu trả Xác định từ ngữ trong bảng câu hỏi Xác định cấu trúc bảng câu hỏi Xác định các đặc tính vật lí của bảng câu hỏi
Kiểm tra, sửa chữa
Trang 16Bước 1 Xác định các dữ liệu riêng biệt cần tìm
Điểm đầu tiên khi bắt tay vào thiết kế phiếu khảo sát là xem xét mục tiêu nghiên cứu để xác định chính xác cái gì cần được đo lường
- Liệt kê những gì cần đo lường
- Dự tính xem những biến số được đo lường sẽ được sử dụng như thế nào, nên dùng loại kỹ thuật phân tích nào để mang lại ý nghĩa cho dữ liệu
Bước 2: Xác định phương pháp phỏng vấn
Trong bước này, người nghiên cứu cần quyết định dùng phương pháp nào để tiếp xúc với người được phỏng vấn (phỏng vấn trực tiếp, gọi điện thoại, gửi thư hay internet…) Các phương pháp khác nhau sẽ yêu cầu nội dung, hay cấu trúc bảng câu hỏi là khác nhau
- Phỏng vấn bằng thư tín là hình thức gửi phiếu khảo sát qua bưu điện cho người trả lời theo hình thức truyền thống Trong trường hợp này, những câu hỏi trong phiếu khảo sát phải thật đơn giản và những câu hướng dẫn cho người trả lời phải hết sức chi tiết, rõ ràng
- Phỏng vấn qua điện thoại là hình thức phỏng vấn giao tiếp bằng lời và người trả lời trả lời các câu hỏi của người phỏng vấn thông qua điện thoại mà không thấy người hỏi và phiếu khảo sát Hình thức này cho phép các phỏng vấn viên giải thích các câu hỏi phức tạp cho người trả lời nhằm đáp ứng nội dung phỏng vấn tuy nhiên không thể trình bày chi tiết, dẫn đến việc kéo dài thời gian
- Phỏng vấn trực tiếp là hình thức phỏng vấn hoàn thiện nhất trong việc trao đổi trực tiếp giữa người trả lời và phỏng vấn viên Phỏng vấn viên có thể giải thích một cách chi tiết các câu hỏi Do vậy, những câu hỏi dài và phức tạp cũng có thể được sử dụng Ngoài ra, hình thức này còn tạo được mối quan hệ trong chừng mực nhất định giữa phỏng vấn viên và người trả lời để kích thích người trả lời sẵn lòng trả lời trong quá trình phỏng vấn Tuy nhiên để thực hiên hình thức này cần phải tốn một khoản chi phí khá cao vì nhân viên phỏng vấn phải di chuyển nhiều
- Một hình thức mà hiện nay trên thế giới thường dùng là phỏng vấn bằng thư điện tử (email) Trong trường hợp này những câu hỏi phức tạp có thể dễ dàng được khắc phục Cũng như phương pháp phỏng vấn qua thư, người nghiên cứu có thể hỏi những câu hỏi có cấu trúc phức tạp, tuy nhiên, tỉ lệ trả lời không cao
Bước 3 : Đánh giá nội dung câu hỏi
Mục tiêu và nội dung của vấn đề nghiên cứu quyết định các câu hỏi trong bảng câu hỏi Khi xây dựng các câu hỏi, cần cân nhắc các tiêu chí sau:
* Các câu hỏi đặt ra có cần thiết không?
Trên thực tế, trong một phiếu khảo sát cũng có một số câu hỏi tuy không thực
sự liên quan đến mục tiêu nghiên cứu nhưng nó có thể dẫn dắt, định hướng và
Trang 17giúp cho người phỏng vấn thu được những thông tin liên quan đến câu trả lời
và có thể trả lời chính xác những thông tin đó
* Người trả lời có thể hiểu được câu hỏi đó không?
Người trả lời không hiểu các câu hỏi có thể do nhiều nguyên nhân, thông thường là do người nghiên cứu dùng các thuật ngữ không quen thuộc với người được hỏi; thiếu định nghĩa rõ ràng về các thuật ngữ sử dụng; hoặc đặt câu hỏi mơ hồ, bỏ qua những khác biệt về văn phong, thói quen giao tiếp giữa những người có sắc tộc hoặc văn hóa khác nhau…
Để gia tăng sự hiểu biết của người được hỏi, nên dùng ngôn ngữ quen thuộc Các câu hỏi nên được xây dựng đúng cú pháp, văn phạm, tránh dùng câu phức tạp, tránh dùng tiếng lóng hay thuật ngữ chuyên môn…
* Người trả lời có được những thông tin cần thiết để trả lời câu hỏi đó
không?
Người được hỏi không trả lời được hoặc trả lời không đúng có thể do một số nguyên nhân:
Thiếu kiến thức về vấn đề được hỏi
Người trả lời không muốn cung cấp các thông tin
Để khắc phục, cần gửi phiếu khảo sát đúng đối tượng và chuẩn bị các câu hỏi đúng mục đích
Bước 4 Xác định dạng câu hỏi và câu trả lời
Có hai dạng câu hỏi chính sau:
(1) Câu hỏi tự do trả lời
Theo câu hỏi này, người trả lời có thể tự do trả lời câu hỏi theo ý mình tùy theo phạm vi tự do trong nội dung câu hỏi đặt ra cho họ Những thuận lợi của câu hỏi tự do trả lời:
- Cho phép người nghiên cứu thu được những câu trả lời bất ngờ, không
dự liệu trước
- Người trả lời có thể bộc lộ rõ ràng hơn những quan điểm của mình về một vấn đề nào đó, mà không bị gò bó bởi nội dung câu hỏi
- Giảm bớt sự thất vọng của người trả lời so với câu hỏi đóng là không
có cơ hội phát biểu ý kiến, chỉ lựa chọn trong tình huống có sẵn
- Có tác dụng tốt lúc mở đầu cuộc phỏng vấn, tạo mối quan hệ với người được hỏi
Những khó khăn khi sử dụng câu hỏi tự do trả lời:
- Có thể khó khăn để hiểu người trả lời khi họ diễn đạt kém
- Khó mã hóa và phân tích
Trang 18- Phụ thuộc vào ghi chép của người phỏng vấn, nên có thể bỏ qua những chi tiết quan trọng không ghi chép lại vì cho rằng không cần thiết
- Dạng câu hỏi này ít được dùng trong trường hợp phỏng vấn bằng thư tín vì tâm lý người được hỏi thường ngại viết hơn là nói
- Đôi khi mất thời gian vì người trả lời nói lan man
(2) Câu hỏi thăm dò
Sau khi đã dùng một vài câu hỏi mở để tìm hiểu một chủ đề nào đó, người phỏng vấn có thể bất đầu những câu hỏi thăm dò để đưa vấn đề đi xa hơn Nhược điểm của câu hỏi thăm dò cũng giống như câu hỏi tự do trả lời, còn ưu điểm là: (1) gợi thêm ý cho câu hỏi nguyên thủy và gợi ý cho người trả lời nói đến khi họ không còn gì cần nói thêm, (2) tạo được câu trả lời đầy đủ và hoàn chỉnh hơn so với yêu cầu câu hỏi nguyên thủy
(3)Câu hỏi thuộc dạng kỹ thuật hiện hình
Nội dung của phương pháp này là mô tả các tập hợp dữ liệu bằng việc trình bày một cách đầy đủ, rõ ràng những vấn đề còn chưa rõ nghĩa, chẳng hạn như
từ ngữ hoặc hình ảnh mà người trả lời phải mường tượng ra, trên cơ sở đó, người trả lời phải nói bằng lời những gì họ hình dung trong đầu về vấn đề đang bàn luận Kỹ thuật này có ban dạng chính sau:
- Dạng kỹ thuật liên kết: theo kỹ thuật này, người hỏi sẽ đưa ra một chuỗi các từ hoặc hình ảnh (nghĩa đen, nghĩa bóng) và yêu cầu người được hỏi trả lời những vấn đề đó theo suy nghĩ của họ
- Dạng kỹ thuật dựng hình: Theo kỹ thuật này, người được hỏi được cho xem một số tình huống gợi mở nào đó, sau đó đề nghị họ viết lại câu chuyện hay phát họa diễn tả vấn đề cần nghiên cứu
- Dạng kỹ thuật hoàn tất: Đây là dạng được dùng nhiều nhất, ở đây, người trả lời sẽ “hoàn tất” những câu hỏi còn “dở dang” (chưa hoàn chỉnh) và
họ sẽ điền thêm vào bất kỳ nội dung gì mà họ chọn
Ví dụ: Chúng tôi có nhu cầu sử dụng thông tin chuyên sâu này:………
Câu hỏi thuộc dạng “kỹ thuật hiện hình” có những ưu thế: (1) có thể thu thập được các thông tin mà có thể sẽ không thể thu thập được nếu phỏng vấn trực tiếp bằng các phương pháp khác, (2) có thể tìm được những ý tưởng nội tại, sâu xa của người trả lời Tuy nhiên, cũng có những nhược điểm sau: (1) đòi hỏi người phỏng vấn phải được huấn luyện kỹ lưỡng trước khi phỏng vấn, (2) đòi hỏi phân tích viên phải được đào tạo cận thận để diễn dịch các kết quả
Câu hỏi đóng:
Câu hỏi đóng là dạng câu hỏi mà cả câu hỏi lẫn câu trả lời đều được cấu trúc Dựa trên cấu trúc câu trả lời người ta chia ra câu hỏi đóng sau:
(1) Câu hỏi phân đôi:
Là dạng câu hỏi mà người được hỏi chỉ có thể chọn một trong hai câu trả lời như “có hoặc không”, “đồng ý hoặc không đồng ý”
Ưu điểm:
Trang 19- Thiết kế nhanh chóng và dễ dàng, rất tiện lợi trong những câu hỏi có nhiều chi tiết
- Dễ dàng cho người trả lời
- Người phỏng vấn ít có thành kiến khi gặp các câu hỏi đặc biệt
- Thuận tiện trong xử lý, tính toán và phân tích
Nhược điểm:
- Cung cấp không đủ thông tin chi tiết
- Phải đặt câu hỏi và sử dụng từ ngữ chính xác
- Bắt buộc người trả lời lựa chọn cho dù họ có thể chưa chắc chắn lắm khi chọn câu trả lời
Năng suất lao động bình quân
Kim ngạch xuất khẩu
Câu hỏi này có các ưu, nhược điểm sau:
Ưu điểm:
- Cho thông tin nhanh chóng
- Hỏi và lập thành bảng, cột tương đối dễ dàng; thuận tiện khi xử lý, phân tích
- Dễ giải thích cho người trả lời
Nhược điểm:
- Không chỉ ra sự cách biệt giữa các lựa chọn
- Câu trả lời bị giới hạn không quá 5 hoặc 6 đề mục (nhiều hơn sẽ khó khăn cho người trả lời khi lựa chọn, so sánh)
- Người trả lời phải có kiến thức về tất cả các đề mục
- Khó bao quát đầy đủ các tình huống
(3) Câu hỏi đánh dấu tình huống theo danh sách
Về cấu trúc, nó tương tự như câu hỏi xếp hạng thứ tự, tuy nhiên khác biệt là người được hỏi sẽ đánh dấu một hay nhiều loại trả lời được liệt kê
(4) Câu hỏi bậc thang:
Tên doanh nghiệp
Sản phẩm doanh nghiệp
Kim ngạch xuất khẩu hàng năm
Kim ngạch nhập khẩu hàng năm
• định vấn đề
Trang 20Thực chất loại câu hỏi này là áp dụng loại câu hỏi đánh giá theo khoản mục, thể hiện mức độ ưa thích hoặc không ưa thích, đồng ý hoặc không đông ý của người trả lời Loại câu hỏi này cho phép biến đổi những thông tin định tính thành thông tin định lượng
Ví dụ: Mức độ cần thiết phải thực hiện chỉ tiêu “Phát triển bền vững” để đánh giá ngành cơ khí Xin mời đánh dấu ( ) vào ô trống :
Bước 5: Xác định từ ngữ trong phiếu khảo sát
Phiếu khảo sát là phương tiện giao tiếp giữa người phỏng vấn và người trả lời
Do vậy, để có thể thu được các dữ liệu và các số liệu có ý nghĩa, cần phải hiểu được những hiệu ứng tiềm ẩn do việc sử dụng từ ngữ
Sau đây là một số chỉ dẫn được rút ra từ kinh nghiệm của các chuyên gia giúp xác định từ ngữ khi thiết kế phiếu khảo sát:
- Dùng từ ngữ quen thuộc, tránh dùng tiếng lóng và từ chuyên môn
- Dùng từ ngữ đơn giản để mọi người có thể hiểu ở bất kỳ trình độ học vấn nào
- Tránh sử dụng các câu hỏi dài bởi vì sẽ làm nản lòng người trả lời, hoặc không theo dõi được
- Từ ngữ trong câu hỏi càng rõ ràng, chính xác càng tốt; những từ ngữ khó diễn đạt, hoặc khó hiểu “thường xuyên”, “thông thường”…cần ghi chú mức độ rõ ràng
Bước 6: Xác định cấu trúc phiếu khảo sát
Ở bước này, người nghiên cứu sẽ phải sắp xếp các câu hỏi theo một trình tự nhất định, thuận tiện cho người đi phỏng vấn Một cách tổng quát, người ta có thể chia các câu hỏi thành 5 loại và tạo thành 5 phần chính trong bảng câu hỏi theo chức năng của chúng đóng góp vào sự thành công của cuộc phỏng vấn
(1) Phần mở đầu hoặc câu hỏi hướng dẫn
Có tác dụng mở đầu cuộc phỏng vấn thuận tiện, khởi đầu cho chuỗi những câu trả lời và gây thiện cảm với người được phỏng vấn
(2) Câu hỏi định tính:
Có tác dụng chỉ rõ đối tượng cần được phỏng vấn, tránh phỏng vấn những người không có kiến thức về vấn đề đang điều tra
(3) Câu hỏi hâm nóng:
Có tác dụng gợi nhớ thông tin và tập trung vào chủ đề nghiên cứu, tránh các cảm xúc đột ngột khi đi vào chủ đề quá nhanh, người trả lời có thể chưa tạo được hứng thú và hồi tưởng thông tin kịp
(3) Các câu hỏi đặc thù:
Trang 21Là những câu hỏi đi vào chủ đề nghiên cứu
- Ghi tên, họ, địa chỉ, số điện thoại của người trả lời, ngày phỏng vấn
- Thời gian bắt đầu và kết thúc phỏng vấn
- Chữ ký của người phỏng vấn
- Chữ ký của các cá nhân có liên quan
- Ngày, giờ cuộc phỏng vấn có hiệu lực
Bước 7: Xác định các đặc tính vật lý của bảng câu hỏi
- Xem xét hình dạng của bảng câu hỏi, chất lượng giấy, chất lượng in ấn…để tạo thiện cảm và lôi cuốn người trả lời tham gia vào cuộc phỏng vấn,
và một số trường hợp, nếu chúng ta in bảng câu hỏi trên giấy màu thì cũng có thể gia tăng tỷ lệ trả lời
- Trình bày bảng câu hỏi sao cho nó có vẻ ngắn gọn và rõ ràng
- Nếu dùng câu hỏi mở thì nên chừa khoản trống đủ để người được hỏi ghi câu trả lời và diễn đạt ý kiến của mình
- Khi nhảy quãng câu hỏi trên bảng câu hỏi thì phải chú thích rõ ràng
Ví dụ : Nếu bạn trả lời có (xin chuyển đến trả lời câu 12)
Nếu bạn trả lời không (trả lời tiếp câu 6)
Bước 8 Kiểm tra sửa chữa
Dù cẩn thận mấy chăng nữa, các phiếu khảo sát sau khi thiết kế cũng khó tránh khỏi lỗi và do đó, sẽ gây khó khăn khi thu thập dữ liệu Vì vậy, trước khi thực hiện phỏng vấn chính thức nên tiến hành kiểm tra trước Việc kiểm tra này có thể thực hiện bằng cách thử trên một mẫu nhỏ, sau đó xem xét:
- Người phỏng vấn có hiểu và trả lời được bảng câu hỏi không?
- Người phỏng vấn có thực hiện tốt không?
- Thông tin có ghi nhận tốt không?
- Thời gian cần thiết để tiến hành phỏng vấn?
Sau khi kiểm tra sẽ thực hiện sữa chữa, điều chỉnh lần cuối trước khi thực hiện phỏng vấn đại trà
8 Báo cáo khảo sát
Kết quả cuộc khảo sát được thể hiện, đánh giá qua báo cáo khảo sát Nội dung báo cáo cần xác định được những thông tin như sau:
+ Tổng số đối tượng được điều tra
+ Các nhóm đối tượng được điều tra
Trang 22+ Các nhóm thông tin dự định cung cấp
+ Các nhóm thông tin dữ liệu nguồn
+ Tần xuất cung cấp thông tin
+ Đánh giá chất lượng các nguồn thông tin
+ Đề xuất giải pháp xây dựng nguồn dữ liệu ổn định, phù hợp với mục tiêu của dự án
I.2 Nghiên cứu cơ sở lý thuyết về Khảo sát nhu cầu thông tin của người
sử dụng
1 Thông tin và nhu cầu thông tin
1 Khái niệm thông tin
Mỗi khoa học đều quan niệm về thông tin theo cách lý giải phù hợp nhất cho các sự kiện và hiện tượng xảy ra trong quá trình nghiên cứu của mình Bởi vậy, có rất nhiều định nghĩa khác nhau về thông tin Thông thường trong cuộc sống, thông tin được coi là tập hợp tin tức về các sự vật, hiện tượng hay quá trình mà gây được sự quan tâm và được xử lý hoặc là tin tức được ai đó thông báo hay thu nhận được qua nghiên cứu, phân tích, học tập,…Trong sách báo khoa học, thông tin là “ý nghĩa mà con người gán cho dữ liệu trên cơ sở những quy tắc đã biết để thể hiện các sự kiện, ý tưởng, thông báo trong các dữ liệu đó” Ý nghĩa thể chất của thông tin là kết quả tương tác của các vật thể được truyền tải theo một kênh vật chất Thông tin là cái có trước trong mối quan hệ với hiểu biết, thông tin mang trong nó mọi cái cần thiết cho hiểu biết Trong khoa học về truyền thông, thông tin (Information) được hiểu là một khái niệm trừu tượng tồn tại dưới nhiều dạng khác nhau (tín hiệu điện, ánh sáng ) đem lại một nhận thức chủ quan cho đối tượng nhận tin Dữ liệu (Data): Là tập hợp của thông tin được tổ chức và thể hiện theo một hình thức nào đó tùy thuộc vào thỏa thuận giữa các bên tham gia vào việc tạo và sử dụng dữ liệu Truyền thông dữ liệu (thông tin): là việc trao đổi dữ liệu giữa hai thiết bị thông qua một số môi trường truyền thông như sợi cáp, không khí
… Trong truyền thông, “thông tin“ và “dữ liệu“ là hai khái niệm đồng nghĩa; Theo cách nhìn nhận phổ thông, thông tin là những tính chất xác định của vật chất mà con người (hoặc hệ thống kỹ thuật) nhận được từ thế giới vật chất bên ngoài hoặc từ những quá trình xảy ra trong bản thân nó
Theo quan điểm triết học, thông tin là một quảng tính của thế giới vật chất (tương tự như năng lượng, khối lượng) Thông tin không được tạo ra mà chỉ được sử dụng bởi hệ thụ cảm Thông tin tồn tại một cách khách quan, không phụ thuộc vào hệ thụ cảm Trong nghĩa khái quát nhất, thông tin là sự đa dạng Sự đa dạng ở đây có thể hiểu theo nhiều nghĩa khác nhau: tính ngẫu nhiên và trình độ tổ chức …
Thuật ngữ “Thông tin” (gốc Latinh là Informatio - có nghĩa là diễn giải, thông báo, lý giải) là thuật ngữ thông dụng nhất, được sử dụng rộng rãi trong mọi
Trang 23lĩnh vực của đời sống xã hội Trong đời sống hàng ngày, thông tin được hiểu
là tin tức về các sự kiện diễn ra trong thế giới xung quanh Trong các lĩnh vực khoa học khác như triết học, toán học, vật lý học, điều khiển học, di truyền học khái niệm thông tin được sử dụng nhưng có nội dung rất khác nhau, không giống như cách hiểu trong đời sống hàng ngày
Theo quan điểm điều khiển học: Thông tin là tính trật tự của các đối tượng vật chất có những mối liên hệ biện chứng Theo quan điểm hệ thống : Thông tin
là sự hạn chế tính đa dạng của mỗi hệ thống sự vật đối với môi trường Theo quan điểm triết học: Thông tin là một phạm trù triết học phản ánh sự vận động
và tương tác của các hiện tượng, sự vật của thế giới tự nhiên, xã hội và tư duy Theo tiêu chuẩn Việt Nam 5453 - 1991: Thông tin là các dữ liệu, tin tức được xem xét trong quá trình tồn tại và vận động trong không gian và thời gian Như vậy, khái niệm thông tin được hiểu là các tin tức, dữ liệu phản ánh các hiện tượng, sự vật của thế giới tự nhiên, xã hội và tư duy được xem xét trong quá trình tồn tại và vận động của chúng trong không gian và thời gian, là tập hợp các dữ kiện, số liệu, vận động trong không gian, theo thời gian, có khả năng truyền và nhận giữa các đối tượng
2 Phân loại thông tin
Có rất nhiều cách phân loại thông tin
2.1 Theo giá trị và qui mô sử dụng
+ Thông tin chiến lược (dành cho các nhà quản lý)
+ Thông tin tác nghiệp (dành cho cán bộ chuyên sâu)
+ Thông tin thường thức (dành cho quảng đại quần chúng)
2.2 Theo nội dung thông tin
+ Thông tin pháp luật
+ Thông tin kinh tế
+ Thông tin khoa học kỹ thuật
+ Thông tin văn hóa xã hội
+ Thông tin thể thao
2.3 Theo đối tượng sử dụng
+ Thông tin đại chúng (Dành cho quảng đại quần chúng)
+ Thông tin khoa học (Dành cho các nhà khoa học)
+ Thông tin kinh doanh (Dành cho các nhà kinh doanh)
+ Thông tin chính trị (Dành cho các nhà chính trị)
3 Các phương thức truyền thông tin
Trang 24+ Mạng máy tính
4 Các đối tượng sử dụng thông tin
Các đối tượng sử dụng thông tin là yếu tố cơ bản của hệ thống thông tin Nhu cầu thông tin của họ giúp các đơn vị cung cấp thông tin định hướng chính xác cho các hoạt động của mình
Trên cơ sở hoạt động của các đối tượng sử dụng thông tin, người ta chia họ thành các nhóm chính như sau:
+ Các nhà nghiên cứu khoa học
+ Các cán bộ chuyên môn và những người trực tiếp sản xuất
+ Các nhà quản lý, hoạch định chính sách
Ngoài ra, còn một nhóm đối tượng đặc biệt nữa là những người không sử dụng thông tin Tuy nhiên, những người không dùng tin lại chính là những người dùng tin tiềm năng Do những nguyên nhân khách quan hoặc chủ quan
mà hiện tại những người không dùng tin không cảm thấy sự cần thiết của thông tin và không tin vào những lợi ích mà thông tin mang lại
Như vậy, để xây dựng chính sách, hoạch định chiến lược cho các hoạt động của mình, các đơn vị cung cấp thông tin cần trả lời ít nhất các câu hỏi sau: + Đối tượng sử dụng thông tin của mình là ai
+ Họ cần sử dụng loại thông tin nào
+ Sử dụng phương pháp cung cấp thông tin nào là phù hợp
5 Nhu cầu thông tin
Theo quan điểm của các nhà tâm lý học, nhu cầu là sự đòi hỏi tất yếu mà con người thấy cần được thỏa mãn để tồn tại và phát triển Theo quan điểm của các nhà thông tin học hiện đại, nhu cầu tin là loại nhu cầu tinh thần đặc biệt, đòi hỏi khách quan của con người (cá nhân, nhóm xã hội, cộng đồng xã hội ) đối với sự tiếp nhận và sử dụng thông tin nhằm duy trì hoạt động sống của con người
Như vậy, nhu cầu tin là nhu cầu về sự hiểu biết thế giới khách quan (tự nhiên,
xã hội, con người) để con người có thể tồn tại và phát triển với tư cách là một con người thực sự và để làm tròn chức năng, nhiệm vụ do xã hội phân công
và giao cho
Nhu cầu thông tin thay đổi theo công việc và nhiệm vụ mà người dùng tin phải thực hiện
Các loại nhu cầu thông tin tổng quát nhất đã được nhà thông tin học người
Mỹ xác định trong những năm 60 của thế kỷ XX bằng cách đặt câu hỏi cho các nhà khoa học thuộc lĩnh vực hóa lý và sinh học Ông xác định rằng họ sử dụng thông tin trong những trường hợp sau:
+ Theo dõi, cập nhật các thanh tựu trong lĩnh vực chuyên môn hẹp và các lĩnh vực liên quan
+ Trong công việc hàng ngày
Trang 25+ Khi bắt đầu nghiên cứu một vấn đề mới hoặc một đề án, họ cần thông tin hồi cố bao gồm tài liệu công bố và không công bố về các vấn đề liên quan
Để có thể xác định rõ nhu cầu thông tin của người sử dụng, đơn vị cung cấp thông tin cần nắm được:
+ Lĩnh vực quan tâm
+ Nội dung thông tin quan tâm
+ Mục đích sử dụng thông tin
+ Đối tượng sử dụng thông tin
+ Loại tài liệu thích hợp nhất
+ Phương pháp tiếp cận thông tin phù hợp nhất
+ Mức độ xử lý thông tin phù hợp nhất
+ Thời hạn đáp ứng yêu cầu thông tin
+ Mức độ cấp bách của nhu cầu thông tin
2 Mục đích của khảo sát nhu cầu sử dụng thông tin
Việc xác định nhu cầu thông tin là hoạt động cần thiết nhằm hướng tới việc đảm bảo cho các dịch vụ cung cấp thông tin thương mại của tổ chức cung cấp thông tin đáp ứng ngày càng tốt hơn nhu cầu của người sử dụng cuối cùng
Đối với các tổ chức cung cấp thông tin: Việc xác định nhu cầu thông tin, kết
hợp với đánh giá dịch vụ cung cấp thông tin hiện có, sẽ giúp các tổ chức cung cấp thông tin điều chỉnh tốt hơn các kế hoạch, chương trình thông tin do
họ xây dựng nhằm đem lại lợi ích thiết thực cho cả hai đối tượng Các chương trình này có thể được xây dựng cụ thể cho từng nhóm người sử dụng, từng địa phương hay khu vực, hoặc trong một lĩnh vực thông tin cụ thể
Đối với các tổ chức cung cấp thông tin nói chung, việc đánh giá, xác định nhu cầu thông tin nhằm phát hiện nhu cầu tiềm năng đối với các dịch vụ thông tin hiện chưa thực hiện hoặc triển khai chưa sâu rộng Qua đó, các nhà cung cấp thông tin sẽ khám phá được các cơ hội thị trường mới cho hoạt động thu phí dịch vụ thông tin
Đối với người sử dụng cuối cùng: Hoạt động xác định nhu cầu thông tin do
các tổ chức cung cấp thông tin tiến hành sẽ tạo điều kiện cho những người sử dụng có cơ hội thể hiện những yêu cầu, mong muốn về thông tin và góp ý về các dịch vụ cung cấp thông tin Việc đánh giá nhu cầu thông tin cũng có thể coi là điểm khởi đầu cho những bước hợp tác tiếp theo của các tổ chức cung cấp thông tin đối với người sử dụng cuối cùng, do vậy những yêu cầu về thông tin của người sử dụng cuối cùng được chú trọng hơn
3.Phương pháp khảo sát
Việc sử dụng một mẫu bảng câu hỏi thống nhất chung rất cần thiết để có thể thu thập và xử lý dữ liệu một cách hệ thống về nhu cầu thông tin của các doanh nghiệp Điều đó cũng tạo thuận lợi cho việc phân loại thông tin và tạo
cơ sở cho việc trao đổi về thông tin đối với những cá nhân không quen với những khái niệm thông tin này
Trang 26Bảng câu hỏi điều tra cần bao gồm những mục chính sau:
- Hồ sơ đối tượng sử dụng thông tin (địa chỉ liên hệ, thông tin về hoạt động)
- Các loại thông tin yêu cầu
- Các nguồn thông tin hiện có
- Những hạn chế trong việc tiếp cận và sử dụng thông tin
- Cách thức tiếp cận thông tin
Việc phỏng vấn trực tiếp người sử dụng thông tin cuối cùng là cách tốt nhất
để có thể thu thập được dữ liệu về nhu cầu thông tin Trong khi cố gắng đạt được tỷ lệ phản hồi cao nhất có thể từ những người sử dụng thông tin qua bảng câu hỏi điều tra, việc phỏng vấn trực tiếp thường đem lại nguồn dữ liệu
bổ sung có giá trị chất lượng vô giá đối với các nhà cung cấp thông tin, ví dụ:
- Những nhận xét, gợi ý và phê bình có thể nằm ngoài mẫu câu hỏi chung;
- Những ví dụ cụ thể về yêu cầu thông tin mà các nhà cung cấp thông tin
có thể cần tiếp thu thực hiện ngay;
- Thông tin chi tiết về đối tượng sử dụng;
Bất lợi chính của việc phỏng vấn là chi phí và thời gian cần thiết để đi tới các đối tượng sử dụng ở các địa bàn, khu vực khác nhau
b Gửi bảng câu hỏi điều tra qua thư, fax, email
Bảng câu hỏi sử dụng trong các cuộc phỏng vấn có thể được gửi qua thư tới một số lượng các đối tượng sử dụng lớn hơn rất nhiều, có thể là toàn bộ các đối tượng được coi là người sử dụng cuối cùng tiềm năng trong cuộc điều tra này Cách thức này có thể giúp đạt được phạm vi điều tra lớn hơn nhiều và sự đại diện chính xác hơn Mặc dù chi phí điều tra qua thư không đáng kể, nhưng qua kinh nghiệm thực tế, tỷ lệ phản hồi đối với điều tra qua thư khá thấp, thường dưới 10% Việc điều tra qua thư không thể thay thế các cuộc phỏng vấn, mà chỉ có thể là cách thức phụ trợ thêm
c Hội thảo
Một cách thức khác để thu được phản hồi về nhu cầu thông tin và có thể tổng hợp được các phiều trả lời bảng câu hỏi điều tra là tổ chức các hội thảo mời các đối tượng sử dụng thông tin tham gia
d Các cuộc gặp gỡ và đào tạo, tập huấn
Bất kỳ một cuộc gặp gỡ hoặc đào tạo, tập huấn nào có sự tham gia của các đối tượng sử dụng thông tin đều là cơ hội tốt để điều tra nhu cầu thông tin của họ
và đề nghị họ điền bảng câu hỏi điều tra
e Những cuộc nghiên cứu hoặc điều tra về nhu cầu thông tin đã được thực hiện
Trang 27Trước khi thực hiện việc điều tra nhu cầu thông tin, nhà cung cấp thông tin cần kiểm tra xem liệu đã có tài liệu nào đánh giá về nguồn cung và nhu cầu thông tin chưa Đó có thể là các nghiên cứu, điều tra hoặc các bài viết trên báo, tạp chí Một số tài liệu có thể do các hiệp hội ngành hàng hoặc cấp địa phương nào đó thực hiện Các trường đại học, các thư viện thương mại, các hiệp hội kinh doanh, phòng thương mại & công nghiệp, các nhà cung cấp thông tin tư nhân đều có thể là tác giả của các cuộc điều tra đó
4.Xử lý và phân tích kết quả điều tra
Việc xử lý các dữ liệu thu thập được từ cuộc điều tra đòi hỏi một khối lượng công việc và thời gian rất lớn Khi khai thác dữ liệu thống kê, người ta thường
sử dụng mã code cho các câu trả lời và xử lý dữ liệu trên máy tính Các kết quả thống kê cần được mô tả dưới dạng biểu đồ để dễ hiểu hơn
Bảng câu hỏi điều tra nhu cầu thông tin cũng có những câu hỏi đòi hỏi câu trả lời dưới dạng văn bản, chứ không phải là những câu trả lời trực tiếp dưới dạng mã số Những thông tin như vậy cần phải được xử lý theo phương pháp tính toán thủ công trước khi chuyển đổi sang dạng bảng biểu và biểu đồ (ví dụ: thị trường xuất khẩu; thị trường nhập khẩu, mô tả sản phẩm ) Những thông tin khác thu được từ bảng câu hỏi điều tra là mục nhận xét được viết tự
do (ví dụ: những nguồn thông tin tốt nhất; những khó khăn gặp phải, những gợi ý ) Đó là những đánh giá định tính có giá trị rất lớn Những lời nhận xét
và gợi ý lặp lại giống nhau có thể được tính toán và tổng hợp lại theo từng phạm trù Những đánh giá định tính khác cần phải được giải thích rõ hoặc đưa vào trong báo cáo cuối cùng của chương trình điều tra khảo sát
I.3 Nghiên cứu cơ sở lý thuyết khảo sát yêu cầu và phương thức cung cấp thông tin
1.Nhu cầu thông tin và các đối tượng dùng tin
Những thành tựu phát triển khoa học và công nghệ to lớn đã làm tăng nhanh các nguồn thông tin khoa học và công nghệ trên thế giới tới mức bùng nổ, làm cho việc quản trị cũng như khai thác sử dụng thông tin trở thành một nhu cầu ngày càng cấp bách trong xã hội Cùng với việc bùng nổ thông tin, xuất hiện một ngành khoa học mới là thông tin học, đáp ứng các yêu cầu sau:
+ Nghiên cứu cấu trúc và tính chất của thông tin, và tính quy luật của hoạt động thông tin (gồm các khía cạnh: lý thuyết, lịch sử, phương pháp luận và
tổ chức)
+ Nghiên cứu, triển khai ứng dụng và sử dụng các phương tiện và phương pháp về kỹ thuật, về xã hội học, và về tổ chức, nhằm thực hiện các việc: thu thập, định chỉ mục, phân tích, tổng hợp, bảo quản, phổ biến, tìm kiếm, định
vị, tích hợp, hiển thị, sử dụng phân tán (kể cả với những phương tiện tương
Trang 28tác điện tử), và công bố các dữ liệu sao cho từ đó mà người dùng trong mọi lĩnh vực hoạt động xã hội có thể khai thác được những lợi ích kinh tế cũng như những lợi ích khác
+ Nghiên cứu tính quy luật của hoạt động thông tin, tạo ra các ý tưởng và phương pháp đặc thù mà không có trong các môn khoa học khác: Mô tả nội dung tài liệu, định chỉ mục, xây dựng các nhóm từ vựng tương đương quy ước, xây dựng thesaurus như một phương tiện trình bày tri thức, tổ chức tệp tin dạng đảo, phổ biến tin chọn lọc, tìm tin, phân định tài liệu theo mức
độ phù hợp, phân loại tự động tài liệu theo nội dung, phân tích các trích dẫn thư mục trong tìm tin và khoa học lượng, quy luật tăng trưởng, phân tán và lão hóa tài liệu, và giá trị thông tin của chúng, v.v
Về thực tiễn hoạt động, thông tin học có thể chia thành 2 nhánh nhỏ:
- Các giải pháp kỹ thuật: Nghiên cứu và thực thi các nguyên tắc và phương pháp tạo lập và vận hành các phương tiện kỹ thuật tính toán, viễn thông, kỹ thuật tổ chức, và các phương tiện công nghệ thông tin (bao gồm các phương tiện tin học hóa: máy tính, chương trình, các phương tiện ngôn ngữ thông tin, khổ mẫu trình bày dữ liệu, từ điển các ngôn ngữ tư liệu, các phương tiện bảo
vệ thông tin…
- Các giải pháp xã hội: nghiên cứu và thực thi sự tương tác thông tin trong xã hội (bao gồm cả truyền thông xã hội, người dùng tin…), xây dựng các nguồn lực và tiềm lực thông tin của xã hội, góp phần quan trọng trong việc nghiên cứu và xây dựng xã hội thông tin, giải quyết vấn đề an toàn thông tin, các ảnh hưởng tới cơ cấu xã hội, vấn đề dân chủ, văn hóa thông tin, đảm bảo khả năng phát triển cá nhân con người trong xã hội thông tin…
Như vậy, thông tin học trên thực tế mang tính ứng dụng rất cao, nó thực hiện đồng thời hai nhiệm vụ:
Về lý thuyết, thông tin học có nhiệm vụ tìm ra những quy luật chung nhất của
việc sản sinh, thu thập, tổ chức, lưu trữ, tìm kiếm và phổ biến thông tin trong các lĩnh vực hoạt động của con người
Về mặt ứng dụng, thông tin học có nhiệm vụ tìm ra những phương tiện và
phương pháp thích hợp để thực hiện các quá trình thông tin có hiệu quả nhất,
để xây dựng các hệ thống giao lưu thông tin trong các tổ chức, các ngành khoa học và giữa khoa học với sản xuất
Có thể chia các đối tượng sử dụng thông tin ra là các nhóm lớn như sau:
+ Các nhà quản lý, hoạch định chính sách
+ Các nhà nghiên cứu khoa họa
+ Các cán bộ chuyên môn
2.Các phương thức truyền và cung cấp thông tin
Trong suốt lịch sử của loài người, việc phát minh ra ngôn ngữ là cuộc cách mạng truyền thông lớn nhất đầu tiên Sau đó ít lâu con người phát sinh ra tín hiệu bằng lửa có khả nǎng truyền đạt các thông tin có hiệu quả và nhanh chóng tới các vùng xa Trong một thời gian dài, phương pháp này đã được sử
Trang 29dụng một cách rộng rãi để đáp ứng các nhu cầu về truyền thông Một cuộc cách mạng thông tin khác nữa lớn hơn đã xảy ta khi con người biết được làm thế nào để ghi lại ý nghĩ và tư tưởng của mình bằng cách chữ viết Với khả nǎng này, con người có khả nǎng truyền thông tin mà không bị giới hạn bởi thời gian và không gian Đồng thời, việc phát minh này đã đưa ra các dịch vụ đưa thư và thông báo Việc phát minh ra công nghệ in đã thúc đẩy hơn nữa việc phát triển các phương tiện truyền tin và cho con người có khả nǎng thông tin với nhiều người hơn và với các khu vực ở cách xa nhau
Từ cuối thế kỷ 18 đến thế kỷ 19, công nghệ phát thanh và truyền thông bằng điện đã được phát triển và bắt đầu được dùng rộng khắp Đài phát thanh và truyền hình được phát minh đã làm thay đổi thế giới chúng ta rất nhiều Tiếp theo, trong suốt hơn 100 năm qua, rất nhiều phát minh lớn đã xuất hiện, đặc biệt là các phát minh liên quan đến công nghệ thông tin đã thực sự ảnh hưởng đến toàn bộ các hoạt động trong xã hội của chúng ta, khởi đầu là việc Von Neuman đã phát triển thành công máy điện toán có lưu giữ chương trình PCBs được đưa ra vào những nǎm 50, đã làm cho việc tích hợp các mạch điện
tử có thể thực hiện được Cùng trong nǎm đó, RCA đã phóng thành công vệ tinh nhân tạo vào không trung và laze dùng cho truyền thông quang học đã được phát minh Vào những nǎm 60, các loại LSIs, các máy điện toán mini có
bộ nhớ kiểu bong bóng, cáp quang, và máy phân chia thời gian được phát triển và thương mại hoá một cách thành công vào các nǎm 70, các loại CATVs hai hướng, đĩa Video, máy điện toán đồ hoạ, truyền ảnh qua vệ tinh,
và các hệ thống tổng đài điện tử hoá toàn bộ được đưa ra
Như vậy cùng với sự phát triển của xã hội loài người, các hình thức truyền và cung cấp thông tin ngày một mở rộng và hiện đại, đáp ứng nhu cầu trao đổi thông tin liên tục tăng, phục vụ các hoạt động của toàn xã hội Có các hình thức truyền đạt và cung cấp thông tin chính như sau:
+ Tiếng nói (hội thảo, giảng bài, gặp gỡ)
+ Chữ viết (Sách, tạp chí, luận văn)
+ Phát thanh, truyền hình
+ Mạng máy tính (Internet)
+ Phương tiện đa truyền thông (multimedia)
3.Phương pháp và mục tiêu khảo sát
a Phương pháp khảo sát
Để có kết quả tốt nhất cho cuộc khảo sát, việc trước tiên là xác định nội dung thông tin cung cấp, sau đó xác định các đối tượng cung cấp và cuối cùng là xác định hình thức cung cấp thông tin cho từng loại đối tượng Với một nội dung khảo sát như vậy, nên sử dụng phương pháp gửi mẫu phiếu điều tra Phiếu điều tra cần thiết kế để chứ đựng tất cả các nội dung cần thiết sau:
- Thông tin về đối tượng được khảo sát
- Nhu cầu thông tin
Trang 30- Thông tin được sử dụng với mục đích gì, phục vụ cho công việc nào
- Hình thức cung cấp thông tin
- Tần suất cung cấp thông tin
- Độ sâu của thông tin được cung cấp (thông tin chung hay mang tính phân tích dự báo …)
- Hiện tại, đối tượng đang sử dụng những nguồn thông tin nào, hình thức
và tần suất cung cấp như thế nào, đáp ứng nhu cầu ở mức độ nào
a Mục tiêu khảo sát
Đánh giá thực trạng nhu cầu và cung cấp thông tin, phân tích các khả năng trong tương lai và các định hướng về tổ chức và cung cấp thông tin cho các nhóm đối tượng sử dụng Các kết quả cần hướng tới là:
- Phân loại thông tin
- Phân loại đối tượng dùng tin
- Xác định nhu cầu sử dụng thông tin đối với từng đối tượng
- Xác định nguồn thông tin
- Xác định phương pháp tổ chức thông tin
- Xác định phương pháp cung cấp thông tin
b Xử lý kết quả điều tra khảo sát
Kết quả cuối cùng của cuộc điều tra khảo sát là một báo cáo bám sát mục tiêu ban đầu đưa ra, cụ thể:
+ Các nhóm thông tin dự kiến cung cấp
+ Độ sâu của thông tin dự kiến cung cấp (tin tức, phân tích dự báo …)
+ Các nhóm đối tượng dự kiến sử dụng thông tin
+ Nhu cầu sử dụng thông tin của từng nhóm đối tượng
+ Khả năng đáp ứng thông tin hiện tại
+ Hình thức cung cấp thông tin của từng nhóm thông tin đối với từng loại đối tượng
+ Đề xuất các giải pháp thực hiện tổ chức và cung cấp thông tin tới từng nhóm đối tượng
I.4 Nghiên cứu cơ sở lý thuyết của tổng hợp và viết tài liệu khảo sát
1 Cấu trúc của báo cáo nghiên cứu, khảo sát
Cấu trúc chung của một báo cáo nghiên cứu khảo sát bao gồm các nội dung chính sau:
a Đặt vấn đề
- Khái quát về tình hình nghiên cứu trong và ngoài nước liên quan đến vấn đề nghiên cứu Từ đó làm nổi bật sự cần thiết phải nghiên cứu, phạm vi nghiên cứu
Trang 31- Mục đích yêu cầu của vấn đề nghiên cứu, khảo sát
b Phương pháp nghiên cứu, khảo sát
Để đạt được mục đích, yêu cầu đặt ra, nhóm thực hiện đã sử dụng phương pháp gì trong quá trình nghiên cứu, khảo sát, tính phù hợp của những phương pháp đã chọn
c Nội dung nghiên cứu, khảo sát và kết quả đạt được
- Kết quả thu thập thông tin
- Phân tích đánh giá thông tin thu thập được
- Trình bày kết quả nghiên cứu khảo sát bằng các công cụ trực quan như bảng biểu, đồ thị
d Kết luận và kiến nghị
- Rút ra những kết quả nghiên cứu, khảo sát chủ yếu mà cuộc khảo sát đã thực hiện được Đối chiếu với mục đích yêu cầu đề ra đã đạt được đến mức độ nào Những vấn đề còn hạn chế, nguyên nhân
- Nêu lên những kiến nghị có liên quan đến việc nghiên cứu, khảo sát của đề tài/dự án, đề xuất hướng tiếp tục nghiên cứu, hoàn thiện hoặc giải pháp hoàn thiện
e Tài liệu tham khảo
Sắp xếp danh mục các nguồn tài liệu và sách xuất bản đã tham khảo để thực hiện Nguồn tài liệu thường được trình bày theo thứ tự sau đây:
Họ tên tác giả/nhan đề/các yếu tố xuất bản (tên sách, tạp chí , năm xuất bản, trang )
Trong khi viết báo cáo, nếu nội dung liên quan đến tài liệu tham khảo thì sau nội dung đó, phải viết số thứ tự trong danh mục tài liệu tham khảo trong ngoặc vuông [ ]
a.1.Làm cho dữ liệu có giá trị
Sau khi thu thập, phải kiểm tra dữ liệu để bảo đảm chúng có ý nghĩa, tức là có giá trị đối với việc xử lý và phân tích Việc làm cho dữ liệu có giá trị có thể thực hiện theo hai bước:
- Bước thứ nhất: Tiến hành xem xét một cách kỹ lưỡng các phương pháp
và biện pháp đã được sử dụng để thu thập dữ liệu (tức kiểm tra các công cụ dùng để thu thập dữ liệu)
Trang 32- Bước thứ hai: Tiến hành nghiên cứu kỹ các phiếu khảo sát đã được phỏng vấn để phát hiện ra những nguyên nhân dẫn đến các sai sót
a.2 Hiệu chỉnh dữ liệu
Do những nguyên nhân khách quan và chủ quan, quá trình thu thập dữ liệu dù được chuẩn bị chu đáo vẫn còn có thể tồn tại những sai sót phổ biến sau:
- Những câu trả lời không đầy đủ (là những câu trả lời không rõ ý hoặc trả lời nửa chừng)
- Những câu trả lời thiếu nhất quán
- Những câu trả lời không thích hợp
- Những câu trả lời không đọc được
Có ba cách tiếp cận được sử dụng để xử lý các dữ liệu “xấu” từ các tình huống đó
* Quay trở lại người đi phỏng vấn hay người trả lời câu hỏi để làm rõ vấn đề
* Suy luận từ những câu trả lời khác
Theo cách này, người hiệu chỉnh phỏng đoán từ các dữ liệu khác để làm rõ câu trả lời nào đúng Nhưng đây là cách làm đầy rủi ro Khó có thể xác minh được các quy luật để suy luận các câu trả lời
* Loại toàn bộ các câu trả lời
Theo cách này, người hiệu chỉnh chỉ việc loại đi những câu trả lời có nghi vấn Trong trường hợp quy mô của mẫu tương đối lớn, người hiệu chỉnh có thể loại bỏ toàn bộ các câu trả lời nếu thiếu nhất
b Cấu trúc và mã hóa dữ liệu
Mã hoá dữ liệu là một quá trình liên quan tới việc nhận diện và phân loại mỗi câu trả lời trên một ký hiệu được chỉ định (ký hiệu có thể bằng số hoặc bằng chữ)
Trang 33thể đọc được cần phải phân các câu trả lời theo những loại giống nhau và gán cho chúng các ký hiệu mã hoá
Có hai cách:
- Cách thứ nhất: Người nghiên cứu tiến hành mã hoá các câu trả lời trước khi nghiên cứu thực địa Trường hợp này, người nghiên cứu phải dự kiến về mặt lý thuyết các câu trả lời hoặc sử dụng kinh nghiệm của các cuộc nghiên cứu trước, đồng thời mất thời gian huấn luyện những người đi phỏng vấn cách phân loại các câu trả lời được ghi nguyên văn đúng loại mã hoá dự kiến
- Cách thứ hai: Chờ đến khi thu thập xong dữ liệu mới tiến hành mã hoá Khi đó, người nghiên cứu phải xem xét ngẫu nhiên 30% các câu hỏi đã được trả lời để tính toán các loại tình huống trả lời và mã hoá nó Trước khi mã hoá, phải rà soát lại toàn bộ các câu hỏi đã phỏng vấn để xem xét có tình huống trả lời nào khác không Để tiện lợi cho việc phân tích, không nên phân loại quá 10 tình huống trả lời cho một vấn đề
Các nguyên tắc thiết lập kiểu mã hoá
Để làm cho chức năng mã hoá được tốt hơn cần phải tuân thủ các nguyên tắc sau đây khi thiết lập kiểu mã hoá
- Số “kiểu mã hoá” thích hợp: số kiểu mã cần phải đủ lớn để bao quát hết được các sự khác biệt trong dữ liệu Nếu số lượng mã hoá quá ít thì có thể một số thông tin quan trọng sẽ không được bao quát
- Những thông tin trả lời được sắp xếp trong cùng một “loại mã hoá” thì phải tương tự nhau về đặc trưng nghiên cứu
- Ranh giới rõ ràng giữa các “loại mã hoá”
Với các đặc trưng đang được nghiên cứu, những sự khác biệt về thông tin trả lời giữa các “loại mã” phải không giống nhau đến mức đủ xếp vào cùng một
“loại mã”
- Nguyên tắc loại trừ giữa các loại mã hoá: các loại mã phải không được chồng chéo lên nhau, cần phải thiết lập chúng như thế nào để bất cứ tình huống trả lời nào cũng chỉ được xếp vào một loại mã hoá thôi
- Nguyên tắc toàn diện: theo nguyên tắc này, cấu trúc của một loại mã phải bao quát được tất cả các tình huống trả lời nhằm đảm bảo tất cả các tình huống cần được mã hoá
- Nguyên tắc “đóng kín” những khoảng cách lớp: theo nguyên tắc này, không được “để mở” khoảng cách lớp của mã hoá Việc không chỉ rõ giới hạn
về khoảng cách lớp sẽ làm lu mờ đi những giá trị phân tán ở hai đầu mút của dãy phân phối và do đó sẽ không cho phép tính toán được giá trị trung bình của những quan sát trong mỗi khoản cách lớp
- Nguyên tắc về những khoảng cách lớp: Khoảng cách các lớp nên được quy định tương đương nhau thì tốt hơn là để chúng có sự thay đổi Nếu không tuân thủ các nguyên tắc này có thể đưa đến tình trạng khoảng cách lớp thiếu
sự dàn trải phù hợp Tuy nhiên, có thể chấp nhận các khoảng cách có độ rộng không tương đương nhau khi đã định rõ các loại mã chứa đựng các phần
Trang 34tương đối nhỏ của tổng thể những đặc trưng trả lời từ những phần tử nhỏ đó
có thể không cung cấp những thông tin hữu ích nào cả
- Nguyên tắc định điểm giữa các khoảng cách lớp: đối với những câu hỏi
mà khi trả lời người ta hay làm tròn số thì những khoản cách lớp cần được thiết kế sao cho những con số được làm tròn (lớp hơn) đó rơi vào những điểm giữa của khoảng cách lớp
Lập danh bạ mã hoá
Danh bạ mã hoá gồm nhiều cột, trong từng cột chứa những lời giải thích về những mã hiệu đã được sử dụng trong những trường dữ liệu (data fields) và những mối liên hệ của chúng đối với những câu trả lời của các câu hỏi
Chức năng của danh bạ mã hoá là giúp người làm mã hoá thực hiện việc làm biến đổi từ câu trả lời ra một ký hiệu thích hợp mà máy điện toán có thể đọc được, giúp các nhà nghiên cứu nhận diện các loại biến số khi in bản phân tích bằng máy điện toán
Lượng thông tin tối thiểu được chứa đựng trong một danh bạ mã hoá đối với một câu hỏi bao gồm: số của câu hỏi, số cột cần có trong máy điện toán, tên
của biến số, vấn đề của câu hỏi và mã hiệu đã được sử dụng
3 Xác định thang điểm đo lường
Đo lường trong nghiên cứu khảo sát là quá trình gắn những con số hoặc các biểu tượng đối với những đặc tính của sự vật, hiện tượng nghiên cứu theo các nguyên tắc đã được xác định để có thể đánh giá, so sánh và phân tích chúng
Có những đặc tính của sự vật là định lượng như chiều cao, cân nặng của một người nào đó, nhưng có nhiều đặc tính chỉ ở dạng định tính như mức độ nhận biết, mức độ cần thiết của người sử dụng về một thông tin nào đó Đo lường những đặc tính như vậy là hết sức quan trọng trong nghiên cứu khảo sát Các
cố gắng để hàn gắn những con số cho các đặc tính sự vật là hết sức quan trọng
vì các phân tích tính toán thống kê chỉ có thể thực hiện bằng các con số
Có 4 loại thang đo lường được sử dụng là thang đo biểu danh, thang đo thứ
tự, thang đo khoảng cách và thang đo tỷ lệ Việc sử dụng thang đo lường nào
sẽ định hướng cho việc sử dụng công cụ phân tích sau này của người nghiên cứu, đồng thời nó cũng giúp cho việc trình bày công cụ thu thập dữ liệu (cụ thể là bảng câu hỏi) được rõ ràng hơn
Thang đo biểu danh (Nominal scale)
Thang đo biểu danh là thang đo sử dụng các con số hoặc kí tự đánh dấu để phân loại đối tượng hoặc sử dụng các kí hiệu để phân loại đối tượng Thang
đo biểu danh chỉ biểu hiện về mặt ý nghĩa biểu danh mà hoàn toàn không biểu hiện về định lượng của đối tượng đó Khi một thang định danh được sử dụng với các mục đích chỉ danh, nó tồn tại một quan hệ tương ứng một – một giữa con số và đối tượng tương ứg chỉ với một con số và mỗi con số chỉ gắn với mỗi đối tượng
Trang 35Thang điểm biểu danh dùng để chỉ danh các đồ vật, những con số sử dụng trong thang định danh chỉ có tính qui như mã số điện thoại, số chứng minh thư…Chúng được dùng để xác định các sự vật nghiên cứu
Thang đo thứ tự (Ordinal scale)
Thang điểm này cung cấp thông tin về mối quan hệ thứ tự giữa các sự vật Cấp độ của thang đo lường này bao gồm cả thông tin về sự biểu danh và xếp hạng thứ tự Nó cho phép xác định một đặc tính của sự vật này có hơn một sự vật khác hay không, nhưng không cho phép chỉ ra mức độ của sự cách biệt này Khi sử dụng thang đo lường thứ tự, người nghiên cứu chỉ diễn tả được thứ tự xếp hạng mà không diễn tả được khoảng cách giữa các thứ hạng là bao nhiêu Cũng như thang đo định danh, các con số trong thang đo thứ tự được gán một cách quy ước Nhưng vì các hạng mục tự nó có trật tự nên hệ thống
số phải có trật tự Người nghiên cứu có thể biến đổi một thang đo thứ tự mà không làm thay đổi tính chất của nó
Cũng giống như thang định danh, các phép toán số học thông dụng như cộng trừ nhân chia không thể áp dụng trong thang điểm thứ tự Thống kê một biến thường được dùng cho thang điểm biểu danh là phân tích tần suất, phần trăm, trung vị trong khi đó thống kê hai biến là những phương pháp thống kê dựa trên các quan hệ thứ tự
Thang đo thứ tự được dùng rất phổ biến trong nghiên cứu khảo sát để đo lường thái độ, ý kiến, quan điểm, nhận thức và sở thích
Thang đo khoảng (Interval Scale):
Thang đo thứ tự cho phép người nghiên cứu biểu thị sự khác nhau nhưng chưa cho phép người nghiên cứu có thể so sánh sự khác nhau đó Thang điểm khoảng cách có tất cả các thông tin của một thang đo thứ tự và nó còn cho phép sự so sánh sự khác nhau giữa các thứ tự đó Các con số biểu thị những điểm cụ thể trên thang đo lường Sự khác nhau giữa 1 và 2 bằng sự khác nhau của 3 và 4 và dĩ nhiên sự khác nhau giữa 2 và 4 bằng 2 lần sự khác nhau giữa
1 và 2
Đối với các dữ liệu khoảng, người nghiên cứu có thể làm các phép tính cộng trừ, phân tích những phép thống kê thông thường như số trung bình, độ lệch chuẩn, phương sai, có thể được sử dụng Nhưng vì đây là thang đo không có điểm gốc quy chiếu nên không làm được phép chia
Thang đo tỷ lệ (Ratio scale)
Thang điểm tỷ lệ có tất cả các đặc điểm của thang đinh danh, thang khoảng cách, thang thứ tự và ngoài ra nó còn có điểm 0 (zero) cố định Do vậy, với thang điểm này người nghiên cứu có thể xác định, xếp hạng thứ tự, so sánh các khoản cách hay những sự khác biệt và cho phép tính toán tỷ lệ giữa các giá trị của thang đo Người nghiên cứu có thể nói đến các khái niệm gấp đôi, một nửa trong thang đo này
Trang 36Trong nghiên cứu khảo sát, thang tỷ lệ thường dùng để đo lường chiều cao, trọng lượng, tuổi, thu nhập của các cá nhân, mức bán, doanh số của doanh nghiệp hoặc mức giá mà người tiêu dùng sẵn sàng trả cho sản phẩm
3 Xây dựng các tiêu chí trong kết quả khảo sát Lập báo cáo khảo sát
a Chức năng của báo cáo khảo sát
Báo cáo khảo sát có ba chức năng chính
- Là phương tiện mà qua đó các dữ liệu và phân tích các kết quả được sắp xếp có hệ thống và cố định Báo cáo khảo sát là bản duy nhất ghi chép có hệ thống cuộc nghiên cứu và được xem là tài liệu tham khảo cần thiết cho các cuộc nghiên cứu trong tương lai
- Phản ánh chất lượng của công trình nghiên cứu Chất lượng công trình nghiên cứu được đánh giá chủ yếu qua báo cáo bởi vì các bản báo cáo là bản liệt kê kỹ năng và thành tích về thời gian, về tư duy và sự cố gắng dành cho công trình nghiên cứu
- Kết quả của việc phân tích dữ liệu thu thập được từ báo cáo khảo sát giúp cho việc đề ra hoạt động tiếp theo hoặc chính sách thích hợp Trong các tình huống khẩn cấp, những bản sao có tính thuyết phục sẽ giúp cho lãnh đạo đề ra quyết định nhanh chóng khả năng làm tăng độ nhận thức và hoạt động đúng của các kết quả khảo sát là tiêu chuẩn chủ yếu cho sự thành công của bản báo cáo
b Phân tổ thống kê
Dữ liệu thu thập được từ các phiếu khảo sát có tính rời rạc, không theo trật tự nào và nếu nhìn vào, chúng ta không thể phát hiện được điều gì phục vụ cho quá trình nghiên cứu Do vậy, chúng ta cần trình bày một cách có hệ thống với mục đích làm dữ liệu gọn lại và thể hiện được tính chất của nội dung nghiên cứu Công việc cần thiết đầu tiên trong xử lý dữ liệu là phân tổ dữ liệu Phân tổ còn được gọi là phân lớp thống kê, là căn cứ vào một hay một số tiêu thức để chia các đơn vị tổng thể ra thành nhiều tổ (lớp, nhóm) có tính chất khác nhau Có thể phân tổ theo phương thức thuộc tính hoặc theo tiêu thức số lượng
Dữ liệu, sau khi được phân tổ, sẽ được trình bày dưới các dạng để có thể phát hiện được các xu hướng, đặc tính và đưa ra các kết luận cho việc xử lý tiếp theo Có một số cách trình bày dữ liệu: bảng thống kê, đồ thị
d Bảng thống kê
Bảng thống kê là một hình thức trình bày các tài liệu thống kê một cách có hệ thống, hợp lý và rõ ràng, nhằm nêu lên các đặc trưng về mặt lượng của hiện tượng nghiên cứu Đặc điểm chung của các bảng thống kê là có các con số của từng bộ phận và có mối liên quan mật thiết với nhau
e Đồ thị
Đồ thị thống kê là phương pháp trình bày và phân tích các thông tin thống kê bằng các biểu đồ, đồ thị và bản đồ thống kê Phương pháp đồ thị thống kê sử
Trang 37dụng con số kết hợp với các hình vẽ, đường nét và màu sắc để trình bày các đặc điểm số lượng của hiện tượng Chính vì vậy, ngoài tác dụng phân tích giúp chúng ta nhận thức được những đặc điểm cơ bản của hiện tượng một cách trực quan, đồ thị thống kê còn là phương pháp trình bày các thông tin một cách khái quát và sinh động, chứa đựng tính mỹ thuật, thu hút sự chú ý của người đọc, giúp họ dễ hiểu, dễ nhớ Các đồ thị thường dùng bao gồm: biểu đồ hình cột, biểu đồ tượng hình, biểu đồ diện tích, đồ thị đường gấp khúc
+ Dữ liệu tích hợp (Atomicity):Dữ liệu tập hợp từ nhiều nguồn khác nhau Điều này sẽ dẫn đến việc quá trình tập hợp phải thực hiện việc làm sạch, sắp xếp, rút gọn dữ liệu
+ Theo chủ đề (Consistency): Không phải tất cả các dữ liệu đều được tập hợp, người ta chỉ lấy những dữ liệu có ích
+ Biến thời gian (Isolation): Các dữ liệu truy suất không bị ảnh hưởng bởi các
dữ liệu khác hoặc tác động lên nhau
+ Dữ liệu cố định (Durable): Khi một Transaction hoàn chỉnh, dữ liệu không thể tạo thêm hay sửa đổi
Với lượng dữ liệu đa dạng về chủng loại, nhiều về số lượng như vậy việc lưu trữ sẽ vô cùng phức tạp Vì vậy việc nghiên cứu xây dựng một kho chứa các
dữ liệu thô tiền xử lý có khả lưu trữ, sắp xếp, tìm kiếm đối với nhiều loại dữ liệu khác nhau là rất cần thiết
2.Định nghĩa kho dữ liệu nguồn
Theo định nghĩa, kho dữ liệu là một tập các dữ liệu có những đặc điểm sau: tập trung vào một chủ đề, tổng hợp từ nhiều nguồn dữ liệu khác nhau, từ nhiều thời gian, và không sửa đổi Được dùng trong việc hỗ trợ ra quyết định trong công tác quản lý
Trang 38Định nghĩa cổ điển này về kho dữ liệu tập trung vào việc lưu trữ dữ liệu Tuy nhiên, các phương tiện cho việc lấy và phân tích, trích rút, biến đổi, nạp dữ liệu, và quản lý dữ liệu cũng được coi là các thành phần cốt yếu của một hệ thống kho dữ liệu Nhiều người sử dụng thuật ngữ "kho dữ liệu" với ngữ cảnh rộng hơn Một định nghĩa mở rộng cho kho dữ liệu bao gồm cả các công cụ thông minh, các công cụ để trích, biến đổi và nạp dữ liệu vào kho, và các công cụ để quản lý và lấy siêu dữ liệu (meta data)
3.Cấu trúc của một kho dữ liệu nguồn
Vì dữ liệu trong kho dữ liệu rất lớn và không có những thao tác như sửa đổi hay tạo mới nên nó được tối ưu cho việc phân tích và báo cáo Các thao tác với dữ liệu của kho dữ liệu dựa trên cơ sở là Mô hình dữ liệu đa chiều (multidimensional data model), được mô hình vào đối tượng gọi là data cube Data cube là nơi trung tâm của vấn đề cần phân tích, nó bao gồm một hay nhiều tập dữ kiện (fact) và các dữ kiện được tạo ra từ nhiều chiều dữ kiện khác nhau (dimention)
Với những đặc điểm như vậy và nhằm đáp ứng yêu cầu một cách hoàn hảo nhất, mô hình kho dữ liệu bao gồm ba tầng như sau
Tầng đáy (Bottom tier): Là nơi cung cấp dịch vụ lấy dữ liệu từ nhiều nguồn
khác sau đó chuẩn hóa, làm sạch và lưu trữ dữ liệu đã tập trung Tại đây dữ liệu được tổ chức dưới dạng hệ thống cơ sở dữ liệu quan hệ
Ví dụ: Ta có một cơ sở dữ liệu về thông tin khách hàng được thu thập từ các nguồn khác nhau như file hồ sơ, thông qua một chương trình ứng dụng trung gian mà ta gọi là các cổng kết nối (gateway) Các cổng này hỗ trợ các DBMS
cơ bản cho và phép các chương trình tạo ra các mã SQL thực hiện được trên máy chủ Một số gateway phổ biến hay được các lập trình viên sử dụng là ODBC, JDBC, OLE DB
Tại tầng này dữ liệu được trải qua một quá trình gọi là tiền xử lý dữ liệu (Data preparation) bao gồm các quá trình làm sạch dữ liệu (data cleaning), tính hợp
dữ liệu (data integration), chọn dữ liệu (data selection), biến đổi dữ liệu (data transformation)
Tầng giữa (Middle tier) : Hay được gọi tầng trung gian cung cấp các dịch vụ
để thực hiện các thao tác với kho dữ liệu gọi là dịch vụ OLAP (OLAP server)
Có thể cài đặt bằng Relational OLAP, Multidimensional OLAP hay kết hợp
cả hai mô hình trên Hybrid OLAP
Tầng trên cùng (Top tier) : là nơi chứa các câu truy vấn, thống kê báo cáo,
phân tích xu hướng và dự báo
Trang 39Hình II.1 Mô hình kho dữ liệu
Từ quan điểm kiến trúc dữ liệu 3 lớp như ở trên ta có thể phân thành 3 loại
mô hình dữ liệu nguồn bao gồm:
- Kho dữ liệu doanh nghiệp (Enterprise warehouse)
Một kho doanh nghiệp thu thập tất cả các thông tin về đối tượng bao trùm toàn bộ tổ chức Nó cung cấp dữ liệu tích hợp toàn công ty, thường là từ một hay nhiều hệ thống hoạt động Nó thường chứa dữ liệu chi tiết cũng như tóm tắt dữ liệu, và có thể có kích thước từ một vài gigabyte hàng trăm gigabyte, terabyte, hoặc hơn
- Kho dữ liệu theo chủ đề (Data mart) là nơi các dữ liệu được khoanh
vùng theo chủ đề tới một giới hạn nào đó và có thể được thay đổi cho phù hợp với nhu cầu của từng bộ phận người dùng Một kho dữ liệu có thể được phân tích thành nhiều kho dữ liệu chủ đề và ngược lại một tập hợp các kho dữ liệu theo chủ đề có thể tạo thành một kho dữ liệu
Data Mart là một dạng thu nhỏ của kho dữ liệu, nếu kho dữ liệu mô tả thông
tin của một tổ chức thương mại thì Data Mart mô tả thông tin cho từng phòng ban của tổ chức đó (như phòng kinh doanh, phòng nhân sự,…) hoặc chứa thông tin cho mỗi chi nhánh của tổ chức Việc sử dụng Data Mart cho phép thực thi các truy vấn nhanh hơn vì dữ liệu của chúng ít hơn so với kho dữ liệu
- Kho dữ liệu ảo (Virtual warehouse) Là tập hợp các hoạt động trên cơ
sở dữ liệu Điều này làm cho các câu truy vấn (query) hoạt động hiệu quả hơn
và tiết kiệm tài nguyên hệ thống, chỉ một một số hoạt động tóm tắt cần thiết
mới được vật lý hóa
Trang 40II.2 Nghiên cứu cơ sở lý thuyết và công nghệ về thiết kế kho dữ liệu và datamart
Việc tạo lập các kho dữ liệu theo chủ đề (Data Mart) sẽ khiến cho dữ liệu tích lũy được phân tích nhanh, chính xác Tuy nhiên chúng có thể làm tốn thêm thời gian xử lý cho việc cập nhật dữ liệu mới cho một số lượng lớn Data Mart
Vì vậy, việc nghiên cứu các đặc tính của Data Mart là rất cần thiết nhằm mục đích phát huy hiện quả các ưu điểm, giảm thiểu tối đa các nhược điểm mà Data Mart mang lại cho hệ thống dữ liệu cơ khí vốn được xác định là đồ sộ về mặt dữ liệu và đa dạng về nhóm ngành
1 Định nghĩa kho dữ liệu và Datamart
Kho dữ liệu cục bộ (Data Mart - DM) là CSDL có những đặc điểm giống với kho dữ liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên ngành Datamart là kho dữ liệu hướng chủ đề Các DM có thể được hình thành từ một tập con dữ liệu của kho dữ liệu hoặc cũng có thể được xây dựng độc lập và sau khi xây dựng xong, các DM có thể được kết nối tích hợp lại với nhau tạo thành kho dữ liệu Vì vậy có thể xây dựng kho dữ liệu bắt đầu bằng việc xây dựng các DM hay ngược lại xây dựng kho dữ liệu trước sau đó tạo ra các DM
Bảng II.1 Sự khác nhau giữa một kho dữ liệu và dữ liệu Mart
Phạm vi ứng dụng Toàn doanh nghiệp Line of Business
Dựa vào mối quan hệ giữa các chủ đề Data mart được chia làm hai loại phổ biến như sau:
a Data mart phụ thuộc (Dependent Data Mart): Chứa những dữ liệu được lấy
từ Data warehouse và những dữ liệu này sẽ được trích lọc và tinh chế, tích hợp lại ở mức cao hơn để phục vụ một chủ đề nhất định của Data Mart