Tính cấp thiết của đề tài Để giúp người dùng tin NDT tra cứu tài liệu TL một cách dễ dàng, thuận tiện, chính xác, các thư viện TV trên thế giới và Việt Nam luôn dành sự quan tâm cho côn
Trang 1ĐẠI HỌC QUỐC GIA HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN
LƯU THỊ HÀ
ỨNG DỤNG ĐỒNG BỘ NGÔN NGỮ TÌM TIN TỪ KHÓA TRONG
HỆ THỐNG THƯ VIỆN ĐẠI HỌC QUỐC GIA
THÀNH PHỐ HỒ CHÍ MINH
LUẬN VĂN THẠC SĨ KHOA HỌC THÔNG TIN THƯ VIỆN
TP HỒ CHÍ MINH - NĂM 2018
Trang 2ĐẠI HỌC QUỐC GIA HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN
LƯU THỊ HÀ
ỨNG DỤNG ĐỒNG BỘ NGÔN NGỮ TÌM TIN TỪ KHÓA TRONG
HỆ THỐNG THƯ VIỆN ĐẠI HỌC QUỐC GIA
Trang 3i
LỜI CẢM ƠN
Để hoàn thành luận văn này, ngoài sự nỗ lực và cố gắng của bản thân, tôi còn nhận được sự quan tâm, hỗ trợ và tạo điều kiện thuận lợi từ nhiều phía Vì vậy, thông qua luận văn này tôi xin chân thành gửi lời cảm ơn đến:
Cô PGS.TS Nguyễn Hồng Sinh, người đã tận tình chỉ dạy, hướng dẫn và giúp đỡ tôi hoàn thành luận văn
Ban Giám đốc và các đồng nghiệp của tôi tại TVTT; TVĐHKHXH&NV; TVĐHKT-L thuộc Hệ thống Thư viện - Đại học Quốc gia TP Hồ Chí Minh đã quan tâm và tạo điều kiện thuận lợi cho tôi trong suốt quá trình thu thập dữ liệu và điều tra khảo sát
Quý Thầy/Cô khoa Thư viện - Thông tin học, trường ĐHKHXH&NV- ĐHQGHCM, những người đã cung cấp, truyền đạt kiến thức bổ ích cũng như luôn động viên, khuyến khích tôi cố gắng hoàn thành được luận văn này
Tôi cũng xin gửi lời cảm ơn chân thành, sâu sắc nhất tới toàn thể các bạn đồng môn lớp CHTV khoá 2014-2016, bạn bè và người thân, những người đã ủng hộ, giúp
đỡ, chia sẻ và hỗ trợ tôi rất nhiều trong quá trình học tập và hoàn thành luận văn
Xin chân trọng cảm ơn tất cả!
TP Hồ Chí Minh, tháng 12 năm 2018
Tác giả
Lưu Thị Hà
Trang 4ii
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng bản thân tôi Tất cả các
dữ liệu, hình ảnh, bảng biểu và kết quả luận văn hoàn toàn do tôi trực tiếp tìm hiểu khảo sát, thu thập được Đây là cuốn luận văn lần đầu tiên được tôi công bố và chưa từng có
ở bất kỳ công trình nào trước đó
Tác giả
Lưu Thị Hà
Trang 5iii
MỤC LỤC
DANH MỤC TỪ VIẾT TẮT viii
DANH MỤC CÁC BẢNG, HÌNH ẢNH MINH HOẠ ix
DANH MỤC CÁC BIỂU ĐỒ xi
DANH MỤC PHỤ LỤC xii
PHẦN MỞ ĐẦU 1
1 Tính cấp thiết của đề tài 1
2 Lịch sử nghiên cứu vấn đề 2
3 Mục đích và nhiệm vụ nghiên cứu 5
4 Đối tượng và phạm vi nghiên cứu 5
5 Phương pháp luận và phương pháp nghiên cứu 6
6 Hướng tiếp cận tư liệu để thực hiện đề tài 7
7 Ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài 7
8 Cấu trúc của đề tài 8
9 Kết quả của đề tài 8
CHƯƠNG 1: CƠ SỞ LÝ LUẬN VỀ NGÔN NGỮ TÌM TIN TỪ KHÓA 9
1.1 Ngôn ngữ tìm tin 9
1.1.1 Khái niệm 9
1.1.2 Phân loại 10
1.2 Ngôn ngữ tìm tin từ khóa 12
1.2.1 Khái niệm 12
1.2.2 Chức năng của từ khóa 13
1.2.3 Vai trò của từ khóa 14
Trang 6iv
1.2.4 Phân loại từ khóa 15
1.2.5 Yêu cầu đối với từ khóa 22
1.2.6 Ưu nhược điểm của từ khóa 23
1.3 Định từ khóa 24
1.3.1 Khái niệm 24
1.3.2 Nguyên tắc định từ khóa tài liệu 25
1.3.3 Các yêu cầu cơ bản đối với định từ khóa tài liệu 27
1.3.4 Quy trình định từ khóa tài liệu 29
1.3.5 Yêu cầu đối với nhân viên định từ khóa tài liệu 31
1.4 Giới thiệu một số công cụ định từ khóa tài liệu 32
1.4.1 Bộ Từ khóa của Thư viện Quốc gia Việt Nam 32
1.4.2 Từ điển Từ khóa Khoa học và Công nghệ của Trung tâm Thông tin Khoa học và Công nghệ Quốc gia 34
1.5 Vai trò của việc ứng dụng đồng bộ ngôn ngữ tìm tin từ khóa 40
Tiểu kết chương 1 42
CHƯƠNG 2: THỰC TRẠNG SỬ DỤNG NGÔN NGỮ TÌM TIN TỪ KHÓA TẠI CÁC THƯ VIỆN THUỘC HỆ THỐNG THƯ VIỆN - ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH 43
2.1 Thông tin chung về Hệ thống Thư viện - Đại học Quốc gia TP Hồ Chí Minh 43
2.1.1 Hệ thống Thư viện - Đại học Quốc gia TP Hồ Chí Minh 43
2.1.2 Thư viện Trung tâm 45
Trang 7v
2.1.3 Thư viện Trường Đại học Khoa học Xã hội và Nhân văn 46
2.1.4 Thư viện Trường Đại học Kinh tế - Luật 48
2.2 Công tác định từ khóa 50
2.2.1 Việc sử dụng ngôn ngữ tìm tin từ khóa 50
2.2.2 Thực hiện định từ khóa 52
2.2.3 Việc sử dụng, kiểm tra và đánh giá công cụ định từ khóa 54
2.2.4 Công tác kiểm tra và đánh giá chất lượng sản phẩm từ khóa 55
2.2.5 Đội ngũ nhân viên thực hiện công tác định từ khóa 56
2.3 Sản phẩm từ khóa 60
2.3.1 Sản phẩm từ khóa tại Thư viện Trung tâm 60
2.3.2 Sản phẩm từ khóa tại Thư viện Đại học Khoa học Xã hội và Nhân văn 63
2.3.3 Sản phẩm từ khóa tại Thư viện Đại học Kinh tế - Luật 65
2.4 Tìm tin bằng từ khóa trên phần mềm Primo 69
2.5 Việc sử dụng và đánh giá của người dùng tin đối với sản phẩm từ khóa 74
2.6 Phân tích SWOT về việc sử dụng và khả năng ứng dụng đồng bộ ngôn ngữ tìm tin từ khóa 82
2.6.1 Điểm mạnh 82
2.6.2 Điểm yếu 84
2.6.3 Cơ hội 85
2.6.4 Thách thức 86
Tiểu kết chương 2 88
Trang 8vi
CHƯƠNG 3: GIẢI PHÁP NÂNG CAO CHẤT LƯỢNG CÔNG TÁC ĐỊNH TỪ KHÓA VÀ ỨNG DỤNG ĐỒNG BỘ NGÔN NGỮ TÌM TIN TỪ KHÓA TRONG
HỆ THỐNG THƯ VIỆN - ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH 90
3.1 Nhóm giải pháp nâng cao tính chuyên nghiệp và chất lượng đối với công tác định từ khóa 90
3.1.1 Chuẩn hóa quy trình định từ khóa 90
3.1.2 Biên soạn tài liệu, cẩm nang hướng dẫn công tác định từ khóa 93
3.1.3 Ứng dụng công nghệ thông tin vào công tác định từ khóa 96
3.1.4 Tổ chức kiểm tra, đánh giá định kỳ công cụ định từ khóa 97
3.1.5 Tổ chức kiểm tra, đánh giá định kỳ chất lượng từ khóa 99
3.1.6 Nâng cao trình độ cho nhân viên biên mục 101
3.1.7 Áp dụng Tiêu chuẩn Việt Nam 104
3.1.8 Đào tạo người dùng tin 105
3.2 Nhóm giải pháp ứng dụng đồng bộ ngôn ngữ tìm tin từ khóa trong Hệ thống Thư viện - Đại học Quốc gia TP Hồ Chí Minh 106
3.2.1 Nâng cấp phần mềm Primo 106
3.2.2 Sử dụng chung phần mềm quản lý thư viện 108
3.2.3 Biên soạn công cụ định từ khóa dùng chung và hiệu đính từ khóa 108
3.2.4 Định kỳ cập nhật từ khóa cho bộ công cụ dùng chung 110
3.2.5 Tăng cường giao lưu, hợp tác, trao đổi kinh nghiệm cho nhân viên biên mục 112
Trang 9
vii
3.2.6 Triển khai công tác biên mục tập trung, sử dụng chung kết quả xử lý tài liệu
113 Tiểu kết chương 3 115 KẾT LUẬN 116 DANH MỤC TÀI LIỆU THAM KHẢO
PHỤ LỤC
Trang 1025 Thư viện Đại học Khoa học Xã hội & Nhân văn TVĐHKHXH&NV
26 Thư viện Đại học Kinh tế - Luật TVĐHKT-L
29
Trung tâm Thông tin Khoa học và Công nghệ Quốc
gia
Trung tâm TTKH&CNQG
Trang 11ix
DANH MỤC CÁC BẢNG, HÌNH ẢNH MINH HOẠ
Bảng 1.1: Bảng so sánh ba loại ngôn ngữ tìm tin
Bảng 1.2: Bảng so sánh TK có kiểm soát và TK tự do
Bảng 1.3: Bảng phân loại TK theo các tiêu chí
Bảng 2.1: Nguồn nhân lực của TVTT (đơn vị tính: người)
Bảng 2.2: Nguồn nhân lực của TVĐHKHXH&NV (đơn vị tính: người) Bảng 2.3: Nguồn nhân lực của TVĐHKT-L (đơn vị tính: người)
Bảng 2.4: Lí do sử dụng NNTTTK của các thư viện
Bảng 2.5: Việc sử dụng NNTTTK tại các thư viện
Bảng 2.6: Bảng mô tả NVBM của Hệ thống
Bảng 2.7: Các khó khăn ảnh hưởng đến công tác ĐTK
Bảng 2.8: Các biện pháp nâng cao trình độ cho NVBM
Bảng 2.9: Tổng hợp đặc điểm sản phẩm TK của các thư viện
Bảng 2.10: Sinh viên chia theo năm tại các thư viện
Bảng 2.11: Các điểm truy cập NDT thường dùng để tra cứu TL
Bảng 2.12: Ý kiến nhật xét của NDT về sản phẩm TK
Bảng 2.13: Khó khăn của NDT trong việc sử dụng TK
Bảng 3.1: Các tiêu chí kiểm tra, đánh giá công cụ ĐTK
Bảng 3.2: Các tiêu chí đánh giá chất lượng TK
Trang 12Hình 2.5: Giao diện gợi ý sử dụng từ khóa trên Primo
Hình 2.6: Giao diện tìm kiếm theo "Chủ đề" trên Primo
Hình 2.7: Giao diện kết quả tìm kiếm bằng "Từ khóa"
Hình 2.8: Giao diện kết quả tìm kiếm bằng "Chủ đề"
Hình 2.9: Giao diện kết quả tìm kiếm bằng "Chủ đề" trên Primo Hình 2.10: Giao diện kết quả tìm kiếm bằng "Nhan đề" trên Primo Hình 3.1: Lưu đồ quy trình ĐTK TL
Hình 3.2: Giao diện các TK gợi ý
Hình 3.3: Giao diện danh mục TK gợi ý
Trang 13xi
DANH MỤC CÁC BIỂU ĐỒ Biểu đồ 2.1: NDT đánh giá kết quả tìm kiếm TL bằng TK
Biểu đồ 2.2: Mức hài lòng của NDT khi sử dụng TK để tra cứu TL
Trang 14xii
DANH MỤC PHỤ LỤC
Phụ lục 1: Một số công cụ định từ khóa tài liệu tại Việt Nam hiện nay
Phụ lục 2: Phiếu khảo sát dành cho Nhân viên biên mục thực hiện công tác định từ khóa Phụ lục 3: Bảng tổng hợp kết quả khảo sát dành cho Nhân viên biên mục thực hiện công tác định từ khóa
Phụ lục 4: Các ví dụ về sản phẩm từ khóa
Phụ lục 5: Công thức tính mẫu khảo sát
Phụ lục 6: Phiếu khảo sát dành cho người dùng tin
Phụ lục 7: Bảng tổng hợp kết quả khảo sát dành cho người dùng tin
Phụ lục 8: Demo phần mềm bộ công cụ từ khóa dùng chung của Hệ thống
Trang 15PHẦN MỞ ĐẦU
1 Tính cấp thiết của đề tài
Để giúp người dùng tin (NDT) tra cứu tài liệu (TL) một cách dễ dàng, thuận tiện, chính xác, các thư viện (TV) trên thế giới và Việt Nam luôn dành sự quan tâm cho công tác xử lý thông tin, xử lý tài liệu, đặc biệt là việc cải tiến, chuẩn hóa ngôn ngữ tìm tin (NNTT), trong đó có ngôn ngữ tìm tin từ khóa (NNTTTK) Hiện nay, các TV ở Việt Nam kể cả Hệ thống Thư viện - Đại học Quốc gia TP Hồ Chí Minh đang trong bước đầu thực hiện các nỗ lực chuẩn hóa, do đó việc nghiên cứu, tìm cách cải tiến và
áp dụng chuẩn hóa các loại NNTT là nhiệm vụ cần thiết
Hệ thống Thư viện - Đại học Quốc gia TP Hồ Chí Minh (Hệ thống) là một mạng lưới các TV liên thông, liên kết, cùng phối hợp cung cấp các nguồn tài nguyên thông tin (TNTT) cho tất cả NDT là giảng viên, nhà nghiên cứu, sinh viên và cán bộ viên chức của Đại học Quốc gia TP Hồ Chí Minh (ĐHQG-HCM) Sứ mạng của Hệ thống là phục vụ sự nghiệp đào tạo và nghiên cứu chất lượng cao của ĐHQG-HCM; đồng thời góp phần vào việc phát triển cộng đồng cũng như phát triển hệ thống TV đại học Việt Nam Hệ thống hiện nay gồm có Thư viện Trung tâm, 06 TV của các trường đại học (ĐH) thành viên và TV của một viện đào tạo Một trong những mục tiêu Hệ thống hướng tới là áp dụng thống nhất, đồng bộ các chuẩn nghiệp vụ và quy trình hoạt động TT-TV
Trên thực tế công tác xử lý TL hiện nay giữa các TV thành viên trong Hệ thống vẫn còn nhiều điểm chưa tương đồng, chưa thống nhất, cụ thể là việc sử dụng NNTTTK còn có nhiều khác biệt Điều này ảnh hưởng không nhỏ đến việc hợp tác, chia sẻ, phối hợp hoạt động sử dụng chung nguồn lực thông tin của Hệ thống Vì vậy, nghiên cứu này được thực hiện nhằm tìm hiểu việc sử dụng NNTTTK, cũng như những điểm chưa tương đồng giữa các TV, và tìm kiếm các giải pháp ứng dụng đồng bộ NNTTTK trong Hệ thống Thư viện - Đại học Quốc gia TP Hồ Chí Minh
Trang 162 Lịch sử nghiên cứu vấn đề
Trong quá trình phát triển của các TV trên thế giới, công tác xử lý TL đã được hình thành từ rất sớm Tuy nhiên cho tới thế kỷ XIX, công tác phân loại và định chủ đề
TL mới được quan tâm, chú trọng với sự ra đời của nhiều khung phân loại và bảng tiêu
đề chủ đề (TĐCĐ) Công tác định từ khóa (ĐTK) được áp dụng ở các TV, cơ quan thông tin muộn hơn vào nửa sau thế kỷ XX cùng với xu hướng tự động hóa công tác
TV và hoạt động thông tin Vì vậy hoạt động nghiên cứu về NNTTTK, công tác ĐTK cũng ra đời muộn hơn so với các công tác khác trong hoạt động xử lý TL
Công nghệ thông tin (CNTT) phát triển tạo nền tảng cho ngôn ngữ từ khóa phát triển và được sử dụng với tư cách là một điểm truy cập thông tin quan trọng của hệ thống tìm tin (HTTT) tự động trong các cơ quan thông tin - thư viện (TT-TV) Do đó, việc nghiên cứu, tìm hiểu về NNTTTK, nguyên tắc, phương pháp ĐTK, các yêu cầu,
kỹ năng cơ bản, vv… cũng như việc nhất quán sử dụng NNTTTK giữa các TV, trung tâm thông tin trên thế giới đã được thực hiện nghiên cứu với nhiều công trình, tiêu biểu như các tác phẩm:
Abtracting and indexing của Jennifer E Rowley, năm 1982
Gereral introduction to the techniques of information and documentation work của UNESCO, năm 1984
Introduction to indexing and abstracting của Donald B Cleveland and Ana D Cleveland, năm 1990
Indexing and abstracting in theory and practice của Lancaster F W, năm 1991
The art of indexing của Larry S Bonura, năm 1994
Thông qua những tài liệu này, các tác giả đã nêu lên một cách tổng hợp và khái quát nhất các vấn đề lý luận về phương pháp, quy trình, kỹ thuật và cách thức định chỉ mục, trong đó có công tác ĐTK Đây là những vấn đề cốt yếu tạo cơ sở nền tảng lý thuyết cho việc tiếp tục nghiên cứu, tìm hiểu sâu hơn về kỹ thuật định chỉ mục nói chung và công tác ĐTK nói riêng
Trang 17Tại Việt Nam, việc sử dụng NNTTTK và công tác ĐTK trong các cơ quan
TT-TV là một đề tài vẫn được quan tâm thường xuyên nghiên cứu Đã có nhiều công trình, sách tham khảo, luận văn thạc sĩ cũng như các bài viết được đăng trên tạp chí chuyên ngành TT-TV đề cập đến vấn đề này Một số tác phẩm nổi bật như sau
Nghiên cứu việc sử dụng ngôn ngữ tìm tin từ khoá tại Viện Thông tin Thư viện
Y học Trung ương của Lê Thị Thuý Hiền, năm 2004
Đánh giá việc sử dụng ngôn ngữ từ khoá tại Thư viện Đại học Sư phạm Hà Nội của Bùi Thanh Thuỷ, năm 2005
Xây dựng bộ từ khoá phục vụ hoạt động thông tin khoa học của Học viện Chính trị Quốc gia Hồ Chí Minh của Hoàng Kim Ngọc, Nguyễn Thị Phương Thảo, năm 2006
Trang 18 Chuẩn hóa công tác nghiệp vụ tại các thư viện đại học thuộc tỉnh Phú Yên của Trần Thị Ngọc Tuyết, năm 2011
và Tư liệu, năm 2007
Để hướng tới sự chuẩn hóa trong công tác định từ khóa và định chủ đề tài liệu ở Việt Nam của Ths Vũ Dương Thuý Ngà, Tạp chí Thư viện Việt Nam
Về ngôn ngữ tìm tin tiền kết hợp và hậu kết hợp của TS Lê Văn Viết, Tạp chí Thư viện Việt Nam
Thông qua những công trình này, nhìn chung các tác giả đã đi vào nghiên cứu, tìm hiểu NNTTTK về các khía cạnh như: khái niệm, vai trò, đặc điểm, chức năng, phân loại, ưu nhược điểm, vv…; các kỹ thuật, phương pháp, yêu cầu, vv về ĐTK Đây là những nền tảng lý thuyết cơ bản cho việc tiếp tục nghiên cứu, tìm hiểu sâu hơn về NNTTTK và công tác ĐTK tại Việt Nam Về thực trạng sử dụng NNTTTK, các công trình trên mới chỉ dừng lại trong phạm vi nghiên cứu từng trường hợp riêng lẻ Việc nghiên cứu, tìm hiểu về ứng dụng đồng bộ NNTTTK trong các hệ thống TV từ trước tới nay chưa có bất kỳ công trình nghiên cứu nào đề cập tới
Như vậy với một số lượng lớn các công trình nghiên cứu đã được thực hiện, có thể thấy vai trò đặc biệt quan trọng của NNTTTK cả trong lý luận và thực tiễn của hoạt
Trang 19động TT-TV Đặc biệt, qua những công trình nghiên cứu này các tác giả đã góp phần nêu ra nhiều giải pháp cũng như những kinh nghiệm thực tế về việc sử dụng NNTTTK, tạo cơ sở, nền tảng cho tác giả luận văn tiếp tục nghiên cứu và đề xuất các giải pháp nhằm ứng dụng đồng bộ NNTTTK trong Hệ thống Thư viện - Đại học Quốc gia Hồ Chí Minh
3 Mục đích và nhiệm vụ nghiên cứu
Mục đích nghiên cứu
Trên cơ sở nghiên cứu việc sử dụng NNTTTK tại các TV thuộc Hệ thống, đề xuất các giải pháp nhằm nâng cao chất lượng công tác ĐTK và ứng dụng đồng bộ NNTTTK cho các TV thuộc Hệ thống
Nhiệm vụ nghiên cứu
Hệ thống hóa hệ thống lý luận của NNTTTK
Khảo sát, phân tích, đánh giá thực trạng việc sử dụng NNTTTK tại các TV thuộc Hệ thống
Đề xuất các giải pháp nhằm nâng cao chất lượng công tác ĐTK TL và ứng dụng đồng bộ NNTTTK trong Hệ thống
4 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu
Đề tài tập trung nghiên cứu việc sử dụng NNTTTK và công tác ĐTK
Phạm vi nghiên cứu
Đề tài giới hạn phạm vi nghiên cứu ở 03 TV thuộc Hệ thống gồm:
Thư viện Trung tâm
Thư viện Trường Đại học Khoa học Xã hội và Nhân văn (Cơ sở Thủ Đức)
Thư viện Trường Đại học Kinh tế - Luật
Đây là những TV hiện đang sử dụng NNTTTK để xử lý và tìm tin
Trang 205 Phương pháp luận và phương pháp nghiên cứu
Phương pháp luận
Phương pháp luận thư viện học: cung cấp nền tảng lý luận cơ bản về việc sử dụng NNTTTK
Phương pháp nghiên cứu
Luận văn sử dụng các phương pháp nghiên cứu khoa học như:
- Phương pháp nghiên cứu tài liệu: Thông qua các loại hình TL chuyên ngành
TT-TV, tìm hiểu lịch sử nghiên cứu vấn đề và xây dựng cơ sở lý luận cho vấn
đề được nghiên cứu cụ thể là các khái niệm, chức năng, vai trò, ưu nhược điểm, yêu cầu, phân loại của NNTTTK cũng như các quy trình, phương pháp, yêu cầu của công tác ĐTK TL, vv…
- Phương pháp điều tra bằng phiếu khảo sát: Thiết kế 02 loại phiếu khảo sát
gồm phiếu khảo sát dành cho nhân viên biên mục (NVBM) thực hiện công tác ĐTK và phiếu khảo sát dành cho NDT
Phiếu khảo sát dành cho NVBM thực hiện công tác ĐTK: nhằm khảo sát thực trạng sử dụng NNTTTK và công tác ĐTK, từ đó tìm ra những điểm còn bất cập, chưa tương đồng, chưa thống nhất làm cơ sở cho việc đề xuất các giải pháp nâng cao chất lượng công tác ĐTK và ứng dụng đồng
bộ NNTTTK tại các TV thuộc Hệ thống
Phiếu khảo sát dành cho NDT: nhằm khảo sát việc sử dụng và sự hài lòng của NDT đối với sản phẩm từ khóa (TK) tại các TV thuộc Hệ thống
- Phương pháp phỏng vấn sâu: Sử dụng câu hỏi mở để tìm hiểu sâu rõ hơn các
lựa chọn từ Phiếu khảo sát dành cho NVBM thực hiện công tác ĐTK, những người tham gia trực tiếp vào việc sử dụng NNTTTK tại từng TV thành viên Do vậy với phương pháp này, tác giả không tạo lập bảng hỏi và biên bản phỏng vấn
- Phương pháp đối sánh sản phẩm TK: Trên cơ sở chọn lọc ngẫu nhiên sản
phẩm TK được thể hiện dưới dạng các ví dụ đặc trưng của 03 TV, tiến hành
Trang 21phân tích, so sánh và nhận định về đặc điểm cũng như phát hiện những sai sót, bất cập còn tồn tại trong việc sử dụng NNTTTK của các TV thuộc Hệ thống
- Phương pháp phân tích, tổng hợp: Sử dụng phần mềm thống kê SPSS 16.0 cho
việc phân tích số liệu thu thập được từ Phiếu khảo sát; phần mềm Microsoft Excel cho việc thiết lập bảng biểu thống kê dữ liệu từ kết quả khảo sát để có những kết quả nghiên cứu chính xác, khách quan về việc sử dụng NNTTTK tại các TV thuộc Hệ thống
6 Hướng tiếp cận tư liệu thực hiện đề tài
Quá trình thực hiện đề tài tác giả sử dụng các hướng tiếp cận tư liệu chính như sau
- Sách, giáo trình chuyên ngành TT-TV
- Luận văn sau đại học chuyên ngành TT-TV
- Kỷ yếu hội nghị, hội thảo về hoạt động TT-TV
- Bài báo, tạp chí, báo cáo khoa học về TT-TV
- TL tham khảo trên mạng internet về chuyên ngành TT-TV
- Tất cả các loại TL, bài viết đề cập đến vấn đề sử dụng hiệu quả NNTTTK
7 Ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài
Trang 22- Áp dụng kết quả nghiên cứu sẽ giúp chuẩn hóa và tạo điều kiện thuận lợi trong việc chia sẻ, liên kết giữa các TV trong Hệ thống
- Luận văn có thể dùng làm TL tham khảo, hỗ trợ cho các TV khác trong và ngoài
Hệ thống trên phạm vi cả nước
- Là TL tham khảo cho sinh viên, học viên cao học chuyên ngành TT-TV trong
việc nghiên cứu về NNTTTK
8 Cấu trúc của đề tài
Ngoài phần mở đầu, kết luận, tài liệu tham khảo, phụ lục, luận văn được chia làm 3 chương cụ thể như sau
Chương 1: Cơ sở lý luận về ngôn ngữ tìm tin từ khóa
Chương 2: Thực trạng sử dụng ngôn ngữ tìm tin từ khóa tại các thư viện thuộc
Hệ thống Thư viện - Đại học Quốc gia TP Hồ Chí Minh
Chương 3: Giải pháp nâng cao chất lượng công tác định từ khóa và ứng dụng đồng bộ ngôn ngữ tìm tin từ khóa trong Hệ thống Thư viện - Đại học Quốc gia
TP Hồ Chí Minh
9 Kết quả của đề tài
Kết quả của đề tài gồm hai nhóm giải pháp: nhóm giải pháp nâng cao chất lượng công tác ĐTK và nhóm giải pháp ứng dụng đồng bộ NNTTTK trong Hệ thống Thư viện - Đại học Quốc gia TP Hồ Chí Minh
Trang 23Trong giao tiếp hằng ngày, con người dùng ngôn ngữ tự nhiên làm công cụ để diễn đạt ý nghĩ, trao đổi thông tin với nhau “Ngôn ngữ tự nhiên là ngôn ngữ loài người
sử dụng như là công cụ giao tiếp quan trọng nhất, phương tiện hình thành và diễn đạt ý nghĩ" (Nguyễn Như Ý chủ biên và các tác giả khác, 2013, tr 1128) Ngôn ngữ tự nhiên
có một số hạn chế khi được sử dụng để xử lý thông tin như từ đồng âm, từ nhiều nghĩa,
từ đồng âm khác nghĩa, từ đồng nghĩa, từ mang yếu tố Hán – Việt, vv…
Trong nhiều ngành khoa học và lĩnh vực nghiên cứu, vì những mục đích khác nhau và nhằm khắc phục các hạn chế về ngữ nghĩa của ngôn ngữ tự nhiên người ta đã
sử dụng các loại ngôn ngữ nhân tạo để thay thế “Ngôn ngữ nhân tạo là ngôn ngữ được
tạo nên từ các yếu tố của ngôn ngữ tự nhiên và dùng làm công cụ bổ sung cho giao tiếp giữa các dân tộc” (Nguyễn Như Ý, chủ biên và các tác giả khác, 2013, tr 1127) Có nhiều loại ngôn ngữ nhân tạo như: ngôn ngữ lập trình, ngôn ngữ thông tin, ngôn ngữ toán học, ngôn ngữ tư liệu, ngôn ngữ văn học, vv… Trong đó, ngôn ngữ tư liệu là loại ngôn ngữ nhân tạo dùng cho lĩnh vực TT-TV Ngôn ngữ tư liệu có thể bao gồm tiêu đề
chủ đề, từ khóa hoặc phân loại
Trong hoạt động TT-TV, các thuật ngữ: Ngôn ngữ tư liệu, ngôn ngữ tìm tin, ngôn ngữ định chỉ mục (hoặc ngôn ngữ đánh chỉ số) là những cách gọi khác nhau và tương đương với thuật ngữ trong tiếng Anh là Indexing Language Trong luận văn này
sẽ sử dụng thuật ngữ ngôn ngữ tìm tin Hiện có nhiều khái niệm khác nhau về NNTT
Trang 24Theo TCVN 5453 : 2009, Ngôn ngữ tìm tin là “ngôn ngữ nhân tạo được thiết lập để nêu đặc trưng nội dung hoặc dạng tài liệu” (tr 75-76)
Hay ngôn ngữ tìm tin “là một dạng ngôn ngữ nhân tạo được sử dụng để mô tả nội dung hoặc hình thức của tài liệu” (Vũ Dương Thúy Ngà & Vũ Thúy Bình, 2008, tr.11)
Như vậy từ các khái niệm trên có thể hiểu ngôn ngữ tìm tin là loại ngôn ngữ nhân tạo có nguồn gốc từ ngôn ngữ tự nhiên, được xử lý, chuẩn hóa để mô tả nội dung hoặc hình thức của tài liệu nhằm lưu trữ và tìm kiếm thông tin trong các hệ thống tìm tin
1.1.2 Phân loại
Hiện nay có ba loại NNTT cơ bản là phân loại, tiêu đề chủ đề và từ khóa
Ngôn ngữ phân loại là “ngôn ngữ tìm tin chuyên dụng cho phép người sử dụng tiếp cận tài liệu theo lĩnh vực tri thức được thể hiện trong nội dung tài liệu Ngôn ngữ phân loại được sử dụng để phân loại TL thành nhóm theo các dấu hiệu nhất định như lĩnh vực tri thức, vấn đề, đối tượng hoặc theo các dấu hiệu hình thức Các dấu hiệu này có thể khác nhau trong các bảng phân loại khác nhau” (Ngô Thanh Thảo, 2010, tr 31-32)
Một số bảng phân loại tiêu biểu là: Bảng phân loại 19 dãy, DDC, UDC, LCC, BBK, vv…
Ngôn ngữ tiêu đề chủ đề (hay đề mục chủ đề) là “ngôn ngữ tìm tin có từ vựng là một tập hợp các từ hoặc cụm từ từ ngôn ngữ tự nhiên, được sử dụng để mô tả nội dung tài liệu và để tìm tin Từ vựng của ngôn ngữ tìm tin TĐCĐ là bộ TĐCĐ” (Ngô Thanh Thảo, 2010, tr 50-51)
Một số bộ TĐCĐ tiêu biểu là: LCSH (Thư viện Quốc hội Mỹ), RAMEAU (Pháp), SEARS, vv…
Trang 25 Ngôn ngữ từ khóa là “ngôn ngữ tìm tin có từ vựng được cấu thành từ các đơn vị
từ vựng là từ khóa dựa trên ngôn ngữ tự nhiên, được sử dụng để xử lý tài liệu và yêu cầu tin” (Ngô Thanh Thảo, 2010, tr 43)
Một số bộ từ khóa tiêu biểu là: Bộ Từ khóa của Thư viện Quốc gia Việt Nam,
Bộ Từ điển Từ khóa của Trung tâm Thông tin – Khoa học và Công nghệ Quốc gia; Bộ Từ khóa của Viện Khoa học Xã hội và Nhân văn, Từ điển Từ chuẩn của UNESCO (viết tắt là U.T), vv…
Mỗi loại NNTT đều có những ưu điểm và nhược điểm riêng khác nhau
- Tìm tin theo ngôn ngữ TĐCĐ kém linh hoạt hơn so với tìm tin theo ngôn ngữ TK, nhưng khả năng tập trung theo vấn đề trong mục lục chặt chẽ hơn
- Ngôn ngữ TĐCĐ không hệ thống hóa cao như ngôn ngữ phân loại nhưng tiện lợi cho người sử dụng NDT hiếm khi dùng ngôn ngữ phân loại để tìm kiếm thông tin
- Hiệu quả tìm tin của ngôn ngữ TK và ngôn ngữ TĐCĐ có thể bị hạn chế do độ nhiễu tin hoặc mất tin nếu NDT không nắm vững cách kết hợp các đơn vị từ vựng
Chính vì vậy, trong các cơ quan TT-TV cần phải kết hợp sử dụng nhiều loại NNTT khác nhau để có sự hỗ trợ nhằm phát huy ưu điểm và khắc phục hạn chế của mỗi loại NNTT, đáp ứng tốt nhất nhu cầu tìm tin ngày càng phong phú, đa dạng của NDT
Trang 26Có thể so sánh ba loại NNTT theo bảng tổng hợp sau đây
Đặc điểm
- Dựa trên cơ sở ngôn ngữ tự nhiên
- Là ngôn ngữ tìm tin kết hợp trước
- Dựa trên cơ sở ngôn ngữ tự nhiên
- Là ngôn ngữ tìm tin kết hợp sau
- Dựa trên cơ sở ngôn ngữ tự nhiên
- Vừa kết hợp trước vừa kết hợp sau
Được sử dụng phổ biến
Được sử dụng phổ biến
Bảng 1.1: Bảng so sánh ba loại ngôn ngữ tìm tin
1.2 Ngôn ngữ tìm tin từ khóa
1.2.1 Khái niệm
Từ khóa tương đương với thuật ngữ trong tiếng Anh là Keyword, là một dạng ngôn ngữ tìm tin được xây dựng dựa trên cơ sở ngôn ngữ tự nhiên, sử dụng để mô tả nội dung tài liệu Ngày nay trong hầu hết các mục lục trực tuyến và các cơ sở dữ liệu (CSDL) thư mục đều sử dụng TK cho việc lưu trữ và tra tìm thông tin TK được xem là một điểm truy cập thông tin quan trọng trong tìm tin tự động hóa
So với NNTT phân loại và tiêu đề chủ đề, TK ra đời muộn hơn, vào khoảng những năm 50 của thế kỷ XX cùng với sự phát triển như vũ bão của lĩnh vực CNTT và
xu hướng tự động hóa công tác TT-TV trên thế giới
Năm 1951, Mortimer Taube, một nhà toán học logic đã nêu ra một hệ thống các
từ duy nhất (Uniterms) hay còn gọi là TK Theo ông, nội dung có ý nghĩa chủ yếu của bất cứ TL và yêu cầu thông tin nào đều có thể diễn đạt bằng cách chọn ra những thuật ngữ phản ánh nhiều nhất trong TL được xử lý, và thuật ngữ này gọi là TK "Từ khóa là
Trang 27các từ đủ nghĩa hoặc các cụm từ ổn định biểu thị những khái niệm quan trọng nhất mà tài liệu đề cập tới" Mortimer Taube trở thành cha đẻ của công tác đánh chỉ mục trong
đó với việc sáng tạo ra hệ thống các TK dùng trong hệ thống lưu trữ và truy tìm thông tin (Mortimer Taube, 2017)
TK là một sản phẩm của quá trình xử lý thông tin, và có nhiều khái niệm khác nhau về TK
"Từ khóa là từ đặc trưng cho nội dung một đoạn văn” (Nguyễn Như Ý chủ biên
và các tác giả khác, 2013, tr 1705)
Theo TCVN 5453 : 2009, “từ khóa là từ có nghĩa được rút ra từ nhan đề của văn
bản tài liệu để thể hiện nội dung” (tr 76)
Hay "từ khóa của tài liệu là các từ hoặc cụm từ đủ nghĩa và ổn định, biểu thị những khái niệm cơ bản của nội dung tài liệu và có thể sử dụng để tìm tài liệu trong cơ
sở dữ liệu khi có yêu cầu tin chứa từ hay cụm từ đó” (Vũ Dương Thúy Ngà & Vũ Thúy Bình, 2008, tr 17)
Tóm lại, từ các khái niệm trên có thể khái quát về TK như sau: Từ khóa là từ hoặc cụm từ đủ nghĩa, ổn định trên cơ sở của ngôn ngữ tự nhiên, được sử dụng để mô
tả nội dung và các khía cạnh khác nhau của tài liệu và để thể hiện nội dung yêu cầu tin
Như vậy, sự trùng khớp của các TK thể hiện nội dung TL và các TK thể hiện nội dung yêu cầu tin của NDT trong HTTT càng cao thì mức độ tìm được TL nhanh chóng, chính xác và đầy đủ càng lớn Đây cũng là mục đích của các HTTT tự động trong các cơ quan TT-TV nhằm nâng cao chất lượng phục vụ cho người sử dụng
1.2.2 Chức năng của từ khóa
Từ khóa có hai chức năng chính đó là chức năng thông báo nội dung TL và chức năng tìm tin (Vũ Dương Thúy Ngà & Vũ Thúy Bình, 2008, tr 17)
Trang 28 Chức năng thông báo nội dung tài liệu
Do TK là những từ hoặc cụm từ đủ nghĩa, được chọn làm đặc trưng cho một TL; phản ánh cô đọng, chính xác những nội dung và các khía cạnh khác nhau của TL nên thông qua các thuật ngữ này, NDT có thể biết được nội dung TL đề cập đến vấn đề gì Nói cách khác, TK có chức năng thông báo nội dung TL Tập hợp các TK của một TL được trình bày trong các biểu ghi được gọi là mẫu tìm tài liệu
Chức năng tìm tin
Mẫu tìm tài liệu trong các biểu ghi đại diện cho TL trong quá trình tìm tin Mỗi
TK trong mẫu tìm TL là một điểm truy cập đến nội dung của TL Như vậy thông qua
TK, NDT có thể tìm được những TL phù hợp với yêu cầu tin của mình Hay nói cách khác, TK có chức năng tìm tin
Như vậy, thông qua TK hoặc tập hợp các TK, NDT sẽ biết được nội dung và các khía cạnh khác nhau của TL Từ đó quyết định sử dụng hay không sử dụng TL đó Mặt khác, thông qua việc thể hiện các yêu cầu tin bằng TK, sau khi tương tác với HTTT, NDT cũng sẽ lựa chọn được những TL phù hợp với nhu cầu tin của mình
1.2.3 Vai trò của từ khóa
Ngày nay cùng với xu hướng tin học hóa trong các cơ quan TT-TV đã hình thành nên các loại hình TV hiện đại như: TV điện tử, TV số, TV đa phương tiện, thậm chí là TV ảo Việc xây dựng các loại CSDL không còn là điều xa lạ, thậm chí quy mô ngày càng lớn trở thành xương sống trong hoạt động của các cơ quan TT-TV
Với quy mô ngày càng khổng lồ của các ngân hàng CSDL, TK thể hiện vai trò hết sức quan trọng
- Từ khóa giúp cho người quản lý CSDL, NDT có thể dễ dàng, nhanh chóng tìm được những TL chính xác và cần thiết
- Từ khóa thể hiện nội dung TL một cách chính xác, đầy đủ, giúp NDT không bị mất hoặc bỏ sót tin khi tiến hành khai thác thông tin
Trang 29- Từ khóa là tập hợp từ, cụm từ đủ nghĩa, phản ánh đúng, đủ nội dung thông tin của TL Thông qua các TK, NDT sẽ biết được nội dung cơ bản của TL
- Từ khóa thể hiện được khái niệm đặc trưng của yêu cầu tin giúp NDT tìm được
TL mong muốn (Hoàng Kim Ngọc & Nguyễn Thị Phương Thảo, 2006)
Tóm lại, TK giúp NDT có thể tìm được TL một cách dễ dàng, nhanh chóng thông qua HTTT tự động
1.2.4 Phân loại từ khóa
Có nhiều tiêu chí để phân loại TK Căn cứ vào đặc điểm từ vựng và chức năng,
có thể phân loại TK theo một số tiêu chí như sau
Xét ở mức độ kiểm soát hoặc không có kiểm soát có từ khóa tự do và từ khóa
có kiểm soát
Từ khóa tự do
Từ khóa tự do là từ khóa được chọn tự do từ văn bản tài liệu theo sự phán xét của bản thân người xử lý mà không cần thẩm tra lại theo một phương tiện kiểm soát nào
Trong ĐTK tự do, nhân viên xử lý thông tin sẽ sử dụng tất cả các thuật ngữ có nghĩa trong nhan đề, tóm tắt hoặc chú giải, lời nói đầu, và cả chính văn TL làm TK khi
mô tả các khái niệm mà TL đề cập đến Với cách ĐTK này cùng một khái niệm có thể được trình bày hoặc xử lý bởi hai hoặc hơn các thuật ngữ khác nhau mà giữa chúng không có các mối liên hệ Kết quả tất yếu dẫn tới nhược điểm lớn nhất của ngôn ngữ
TK tự do trong tìm tin là tình trạng nhiễu tin, giảm độ chính xác và đầy đủ của kết quả tìm
Một HTTT sử dụng ngôn ngữ TK tự do có thể tiết kiệm phần kinh phí cho việc mua hoặc tạo lập từ điển TK Ngoài ra trong quá trình xử lý thông tin, nhân viên xử lý
sẽ tốn ít thời gian do không phải thực hiện công đoạn kiểm soát từ Nhưng trong quá trình khai thác hệ thống sau này, hiệu quả tra cứu thông tin sẽ thấp do sự tản mạn thiếu thống nhất của ngôn ngữ TK tự do, làm hạn chế khả năng khai thác của toàn bộ HTTT
Trang 30 Từ khóa có kiểm soát
Từ khóa có kiểm soát là từ khóa được nhân viên xử lý thông tin chọn ra để mô
tả tài liệu sau khi đã chuẩn hóa về nội dung cũng như hình thức theo một phương tiện kiểm soát từ nào đó, gọi chung là từ điển từ khóa Các phương tiện kiểm soát này có thể được xây dựng với các mức độ chuẩn hóa khác nhau về một quan hệ ngữ nghĩa giữa các TK, nhằm tạo điều kiện thuận lợi cho việc tra tìm
Một HTTT sử dụng TK kiểm soát có chi phí ban đầu sẽ lớn hơn cho việc mua sắm phương tiện kiểm soát phù hợp hoặc tạo lập mới các bộ thuật ngữ TK, nhân viên
xử lý sẽ tốn thời gian hơn cho việc kiểm soát thuật ngữ nhưng hiệu quả tra cứu sẽ cao hơn, đảm bảo cung cấp đầy đủ thông tin cho NDT tận dụng hết các khả năng khai thác
Phương tiện định từ khóa - Bộ từ khóa
- Bộ từ điển từ chuẩn Không sử dụng
Cách thức tiến hành
Dựa vào các phương tiện kiểm soát từ để lựa chọn thuật ngữ
Tự do lựa chọn thuật ngữ dựa vào các dấu hiệu khác nhau của TL
Kinh phí
Tốn kinh phí cho việc mua hoặc xây dựng, bổ sung, cập nhật các bộ công cụ
Không tốn kinh phí
Mức độ thể hiện nội dung
tài liệu
Đầy đủ và thống nhất được cách sử dụng các thuật ngữ
- Một nội dung có thể có nhiều thuật ngữ cùng nghĩa
- Có thể thiếu sự thống nhất về cách viết các thuật ngữ
Hiệu quả tra cứu Đầy đủ, nhanh chóng,
chính xác và phù hợp
Tình trạng nhiễu tin, kết quả tìm không đầy đủ, thiếu chính xác
Bảng 1.2: Bảng so sánh TK có kiểm soát và TK tự do
Trang 31 Phân loại từ khóa theo tiêu chí từ vựng
Từ khóa là danh từ bao gồm danh từ chung và danh từ riêng
Danh từ chung
- Danh từ chung chỉ nhóm người: Người Do Thái, Người Nhật Bản, …
- Danh từ chung chỉ động vật: Cừu, Lợn, Muỗi, …
- Danh từ chung chỉ thực vật: Cây vải, Cây vú sữa, Cây lúa, …
- Danh từ chung chỉ đồ vật: Đèn cao áp, Huân chương, Lưỡi câu, …
Danh từ riêng
- Danh từ riêng chỉ tên người: Nam Cao, Ngô Tất Tố, Trần Đăng Khoa, …
- Danh từ riêng chỉ địa danh: Đà Nẵng, Hà Nội, Vĩnh Phúc, …
- Danh từ riêng chỉ cơ quan, tổ chức: Đoàn TNCS Đông Dương, Đoàn TNCS Hồ Chí Minh, Đoàn TNLĐ Việt Nam, …
Từ khóa là cụm từ
- Danh từ kết hợp với danh từ: Công nghiệp dầu khí, Mỡ dầu mỏ,
- Danh từ kết hợp với tính từ: Cá nước ngọt, Tôm càng xanh, …
- Danh từ kết hợp với động từ: Bài viết, Bánh rán, Thiết bị làm lạnh, …
- Danh từ kết hợp với số từ: Chiến tranh thế giới II, Thế kỉ 21, Thế kỉ 9, …
- Động từ kết hợp danh từ: Lát bê tông, Lắp đặt mạng điện, Mổ vết thương, …
- Cụm danh từ phức: Công nghiệp hóa XHCN, Kinh tế chính trị học Mác-Lênin,
Tư tưởng Hồ Chí Minh, …
Từ khóa là động từ (theo nghĩa danh từ hóa): Bảo quản, Dệt, Xử lý, …
Phân loại xét theo tiêu chí nội dung thông tin mà từ khóa phản ánh, từ khóa có
phạm vi ngữ nghĩa rất đa dạng, có thể chia thành các loại như sau
- Chỉ tên các ngành, bộ môn khoa học, lĩnh vực hoạt động: Khoa học nhân văn, Kinh tế học vi mô, …
- Chỉ tên gọi chung và riêng của người, nhóm người, đồ vật, sự vật: Người Campuchia, Người da đỏ, Ô tô, …
- Chỉ tên gọi chung và riêng của cơ quan, địa phương, địa danh, tên cơ quan, tổ chức: Viện KHXH Việt Nam; Trung tâm Truyền thông, Giáo dục, Sức khỏe, …
- Chỉ tên gọi các ngôn ngữ, các dân tộc: Tiếng Việt, Dân tộc Xơ Đăng, …
Trang 32- Chỉ các hiện tượng tự nhiên và xã hội: Động đất, Bạo lực gia đình, …
- Chỉ các sự kiện, giai đoạn lịch sử: Chiến thắng B52, Triều đại Gia Long, …
- Chỉ các học thuyết, chế độ xã hội: Học thuyết Mendel, Chủ nghĩa cộng sản, …
- Chỉ tính chất của sự vật, hiện tượng, quá trình: Lũ lụt, Tiến hóa, …
- Chỉ phương pháp, quy trình tiến hành hoạt động: Phương pháp sắc kí, Xử lí vi sinh, …
Phân loại xét từ góc độ phản ánh nội dung tài liệu, từ khóa có hai loại: từ
khóa chủ đề và từ khóa phương diện
Từ khóa chủ đề
Từ khóa chủ đề hay còn gọi là từ khóa đối tượng là từ khóa chỉ đối tượng nghiên cứu của tài liệu Đối tượng nghiên cứu có thể là sự vật, hiện tượng, là thực thể hoặc phi thực thể
Đối tượng nghiên cứu ở dạng thực thể như tên các ngành, bộ môn khoa học, các học thuyết, chế độ xã hội, tên gọi chung và riêng của người, nhóm người, sự vật, vv…
Đối tượng nghiên cứu ở dạng phi thực thể là những diễn tiến không định hình như: phương pháp, quy luật, tư tưởng, pháp chế, vv…
Một TL có thể có một hoặc vài đối tượng nghiên cứu Đối tượng này có thể là đối tượng chính (hay đối tượng trực tiếp) và đối tượng thứ cấp (hay đối tượng liên quan)
Đối tượng chính (hay đối tượng trực tiếp) là đối tượng mà nội dung tài liệu
trực tiếp đề cập tới Tài liệu có thể có một hoặc có hơn một đối tượng chính
Tài liệu có một đối tượng chính như: Kiểm soát tội phạm xã hội, Thiết kế hệ
thống chiếu sáng, Tâm lý học đại cương, vv… trong đó: Tội phạm xã hội, Hệ thống chiếu sáng, Tâm lý học là đối tượng chính
Tài liệu có hơn một đối tượng chính như: Vấn đề tài chính và ngân hàng; Tìm
hiểu các bệnh về chó, mèo và lợn, trong đó: Tài chính và Ngân hàng là hai đối tượng chính; Chó, Mèo và Lợn là ba đối tượng chính
Trang 33Đối tượng thứ cấp (hay đối tượng liên quan) là những đối tượng thuộc một
trong các dạng sau
Là đối tượng độc lập với đối tượng chính nhưng được đề cập trong mối quan
hệ với đối tượng chính
Ví dụ có nhan đề TL: "Đầu tư vốn cho nền công nghiệp xanh" Ở TL này có hai đối tượng nghiên cứu là Vốn và Công nghiệp xanh, trong đó Vốn là đối tượng chính Vốn lại được xem xét trong mối quan hệ với một đối tượng độc lập khác là Công nghiệp xanh Vậy nên Công nghiệp xanh là đối tượng thứ cấp của TL
Là đối tượng có một thành phần hoặc bộ phận của đối tượng chính nhưng độc lập về khái niệm và bản chất
Ví dụ có nhan đề TL: "Tìm hiểu hệ tiêu hóa" Trong đó Hệ tiêu hóa là đối tượng chính Nhưng trong nội dung TL, tác giả chỉ tập trung vào ba vấn đề của Hệ tiêu hóa là
Dạ dày, Ruột và Trực tràng Ở trường hợp này Dạ dày, Ruột và Trực tràng là các đối
tượng thứ cấp của TL
Như vậy, có thể thấy đối tượng thứ cấp có thể không nằm trong nhan đề của TL khoa học mà chỉ được đề cập khi trình bày nội dung TL Chính vì vậy việc phân tích nội dung TL là rất quan trọng và cần thiết để xác định đầy đủ các đối tượng chính cũng như đối tượng thứ cấp của TL, tránh tình trạng bị mất tin Tóm lại một TL có thể có nhiều đối tượng nghiên cứu, cho nên đối với một TL, khi ĐTK, người ta luôn tìm tối
thiểu từ “4 từ khóa trở lên” (Phan Huy Quế, 2001)
Từ khóa phương diện
Từ khóa phương diện là những từ, cụm từ phản ánh phương thức hay cách thức tiếp cận đối tượng của nội dung tài liệu Từ khóa phương diện được chia thành hai loại,
từ khóa phương diện chính và từ khóa phương diện thứ cấp
Trang 34Từ khóa phương diện chính là từ khóa liên quan trực tiếp đến đối tượng, bổ
nghĩa trực tiếp cho đối tượng Ví dụ, TL có nội dung nghiên cứu giáo dục đại học, trong đó:
- Giáo dục đại học: là TK đối tượng
- Nghiên cứu: là TK phương diện chính
Từ khóa phương diện thứ cấp là từ khóa thường đi liền và bổ nghĩa cho từ khóa
phương diện chính, không bổ nghĩa trực tiếp cho đối tượng Ví dụ, TL có nội dung về phương pháp phân tích xã hội học, trong đó:
- Xã hội học: là TK đối tượng
- Phân tích: là TK phương diện chính
- Phương pháp: là TK phương diện thứ cấp
Phân loại theo tiêu chí tải trọng thông tin trong nội dung tài liệu, từ khóa
được chia làm 2 loại: từ khóa chính và từ khóa phụ
Từ khóa chính là từ khóa mô tả đối tượng chính yếu của tài liệu, hoặc có thể có
thêm các đối tượng khác có trọng số cao về khối lượng thông tin trong nội dung tài liệu (xét trong mối quan hệ với đối tượng chính yếu)
Từ khóa phụ bao gồm các từ khóa mô tả các đối tượng khác không có trọng số
cao về thông tin trong nội dung tài liệu và các từ khóa mô tả phương diện Ví dụ, TL có nội dung về nghiên cứu ứng dụng CNTT trong ngành TV, trong đó: Thư viện, Công nghệ thông tin: là TK chính; Nghiên cứu, Ứng dụng là TK phụ
Phân loại theo lĩnh vực khoa học của nội dung thông tin có các loại từ khóa:
Từ khóa thuộc lĩnh vực khoa học xã hội
Từ khóa thuộc lĩnh vực khoa học tự nhiên
Từ khóa thuộc lĩnh vực khoa học kỹ thuật
Từ khóa thuộc lĩnh vực khoa học công nghệ
Và có thể phân chia TK thành những lĩnh vực khoa học chuyên ngành hẹp hơn
Trang 35Ngoài các tiêu chí phân loại TK nêu trên, tùy theo đặc điểm của hệ thống thông tin, còn có thể chia TK thành các loại sau: từ khóa địa lý, từ khóa nhân vật, từ khóa sinh vật, từ khóa y học, từ khóa thời gian, vv…
Như vậy, dựa vào các tiêu chí phân loại trên ta thấy TK là một loại NNTT đa dạng và phong phú Có thể tóm lược việc phân loại TK thông qua các tiêu chí được thể hiện dưới bảng kê sau đây
- Từ khóa động từ (Danh từ hoá)
Nội dung thông tin
- Từ khóa chỉ tên các ngành, bộ môn khoa học, lĩnh vực hoạt động
- Từ khóa chỉ tên gọi chung và riêng của người, nhóm người, đồ vật, sự vật
- Từ khóa chỉ tên gọi các ngôn ngữ, các dân tộc
- Từ khóa chỉ các học thuyết, chế độ xã hội, vv
Góc độ phản ánh nội
dung tài liệu
- Từ khóa chủ đề (hay từ khóa đối tượng)
- Từ khóa phương diện
Tải trọng thông tin trong
nội dung tài liệu
- Từ khóa chính
- Từ khóa phụ
Lĩnh vực khoa học của
nội dung thông tin
- Từ khóa thuộc lĩnh vực khoa học xã hội
- Từ khóa thuộc lĩnh vực khoa học tự nhiên
- Từ khóa thuộc lĩnh vực khoa học kỹ thuật
- Từ khóa thuộc lĩnh vực khoa học công nghệ, vv
Bảng 1.3: Bảng phân loại TK theo các tiêu chí
Trang 361.2.5 Yêu cầu đối với từ khóa
Cần có những yêu cầu cụ thể đối với TK trong quá trình xử lý từ vựng để đảm bảo độ đầy đủ, chính xác và tính thống nhất của TK
Yêu cầu về nội dung từ khóa
- Thông dụng, đúng đắn theo thuật ngữ khoa học: TK phải là từ khoa học thông dụng trong lĩnh vực mà nội dung TL đề cập, không sử dụng khẩu ngữ và các từ lóng
- Súc tích: TK phải thể hiện nội dung thông tin dưới hình thức ngắn gọn nhất nhằm định hướng vào việc chọn lựa những từ thực sự có nội dung thông tin và loại bỏ những từ không có ích cho việc tra cứu
- Ngắn ngọn: Tách các khái niệm phức tạp thành các khái niệm đơn giản nhất có thể nhằm tạo điều kiện thuận lợi cho việc đảm bảo tính hậu kết hợp của ngôn ngữ TK
- Đơn nghĩa: một TK chỉ mang một nghĩa duy nhất và một khái niệm, đối tượng
cụ thể chỉ được mô tả bằng một TK duy nhất nhằm khắc phục các hiện tượng đa nghĩa và đồng nghĩa trong khi xử lý TL
- Độc lập với ngữ cảnh: TK là những thuật ngữ độc lập không phụ thuộc vào hoàn cảnh nội dung phản ánh
- Chính xác: TK phải phản ánh chính xác những khái niệm cơ bản của nội dung
TL, giúp đảm bảo độ chính xác và tính thống nhất của TK trong mẫu tìm và lệnh tìm
- Hiện đại: TK phải là các thuật ngữ được dùng hiện tại cho các lĩnh vực chuyên ngành Các thuật ngữ mới, hiện đại phải được cập nhập thường xuyên phù hợp với sự phát triển của các lĩnh vực/ngành khoa học, kỹ thuật và công nghệ
Yêu cầu về hình thức từ khóa
Về chính tả tiếng Việt: TK nên viết theo cách viết thông dụng về chính tả tiếng Việt theo những quy ước như:
- Viết hoa chữ cái đầu mỗi TK trừ những quy định về tên riêng;
- Cách bỏ dấu;
Trang 37- Tuân theo quy định sử dụng chữ "y" và "i";
- Vv,
1.2.6 Ưu nhược điểm của từ khóa
Từ khóa là loại NNTT hậu kết hợp, là một sản phẩm quan trọng của quá trình
xử lý thông tin Đó là các từ, cụm từ có nguồn gốc từ ngôn ngữ tự nhiên phản ánh nội dung và các khía cạnh khác nhau của TL và yêu cầu tin của NDT Giống như các loại NNTT theo phân loại và chủ đề, NNTTTK cũng có những ưu, nhược điểm cụ thể như sau (Lê Thị Ngọc Thư & Huỳnh Công Khanh, 2014)
Ưu điểm
- Từ khóa là một loại NNTT dễ dàng sử dụng, thích hợp và tối ưu nhất trong HTTT tự động bởi nó không đòi hỏi phải tuân thủ những quy định nghiêm ngặt của kỹ thuật ghép như phân loại hay định TĐCĐ
- Từ khóa có khả năng tập hợp TL theo đối tượng nghiên cứu, không phụ thuộc vào lĩnh vực hoạt động
- Cấu trúc từ vựng mềm dẻo, dễ dàng phản ánh những nội dung mới, những khái niệm mới, bổ sung từ vựng để mô tả các khái niệm mới dễ dàng hơn so với khung phân loại
- Không hạn chế về sử dụng số lượng TK (tối thiểu từ 5 từ khóa trở lên)
- Không đòi hỏi khả năng khái quát hóa cao nội dung TL so với TĐCĐ
- Mô tả chi tiết nội dung TL hơn so với TĐCĐ
Nhược điểm
- Các vấn đề cùng một lĩnh vực bị tản mạn
- Các TK độc lập với nhau nên không mở rộng khả năng tìm kiếm thông tin của NDT Sự kết hợp các TK trong quá trình tìm tin đôi khi dẫn đến kết hợp sai vì không sử dụng cấu trúc ngữ pháp
Ví dụ: Thư viện trường học và trường học thư viện, xác định có 2 từ khóa là
“Thư viện” và “Trường học” khi tìm đều ra những thông tin giống nhau
- Do một TL có thể có nhiều TK cho nên độ nhiễu tin lớn hơn so với TĐCĐ
Trang 38Tóm lại, bên cạnh những ưu điểm vượt trội, TK cũng còn tồn tại những hạn chế
mà bất kỳ loại NNTT nào cũng có Do vậy, các cơ quan TT-TV tùy vào tình hình thực
tế cũng như chính sách hoạt động, đối tượng phục vụ và mục đích sử dụng để có những chọn lựa khi sử dụng NNTTTK, hoặc có thể kết hợp sử dụng nhiều NNTT khác nhau
để khắc phục những hạn chế nêu trên của NNTTTK
1.3 Định từ khóa
1.3.1 Khái niệm
Nhằm tạo ra các điểm truy cập TL hoặc yêu cầu tin bằng TK trong các HTTT tự động, các nhân viên xử lý phải trải qua một công đoạn xử lý nghiệp vụ gọi là định từ khóa ĐTK là một trong ba khâu của công tác định chỉ mục hay đánh chỉ số (Indexing)
Theo TCVN 10274 : 2013, Định chỉ mục hay đánh chỉ số (Indexing) là việc “thể hiện nội dung hoặc hình thức của một tài liệu bằng các từ, cụm từ hoặc hệ thống ký
hiệu theo qui tắc của ngôn ngữ định chỉ mục.” (mục 3.4.7.6)
Như vậy, định chỉ mục bao gồm ba khâu công tác xử lý là: phân loại TL để tạo
ra kí hiệu phân loại, định TĐCĐ tạo ra các TĐCĐ và ĐTK để tạo ra các TK
Hiện nay, có nhiều khái niệm về ĐTK Sau đây là một vài khái niệm tiêu biểu
Trang 39Hay “định từ khóa là quá trình thể hiện nội dung tài liệu hoặc yêu cầu tin bằng ngôn ngữ từ khóa” (Vũ Dương Thúy Ngà & Vũ Thúy Bình, 2008, tr 15)
Như vậy, định từ khóa là một công đoạn xử lý nội dung tài liệu do nhân viên thông tin - thư viện thực hiện, nhằm tạo ra tập hợp các từ khóa thể hiện nội dung chính
và các khía cạnh khác nhau của tài liệu cũng như của yêu cầu tin với mục đích lưu trữ
và tìm tin tự động hóa
Định từ khóa tài liệu là quá trình phân tích nội dung tài liệu, xác định đối tượng nghiên cứu, các phương diện của đối tượng mà tài liệu đề cập đến để lựa chọn và gán cho nội dung tài liệu một hay nhiều từ khóa phù hợp Việc định từ khóa tài liệu còn được gọi là xây dựng mẫu tìm tài liệu
Định từ khóa yêu cầu tin là thể hiện nội dung cơ bản của yêu cầu tin bằng các từ khóa để thực hiện việc tìm tin trong hệ thống tìm tin tự động Việc định từ khóa yêu cầu tin còn được gọi là xây dựng lệnh tìm
Trong phạm vi nghiên cứu của đề tài này, tác giả chỉ tập trung tiến hành nghiên cứu công tác ĐTK cho TL Đây cũng là cơ sở cho việc tìm hiểu, phân tích đặc điểm của các sản phẩm TK sẽ được trình bày chi tiết tại chương 2 của luận văn
1.3.2 Nguyên tắc định từ khóa tài liệu
Để thực hiện công tác ĐTK, nhân viên thực hiện công tác ĐTK cần phải tuân theo những quy tắc sau
Nguyên tắc trực diện
Đây là nguyên tắc đầu tiên và bắt buộc khi tiến hành ĐTK hay thực hiện bất kỳ khâu xử lý TL nào Nhân viên thực hiện công tác ĐTK phải tuân thủ theo nguyên tắc này, tức là phải xem xét trực tiếp cuốn sách hoặc TL đó Không tiến hành ĐTK khi trên tay không có TL, mà chỉ xem qua các TL được biên soạn có tính chất giới thiệu hay tóm tắt về TL đó
Trang 40 Nguyên tắc xử lý tài liệu theo nội dung
Khi tiến hành ĐTK cho TL, phải xem xét nội dung, đề tài được đề cập đến trong TL để định ra được các TK phù hợp với nội dung, đề tài đó Để xác định được
nội dung TL, nhân viên thực hiện công tác ĐTK cần chú ý các yếu tố
Nhan đề TL, lời nói đầu, lời giới thiệu, chú giải và tóm tắt TL, mục lục, các phần tóm tắt đầu chương, đầu TL; Các kết luận cuối chương, cuối TL; Các từ in nghiêng, in đậm, gạch dưới trong nội dung TL; Các hình vẽ, sơ đồ, bảng biểu Có thể đọc sơ qua chính văn của TL để tìm ra chủ đề của TL, vv… Trong đó nhan đề của TL đóng vai trò quan trọng vì nó chứa đựng phần lớn các khái niệm của chủ đề Tuy vậy, cũng không nên chỉ dựa vào nhan đề vì nhiều khi nhan đề không thể hiện rõ hết nội dung TL Tùy vào từng trường hợp cụ thể mà nhân viên ĐTK linh động thực hiện để tìm ra đầy đủ, chính xác và nhanh chóng nội dung của TL
Đối với các TL có nội dung tổng hợp hay các tác phẩm văn học, có thể không
tuân theo nguyên tắc xử lý TL theo nội dung vì đối với các loại TL này hình thức quan
trọng hơn đề tài Do đó sẽ ĐTK theo hình thức TL như: Tuyển tập, Tổng tập, Truyện dân gian, Truyện thơ, vv
Nguyên tắc xử lý tài liệu theo hình thức
Sau khi xem xét đề tài, phải xác định hình thức của TL Ngoài việc tìm ra chủ
đề, đối tượng nghiên cứu của TL, nhân viên thực hiện công tác ĐTK còn phải xem xét
TL đó được xuất bản với hình thức gì, dành cho ai sử dụng? Nếu hình thức đó quan trọng thì phải phản ánh hình thức đó bằng loại TK phương diện hình thức
Ngoài ra khi tiến hành ĐTK còn tuân theo một số nguyên tắc khác như:
Phải xem xét mục đích của tác giả để ĐTK cho phù hợp
Đối với các bộ sách có nhiều tập, cần tiến hành ĐTK riêng cho từng tập, vì nội dung của mỗi tập có thể không giống nhau
(Vũ Dương Thúy Ngà & Vũ Thúy Bình, 2008)