TL.. Ngữ âm tiếng Việt.. Logic ngôn ngữ học: qua cứ liệu tiếng Việt.. Từ điên liếng Việt.. English - Vietnamese abbreviation dictionary. Các ngôn ngữihông tin.. Phương pháp[r]
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜIN í ; ĐẠI HỌC KIIOA HỌC XÃ HỘI VẢ NH ẢN VÁN
£7ểp/f (Tỉ (a i:
N G H I Ê N c ứ l ỉ XẢY l ) Ụ N ( ỉ HỘ T Ừ C H U Ẩ N
T Ì M TIN C H O C Ấ C c o SỞ D Ữ LIỆU T ư LIỆU
C H U Y Ê N N G À N H K H O A H Ọ C T H Ô N G TIN - T H Ư VIỆN
(TừĐIỂN TÌJ'tilllẨN I ỈM TIN n I' ] JỘỉ I I1ÔNC; TIN- illlí VIỆN)
ĐỂ TÀI KHOA IIỌC CẤP ĐẠI HỌC QUỐC CỈIA
MẢ s ố : QX.2000.0K
Thực hiện đổ lài: T.tS 'In l â n f \ ĩ ư r /
" h A ;; > - - t ;^ t ;.:J ; tf
DT ỊCCỈIS
Trang 2M Ụ C L Ụ C
P H Ẩ N T l l ữ N H Ả I : M Ộ T s ố VẤN Đ Ể LÝ LUÂN C H U N G VỂ
B Ộ T ừ C H U Ẩ N TÌM TIN - T H E S A U R U S
Lòi mỏ đầu:
Ch ư ơng I: Khái niệm chu ng về bộ (ũ chuẩn lìm (ill
I/ Vai liò của hộ lừ chuẩn tìm liu Irong Ira cứu lìm I ill cơ giới lioá - lư
động lioá
I I / V <1 i n é t VC s ự h ì n h lliíYnli vii phỉíl I r i ố n c ù a h ộ t ù c h u ẩ n l ì m I in
III/ Mộl số (lịnh nghĩa VC bô lìr chuíiii lìm 1 in
Chương II: Pillion^ pháp xây (lựng VÌ1 khai thác l)ộ U'| chiinii lìm (in
I ) Chuẩn hoá lìr khoá vì) xây (lụng vỏn lừ klioá
2) ' l1iiếl lạp mối quan liỌ lu d liịi(1u'(fliị> giữa các lừkliná với các lii'chufin
I I / l liiê l lílp c á c mòi qn;m hệ hệ (toi vị giữa c ;íc lừ clu iA n
2) 1’hân tit'll mối quan hộ liên (lứi
3) Phân lích Ihuc dụng
11ỉ/ I iìn ỉi Ihành bộ lù' cluiim lìm tin
IV/ Phương pháp chu ng SL1' (lụng bõ III chiiiin lìm (in Imny hè lliỏnu
lìm tin cơ giới ho;ì - UI' (lôim lìoú nuàiili lliòng tin - thư \'iộn
1) Thiết lập mẫu tìm lài liên và yêu cấu lin lìầntí ngôn ngữ t(r clìilân
2) Định ký liiộu bo sung cho c;k' lài liệu voi mục c1ic.il khắc phục
sự hạn clic cua ngôn ngữ lự nhiên
^ ) X í i y (.lựng c h u ô n g t r ì n h l ì m l i u l il t ' d y ê u Cell! t u a n g ư ờ i ( l ọ c v à
người tlùng tin
PI1ẦN m i ) HAI: BỘ TỪ CHUAN t ì m t i n t ư li ê u t h ô n g t i n -
THƯ VIÊN
N h ữ n g ( l i ế m cf in Ill'll \ kill sir (Imii! h ò lu' d i i ũ n l ì m I m u r l i ê u
Ih ò iiịi liu - tlur VÌỘII
Trang 3PHẦN THỨ NHẤT
M Ộ T S Ố V Ấ N m LÝ IAIẬN C H U N G
v í ? l ì ộ T Ừ C I I U Ẩ N TÌM T I N ( T H E S A U R U S )
Trang 41 0 1 N O I f > Ẩ l ỉ
Iỉiộn nay các cĩmyCn giil Ilmnji 1 ill - tlnr viện ngày c;mji th;ini gia Ill'll
cực và trực tiếp vào công lác xây (lirníi khai thác và quán trị hệ Ihốim thông liu
khoa học công Iigliệ (ỈITTTKHCN) Chính vì vậy mộl liong lìlũrng nhiệm vụ
của họ vừa mang tínli câp bách, vira innng lính chiên lược l;i: nghiên cứu xAv
dựng và khai thác c;íc hộ lir chuẩn tìm till (B T(TI') - Tù dicii lừ ehuắn lìm lin-
ì ì h ỉ C m ộ t CÒIỊỊỊ c ụ d ặ c h i ệ t q u a i l í r o i ì í Ị , g ó p p lù ìn lu m g c a o c liA l lư ơ n g lr ; i ( li u
tìm tin phục vụ cho người dọc- người (lùng tin (NĐ- NDT) Những sinh vicii,
h ọ c v i ê n v à n g l i i c n c ứ u s i n h ( l a n g ( l u o v (IỈIO l ạ o I r o n g c h u y ê n I i g i i i i h l l i ỏ h g l i u -
tliư viện, thông till học và lỊUỉin Irị thông till, và cá những cán bộ Ihông till- thu
viện ở nước ta hiện nay không những ( fill phái nắm vững những kicn llnic lý
luân cơ ban VC xAy dựng B T C ỈT inà còn pliíii có (tù năng lực khai (liác, sử (lung
nó mộl cách có hiệu quá
Những kiên thức về xây (.lựng và khai Iliác B T C Í T g i ú p sinh viên dại học
và học viên cao học lìim c;íc bài lộp thực lùinli hoặc làm klioá luận và luận văn
(hời giúp cho các: Iilià million cứu, cán hộ giang dạy, cán bô Ihỏng tin thư viện
và quail trị thông tin liên liiinh 111LIV hiện tra cứu, lìm lin cơ giới hoá Nil (Lĩ (toil" ho;í
nguyên Đốn nay trôn the íiiứi (lã có Ilium ngi'in B T O T (la ngành vit cluivcn
cliỉ (tược bắt drill lừ nhũng nínn lliií >0 của thế kỳ X X lại cấc nước Mỹ PỈKÍp, Anỉi
VÌI1 Jen Xô (cu)
cầu của sự phái Iriến MKinh mẽ hoai (loim Ihõnti Im khoa hoc cóng nghê nói
c h u n g ( l ặ c b i ệ t là v i ệ c ứ n g (luiiịi C0I1JI n g h ệ tin hoc \ ; i o c o n n l;ìc XII lý V,‘| li;i
cứu lìm tin cơ giới hoíì và lự (lộnn lioá, các nhà thon ụ lin - Ihư \ iéi 1 li.ĩl (líiu l;ln<:
Trang 51 1111 ;iíi 1 t ì m l i l t , x A y ( l i r n e c ; u ’ b ô l ừ k h o : í
da ngành và chuyên ngành KIICN I lai lài liệu hướng dần nghiệp vụ:
clÃn m ô lả nội dung lài liệu bằng lừ kluni" và "Hướng dẫn bicn soạn 'Iliesaums
xuAt bán vào năm 1993 của Trung lâm Thông lin Tư liệu Khoa học Công Iighc
Quốc gia dã đánh dấu một bước đi quan trọng trong lình vực này cùa sự nghiệp thổng tin - thư viện ớ nước ta
N ăm 1997 Trung líìm Thông till Tư liệu Khoa học Công nghệ Quốc gia
đã cho công bổ kết quả đề lài nghiên cứu cfip hộ: "Nghiên cứu xây dựng bộ từ
k h o á c h o c á c c o s ỏ t u l i ệ ĩ i d a H Ị > ờ n l i k h o a h o c t ự n h i ê n v à k ỹ t h u ậ t ” ( lo T s
Nguyễn ĩlui Thíio làm clìủ (1ề lài llrìu hốt các thu viện khoa hoc tổng hợp và
chuyên ngành (V niiứe ta (lã vận dung kết C|IUI c ua dc lài nghicn cứu khoa hoc
này vào việc xíly (lựng và khai thác CÍÍC cơ sớ tlữ liệu tu liệu Kí ỈCN
Tù sau năm 19c)7 (lốn náy (kể lừ sau khi đề lài nghiên cứu khoa học tii;i
TS Nguyền Thu ITiảo (1uực công bõ), ớ nước la chưa có mộl công trình ngliicn
cứu khoa học nào VC việc XÁV (lựng B T C I T l ổ n g hợp và chuyên ngìinh
Đề lcii nghiên cứu khoa học: "Nghicn cứu xây dựng bộ từ chuiiín lìtn (in
cho các cơ sớ dữ liệu tư liệu chuyên ngành khoa học thông tin- thư viện" (gọi lííl
là Bộ lừ chuẩn tìm till thông tin - lliư viện) là công fIình khoa học dầu liên ilược
ngliicn cứu ớ IIƯỚC la YC lĩnh vực Xíìy clung v;i khai lliác B T C I T chuycn ngìinh
nói chung và về chuycii ngành khoa học thóiiíi lin - lim viên nói riêng
M ụ c (lích chính cùn (le Ííìi iiỊLỉhiôn cứu klioii học I1Í1V líV.
- Hệ lliống lioá va khái C]ii;ìl hoá sự hình thành phái lliên và vai trò cùa
B T ( T Ĩ 'lio n g lĩnh MIC lio.it (lõní! lliòng lin - thư vicn
- N«hicn cứu áp tlmm v;'i h o à n lliiện I lilting Iv luận, phương pháp luân
khoa lioc vé xâv dưng B T ( T ['í,u ;i nước la cTuiịi nlnr của nước ngo;ii v;'in việc
Trang 6- B ư ớ c đ ầ u l l n í n g h i ệ m h ì n h t l iì mh i n ô l B T C ' I T c h u y ê n n g à n h k h o a h ọ c
thông till- thu viện n h ư Itiộl thí (lu (liên hình de' làm rõ các vfm (lr lý ỉiũn
phương pháp luận và Ihực liễn dã dược đề cập (1cn trong nội (lung nghiên cứu của đề tài Iiàv
- Giúp cho những người (tang llieo hoc (V các câp đào tạo cùa cliuyôn
ngành thông tin - lỉiư viện VÌI quán Irị lliông liu nắm dược những kiên lluiv 1\
luân cơ bail và kinh nghiệm tliực liền xây dựng và khai thác BTCTT, dồng thòi
tạo diều kiện cho họ có Ihc nghiên cứu vận dụng và phát triển những Vấn (lé lý
luân và thực tiễn này vìin các công vice chuyên môn nghiệp vụ cùa họ san này (V
các trung lâm thông tin - thư viện VÌ1 CÍÍC cơ quan lliông (in KI ICN
Nliiệm vụ chính C11Ỉ1 de lài:
- Ngliicn cứu phương pháp xâv (lựng BTCTT cluiyên ngành khdii hoe
thông tin Ihu viện
- Bước drill h it'll soạn lỉT C T I’ vcVi số lifting gấu h;ii Iigiiii mục lừ du ifin v;i
khoang 4 ngàn dơn vị từ vựng vé khoa học thông till- lim viện, vổ quán trị (hòní>
tin, chủ yếu dựa trcn cơ sở vốn lừ khoá và tù' cliuaii lấy ra lừ các tài liệu cluiyên
vụ Ihông tin- llur viện líii các trung l;ìm thòng Iin - ỉliu viện lớn ớ 111 lức la hiện nay
Pluroiig pluíị) nghiên cứu CIIJ1 (lồ lài:
Trong quá trình nghiên aiI'll (lổ lài này lác eiá (lã sứ dung các phưoìig pháp:
ỉ ) C á c p h u m i g p h á p k h o a h o c c h u n g :
P h ư ơ n g p h á p d u y vậl h i ệ n c l u i n g VÌ 1 ( l u y vni l ị c h SU'
- Dựa vào các văn kiện và (tường lói chính sách cua Đãng và N11;I nước vẻ phái Iricn kinh 10 - xã hói, khoa lioc công nghệ, lliõng tin khoa hoe
công ngliệ và cổng lác thòng till - 11 ill viện iioim lliừi kỳ Đổi mứi Cniiị!
n e h i ệ p h o á , Hiện c h t i Ikiiì f)fii nước
2 ) C á c [ ỉ l n n i ì i q p h á p k h o a h ọ c CỊI t h ế :
- Phương pháp Ihòĩiíi Iin hoc thu viện lliư I1H1C line
S
Trang 7- Phương pliiìp ngôn ngữ học
- Phương pháp tiếp c ận lịch sỉr
- Phương pháp tiếp cận hệ thống
- Phương pháp xứ lý phíin lích- lổng hợp tài liệu
- Phương pháp Ihống kê và so sánh dối chiế u
khoa học có liên quan (lổn (lò lài nìiv (I;H‘ Itiệl IÌI kết quá nghiên cứu cúii r;k' tlè’
tài về xây dựng bộ lừ klioá và bộ lừ đuiíỉn của nước la trong mươi năm gần dây
Trong quá trình thực hiện dề lài, ngoài việc lliain kháo các tài liệu nước
ngoài, tác giả (1ã tham khảo nhiều lài liệu cúa các tác giá trong nirức, (lặc hiệt IÌI
các tài liệu có liên quan đcìi công Irìnli nghiên cứu của TS Nguyễn 11 IU Tháo và
các lài liệu khác cua Tiling (í\in Thông till Tư liệu KHCN Quốc gia, của Thư
viện Quốc gia Việl Nam, của Inrờng Đại học Quốc gia Hà Nội và cùa Irưừnií
Đại học Văn hoá Hà Nội cũng như cùa nhiều bạn (lổng nghiệp khác Tác giỉi
xin clirực cảm cm sự giúp (lỡ cỏ hiệu quá của cát cơ quan, các cluiycn gia cấc
nhà giáo và các hạn đổng nghiệp dã lạo diều kiện và giúp dỡ ĩiliicu trong (ỊIKÍ
trình nghiên cứu Với thời gian không nhiều, dầu ur vậl chất íl vốn kiên tlníc và
kinh nghiệm của lác gia còn hạn chế, chắc chắn nội đung đề lài này còn cần
dược hổ sung, hoàn chính Tác gin mong muốn nhộn (lưực sự dỏng góp ý kiến
phê bình của tất c;ì các nhà quản lý các nhà khoa học và các bạn (lồng nghiệp !
Hà N ộ i , lì^àv 30 thán,[> 4 năm 2002
Trang 8C H Ư Ơ N G I KHẢI NIỆM C I IU N í ; V í : h ô l ì) ( HUẤN TÌM TIN
I/ V A I T R Ò C Ủ A B Ộ T ư C I I U Ẩ N T Ì M I I N T K O N C Ĩ T R A c ứ u T Ì M T I N
C O ( Ỉ I Ớ I H O Á - T Ự Đ Ộ N í ; I Ỉ O Á
Rộ từ chuan tìm Iin (Iưực sử dụng lAI rộng rãi trong các hộ thống tìm
tin cơ gi ơi hoá - lự dộ n g lioá n ặ c (liếm nổi bât cùa việc lìm (in cơ giới lio;í
tự dộ ng hoá là sự kết hợp đễ dàng c ủa các ký hiệu l icng biệt Việc kcì hợp
các ký hiệu là íiêu chí cliâl lượng quan Irọng Imng hệ Ihỏng lìm liu cơ giới
hoá - lự (.lộng lioiì Chính tiOu chí này tạo (lieu kiện ( I LI an h o n g cho việc lìm
đa diện Người c1ặt nền m ó ng cho hệ thống định ký hiệu phổi hợp là nhà bác
học Mỹ M Taubơ ỉlieo cjiian điểm cua nha bác học này Ihì “ nội dung C 1IÍI
bcU kỳ tài liệu nào cũng có thế phíin ánh bang các lừ kboá" dược lây 11 ực liếp từ bán văn của tài liệu Mỗi lừ klioá (.tược coi như !à một ký hiệu (lộc
!ệp Tổ hợp các từ khoá clưtíí' lííy ra lừ !fũ liệu cụ 111C nìio dó 1 hì được gọi là
Mần tìm lài liệu Cũng hằng cách hull lương lự nlnr í rên, người la Xíìy ciựng Mầĩt tìm yêu cần liu Việc dịnlì ký liiệu hằng các từ klioá là việc làm kliông
khí' khăn lắm, vì rằng các từ klioá dã có sail ngay (rong han vfm CÍUI CÍÌC lài
liệu Tlií dụ nhu: Irong mộ! hài b;ío co nói (lung biìn về: "Tổ (.’hức kho sách
lự chọn C'l’ia các llur viện khoa hoe Việt Nam Ironi! lliừi kỳ công nghiệp hn;'i
hiện dại liơỉí (lất nước" Tr o n g mini lìm lài liệu sẽ có các lir klioá: "Kho Siích
tự chọn", "Tlur viện klioa học", "Vicl Nam" Máy vi tính ( h o ặ c các má\
móc, tliiếl bị thủ công truyền íhônp) sc Cling cấp cho chúng ta lất cá những
tài liệu mà Irong m;ĩti tìm l:ìi liệu này có till cí» hoặc có môi pliiìn m a mau
lìm yêu cẩu lin Nên nlm yen (.rill Iin: "Thư viện Việt Nam" 1 hì mau tìm của yêu cíiu tin này sẽ có c;íc từ khoá: "lliư viện" và "Việi N a m ” Căn cứ VÌIO
các tìr khoá này, chú ng l;i SC cung cAp c h o người dìing liĩi hìii báo nói v é
kho sách lự chọn của a í c lim' viện klioa hục long lu>p Việi Nam
N h u v ậ y , I m i m h ệ l l i ỏ n g l ì m 1 in c ú n M T a i i b n ’ s i r ( l u n g l i m l i ê p c ; íc
l ừ g ố c c ủ a l i ì i l i ệ u , ỉ l ệ I h ố n g n à y c u a Ò I 1ÍZ r õ l ì i n g l à I r í t í ì n n í i i í i n I n y n ó (■('
7
Trang 9ý nghĩa rAl (|uan trọng, nlitrtifi nó (lem lại hiện qiiíi chfi'i lượng lìm (in kém
do sử dụ ng ngôn ngữ tự nhiên để mó lá nội dung lài liệu và yêu càu tin cho
nên dân (lên mất tin ríu lớn Ngon ngữ lư nhicn có Ihế diẻn cĩal nội tlun° nà\
hoạc cac nội dung khác băng nhiều lừ khíìc nhau Thí dụ như: "Các hán thu
m ục về kỹ thuật dỏng tàu do các í rung t a m thông tin - thư viện Việt Nam
xuất bản" và tài liệu: "Danh mục lài liệu kỹ lluiậl dóng tàn tìuiỷ, do các cơ
qu a n th ông tin khoa học và cổng nghệ Việt Nam xuất han" Như vậy, ý
nghĩa nội d u n g của chúng 1 hì tương lự giống nhau, nhưng chúng lại được diên đạt bă ng các lừ klioá khác nliau Một thí (lụ khác: (rong mỏl ỉrù liệu
bàn vô các phương pháp tuyên Iruycn khoa học công Iighộ do các phòng
th ong tin khoa học của nhà máy, xí nghiệp nghiên cứu, biên soạn và một lài
liệu kh ác hàn về các hình thức trao dổi kinh nghiệm sản xuất do các bộ
phận thong till khoa học kỹ lluiật cua xí nghiệp Ihực hiện T m n g infill lìm
ciui tài liệu Ihứ nhíìl hao gồm các lù' klioá: "Tuyên Iruycn khoa học kỳ
tliuạt", "Phòng thông till khoa học và công nghê", "Nhà máy", "Xí nghiệp'’
T ro ng mẫu tìm của lài liệu Ihứ hai hao gồm các từ khoá “Trao dổi kinh
ng h iệ m sản xuflt” “ Xí nghiệp'' T m n g hệ thống tìm tin cua M Ta ub ơ c;i lài
liệu Ihứ nhất và lài liệu Ihứliai đều không đirực đưa ra dể làm llioá 111 n 11 ycu
C í i u tin "Tuyên Iruvền sail xuấl trong lĩnh vực còng nghiệp", mặc drill thực chất nội du ng của ca hai Ini liộu (lều có llic linn llioá mãn dược yêu cáu (in
Do sự mất tin quá lớn nhu Ill'll (1;1 trình bày, nên hệ Ihống tìm Ún M
T a u b ơ k hô ng dược sù clụng rộng ríìi trong thực liền Những nguyên nlifm
11(10 gAy ra sư mất 1 in lớn đến nluĩ vây và có lliè kh;ìc phục cluực c 11 ú 11 ii ỉia\
k hô ng ? và (lổng thời có the liếp thu được những ưu điểm của hệ thông lìm
tin M Tíìiibơ Dựa trên sự (linh ký hiệu phối hợp người la có thể khắc pluic
dược mill hạn chê cùa hệ lliống tìm tin M Taubơ Đứng ớ góc (lõ lìm Iin
c h ú n g (a ihÁy hai (lặc điểm của ngón ngữ lự nhiên sau (l;ìy d i í n h In nguyên
Trang 10Sự d ư thừa của ngôn ngữ lự nliicn bicu hiện như sau:
a) Bên cạnh các lữ klìoá irony Iiíịôi) lìiỊỮ lự nliicn ròn có sửdụiHị 1'ỘHỉi
rãi các iữ "Không phải lờ các íừkhoó" Ncu loại bỏ các từ này thì chúng
cũ ng k h ô ng anil hương gì (lốn ý nghĩa nội dung thông liu Thí till nhơ líii
liệu: "Các phương tiện lổ chức kỹ ihuệl áp dụng Irong các trung làm Ihông
tin - thư viện hiện đại", trong {16 chi có hai từ khoá "Tổ chức kỹ tlniật" và
"Tr ung lâm thông tin - thư viện", các lừ còn lại không được xcm là các từ khoá Các từ không plnii là Cik' lừ hná (.lien hình nliir: "Áp dụng", Th ư ơ n g
p h á p 1’, "Hoạt dộng", "Hiện dai", "Mới"
b) Sự (ỉồìiq nqliũỉ Ììoặc ẹẩn m>ltĩ(i cùa các lừ Thuật ngữ klioa học
hiện đại, trong đổ thuật ngữ thư viện học, thư mục học và thông tin học có
rất nhiều từ đổ ng ngliTa hoặc gíìn nghĩa Thí dụ: Cùng nghía vói "Bán chí
tlõn thư m ục vé các lài liệu" còn có các lliuẠt ngữ sail tlíìy cũng Ilníừng (lirực
Xuííl bán pliíiỉm tim mục
Danh mụ c tài liệu
Tài liệu thir mục
Trang 11ngôn ngtr tự nhiên fillip |;i môi nguyên nil All I’Av I'.'I sir (hr (liừíi I rt >11 Ji neon ngữ tự nhiên, chính chúng gfty ra khó khăn cho việc diễn dạt nội dung lài liệu.
Bên cạnh sụ du t h ừ a ” như đã dirực dề cập ớ trên, trong ngôn ngữ lự nhiên con co sụ thiêu hụt , mỗi mội lài liệu (lược viêì hằng ngôn ngũ tự
nhiên là dành cho một nhổin người đọc lương ứng nhất định Khi viết mội tai liệu nào dó, tác giả thường cho rằng các vAn đề nêu ra Irong lài liệu deII rât quen thuộc VỚ I người đọc,-m ó i liên hộ lógíc của các tliuât ngũ' dùn g tie
m ô ta vân dê cũ ng lluíờng ckrực người dọc hiểu lõ hoặc (lễ nhận lỉiây Chính
vì vậy, trong bản văn của lài liệu cũng không càn phai dùng hcì lát cá các thuật ng ữ (lể m ô lả đôi lượng nghicn cứu, phần lớn các từ ấy được hiển dưới
d ạ n g ân ý (hiểu ngổm) Chính lừ sự ẩn ý (hiểu ngầm) này mà tài liệu khoa
họ c kỹ thuật thường chỉ dược dùng cho các nhà chuycn mồn ớ mội lĩnh vực
kh o a họ c kỹ thuật cu the í hí (lụ: có hài háo nói về vfm (lổ mã hoá llieo
đư ơng ihăĩig cùa các công thức câu Irúc Trong hài háo này t ó Ihể sir tiling các từ như sau: "Tự dộng lioá", " l ì m 1 ill", "lloá học" Nhưng các cliuycn gia Ihồng tin lioá học có (he liicii rang hài háo này có liên quan trực Ilép tiên các vấn dề tìm till cơ giới lioá Irong lĩnh vực thông tin hoá học
"Sự thiến hụt" chính xác í an ý ngầm ý) của ngón ngủ lự nhiên con
hiểu liiộn ở sự tia nghĩa giao clico nhím cua CMC llìiicll ngữ Thí (lu:
T h ô n g tin (lỉoạl dộng (hông liu)
Thòng tin ( T ill tức)
Thư m ục (Lĩnh vực (l i thức)
T h ư mục (R;in ch í dần lài liệu)
Đ ể khắc phục "sựdu' th ừà ' và "sự thiếu hụt" của ngôn ngữ lự nhicn,
n g ư ờ i l a đ ã t ì m r a m ộ t b i ệ n p h á p h ì n h t h ứ c h o á m à k ế t q u a c u a n ó là n g ó n
n g ữ lừ chuẩn , trong đó các lừ cliuấii (lược sắp xếp dưới dạng hộ từ chuẩn tìm tin Bộ tù' chuẩn tìm Iin giúp chúng la lutn c h ế lối đa sự mâl tin khi liên hành tìm tin Bicn soạn bộ lừ chuẩn lìm I ill là mội công việc khó khăn và licì sức phức tạp đòi hói nhiều còng sức cùa các chuyên gia có Irìnli (lộ cao
n h u n g sẽ đ e m lại hiệu qua cliAl lượng cao và (lỗ dàng cho việc lìm tin trong
hộ (hòng tìm tin Điều này đã được cát' 111 ực nghiêm khoa học liên lùmli lai các lnin g tiìm thông lin - lliư viện 1 rên llic gin'i và trên (lịa belli Thù (ló llà Nội m ấ y n ăm gần đây xác nhận Sir mill I in íiong các hê Ihóng lìm tin lir churỉn chỉ kh oá n g từ 10 - I V }
Trang 12II VÀI NÉT VÊ S ự HÌNH THẢNỈ \ VẢ PIIẢT TRlỂN ( ’ÙA lĩộ rì K i l l IAN TÌM TIN.
Iluiậl ngữ "Bộ lừ diuíiỉn" (Thesaurus) liìit Iiguổii lừ liỏng í ly Lạp
nghĩa là K ho báu , Kho lưu trữ" - Là mộ! Iluiệl ngữ khoa học để chỉ lừ điển trong lĩnh vực ngôn ngữ học
Tron g ngôn ngữ học có hai loại từ điển quan trọng chú yếu: Từ điển biểu Am và từ điển biểu ý [3, Tr 135- 136)
- l ừ đ i ể n bi ểu â m là loại từ điển thông IInfnfng {từ điển giái thích và
từ điển dối chiếu) lập hợp các lừ theo ngữ Am, trình bày chúng hoặc theo
trật tự chữ cái, hoặc theo trậl tự ổ cíUi tạo lừ Để tra cứu tin, người ta xuẩt
phát từ n gữ Am của lừ để di lìm các ý nghĩa lương ứng
- T ừ đ i ể n bi ểu V là loại từ điển sắp xếp các từ Iheo V nghĩa của
chúng Ý nghĩa của lừ là sự phản ánh của những sự vật, hiện lượng hoặc
quan hệ trong lliực lế Cliínli vì vậy s;íp xếp các 111 llieo V nghĩa cua cluing
c ũ n g có nghía là sắp xốp c;ln cứ vào lổ chức, vào licit tự sắp xếp của thực lê
khách quan bên ngoài ngôn ngữ Trường hợp niól lù da nghĩa, no co lhe
đưực sá p xếp ở những vị trí khác nhau trong từ điên
T ó m lại: Từ điển hiểu âm là chinh sách các lừ ngữ âm vói các V nszliTa
của chúng, còn từ điển biểu ý là danh sách các lừ - kliái niệm với các dồng
nghĩa của chúng
Các dì điển biểu âm và hiểu ý dược (lùng hổ sung lần cho nhau dể tra
cứu c;k’ lừ Loại lừ điển tluí Iihrú dùng (lể tra nghĩa cùa lừ nào đó hoặc khái
ni ệm mà lừ dó phíỉn ánh I oại lừ diên Ihứ hai tiling dê giái quyêl mọl nliicin
vụ lioàn toàn khác Đó là làm giíím nhẹ việc lìm kiếni các phương tiện ngon
n g ữ phán ánh mội khái niệm nào đó í lay nói một cách khác, khi su dụng lu
(tie'll b i ể u Om c h ú n g t a (li 1 ừ l ừ ( l ố n V n g h ĩ a , c ò n k h i s ứ d ụ n g t ù ( l i ê n b i ế u y,
thì ngược lại lừ ý Iiglii;' I>;mg lù
Việc Xiìy (lựng các bộ tìr chuẩn (lã có lừ râl xa xưa 'ĨYong số các lác
giả của các bộ từ chuẩn dầu tiên lcì ỏng Arislóplian Vadatin - Giá m (lốc lìm
Trang 13VIỆI1 Al êcs an đơ rơ (mất vào năm 180 Iiuớc Công nguyên) Vào giữa 1 lie ký thứ II và thư III ínrơc Công nguyên xuất hiện bô từ chuẩn "Amamcosa” ("Kho
báu Amar ơ ) với nội dung 10.000 từ Các hộ lừ chuẩn này dược pliíìn chia thành
tìmg cuốn sách, chương, ITIỊIC theo ý nghĩa của chúng Trong giai đoạn phái
triên tiêp sau, các hộ từ chuẩn đề cập đến các víín đề ngôn ngữ triết học
toàn t h ế giới, bao gồm tất cả các đối iưựng tư duy của loài ngưíti
N h à hác học người Plorenxơ - ông Brunhcttô Lalinhi (1220 - 1294)
đã sư d ụ n g ihuậl ngữ Bộ lừ chiiỉin" (Thesaurus) (lể chí các bíìcli khoa thư
Tro ng côn g Irình của mình, ông (lã (lặi lên là: "Các sách vé kho h á u ” (Li
Livré clou Tréror) Vào năm 1532, G Ticrri và p Etieu dã cho xuât hán
cu ốn sách "Từ điển, hộ lừ chuẩn ngón ngữ La linh" ("Dictionarium Sell
L in g u ae Lalinac Thesaurus") - Bộ lừ clmẩn giải nghĩa liếng La tinh, (rong
dó các dơn vị từ vựng dược sắp xếp (heo víin chữ cái Vào năm 1572 A
Elicn cho xuất bản bộ từ chuẩn giai nghĩa - "Bộ từ chuẩn ngôn ngữ Hy Lạp"
"Thesaurus Linguae Grae - Cac") p Blien biên soạn bộ từ chuẩn này là cliíi cua
ông A Etien Giá trị cùa hộ lừ chuẩn này Víìn còn tồn lại đến ngày Míiy
Vào drill llic kỷ XVII, cùng với sự hình thành các nguyên lĩìc xây
dựng ngôn ngữ của p Đêcail, năm 166! tại Luân Đôn đả cho xuâl h;’ni CÔIILỈ
trình của Đ Đol gar nô mà nội clung chính của công trình này được ph;'ìt
triển và m ở rộng trong cồng 1 rìn h : "Kinh nghiệm về phán ánh hiện 111 ực và
ngôn ng ữ triết học" (1668) cua ông Đ ơ Giôn Uilkinsơ Nhu' vây các nhà hác
học A nh dã tích kiv được khá nhiều kinh nghiệm phân loại ngữ nghĩa vốn
từ vựng m à ổng Pitera Mark Pose dã vận dụng trong công trình cơ bân của
mình: “ Bộ từ chuẩn các lừ và cách diễn đạt trong tiêng A n h " (1852) Bọ từ
clniắn này (tược xem là liền lỉiân của các bộ lừ chuẩn biểu ý trong ngôn ngữ hoc
và đổng thời nó cũng dược coi nlur là liổn tliíln của bọ lừcluiAn lìm tin (BTCMT)
Từ 1957 đã xuất hiện quail (liếm sử (lụng B T C Ĩ T trong các lie ihône
tìm tin ( Ỉ I T Ĩ T ) Và o (1À11 những níim 60 cua th ế kỳ XX, người la (lã liên
hàn h ng hi ên cứu xay dựng các R T C 1T đầu liên (lê phục vu cho các nhicm
Trang 14VỊI lìm tin Do ý nghĩa vh CÍÌII Inìc cii:t R T r T T này kliiíc him vứi C';íc lừ (lien biêu Am và Cík: sách I n CHU ugòn nníì Imc, cho nên chúng (lược gọi là BTCTT
* Các bộ tù ch uẩ n đa ngành:
- Bộ từ cliuán của hãng phục vụ lliỏng tin kỹ Ihuậl Mỹ xuiũ hán lần
thứ nliất vào tháng ! 2 năm 1962
- Bộ từ chuẩn các llniệt ngữ kỹ thuật của llội đổng Liên hiệp Kỹ su
Mỹ, xuất bản năm 1964
- Bộ từ chuẩn các Ihuật ngữ và khoa học kỹ tluiậl với 23.364 lù
(trong dó J7 8 ! 0 lừ là lù chuẩn) X11 ất bán vào lining 12 Iiăin
1967, (1fty là XIUÍI bíĩn phẩm của Trung líìm T11 liệu Bộ quốc phòng
M ỹ (trước c1ãy là Hãng phục vụ thông tin kỹ lluiẠl Mỹ) và Hội
đổ n g Liên hiệp Kỹ sư Mỹ
- Bộ từ chuẩn các thuâl ngữ khoa học kỹ thuật do III 1 Seinakm c 11 ú biên (M N X B Ọ u â n (lội, 1972) Rộ từ chuẩn này phan ánh 19.000
thuật ngũ', trong (tó 15.000 là từ chuẩn
Các bộ lừ chuẩ n khác cũng cỏ the (lược xem là các bộ từ chuẩn (la
n g à n h : B ộ t ừ c h u ẩ n c ủ a c ú c t ổ c h ứ c n ă n g l ư ợ n g I i g u y c n t ử c h â u ÂLI XIIAÌ h á n
vào 2 n ă m 1966, 1967; Bộ từ chuẩn cua Cơ quan Thô ng liu Quố c lẽ YC
Nă ng krợiìg Ng uy en lử, xuíít bản ơ lliììnli phố Vicn (Áo), lòn XIIÍÌÌ báu llití 6
vào năm 1974; hộ từ chuẩn của NASA (Cục hàng k hô ng và Vũ trụ Quốc gia
Mỹ ) xuất bán vào năm 1967, n hu ng nó còn cỏ giá trị đến hiện nay
* Các bộ t ừ c h u n n ch uy ên ngành:
- Bộ từ chuẩn cổng Iiglìệ ho;í học do tiirờng Đại học Kỹ sir hoá liọc
- Danh mục để mục chủ (lể vổ Y học (1(1 Thu viện Y học quốc gia
Mỹ xuất bản mỗi năm ! lần, sử (lung cho hệ lining lim Im tự (Inii”
v ề V h ọ c v à s i n h h o c
13
Trang 15- Bọ từ chIIAll VC giáo dục và (tào tạo sử dụng trong hộ llìỏng lự
dộng hoa của Trung tam Thông tin Giáo line Quốc gia Mỹ í l % 7 ) ,
Ngoài ra còn có các bộ từ chuẩn: kỹ Ihuật tính toán, luyện kim kỹ
thuệt đ ó n g tàu biển, công nghiệp giAy, công nghiệp dệt, nghệ thuậl và về
nhiều lĩnh vực khoa học công nghệ khác
Riêng () nước Nga Xô - Viêl, vào những năm nửa cuối cùng của tho kỷ
XX đã biên soạn các hộ từ chuẩn chuyên ngành tiêu biểu như:
- Bộ từ chuẩn về hoá học và công nghệ hoá học do Viện khoa học
Ho á học và Công nghê Hoá học hiên soạn vào năm 1967 (16.900
từ klioá, trong (ló có 8.600 hì c h u ẩ n )
- Bộ từ chuẩn lìm Iin vè thông (in hoc (lo Viện thông till toàn Liên
bang Xô - Viết, xuất ban vào năm 1973 { 1.033 lừ chuẩn và 5.373 (ừ
khoá)
Ngoài ra, trên t h ế giới còn có hàng ngàn bộ lừ chuẩn chuyên dề xuất
bản trong Ihời kỳ những năm CLIÓÌ cua thê ký XX và chiu thố ký XXI,
I I Ĩ / M Ộ T S Ổ Đ Ị N H N G H Ĩ A V Ê HỔ T Ừ C I I U Ẩ N t ì m t i n
Đ ể làm rõ các yêu CÀU đối với nội dung và cấu trúc của BTCTT,
c h ú n g l a l ẩ n h r ợ i n g h i ê n c ứ u m ộ t s ố ( l ị n h n g h í a t i ê u h i ể u c ủ a c ấ c c h u y c n g i a
Víì các cơ quan c hu y ên môn trong và ngoài nước vổ kliíìi niệm này
I ) "BTCTT là loại từ điển một ngôn ngữ trong đó các lừ hoặc dôi khi
các câu văn của một ngôn ngữ nào (16 được sắp xếp theo các chuyên (lé
Nếu như trong từ điển thông llnrcrne chúng ta căn cứ vào lừ dể lìm ý nghĩa
củ a nó, ill"; trong BTCTT chú ng ta căn cứ vào ý nghĩa của các lừ (tê tìm CÍÍC
từ m à c h ú n g phản ánh các ý nghĩa dó" (M V Aranốp áp dung các phương
pliáp B T C Ĩ T vào dịcli máy - Tổng quail lài liệu I11ĨỚC ngoài 'Tl ió ng Iin
K H K T " , ] % 2 N I I, (r 23)
Trang 16B T C I T tnrớc hô( là mội hệ t liống pliíln loại, Irong itó CÍÌC (ừ và các
cAu văn củ a mộl ngôn ngữ nào (ló (hoặc một hộ phận ngữ vựng cùa ngôn
n g ữ này) thí dụ như: Thuật ngữ hoá học, luyện kim dược phồn loại theo một
s ố dấu hiệu ( M v Aranôp, một sỏ’ nguyên lắc xây dựng BTCTT "Thông
l i n K H K T " , 1964, N 4 tr 40)
2) B T C T ĩ líì lừ điển, phán ánh các mối quan hệ ngữ nghĩa giĩĩíi các
từ của n g ôn ngữ nào đổ 'I hường 1 hường B T C Ĩ T hao gồm hai phần: Tổ hợp
các đề mục chủ đề và các từ khoá Mỗi đề mục có từ tiêu (1c và các lừ có
liên qu an trực tiếp với nội đung của từ liêu dề (ló, hầu hối các từ ây đều
m a n g một ý nghĩa lương tự giống nhau Iheo nghĩa rộng hoặc llieo nghĩa hẹp
so với từ liêu đ ề Nhiều khi người la coi BTCTT là (lanh mục các dối
tượng khác h quan và các mối quan hệ giữa chúng liong hệ thống ngữ nghĩa
n h a i đ ị n h " ( I u A S r i e i d e r , VC c á c đ ặ c liLíng s ố l ư ợ i i g c i i a t h ô n g t i n n g ữ n g h ĩ a
"Thông till K H K T " , 1963 số 10, tr 33 - 38)
plurơng pháp kiểm soái lừ vựng dựa (lên cơ sớ các mối quan hệ ngữ nghĩa
giữa các từ ho ặc các câu vă n BTCTT kỹ Ihuậl là công cụ giúp cho việc
định ký hiệu bổ sung hoặc lìm tin bổ sung Uiỳ llico lình hình yêu cáu cụ thế
của m ụ c đích và khả năng tìm tin luỳ (heo vào khả năng nguồn tài liệu và
yêu CÀU till cẩn đá p ứng BTCTT kỹ thuật tạo diều kiện thuận lợi cho ngirời
địnli ký hiện và cá người tlìực hiện việc lìm tin sử dụn g mức độ tlịnh ký
hiệu bổ Sling một ciìch hợp lý trong các lình huống cụ Ihc cua việc tra cứu
t hôn g tin phục vụ cho N Đ - NDT" (B E Holm and L E Rasmussen
Development of Technical Ilicsaiiius "Amcrical Documenlalion" 1964, V I2
N3 p 186)
4) "BTCTT (lược xác (tinh như một (lanh m ục các lliuật ngữ chu đạo,
(lưới mỗi lluiẠl ngữ dỏ có ghi các thuật ngữ có liên quan mà người làm định
chù dề có thể sử dụ ng sau khi (lịnh ký hiệu sơ bộ, nó lighten cứu các iluiạl
n g ữ liên (lới với từng thuật ngữ (ló mà người (lịnh ký liiệu muốn (lưa them
15
Trang 17vào mĂu tìm tiTI tM liệu Vỉ'i yên (.All I in B T C T Ỉ’ g iiip cho ugirời (lịtilt ký liiẹu
có khả năn g m ô tả thông Iin dựa Ircn quan điểm chu quan của họ" (.1 c
Costello, Jr Utiitcnn Indexing principles, problems and Solutions "American
Doc u m en ta ti o n" 1961, V 12 N I p 23)
5) "BTCTT Kỹ tluiặt thực hiện chức năng như một danh m ục dể nhớ
các lừ ( W or d- R e m i n d e r list); Nó giúp các cluiyên gia định ký hiệu: (1) mô
tả thông tin hằng sô lượng tluiậl ngữ theo quan điểm riêng của họ; (2) mô lá
tài liệu hằng các thuật ngữ dồng nghĩa hoặc dồng nghĩa một phần; (3) dưa
các khái niệm hẹp vào các khái niệm rộng nằm ờ mức tlộ (lẳng cấp cao hơn" (.ĩ
c Costello Jr Training manual and Workbook lor use in Abstracting and
Coordinate Indexing Training course Columbus BaUelle Memorial luslilulc
1964, p 101)
6) " BTCT T là tập hợp (Collection) các từ (lồng nghĩa và trái nghĩa
đ ư ợ c h ệ t h ố n g h o á ( h e o " c á c k h á i n i ệ m " , k h ô n g l l ì CO v ầ n c h ữ c á i v à c á c d ặ c
tnrng khác Tro ng tư liệu học ” B T C I T " dổi khi được sử dụng (1ế chí danh
m ụ c các liêu dề chủ dề Trong danh mục các từ được sắp xếp theo nhóm, và
tìm kiế m các từ dó bằng cách ch ỉ (lần "xem" hoặc "xem thêm" (R s Taylor
Glos sar y o f term frequentin' used ill Scientific Documcntaton New York,
American Institute of physics, 1962, p 15)
7) " l l m ật ngữ " BTCTT" trong lý thuyết tìm till cổ the dược định
nghĩ a như mộ t tập hợp của các tiêu đề chú đổ hoặc "các từ c h u ẩ n Các tù
ch uẩ n dược hệ thống hoá theo các vùng và các n hó m khái niệm và dược sắp
xếp iheo vẩn ch ữ cái, trong dỏ có ca các chỉ dẫn lìm lin giao chéo nhau
(C.F Bill 7, The need for a Thcsỉiums ill automated Informal ion rclieval Owcgo
N Y IBM Space Guidance Center, 1%2, p I )
8) " BTCTT - Từ điển (Lcxieon), dặc diem nổi bật của I1Ó là ớ cho, các lừ được sấp xếp iheo ý nghĩa cúíi chú ng í by Ideas); pliAn nhóm và pliAn
loại các lừ (lồng nghĩa và các lừ (lổng nghĩa một plián; lập hơp các l(Vp I Illicit
ngũ lương đương" (Reference manual Index organization lor Information
Trang 18retrieval White plains N Y IBM Technical Publicat ion Department, 1961 p 5 8
and w F Willians principles-of iuilnmaled Information Retrieval Elmluisl, The business press, 1965, p 425)
9) BTCTT là công cụ hổ trự của cóng tác lư liệu, là hộ sưu tập các
từ của ngon ng ữ tự nhiên, cluing có mối quan hê với nhau BTCTT có thế
được xây dựng theo nguyên tắc pliAn loại với sự hỗ 1 rợ của các chi dần
tương ứng hoặc theo nguyên liíc liìnli 111 ÚC' (ilií dụ nlnr: theo Viin chữ cái),
k há c với t á c hệ thong phân loại là (í Um, Imng B í c r r lẩt c;\ các lừ có
clnmg một nội dun g PiAng nhau dược nhóm lại với nhau vào cùng mội
nliotn (theo định nghĩa của Hội Tư liệu Í1ỌC Đức về khái niệm BTCTT)
10) Y nghĩa cua RĨ C T T ’ lliê hiện ở mây (tiêm sau: I ) giúp clio các
c h u y ê n gia định ký hiệu liìi liệu một cách dễ dàng tlico các quan diêm khác
nhau của mình 2) Giúp người tìm till thiết lạp mầu lìm yêu cầu lin I11ỘI cách cliính xác theo đúng và dầy đủ nội dung ycu CÀU tin của NĐ - NDT
(E Wall Information retrieval thesauri New York, Engineers Join!
Council, 1992, p I ).
1 1 ) " B T C I T là từ điển phán ánh những sự lương đương hoàn toàn
hoặ c quy ước giữa các từ hoặc các câu văn của ngôn ngữ tự nhicn và giữa
"các từ chuẩn" của ngốn ngữ lìm tin (Langage Documenlaire), (R c Cros, J c
Gardin, F Lévy L ’ automatisatjon des Recherdies Docmnentaires Un motleie geneval le synlol Paris Gauthier Viỉlars, 1964, p 254)
12) " BT CTT đanh mục của các mối quan hệ ur<mg hợp giữa các
thuật ngữ và các n hó m thuật ngũ' cua ngôn ngữ lìm lin Các lliuậl ngũ lioặc
c á c n h ó m t h u ậ t n g ữ c ó t h ể s ắ p x ế p l l i e o ý n g h ĩ a c ủ a c h ú n g l i o ặ c t h e o v;ìn
ch ữ cái của cluing; BTTTTctuợc (hum vào in ục (lích (linh ký hiệu hoặc phân
loại tài liệu (N Gastlin I rai(cmcnl aulomatioqucs tics donees 11(111
n u m c m i q u e s projel tie lexiquc D o a u n c n t a i r c s Revision N I chapilrcs ị cl
2 ( A n n e x e s ) Marseille Groupc d' F.diklesr II n f o r m a t i o n Scicnlifique Set'I inn (T
aulomatique Documenlaiics (C N R S) I % s , p 40)
17
ị : ' ị - " ' ị
D í Ị O ũ U ĩ
Trang 1913) " B T C Ĩ T lìi danh mục trong (ló liệl kê' t á c khái niệm và các (/All
văn trong ngôn ngữ tự nhicn (các từ thường (lùng hàng ngày, lioặc các lừ
K H K ĩ ) và sự thiêt lập các mối quan hệ giữa chúng" (FỈD/ ISO pmjccl:
Classification Terminology Document ĐI 1/6 F (Frcncli) Conpcnhagcn PID/CR
C o m m i t t e e on Classification Research, 1967)
14) B i c r r tiled nghĩa rộng đó là hệ thông pliAn loại các lừ tlico các
khái niệm và llieo các chu dề" (K.Spanck Jones Synonymy and sctnanlic
classification (Ph D Theris Univ Olcombridge) M L 170 Cambrige, Cambrige Languge Research Umil, 1964, App !, p I )
15) " R Ĩ C Ĩ T là côn g cụ từ vựng cùa hệ thống lìm tin nó được xiìy
dự ng trên cơ sờ của các lừ (tiến llmẠi ngữ kiểm soát, nlurng có sự thay đổi,
giữa các lliuật ngữ dó có chỉ ra các mối liên hệ ngữ nghĩa BTCTT này phán
á n h v é i n ộ l l ĩ n h v ự c tri I l n i c .nhíìl (1ịnh, n ó l ậ p h ợ p m ộ i d a n h m ụ c c á t ' lir
ch uẩ n và các từ kh ổng phai là lừ chuẩn (các từ hổ trợ), được sắp xêp theo
vần ch ữ cái, có chỉ ra vị trí mrti quan hệ ngữ nghĩa và các mối quan hệ (rông
cấ p (giống- loài) và phi đang cấp cỉia các tù" (proceeding (if the Information
Confe- renceon gereral principles of the thesauri building Warsaw 1970 p
160)
16) " RTCTT đùng dể (lịnh ký ỉiiêu và tìm tin, phản ánh các mối quan hê
ngữ nghĩa giữa các đ(Tìi vị lờ vụng của ngôn ngữ tìm tin lừ chuẩn (NNTTTC) -
(GOST 18383- 73 BTCTT Vỉín (lổ chung Hình 111 ức Ihc hiện p 6)
17) The o quan điếm của Trung lâm Th ôn g (in tư liệu KHC’N Quốc
gia Việt Nam: "Thesaurus chính là mội lập từ vụng kiếm soái được hố trí,
sắp xếp cô ng phu nhốt, hoàn hi’io nhíl! (lể him công cụ kiểm soát lừ trong
các lie lliống lìm tin"
"Thesaurus hì tạp liợp từ vựng cua ngôn ngữ lừ khoá (lược sắp xcp sao
ch o các qu an hệ của các kliái niệm (tược thê hiện rõ" (hướng (lần biên soạn
Thesaurus- lài liệu hướng dẫn 11.: I T Ĩ T I I , K H C N Quốc r?ia, I l! 3 )
Trang 20ỉ 8) " The m i n i s là ngôn ncữ lừ klioó có mức (lộ hình thức kliná
c a o nil AI Trong l l i e s a u m s ngohi các lìr klioá (lược (lùng I;ÌĨ11 dại (liện cho nhiều từ khoá tirơng đương (tể mó tá lài liệu (tìr khoá này thường cluực gọi
!à từ ưu tiên), còn các từ khác không phái là lù' dại diện, có quan hệ ngữ
nghĩa với lìf ưu tiên, dùng (lê liỗ trự cho việc (lịnh từ klioá và tìm tin (các lù
kh o á này gọi là các từ khoá không ưu tiên) Trong một số Thesaurus da
ngôn ngữ, còn có các qiiíin lie lương (lương giữa các ngôn ngữ hồ Irự cho
việc (lịnh từ khoá Ví t lìm tin giữa các lliứ liếng khác nhau" (Hướng chín mò
tả nội (lung tài liệu bằng lừ khoá - Định từ klioá- Tài liệu hướng (lần nghiệp
Vụ H.: T T T T T L K H C N ỌG, 1999, lr.5)
19)" Từ điển từ chuẩn là mội loại ngôn ngữ tư liệu có cấu Irííc lổ họp
Đ ó là một tập hợp các thuật ngữ có quan hệ ngữ nghĩa khíìc nhau và (lirực
áp dụng cho mộl lĩnh vực riêng cua tri thức Đó là loại ngôn ngữ (lánh chỉ
số mỗi từ điển từ chuẩn dược xây tlưng Iron hai yếu lố cơ hán là quan hệ
n g ữ nghĩa (Semantic) và qui lắc cú pháp (Syntax)" (Đoàn Phan Tân Thán g
tin học- Gi áo t lình (In nil cho si nil vicn ngành thông I ill- llui viện VÌ1 quán 111
Q u a sự phân tích các định nghĩa Ircn, chúng la có the di đến kết luíìn
về ý ngh ĩa và cấu trúc chung của RTCÌT Trước tiết cẩn Ill'll ý lằng BTCTT
không phải chỉ là từ điển biểu ý của các lừ duiẩn mà nó còn thực hiện chức
năng của lừ điển song ngữ (ngôn ngũ (ự nhiên và ngôn ngữ tìm tin từ chuẩn) dế
d ị c h c á c m ã n l ì m lìii l i ệu v à infill l ì m y ê u CÀU t in t ừ n g ô n n g ữ t ự n h i ê n s a n g
ngôn ngữ từ cliuắn (vìì ngược lai) Oiínli vì vậy R T ( '11' không những chỉ chứa
đựng tru cá các từ cluiíỉn tnà còn phái cliứa dựng 1 ất cá cức từ khoá đổng nghía
với các từ chuẩn thuộc lĩnh vực của hộ thống tìm tin
Sự kliác biệt và nổi Irõi VƯỢI ra ngoài khuôn khổ cua vàn đc ngon ngu
học là ơ chồ, trong RTCTT thief lập (tược các mối quan hệ ngữ nghĩa giữa
các từ chuẩn Điều này (lược nêu ra trong lâl ca các (lịnh nghĩa về ĨTỈCTI
Các mối quan hệ ngữ n eh ĩa này có liên quan (lên hc lliống lôgíc cua ngón
ngữ tìm tin
Trang 21T ro n g R T H T có liíii m ối (Ịiian liệ ngũ nghìn t liín li M ô i CỊUÌUI họ họ
đối vị và mối quan hệ ngữ đoạn (Mối qnan hệ cú pháp)
* M ò i quan hê hê đòi vị - Đó là mói quan hệ giữa các lừ trong N N T ỈT C
không phu thuộc vào ngữ cành cửa các từ đó Trong BTCTT có hai loại quan hệ
(tối vị: Qu an hệ hệ dối vị mạnh và quan hệ hệ (lối vị yên
Qỉt an hệ hệ dối vị m ạ n l ì : Quan liệ phu thuộc, quan hệ chilli! câp
quan hệ Irên clirới lổn lại giữa các từ cluiẩn A và B Trong (rường hợp này A
phụ thuộc vào B (A dưới B, B trên A) Thí dụ: Môi quan hệ hệ (lói vị mạnli
g i ữ a c á c t ừ c h u ắ n “ t ó m l ắ t " v à “ R ú t g ọ n l l i ô n g 1 i n " h o ặ c g i ữ a CÍÍC t ừ ch nẩ Ti :
“ Nước C ộ n g hoa X H C N Việl N a m ” và “Tính ỉ ỉải Dương” Trong lííl cá các
trường hợp khi nói vế IÓIT1 l;1t tức có Iigliĩa lei nil gọn Ihông tin Khi nói vổ
c ô n g n ghi ệp lioá, hiện (lại hoiì ( ( ’NH, IỈĐH) lính llỉii Dương tức là nói (lên
CNII, l l Đ l i mrớc C IỈ XI ỈC N Việt Nam Vì ihc lìr chuẩn "tóm tắt" phu
thuộc vào lu chuẩn “ Rúl gọn tliôii” tin", Từ cluiẩn "CNÌI, ỈÌDĨĨ tilth ỉỉrii
D u o n g ' phụ Ihuộc vào lừ chu All ”(' NỈỈ, l ì t ) ì ỉ nước ( ỈỈXIỈÍ N Viét N am
Mối quan hộ hệ dối vị là yell lô < lặc hiệt quan Irọng (lược tiling (lô phân lí lilt
CỈÍC ngôn ngũ lìm tin
M ô i qu an hệ hệ dôi vị xẽĩi (mối quan hệ gian chén nhau, mối quan
hệ liên (lới) tồn tại giữa c;ìc lừ chuẩn A va R Irong (1(1 nêu Iilm chúng ta co
thể dổi lãn cho nhau Irong một sỏ' mẫu lìm yêu CÍÌII tin Thí (lu: Cmìa các (ù
chuẩn “Tó m l ắ r và “ Dần giải” có mòi quan lie hệ (lối vị yẽu có lợi cho
việc tìm tin
Bến cạnh môi quan lie lie (Ini vị let>1111 n<znn 11.LĨÍV 1 ini tin, t illin'! I;i I ill I ,111 Inn
liicu them các pliiftflig tiện ctc xác (lịnh moi (|ii;m he ngíìdnạn ((ỊUÍ lac cú pháp)
* Q u a i l h e t i q ữ đ o a n If) ( | i i ; m l ie JZinil CMC t ừ t m i ụ ’ N N Ỉ Ị I f pi 111
lỉuiộe Vỉio việc sứ (lung các tứ troi lí! f'*-111 \ ;1n cu lliê (Imníi m;ìu lìm ì - M<'i cỊinm
hệ n gữ (íoạn dược l!iê hiện bới Mí lio Irợ qnv tfic ngữ phííp cua NN [ I ỉ(
Trang 22đ ả m bảo việc phân chia vai trò ngữ nghĩa (ý nghĩa) của các tù chuẩn khác
nh a u và việc kết nối các mối licn hệ giữa chúng
T ro ng m ụ c từ chuẩn của BTCTT các từ chuẩn được sắp xếp theo công thức sau:
T C I I ; T „ : T„ I
T C - T ừ chuẩn chính - Từ chuíiỉn nhan đổ, khới nguồn (mã sô hoặc lừ
của ngon ngũ' lu nhiên)
T., - Tập hợp các từ klioá lương đương với lir cluicin chính - l ừ cluiấn
nhan đề, kliới nguồn (từ lương đương)
T h- Tập hợp các từ cluitĩn m ớ rộng dối với từ chuẩn chính (tìr m ở rộng)
T c ' ĩ ậ p liợp các lìr đniíin liên quan đốn Cik’ mối quan hệ hệ dối vị
yếu với tírcliuíỉn chính - 1ir chuẩn nhan <!c, khới nguồn (ùt liên (lới)
21
Trang 23C H Ư Ơ N G II
P H Ư Ơ N G PỈ ĨẢ P X Â Y n ự N C , VÀ K H A Ĩ T H Ả r
B Ộ T ừ C I Ĩ I I Ẩ N T Ì M T I N
I T H I Ế T L Ậ P T Ừ C I I I I Ẩ N C H O B Ô T Ừ T H U Ấ N T Ì M T I N
1 C h u ẩ n h o á t ừ k h o á và xây d ự n g VÓI1 fII k h o á
a) K h á i niệm vê l ừ k h o á và ngôn n g ữ từ khoá
l ừ k h o á là từ đủ nghĩa hoặc các cặp từ ổn ilịnli hiểu thị khái niệm
được coi là quan Irọng nhái mà lài liệu dã tie cập (.1ỐI1 [31, Tr.4|
Đị n h từ k h o á cho các tài liệu ỉn mội công (loạn đặc biệt quan trong
(c ông đoạn xử !ý tiền máy tính) Bán chất cua việc (tịnh các ùr klioá là chọn
t ừ ( l ặ c ( r ư n g , t i ê u b i ể u c h o n ộ i c h i i i p l à i l i ệ u I i l i f i m p h ụ c \ ' Ị I \ ' i ệ c t ì i T i t i n ( l ư ợ c
lối ưu, dễ ciàĩig, lluiân liệii Người (lọc - Người (lìitig tin chí CÀU căn cứ vào
t ừ k h o a đ ó d ể t ì m đ ư ợ c l ài l i ệ u c ó v â n d ề m à h ọ q u a n ( â m
N g ô n n g ữ từ kho á: Ngôn ngữ lừ klioá là ngồn ngữ nhân lạo dược
xAy dựng dựa trên cơ sở cua ngôn ngũ tự nhiên Ngôn ngữ từ klioá được
pliAn chia thành hai loại : Ngôn ngữ từ khoá lự (lo và ngôn ngữ từ klioíí có
kiểm soái
N g ô n tìgữ từ k h o á tự do là ngôn ngữ (lược xây (lựng bằng cách lưa
chọn lự do theo quan điểm l iêng cua người (lịnh lù klioá đế mô tá các khái
niệm chủ yếu trong nội (lung Ini liêu
N g â n n g ữ từ khtìrì có kiểm soái líi ngôn ngũ' clìiiẩn (lùng dể đôi
chiếu, so sánli các lừ khóa được chọn để mô hi cho phù hợp, (lúng với tên
gọi lluiệí ngữ Loại ngôn nuữ IÌI' kliíút IIhy lại có hai loỵi:
+ Rô từ klioíí quy ước
4 Hô lừ rliiiíìn (Thes;uinis)
N ă m I c)96, Trung lilm thòiiị! 1 in lư liệu kho;i học cóng nghê Ụunc ịi\;\
Việt N a m (1ã cho XUÍÌI bán : “ Mộ lù' klioá (la níiỉinh Khoa hoc lự nhiên v;i
Trang 24cô n g ng hệ ' để phục vụ cho công l;k xử lý tiền máy tínlì cùa tâl cà các Imiii!
lAm lliông tin tư liện và llnr viện klidM hoe Ironp phạm vị loỉm (|II(K\ Iliện
nay nước ta chưa xây dựng được các hộ !ừ chuẩn lổng hợp và chiiycn
ngíinh Cuốn “ Rộ (ừ chuẩn lìm Iin cho CÍÍC f ‘SDL tư liệu chuyên ngành klion
học thông tin - thư viện” là công t!ình khoa học (lầu liên về bộ tù cliuân
ch u y ê n ngà nh ở nước ta lìiện nay
b) C ác d ạ n g từ k h o á rà các loại lừ khóa p h ô biến
b l C á c dạng từ klìoá
Xél Iheo thành phần lìr vựng, lừ klidíí là (1(111 vị lừ vựng ổn (lỊiih (lượt/
d ù n g đ ể m ồ la tài liệu Tìr kliná lliường í-ó các (lỵng:
- Từ khoá ớ (lạng từ doll : sách, h;ì(>, hàn, ghế, ghi, in, phiếu, phích, trang,
l ậ p
Từ khoá ở dạn g danli íìr gồm hai lù: Khoa liọc, kỹ lluiậl, công nghệ,
llnr viện, thu m ụ c
- T ừ klioá ờ dạng danh lìr kèm Iheo cliinli lừ : Lý ihuyếl Ihu viện Lý
lliuyếl thư mục, Lý tliuycì thông tin, Lý luân văn lioá, Quy luat xã
hội, Q uy luật tụ n h i ê n
- Từ khoá ở (lạng đ ộ n s lu' (1ã (lược danh lừ h o á : Tiêu cluiẩn hoá hê
thông lioá, lu liệu lioá, plìân loại lioá, lập lrung lioiì, tliuàl Uiíin hoa
c ồ n g nghệ hoá, liu hục h o á
- Từ klioá 0 dạng tính lừ dã được danh lừ hoá: Văn ĩìiinli (nền văn minh),
văn hoá (nền vãn lioá)
- Từ klioií ớ (lỵng cụm -lừ phúc l;ip: ỉ lê lliống thông tin (lữ kiên lfc
(hống thông liti lim nuic, I lệ lliống giáo (lục, Ilệ tliống kitili tê Quốc
(i;ìn, m ạ n g l l i ô n e t i n Infill c f iu IIKÌIIÍI l l i õ n g l i u l l u r v i ệ n l i i r ò n g Đ ạ i
h ọ c
2 ^
Trang 25b.2 Các ỉtìựi tứ kìtoú phổ hiến.
Xét llieo nội du ng từ klioá thường có các loại sau (lAy:
nội du ng tài liệu (Viêt về cái gì? VAn dc gì?) Thí dụ: Bổ sung sách, xử lý
tài liệu, báo quản sách, tìm lin, phổ biên till, phục vụ NĐ-NDTv.v là
nh ững lừ khoá chủ (lô cua lình vực boat dòng (hông Iin (hư viện Loíii lù
klioá này thường có nội dung như sau:
- Từ khoá là những ten gọi :
+ r ê n người : K Mác, F Ảnghen, v í Lênin, Hồ Clìí Minh,
Lê Q u ý Đôn, Phan Huy Chú, Nam Cao, Lương Đình Cùa,
Hải TI lượng Lãn Ong Tuệ Tìnli
+ Ten cơ quail, lổ chức: Trung tíìm 'Iliỏng liu Tư liệu Khoa học
Công nghệ Quốc gia, Thu viện Quốc gia Thư viện Lêiìin,
Tlur viện Quốc hội Mỹ
- Từ khoá clici tên người, tên co' quan, lổ cluíc quốc tê
t Tên dã được Việt lioíí: Nga lifting, Liên hợp quốc, ’ỉ ổ chức
lương thực thế giới, Npíìn hàng ll iế gi ới
+ Tên phiên âm: V.I.Lênin Anhxtanh, Niutơn Á cx im et
4- Tên cơ quan, tổ chức đã quen tluiộc có thể viêì tắt toàn hộ
bằng chữ lion: NAT O, UNRSCO A S R A N Ngược lại nếu
kh ông qticn lluiộc (hì không (lược \iêt lắt, mà lú khoá phai
lìiièu cá hai (Viết 1 r 11 (Iriy (lủ v;'ì lên viêì till Thí dụ lìr khn;í :
Tổ chức lương ỉlụrc lê giới FAO Tố chức y Ic lliê giới
WH O)
- Từ kỉioá là tên gọi CÍÍC MgiHili, bộ mỏn khoa hục và kỹ lluiíU lioìíc
Trang 26T o chức và qu ản lý công lác 't h ô n g (in lliư viện, Ilont (lõng lliôim tin lim
viện, Tu bổ sách báo, Quy lioíicii llur viện
- Từ klioá là các hiện tượng dặc trưng về hoai động thông tin - thư
viện Thí dụ: Mất tin, tạp tin, hiệu (Ịiiả lìm tin tổ chức lao dộng khoa học
định mức lao động, tiêu chuẩn hoá, sáng ch ế phát minh và giải pháp hữu
í c h
- Tìr klioá là tên gọi các phương tiện tic’ll hanh hoạt dộng và các dôi
tượng mà hoạt dộ n g hướng Víìo Thí (lu: Máy tính, thiết bị tin học bộ nhớ
trong, bộ n h ớ ngoài, hăng truyền lài liệu, clĩa quang, dĩa cứng, đĩa nicm
- T ừ khoá là tên gọi các phương pháp tiến hành hoại dộng Thí dụ:
Bao gói lliông tin, nén tin, plifm !fell tổng hợp (in m ô ta tài liệu
- T ừ klioá l;"t lên gọi các tính cliAì, chỉ ticu, thông số, đánh giá các đối
tượng TÌ1Í (lu: Đ ộ nén tin (1ô mà! liu, đô lạp till, lính (tầy (lù tin lính chính xác tin
- Từ klioá là tên gụi các nhóm người dọc và người đùng tin Thí du:
G í n h ộ q u ả n l ý , c á n b ộ n g h i ê n c ứ u - I r i e n k h a i , n h à s á n x u â ì - k i n h d o a n h YỈI
dịch vụ, thanli niên, sinh viên, học sinh, nòng (lân, cóng Till An
- Từ klioá tên gọi các ngôn ngữ Thí dụ: Tiếng Anil, tiếng Nga tiếng
Plìáp, l i ê n g Tru ng Ọ u ố c
- Từ khoá chí c;íc triều (líii lịcl) sir
+ Triều Lè, í l ieu Nguyen
f Nhà Tha nh Nhi) Minh
4 TI lời cổ dại T lùíi trmii! c/o 'ĩ hòi cân (l;ii
+- Tnrức Công nguyên, sau Công ngiiycn
Trang 271 7 » lỉltoá (lịa lý
+ FJ)ịa chinh Việt Nam : lHi Nội, Huế, Sài Gòn, Lạng Son ('à IT1ÍI1I.+ Địa danh the giới : Miêu tá nhu địa danh Việt Nam, nhung
càn viết chính xác, chặt chẽ về phiên Am
+ Địa danh quy ước : s ớ dĩ gọi như vậy vì trên thực tế nó
k hô ng có trên b;ìn (lồ thế giới Thí clụ : Các HƯỚC dang phĩít
triển, Các TU rức thế giới llìứ ha, Các nước công nghiệp mỏi Các nước nói tiếng Pháp Các mrức nói licng La tinli Các
nước G 8
- Từ khoá thể hiện các nhãn, mác sán phíilm VỈ1 (lịclì MI (hông tin
* T ừ k h o a thê hiện hiiìh thức tời ỉiêti
Chỉ lính chất, dặc (liếm của tài liệu, diện phục vu, nghiên cứu nào dó
Thí dụ ■ Tài liệu ngliicn cứu khoa học Tài liệu kỹ thuật sán xuất, Tài liệu
học tập, Tài liệu tra cứu, Tài liệu khoa học phổ thông, Tíìi liệu chuyên
d ạn g ,
S ử t l ĩ c ó s ự piiAn c h i a l o ạ i l ừ k l i o á n h ư t r ê n lít vì p h â n l ớ n ờ Cííc h i ể u
ghi (Tờ Work sh e e t) của các cơ sớ (lữ !icu có chiu lrườnjz lù' khoíí chú (lố
trường từ khoá địa lý và lừ khóa phu hình thức
Ngoài 3 loại lừ klioá trên, người ta còn sử dụng một loại từ kììoá phu
dùng để chỉ phương diện dược dề cập đến của chú dể Thí du: ứng dung, đán h giá, plifln tích, phương ph;íp
Các từklirá này có t;ìc dụng cu lliể h(\í cho chù đề cliính xác lliêin kết quả tìm tin
Trang 28Phải (lùng tiếng phổ thông, Inínli (lùng liếng địa pliưttnp để mô t;i lừkhoií
- Cổ thể mirựn các lìr mrớc ngoài (1ể làm tir khoá nếu nhân thây lù (ló
th ông d ụ n g hơn:
+ Chữ Mán đã (tược Việt lioá
+ Từ klioá cỏ nguồn gốc từ ngôn ngữ phương Tây, nhưng (.làrất quen thuộc 'thì viết theo liếng Việt, có í! A11 viết rời không
có gạch nối (các Ihứ tiếng Uli tiên có gốc là liêng Anh, Lalinh
Sỉ a vơ)
- K h ôn g d ùn g các tìr quá cổ cho từ klioá
- CÀU lirợc bỏ các licn lìr, giới từ, lụni£ lừ, các danh lừ có nghĩa quá
r ộ n g v à c á c t ừ p h ụ t r ợ n h ư : c á c n h ữ n g , c o n , c á i h i ệ n urợng, q u á t r ì n h , b à n
về, tổng k ế t
+ Từ khoíí (lài và lừ klioá ngíln
I Từ khoá (1 ai có iru diểm !à làm lilng (lộ chính xác khi tìm till,
n h u n g l ất tie gây mill (ill Tư khoá ngắn có liu (tiêm la nu í rộng chú dé, làm lăng klia nfmg lìm tin nlurng độ chính xác
k h ô n g c a o
Việc tách hay kh ông lách lừ khoá (iòi hòi phíỉi cân nhắc thẠt kỹ và
tu V lỉieo tình hình cụ thể của t ừ k h o á (ló
- Số Itrựng từ klioá cho một lài liệu hấu như không bị hạn chê Nôn I 2
lừ là vừa và (lạng lừ klioá chọn dưới (king hai lừ (Danh ÙI + lính lù lioiic dan h lừ 4 danh từ) là phổ biến
(Ị) Q ì ỉ \ trinh dinh từ kh oa
Các Inrớc (lịnh (ừ klioá bao gồm:
- PỈ1A11 lích và xác (lịnh nội dung lcii liệu
- Ch ọn các khái niệm dặc trung cho nội dung lài liệu
- M ô tá các kh;íi niệm b r i n g lừ klioá
27
Trang 29í/./ Phàn tít h và xác (lịnh nội (hinĩ> tài licit
- Đọc qim tài liệu
- Đọ c và nghiên cứu kỹ các pli;in của tài liệu: Nhan (lề sách hoặc hài viêt, lcti giới thiệu (Lời m ớ díìu, lời nhâp r1ề lời lua), mục lục, các hình vẽ, sơ
- Biên soạn hài chú giái (clíĩn giííi), cho lìii liệu: Nội dung cúa nó phán ánh chính xác về chú (lề chính và chú (lề phụ tliậl sư rõ ràng (lc phục
vụ cho N Đ -N D T Việc hiên soạn bi'ii cluí gi ái giữ một vị trí dặc biệt quan trọng, là một công việc kliôĩig những mang lính nghệ lluiật cao, nó phụ thuộc lAÌ nhiều vào cúc phẩm chất chú quan cùa người đinh ký hiệu tài liệu, phụ thuộc vào Ihời điểm và các diều kiện khác khi tiến hành định ký hiệu tíìi liêu
Để thông nhất và Iránh những trờ ngại về IAm lý chủ quan CÚH người tlịnh từ klioá, người la lập một danh mục các yếu tố cần chú ý dể chọn các khái niệm đặc trưng của nội (lung tài liệu Tlico tiêu chuẩn quốc lố, danh
m ục (tó được lập như sau:
- Đối tượng mà tài liệu dề câp lới (viết về cái gì ?)
- Tá c dộ ng lên (lối lượng (Quy Hình, thao tác, hiện lượng)
- N gu ồn lác dộ n g (công cụ, công nghệ, phương pháp)
- Tính chất của đối tượng, quá trình
- Cúc kliía cạnh cíìn xcm xct (khía cạnh kinh lố xã hội, tôn g i á o )
- Mụ c (lích, đ ị a đ i ể m , l l i ờ i g i a n
Sau khi lạp dược danh m ục trên, người la tiến hành điền các khái
niệm dặc trưng cho nội du ng tài liệu vào các VỐI! tố trong (lanh mục (Tin
l ư u ý c A n n h ắ c , c h a u c l u i ố ! l ừ n g ữ (1c CÍÍC k hí ì i n i ệ m ( l ư ự c l u a c h o n đ ó l l i à n l i
các từ khoá chính thức (Nhiều khi các khái niệm the hiện trong (lanh muc (ỉn
l n 111 CÍ Í C t ừ k h o ; ) )
Trang 30I hí dụ: “ Phương pháp xử !ý lài liệu kinh tế XIIAI bán năm 2000 clc đưa vào thư m ụ c thông háo khoa liọc".
Các khái niệm được dưa vào các mục yếu tố cua danh mục và là các nr khoa
- Tài liệu kinh tế (điền vào mục : dối tượng tai liệu được để cập tới)
- X ử lý (mục: lác độ ng lên dối tượng)
- Kinh t ế (m ục : Tính ch fit dõi lương)
- Phục vụ tin cho cán hộ NCKH (mục (lích)
- Phát triển*kinh tế, lliị !rường (mục : Cik' kliía cạnh xem xét)
- Việt Na m (Địa điểm)
T r o n g khi lập Imng chính vào việc chọn các khái niệm dặc Irưng
gián tiếp đến các vấn (1ề chính của nội dung tài liệu (khía cạnh hổ trợ):
Kirill lế - xã hội, cliínli trị tư lường, văn hoá giáo dục; (lặc hiột là yêu CÍÙI
m ụ c đích xAy dựng CSDL
(1.3 Mỏ tá các khái niệm bong tử khoứ
Những khái niệin được đề cập đến trong lài liệu là diễn đại bằng
ngôn n gữ tự nhiên (ngôn ngữ của chính văn) Ngôn ngữ tu nhiên có Iiluìng
m ặ t ư u đ i ể m v à n h ư ợ c đ i ể m
- Ư11 đi ểm : Phong phú về am, ngữ nghĩa, cú pháp, thổ ngữ
- Nlurực điểm: Sự đồ ng Arn, dồng nghĩa, đa nghĩa của ngôn ngữ tự
nhiên gíìv khó khăn cho việc tìm tin : nhiễu till, lạp till
Đ ể tránh việc mất tin, tạp (in và tao diều kiện cho việc tìm tin dễ
dàng, chính xác ch ú ng la phái chuyển đổi ngôn ngữ tự nhiên phán ánh cho
nội d u n g lài liệu sang ngôn ngữ lìr khoá cho phù hợp
29
Trang 31N gổ n ngữ từ khoá là ngôn ngữ nliftti lạo tái lạp (ìr ngôn ng ũ lự niên
sao cho pliù hợp với quy (lịnh lừ ngữ nhằ m phục vụ cho việc tìm tin không
bị Iiliiẽu, (lõ d àn g dạt liiộu c|Uií c;io
Việc mô tả từ khoá phai háo dám dược công việc sau dây:
- Chính xác (hảo đả m phản ánh tiling nội dung)
- X ú c tích (Tiêu biểu, ngắn gọn, cô đọng, nén lừ)
- Hiện đại (D ùn g lừ mới, thuật ngữ mới 1 rá nil dùng từ íl người biế t)
Từ những sự phíln tícli trên, chúng Ui có thê (li đến kết luận: Việc XÍU'
dựng vốn lừ khoá là việc làm hết sức khó khăn, phức tạp, ma ng tính khoa
học cao và m a n g tính địnli hướng rõ ràng
e) Xác định khối lượng tài liệu (lê x;1y (lưng vốn lừ k l i o á cho B R T Ỉ
Vấn để khối lượng lài liệu (lùng để xAy dựng vốn từ klio;í lit mo!
trong nlnrng vấn đề mà chú ng ta cũng dặc biệt quan lâ m Theo kinh nghiệm
thực liễn thì khối lượng tài liệu cÀn thiết phải xir lý dè xAy (lưng vốn lìr khóa
c ho BTCT T có thể được tính bằng công thức sau đây:
ĩ) = 0,0625 V I
D : Số lượng tài liệu (bíìi CỈHÍ giíii, bài tóm t;1t)
V : S ố thi liệu t i li ng b ì nh n h ệ p v à o k h o (ài liệu t h ô n g tin t h ư viện t r ong m ộ t nãin.
t : Thời gian “s ố n g ” trung bình của nguồn thông tin trong các năm
được lính theo các k i n llur mục Ị 10, Tr 161
Nếu t - 8 năm, till ch ún g ta chí cần thu thập một nứa số tài liêu đã
nhậ p vào trong kh o tài liệu là dã có thể dạt yêu cầu cho việc xây dựng
B T C T Ĩ T u y nhiên, tốt nhất In cluing ta cứ liến lihnh (tịnh ký hiệu tât cá sô'
tài liệu dã n h ậ p Víìo kho t;vii liêu I mng nám cuối cùng
Trang 32h) X ác địn h sô lượng từ chuẩn cho ỈÌTCTT.
f)ể Xík' (linh sò lương từ diiiiiin d i o IỈT( I I lìlià hác học người NgM
ốn g A.ĩ Trernnưi ctã dưa ra công thức:
Y - I 18 tyTT
Y : Số lượng lừ đuiíỉn cho BTCT T
D : Số lượng lài liệu dược xử lý
T h e o công thức trên, khi xir lý 1000 tài liệu BTCTT chứa 67 0 từ
chuẩn, khi xử lý 1(X)0() tài liệu thì BTCTT cliứíi gíin I2(X) lìr chuẩn [62,tr 9- 32)
Kinh ng hiệ m thực tế cho lliây rằng khổng hao giờ có the thu thập thill
đầy đủ các tìrchuắn cho BTCTT của niôl ngành và chỉ (lại (lốn gíìn rlíìy (lủ inn tin li
2) Thiết lập môi qnnn liệ fIIÍ1Ì1ỊĨ ílmmg giũa các tìr klion vcVi các <ÌI clinẩn
Q u a n hệ tương đương là qtinn hệ giữa các lừ liu liên và không ưu ticn
biểu diễn cùng một khiíi niệm CYìc ký liiệu chỉ (ỉím sử dung là:
SL) (Sứ d ụng ) - dặt trước lừ ưu liên
DC (D ù n g cho) - dặt trước từ không ưu tiên
ỉl ií dụ : Tài liệu kh ông công bố
DC Nguồn thông tin không công bố
SD Tài liệu không còng bố
Q u a n hệ này biểu hiện ờ các loại Hì sau đíìy:
- 7 » đ ồ n g nghĩa là những từ khác Am nhưng lại giống nliau vé nghĩa
v à c h ú n g c ó I h c t h a y t h ê c h o n h a u ( t ư ợ c
Sau (lAy là tnôl sô (hum lừ (lồng MịilìTa llníiinẹ yăp:
+ Từ có nguồn gốc ngôn ngũ' khác nhau
Tlií (lu: Ha phương liên Nhiều phương liên
Tlií (ỉu : Đìa qtiíing ; ( I) R O M
31
Trang 33+ Nhữn g len kliác nhím cu;i tnộl khái niệm lổ hop.
Till dụ: Lạp liìnli SOÌIII Ihiio cl lifting liìnli, lập chương 1 lì nil
+ Từ có c;k h \'iết khác Iihnu
Tlií dụ : Being thu mục bỉm thư m ụ c
+ T ừ có nguồn gốc ngôn ng ũ địa phương
Tin í (III : T lu iyồ n, ghc\ xuồng
+ Tên viết lắt và tên đầy (lú
Thí dụ : T V Q G V N , Tlur viện Quốc gia Việt Nam
+ Dạng pliân lách và dạng không pliAn tách các lừ lổ hợp
Thí dụ : Xử lý; Thông tin; Xử lý thông liII
- T ừ g i ả (tồng ìigỉũa là n h ữ n g t ừ m à klii sử ( l ụ n g l l i ô n g t h ư ờ n g Ihì
chún g k hác nhau về nghĩa, nhưng cho mục (lích từ klioá Ihì chúng (lược coi
n h ư d ồ n g M g h ì a
Th í dụ: Đ ộ tệp trung lining lin; f)ộ pliiìn líìn lliôiip 1 ill (lô chính x;íc
t i n , đ ộ s a i s ó t t i n , Hệ t h ố n g t h ô n g till lcip t r u n g , ỉ lệ t h ô n g I h ô n g t in phAn I;ÍI 1
- T ừ bơo q u á t là từ rộng hơn cá trong mội nhỏm từ được xử lý như
một tệp hợp tương đương Trong Irường hợp này từ hao quát tUrợc coi là từ
Trang 34- Các lừ có lìỊỊHồn Ị>òc ciuiỊị loai. X ir iý nôi tinny l)ịn h 111 k lio.1
làm tổng quan (tổng luẠn) làm tóm hit
- fíỏ q u a m ộ t sô t ứ trong ỉòi nói hoặc riết' Công cụ tin học = máy
Tr ong nhiều lài liệu chuyên môn nước ngoai còn gọi phAn tích mối
quan hệ đẳng cấp là “p hâ n tích logic" Mối quan hệ dẳng cấp là môi quan
hệ đặc trưng nhất trong B T C T Ĩ và chính mối quan hệ này làm cho R K T Ĩ
khiìc hẳn với các lừ (lie’ll ngôn ngũ lự nhiên T m n g B T C I T các lluiAI I1ỊÚÌ dược sắp xếp Iheo một trẠl <Ư lie thống nhíĩt (lịnh Moi quan lie tronu
B T C 1 T dựa Uốn mức (tộ phAn chia llico lớp tìr lừ lớn đến nhỏ mỏi lớp lù
phái sinh k ế tiếp là một lớp lừ con pliu thuộc vào lớp lù lớn lum Irục liêp (’)■
c ấ p l i ê n n ó , v à c ỏ đ ú c á c d ặ c l í n h c l u i n g c u a l ớ p t ù â y , n g o à i n i, c á c p hr i n III
(rong lớp tír con còn phải có chung những dặc tính riêng giống nhau mì* e;k
lớp từ con kh ác cùng thứ bậc không có CYic lớp lừ con cùng trong một thứ
bậc phỉíi hài trìr lẩn nhau, r á c ký hiệu chí (lãn sử dung là:
Trang 35- Quan hệ ginnp Inài
- Ọuan hộ loàn llic bộ phận
Q u a n h ệ c :i b i ệ t
- Quan hệ (la (limg Cííp
* Q u a n hệ g i ô n g - loài
Để làm rõ mối quan hệ này chúng la pliAn tích mối quan hệ lôgíc
“Toà n h ộ ” và “mộl s ố ” Thí [lu: Môi quail lie cùa “ NĐ-NĨ3T", "Cán bô
N C K H Trong trường hợp này, mót sô Ihhtìli VÌCM cúa nhóm “ N Đ - N D T là
“ Can bộ N C K H ” , còn toàn hộ Cĩìn bọ NCKII nằm trong nh óm “ N Đ - N D T " Ngược lại, với khái niêm “Cán bộ giíinp d ạ v ” và “Cán hộ N C K H ” Ihì một
số thành viên cúa nhóm ‘TYm bộ N C K H ” là “ Cán hộ giíing (lạy” , song cũng chỉ có mội số “ Cán bộ giíing dạy" là “t á n bô N C K i r Vì \'ậV ịỉiữ;t li;ii lit
“Cán hộ N C K ĩ r và “ (Vin bô giííng (lay" kliônp có quan hc “ giống - loài"
TR.(Ì Nỉ: trời (loe - Người dung tin
* Qitniì hệ toàn tììê - hô phâtĩ
Môi quan hệ "loàn thê - hộ phận", “bô p h ậ n - tnờn thê" Mõi quan
h ệ n à y p h á n á n h CÍÍC n h à n t ố n ộ i h ì i n i k h á i n i ê m c u a ( l ố i l i r ự n g n à y c ó t h ê
n ằ m t r o n g (tối t ư ợ n e k h á c v;'i n g ư ợ c l ại c á c n h â n l ố n ộ i h à m c ù a (lối l ư ợ n g
khác nằm Irong (lối tượng này Nêu cái loàn 1I1C là A cái bộ pliận la B liu các nhan tố cùa B có trong A các nhân lố cùa A có trong B (Tuy nhicn mói
quan lie nììy k hôn g pliâi là CỊUÍMI hê IỈ1Ú Kìc)
Trang 36Th í dll: Ngôn tijifr tìm till
Bảng pliftn loại UDC
Bảng pliíìn loại BBK
Bang phan loại Ĩ)C
Ngôn ngữ lừ chuẩn
Dạng biến thể của mối quan hệ “Toàn thể - Bộ phân” là mỏi quan hệ
“ Hệ thống - Thành tố ” Thí (lụ : Hệ thông Tliông tin - Ngôn ngữ tìm tin
Mối quan hệ này có ý nghĩa (lặc hiệt quan trọng đối với việc tìm tin
N Đ- N D T cổ thể vừa qiuiti tflm (lên “cái toàn thể” (hệ Ihốtig), đồng tliời quan tâm đến “cái bô phạn" (thành lô), cụ thể, clii liốt, vì Vày tránh dược
sự iruít tin, (lem lại hiệu qiiii lìm íin CÍIO hơn
Trong BTCTT các từ đưực Síip xếp theo một khung (lẳng cáp mà lên
của toàn thể !à lớp trên, tên của các bộ phận ở lớp dưới.
- Hệ thống thông lin K H C N Quốc gia
- - Hệ thống lliông t i n K H C N n g à n h
- - Hệ thống lliỏng till KHCN lính, thành phố
- Ilệ thống thông tin KI1CN cơ sờ (Viện nghiên
cứu khoa học, Trường dại học và cao dẳng, Nha
máy, Xí nghiệp, Tổng Công ly, Công ly)
Trang 37T h í dụ 3 : Các nphnli hoặc lĩnh \ ưc khoii học
Khoa học về thông Iin - thư viện
- - Thư mục sách văn học nghệ lliuạt
-Thư mục sách thiếu nhi
T h í dụ 4 : Cấu trúc thứ bâc xã hội
Trang 38T h í dụ:
(QH giống- l o à i ) Nguồn tài liệu KHCN (ỌH g i ố n g loài)
hạc ỉ
Trong thí dụ này: "Nguồn lài liệu KH( 'N bậc I" có quan hệ 'giỏng - loai
với hai từ rộng : “ Nguồn lài liệu KIICN ỉruycn thống” va “Nguồn lài liệu
KHCN hiện dại”
2) Phán (ích mối quan liệ liên dới
Mối quan hệ liên (Vti giữ;) CỈÍC kliái niệm (lược líìm rõ hằng Cíícli so
sánh các dấu hiệu xác định VÌI hằng cách pliíìn tích nội dung chủ dề cụ tỉic cùa
chúng
Các mối quan hệ liên đới sau (lAy lien quan trực liếp clcn các nhiệm
vụ tìm tin:
- M ò i quan hệ “Ngttyén nhân - kết qua”. M ố i q u a n hệ n à y l à m o i
quan liệ giữa hai lừ chuẩn, Imng (ló sự hiện có cùa tình liuông (dối lương)
do từ chuẩn A biểu đạt, chắc chắn lình h uố ng (đối tượng) cũng (1ưực biểu
dạt hởi từ chuẩn B Cách hiếu như Ihế này đòi hỏi người tìm tin phái có SƯ
phồn hiệt giữa nguyên nhân và kết quá
liệu nói về đối lượng hoặc quá trình (lể thực hiện một chức Iifmg nào (ló, thì
cổ thể nói rằng lài liệu (tó dura (lựng mói sú thõng Ún vẽ chức naiìii III IỈK'
nào (tổ l l i í dụ : Nếu tài liệu nói về xử lý bao gói Ihông tin tiiì thê nào !;'ii
liệu dó cũng dề cập đến vicc nil gon lioiK' (lộ nén lliòriíi tin Neil till licit nf>i
Trang 39về thầy và trò thì tài liệu đó th ế nào cũng có nói về gián dục và đào Tạo Nlnr vây tạo len mội bỉing quan hệ hê dối vị ‘ Rú! non tin Xir Iv h:in íioi
t in ” và “Gi áo (lục (tào lạo 'ĩliíiy trò", cluing plii’ni ánh mối liên hộ tluới dạn g : Đối tượng (quá Irình) Chức năng (mục (lích)
Các mối quan hộ nguycn nhân kcl quả lổn lại giữa các từ cluiấn biểu đạt sản ph ẩm (kết quả) và plurơng tiện (người sản xuất) của sán phắin
đó Mối quan hệ này có thể gọi là "mối quan hệ fỉi truyền" Thí dụ: Trẻ cm
- cha mẹ; Rú! gọn - Xử lý hao gói; Điều khiển học Nlrà bác học Viner
- M ố i quan hệ iươiĩg đố n g là mối quan hệ giữa các đôi tượng có các
dấu hiệu chung Thí dụ : clmng mục liêu (chức Mílnp), hình lliức, sự xu At sứ,
v.v 71ií dụ về sự liên hệ theo sư tương đổng: Tóm lấ! Díìn giíii: ll ôp
chỗ, kết quả ngược lại cùa các dối lượng, (ỊMií trình và thuộc tính không theo
các tiêu chí đánh giá chung của chúng, mà theo các liêu chí đánh giá l iêng
Thí dụ: Đày đủ tin Mất tin, Tập trung tin - Phân lán lin, Cập nhạt tin Lỗi thời tin v.v V ấn đề này lliấy rất rõ trong các thuật ngữ Irái nghĩa nhau
Klii xây dựng BTCTT, cluing ta cán đặc hiệt Um ý vãn dề này đê lựa chọn
các lừ trái nghĩa thậl sự có lợi cho việc định ký hiệu sau này
- M ò i q u a n hệ phứ c h o p \ì\ sự phán ánh nỉuỊn lliức vé các mối qiiíin
hệ lien (lới giữa các đối tượnc và các hiện lượng Irong không gian \;i thúi
gian Thí (lụ : Người dime tin - Đ ào lạo người (lùng tin, Tlìi trường Ihỏng tin
- San pluim và clịcli vụ Ihòng tin Nguồn tin K1ICN Tài liệu KIICN, Phục
vụ lliông tin Hiệu 1]IK1 kinh lc v.v
3) Plinn tícli thực dụng.
Kết quả sử (lụng việc phàn (ích môi quan hộ dẳng cấp (mối quan hệ
l ô g í c l i ) v à m ố i q u a n h ê l i ê n (lới l ạ o l a m ộ t h ệ h ệ (lới vị c u a c á c l ừ c l u i m i
(bao gồ m lất cá hoặc (tại del số các lừ d i u ắ n ) Thực tế cho tháy răng lâl cá
các dổi tượng hoặc các hiện tương n ’ia một cbuycn dề nàn (ló (lếu có quan
h ệ v ớ i n h a u ờ 1T1ÚC ( ỉ ộ n h í u d i n h
Trang 40PhAn lích thực dụng (lirực lien hÍHih (.lưu lien c'<í st’í cát ’ lirti chí : Nhu
còu tin của N Đ - N D T và (tặc điểm lliuẠl ngữ cùa mò! lĩnh vực li i tlurc cu the
Trên cơ sở phAn tích thực dung mà cluing ta xác định được các mối
C|U:II 1 h ẹ h ệ đ ố i v ị t n ạ n l i Víì m o i CỊIIÍIII h ọ h ọ ( l ó i vị y ê u M u i l Ị U i m h ọ h ệ ( I n i \ ị
giữ vai trò dặc biệt quan trọng trong công lác lìm tin, nó lạo tlicu kiện tlc
(làng ch o việc tìm tin và kh ông bị mâì tin
- T h í dụ về mối quan hệ hệ đối vị mạnh: Nếu có tình huống A thì
chắc chắn cổ tình hu ống B (nếu có xử lý hao gói thông (in thì chắc chắn có
định lừ khoá hoặc tòm tóm liìl, hoặc lnni (lòn giíĩi till liộu)
- Thí dụ về mối quan liệ hệ đối vị yếu : Nếu có tình huống A 111! có
thể có tình hu ống B (nếu nói về Rộ máy 1 ra cứu tin thì cổ thể nói về xâv
dựng các CSDL)
III/ H Ì N H T H À N H l ỉ ộ T Ừ C H U Ẩ N T Ì M T Ĩ N
* G h i ch ép từ: Mỏi từ klioá hoặc mỗi từ cluiẩn được ghi trên mọt tờ
phiếu riêng biệt Bên cạnh từ khoá trên mỗi trí phiếu có ghi chỉ dần đến từ
chuẩn tương ứng Trên các tờ phiếu ghi từcluiỉiìn dÀii dÀn hình thành mục tìr
chuẩn Hình tlníc glii ch ép trên phiếu rất tiện lợi cho việc thay dổi bổ sime
trong quá trình lựa chọn các từ klioá, làm lìr cluiẩn hoá và thiết lập các moi
quan hệ hệ đối vị song song với việc tích luỹ và xử lý vốn từ klioá, chúng ta
có thể xây đựng CỈÌC bảng thứ hậc trên các tờ riêng biệt (Ráng chí (lần hê
thống) Bang chỉ clÃn hệ thống pliíin ánh môi quail ho lie (loi vị mạnh giữa
các từ chuẩn Sau khi dã kết link- việc làm lừ diiùin hoá \ à ihiẽ! lập các moi
quan hệ hệ (tối vị thì B T C T T đ ư ự c 1 í ình bày (lirơi (lạng sách Hình tliức 1 rình
bày này rất tiện lợi cho việc klini thác, sứ (lụng
* Mục từ chuẩn: Các yếu tố trong mục từcliuAn (Im*: s;ip xếp llieci trật lự sau:
- Từ clmíỉn cliínli
- Các lừ klioá tương dương (lồng nghĩa với từ chuẩn chính
Vì