1. Trang chủ
  2. » Luận Văn - Báo Cáo

Cơ sỡ lí luận và mẫu định nghĩa cho bộ từ điển tiếng Việt cỡ lớn 2

46 402 0
Tài liệu được quét OCR, nội dung có thể không chính xác

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 46
Dung lượng 1,75 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mục đích chuyến đi: Khảo sát và học tập kinh nghiệm làm từ điển, đặc biệt là việc ứng dụng tin học vào công tác từ điển của hai nhà xuất bản lâu đời và có tiếng về từ điển là Tập đoàn xu

Trang 1

ĐỀ TÀI NGHIÊN CỨU KHOA HỌC ĐỘC LẬP CẤP NHÀ NƯỚC:

"XÂY DỰNG LUẬN CỨ KHOA HỌC CHO VIỆC BIÊN SOẠN BỘ

TU DIEN TIẾNG VIỆT CỐ LỚN"

CƠ SỞ LÍ LUẬN VÀ MẪU ĐỊNH NGHĨA

CHO BỘ

TU DIEN TIENG VIET C6 LON

54

Trang 2

C NHUNG VẤN ĐỀ KHÁC

BAO CAO KET QUA CHUYEN KHAO SAT, HOC TẬP KINH

NGHIEM TAI CONG HOA PHAP

(về mặt chuyên môn)

TS Chu Bich Thu

Thời gian công tác: 10 ngày, từ 13-5-01 dén 23-5-01

Mục đích chuyến đi: Khảo sát và học tập kinh nghiệm làm từ điển, đặc biệt là việc ứng dụng tin học vào công tác từ điển của hai nhà xuất bản lâu đời

và có tiếng về từ điển là Tập đoàn xuất bản Hachette và Nhà sách Larousse của

Cộng hoà Pháp

Chúng tôi sẽ trình bày kết quả thu được qua chuyến đi này theo ba vấn đề ˆ

chính: 1 Kinh nghiệm làm từ điển; 2 Việc ứng dụng tin học cho công tác từ ©

điển; và 3 Đôi điều suy nghĩ về việc làm TĐ và việc ứng dụng tin học vào

công tác từ điển của chúng ta

I KINH NGHIEM LAM TUDIEN:

Tại Nhà sách Larousse chúng tôi đã làm việc trực tiếp với các nhà từ điển

học, nghe trình bày sơ lược về những việc họ đã, đang làm và chủ yếu trao đổi

với họ về những vấn đề sau:

1 Sơ lược về lịch sử từ điển Pháp qua những tác phẩm cơ bản đánh dấu

từng giai đoạn lịch sử TD;

3 Các giai đoạn (bước) để làm một cuốn từ điển;

4.Việc chuẩn bị tư liệu cho từ điển - một số cơ sở dữ liệu - ứng dụng tin học vào việc làm từ điển

5.Vấn đề từ điển song ngữ;

6.Vấn đề tranh ảnh minh hoạ cho từ điển

Trang 3

Qua sự trình bày và trao đổi trong suốt một ngày (liên tục từ 10 giờ sáng đến 6 giờ tối), chúng tôi rút ra những nhận xét cơ bản sau:

1 Cũng như giới từ điển thế giới, các nhà từ điển Pháp cũng không có thời

gian để quan tâm nhiều đến những vấn để từ điển học lí thuyết, càng không có thời gian để nghiên cứu và viết sách Họ biên soạn từ điển, làm tư liệu theo những gì được học theo kiểu "truyền nghề" từ những người đi trước và tiếp tục

"truyền nghề" và kinh nghiệm cho lớp người kế tục Họ tặng Đoàn VN hai cuốn sách về lí thuyết từ điển học khá cũ của Dubois, coi đó là cơ sở chính về

2 Các bước để biên soạn một cuốn từ điển cũng được tiến hành theo các bước như chúng ta đã làm:

a) Xác định đối tượng phục vụ, từ đó xác định số lượng đơn vị và bảng

từ ở Pháp, "Kho tàng từ vựng Pháp" có 103 000 từ, "TĐBK toàn thư" chỉ có

102 000 từ ngôn ngữ

b) Việc xác định tỉ lệ lượng từ ngữ ngữ văn hiện đại, từ ngữ lịch sử, _ thuật ngữ khoa học các ngành cần dựa trên khối ngữ liệu lớn, đồng thời phải dựa vào sự lựa chọn và góp ý của chuyên gia các ngành

c) Co sé dé lam một cuốn từ điển giải thích mới không phải là một kho

ngữ liệu mà là các cuốn từ điển cũ đã được đánh dấu Các nhà từ điển học chỉ

bổ sung và biên soạn lại Việc làm này được giải thích là Pháp đã có một nền

TẾ học thực hành rất lâu đời Thành tựu đã đạt được là rất to lớn và chắc chắn,

ví dụ: TÐ của Viện Hàn Lâm Pháp 1794 đã được tái bản, sửa chữa 9 lần, được

coi là cuốn TĐ chính thức của nước Pháp; TK 19 (1817) có TÐ Larousse và

LiHré, 17 tap, 2 phu bản, xuất bản ở Hachette) Đây được coi là cuốn TÐ đề sộ nhat sau TK XIX Ti TK XX có rất nhiều bộ từ điển lớn như tập TÐ tiếng Pháp đương đại, Kho từ vựng tiếng Pháp, đặc biệt có TÐ giải thích 7 tập của Rôbe

xb 1967 Lớn nhất là cuốn TLP 16 tập do Trung tâm nghiên cứu KH Pháp biên soan, 8 tap dau do Paul Imbs chủ biên, 8 tập sau do Bemaid Quemada chủ

biên;

đ) Cũng vì lí do trên mà việc thu thập tư liệu mới để bổ sung cho các TD rất được các nhà TÐ học chú tâm ở cả hai nhà xuất bản, việc này đều do đích thân các biên tập viên làm

Trang 4

Ở nhà xuất bản Larousse có riêng một bộ phận chuyên xử lí các phát hiện mới về từ vựng để đưa vào một chương trình chuyên dụng khá công phu Kho này được xây dựng từ năm 1992 đến nay được 80 000 bản ghi Chương trình được viết riêng, gồm nhiều lớp thông tin, trong đó có cả phần soạn nghĩa từ

mới, chỗ để sửa chữa, phân ngành chuyên môn, thời gian xuất hiện, xuất Xt

(t nhất là 12 thông tin, trong đó tất cả các thông tin về xuất xứ chỉ được coi là một và được mã hoá bằng số)

Riêng các thông tin về mức độ "mới" cũng được chia thành 5 cấp, trong đó phân biệt: từ mới thực sự hay là từ cũ được dùng lại, từ đã có trong TÐ chưa, từ mới hay chỉ là dạng viết mới, và cấp độ thứ 5 là các đơn vị còn phải tiếp tục theo dõi,

Các đơn vị dược phân loại: cần xác định đơn vị này là từ thuộc phong cách

nào, từ có tồn tai lau dai không, từ có thay đổi về ngữ pháp: thay đổi về phạm

trù ngữ pháp, những ngữ cảnh mới của từ cũ,

Ở NXB Hachette việc này được tất cả các biên tập viên làm TĐ giải thích

và TĐ đối dịch thực hiện TĐ đối dịch được các nhà ngôn ngữ học thực hiện hơn một nửa trong các công đoạn có tính chất quyết định, như việc lập bảng từ,

đưa ví dụ, bổ sung từ và nghĩa mới

II VIEC UNG DUNG TIN HỌC VÀO CÔNG TÁC TỪ ĐIỂN:

C6 hai phan: a) ting dung tin học làm dữ liệu cho việc biên soạn TĐ, và b) ứng dụng tin học vào việc "chế biến" "chế tác" TÐ để in ấn

Ở phần a) họ phân biệt hai khái niệm:

Corpus: tạm dịch là "khối ngữ liệu tự nhiên", là thuật ngữ chỉ khối ngữ liệu

tự nhiên được sắp xếp, được dùng để kiểm tra những ví dụ trong từ điển giải thích, nhưng chủ yếu là kiểm tra wi du trong TD song ngữ, để lựa chọn những

tổ hợp thông dụng nhất trong các TÐ song ngữ (việc làm ở NXB Hachette)

Đây là điểm rất mới so với chúng ta ở Việt nam, việc làm từ điển song ngữ

dường như không chú ý đến tư liệu của ngôn ngữ gốc

Bases de donnéc: cơ sở dữ liệu, là những từ điển cũ hoặc đã được biên

soạn, được đánh dấu bằng các chương trình đánh đấu để đưa vào in ấn hoặc để

sửa chữa, biên soạn lại thành các từ điển các cỡ khác nhau một cách nhanh

Trang 5

nhất Có lẽ vì đều là các nhà xuất bản tư nhân, mục đích là sẵn xuất ra nhanh;

nhiều từ điển nhằm đem lại lợi nhuận nhanh nhất nên cả hai NXB đều rất chú ý

Cơ sở dữ liệu của các NXB đều được đánh dấu theo chuẩn quốc tế SGML, tức "ngôn ngữ đánh dấu khái quát tiêu chuẩn" ISO 8897 Đó là "định đạng tiêu chuẩn quốc tế sử dụng cho nhiều lĩnh vực công cộng và những tiện ích thương mại” Đây là một bộ chương trình mã hoá (tiếng Anh) cho phép ứng dụng trong

từ điển, Chương trình có tên: DHO (Dictounari Hachette Oxfore), được dùng

để làm cuốn TÐ Latin - Pháp Quyển TĐ này do GAFFIOT biên soạn, năm

1934 biên soạn và xuất bản lại Nhưng do phát hiện thêm được nhiều văn bản

cũ nên có cơ sở để làm lại Vì vậy, năm 1995 một nhóm của Nxb Hachette da tiến hành biên soạn lại Sau khi nhóm biên soạn sửa chữa và bố sung trên phiếu, họ viết riêng một phần mềm cho cuốn TÐ này (đặt tên là HTMIL) trên cơ

sở ứng dụng DTD (Documen Type Definition) Phần mềm TEI (chương trình

mã hoá văn bản quốc tế Text Encoding Im ) Việc làm trên máy tính bắt đầu

từ 9-1997, đến 2000 Như vậy, toàn bộ việc soạn lại do tác giả soạn chỉ khi có bản thảo mới đưa vào máy tính Nhưng dữ liệu này sẽ được sử đụng lâu dài cho việc biên soạn những quyển từ điển GAFEIOT theo các cỡ khác nhau Những việc sau này người chủ biên và ban biên tập chỉ đưa ý tưởng còn việc thực hiện hoàn toàn thực hiện trên máy, thời gian được rút ngắn rất nhiều và tránh được

những sai sót và không nhất quán do nhiều người cùng làm Thực hiện việc xây

đựng cơ sở dữ liệu cho GAFEIOT là một biên tập viên trẻ, được đào tạo chuyên

về Ngữ văn Nhưng để làm được công việc này anh ta phải học thêm tin học, tiếng Latinh và nghiệp vụ TÐ Hướng đào tạo theo kiểu này chúng ta nên học

Trang 6

ngôn ngữ: bản thảo được duyệt qua một phần mềm kiểm tra các từ của siêu ngôn ngữ trong định nghĩa Phần mềm này phát hiện những từ không có trong bảng từ, đồng thời kiểm tra tính đúng của các động từ của siêu ngôn ngữ Từ

những phát hiện này, dựa vào CSDL nói trên để bổ sung hoặc sửa lại Chương

trình được thực hiện bởi một phần mềm riêng, nhưng cũng phải chỉnh sửa nhiều Ví dụ: động từ "mưa" của tiếng Pháp chỉ có ngôi thứ ba số ít nhưng chương trình sẽ chia theo cả ba ngôi, hai số, vì vậy nhà ngôn ngữ học phải doc,

phát hiện và hiệu chỉnh lại

- CSDL các câu trích gồm 7500 câu của các tác giả tiêu biểu, được kiểm

tra hoàn toàn chính xác, và chỉ dùng để trích dẫn cho từ điển

Gần đây việc làm tư liệu (NHDL) được cải tiến nhiều, Các file văn bản

được đánh đấu về mặt nội dung bằng phần mềm XML, từ đó trích ra để làm

các loại TÐ cỡ nhỏ hơn hoặc dùng làm tư liệu cho các loại TÐ khác như

TDBK

Cu6n Petit Larousse là cuốn TĐBK được soạn từ năm 1905 đã sửa chữa lớn 10 lần nên gần như một cuốn mới Mỗi năm tái bản có bổ sung một lần khoảng 100 đến 150 từ ngữ mới Đây là nguồn sống chính của Larousse nên được đầu tư nhiều và rất được coi trọng Việc bổ sung từ ngữ mới do ban biên tập quyết định dựa trên tư liệu bổ sung đã nói trên Ngoài ra còn tham khảo ý kiến của các ngành chuyên môn Các từ ngữ chuyên môn đều do các chuyên gia trực tiếp biên soạn Từ năm 1998 mới đưa tin học vào (mã hoá các thông tin trong TD va dua lén dang CD-ROM, gém 59 000 mục từ ngữ chung và 28 000

tên riêng) Các mục từ bổ sung được đưa thẳng vào sách nên được lựa chọn rất

thận trọng, vì theo họ thì "đưa vào thì dễ nhưng đưa ra sẽ rất khó, nhất là các

mục tên riêng" Các mục từ quá cũ cũng được đưa ra, nhưng phải được cân

Trang 7

cũng như thực hành, về các bước biên soạn, hoạch định một cuốn từ điển cũng

như việc sử dụng tư liệu

2 Việc sử dụng tư liệu thực tế để lam TDGT cha chúng ta có những phần

công phu, nhưng cũng nhiều khó khăn hơn, bởi lẽ chúng ta chưa có và cũng

chưa tận dụng được hết những thành quả về từ điển mà chúng ta đã có Hình như chúng ta còn coi nhẹ việc sử dụng (chứ không phải là tham khảo) các từ điển đã có Việc xây dựng bảng từ và biên soạn một cuốn TĐ giải thích cỡ lớn

tiếng Việt cần tận dụng triệt để hơn các thành tựu về từ điển giải thích tiếng

Việt đã có

3 Việc xây dựng một kho dữ liệu tiếng Việt hiện đại là rất cần thiết, nhưng đây thực sự là việc làm hết sức khó khăn, đồi hỏi rất nhiều thời gian, tiền của và tri thức Việc làm một NHDL, thử nghiệm như chúng ta đang làm

hiện nay là hoàn toàn đúng hướng và đã bước đầu ứng dụng được những thành tựu mới nhất về tin học trong công tác từ điển Ví dụ như việc đánh dấu từ loại

vào hệ văn bản trong điều kiện bản thân sự nghiên cứu tiếng Việt còn chưa có _ được những kết quả mong muốn như: đơn vị cơ bản là từ trong tiếng Việt còn

chưa được xác định rõ, vấn đề từ loại và xác định từ loại còn nhiều tranh cãi -

Vì vậy chỉ nên coi đây là bước thử nghiệm, chúng ta cố gắng để có được một khối dữ liệu được xử lí ở mức nào đó để tạm thời đáp ứng những như cầu cụ

thể trước mắt Còn với điều kiện của chúng ta hiện nay, việc đặt ra mục đích

cuối cùng là một NHDL tiếng Việt nhằm đại diện cho tiếng Việt hiện đại, tương tự như những NHDL của Anh, Pháp và các nước tiên tiến khác trong một vài năm tới là khó đạt được Chỉ nên đề ra như một hướng để tiếp tục tích cực tìm hiểu, nghiên cứu và đào tạo cán bộ Bởi vì, thực tế cho thấy những tập đoàn XB lớn như tập đoàn Hachette (tập đoàn lớn thứ hai của nước Pháp, với số vốn hiện nay là 5 tỉ F (tương đương 700 triệu đôla) cũng không thể tự xây dựng được NHDL tiếng Pháp hiện đại mà phải hợp tác với Oxford, thực ra là nhờ Oxford làm giúp, phía Pháp chỉ bổ sung để cập nhật các từ mới Nhà sách

Larousse chỉ là một thành viên trong Liên hiệp các tổ chức công nghệ hàn lâm

do Oxford University Press chỉ đạo nhằm thực hiện dự án xây dựng Mạng ngữ liệu Longman (một khối ngữ liệu được thiết kế đại diện cho tiếng Anh hiện đại)

Trang 8

Nhu vay, viéc x4y dung NHDL sé có một số điều chỉnh cho phù hợp, ví dụ

như việc làm ngữ liệu để bổ sung các từ mới sẽ được thực hiện chủ yếu là bằng

cách thủ công có sự hỗ trợ của máy tính như chúng ta đã làm từ mấy năm nay

Vì vậy phải có những dự án hoặc nhánh dự án để thực hiện liên tục để tránh sự

ngắt đoạn thời gian, vì một khối ngữ liệu từ mới bị gián đoạn về thời gian sẽ

giảm giá trị rất nhiều Kinh nghiệm cho thấy, việc làm hồi cố vừa khó khăn về kinh tế, vừa gây tâm lí chán nản cho người thực hiện

NHDL tiếng Việt không chỉ phục vụ cho việc biên soạn TÐ giải thích mà còn được dùng cho các loại TÐ khác, đặc biệt là TĐÐ song ngữ Việt - Tiếng

nước ngoài, Việt - Các ngôn ngữ dân tộc thiểu số, được dùng để phục vụ cho

việc nghiên cứu tiếng Việt một cách toàn diện Do vậy, nó phải được đầu tư và

chia sẻ kinh phí với các công trình khác, không thể chỉ để cho một công trình

TĐTYV cỡ lớn gánh chịu toàn bộ Như vậy, gánh nặng kinh phí sẽ quá lớn với một công trình và quá ít cho một NHDL

4 Việc xây dựng chương trình quản lí và khai thác các từ điển cũ và các

TĐ thuật ngữ chuyên ngành là cần thiết và sẽ phục vụ thiết thực cho việc biên soạn cuốn TĐTV cỡ lớn Việc xây dựng phần mềm trợ giúp biên soạn TĐTV '

cỡ lớn là việc làm cần thiết, rất có ích và hình như có đi trước so với hai NXB

mà chúng tôi đã khảo sát (chúng tôi nói là "hình như”) Việc này họ chưa dùng

và coi là một việc làm hay của chúng ta Theo các nhà TÐ học ở Nhà sách Larousse thì tháng 10-2001 họ mới có một phần mềm trợ giúp các nhà TĐ Việc làm cho cuốn TÐ nhất quán về mặt hình thức được các nhà tin học giúp

đỡ sau khi đã xong bản thảo

5 Một hướng mới cho công tác từ điển ở nước ta là áp dụng công nghệ tin học vào việc sản xuất từ điển Như L.Zgusta đã nói, xu hướng công nghệ hoá

công tác từ điển là một xu hướng tất yếu của từ điển học của thế kỉ XXI Đối

với chúng ta, việc xây dựng các phần mềm trợ giúp biên soạn từ điển đã là một

tiến bộ Song, muốn đẩy nhanh quá trìng phát triển của từ điển nhằm dap ting

nhanh nhất những yêu cầu về các loại từ điển khác nhau của thị trường thì việc

áp dụng các phần mềm đánh dấu TEI là cần thiết và tất yếu Để làm được

những việc này, công tác đào tạo cán bộ cần được chuyển hướng thích hợp

Chan hạn, các sinh viên ngôn ngữ cần được đào tạo cơ bản về tin học Mật

Trang 9

khác, sự phối hợp giữa ngành tin học và ngôn ngữ học cần được đẩy mạnh hơn

rất nhiều

6, Đối với công trình cấp Nhà nước "Xây dựng luận cứ khoa học cho việc

biên soạn bộ TĐTV cỡ lớn", việc tham quan khảo sát để học tập kinh nghiệm

nước ngoài là việc làm cần thiết Nó giúp chúng ta khẳng định được hướng đi của mình, rút ngắn được những bước mò mẫm về lí luận cũng như thực tiễn

trong việc chuẩn bị làm một công trình lớn như công trình TĐTV cỡ lớn Việc

này đem lại hiệu quả thiết thực, vì vậy nên được tiếp tục trong dự án tới; nhất là, việc học tập kinh nghiệm ở các nước có ngôn ngữ gần với tiếng Việt hơn nhưng lại chú ý đến việc ứng dụng kĩ thuật tin học như Trung quốc, sau đó là Anh -

nơi xây dựng thành công ngân hang di liệu đầu tiên - và Canađa

Hà Nội tháng 6-2001 tháng 5-2002

Trang 10

BAO CAO KET QUA CONG TAC TAI HAI NHÀ XUẤT:

BAN HACHETTE VA LAROUSSE

TS Nguyễn Thị Thanh Nga

1 TẬP ĐOÀN HACHETTE (BARBARA GIỚI THIỆU)

Tap doan Hachette 1a tap đoàn sản xuất lớn thứ hai ở Pháp, có số vốn là 5

ti Frăng, xuất bản chủ yếu là sách giáo khoa, ngoài ra còn có các loại sách

khác (trừ sách báo khoa học và y học) Đã xuất bản 3.800 đầu sách, bao gồm:

* Sách giáo khoa ở độ từ 3-4 tuổi đến đại học ở mọi mảng giáo dục trong nhà trường

* Về từ điển:

- Từ điển bách khoa toàn thư: giải thích sâu và có minh hoạ

- Từ điển bỏ túi (không minh hoạ)

- Từ điển giải thích tiếng Pháp: không có danh từ riêng

- Từ điển chuyên ngành như từ điển đồng nghĩa hoặc từ điển nói về những -

khó khăn trong tiếng Pháp (từ vựng, cách chia động từ ), v.v

- Từ điển cho trẻ em mới đi học: từ 6-8 tuổi, 8-1 1 tuổi - từ điển giải thích

- Từ điển song ngữ: Pháp -Anh, Anh - Pháp (hợp tác với Oxfort), từ điển

Đức - Pháp, Pháp - Latin

- Từ điển từ nguyên tiếng Pháp, tiếng Latin

- Từ điển Bách khoa toàn thư (25000 bản, dành cho đại chúng)

Sách từ điển của nhà xuất bản hết sức phong phú cả về chủng loại lẫn số lượng Họ rất chú ý đến tính chất và yêu cầu của mỗi loại đối tượng độc giả Hình thức trình bày phù hợp với yêu cầu của mỗi loại sách Khả năng về kĩ thuật, tài chính, nhân lực, kinh nghiệm của nhà xuất bản này rất lớn cho phép

họ để sức thực hiện những dự kiến biên soạn của mình

Trang 11

trong in đậm, in nghiêng, thêm vào, bớt ra, trích dẫn từ ít đến nhiều Các mẫu, quy ước đoạn văn tự trong mẫu đó có cùng một giá trị (Ví dụ: <Ref> Trích dẫn

thư mục <Ref>; <CTT© Lời trích gốc latin <CTT>)

Các thông tin được thể hiện ra bằng những hình thức khác nhau Ví dụ: có

những chỗ cũng in nghiêng nhưng đậm hơn một chút chính là một gợi ý của

tác giả

3 NGÂN HÀNG DỮ LIỆU (DIỄN GIẢ LÀ MỘT CHUYÊN GIA

MAY TINH TRINH BAY):

Tai Hachette céng viéc chinh 1a:

- Quản lí ngân hang

- Xác định quan hệ cấu trúc định nghĩa một mục từ, thông tin về ngữ âm

và ngữ pháp với việc xử lí tạo nguồn (cần nhân lực nạp dữ liệu), có kiếm tra lại

- Xử lí thế nào cho thống nhất, ví dụ: kết nối một mục từ này vớt một mục

từ khác (biến thể chính tả, từ đồng nghĩa, trái nghĩa) ,

Sự thống nhất thể hiện qua việc kết nối các thông tin với nhau:

- Ngân hàng dữ liệu chứa các yếu tố gồm nhiều vùng: định nghĩa ví dụ, trích dẫn được kết nối để tiện tra cứu, sửa chữa Danh sách tác giả được mã hoá, chỉ xuất hiện một lần trong danh sách

- Có nguồn xuất xứ

- Có đanh từ riêng

- Có thông tin bách khoa

- Phải hoạch định được một sơ đồ về các thông tin Sơ đồ dữ liệu là công

cụ để quản lí

Các nhà xuất bản là nơi có ý định xây dựng nguồn dữ liệu thông qua các cán bộ thông tin tư liệu có khả năng phân tích những xuất bản phẩm mới một cách thủ công

Trong biên soạn chú ý hai yếu tố:

- Công cụ phần mềm

- Mã hoá thông tin phản ánh được cấu trúc từ điển: sử dụng chuẩn SGML

Trang 12

—> Tất cả những điều đó dẫn đến nhiều thuận lợi trong công tác biên soạn

từ điển, đảm bảo yếu tố chất lượng cũng như rút ngắn được thời gian biên soạn

- Cho phép làm trang

- Cho phép bổ sung sửa chữa theo những tiêu chí cụ thể đặt ra trong từng

giai đoạn nhất định

Cụ thể công việc này là:

- Quy trình sản xuất TĐ: nắm vững kết cấu TĐ và tư liệu — Tổ chức lại một cuốn TÐ Chọn lọc thông tin cần thiết đưa vào những sản phẩm khác” nhau, có danh sách thư mục tham khảo Dùng phần mềm để lựa chọn hay loại

bỏ thông tin

- Cập nhật ngân hàng dữ liệu: chuyển đổi thông tin mục vào (DDT)

Mỗi cuốn có những đặc trưng riêng —> phải sửa đổi thông tin cho thích hợp

Có hai mẫu: Song ngữ

Giải thích

song ngữ có 2 hướng: Chuẩn quốc tế TEI

Chuẩn sử dụng

~ Một chuyên gia TÐ theo dõi việc bổ sung sửa chữa TÐ mỗi nam Mot

từ mới phải qua theo dõi, được dùng nhiều mới bổ sung vào Ban biên tập họp

quyết định có bổ sung từ đó hay không

4 RÚT GỌN MỘT CUỐN TỪ ĐIỀN THÀNH NHỎ HƠN:

Từ những dỡ liệu đã có có thể làm ra rất nhiều đầu sách, đặc biệt là những cuốn từ điển có dung lượng nhỏ Công việc chính là:

- Lựa chọn những từ phổ biến nhất

- Thay các dụng cụ đánh dấu tên tác giả bằng chính tên người đó và đưa phương tiện đánh dấu nửa tự động (Phần mềm cho phép tìm cụm từ Text baza?, text unimax cho phép xử lí tự động hoá để nhận diện - chưa rõ vì ghi

theo âm đọc)

- Trên cơ sở dữ liệu kiểu số 7 để đưa được cuốn từ điển ra thị trường

._- Xây dựng quy ước để chuyển được từ đó ra bản in (x tr.8 tài liệu)

Trang 13

5 CONG TAC TO CHUC TD (LATIN-PHAP):

~ Một nhân viên tin hoc chuyén sit dung phan mém UNIMAX

- Một người dùng phần mềm B behind/ làm nhanh, chỉ trong một

tháng

- Tác giả khi sửa có thể đi sâu hơn, bổ sưng được từ mới, người khác sẽ

nạp vào máy

- Số nhân viên nạp tay vào máy nhiều Thường có nhiều lỗi, sửa 2 lần

- 1/99 tiến hành chỉnh sửa, đưa chương trình SGML, tác giả sửa xong dua thang vao SGML Tir 8/97-7/00 hình thành xong cuốn từ điển (các tác giả

đã làm trước đó nhiều)

- Có ba chuyên gia hiểu tiếng Latin và SGML giúp đỡ

- Khi muốn làm một cuốn từ điển trung gian giữa 2 cuốn cũ và mới: Không thu thập những đoạn trích lớn tiếng Latin do vây phải lập danh sách

những từ không đếm vd: <QUOTE> alquid ab aliquid rẻ <QUOTE>, + từ trên

nằm trong danh sách những từ được lựa chọn thì vẫn lấy như một ngoại lệ Kết qua x tr.11

- Trong TD giải thích: có danh sách từ mới ở cuối: thường là các từ thanh thiếu niên hay dùng, các từ thuật ngữ, vay mượn Đây là phần phụ lục Chỉ một số ít từ được đưa vầo bảng từ chính thức, khi xuất hiện từ 8 -10 lần

Ưu tiên 1 từ xuất hiện ở nhiều nguồn, có chú ý đến hoàn cảnh xã hội cho sự ra đời của từ

- Khuyến nghị nhiều khi cũng mang tính chất bó buộc Ở Pháp khuyến khích dùng tiếng Pháp Nhằm để ngỏ sự lựa chọn cho người sử dung, Larousse đưa thuật ngữ tiếng Anh tương đương tiếng Pháp, trong thực tế người ta chỉ sử dụng tiếng Anh, theo âm Pháp

6 TỪ ĐIỀN SONG NGỮ

* NXB Hachette:

- Xây dựng trên cơ sở những kiến thức hiện đại nhất Các copus được

tin học hoá

Trang 14

- Phương pháp làm việc mới: tập hợp một ê kíp gồm cả người Pháp và

người Anh cùng làm một văn phòng

- Cau tric TD: Bảng từ, mục từ, cầu trúc vi mô, phụ trương: thu xếp theo chủ đề: riêng tư, thông báo về sinh tử, nghỉ ngơi, mẫu đặt thư báo, hợp

đồng bảo hiểm, mẫu đơn xin việc, thư cảm ơn, thư thương mại kèm theo những biến thể, quán ngữ tương đương có thể ding trong thư

Cùng một chủ dé có mẫu thư tiếng Anh và tiếng Pháp để tiện so sánh

(Tiéng Anh có thể dùng 2 từ, Tiếng Pháp tới 2 dòng) '

Có danh sách từ kết nối và ngữ cảnh đi kèm

Mục rao vặt

Giải thích chữ viết tắt

Những câu thường dùng trong điện thoại: có câu so sánh tương đương

bằng tiếng Anh

Thuật ngữ hay dùng trên Internet

Bảng chia động từ tiếng Anh và tiếng Pháp

* 4 yếu tố cơ bản đầu tiên của 1 cuốn TÐ song ngữ:

- Chỉ dẫn về ngữ pháp

- Thứ tự nghĩa Thông tin cụ thể và rõ ràng, lời dich đủ do tin cay

- Ví dụ sát ngôn ngữ hàng ngày

- Trình bày trong TÐ nổi bật lên Mỗi loại thống tin sử dụng một hình

thức trình bày riêng để người dùng dễ nhận ra

* Bảng từ: xuất phát từ bảng từ đơn ngữ, căn cứ yêu cầu thị trường cho

ra đời 3loại biên tập

Trang 15

Cỡ nhỏ: chọn từ có tần số sử dụng cao nhất, có tính đến đối

tượng khách du lịch, bìa dai, nhiều từ thường dùng trong hội thoại hàng ngày cần cho du khách Từ chuyến môn quá sâu không đưa vào

TD hoc sinh: Nhấn mạnh mặt ngôn ngữ Nhiều câu hội thoại

thường dùng, trao đổi điện thoại, có bảng chú giải kĩ về ngữ âm, ngữ

pháp trong ngôn ngữ (to make = to look, có chú giải cụ thể khác nhau

ở chỗ nào) Dùng bìa catton bền Những khái niệm cơ ban nhu acid,

hình tròn có đưa, nhưng đường kính, bán kính không đưa

7 TRINH TULAM TP TAI HACHETTE

- Tạo khung Cuốn từ điển do các nhà ngôn ngữ lập ra, không cần biết đến tiếng Anh (tránh bị ảnh hưởng khi lập bảng từ)

- Dịch sang tiếng khác tất cả các từ và ví dụ Khi không đủ thông tin để dịch —> đưa lại người lập bảng từ

- Người biên soạn dựa trên TÐ ngôn ngữ của mình và bách khoa toần thư Khi đụng đến chuyên môn sâu cần hỏi chuyên gia

- Đưa ra cópus: văn bản được tin học hoá (làm tại Oxfort, một phần nhỏ làm tại Pari) Là công cụ đáng tin cậy về khoa học, cho phép kiểm tra ngữ

nghĩa của một từ trong TÐ cũng như cả cấu trúc câu có mục từ Ví dụ sẽ là câu thật, không phải bịa đặt Để copus trung thực hoá: chọn trên khoảng 10 loại

sách báo, tạp chí và hàng trăm tác phẩm văn học Quét vào máy và xếp theo

thứ tự chữ cái các từ đứng trước hoặc sau mục từ chính Ưu điểm: những cấu trúc giếng nhau sẽ 6 cting mot ché Vd.: measur of, measur uf to, meusur by

— Cho ý tưởng về những từ thường xuyên kết hợp với từ được quan tâm, đưa ra được những ngữ cảnh hay dùng với người sử dụng và các khả năng

kết hợp với giới từ Cho thấy tần suất của một từ để»xếp thứ tự nghĩa từ phổ

biến nhất dến ít dùng nhất và tránh các bẫy ngôn ngữ khi hai tổ hợp từ có hình thức giống nhau Những ngữ cảnh ít xuất hiện cần được biên tập viên chú ý đến

Chất lượng copus ảnh hưởng đến chất lượng TÐ — tạo ra một copus 10 triệu từ và được bổ sung liên tục Tuy nhiên nó chỉ là một công cụ mặc dù là rất

Trang 16

quan trong C6 nhiing tit khéng cé trong copus nhung vin dua vao TD, ciing cé những từ chuyên môn quá sâu không dua vaio TD

- Để cho tiện: đầu mỗi dòng có số mã tư liệu trích dẫn cho biết nguồn gốc của nó

- Nếu ngữ cảnh quá ngắn kích vào đó để tìm độ rộng của văn cảnh theo

ý muốn

8 TỪ ĐIỂN LAROUSSE

Từ điển tài nguyên tiếng Pháp 103.000 từ Đại bách khoa toàn thư bao gồm cả các danh từ riêng và chung phần từ vựng cũng chỉ có 102.000 từ Từ

điển tiếng Việt dự định 150.000 từ thì quả là rất lớn

Với cuốn từ điển cỡ trung bình thì các giai đoạn sẽ khác Trong TÐ cỡ lớn khoảng 130.000 từ, mảng từ chuyên môn kỹ thuật phải rất sâu Thông thường, tỉ lệ thuật ngữ trong khối ngữ liệu chung tuỳ theo chuyên gia của

ngành và yêu cầu của nhà từ điển học mà lựa chọn những từ phổ biến hay

không

Cơ sở dữ liệu tiếng Pháp cho phép kiểm tra lại nguồn tư liệu đã có từ *

trước để bổ sung hoặc thay đổi nếu cần

Kho tàng dữ liệu tiếng Pháp gồm 120 triệu từ được cấu tạo dưới dạng fist

Từ có thể tìm theo vần hoặc theo thời gian xuất hiện Từ cửa sổ câp nhât bấm ra bảng truy tìm đữ liệu (từ) (từ trong cụm từ) (xuất xứ) (ngành) Cụ thể gồm một số mục:

Số mục từ TỪ thời gian viết ra thời gian hoàn thành

Trang 17

(2) mã ngành: tin học, sinh học

(4 cấp độ từ điển: cỡ 1 hay 4 tập -

(5) Loại đơn vị: lóng, từ không chắc tồn tại lâu đài, từ mới thực sự từ mois

nhưng có thể đã tồn tại từ lâu mà chưa được dưa vào từ điển, từ đã tồn tại rồi

nhưng có thể thay đổi (về chữ viết), những biến động về ngữ pháp (trước là ứng., sau là d.), những ngữ cảnh mới của từ đã có, cụm từ, thành ngữ, từ kĩ thuật,

(6) Thông tin về ngữ pháp

(7) Về cấp độ ngôn ngữ hoặc phạm vi sử dụng (thuộc ngành nào) „

(8) Bản chất từ đầu mục(viết tắt, ghép tắt chữ cái hoặc tắt các yếu tố cấu

tạo, tên riêng thương hiệu, thuật ngữ hành chính, từ do Viện hàn lâm Pháp đề

nghị thay thế thuậtngữAnh) `

(9) Từ đã xuất hiện trong cuốn từ điển nào trong 6 loại đã có

(10) Từ được đưa vào từ điển chính thức từ năm nào

(11) Về phong cách

(12) Từ có nghĩa xấu hoặc dân da, dph

Hệ thống cửa số này cho phép tìm rất nhiều thông tin: năm 97 có bao

nhiêu từ được soạn, trong đó có bao nhiêu dt., từ chm

9 CƠ SỞ DỮLIỆU CỦA LARROUSSE

1.300.000 dạng, 90.000 từ, 9.000 đg., Itriệu là những dạng viết của động

từ

Có một bảng riêng các động từ và dạng thức của chúng một cách chính xác, kèm theo đó là các từ có liên quan đến từ này —> kiểm tra được quá trình biên soạn không để lọt những từ không có trong từ điển,

Một form là một trong tập hợp các dạng khác nhau của một từ (có thể có

đến 18 form)

Có cơ sở dữ liệu 7.500 câu trích lấy từ báo chí Nhà biên soạn dùng phần

mềm để lựa chọn (trước dây làm thủ công bằng tay hhư ta rồi nạp vào máy) Bản chế bản được đánh dấu vẻ ngữ nghĩa chứ không phải về hình thức Sử dụng

phần mềm XML Mẫu: từ, từ nguyên, ngữ pháp, giải thích (các nghĩa), cụm từ

Trang 18

(v d.: các từ thân mật trong gia đình, nghĩa thân mật ) Có thể rút gọn một từ

thành từ điển nhỏ hơn theo yêu cầu Một nguồn có nhiều khả năng tìm: trên giấy, trên đĩa, trên mạng, điện thoại :

_ Kinh phí làm phần mềm là 1/1,5 triệu F một năm —> Kinh phí biên soạn rất

lớn Chú trọng làm từ điển giấy, những nguồn xuất bản khác cũng được chú ý

để có định hướng

Kinh nghiệm làm TÐ bách khoa toàn thư: Cuốn Le Petit (Larrousse) xuất

bản từ 1905, cho đến nay đã 10 lần làm lại mới toàn bo Mang minh hoa 1A đáng kể, cập nhật thường xuyên từ 1968 đến nay Với khoảng 100 —> 150 từ ngữ mới hàng năm Sử dụng thành quả của cơ sở dữ liệu và hệ thống cộng tác viên hàng năm lựa chọn những từ mới thực sự để đưa vào TĐ Lời định nghĩa nhằm vào đối tượng rộng, ai đọc cũng phải hiểu

1998 là năm sửa gần nhất, đã ứng dụng tin học để đưa đồng thời TÐ và đĩa

CD với 59000 mục từ chung về ngữ văn, 28000 mục từ riêng Từ mới đưa luôn vào TÐ theo thứ tự, từ quá cổ sẽ bị lược bỏ trong mỗi lần chỉnh lí Tiêu chỉ tần

số sử dụng và phạm vi sử dụng của từ được dùng để Iva chon tir trong TD Ban biên soạn là người quyết định cuối cùng

10 TRANH ANH TRONG TD LARROUSSE

Mang tính lịch sử, nghệ thuật hoặc nhiều vấn đề khác

- Số lượng ảnh và tính chất ảnh tuỳ thuộc số lượng mục từ và yêu cầu ban đầu của người soạn (mỗi trang có mấy ảnh, bao nhiêu lĩnh vực, ưu

tiên lĩnh vực nào, cái nào quan trọng hơn thì đưa nhiều hơn):

+ Ảnh minh hoạ: ảnh chụp về địa lí, phong cảnh, tác phẩm nghệ thuật, áo quần, chai lọ ,

+ Tranh minh hoạ, vẽ cây cỏ, con vậi

Tuỳ theo yêu cầu mục đích giá thành mà dùng ảnh đã có hay ảnh

- Loại TP đưa ảnh: ở cuốn dành cho trẻ em từ 7-10 tuổi có nhiều

tranh ảnh, BKTT dùng ảnh nhiều, TÐ giải thích có thể không cần TÐ cỡ lớn cũng có thể dùng ảnh, cỡ vừa có cả tên riêng thì dùng màu phân biệt

Trang 19

- Việc sưu tầm ảnh: cần ít nhất hai người cho cuốn BKTT, có khả

năng đánh giá được ảnh, có ý tưởng nhất định, nắm được nguồn khai thác anh (TTX, bao tang, hang AFP, tu nhân ) Công tác tổ chức lựa chọn, phân loại, sắp xếp ảnh cần tỉ mỉ, khúc triết từ đầu để đạt mục tiêu

L1 CÁC ĐỊA CHỈ THAM KHẢO

SGML, TEI, UNICOCH

Trang 20

TƯLIỆU ĐẦU VÀO

CỦA NGÂN HÀNG DỮLIỆU

TS Nguyễn Thị Thanh Nga

1 GIỚI THIỆU CHUNG

Tư liệu đầu vào rất quan trọng đối với tầm cỡ và giá trị của Ngân hàng dữ liệu Vì vậy cần có một sự tính toán tỉ mỉ sao cho khối lượng tư liệu phản ánh - trung thành hiện thực ngôn ngữ ở mức cao.nhất, trong những điều kiện nhất định về tài chính, nhân lực : ;

Thông thường, dạng văn bản viết chiếm phần quan trong trong kho dir liệu,

ở Ngân hàng dữ liệu Longman khối văn bản viết chiếm 90%, 10 % còn lại thuộc về văn bản nói

Cách phân chia tỉ lệ từng thể loại văn bản nhỏ hơn nữa không giống nhau ở mỗi Ngân hàng dữ liệu Longman áp dụng cách chia 25% dành cho văn bản tưởng tượng như văn học, sáng tạo 75% thuộc về các văn bản có tính hướng dẫn như nghiên cứu khoa học ứng dụng, nghệ thuật, tín ngưỡng, thương mại, giải trí, khoa học tự nhiên và xã hội, sự kiện thế giới Trong toàn khối dữ liệu,

85% tư liệu lấy từ sách và các xuất bản phẩm định kì, 25% còn lại thuộc vẻ

những tư liệu cá nhân (thư từ, nhật kí), từ các tờ rơi, các bài phát biểu hoặc bài đọc trên phát thanh, truyền hình Một số kho đữ liệu khác của Pháp, Nga lại có

cách phân chia khác Đa số phân chia tư liệu theo thể loại văn bản cụ thể Tuy

nhiên, với từng loại lại có tỉ lệ khác nhau Chẳng hạn: Beke lấy tư liệu báo chí

12,9%, khoa học 11,1%, truyện 41,7% có cả thơ ca; trong khi Zasorina lấy 23,8% báo, 23,6% khoa học, 25,4% văn học và không lấy thơ ca Nguyễn Đức Dân nhận xét các tỉ lệ văn bản thường không được ghuyết minh về tính hợp

2 DAC DIEM VAN BAN

Có thể thấy đối với Ngân hàng dữ liệu tiếng Việt, việc xác định khối lượng từng thể loại văn bản thế nào cho thích hợp là rất quan trọng và cũng rất khó khăn Vì đối với đa số người Việt, dạng văn bản thường gặp nhất là sách văn học,

Trang 21

sách giáo khoa, báo chí Sách văn học có ưu điểm là từ ngữ trong đó thường là những từ thông dụng trong đời sống, bao gồm nhiều dạng phong cách kết hợp,

có thể có một số từ địa phương và những thuật ngữ ngành nghề đơn giản, có những từ ngữ mang tính sáng tạo cá nhân Báo chí cũng có ưu điểm như vay,

nhưng từ ngữ thường mới hơn, có nhiều sáng tạo cá nhân, như vậy có tính cập

nhật nhưng cũng có hạn chế là nhiều từ ngữ chưa ổn định So với sách giáo khoa thì các sách và tạp chí khoa học có nhiều từ ngữ chuyên sâu hơn, nhưng

vì vậy cũng ít thông dụng hơn

3.TIÊU CHÍ LỰA CHỌN VĂN BẢN

Để tập hợp tư liệu tiếng Việt được tương đối chính xác so với tình hình tiếng Việt hiện nay cần lưu ý một số vấn đề sau:

a Loại xuất bản phẩm

- Ưu tiên lấy toàn bộ những tác phẩm được giải thưởng

- Ưu tiên lấy các tác phẩm của những tác giả nổi tiếng,

a, Vùng ngôn ngữ: lấy đại điện của ba miễn phương ngữ Bắc, Trung,

Nam

b Thời gian: chủ yếu lấy các tác phẩm đương đại, có bổ sung một số

tác phẩm nổi tiếng trước đây

c Lứa tuổi: có chú ý đến loại sách báo phục vụ cho các đối tượng, một phần nhỏ dành cho sách báo thiếu nhi

4 TỈ LỆ VĂN BẢN THU THẬP:

4.1 Văn học: 45%

* Tác phẩm trong nước tập trung chủ yếu vào truyện, kí, tiểu thuyết,

chiếm 22,5%, thể loại lí luận phê bình văn học 2,5% Thơ ca: 5% Kịch: 5%

* Tác phẩm dịch: 2,5%

* Tác giả nổi tiếng (Hồ Chí Minh, Nguyễn Du, Nguyễn Trãi): 5%

4.2 Báo, tạp chí thông dụng (ra hàng ngày, hàng tuần, hàng tháng): 25%

Có lựa chọn mẫu theo thời gian

4.3 Khoa học:

Trang 22

* Khoa học phổ thông (gồm sách giáo khoa, sách hoặc tạp chí phổ biến

kiến thức đơn giản): 15%

* Khoa học chuyên ngành (gồm sich day nghề, các tạp chí chuyên ngành

cơ bản nhất) tạm thời chưa thu thập do có khó khăn vì từ ngữ chuyên sâu quá 4.4 Hành chính công vụ, pháp luật: 5%

4.5 Văn bản ghi âm (ngôn ngữ nói): 10%

Trang 23

DOI DIEU CHIEM NGHIỆM VỀ TỔ CHỨC LÀM TUDIEN 6 xt?

IV Chiêm nghiệm đôi điều

V Dâm lời kết luận

I MAY LOI PHI LO

Tôi bắt đầu đi vào con đường từ điển học từ khi mới 22 tuổi Ấy là vào

năm 1966 khi tôi được phân công công tác về Tổ thuật ngữ và từ điển khoa học thuộc Uỷ ban khoa học xã hội Việt Nam Đến nay đã 35 năm trôi qua Suốt nửa đời người làm từ điển tôi đã trực tiếp tham gia vào việc biên soạn 14 cuốn

đủ loại, từ đối chiếu song ngữ đến giải thích- tường giải đơn ngữ, từ thuật ngữ đến ngôn ngữ chung, từ ngữ văn đến bách khoa, từ giáo khoa đến tra cứu, từ đa điện đến đơn diện, từ quân sự đến dân sự, từ cỡ nhỏ đến cỡ đại Ngoài ra còn

viết bài nghiên cứu, báo cáo khoa học, làm luận án tiến sĩ, tham gia hội thảo,

tập huấn biên soạn, giảng bài cho nghiên cứu sinh tiến sĩ vẻ những vấn đề của

từ điển học Tôi được nằm trong biên chế chính thức và được trả lương hàng

tháng vì làm từ điển, nhờ vậy mà sống được Hiểu theo nghĩa này, có thể coi tôi

là một nhà từ điển học chuyên nghiệp Tất nhiên trong hoàn cảnh lịch sử vừa

qua, để sống được đủ ăn đủ mặc tôi còn phải kiếm thêm bằng các nghề tay trái

như dạy học về tiếng Việt và ngoại ngữ, dịch thuật, thông tin khoa học làm báo Nhưng dù làm tay trái cái gì khi va chạm với mọi vấn đề, trong tâm trí tôi

vẫn liên hệ bằng nhiều kiểu cách với nghề từ điển Cho nên, nửa đời người của tôi có thể tóm lại trong hai chữ "từ điển"

Trong bài này tôi không nói chuyện lí luận, lí thuyết, vì những cái đó

trên sách vở đã có quá nhiều Tôi đã học hỏi được không ít qua những sách vở

đó và thực sự ngạc nhiên khi thấy trong một số tạp chí "Ngôn ngữ” năm 1997

Ngày đăng: 29/08/2014, 20:44

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w