luận văn công nghệ thông tin từ điển việt - nhật

Hoàn cảnh ra đời của hệ chữ Kana Chữ Hán là văn tự của một ngôn ngữ thuộc loại hình khác với tiếng Nhật nên việc sử dụng chữ Hán để ghi tiếng Nhật gặp không ít khó khăn.. Ngoài ra, trong

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DÂN LẬP KỸ THUẬT CÔNG NGHỆ

Trang 2

TRƯỜNG ĐẠI HỌC DÂN LẬP KỸ THUẬT CÔNG NGHỆ

KHOA CÔNG NGHỆ THÔNG TIN

Trang 3

LỜI CẢM ƠN

Lời đầu tiên, em xin chân thành cảm ơn thầy DƯƠNG THIÊN TỨ, thầy đã hết lòng truyền đạt kiến thức, kinh nghiệm, giúp em hoàn thành luận văn này

Cũng xin được bày tỏ lòng biết ơn đối với các Thầy, Cô đã tận tình truyền đạt kiến thức trong suốt những năm học vừa qua

Xin gửi lời tri ân đến trường ĐẠI HỌC DÂN LẬP KỸ THUẬT CÔNG NGHỆ đã rộng đón biết bao thế hệ sinh viên và đào tạo trở nên người hữu ích

Người viết luận án

Trang 4

NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN

-

Giáo viên hường dẫn

DƯƠNG THIÊN TỨ

Trang 5

-

Trang 6

MỤC LỤC

- -

NỘI DUNG TRANG PHẦN 0: MỞ ĐẦU 3

PHẦN 1: TỔNG QUAN I Khái quát 4

II Phạm vi sử dụng 4

III Người sử dụng 4

IV Nhiệm vụ 4

PHẦN 2 : QUÁ TRÌNH PHÁT TRIỂN VÀ ĐẶC ĐIỂM CỦA NHẬT NGỮ I Sự du nhập chữ Hán vào Nhật Bản 6

II Hoàn cảnh ra đời hệ chữ Kana 7

III Quá trình phát triển của hệ chữ Kana 9

IV Đặc điểm của hệ chữ Kana 11

V Chữ Hiragana 11

1 Nguồn gốc chữ Hiragana 11

2 Phạm vi sử dụng 12

3 Bảng ký tự Hiragana 13

4 Âm hữu thanh 13

5 Ảo âm 14

6 Nguyên âm 14

7 Xúc âm 15

VI Chữ Katakana 15

1 Nguồn gốc hình thành chữ Katakana 15

2 Phạm vi sử dụng 16

3 Cách viết chữ Katakana 18

4 Việc ký âm các từ vay mượn từ tiếng nước ngoài 19

VII Các kiểu chữ khác trong Nhật Ngữ 20

VIII Các dấu câu trong Nhật ngữ 20

Trang 7

PHẦN 3 : NHẬT NGỮ TRONG TIN HỌC

I Quá trình phát triển font chữ 2 byte 21

1 Bộ kí tự tiếng Nhật 21

2 ASCII và Katakana 22

3 7 bit JIS 23

4 8 bit JIS 23

5 Sự phát triển của bộ kí tự Kanji 24

6 Bộ ký tự 2 byte (DBCS) 25

7 Sự chuyển đổi giữa SBCS và DBCS 26

8 Shift JIS and JIS 26

9 Unicode và ISO 106-46 27

II Các phần mềm hỗ trợ việc nhập chữ Kana và Kanji 28

1 IME (Input Method Editor) 29

2 TwinBridge 35

3 Kết luận 41

PHẦN 4 : TÌM HIỂU CÁC CÔNG CỤ HỖ TRỢ CHO PHÁT ÂM I Tìm hiểu về Microftsoft Agent 40

1 Microsoft Agent là gì ? 40

2 Cấu hình yêu cầu 41

3 Cài đặt Microsoft Agent 41

4 Lập trình với Microsoft Agent 42

5 Cửa sổ các lệnh phát âm (Voice Commands Window) 43

6 Cửa sổ các chức năng hỗ trợ cho đối tượng (Advanced Character Options Window) 44

7 Ví dụ về MS Agent 45

8 .Kết luận 47

II Tìm hiểu về công cụ Microsoft Linguistic Information Sound Editing 47

1 Cài đặt trình soạn thảo âm thanh 47

2 Tạo mới một tập tin âm thanh 48

3 Tạo thông tin cho ngôn ngữ 48

4 Lưu tập tin âm thanh 49

Trang 8

5 Sử dụng Editor cho Speech Engine khác 50

6 Kết luật 51

PHẦN 5 : TÌM HIỂU MỘT SỐ TỪ ĐIỂN ĐÃ CÓ I Từ điển EDICT 52

II Từ điển JEDICT 54

III Từ điển Babylon 57

IV Kết luận 60

PHẦN 6 : XÂY DỰNG ỨNG DỤNG MINH HỌA TỪ ĐIỂN VIỆT NHẬT I Yêu cầu chung 61

II Phân tích yêu cầu 61

1 Lựa chọn DBMS và ngôn ngữ lập trình 61

2 Các yêu cầu của đề tài và cách giải quyết 63

3 Thông tin cần lưu trữ 64

III Các công cụ, phần mềm cài đặt cho chương trình 64

IV Các lưu đồ 1 Lưu đồ tìm kiếm 65

2 Lưu đồ phát âm 66

V Các giao diện 1 Màn hình chính 67

2 Màn hình điều chỉnh giọng nói 68

3 Màn hình tra cứu ký tự Kanji 69

4 Bàn phím nhập các ký tự tiếng Việt 69

PHẦN 7 : TỔNG KẾT I KẾT LUẬN 70

II HƯỚNG PHÁT TRIỂN 70

TÀI LIỆU THAM KHẢO 72

Trang 9

Hiện nay quan hệ giữa nước ta và Nhật Bản càng lúc càng sâu sắc, càng phát triển mạnh, nhất là về công nghệ thông tin

Việt Nam coi Nhật Bản là một trong ba nước có quan hệ ngoại giao song phương đầy đủ nhất (cùng với Lào và Campuchia), đồng thời là đối tác làm ăn tin cậy và ổn định nhất Hiện nay, tất cả đảng phái chính trị của Nhật đều thống nhất hợp tác với Việt Nam

Và Nhật Bản đánh giá Việt Nam là một trong năm nước có tiềm năng hợp tác lớn, cùng với Trung Quốc, Ấn Độ, Hàn Quốc và Philippines

Trên trang Web VnExpress ngày thứ 4 16/4/2003, theo Chủ tịch Hiệp hội phần mềm VN (VINASA) Trương Gia Bình nhạân định Nhật Bản là thị trường tiềm năng của phần mềm Việt Nam và đã phát biểu các công ty Nhật Bản đều có kế hoạch sang Việt Nam để hợp tác phát triển phần mềm VINASA đã đề nghị với Ban chỉ đạo 58 về việc đưa tiếng Nhật vào chương trình học chính thức để đào tạo lập trình viên ở các trường đại học và cao đẳng tại Việt Nam

Vì thế việc học tiếng Nhật càng lúc càng phổ biến, mặc dù chữ Nhật rất phức tạp nhưng theo số liệu gần đây của Bộ giáo dục Nhật Bản thì số người học tiếng Nhật trên thế giới ước khoảng 2,5 triệu người và ngày càng tăng, đặc biệt là ở Trung Quốc, Triều Tiên và các nước Asean

Do đó việc xây dựng và phát triển một từ điển Việt-Nhật (Nhật-Việt) là điều vô cùng cần thiết Tuy nhiên trên thế giới hiện nay có rất nhiều từ điển tin học đang được sử dụng rộng rãi, nhưng hầu hết các loại từ điển đều là từ điển từ tiếng Anh sang một ngôn ngữ khác và ngược lại Và từ điển tiếng Việt sang ngôn ngữ khác hầu như rất ít, trên thị trường hầu như chỉ có từ điển MTD2002 của Lạc Việt Computing Corp là dành cho tiếng Việt, còn từ điển tin học từ Việt sang Nhật hầu như không có

Do đó với đề tài từ điển Việt-Nhật này có thể giúp cho người Việt Nam học, sử dụng tiếng Nhật dễ dàng tra cứu, và đồng thời cũng giúp cho người Nhật tra cứu từ trong quá trình học, dùng tiếng Việt Nam

Trang 10

I Khái quát

Phần mềm từ điển Việt Nhật là một phần mềm dạng dễ tra cứu cung cấp từ điển từ Việt sang Nhật

Mục đích của phần mềm này là:

 Xây dựng một từ điển nhỏ gọn, dễ dàng tra cứu, giúp người sử dụng tìm được từ mong muốn

 Phát âm các từ tiếng Nhật

II Phạm vi sử dụng

Chương trình sẽ được sử dụng cho các thư viện, trường học, tại nhà

II Người sử dụng

Chương trình sẽ được sử dụng cho các đối tượng có nhu cầu tìm kiếm, tra cứu từ trong quá trình học tập, nghiên cứu tiếng Nhật như học sinh, sinh viên, du học sinh và giáo viên giảng dạy tiếng Nhật

III Nhiệm vụ

 Tìm hiểu về Nhật ngữ

 Tìm hiểu về font chữ tiếng Nhật

 Tìm hiểu về Unicode tiếng Nhật

 Tìm hiểu các phương pháp phát âm

 Xây dựng ứng dụng minh họa từ điển Việt-Nhật nhỏ gọn, dễ dàng tra cứu, và phát âm các từ tiếng Nhật

Trang 11

I Sự du nhập chữ Hán vào Nhật Bản

Nhật Bản cũng như Việt Nam, Triều Tiên đều nằm trong khối chịu ảnh hưởng sâu nặng của nền văn minh Trung Quốc Dấu hiệu rõ rệt nhất chính là sự vay mượn hệ văn tự Hán - loại hình văn tự vuông của Trung Quốc - để sử dụng ở nước mình Điểm chung nữa của cả ba nước này là sau một thời gian vay mượn chữ Hán, mỗi nước đều tự tạo cho mình loại văn tự riêng trên cơ sở những chữ Hán theo những yêu cầu riêng phù hợp với đặc trưng ngôn ngữ của nước mình Ở Nhật đó là hệ chữ Kana

Trước khi chữ Hán du nhập vào Nhật thì ở Nhật Bản không có chữ viết Có giả thuyết cho rằng từ rất xa xưa ở Nhật Bản đã có một loại chữ viết gọi là Kamidomaji mà theo thần thoại thì loại chữ này có từ thời vua Shinbu Nhưng giả thuyết này có vẻ không hợp lý vì nếu Nhật đã có chữ viết rồi thì tại sao phải cất công đi tìm chữ viết khác

Tài liệu đầu tiên chứng minh sự tồn tại của chữ viết tại Nhật là một văn bản viết năm 417 nhưng phải đến cuối thế kỷ thứ VI đầu thế kỷ thứ VII mới thực sự có thể nói có chữ viết Khoảng thế kỷ thứ V, những người Nhật Bản vượt biển sang lưu học ở Trung Quốc họ đã bị choáng ngợp bởi sự kỳ diệu của loại hình văn tự vuông ghi ý và đã nghĩ đến việc mượn chữ Hán để ghi tiếng Nhật Nhưng giữ vai trò quan trọng nhất đối với việc đưa Hán tự vào Nhật lại là một số người thuộc bán đảo Triều Tiên

Triều Tiên là nơi vay mượn và sử dụng Hán tự sớm hơn Nhật Hơn nữa tiếng Triều Tiên cổ và tiếng Nhật lại rất gần nhau Trong số những người Triều Tiên sang Nhật trong giai đoạn này có những người có tri thức sâu sắc về chữ Hán, đồng thời có thể sử dụng cả tiếng Triều Tiên và tiếng Nhật Trong cuốn Kojiki (古事記) có viết rằng vào thời vua Ojin có một người Triều Tiên tên là Wani (鰐) từ một nước cổ Kudara - ở giữa biển Nhật Bản gần phía tây nam bán đảo Triều Tiên – đã sang Nhật mang theo hai cuốn sách là Rongo (論語) và Tenjibun (天字分) (có tài liệu cho là cuốn Thiên tự văn (千字文 - Senjimon)) Rongo vừa là sách giáo khoa về Khổng giáo vừa là cuốn sách giới thiệu các tri thức khoa học của Trung Quốc thời bấy giờ, còn Tenjobun là cuốn giáo khoa về chữ Hán Wani đã mở lớp dạy học, truyền bá những tri thức mới cho người Nhật Hầu hết các quan lại triều đình đều là các thế hệ học trò của Wani

Nhật ngữ cổ đại chỉ là khẩu ngữ Những thông tin được truyền đi do những người gọi là Kataribe (語部 – ngữ bộ) Họ đi khắp nơi, kể chuyện và truyền đạt các thông tin quan trọng

Trang 12

Tuy nhiên trong một thời gian dài, học chữ Hán đồng nghĩa với việc học tiếng Trung Quốc Lịch sử còn lưu giữ trong văn bản pháp luật hành chính của triều đình hay những cuốn sách về Phật Giáo của thái tử Seitoku viết hoàn toàn bằng chữ Hán và theo lối hành văn của Trung Quốc Dần dần số người viết chữ Hán ngày càng tăng, từ đây chữ Hán được công nhận là văn tự chính thức của Nhật

Lúc đầu, người Nhật chỉ dùng chữ Hán để viết tiếng Trung Quốc hoặc viết một thể loại Hán Nhật ghép lại (cuốn Cổ Sự Ký được sáng tác năm 712 là tác phẩm tiêu biểu) Ngoài ra, chữ Hán còn được người Nhật sử dụng để ghi các yếu tố ngữ pháp không có trong tiếng Trung Quốc Ví dụ để hiển thị chữ “fa” trong tiếng Nhật cổ (tiếng Nhật hiện đại là “wa”) người Nhật chọn những chữ Hán có phát âm gần giống chữ “ha” (波 : sóng) Hệ phiên âm này gọi là vạn diệp giả danh (万仮葉名 – Manyôgana), chữ giả ở đây có nghĩa là giả tá (仮借 - vay mượn) ý nói Nhật ngữ cổ đại không có chữ viết phải vay mượn các nét bút của chữ hán để ghi lại lời nói Phương thức Manyôgana (万仮葉名) này được sử dụng rộng rãi trong các tập thơ ca Nhật Bản thế kỷ thứ VIII Ngoài ra, người Nhật còn mượn giá trị ngữ âm của các ký tự Trung Quốc và đặt chúng gần nhau để thể hiện từ vựng tiếng Nhật Ví dụ từ Nhật Bản địa thì “yama” có nghĩa là núi được viết là 也麻 tức là lấy 也 biểu thị âm “ya” và 麻 biểu thị âm “ma”

II Hoàn cảnh ra đời của hệ chữ Kana

Chữ Hán là văn tự của một ngôn ngữ thuộc loại hình khác với tiếng Nhật nên việc sử dụng chữ Hán để ghi tiếng Nhật gặp không ít khó khăn Tiếng Nhật thuộc ngôn ngữ loại hình chắp dính mà ý nghĩa ngữ pháp được biểu thị qua các trợ từ và những biến đổi của phụ tố cấu tạo từ hoàn toàn khác với tiếng Trung Quốc Ngoài ra, trong tiếng Nhật còn tồn tại những từ hoặc những biểu hiện mà không tìm thấy sự tương đương trong tiếng Trung Quốc như tên người, địa danh hay là những hiện tượng thiên nhiên, đặc trưng của xã hội…

Do vậy, sau một thời gian vay mượn sử dụng chữ Hán người Nhật đã suy nghĩ để tìm ra nhiều cách hợp lý dễ dùng và dễ hiểu nhất

Nói chung có hai phương thức mượn cơ bản :

 Phương thức thứ nhất là mượn chữ Hán đồng thời với việc mượn nghĩa mà chữ Hán đó biểu thị với hai kiểu âm đọc : âm đọc On (đọc

Trang 13

theo âm Hán) và âm đọc Kun (đọc theo âm Nhật) Ví dụ như 花 nghĩa là hoa) đọc theo âm Kun là “hana”

 Phương thức thứ hai là mượn chữ Hán đồng thời mược âm đọc của chữ Hán đó mà hoàn toàn không chú ý đến nghĩa mà chúng biểu thị

Phương thức thứ 2 này được thực hiện theo chính kinh nghiệm của Trung Quốc khi dịch bộ kinh Phật vốn được viết bằng chữ Ấn Độ sang chữ Trung Quốc Những từ không có nghĩa tương đương ở Trung Quốc đều được ghi bằng chữ Hán có âm tương đương hoặc gần giống với âm đọc trong tiếng Ấn Độ nhằm bào đảm sự tương đồng về âm thanh Triều Tiên sau đó cũng đã sử dụng phương thức này khi dùng chữ Hán để ghi tên người, địa danh hay các phân từ ngữ pháp ở ngôn ngữ mình

Ở Nhật Bản, văn bản đầu tiên được ghi bằng phương thức mượn âm là bộ Manyôgana ( 万仮葉名) gồm 5000 bài diễn ca, hò vè được chọn lọc từ nền văn hóa dân gian lúc bấy giờ Đây là một tài liệu rất quý giá về lịch sử chữ viết của Nhật Bản đánh dấu sự sáng tạo trong việc sử dụng chữ Hán của người Nhật

Mặc dù toàn bộ văn bản đều đươc viết bằng chữ Hán nhưng chỉ thuần túy là sử dụng âm đọc của chữ Hán mà không sử dụng mặt ý nghĩa của chúng Ví dụ để viết tên ngọn núi Phú Sĩ (Fuji) nổi tiếng của Nhật Bản, người ta đã mượn hai chữ Hán có âm đọc gần giống là 富 (fu) và 士 (shi) ghép thành từ 富士 (Fuji) Về ngữ nghĩa thì nghĩa của chữ Hán là “những võ

sĩ giàu có” cho thấy trên thực tế không có mối liên hệ giữa tên ngọn núi và nghĩa của chữ Hán

Tuy vậy, dù sao chữ Hán cũng không phải là loại văn tự đơn giản đối với người Nhật, đặc biệt là đối với tầng lớp trung lưu và dân lao động Do vậy, người Nhật luôn có ý thức sửa đổi chữ Hán, vay mượn theo hướng đơn giản hóa, đặc biệt là cố gắng tìm cách thích hợp để ghi các phụ tố của danh từ, tính từ, động từ hay các trợ từ ngữ pháp

Ngoài ra, mặc dù dùng phương thức mượn âm nhưng để để biểu thị một âm nào đó của tiếng Nhật lại có thể dùng nhiều chữ Hán đồng âm khác nhau Ví dụ như để ghi âm “ma” đồng thời có thể dùng các chữ Hán 間, 摩, 馬,… Tình trạng này gây nhiều khó khăn cho người đọc không hiểu chữ Hán này biểu thị cho âm đọc nào, hay ghi một âm đọc nào đó thì phải viết chữ Hán nào cho thích hợp

Đó là những nhu cầu thực tế thúc đẩy sự xuất hiện của hệ chữ Kana

Trang 14

III Quá trình phát triển của hệ chữ Kana

Hệ chữ Kana đi đến tình trạng thống nhất và ổn định như ngày nay phải trải qua hơn 1000 năm Có giai đoạn biến đổi những phát âm trong tiếng Nhật đã gây nên những lúng túng cho người sử dụng chữ Kana

Theo một số tài liệu, trước đây âm o (お) và o (を) là hai âm khác nhau được phân biệt qua hai trọng âm : (お) mang trọng âm thấp còn (を) được phát âm với trọng âm cao nhưng có lúc chúng bị nhập làm một không phân biệt nữa như từ “shio” (muối) có hai cách viết là (しお) hoặc (しを) Tình trạng này cũng xảy ra tương tự như vậy đối với các chữ e (え) với he (へ), ha (は) và wa (わ)

Việc cùng một từ có hơn một cách viết và mỗi một cách viết lại biểu thị những từ có ý nghĩa khác nhau đã khiến cho việc sử dụng chữ Kana để ghi tiếng Nhật gặp khó khăn Đến cuối thời kỳ Edo đã có một tác giả viết trong một cuốn sách trong đó đề nghị cách viết chuẩn cho khoảng 2000 từ với luận điểm chính là mỗi từ chỉ nên có một cách viết theo kiểu ghi âm Nhưng mãi đến tận năm Meiji 33 (1900), nhà nước mới thực sự đưa ra các quy định thống nhất về việc sử dụng văn tự nói chung, trong có có cả chữ Kana

Tuy vậy, những dấu vết về các hiện tượng biến đổi ngữ âm gây ảnh hưởng đến văn tự ngày nay vẫn còn có thể tìm trong tiếng Nhật hiện đại, đặt biệt trong hệ thống trợ từ Ví dụ như trợ từ quan hệ biểu thị ý nghĩa chủ thể được viết là (は) ha nhưng phải đọc là wa (わ), hay trị từ biểu thị ý nghĩa nơi chốn, phương hướng được viết là (へ) he nhưng được đọc là e (へ)

Đến cuối thời Heian bắt đầu xuất hiện những văn bản dùng lẫn lộn hai loại văn tự, trong đó chữ Hán được viết cùng với chữ Hiragana Từ thời Kamakure (1185-1833) cách viết này càng trở nên phổ biến, đặc biệt là trong giới sư sãi Các bài hát, truyện dân gian trước kia chỉ được ghi bằng Hiragana, nay đã được ghi lẫn cùng chữ Hán

Sau đó một thời gian lại có những văn bản được viết bằng hai loại chữ Hán và chữ Katakana đặt trưng cho cách viết của các học giả, các nhà trí thức thời đó để ghi dòng văn bác học Càng ngày sự xuất hiện của chữ Hán ở các văn bản Hán – Kana ngày càng tăng, hiện tượng này đặc biệt thấy rõ trong các cuốn tiểu thuyết thời Edo Nhưng để giúp người đọc dễ hiểu ý nghĩ và cách đọc thì bên cạnh chữ Hán vẫn có ghi kí hiệu âm đọc Kích thước của từng loại văn tự cũng thay đổi qua các thời kỳ khác nhau

Trang 15

Vào giai đoạn đầu, chữ Kana được viết nhỏ, chữ Hán được viết to Dần dần, chữ Kana đuợc viết với kích thước gần ngang bằng chữ Hán Tuy vậy nhưng đến thời Edo vẫn có sự phân biệt hai loại văn bản với hai kiểu sử dụng văn tự tách biệt nhau Loại văn tự Hán-Kana dù sao cũng chỉ dùng trong văn bản không chính thức, chỉ có tính chất cá nhân Còn những tài liệu công văn hành chính của nhà nước vẫn được viết hoàn toàn bằng chữ Hán theo kiểu hành văn Trung Quốc

Từ thời Meiji (1868 - 1912) loại văn tự Hán–Kana mới được sử dụng trong các công văn nhà nước Sau đó do phong trào vận động “thống nhất ngôn văn” nên tiểu thuyết, báo chí đều chuyển sang viết bằng chữ Hán –Hiragana vốn là loại chữ viết của khẩu ngữ dân dã Từ sau chiến tranh thế giới thứ hai, các công văn của nhà nước đều được viết bằng Hán – Hiragana và cách viết này được duy trì ổn định cho đến ngày nay

Trong tiếng Nhật hiện nay tồn tại cùng lúc 3 loại văn tự : chữ Hán (Kanji), chữ Kana (gồm Hiragana và Katakana) và hệ chữ Romaji, ngoài ra còn có hệ số đếm La Mã (1, 2, 3,…) tồn tại song song với hệ đếm của Trung Quốc (nhất, nhị, tam,…) Cùng một câu có thể diễn đạt bằng nhiều loại chữ, nhiều cách

Ví dụ câu “trời mưa” có những cách viết sau :

Trong đó cách viết số 1 là cách viết chuẩn

IV Đặc điểm của hệ chữ Kana

Kana là tên chung của hai loại chữ Hiragana và Katakana Đây là loại văn tự biểu âm có khả năng thể hiện toàn bộ hệ thống ngữ âm tiếng Nhật với 5 nguyên âm cơ bản và 46 dạng âm tiết

Hai loại chữ này được tạo nên từ những nguyên tắc khác nhau Người Nhật sử dụng hai hình thức chữ viết này cùng hàng nghìn chữ Hán để ghi lại ngôn ngữ của mình Hiragana được sử dụng chủ yếu để viết các thành tố ngữ pháp và những từ Nhật ngữ bản địa, còn Katakana chủ yếu được sử dụng để viết các từ vay mượn từ nước ngoài

Trang 16

Cách viết chữ Kana trước chiến tranh rất phức tạp sau chiến tranh thế giới thứ hai, trải qua nhiêu cuộc cải cách lớn để đưa đến cách viết chữ Kana hiện nay

Hệ chữ Kana là loại văn tự ghi âm tiết điển hình, trừ các con chữ ghi nguyên âm đôi ya (や), yu (ゆ), yo (よ), và một âm mũi ん thì tất cả các con chữ khác của mỗi chữ đều ghi một âm tiết với cấu trúc mở (~ + nguyên âm) như a (あ ), i(い), u(う), e(え), o(お) hoặc (phụ âm + nguyên âm ) như ka (か), na (な), ta (た),…

Mỗi âm tiết đều có thể ghi bằng chữ Hiragana hoặc Katakana Ví dụ các âm ta, sa, mu có thể ghi bằng Hiragana た, さ, む hoặc Katakana タ,

サ, ム Mỗi từ thay vì ghi âm Hán đều có thể ghi được bằng các chữ Kana biểu thị âm đọc của từ đó, ví dụ như chữ Hán 日本語 thì được ghi với chữ Kana là にほんご

Mỗi kí tự Kana diễn tả một âm tiết Những âm tiết căn bản được sắp xếp trong một bảng gọi là Gojuonzu (五十音図) tức là 50 âm tiết Bảng này gồm 5 cột theo thứ tự từ trái qua phải và 10 dòng, có thể viết dưới dạng Hiragana hoặc Katakana

V Chữ Hiragana

1 Nguồn gốc chữ Hiragana

Hiragana là loại chữ viết thảo, hay viết đơn giản đi của chữ Hán có cùng hay tương tự cách phát âm Do đó các ký tự này có những đường cong lả lướt và có hình thức đẹp

Theo truyền thuyết thì trong suốt thời Bình An (平安 - Heian) (794 - 1185), triều đình và giới quý tộc rất hâm mộ văn chương chữ Hán Một số nữ quý tộc bắt đầu sáng tác thi văn gồm những thi ca, văn học và các thể loại khác, họ không thích nét chữ cứng cỏi của Manyôgana ( 万仮葉名) vì thế họ chế tác một lối uyển chuyển như chữ thảo, kiểu chữ này gọi là nữ thủ ( 女手 - onnade) để chép các thi văn Nó được xem là tiền thân của Hiragana

Sau đây là bảng Hán tự gốc của các ký tự Hiragana

Trang 17

2 Phạm vi sử dụng

Hiragana chủ yếu được sử dụng để viết những từ vựng và thành tố ngữ pháp như các tiếp vĩ ngữ biến tố, tiền tố, hậu tố, liên từ và trợ động từ Các tiếp vĩ ngữ Kana biến tố được gọi là Okurigana ( 送り仮名 )

Ví dụ :

Tiếp vĩ ngữ Kana 書いた kaita đã viết

Động từ thể từ điển くる kuru đi

Hiragana cũng được sử dụng để viết nhiều từ vựng Nhật ngữ bản địa vốn thường không được viết bằng Hán tự như các trạng từ, các danh từ cụ thể, các tinh từ… hoặc những từ mà chữ Hán khó viết hay không hiện đại

Ví dụ :

3 Bảng ký tự Hiragana

Trang 18

4 Âm hữu thanh

Các phụ âm vô thanh k, s, t, h trở thành âm hữu thanh g, z, d, b, p bằng cách thêm vào dấu phụ (“) thường gọi là tenten (hoặc dakuten, nigori) và dấu ( °) thường gọi là maru (hoặc handakuten) vào bên phải trên của kí tự Kana

Các âm hữu thanh ảo

Trang 19

ぎゃ gya ぎゅ gyu ぎょ gyo

6 Nguyên âm

Nguyên âm tiếng Nhật gồm hai loại là nguyên âm dài thường gọi là trường âm (choon - ちょうおん) và nguyên âm ngắn còn gọi là đoản âm (tan’on - たんおん)

Tất cả những âm căn bảng trong bảng Kana, ngoài ん, đều tận cùng bằng một nguyên âm ngắn

Một nguyên âm dài thường gấp hai lần về độ dài so với một nguyên âm ngắn và được viết bằng lập lại nguyên âm của những âm tận cùng là a, i hoặc u Ngoài ra, người ta còn thêm nguyên âm vào những âm tận cùng là o khi muốn kéo dài những âm này

Một số trường hợp ngoại lệ :

 お được dùng thay う vì một số lý do lịch sử

 Những âm tận cùng là e thường được kéo dài thêm bằng cách thêm え hay い

Ví dụ : けっか được đọc là kek-ka trong đó phụ âm k trong chữ か đã được gấp đôi lên

VI Chữ Katakana

1 Nguồn gốc hình thành chữ Katakana

Ký tự Katakana bắt nguồn từ các ký tự Trung Quốc có cùng cách đọc, nếu Hiragana là sự đơn giản hóa toàn bộ các ký tự Trung Quốc thì Katakana được tạo ra bằng cách lấy một bộ phận nào đó của chữ Hán và bộ phận tách

Trang 20

ra này đại diện cho cả chữ khi ghi âm Ví dụ chữ か xuất phát từ chữ 加 để ghi âm đọc “ka”

Vì căn bản dựa trên hình thức chữ vuông của ký tự Trung Quốc nên Katakana có đường nét vuông, có góc cạnh và rõ ràng để ai cũng có thể hiều và đọc được Katakana thường được cho là văn tự của đàn ông

Trong một thời gian khá dài chữ Katakana thuờng được viết nhỏ bên cạnh chữ Hán để ghi âm đọc của chữ Hán đó Trong các văn bản cổ còn lưu lại ngày nay bên cạnh cách viết theo kiểu Hán thì mỗi chữ Hán được ghi chú âm đọc bằng chữ Katakana, theo âm đọc này thì người Nhật sẽ đọc dãy chữ Hán trên thành một đoạn văn bằng tiếng Nhật theo kiểu Nhật Ngày nay nhiệm vụ chú âm này được giao lại cho Hiragana

Sau đây là bảng Hán tự gốc của các ký tự Katakana

 Ghi các từ được vay mượn từ nước ngoài vào Nhật Bản (trừ Trung Quốc)

 Ghi tên người và địa danh nước ngoài

 Ghi các từ chuyên môn, đặc biệt là các từ khoa học kỹ thuật

 Ghi từ cần nhấn mạnh trong những bối cảnh đặc biệt

 Ghi các từ tượng thanh, tượng hình

Trang 21

 Ghi tiếng địa phương mượn từ một phương ngữ nào đó được dùng lẫn trong ngôn ngữ văn học

 Từ thân mật có tính chất nội bộ

Trong các chức năng trên thì chức năng ghi từ ngoại lai và tên riêng nước ngoài là quan trọng nhất Trong một chuỗi từ chỉ cần thấy một từ ghi bằng chữ Katakana là có thể đoán là từ vay mượn từ nước ngoài vào

Bảng ký tự Katakana

Trang 22

ミャ mya ミュ myu ミョ myo

3 Cách viết chữ Katakana

Chữ Katakana diễn đạt chính xác những âm thanh tương ứng với các chữ Hiragana

- Về nguyên tắc viết chữ Hiragana như thế nào thì cũng viết chữ Katakana như thế ấy

- Xúc âm được biểu thị bằng chữ ツ nhỏ (ベッド)

- Ảo âm được tổ hợp bằng chữ ヤ, ユ, ヨ nhỏ

- Trường âm là sự khác biệt chủ yếu giữa Katakana và Hiragana, trong Katakana trường âm được biểu thị bằng dấu gạch ngang ( - ) gọi là dấu trường âm

Trang 23

tiếng Nhật, điều này dẫn đến những cách phát âm khác biệt rõ rệt so với ngôn ngữ gốc

Ví dụ : England イギリス igirisu

- Thông thường người ta không thể viết một số âm cụ thể nào đó bằng những ký tự Kana truyền thống Ví dụ như không có tổ hợp âm truyền thống nào diễn tả âm “je” trong từ “jet” do đó một số tổ hợp Kana đặt biệt được tạo ra để viết những câu như vậy

- Tuy nhiên cách viết những từ vay mượn bằng Katakana không được tiêu chuẩn hóa hoàn toàn do đó mộ số từ có thể được viết bằng nhiều cách Ví dụ như từ “gesture” được viết là zesucha (ゼスチャー) hoặc jeshucha (ジェスチャ)

- Ngoài những tổ hợp này, những từ vay mượn viết bằng Katakana đôi khi bao gồm những xúc âm không được sử dụng trong chữ Hiragana như d, g

Ví dụ như beddo ( ベッド)

4 Việc ký âm các từ vay mượn từ tiếng nước ngoài

Người Nhật Bản lần đầu tiên tiếp xúc với người phương Tây thông qua cuộc viễn du của một nhóm người Bồ Đào Nha năm 1543 đến đảo Tanega và cũng là lần đầu tiên Người Nhật tiếp xúc với nền văn minh phương Tây Kể từ đó cùng với việc giao lưu buôn bán của Nhật với nước ngoài thì hàng loạt các từ tiếng Tây Ban Nha, Bồ Đào Nha, Hà Lan dần dần

du nhập vào Nhật Bản, trong đó tiếng Hà Lan chiếm đa số vì trong suốt 200 năm thực hiện chính sách bế quan tỏa cảng (từ 1633 đến 1854) Nhật Bản chỉ quan hệ thương mại với Hà Lan

Ví dụ một số từ sau :

 Từ gốc Bồ Đào Nha : タバコ (tabaco), カッパ (capa),…

 Từ gốc tây Ban Nha : メリアス (meias), シボン (sabao), …

 Từ gốc Hà Lan : ガラス (glas), スコップ(schopbier), ゴ

ム (gom),…

Khi mở cửa giao bang với nước ngoài trong quá trình Nhật Bản đã tìm kiếm một mô thức để tiến hành công cuộc hiện đại hóa đất nước theo các

Trang 24

nước Âu Mỹ thì cũng có hàng loạt cách từ Anh, Pháp, Đức… du nhập vào Nhật Bản

Từ sau thế chiến thứ hai, Nhật bị Mỹ chiếm đóng quận sự nên chính trị và văn hóa chịu ảnh hường to lớn từ phía Mỹ, bên cạnh đó tiếng Anh trở thành ngoại ngữ phổ biến có ưu thế tại Nhật lúc bấy giờ nên ngày nay tiếng Anh là ngoại ngữ phổ biến nhất tại Nhật là điều không thể phủ nhận

Ngoài ra trong tiếng Nhật cũng tồn tại một số từ vựng có nguồn gốc từ tiếng Ý, Nga, Latin, Hy Lạp cổ,…

Trong quá trình hội nhập và phát triển kinh tế như hiện nay số lượng các từ ngoại lai xuất hiện ngày càng nhiều trên báo chí, sách vở, quảng cáo với tốc độ rất nhanh Nếu như trước chiến tranh thế giới thứ hai, khi dịch các từ nước ngoài các tác giả phải rất công phu chuyển dịch thành các chữ Kanji có nghĩa tương đương hoặc có âm đpọc gần giống thì ngày nay các từ nước ngoài được đưa trực tiếp vào tiếng Nhật bằng cách chuyển tự thành chữ Kana mà thôi

VII Các kiểu chữ khác trong Nhật ngữ

Bên cạnh Hiragana, Katakana, Kanji còn có Furigana (振仮名 – Phụ ngữ ) tức là các chữ nhỏ xíu đặt sát hay trên chữ Kanji để ghi âm đọc của Kanji Kể từ 1947, quốc hội Nhật chấp thuận không in kèm Fukigana bên cạnh các chữ Kanji trong các sách vở báo chí dành cho các độc giả trung bình trở lên Chỉ in kèm Furigana bên cạnh các chữ Kanji hiếm gặp và các sách vở báo chí cho các độc giả bình dân

Nhật ngữ hiện đại dùng ba thể Kanji, Hiragana, và Katakana Kanji dùng diễn đạt ý cơ bản của từ Hiragana dùng sau Kanji để tu bổ ý nghĩa và cho thuận theo ngữ pháp Nhật Katakana dùng để chỉ những từ phiên âm hoặc vay mượn của nước ngoài

Ví dụ : 私はアメリカへ友達とひこうきでいきます。

VIII Các dấu câu trong Nhật ngữ

Cách chấm câu của Nhật theo Hán ngữ cổ đại Chấm hết câu bằng một khuyên tròn gọi là kuten ( 。), ngắt câu bằng dấu tạm dừng ( 、) Dấu chấm hỏi (?) và dấu chấm than (!) đôi khi cũng dùng nhưng không được xem là chuẩn mực

Hiện nay Nhật dùng các dấu chấm câu như sau :

Trang 25

Dấu Tên Ý nghĩa

・ nakaten (中点), nakaguro (中黒) chấm giữa chữ, bullet

Trang 26

I Quá trình phát triển font chữ 2 byte

1 Bộ kí tự tiếng Nhật

Khi Nhật bắt đầu xây dựng những hệ thống máy tính đầu tiên vào những năm 1980 Loại máy tính này được xây dựng giống như của Mỹ và sử dụng cùng một loại bộ kí tự gọi là ASCII Vì lúc này rất khó khi xử lý những ký tự đặc biệt của Nhật như những chữ cái Hiragana và Katakana hay hàng ngàn chữ tượng hình vay mượn của Trung Quốc được gọi là Hán tự Loại máy tính dùng Romaji này không phù hợp cho người sử dụng là người Nhật Có thể dễ dàng viết tên và địa chỉ bằng tiếng Nhật bằng chữ Romaji nhưng lại rất khó khăn để đọc một đoạn văn bản tiếng Nhật được viết toàn bằng Romaji

Tiếng Nhật thì sử dụng nhiều Kanji, là những chữ tượng hình Điều này có nghĩa là các ký tự Kanji (hay các cụm từ của chúng) thể hiện một ý nghĩa hay một suy nghĩ Nó có thể viết cách phát âm của một từ nhưng điều này thì hoàn toàn khó khăn bởi vì phải có những hệ thống khác nhau để chuyển ký tự từ một Japanese Yomi (phát âm kiểu Nhật) sang một ký tự Latinh (Romaji) Một ký tự Kanji có thể có nhiều cách phát âm tùy thuộc vào sự lựa chọn chuyển từ của hệ thống

Ngoài ra, một ký tự Kanji có thể có nhiều Yomi khác nhau hay một Yomi có thể có nhiều ký tự Kanji khác tùy thuộc vào ý nghĩa Hiện tượng dị âm, đồng âm khó khăn đối với người Nhật khi chỉ sử dụng duy nhất chữ Romaji

2 ASCII và Katakana

Bước kế tiếp của ngành công nghệ máy tính Nhật Bản là đưa được bảng chữ cái Katakana vào bảng mã của máy tính Điều này có một số lý do như sau:

 Số lượng các ký tự có giới hạn

 Giúp cho các từ nước ngoài và các từ của tiếng Nhật được rõ ràng

 Dễ dàng để thực thi trên máy tính

 Chúng dễ dàng in hay hiển thị tùy thuộc vào hình dạng của chúng

 Không đòi hỏi một trình xử lý font cho việc xuất các ký tự Dễ dàng thực hiện với một mức mới các ký tự vào bàn phím chuẩn

Cách thực hiện các ký tự Katakana dễ dàng nhất là thêm những khả năng tiếng Nhật vào hệ thống máy tính Nó có giới hạn số lượng ký tự (vừa với không gian trên 127 kí tự) cho nên nó có thể sử dụng được cấu trúc 7(8) bit Một byte mã này (Single Byte Chacracter Set - SBCS) được gọi là JIS

Trang 27

X0201-1989 (được đổi vào tháng 3/1987 từ tên cũ là JISC 6220 - 1076) và đã cho thấy sự tăng cường thêm của bảng mã ASCII với các ký tự Katakana Việc sử dụng của những ký tự Katakana này có một thuận lợi là nó có thể sử dụng bàn phím chuẩn và thay đổi giữa việc xuất ra chữ ASCII và Katakana, với số lượng ký tự có giới hạn Cách bố trí bàn phím này được xác định bởi một chuẩn riêng gọi là JIS X6002-1984 (hay IIS C6233-1980 trước đó) Cách bố trí bàn phím có thêm 52 ký tự chữ cái Latinh thường và hoa, 10 chữ số, 32 ký tự đặc biệt như ( !, $, &, @, +, _ ,v.v) , 8 ký tự đặc biệt tiếng Nhật, 17 ký tự điều khiển (như CR, LF, ETX, DEL, ESC,…) và 55 ký tự Katakana

Đã có một chuẩn được xác định như thế nhưng không có nghĩa là buộc mọi người phải theo chuẩn mực này Điều này đã làm cho có nhiều loại bàn phím có cách bố trí sẵn khác nhau

Hình các ký tự Katatana ban đầu trong bộ mã ASCII

3 7 bit JIS

Mã này tồn tại ở phiên bản 7 bit và 8 bit Sự khác nhau giữa 2 phiên bản này là ở phiên bản 7 bit (từ 00 đến 7F Hex) có một ký tự Shifl In ( còn gọi là SI hoặc là Kanji out (KO), ở 0E Hex) được dùng để thay đổi giữa bảng mã ASCII va Katakana

Điều này có nghĩa là ban đầu hệ thống in các ký tự ASCII cho tới khi nó chạy trên SO thì tất cả các ký tự sau đó được in ra là ký tự Katakana Nó ngừng khi hệ thống tìm ra được ký tự SI, đó là sự chuyển đổi từ chế độ Katakana sang chế độ ASCII Việc sử dụng một ký tự SI và một ký tự SO để chuyển đổi giữa 2 bảng mã đã xảy ra một số vấn đề, vấn đề này sẽ được đề cập ở phần sau

4 8 bit JIS

Vấn đề xảy này không xảy ra khi hệ thống của bạn có thể sử dụng phiên bản 8 bit của JIS X0201- 1989 Trong trường hơp này hệ thống phải có thể làm việc với những ký tự 8 bit (được gọi là 8 bit clean, mà nó thì thường có thể không xảy ra, trong những bổ sung mới nhất của UNIX, thỉnh thoảng chúng được sử dụng bit cao nhất là một bit chẵn lẻ)

Với phiên bản 8 bit bạn không phải dùng kí tự SI và SO để chuyển đổi giữa bảng mã ASCII và Katakana Ký tự Katakana được định vị ở vùng

Trang 28

trên 7F Hex ( vùng không dùng đến) Việc sử dụng vùng này đã nảy sinh một số vấn đề khi bạn làm việc với phầm mềm máy tính PC IBC cũ của Mỹ chẳng hạn, ở máy PC IBM có một bảng mã hoàn toàn khác trong vùng từ 7F Hex đến FF Hex Nếu bạn bắt đầu dùng phầm mềm nước ngoài thì có thể xảy ra một màn hình nền trông rất tức cười bởi vì có sự xuất hiện của những ký tự Katakana đã được thay thế mà không có luật lệ nào cả Kết quả là bảng mã ASCII gần như không tương thích

Ở version 8 bit, vùng dưới 7F Hex gần như tương thích Chỉ khác là nó làm cho một số các ký tự chỉ gần như tương thích như là có dấu \ (5C Hex) thay thế cho ký tự yên và dấu “ (7Fhex) được thay thế bằng dấu (-) Còn tất cả các ký tự khác thì đúng với ASCII tương ứng

Những ký tự Katakana có cùng kích thước với kí tư ASCII này được gọi là Half-Width Katakana (trong Japanese Hankaku) Điều này vẫn chưa là giải pháp thõa mãn cho những người sử dụng máy tính tiếng Nhật trước đây Sự thiếu các ký tự Kanji là một điều quan trọng làm cho họ bắt đầu nghĩ đến cách để tích hợp các ký tự Kanji vào hệ thống máy tính

5 Sự phát triển của bộ kí tự Kanji

Để hiểu về quá trình phát triển của bảng mã Kanji chúng ta phải xem bộ ký tự non-electric mà đang được dùng để định nghĩa cho JIS C6226-1978 đang đi theo hướng JIS X0208-1990, là chuẩn hiện nay

Nhật ngữ có khoảng 40000 đến 60000 chữ Kanji được biết Vấn đề là không ai có thể nhớ được tất cả chúng Bộ Giáo Dục đã bắt đầu giới hạn số lượng chữ Kanji được dùng trong giáo dục Ngày nay một sinh viên Nhật học khoảng 2000 chữ Kanji

Lịch sử phát triển của chuẩn được bắt đầu với những chữ Kanji được cho phép trong giáo dục Bảng đầu tiên này được gọi là Toyo Kanji và vào năm 1946 nó có 1850 chữ Kanji Vào 1981 bảng này được thay thế bằng bảng Yoyo Kanji, có 1946 chữ Kanji

Những bảng khác được dùng để định dạng bộ ký tự chuẩn là Gakushu Kanji với 1006 chữ Kanji thay thế cho bảng Koyiku Kanji cũ có 881 chữ Kanji, nó tăng thêm 996 chữ Kanji ( năm 1992 ) và bảng ký tự Jimei-yo Kanji có 85 chữ (năm 1946), 112 chữ (năm 1976), 166 chữ (năm 1981) và đến năm 1990 có 284 chữ Một sự việc thú vị là Gatushu Kanji là một tập hợp con của Joyo Kanji

Trang 29

6 Bộ ký tự 2 byte (DBCS)

Bộ ký tự non-electric này được dùng để xác định bộ ký tự chuẩn DBCS JIS X0208-1990 hiện nay Ngoài những kí tự Kanji, 83 kí tự Hiragana và 86 kí tự Katakana thì chuẩn này còn bao gồm các ký tự xếp theo chữ cái (10 kí tự số, 52 ký tự Latinh), ký tự đặc biệt có 147 ký tự), ký tự Hylạp có 48

kí tự và ký tự Nga có 66 kí tự và những thành phần không luật lệ khác Suốt những năm sau đã có những thay đổi (X208 được phát hành đầu tiên vào năm 1978, sự thay đổi đầu tiên được thấy năm 1983, phiên bản hiện nay là có từ 1990) nó được thêm vào một số chữ Kanji mới, hình dạng một số chữ thay đổi và có sự thay đổi ở vị trí của một số chữ được thay thế

Ngày nay chuẩn này chứa 2 cấp độ với 2965 ký tự ở cấp độ 1 và 3388 ký tự ở cấp độ 2 Vào năm 1990 JSA đã giới thiệu một bộ ký tự DBCS bổ sung được gọi là JIS X0212- 1990 (đôi khi còn gọi là JIS cấp độ 3) với 6067 chữ thêm vào Với sự thêm vào 5801 chữ Kanji thì chuẩn này có 21 ký tự đặc biệt và 245 chữ Latinh, chữ Kirin, chữ Hy Lạp (hầu hết có các dấu trọng âm như các ký tự của German Umlauts, Pháp, Tây Ban Nha, Đan Mạch) Cái này cho chúng ta tổng cộng 12156 ký tự chuẩn, được chia thành 3 cấp độ Nhìn theo khía cạnh này thì JIS X0212-1990 là một chuẩn rất tốt cho hầu hết các hệ thống dùng chỉ những ký tự được định nghĩa bởi chuẩn JIS X0212-19XX, tuy nhiên số lượng từ rất lớn này cần nhiều bộ nhớ và nó cũng không thể cho hiển thị ký tự được dùng bởi SBCS Do đó để mà hiển thị số lượng từ khổng lồ này chúng tai cần ít nhất là một bộ ký tự 2 byte (DBCS)

Ở môi trường chuẩn 7 (hay 8 bit) chúng ta có thể dùng bảng mã có

127 (hay 255) ký tự Nó thì đủ cho bộ kí tự ASCII chuẩn và một số cái mở rộng cho mỗi quốc gia nhưng nó không đủ lớn để xử lý hàng ngàn ký tự tượng hình Kanji.Để xử lý một số lượng ký tự rất lớn chúng ta cần mở rộng số bit để lưu thông tin của ký tự Ở môi trường 7 bit một bước logic là dùng 2 byte 7 bit (tức là 14 bit) để lưu thông tin, cái này sẽ cho chúng ta khả năng lưu trữ lên 214 tức là 16384 ký tự Nếu chúng ta dùng 2 byte 8bit thì chúng ta có thể lưu đến 216 tức là 65536 ký tự) Vấn đề nảy sinh là làm cách nào để phân biệt giữa ký tự SBCS và ký tự DBCS

Để mà tiếp tục tương thích với bộ ký tự SBCS cũ, bạn phải tìm một giải pháp để định rõ một byte thật sự là một ký tự SBCS hay là một phần của bộ ký tự DBCS

Trang 30

7 Sự chuyển đổi giữa SBCS và DBCS

Đáp lại sự đề cập ở trên, nó thì có khả năng sử dụng cơ chế Shift In/Out để phân biệt giữa SBCS và DBCS Điều này hoàn toàn có ích trong môi trường 7 bit Nó cũng có thể được dùng trong một môi trưởng 8 bit Khả năng có thể khác là trong một môi trường 8 bit nó dùng MSB (Most Significant Big) như là cớ để cho thấy rằng byte này là một ký tự SBCS (MSB=0) hoặc một phần của một ký tự DBCS (MSB=1) Một SBCS có thể thấy sự biểu diễn cùa số nhị phân như 0XXXXXXX và DBCS sẽ là 1XXXXXXX

Ngày nay hầu hết các hệ thống cỡ vừa hoặc lớn đều dùng một trình tự SI/SO (hay còn gọi là KI /KO) để thay đổi giữa những ký tự SBCS và DBCS Có một cách khác là JSA cho dãy SI /SO này nhưng đáng tiếc là hầu hết những cửa hàng đại lý phần cứng đã chọn dãy SI /SO khác (thường là giữa 1 và 3 byte)

Đôi khi có 2 dãy SI/KO khác nhau, một cái chuyễn đổi về bộ kí tự JIS Roman, cái còn lại chuyển đổi về bộ kí tư ASCII

Không chỉ dãy SI/SO (KI/KO) có khác nhau về sự thực thi của bộ kí tự Kana/Kanji mà còn khác nhau về vị trí trong ma trận được xác định bằng hai byte Ngoài ra một số công ty như IBM thì không dùng chuẩn JIS

Nếu như bạn nhìn kỹ hơn vào những ma trận này, bạn sẽ nhận ra rằng tất cả các nhà buôn đã thay thế vùng JIS hoặc vùng mở rộng ở những nơi khác nhau Mặc dù nếu các ma trận có cùng một nơi thì không có nghĩa là sẽ có cùng một kí tự Kanji ở cùng chỗ đó

Trong thế giới máy PC tiếng Nhật thì Shift JIS là chuẩn cho bộ kí tự Phiên bản này của bộ kí tự JIS đã được di chuyển đến những nơi khác nhau

vì ở vị trí này nó có tểh dùng bộ kí tự 7 bit cũ và DBCS mà không cần có dãy SI/SO ( hoặc KI/KO) Trong Shift JIS tất cả các kí tự 7 bit (SBSC) có MSB là 0, giống như 0XXXXXXX nếu MSB được bật lên 1 thì byte đó là một phần của kí tự DBCS, giống như 1XXXXXXX 1XXXXXXX Một ưu điểm của Shift JIS là nó thì dễ dàng chuyển đổi từ mã JIS DBCS sang mã Shift JIS DBCS tương ứng

8 Shift JIS and JIS

SJIS là hiển thị hai byte của mã Shift JIS và hai byte JIS của mã JIS SJIS1 là byte đầu tiên JIS2 là byte thứ hai của mã này Giá trị của những byte này nằm từ 00Hex đến FFHex

SJIS1 = (JIS1 - 21Hex) / 2 +81Hex

if SJIS1 >= 9FHex then JIS1 = JIS1 + 40Hex

Trang 31

if odd(JIS1) then

begin

SJIS2 = JIS2 - 21Hex + 40Hex

if (SJIS2 >+ 7FHex then SJIS2 = SJIS2 + 1 end

else SJIS2 = JIS2 - 21Hex + 9Fhex

Shift JIS được dùng chủ yếu ở PC và một vài máy chủ Hầu hết những cửa hàng đại lý thường chuyển đổi những đoạn mã giữa mã của họ và JIS hoặc Shift JIS

Một sự khác nhau nữa của các bộ kí tự là do người sử dụng định nghĩa những kí tự ở nơi khác nhau trong ma trận 2 byte Những số đó được gọi là

kí tự Gaiji thì khác nhau ở mỗi phiên bản của cửa hàng đại lý Những kí tự Kaiji này rất cần bởi vì một số tên của người Nhật thì được viết với các kí tự Kanji không có chuẩn

Ví dụ nếu một công ty bảo hiểm muốn in một hóa đơn với tên của khách hàng thì thông thường sẽ dùng những kí tự Gaiji do người dùng định nghĩa cho mục đích này khi mà tên của khách hàng chứa những kí tự Kanji mà không có sẵn trong JIS

9 Unicode và ISO 106-46

Unicode xuất phát từ Xerox Parc Năm 1991, Apple và các công ty khác đã liên hiệp thành một tổ chức phi lợi nhuận gọi là Unicode Consortium nhằm phát triển, duy trì và thúc đẩy chuẩn Unicode Unicode Consortium đã phát hành Unicode standard version 1.0 vào năm 1991 Cũng vào thời gian này tổ chức ISO (International Standard Organization ) đã hoàn thành bộ mã tương tự gọi là ISO10646 Xét thấy hai bộ mã như vậy là quá nhiều, Unicode Consortium và ISO đã cộng tác với nhau trong hai năm

1991 – 1992 để hợp nhất Unicode 1.1 và ISO10646 đều phát hành vào năm

1993

Năm 1994, Nhật và Trung Quốc bắt đầu sáng tạo bộ mã chuẩn cho quốc gia mình trên cơ sở ISO10646 Bộ mã chuẩn dùng tại Trung Quốc là được gọi là mã quốc tiêu GB13000 (GB: guobiao)

Unicode là bộ mã ký tự có chiều rộng 16 bit, bao gồm tất cả các ký tự dùng phổ biến trong các máy tính hiện nay Nó bao quát các chữ viết trên thế giới, các chữ ấn loát, ký hiệu kỹ thuật và toán học, hình dạng hình học, dấu chấm câu,… bên cạnh các ngôn ngữ hiện đại, Unicode còn có các cổ ngữ như cổ Hy Lạp, Do Thái (hebrew), Pali, Sanskrit và Nhật ngữ (văn viết)

Trang 32

Ngoài ra còn có một vùng gồm 6500 chổ trống để người sử dụng có thể tạo ra những ký tự riêng cho mình Unicode standard không phân biệt ký tự theo khía cạnh ngữ nghĩa (semantics) hay phát âm (pronounciation) Bởi vì Hán tự được vay mượn vào tiếng Nhật và Triều Tiên từ lâu cho nên ba ngôn ngữ này dùng chung với nhau một số chữ tượng hình (ideographs) Unicode consortium lựa chọn thể hiện các chữ tượng hình chung này một lần vì mục đích của Unicode Consortium là mã hóa các ký tự độc lập giữa các ngôn ngữ Điều này cũng bao quát các ký tự được mã hóa theo chuẩn riêng hiện nay của các nước Trung Quốc, Đài Loan, Nhật, và Triều Tiên (Hàn Quốc)

Unicode không phân biệt âm và nghĩa Thông qua sự thống nhất của chữ Hán, Unicode ấn định khoảng 21.000 code point đối với các chữ tượng hình thay vì là 120.000 nếu phải xử lý riêng biệt cho các ngôn ngữ Châu Á Một số chữ tượng hình nom tương tự nhưng ý nghĩa thì rất khác nhau và có thể có một số nét khác nhau, những chữ như vậy thì có code riêng trong các chuẩn của các nước Châu Á Có nhiều chữ (như chữ Hán giản thể và phồn thể hoặc Kanji của Nhật) khác nhau về hình dạng nhưng ý nghĩa lại giống nhau thì ở các chuẩn mã quốc gia chúng có code riêng thì ở Unicode chúng cũng có code riêng

Mặc dù những từ được nhìn thấy trên màn hình máy tính nhưng máy tính chỉ biết được những chuỗi mã, mỗi số chỉ tương ứng với một kí tự duy nhất trên màn hình Một bộ các kí tự được ánh xạ thành các code point được gọi là bộ kí tự được mã hóa (character set encoding) Một sự đồng bộ để có mã đơn giản của sự thay thế mỗi ký tự trong bảng chữ cái với một con số (a=1, b=2, c=3, …) Bảng mã nổi tiếng ASCII có code point được gán cho những ký tự hoa và thường của các kí tự Latin, các con số, và các ký tự thông dụng thường dùng ở Mỹ Những chữ khác nhau dùng những cách giải mã khác nhau

Bảng mã của Châu Á có một khó khăn thường gặp là thường có nhiều hơn một chuẩn cho mỗi ngôn ngữ Ví dụ như tiếng Nhật có đến 3 chuẩn chính được sử dụng là: SHIFT-JIS, ISO-2022-JP, và J-EUC Mỗi bảng mã được mã hóa bằng những cách không giống nhau, tuy cùng một kí tự nhưng với mỗi chuẩn khác nhau có code point khác nhau

II Các phần mềm hỗ trợ việc nhập chữ Kana và Kanji

Có thể hiểu rằng người Nhật không thể xây dựng những bàn phím với hàng ngàn phím để nhập vào những kí tự Kana và Kanji Vì lý do này mà họ

Trang 33

đã dùng nhiều cách khác nhau để nhập vào các kí tự Thường thì việc nhập được xử lý bằng một chương trình gọi là FEP (Front End Processor – Xử Lý đầu cuối) Chương trình này nhận dữ liệu nhập vào từ người sử dụng và xử lý việc chuyển đổi cần thiết thành mã thích hợp Phần này giới thiệu và mô tả một vài phần mềm hỗ trợ việc nhập các kí tự tiếng Nhật thông dụng hiện nay

1 IME (Input Method Editor)

IME là một ứng dụng cung cấp khả năng nhập hàng ngàn các kí tự khác nhau, đang được sử dụng ở các nước Đông Á, để viết các ngôn ngữ của các nước này mà không cần có những bàn phím riêng biệt

Phiên bản tiếng Nhật của Microsoft Windows95, Windows98, và Windows NT4 đã có đủ các chức năng Microsoft IME (MSIME) Có thể down load tại trang web

Tuy nhiên MSIME chỉ được thiết kế để chạy trên các phiên bản Windows tiếng Nhật Còn Microsoft Global IME for Japanese thì mới cho phép nhập các kí tự tiếng Nhật trong các ứng dụng được hỗ trợ như Internet Explorer, Outlook Express, Microsoft Office trong các phiên bản Windows ngôn ngữ khác

a Khởi động phần mềm IME

Trước khi mở phần mềm IME, đầu tiên cần phải mở chương trình muốn nhập văn bản ra (ví dụ như chương trình email chẳng hạn) và làm cho chương trình ở trạng thái active (chương trình ở trạng thái active tức là thanh tiêu đề có màu rõ ở phía trên cửa sổ của nó)

Sau đó nhấn tổ hợp phím ALT bên trái và SHIFT cùng một lúc Thanh công cụ của IME sẽ xuất hiện trên màn hình, nó như sau :

Chú ý phải mở IME và tắt nó cho mỗi chương trình Nếu có hai chương trình cùng mở và bạn cũng mở chương trình IME cho mỗi cái thì thanh IME sẽ không xuất hiện khi bạn chuyển đổi trong chương trình thứ hai và xuất hiện lại khi bạn chuyển về chương trình đầu tiên

Trang 34

b Thanh công cụ của IME

Phần này trình bày những phần phổ biến của thanh công cụ IME Ở mỗi phiên bản Windows khác nhau thanh công cụ sẽ khác nhau và cũng có thể tùy biến bằng cách thêm hoặc bỏ đi các nút

Toolbar cho phiên bản Windows95/98

Toolbar cho phiên bản WindowsXP

 Tắt mở nhanh (Quick On/Off) : nút nhỏ này cung cấp nhanh cách chuyển đổi giữa chế độ nhập trực tiếp và chế độ nhập chữ tiếng Nhật

 Thanh kéo (Drag Tab) : bạn có thể click và kéo ở phần này để di chuyển thanh công cụ đến những vị trí khác nhau trên màn hình

 Chế độ nhập (Input Mode) : chuyển đổi chế độ nhập giữa Kana và Roman

 Chế độ chuyển đổi (Conversion Mode) : cho IME biết cách tìm các từ Kanji tương ứng

 Bàn phím IME (IME Pad) : cung cấp những chức năng khác nhau để nhập kí tự Kanji, bao gồm cả cách “vẽ” kí tự

 Đăng kí từ mới (Register Words) : cho phép thêm những từ mới vào tự điển

 Thuộc tính (Properties) : cho phép thiết lập nhiều đặc điểm hoạt động và sự ưu tiên

 Biên tập từ điển (Edit Dictionary) : cho phép sửa chữa tự điển

Trang 35

 Trợ giúp (Help) : đưa ra các thông tin giúp đỡ bằng tiếng Nhật

 Khóa chế độ (Lock Modes) : bắt buộc IME dùng kí tự Kana hoặc kí tự Roman in hoa

c Lựa chọn chế độ nhập

Nhập các kí tự vào IME bằng cách gõ các kí tự Roman IME có thể tự động chuyển thành Hiragana hoặc Katakana tuỳ thuộc vào chế độ nhập mà đang chọn Chọn thế độ này bằng cách click vào nút “Input Mode” trên thanh công cụ Nút này có các chọn lựa như sau :

Hiragana : kí tự được nhập vào thành Hiragana Trong suốt quá trình nhập vào có thể chuyển kí tự nhập Hiragana thành Kanji hoặc Katakana

Katakana : kí tự được nhập vào là Katakana Trong suốt quá trình nhập vào có thể chuyển kí tự nhập Katakana thành Kanji hoặc Hiragana

Full-Width ASCII : kí tự được nhập vào là full-width ASCII Đây không giống cách nhập thông thường mà là mã kí tự tiếng Nhật Nếu gởi một tài liệu chứa những kí tự này cho người khác thì người đó sẽ không thể thấy được chúng trừ khi máy tính của người đó có hỗ trợ font tiếng Nhật

Half-Width Katakana : kí tự được nhập vào là half-width Katakana Trong quá trình nhập bạn có thể chuyển từ kí tự nhập Katakana sang Kanji hoặc Hiragana

Half-Width ASCII : kí tự được nhập vào là half-width ASCII Cách này hoàn toàn khác với cách nhập trực tiếp ở trên bởi vì kí tự nhập vào dùng mã tiếng Nhật và bộ font fixed-width Nếu gởi tài liệu có chứa những kí tự này cho người khác thì người đó cũng không thay được chúng trừ khi máy tính của người đó có hỗ trợ font tiếng Nhật

Direct Input : các kí tự được nhập trực tiếp không cần IME Cách này tương tự như khi tắt IME

Trang 36

d Nhập văn bản bằng các kí tự Romaji

Bạn nhập các kí tự vào IME bằng cách nhập Romaji Nếu nhập chữ ở một trong những chế độ kana thì kí tự sẽ được chuyển thành kí tự Hiragana hoặc Katakana tương ứng khi gõ Ví dụ khi gõ “nihongo” trong chế độ Hiragana sẽ cho kết quả như sau:

after typing "o":

Có thể gõ phím "backspace" khi gõ sai và muốn sửa nó

Chú ý rằng có một đường gạch zig-zag dưới chữ được nhập, đường này đánh dấu đoạn văn bản như là “xem trước” tức là nó chưa sẵn sàng nhập vào tài liệu lúc đó Bạn phải “cho phép” đưa nó dưới dạng Kanji vào tài liệu bằng cách nhấn phím “Enter” sau khi đã gõ xong

Nếu muốn nhập vào kí tự Kanji thì sau đó cần phải chuyển kí tự Kana được nhập vào sang Kanji trước khi nhấn Enter

 Chú ý khi nhập bằng Romaji

Một số điều cần chú ý khi nhập bằng kí tự Romaji :

- Nhớ gõ “ha” khi nhập “wa” trong các trợ tư cho chủ ngử vì trong tiếng Nhật nó được viết bằng chữ “ha” Hiragana

- Nhớ gõ chữ “he” khi nhập chữ “e” trong trợ từ chỉ nơi chốn vì trong tiếng Nhật nó được viết bằng chữ “he” Hiragana

- Gõ chữ “wo” cho trợ từ “o”

- Gõ “n” hai lần khi nhập âm “n” IME có thể giải mã âm đọc

“n”, nhưng nếu âm tiếp theo bắt đầu với “n’ thì khi đó bạn sẽ không có kết quả đúng Ví dụ nếu gõ “konnichiha” sẽ có kết quả sai, để có kết quả đúng thì phải gõ “konnnichiha” : hai chữ

n đầu là cho âm “n”, chữ n thứ ba là bắt đầu của chữ “ni” Tốt nhất là nên tập thói quen nhấn n hai lần khi nhập âm đọc n

- Dùng “du” để nhập kí tự “tsu” (tương tự là “zu” cho “su”), và

“di” cho “chi” (“ji” cho “shi”)

Trang 37

e Chuyển văn bản nhập sang Kanji

Khi bạn gõ văn bản dùng IME, nó được nhập tạm thời với một đường gạch zig- zag ở dưới Trước khi nhập vào tài liệu cần chuyển nó sang kí tự Kanji Nó hoạt động như sau :

watashi ha kaerimasu Có thể nhấn phím ”Enter” để dòng chữ Hiragana được đưa vào tài liệu Nhưng nếu muốn từ ”watashi” và “kaeri” thành chữ Kanji thì nhấn

”space bar”, dòng văn bản sẽ thay đổi như sau :

IME sẽ quét đoạn văn bản và thay thế những kí tự Hiragana đó với kí tự Kanji mà nó nghĩ là thích hợp nhất Nó cũng sẽ thay đường zig - zag thành đường gạch thẳng, cho thấy IME đang ở trong chế độ sửa chữa nơi mà bạn có thể thay đổi đoạn văn bản trước khi đồng ý nhập nó vào tài liệu IME sẽ chọn kí tự Kanji mà thích hợp nhất, nếu đúng từ cần chọn thì nhấn phím ”Enter” để đưa vào văn bản

Nếu không đúng với từ cần chọn, làm như sau :

- Xem đường gạch đậm dưới chữ “watashi”, đó là đường gạch cho biết phần của cụm từ nhập có thể thay đổi Nếu muốn thay đổi cho từ “kaerimasu” thì phải dời đường gạch đậm này sang chữ “kaerimasu” bằng cách nhấn phím mũi tên sang phải, nó sẽ như sau :

- Tiếp theo nhấn phím ”space bar”

- Một danh sách các từ chọn khác nhau xuất hiện

Trang 38

- Dùng phím mũi tên lên/xuống để lựa chọn chữ Kanji cần nhập và nhấn phím ”Enter” Kết quả như sau :

- Có thể tiếp tục hiệu chỉnh các cụm từ khác trong đoạn văn bản bằng cách di chuyển đường gạch đậm bằng phím mũi tên trái/phải Khi tất cả đã đúng nhấn ”Enter’ để đưa nó vào tài liệu Sau đó tiếp tục nhập từ khác vào tài liệu

f Vẽ kí tự Kanji

- Khi không biết Romaji của kí tự Kanji để nhập vào, có thể vẽ

kí tự và IME sẽ nhận dạng nó Để thực hiện thao tác này, nhấn nút IME Pad trên thanh công cụ

- Nếu “Soft Keyboard” xuất hiện thì click vào biểu tượng mũi tên trên đầu để chuyển sang bảng vẽ

- Còn nếu bảng vẽ đã có thì click nút “clear” để xóa nó

Trang 39

- Vẽ kí tự trên vùng vẽ nằm phía trái bảng vẽ Khi bạn vẽ thì phần ở giữa sẽ xuất hiện một số chọn lựa mà IME dự đoán là bạn đang vẽ nó Nếu vẽ sai click nút ”Revert” để xóa đường vẽ mới nhất hoặc nút ”Clear” để xóa hết toàn bộ chữ đang vẽ

- Nếu để con trỏ lên trên một trong những chữ được IME đưa ra

ở giữa bảng vẽ thì IME sẽ hiển thị một hộp thoại cho biết cách đọc của từ này

- Khi tìm thấy kí tự đúng ở phần này thì click vào nó để chèn vào dòng đang nhập trong tài liệu Đóng bảng vẽ hoặc mở nó lại nếu muốn dùng tiếp

2 Song Kiều (TwinBridge ® MultiLingual Series)

TwinBridge là phần mềm đa ngôn ngữ của hãng TwinBridge Software Corp Hãng này cho ra ba chủng loại : Chinese Partner (cho tiếng Hoa), Japanese Partner (cho tiếng Nhật), và Korea Partner (cho tiếng Hàn) Phần này giới thiệu về Japanese Partner

Japanese Partner tương thích với các version của Windows như Microsoft Chinese-Windows, Japanese Windows95, Korea Windows và các Windows ngôn ngữ khác

Ngoài chức năng chính là một bộ gõ cho tiếng Nhật , TwinBridge còn có tiện ích khác :

- Biên tập Font (Font Editor) : cho phép tạo chữ mới, xóa bỏ hoặc biên tập, backup và restore các outline font, DBCS TrueType font, system bitmap font trong TwinBridge Đạêc biệt có thể tạo chữ Hán cổ, chữ Nôm và quẻ Kinh Dịch

Định dạng
Số trang	78
Dung lượng	1,14 MB

luận văn công nghệ thông tin từ điển việt - nhật

Sự chuyeơn đoơi giữa SBCS và DBCS

Táo thođng tin cho ngođn ngữ