Bai giang ky thuat ban phim

Cách nào cũng có những hạn chế riêng của nó, hơn nữa có một số phần mềm sửdụng một số mã nới rộng này như là mã điều khiển để thực hiện các chức năng riêng củachúng nên nếu ta dùng nó là

Trang 1

CHƯƠNG 1: KHÁI QUÁT CHUNG

1 Giới thiệu về bàn phím máy tính:

1.1 Giới thiệu:

- Mẫu bàn phím lâu đời nhất xuất hiện năm 1870 với tên gọi QWERTY đặt theo thứ

tự đặt từ trái qua phải trên dòng đầu tiên Đến năm 1930, bàn phím Dvorak ra đời (doAugust Dvorak và William Deay thiết kế), giúp nhân viên đánh máy tiết kiệm được nhiềucông sức

- Và vào thời điểm chuẩn bị chuyển sang sử dụng bàn phím Dvorak thì chiến tranhthế giới thứ 2 xảy ra Lúc này, mọi bàn phím được sản xuất đều thống nhất theo chuẩnQWERTY Bởi vậy mà đến bây giờ chúng ta vẫn đang xài bàn phím QWERTY

1.2 Chức năng:

- Bàn phím là thiết bị nhập thông tin vào cho máy tính xử lý, thông tin từ bàn phím

là các ký tự, số và các lệnh điều khiển Bàn phím máy tính phổ biến hiện nay là bảngchứa khoảng 104 nút với chức năng khác nhau

1.3 Các cổng giao tiếp:

Trang 2

Bàn phím máy tính để bàn có nhiều loại cổng giao tiếp như PS2, USB, không dây.

Trang 3

Giao diện của phần mềm Typing Master

- Nhóm phím: Có 4 nhóm phím chính

+ Nhóm phím đánh máy: Gồm các phím chữ, các phím chữ số và các phím ký tựđặc biệt như ~ ! @ # $ % ^ & * ( ) + - = | \ [] { } ` < > ? ,

+ Nhóm phím chức năng: Gốm các phím từ F1 đến F12, các phím mũi tên

phím PageUp (lên trang màn hình), PageDown (xuống trang màn hình), Insert (chèn),Delete (xóa), Home (về đầu), End (về cuối)… Cho phép người dùng ra các lệnh dướidạng ngắn gọn Ý nghĩa của một số phím chức năng không xác định trước mà tùy thuộcvào từng chương trình

+ Nhóm phím số: Phím NumLock (cho các ký tự số), CapsLock (tạo chữ in hoa),ScrollLock (chế độ cuộn màn hình) thể hiện ở các đèn chỉ thị phía trên bên phải của bànphím và các phím số Trong máy tính chữ số và giá trị số là khác nhau

+ Nhóm phím trạng thái: Ctrl, Alt, Shift là các phím dùng để phối hợp với nhữngphím khác để tạo ra ý nghĩa như một phím mới, nhờ đó mà không cần đưa thêm quánhiều phím vào bàn phím

CHƯƠNG 2: LÀM QUEN VỚI BÀN PHÍM MÁY TÍNH

Trang 4

1 Tìm hiểu về vùng bàn phím của máy tính để bàn:

1.1 Các phím chữ cái và số:

Chính là nhóm phím đánh máy, gồm các các phím chữ, các phím chữ số và cácphím ký tự đặc biệt như ~ ! @ # $ % ^ & * ( ) + - = | \ [] { } ` < > ? ,

1.2 Các phím chức năng:

Bàn phím tiêu chuẩn chỉ có các phím chữ số và các ký hiệu, bàn phím cải tiến đã rađời với 12 phím chức năng mới từ F1 đến F12 giúp cho các thao tác trong các ứng dụngđược nhanh chóng hơn (chữ F là viết tắt của Function - phím chức năng) Dưới đây làmột số tính năng thông dụng nhất:

F1: Bật menu Help

F2: Alt+Shift+F2: Save văn bản (trong menu File hoặc bằng Ctrl+S)

Ctrl+Alt+F2: Lệnh Open (trong menu File hoặc bằng Ctrl+O)

F3: Shift+F3: Đổi chữ thường thành chữ in hoa

Alt+F3: Tạo từ viết tắt trong Autotext

F4: Ctrl+F4: Đóng văn bản đang mở

Alt+F4: Đóng MS Word (áp dụng cho cả các ứng dụng khác)

F5: Lệnh GoTo/Find/Replace (trong menu Edit)

Ctrl+F5: Thu nhỏ lại kích thước vùng văn bản mặc định bị thu nhỏ Alt+F5: Thu nhỏ lại kích cỡ vùng làm việc mặc định chương trình

F6: Ctrl+F6: Chuyển sang văn bản kế tiếp (trong trường hợp mở nhiều văn bản) Ctrl+Shift+F6: Chuyển sang văn bản trước đó

F7: Lệnh Spelling_kiểm lỗi (trong menu Tool)

Shift+F7: Lệnh Thesaurus_từ điển đồng nghĩa (trong menu Tool/Language) Ctrl+Shift+F7: Cập nhật thông tin nối kết trong một văn bản nguồn Word

F8: Mở rộng vùng đã chọn (đã bôi đen)

F9: Cập nhật trường đang chọn

Shift+F9: Chuyển đổi qua lại giữa việc xem mã trường và xem kết quả trường.F10: Bật thanh menu bằng bàn phím

Shift+F10: Giống như chức năng nút chuột phải

Ctrl+F10: Phục hồi cửa sổ văn bản bị thu nhỏ (ngược với lệnh Ctrl+F5) Ctrl+Shift+F10: Phục hồi lại cửa sổ chương trình bị thu nhỏ (ngược Alt+F5).F11: Đi tới trường kế tiếp (nếu trong văn bản có nhiều trường)

Shift+F11: Đi tới trường trước đó

F12: Lệnh Save As (trong menu File)

Shift+F12: Lệnh Save

Ctrl+F12: Lệnh Open

Ctrl+Shift+F12: Lệnh Print (trong menu File)

Trang 5

1.3 Các phím điều khiển

Các phím mũi tên phím PageUp (lên trang màn hình), PageDown (xuốngtrang màn hình), Insert (chèn), Delete (xóa), Home (về đầu), End (về cuối)… Cho phépngười dùng ra các lệnh dưới dạng ngắn gọn Ý nghĩa của một số phím chức năng khôngxác định trước mà tùy thuộc vào từng chương trình

2.2 Tay phải:

Khi đặt tay phải lên bàn phím thì các ngón phải nằm ở vị trí như sau:

- Ngón cái đặt lên phím Spacebar; - Ngón trỏ đặt lên phím J

- Ngón giữa đặt lên phím K; - Ngón áp đặt lên phím L

- Ngón út đặt lên phím ;

Còn trong quá trình đánh máy thì các ngón có thể gõ được các phím sau:

- Ngón trỏ phải phải phụ trách các phím: J, U, M, 7, 6, Y, H và N

- Ngón giữa phải phụ trách: 8, I, K, và phím , (dấu phẩy)

- Ngón đeo nhẫn (áp út) phải phụ trách: 9, O, L, và phím (dấu chấm)

- Ngón út phải phụ trách: O, P, ; , / và các phím lân cận nó, nó cũng phụ trách phim Enter và phím Back Space (mũi tên trên đỉnh phím Enter).

=> 2 ngón cái phụ trách phím Space Bar (phím dài nhất trên bàn phím).

2.3 Tay trái:

Trang 6

Khi đặt tay trái lên bàn phím thì các ngón phải nằm ở vị trí như sau:

- Ngón cái đặt lên phím Spacebar; - Ngón trỏ đặt lên phím F

- Ngón giữa đặt lên phím D; - Ngón áp đặt lên phím S

- Ngón út đặt lên phím A

Còn trong quá trình đánh máy thì các ngón có thể gõ được các phím sau:

- Ngón trỏ trái phụ trách các phím: F, R, V, 4, 5, T, G, B và luôn như vậy, không

được lấn sân ngón khác hoặc để ngón khác lấn sân, các ngón khác liệt kê bên dưới cũngtheo qui ước tương tự

- Ngón giữa trái phụ trách các phím: 3, E, D, C

- Ngón đeo nhẫn (áp út) trái phụ trách: 2, W, S, X

- Ngón út trái phụ trách: 1, Q, A, Z, Alt và các phím Shift, Ctrl gần nó 2.4 Thư giãn:

Bài tập 1: Tìm hiểu về chức năng của các phím trên bàn phím:

a Thực hiện thao tác gõ 26 chữ cái trên bàn phím

b Thực hiện thao tác gõ 10 chữ số trên bàn phím

c Thực hiện thao tác gõ các phím trên bàn phím phụ

Bài tập 2: Thực hiện gõ các phím cho từng bàn tay:

a Thao tác các phím cho tay trái

b Thao tác các phím cho tay phải

c Thao tác các phím khi kết hợp tay trái và tay phải

Bài tập 3 Thực hiện các động tác thư giản bàn tay.

CHƯƠNG 3: LUYỆN KỸ NĂNG ĐÁNH MÁY NHANH BẰNG PHẦN

MỀM TYPING MASTER

Trang 7

1.2 Cài đặt phần mềm:

Khi cài đặt nên disible card mạng để không cho máy tính truy cập internet

B1: Double click vào phần mềm TypingMaster.exe

B2: Tại giao diện Welcom to the TypingMaster Pro Setup Wizard nhấn nút Next

B3: Tại giao diện Liencse Agreement chọn mục I accept the agreement và tiếp tục nhấn nút Next

Trang 10

B10: Tại giao diện nhập license ta tiếp tục thực hiện như sau:

Tại mục License ID ta gõ: icycool and everybody

Tại mục Product Key ta gõ: S46PE-37AA-49Y-24MTNABJ

Sau đó nhấn nút Enter và đóng chương trình lại

B11: Vào C:\Program Files\TypingMaster click phải lên file tmaster8.net chọnProperties check vào ô Read Only rồi nhấn Ok

2 Cách khởi động và thoát khỏi phần mềm:

Để thoát khỏi phần mềm ta click chọn vào dấu X trên cùng bên phải

3 Hướng dẫn sử dụng phần mềm để luyện kỹ năng đánh máy nhanh

3.1 Lựa chọn bài tập đánh máy

Trang 11

Phần mềm này có các bài tập luyện đánh chữ và số rong phần luyện đánh chữ cótổng cộng 12 bài, còn luyện đánh số thì có 2 bài.

a Tìm hiểu phần mềm đánh máy Typing master

b Cài đặt phần mềm đánh máy Typing master

c Khởi động, cấu hình và thoát khỏi phần mềm đánh máy Typing master

Bài tập 2: Thực hiện gõ các phím cho từng bàn tay:

a Thao tác đánh máy nhanh trên bài tập của phần mềm Typing master

b Thao tác tự làm bài tập kiểm tra và tự đánh giá trong bài tập của phần mềmTyping master

CHƯƠNG 4 SỬ DỤNG BỘ GÕ TIẾNG VIỆT

Trang 12

1 Tìm hiểu các bảng mã tiếng việt:

1.1 Bộ mã 8 bit:

1.1.1 Các cách mã hóa tiếng Việt

Văn bản là chuỗi văn, mỗi đoạn văn là gồm chuỗi các từ (word), mỗi từ là chuỗicác ký tự (character) Một cách ngắn gọn: văn bản bất kỳ mà ta muốn xử lý là một chuỗinhiều ký tự Cách mã hóa văn bản tự nhiên nhất là mã hóa rời rạc từng ký tự trong vănbản đó Do số lượng ký tự tiếng Anh (ngôn ngữ phổ biến nhất hiện nay) nhỏ, gồm 26 ký

tự chữ từ “a” đến “z” và biến thể chữ hoa, 10 ký số từ 0 đến 9 và một số ký tự đặc biệt)nên người ta chỉ dùng 7 bit trong mỗi byte để mô tả một ký tự Chuỗi 7 bit có thể mô tảđược 128 giá trị khác nhau, mỗi giá trị được gán cho một ký tự Mã ASCII mà máy tính

đã, đang và sẽ còn dùng được tạo ra theo ý tưởng trên Tóm lại mã ASCII dùng 1 byte để

mô tả một ký tự nhưng chỉ dùng 7 bit trong 1 byte, còn bit thứ 8 chưa dùng

Đại đa số các tập ký tự của các quốc gia châu Âu thuộc họ La-tinh, gồm chủ yếucác ký tự tiếng Anh, chỉ thêm một ít ký tự có dấu Để có thể mô tả được nhiều tập ký tựcủa các nước này, người ta đã nới rộng mã ASCII 7 bit thành ASCII 8 bit để có thể mô tảđược 256 ký tự khác nhau: 128 ký tự tiếng Anh đã có cộng thêm 128 ký tự có dấu củamột số nước châu Âu Chuẩn mã hóa 8 bit này là ISO 8859 Do có những khác biệt nhỏgiữa các tập ký tự của các quốc gia châu Âu nên người ta đã tạo ra các biến thể khác nhau

từ ISO 8859-1 đến ISO8859-15, trong đó chuẩn mã hóa ISO 8859-1 được sử dụng phổbiến nhất Khi được cài đặt ở chế độ mặc nhiên, Windows và Linux đều sử dụng chuẩn

mã hóa ISO 8859-1

Tập ký tự tiếng Việt cũng thuộc họ La-tinh nên hầu hết các đơn vị tạo mã tiếngViệt trước đây đều dựa vào cách mà các nước châu Âu đã làm: nới rộng mã ASCII 7 bitthành mã tiếng Việt 8 bit, tuy nhiên việc tạo mã của các đơn vị chỉ có tính cục bộ, tự phát

và chưa được tổ chức chuẩn hóa quốc gia và quốc tế thông qua (ngoài bộ mã TCVN5172) Hiện có trên 40 bảng mã tiếng Việt được tạo ra theo cách trên gồm 2 nhóm chính:dạng mã dựng sẵn và dạng mã tổ hợp

1.1.2 Dạng mã dựng sẵn (1 byte)

Cố gắng dùng chỉ 1 byte cho bất kỳ ký tự tiếng Việt nào Phần nới rộng ASCIIchỉ có 128 giá trị nên không thể dùng để mô tả đủ số lượng ký tự tiếng Việt có dấu là 134(chữ thường và chữ hoa) Thường ta phải chọn một trong 3 cách dung hòa sau: hoặc chỉ

mô tả chữ thường; hoặc cố gắng mô tả đầy đủ chữ thường và chữ hoa nhưng bỏ 6 ký tự ítdùng nhất; hoặc lấy thêm 6 ký tự ASCII ít được dùng để mô tả cho đủ tập 134 ký tự códấu Cách nào cũng có những hạn chế riêng của nó, hơn nữa có một số phần mềm sửdụng một số mã nới rộng này như là mã điều khiển để thực hiện các chức năng riêng củachúng nên nếu ta dùng nó làm ký tự tiếng Việt thì ký tự này sẽ không bao giờ được hiểnthị trong các phần mềm này

Trang 13

Ví dụ: TCVN 5712-VN1, VISCII, BachKhoa I, VietStar… là những mã dựng sẵnvới một bảng font (cho cả chữ thường và chữ hoa) TCVN 5712-VN3 (ABC), VietSea,VNU, SC 3.0 là những mã dựng sẵn với hai bảng font (một cho chữ thường và một chochữ hoa)

1.1.3 Dạng mã tổ hợp (2 byte hay nhiều hơn)

Mỗi ký tự có dấu tiếng Việt được mô tả bởi nhiều thành phần cơ bản ghép lại: mã ký

tự cơ bản không dấu cộng thêm các mã ký tự mô tả các dấu Để đơn giản hóa vấn đề, hầu hếtcác bảng mã tiếng Việt dạng tổ hợp chỉ dùng 2 byte: 1 byte mô tả mã ký tự cơ bản + 1 byte

mô tả các dấu kèm theo (có thể từ 1 tới 2 dấu) Số lượng tổ hợp dấu cho các ký tự tiếng Việtrất nhỏ nên ta có thể chọn lựa thoải mái trong phần mã nới rộng (>128) Lưu ý rằng với cách

mã hóa này, số lượng byte mô tả cho từng ký tự sẽ khác nhau: có ký tự chỉ chiếm 1 byte, có

ký tự chiếm 2 byte,… Kết quả là việc xử lý văn bản sẽ phức tạp hơn dạng mã dựng sẵn Hiệnphương pháp xử lý tiếng Việt tổng quát là chuyển mã tiếng Việt cần xử lý về dạng mã trunggian (thường là 1 byte), xử lý trên mã trung gian rồi chuyển kết quả về mã ban đầu, như vậyphương pháp tổng quát này sẽ không hiệu quả, nhưng chúng ta phải chấp nhận nó trong bốicảnh có quá nhiều bảng mã tiếng Việt khác nhau

Ví dụ: VietWare-X, VNI for Windows, TCVN 5712-VN2, BachKhoa II, VS2,3C25… là những mã tổ hợp

Lưu ý: Trên Windows 2000 hay Windows 95 tiếng Việt, Microsoft cung cấp bộ mã

tiếng Việt với tên là “CodePage 1258”, đây là loại mã tiếng Việt 1 byte dạng tổ hợp Có thểnói Microsoft đã giải quyết vấn đề tiếng Việt rất tốt dựa trên bản mã này: nhập liệu thânthiện, hiển thị, in ấn tốt và quan trọng hơn là tất cả các hoạt động xử lý như sắp xếp, tìmkiếm dữ liệu tiếng Việt đều hoạt động rất tốt Có thể nói rằng đây là bộ mã tiếng Việt được

hỗ trợ hoàn hảo nhất từ trước tới nay, nhưng tiếc rằng nó chưa được chấp nhận

1.1.4 Mã Unicode tiếng Việt

Xu hướng toàn cầu hóa đã và đang diễn ra mạnh mẽ, để một phần mềm đượcchấp nhận trên phạm vi toàn thế giới, nó phải xử lý được mọi tập ký tự của các quốc gia,nhất là các quốc gia châu Á với số lượng dân đông nhất thế giới Mặc dù tập ký tự củamỗi quốc gia thường không lớn lắm (ngay cả tập ký tự của Trung Quốc cũng chưa tới10.000 ký tự) nhưng hội các tập ký tự của các quốc gia (kể cả các tập ký tự của quá khứ

mà bây giờ đã hết dùng) là khá lớn Trong những năm đầu của thập kỷ 90 có 2 tổ chứckhác nhau cùng cố gắng định nghĩa bộ mã hợp nhất thế giới này, đó là: Tổ chức chuẩnhóa quốc tế ISO (International Organization of Standardization) với dự án ISO 10646 vàHiệp hội các hãng sản xuất phần mềm đa ngữ với dự án Unicode

1.2 Bộ mã Unicode 16 bit

May mắn cho chúng ta là vào năm 1991, các thành viên của cả 2 tổ chức này nhậnthấy rằng việc tạo 2 bộ mã khác nhau cho thế giới là không cần thiết nên họ đã hợp tácvới nhau để cùng đưa ra bộ mã thống nhất, mặc dù mỗi tổ chức vẫn xuất bản tài liệu và

Trang 14

đặt tên riêng cho bộ mã thống nhất này: tổ chức ISO đặt tên bộ mã là ISO 10646 hayUCS (Universal Character Set), còn Hiệp hội các hãng sản xuất phần mềm đa ngữ đặt tên

bộ mã là Unicode Do Unicode là tên bộ mã thống nhất do hiệp hội các hãng sản xuấtphần mềm nên ta nghe nói về nó nhiều hơn là ISO 10646

Unicode đã phát triển qua nhiều version từ 1.0 đến nay là 3.1 và từ 2.0 trở đi thì các

ký tự tiếng Việt đã được đưa vào bộ mã Unicode hiện nay dùng 4 byte để mô tả một ký

tự trong không gian mã 231 ký tự (2 tỉ ký tự), con số rất lớn đủ để mô tả mọi ký tự củamọi quốc gia, trong quá khứ lẫn hiện tại cũng như có dự trù cho việc phát triển trongtương lai

Để dễ quản lý bộ mã, người ta chia nó ra thành nhiều phần (plane – mặt phẳng)khác nhau, mỗi mặt phẳng chứa 65.536 ký tự (dùng 16 bit để mô tả), được đánh số từ 0.Hiện nay người ta mới chỉ tìm ra và thống nhất được khoảng một triệu ký tự, trong số nàychỉ có 65.534 ký tự đầu (mã từ 0000 đến fffd) được dùng phổ biến trên thế giới, tập connày được gọi là mặt phẳng đa ngữ cơ bản BMP (Basic Multilingual Plane) và được kýkiệu tắt là BMP0 Với tình hình thực tế trên, hầu hết các hệ điều hành và ứng dụng chỉ cốgắng xử lý được các ký tự Unicode nằm trong BMP0 Để mô tả được 65.534 ký tự khácnhau này, ta chỉ cần 2 byte cho mỗi ký tự là đủ Unicode cũng cung cấp 2 phương pháp

Ví dụ: Chữ ừ trong các dạng biểu diễn nói trên sẽ là chuỗi ký tự sau:

Ưu điểm của mã tổ hợp

- Mã tổ hợp có phần gọn nhẹ và chiếm ít mã hơn trong bảng mã, chỉ cần 20 vị trícho ký tự thuần Việt ( ă, â, ê, ô, ơ, ư, Ă, Â, Ê, Ô, Ơ, Ư, các dấu thanh: huyền, hỏi, ngã,sắc, nặng và dấu tổ hợp nguyên âm: nón, mũ, râu cho dạng chính tắc) trong khi mã dựngsẵn cần đến 134 cho ký tự thuần Việt

Trang 15

- Mã tổ hợp có phần gần với ngôn ngữ tự nhiên (Việt) hơn trong quá trình ghépchữ, ghép vần

- Mã tổ hợp sẽ dễ dàng hơn trong việc chuyển đổi chữ hoa/chữ thường, trong một

số ứng dụng có thể dùng luôn tính năng Change Case có sẵn để chuyển đổi

- Mã tổ hợp có vẻ như dễ dàng hơn trong việc sắp xếp tiếng Việt, nhưng thực rakhông phải như vậy, lý do là các dấu thanh huyền, sắc ngã, hỏi, nặng – thứ tự trong bảng

mã Unicode – lại nằm không đúng theo thứ tự sắp xếp tiếng Việt là huyền, hỏi, ngã, sắc,nặng, do đó vẫn phải thiết kế thuật toán riêng để sắp xếp mà không thể dùng các hàm cósẵn trong tiếng Anh Khi đã phải dùng thuật toán riêng thì việc sắp xếp cho mã dựng sẵncũng không khó hơn, không phức tạp nhiều hơn so với việc sắp xếp mã tổ hợp

- Mã tổ hợp có phần dễ dàng hơn trong việc tìm kiếm tiếng Việt gần đúng, ví dụnhững chữ tiếng Việt gần với âm "tha" chẳng hạn, thì các hàm tìm kiếm phổ thông sẽ tìm

ra được các chữ thà, thá, thả, thã, thạ… Nhưng nếu tìm những từ gần với âm "than" thìlúc ấy lại phải thiết kế thuật toán riêng, mà khi đã phải dùng thuật toán riêng thì giữa tổhợp và dựng sẵn thuật toán không khó hơn nhau nhiều

- Trong thực tế, mã tổ hợp được hỗ trợ tốt hơn trong môi trường Windows 2000,

và bộ Microsoft Office 2000, ý tốt hơn ở đây là chuyển đổi chữ hoa/thường, sắp xếp tiếngViệt được thiết kế ngay trong hệ điều hành và một số ứng dụng Mã tổ hợp có thể hiện thìtốt hơn trong một số control có sẵn của Windows 2000, XP Với Windows XP, Microsoft

đã hỗ trợ luôn cả mã dựng sẵn với tính năng sắp xếp tiếng Việt

Nhược điểm của mã tổ hợp

- Cài đặt mã tổ hợp khá phức tạp, số lượng môi trường cài đặt bị hạn chế hơnnhiều so với mã dựng sẵn, thông thường chỉ cài đặt được với font vector và bộ font chophép định nghĩa các ký tự có độ rộng âm, khi đó 2 ký tự có độ rộng âm và dương tổ hợplại sẽ cho ra ký tự cần hiển thị Một khó khăn khá lớn nữa là phần lớn các công nghệ fontphổ biến ngày nay như TrueType, OpenType, Typel… không cho phép thay đổi động vịtrí nét trong hình chưa mà điều này lại rất cần thiết Ví dụ chữ "à", và "À", thì vị trí củadấu huyền phải nằm ở 2 cao độ khác nhau tùy theo chữ cái cơ sở là chữ thường hay chữhoa, việc thay đổi động cao độ của dấu than theo ngữ cảnh là chưa thực hiện được bằng

kỹ thuật font chữ hiện hành Để khắc phục vấn đề này, VNI đã phải đề xuất 2 mã riêngcho từng dấu thanh: 2 dấu huyền, một mã cho chữ hoa và một mã cho chữ thường Trong

CP 1258 và Unicode để đảm bảo tính đơn trị (tính một- một) các dấu thanh chỉ có một mã

vì thế sẽ rất khó khăn trong hiển thị

- Phương án thứ 2 mà Microsoft đưa ra để giải quyết vấn đề tăng giảm độ cao dấuthanh là dùng kỹ thuật Hook API thay đổi các hàm Display qua đó ánh xạ (map) chuỗi ký

tự tổ hợp về chuỗi ký tự dựng sẵn để hiển thị và in ấn Cơ chế này chỉ có trong Windows

95 tiếng Việt, Windows 2000, Windows XP mà không có trong Windows 95, Windows 98

Cơ chế này không phải bao giờ cũng thực hiện tốt, ngay cả trên Windows XP

Trang 16

- Từ việc cài đặt mã tổ hợp phức tạp như vậy dẫn đến một nhược điểm thứ haikhá nghiêm trọng, đó là tính tương thích của mã tổ hợp kém hơn Có nghĩa là một vănbảng bằng mã tổ hợp ở môi trường này có thể không đọc được trong môi trường khác.Nhất là khi dùng font bitmap để làm font hệ thống thì hầu như không thể cài đặt được mã

tổ hợp, cũng như trong DOS, text console và nhiều môi trường Unix, Linux Mã tổ hợpcài đặt trên các hệ điều hành phổ biến hiện nay là Windows 98 thì chữ rất xấu không thểchấp nhận được Sẽ là một vấn đề lớn khi dùng mã tổ hợp phải nâng cấp phần cứng máytính lên Windows 2000, XP (theo khuyến cáo của Microsoft để chạy mã tổ hợp tốt hơn),như vậy sẽ cần kinh phí rất lớn để nâng cấp, đào tạo lại…

- Độ mỹ thuật của mã tổ hợp thường kém hơn nhiều so với mã dựng sẵn, lý do làmột ký tự dấu thanh có vị trí và cao độ xác định trong font chữ thường được dùng chungcho nhiều nguyên âm khác nhau và chúng được tổ hợp tự động sau khi nhập đoạn text Vịtrí của dấu thanh có thể hợp và đẹp với nguyên âm này nhưng lại có thể không phù hợpvới nguyên âm khác Ví dụ độ rộng của nguyên âm A thì khác với độ rộng của nguyên âm

I (độ rộng rất hẹp) vì thế nếu đẹp cho chữ A thì xấu cho chữ I và ngược lại, để khắc phụctình trạng này, VNI phải định nghĩa riêng các mã cho các chữ ì, í, ỉ, ĩ, ị Vì vậy chúng tathường coi VNI là giải pháp khắc phục tình thế hơn là một bộ mã, vì nó không đảm bảotính đơn trị, và nhất quán (có nhiều mã cho một dấu – với chữ lại có xử lý khác so với xử

lý các nguyên âm khác) Trong khi đó mã dựng sẵn được thiết kế từ trước (dựng sẵn) nên

có thể bố trí vị trí dấu thanh nhờ vào vị trí thích hợp nhất cho từng nguyên âm, nên baogiờ cũng có khả năng đẹp hơn nhiều so với mã tổ hợp

- Xử lý hiệu ứng với đoạn mã tổ hợp có nhiều vấn đề khó khăn hơn so với mãdựng sẵn Trong nhiều trường hợp, một con chữ tiếng Việt trong lưu trữ và hiển thị với

mã dựng sẵn lại không phải là một thể thống nhất (tổ hợp từ những ký tự rời rạc) cho nênkhi thực hiện các hiệu ứng với đoạn văn bản như co dãn text, xoay, dồn chữ, canh đều haibên… thì các dấu và chữ thường bị tách rời nhau, chữ đi một nơi và dấu đi một nơi, ảnhhưởng đến mỹ thuật và độ chính xác Có thể thấy trên các tít báo dùng font VNI hay xuấthiện các hiện tượng xa rời dấu thanh

- Xử lý với các ký tự mã tổ hợp phức tạp hơn so với mã dựng sẵn, do mỗi chữ cáitrong mã tổ hợp có độ rộng thay đổi, lúc có thể là một ký tự, lúc khác lại được tổ hợp từnhiều byte khác nhau Khi tách từ, tách ký tự (theo ngôn ngữ tự nhiên), thường dùng đểphân tích cú pháp hay đánh chỉ số phải xây dựng thuật toán riêng khá phức tạp, trong khi

mã dựng sẵn có độ rộng cố định nên việc rút ký tự từ đoạn text ra rất đơn giản, không cầnxây dựng thuật toán riêng Ngoài ra việc xử lý ký tự khác như: xóa ký tự, di chuyển chotrỏ di theo đơn vị ký tự thì thực hiện với mã tổ hợp khó khăn và phức tạp hơn: thườngphải xóa 2 sẵn cho một chữ, di chuyển 2 lần con trỏ mới đi ra khỏi một chữ, điều này là

xa lạ với ngôn ngữ tự nhiên

Trang 17

- Kích thước các tệp dữ liệu lưu ở dạng tổ hợp thường lớn hơn so với mã dựngsẵn khoảng 25-30% do đó nó chiếm nhiều không gian trong đĩa cứng, bộ nhớ hơn, và trênđường truyền mạng (internet/intranet) ngốn nhiều băng thông hơn

- Trong cơ sở dữ liệu, thiết kế cấu trúc cơ sở dữ liệu với mã tổ hợp thường phứctạp hơn Vì mặc dù biết trước số chữ cái max nhưng lại khó đoán nhận chính xác độ dàichuỗi byte tương ứng lớn nhất, nếu thiết kế không khéo sẽ bị tràn bộ nhớ Và khó khăntrong việc phân tách ký tự, phân tách từ cũng làm khó khăn thêm trong việc xử lý texttrong lĩnh vực cơ sở dữ liệu

- Trong việc đánh chỉ số (index), và tìm kiếm toàn văn (full text search), mà tổhợp cũng gây nhiều khó khăn hơn (phân tách từ, phân tách ký tự) và các ký tự dấu thanhtrong mã tổ hợp thường bị coi là dấu phân cách từ, dẫn đến việc đánh chỉ số bị sai và tìmkiếm toàn văn cũng không đúng Hiện tượng này thường gặp với đa số các bộ searchengine, công cụ tìm kiếm toàn văn trong Oracle và Lotus Notes 5.0 đều bị lỗi đánh chỉ sốsai Tuy rằng Oracle và Lotus Notes đều hỗ trợ Unicode trong phần encoding, nhưngđáng tiếc phần tìm kiếm toàn văn mua lại của hãng thứ 3 INSO và Verity đều thực hiệncác phân cách từ sai với mã tổ hợp Nhưng lỗi này không xảy ra với mã dựng sẵn

- Tính thực tế của mã tổ hợp kém hơn mã dựng sẵn: đa số ở Việt Nam cùng như ởnước ngoài, Unicode dựng sẵn được dùng rất phổ biến, các website của Việt Nam nhưVnexpress và VASC Orient hàng ngày có gần 2 triệu lượt truy nhập chứng tỏ số lượngngười dùng mã dựng sẵn rất lớn, trong khi các website dùng mã tổ hợp rất ít Dưới đây là một minh hoạ cho sự lệch lạc dấu thanh của mã tổ hợp, dòng trên là soạnbằng mã tổ hợp, dòng dưới được soạn bằng mã dựng sẵn, được dùng cùng một font chữVerdana, trong hệ điều hành Windows XP, và đoạn text được soạn trong PowerPoint

2000, 2 dòng cuối được soạn bằng WordArt cũng trong Office 2000 và Windows XP Tất

cả các đoạn text trên chưa hề qua một hiệu ứng text nào, mà chữ và dấu thanh đã bị lệch

và xa rời nhau trong khi mã dựng sẵn luôn hiển thị đúng và đẹp Hiện tượng này còn bịphổ biến hơn với tất cả các ứng dụng (kể cả Word XP, Excel XP…) chạy trên hệ điềuhành Windows 95, 98

Ưu và nhược điểm của mã dựng sẵn

Những ưu và nhược điểm của mã dựng sẵn cũng đã được phân tích khá kỹ vàsong song trong quá trình phân tích các ưu và nhược điểm của mã tổ hợp, chỉ xin đượctổng kết lại một cách tóm tắt: mã dựng sẵn không bị những nhược điểm của mã tổ hợp,các file sử dụng mã dựng sẵn tốn ít không gian nhớ, cài đặt đơn giản hơn, chữ hiển thịđẹp hơn, mỹ thuật hơn, xử lý với xâu ký tự dựng sẵn dễ dàng hơn (phân tách từ, phântách ký tự, xóa và di chuyển con trỏ), chữ và dấu là một khối thống nhất nên khi co dãntext không bị hiện tượng xa rời dấu thanh, và đặc biệt tính tương thích của mã dựng sẵncao hơn có thể chạy được trên nhiều môi trường khác nhau (từ font vector đến bitmap, từ

Trang 18

Windows, Macintosh đến Linux), vì chuyển mang văn bản dữ liệu giữa các môi trườngkhông đồng nhất (Multiplatform) là một điều cũng rất cần thiết

Tất cả những ưu điểm của mã tổ hợp, thì lại không phải là căn bản và đều có thểgiải quyết được tương đối khá dễ dàng, trong khi đó mã tổ hợp có những vấn đề về kỹthuật khá phức tạp (cài đặt, hiển thị…) Vẫn biết kỹ thuật phải theo chuẩn, nhưng tại thờiđiểm hiện nay có những giới hạn nhất định về kỹ thuật và công nghệ ví dụ cách đây 30năm, mã hóa 8 bit là giới hạn chưa giải quyết được do không gian nhớ eo hẹp ngày naycài đặt mã tổ hợp trong nhiều môi trường chưa thể làm được hoặc phải làm rất khó khăn

và đi vòng vo như ánh xạ từ tổ hợp về dựng sẵn

Các nhược điểm của mã tổ hợp có thể khắc phục được một phần ở thời điểm hiệnnay và có thể khắc phục hoàn toàn trong tương lai, nhưng chúng ta nên chọn nhữngphương án đơn giản, dễ cài đặt, đẹp hơn… và nhiều ưu điểm ở trên là mã dựng sẵn bởi vìcái lợi của mã tổ hợp mang lại thì không đáng kể mà để thực hiện hoàn hảo nó thì lại cóquá nhiều khó khăn

Cái có thể nói nhược điểm của mã dựng sẵn hiện nay là chưa được Microsoft chú

ý hỗ trợ nhiều Trong thời gian trước Microsoft có thiên hướng đi theo mà tổ hợp (là phầnnâng cấp từ mã 8-bit CP 1258 lên) Những xử lý về tiếng Việt như sắp xếp, chuyển đổichữ hoa/thường… được tích hợp luôn vào hệ điều hành như thế tốt hơn so với mã dựngsẵn, nhưng điều này chỉ đúng với Windows 2000 (không đúng với Windows 95, 98 ),ngoài ra trên Windows XP, Microsoft đã bắt đầu hỗ trợ thêm mã dựng sẵn vào trong hệđiều hành: phần sắp xếp tiếng Việt và việc trong tương lai Microsoft sẽ hỗ trợ hoàn toàn

mã dựng sẵn vào hệ điều hành không phải là vấn đề phức tạp về kỹ thuật Ngoài ra, trước kia với các mã VNI, ABC-TCVN 5712, chúng ta đâu có được Microsoft

hỗ trợ tiếng Việt ở mức hệ điều hành, nhưng vẫn không bị ảnh hưởng máy, CNTT vẫntiến triển tốt Thêm nữa, hiện đã có những hỗ trợ tiếng Việt ở mức thấp API (giống nhưWindows) do các đơn vị ở trong nước thực hiện và đáp ứng đầy đủ các yêu cầu về xử lýtiếng Việt ở tầng thấp

Tóm lại mã dựng sẵn với nhiều ưu điểm nổi trội có thể đáp ứng được nhu cầutrước mắt cũng như lâu dài và có thể sử dụng trong nhiều lĩnh vực: chế bản văn phòng,web, email, cơ sở dữ liệu và nhiều lĩnh vực khác, chúng ta nên chọn mã dựng sẵn, và tổhợp chỉ có thể dùng trong một số bài toán đặc thù như phân tích chuỗi ký tự hay để biểudiễn các hình chữ cho dấu thanh

Unicode và TCVN 6909

Năm 2001, Khoa học Công nghệ và Môi trường ban hành bộ mã chữ quốc ngữmới với mã số TCVN 6909 nhằm công nhận và hợp pháp hóa bộ phận mã tiếng Việtđược định nghĩa trong bộ mã Unicode

Trước tiên cần phải nêu rõ mối quan hệ giữa Unicode và TCVN 6909 TCVN

6909 là một tập con của Unicode, nhưng đã được chọn lọc kỹ lưỡng để lấy ra đúng những

Định dạng
Số trang	37
Dung lượng	2,9 MB