Tiêu Chuẩn Hóa Bộ Chữ Việt Nam


Chữ Việt Nam (quốc ngữ) càng ngày càng được sử dụng rộng rãi trong ngành điện toán và thông tin. Hiện nay trên thị trường có bán nhiều nhu liệu (software) Việt ngữ nhưng tiếc thay những nhu liệu này dùng các bộ chữ (character set) khác nhau khiến cho việc xử lý (processing) và trao đổi (interchange) dữ kiện chữ Việt gặp nhiều khó khăn. Điều này làm cản trở việc phát triển nhu liệu Việt ngữ, ảnh hưởng đến việc phát triển kỹ nghệ điện toán Việt Nam. Do đó, việc tiêu chuẩn hóa bộ chữ Việt Nam trở nên khẩn thiết hơn bao giờ hết. Trước nhu cầu này một số các bạn trẻ Việt Nam ở Hoa Kỳ đã kết hợp với nhau để nghiên cứu một bộ chữ Việt tiêu chuẩn. Dần dần nhóm Nghiên-Cứu Tiêu-Chuẩn Tiếng Việt được thành hình vào mùa thu năm 1989. Đây là một tổ chức vô vụ lợi, thường được biết dưới tên là Vietnamese Standardization Group (gọi tắt là Viet-Std Group), quy tụ chuyên viên về nhiều lãnh vực khác nhau. Các thành viên của nhóm hiện sống rải rác khắp nơi trên thế giới và cộng tác với nhau qua các mạng lưới thông tin điện toán và các cuộc họp mặt bất thường. Mục tiêu hạn hẹp ban đầu của nhóm cũng được mở rộng để bao gồm luôn việc vận động và đóng góp ý kiến chuyên môn về chữ Việt Nam cho các Viện Định Chuẩn Tin Học và các công ty điện toán quốc tế.

Trong thời gian qua nhóm Viet-Std đã đạt được ba thành công quan trọng nhất là

(1) thiết kế bộ mã chữ Việt Nam 8-bit (Vietnamese 8-bit character code),
(2) quy định cách viết chữ Việt bằng chữ 7-bit, và
(3) vận động với tổ chức Unicode Consortium và Viện Định Chuẩn Quốc Tế (International Standards Organization, gọi tắt là ISO) để toàn bộ chữ Việt được mã hóa (encode) theo phương pháp chữ nguyên (precomposed character) trong bộ mã quốc tế 16-bit và 32-bit.

Hai công trình đầu tiên đã được trình bày chi tiết trong một tài liệu song ngữ vừa được nhóm Viet-Std phát hành [1] mà chúng tôi xin giới thiệu sơ lược đến bạn đọc trong bài này.

Trước hết chúng tôi xin trình bày bộ chữ 8-bit, có tên Anh ngữ là Vietnamese Standard Code for Information Interchange hay gọi tắt là VISCII. Đa số nhu liệu hiện nay dựa trên nền tảng mỗi mẫu tự được mã hóa bằng 8-bit (1 byte). Với 8-bit chúng ta có thể mã hóa được 256 mẫu tự hoặc tín hiệu khác nhau. Vì những lý do có tính cách lịch sử, bộ chữ ASCII của Hoa kỳ dùng 128 mã số (code point or code value) đầu tiên đã trở thành tiêu chuẩn quốc tế. Bộ chữ này bao gồm 32 tín hiệu điều khiển (control character) có mã số từ 0 đến 31, và 96 mã số còn lại dành cho một số mẫu tự La tinh, dấu chấm câu hoặc ký hiệu. (Để tiện việc trình bày, chúng tôi tạm dịch control character là kiểm-tự, các chữ còn lại là ký-tự. Đứng trên quan điểm điện toán, chúng ta phải định nghĩa thêm mã-tự là bất cứ cái gì được tượng trưng bằng một mã số; mỗi mã-tự tương ứng với một mã số và ngược lại.) Phần còn lại (128 mã số từ 128 đến 255) thường được quy định và sử dụng tùy theo nhu cầu của mỗi quốc gia hoặc từng bộ nhu liệu. Như vậy chúng ta có thể tiêu chuẩn hóa 128 mã số này cho các mẫu tự Việt Nam không nằm trong danh sách chữ ASCII.

Bộ chữ quốc ngữ có tất cả 186 mẫu tự vừa thường vừa hoa, trong số này chỉ có 52 mẫu tự được quy định sẵn trong bộ chữ ASCII. Như vậy chúng ta cần phải mã hóa thêm 134 chữ Việt trong khi chỉ còn có 128 chỗ trống mà thôi. Chính vì khó khăn này mà Việt Nam phải chậm trễ trong việc ban hành một bộ chữ Việt tiêu chuẩn chính thức khiến cho các công ty nhu liệu Việt ngữ đành phải tự đặt ra các bộ chữ riêng.

Hai phương pháp mã hóa sau đây thường được áp dụng cho những mẫu tự có dấu phụ (diacritical mark): phương pháp dấu rời (floating diacritics) và phương pháp chữ nguyên. Phương pháp chữ nguyên xem mỗi mẫu tự, thí dụ À, là một mẫu tự duy nhất trong khi phương pháp dấu rời xem chữ À như gồm có hai mã tự &QUOTA" và mã-tự "`". Như vậy phương pháp dấu rời dùng ít mã số hơn phương pháp chữ nguyên. Chúng ta chỉ cần 29 mã số để mã hóa 24 nguyên âm chính (A Ă Â E Ê I O Ô Ơ U Ư Y và 12 nguyên âm thường) và 5 dấu thanh (sắc, huyền, hỏi, ngã, nặng). Trong khi đó phương pháp chữ nguyên cần tất cả 144 mã số để mã hóa tất cả nguyên âm Việt vừa thường vừa hoa.

Phương pháp dấu rời đã được áp dụng ở nhiều quốc gia dùng chữ La-tinh có dấu phụ. Nhưng quá trình thử nghiệm cho thấy phương pháp này có khuyết điểm lớn lao về nhiều mặt như tốc độ xử lý giảm sút, nhu cầu về sức chứa (storage) và bộ nhớ (memory) gia tăng, việc thảo chương phức tạp, không thể hội nhập (integrate) vào môi trường nhu liệu và cương liệu hiện hữu ... Vì những lý do này, phương pháp dấu rời hầu như không còn được sử dụng trong kỹ nghệ điện toán hiện nay.

Để có thể hội nhập vào nền kỹ nghệ điện toán của thế giới, chúng ta phải chấp nhận mã hóa theo phương pháp chữ nguyên, nghĩa là phải sử dụng thêm 134 mã số dù rằng chỉ có 128 mã số còn trống mà thôi. Cách giải quyết thông thường là tìm cách thay thế 6 mã-tự ASCII nào đó bằng 6 mẫu tự Việt. Có rất nhiều cách nhưng cách nào cũng vấp phải một số khuyết điểm riêng.

Sau khi phân tích kỹ càng vấn đề và cứu xét cả chiều hướng phát triển cương liệu và nhu liệu trong tương lai, nhóm Viet-Std đã giải quyết bài toán này dựa trên căn bản triệt để bảo toàn 96 ký tự ASCII trong vùng G0 (mang mã số 32 đến 127) và những kiểm tự dùng trong khiển hệ (operating system). Quyết định này được trình bày kỹ càng trong tài liệu [1], nhưng trong phạm vi bài này có thể được tóm tắt như sau: bằng cách bảo toàn những ký tự ASCII vừa kể chúng ta có thể sử dụng hầu hết nhu liệu và cương liệu sản xuất khắp nơi trên thế giới mà không phải đầu tư nhân lực và tài nguyên vào việc điều chỉnh hoặc biến đổi cho thích hợp với chữ Việt Nam, cụ thể như bộ dịch (compiler), khiển hệ, khung X (X windows), v.v... Chỉ có cách giải quyết này mới giúp chúng ta sử dụng được những thành quả kỹ thuật mới mẻ nhất trên thế giới.

Với phương châm trên, chúng tôi đã thay thế 6 kiểm-tự ASCII mang mã số 2, 5, 6, 20, 25, 30 bằng 6 mẫu tự hoa Ẳ, Ẵ, Ẫ, Ỷ, Ỹ, Ỵ.  Ngoài ra, dựa trên bộ tự-mã tiêu chuẩn 8859/Latin-1 dành cho các nước Tây Âu, chúng tôi cũng quyết định duy trì mã số của tất cả chữ Việt đã có sẵn trong tiêu chuẩn này. Trong vùng mã số từ 128 đến 255, tất cả những vị trí nào có thể xảy ra xung đột với các nhu liệu phổ thông hiện hữu như MS-Windows 3.1 đều được bố trí bằng chữ hoa. Bảng mã VISCII được liệt kê trong tài liệu [1].

Sau đây chúng tôi xin sơ lược về quy tắc viết chữ Việt Nam bằng chữ 7-bit ASCII. Quy tắc này có tên Anh ngữ là Vietnamese Quoted Readable Specifications (Quy-định Đọc-Được-Trong-Ngoặc, gọi tắt là VIQR) đã được cộng đồng người Việt ở hải ngoại sử dụng rộng rãi để trao đổi điện thư bằng tiếng Việt trên các máy điện toán không có chữ Việt Nam. Theo quy định này, các dấu được đánh sau các nguyên âm; dấu sắc, huyền, hỏi, ngã, nặng được thay thế bằng các ký hiệu ASCII Hoa-Kỳ có dạng gợi hình tương tự là "'", "`", "?", "~", ".", dấu trăng (dấu á) được thay bằng "(", dấu mũ bằng "^", dấu móc (như trong chữ Ơ, Ư) bằng "+", và chữ đ được thay thế bằng "dd". Chẳng hạn, hai câu thơ Kiều của cụ Nguyễn Du:

 
 
         Trăm năm trong cõi người ta 
         Chữ tài chữ mệnh khéo là ghét nhau
 

sẽ hiện ra như sau khi viết theo quy định VIQR:

 
 
         Tra(m na(m trong co~i ngu+o+`i ta 
         Chu+~ ta`i chu+~ me^.nh khe'o la` ghe't nhau
 

Tuy nhiên một số người lại thích dùng các ký hiệu khác, chẳng hạn như "*" tượng trưng cho dấu móc, "<" thay cho dấu trăng, "\" thay cho dấu huyền, "-d" tượng trưng cho "đ", v.v... Nhưng với vai trò là một tiêu chuẩn, VIQR phải ấn định một quy luật duy nhất và tối thiểu để làm cơ sở thống nhất cho việc trao đổi nhu liệu, nghĩa là mỗi dấu Việt Nam phải được tượng trưng bằng một và chỉ một ký tự ASCII mà thôi. Với sự sử dụng rộng rãi bàn đánh chữ ASCII trong giới điện toán Việt Nam, chúng tôi quyết định chọn quy định VIQR dựa trên nguyên tắc thực dụng là dễ đọc và dễ nhớ cho tuyệt đại đa số người dùng. Quy luật VIQR được mô tả chi tiết trong chương 4 của tài liệu Anh Ngữ và Việt ngữ [1].

Cả hai tiêu chuẩn VISCII và VIQR đã được nhóm vô vụ lợi TriChlor Software trắc nghiệm thành công trong các môi trường Unix, X-Windows, DOS, MS-Windows 3.1. Với bộ chữ VISCII, người dùng có thể dùng chữ Việt với hầu hết các nhu liệu viết cho môi trường 8-bit, từ programming, computing, đến word processing mà không cần phải mua một nhu liệu đặc biệt nào. Nhóm TriChlor và thân hữu đã thiết kế hoặc biến đổi rất nhiều nhu liệu công cộng để vận hành với VISCII: editors, keyboard drivers, xterms, software development tools, fonts, applications, ... Tất cả nhu liệu này đều được phổ biến miễn phí cho công chúng. Chúng tôi xin kể lược một số sản phẩm sau đây:

  • chương trình biến đổi dữ liệu ở dạng 7-bit VIQR sang dạng 8-bit VISCII và ngược lại.
  • ứng dụng điều khiển bàn chữ Việt trong môi trường Unix, DOS, MS-Windows 3.1. Ứng dụng này cho phép người dùng đánh chữ Việt trên bàn chữ ASCII Hoa Kỳ nhưng màn ảnh sẽ hiện ra chữ Việt Nam.
  • ứng dụng màn ảnh Việt chạy trong khung X (X windows) hoặc khung MS-DOS (MS-DOS windows).
  • ứng dụng thư tín cho phép đọc và viết thư bằng 8-bit VISCII nhưng sẽ tự động biến đổi thư thành dạng 7-bit VIQR khi lưu trữ hoặc gửi đi.
  • ứng dụng in dữ liệu 8-bit VISCII trên các máy in Laser, ma-trận-điểm (dot matrix), hoặc PostScript.
  • ứng dụng viết bài (editor) dùng 8-bit VISCII.
  • các nhu-liệu dụng-cụ và nhu liệu thư viện (library) thường dùng trên khiển hệ Unix, DOS.
  • ứng dụng bảng tính (speadsheet) chạy trên Unix.
  • ứng dụng sư phạm dùng để ra câu đố hoặc đề thi trắc nghiệm tiếng Việt.
  • ứng dụng kiểm soát lỗi chính tả.
  • ứng dụng trò chơi.
  • các bộ phông chữ ở dạng điểm (bitmap fonts), TrueType, PostScript.

Ngoài ra còn nhiều sản phẩm nữa không tiện kể ra đây. Vì Viet-Std và TriChlor không có tính cách thương mại, tất cả các công trình nghiên cứu và sản phẩm nhu liệu của nhóm đều được phổ biến miễn phí. Tài liệu về VISCII và VIQR cũng như danh sách nhu liệu công cộng đã được nhóm Viet-Std đúc kết trong đặc san [1]. Đặc san và nhu liệu có thể lấy miễn phí bằng anonymous ftp ở directory tin/VN trên máy điện toán Sonygate.Sony.COM (1). Hoặc có thể liên lạc với

1) Viet-Std
1212 Somerset Dr., San Jose, CA 95132, USA.
Email: Viet-Std@Haydn.Stanford.EDU.

2) TriChlor Software
3388 Burgundy Dr., San Jose, CA 95132, USA.
Email: TriChlor@Haydn.Stanford.EDU (2).

Nhu liệu Việt Ngữ tuân theo VISCII đã và đang được lan truyền rộng rãi trên thế giới nhờ ở tinh thần vô vụ lợi của các thành viên. Chúng tôi hy vọng bộ chữ VISCII sẽ trở thành tiêu chuẩn chính thức trong tương lai rất gần. Trong khi chờ đợi, hy vọng bạn đọc sẽ tiếp tay quảng bá bộ chữ VISCII bằng cách sử dụng cũng như phổ biến nhu liệu Việt ngữ do nhóm TriChlor phát hành. Cả hai nhóm Viet-Std và TriChlor hoan nghênh tất cả các chuyên viên điện toán tham gia vào công cuộc tiêu chuẩn hóa và phát triển nhu liệu Việt Nam.


Nhóm Nghiên Cứu Tiêu Chuẩn Tiếng Việt
California, Hoa-kỳ, November 1992

 


Tài liệu tham khảo:

[1] "Vietnamese Character Encoding Standardization Report: VISCII and VIQR 1.1 Character Encoding Specifications," Đặc san song ngữ do nhóm Viet-Std xuất bản tháng 9, 1992, California.

 


Revisions:

·  (2014-12-17):

(1) The up-to-date ftp site is: http://vietstd.sourceforge.net

(2) The up-to-date email is: winvnkey@gmail.com

·  (1996-12-27):

(1) The up-to-date ftp site is: ftp://ftp.media.mit.edu/pub/Vietnet/Viet-std/

(2) The up-to-date email is: trichlor@netcom.com