Mục Lục
A1. Khó khăn khi nhập chữ Nôm
A2. Cách nhập nhanh cụm
chữ Hán Nôm bằng viết tắt
A3. Các kho dữ liệu Hán
Nôm nằm ở đâu?
A4. Làm sao biết được số
lượng chữ đơn hoặc phức trong mỗi kho dữ liệu?
A5. Thủ tục tái tạo kho dữ
liệu
A1. Khó khăn khi nhập chữ Nôm
Một số
vấn đề nảy sinh ra khi nhập chữ Nôm vì lý do không có một font nào có chứa
đầy đủ các chữ Nôm cả. Một số chữ Nôm nằm trong font Arial
Unicode MS, một số nằm trong font “HAN NOM A”, một số khác nằm trong “HAN
NOM B”. Do đó, khi gặp chữ Nôm hiện ra như ô vuông, bạn phải đổi thử
sang font khác.
Sau đây
là thí dụ gõ chữ “trong/”
(nhớ đừng gõ ngoặc kép):
1.
Chọn
kho dữ liệu Nôm như Hình A1 để có thể nhập chữ Nôm.
2.
Từ
Notepad, gõ
chữ trong/
như Hình A2(b).
3.
Quan
sát hộp QLHN sẽ thấy có 14 chữ Nôm hiện ra với màu sắc khác nhau như Hình
A2(a).
4.
Từ
nút Chọn lựa, chọn menu “Đổi phông và màu chữ Hán Nôm” để thấy hộp thoại
như Hình A2(c).
5.
Màu
sắc trong Hình A2(c) cho thấy:
-
chữ
màu xanh: phải dùng font HAN NOM B.
-
còn
các chữ màu đen, tím, đỏ: phải dùng font HAN NOM A.
Nếu bạn
cứ đổi font cho từng chữ Nôm thì việc nhập chữ Nôm sẽ rất chậm. Do đó,
WinVNKey sẽ tự động đổi ngầm cho bạn nếu bạn gõ vào MS Office như MS Word,
ngoại trừ khi bạn bật hộp kiểm ở Hình A2(c) để bảo WinVNKey đừng đổi.
Nếu bạn
không thích các màu sắc và font mà WinVNKey đã chọn sẵn cho một chữ Nôm nào
đó, bạn có thể đè chuột phải lên chữ Nôm đó (trong hộp QLHN), rồi chọn menu
thích hợp để đổi font, hoặc đổi màu.

Hình A1.
Chọn kho dữ liệu chữ Nôm để nhập chữ Nôm mà thôi.

Hình A2.
Gõ “trong/”
ở Notepad (Hình b) sẽ thấy 14 chữ Nôm có màu khác nhau hiện ra ở hộp QLHN
(Hình a).
Hình
(c) cho biết chữ Hán màu xanh phải dùng font HAN NOM B, còn các màu khác
phải dùng font HAN NOM A.
Ngoài ra,
bạn có thể đè chuột phải lên từng chữ Hán/Nôm, hoặc đè lên chữ Việt đánh số
0, ở hộp QLHN để thấy bảng menu như Hình A3. Bốn dòng cuối cùng của
bảng menu là các chức năng liên quan đến việc đổi phông và đổi màu.

Hình A3.
Đè chuột phải lên từng chữ Hán/Nôm để biết thêm các chi tiết về chữ đó.
A2. Cách nhập nhanh cụm
chữ Hán Nôm bằng viết tắt
Muốn nhập
nhanh cụm chữ Hán Nôm, bạn có thể tiết kiệm thao tác gõ bằng cách chỉ gõ
một vài mẫu tự của chữ thứ nhì rồi gõ dấu * hoặc dấu = để tượng trưng cho
tất cả các ký tự mà bạn không muốn gõ tiếp:
-
Dùng
dấu * để tượng trưng cho tất cả các mẫu tự chưa gõ và cả dấu đi với cụm chữ
đã gõ.
-
Dùng
dấu = để tượng trưng cho tất cả các mẫu tự nằm bên phải của cụm chữ đã gõ,
còn phần đầu thì phải giống hệt như cụm chữ đã gõ.
Chẳng
hạn, gõ “cank*/” như
trong Hình A4. Cụm chữ đã gõ rồi là “cank”. Dấu chưa gõ là dấu đi với
cụm chữ đã gõ rồi, tức dấu đi với “can”.
Mẫu tự còn lại chưa gõ là những mẫu tự đi sau chữ k. Hình A4 liệt kê ra tất
cả chữ Hán có âm đọc trong tiếng Việt gồm hai từ mà phần bắt đầu có chứa cụm “can k”. Muốn
chọn cụm chữ nào thì bạn gõ số thứ tự của cụm chữ đó sau dấu gạch chéo hoặc
là dùng chuột nhấp lên cụm chữ đó trong hộp QLHN.
Tương tự,
gõ “tânkh*/”
sẽ hiện ra các cụm chữ Hán sau đây (xem Hình A5):
- 賓客 tân khách (dấu * tượng trưng
cho các mẫu tự chưa gõ: á c h).
- 新科 tân khoa (dấu * tượng trưng
cho o a).
- 辛苦 tân khổ (dấu * tượng trưng
cho ổ ).
- 訊考 tấn khảo (ký tự còn
chưa gõ: dấu sắc trong chữ tấn, các mẫu tự ả
o).
Nếu gõ “tânkh=/” (nghĩa là dùng dấu = thay cho dấu
*) thì dấu bằng tượng trưng cho các mẫu tự còn lại nằm bên phải của chữ tânkh, còn phần đầu thì bắt buộc phải
giống hệt như tânkh. Do
đó, Hình A6 liệt kê ra tất cả chữ Hán có âm đọc trong tiếng Việt gồm hai từ
mà phần bắt đầu phải giống hệt như cụm
“tân kh”.
- 賓客 tân khách.
- 新科 tân khoa.
- 辛苦 tân khổ.
So sánh
danh sách chữ Hán trong Hình A5 và A6, ta thấy cụm chữ “tấn
khảo” bị loại bỏ khi
dùng cách gõ tắt “tânkh=” vì lý do 5 mẫu tự đầu của “tấn
khảo” là “tấn
kh”, không phải “tân
kh”.

Hình A4.
Gõ tắt từ phức với dấu * tượng trưng cho các mẫu tự và dấu chưa gõ hết.

Hình A5.
Dấu * còn tượng trưng cho dấu chưa gõ của cụm chữ tânkh, tức dấu sắc trong
chữ tấn.

Hình A6.
Dùng dấu = để gõ tắt từ phức khi muốn phần đầu phải giống hệt nhau.
A3. Các kho dữ liệu Hán
Nôm nằm ở đâu?
Muốn xem
các kho dữ liệu Hán Nôm, bạn hãy nhấn:
Hộp thoại QLHN | Chọn lựa | Mở thư mục
Bạn sẽ
thấy danh sách thư mục tương tự như Hình A7. Có tất cả 9 files chứa
dữ liệu dạng binary (nghĩa là không thể edit bằng tay được vì sẽ làm hư
files):
- Han-Viet.dat - dùng để
gõ chữ Hán bằng âm Việt
- Nom-Viet.dat - dùng để gõ chữ
Nôm bằng âm Việt
- HanPhonThe-Viet.dat - dùng để gõ chữ
Hán Phồn thể bằng âm Việt
- Cantonese-Viet.dat - dùng để gõ chữ
Hán Quảng Đông bằng âm Việt
- Han-4Corner.4ci - dùng để gõ chữ
Hán bằng phương pháp Tứ Giác Hiệu Mã
- Han-Pinyin.py - dùng để
gõ chữ Hán bằng Bính âm (Pinyin)
- HanGianThe-Pinyin.py - dùng để
gõ chữ Hán Phồn thể bằng Bính âm
- HanPhonThe-Pinyin.py - dùng để gõ chữ
Hán Phồn thể bằng Bính âm
- Han-Cangjie.dat - dùng để gõ chữ
Hán bằng phương pháp Thương Hiệt
Mỗi kho
dữ liệu lại có một thư mục tương ứng để chứa các files nguồn ở dạng văn bản
trơn (plain text) mà bạn có thể mở ra xem bằng Notepad và edit được. Tên
của thư mục được đặt từ tên của tệp kho dữ liệu sau khi bỏ đi phần đuôi.
Thí
dụ: File Han-Viet.dat tương ứng với thư mục Han-Viet, còn file Nom-Viet.dat tương ứng với thư mục Nom-Viet. Như vậy, bạn có thể nhấn lên
thư mục Han-Viet để
thấy các files nguồn của kho dữ liệu Han-Viet
như Hình A8. Nếu muốn xem dữ liệu Nôm Việt, bạn phải nhấn lên tiểu thư
mục Nom-Viet.
Chú
ý: Các gói WinVNKey thường chỉ chứa các files Hán Nôm nguồn (dạng *.txt) mà không có chứa các files Hán
Nôm dạng binary (Han-Viet.dat, Nom-Viet.dat, v.v.). Khi bạn chạy lần đầu,
WinVNKey sẽ tự động tái tạo lại các kho binary từ files nguồn.

Hình A7.
Mở thư mục Hán Nôm sẽ thấy các files dữ liệu Hán Nôm (dạng *.dat, *.py, *.4ci)
cùng các tiểu thư mục (subfolders) chứa files dữ liệu nguồn.

Hình A8.
Mở thư mục Han-Viet
sẽ thấy các files dữ liệu nguồn ở dạng *.txt file cùng thư mục backup chứa các
files nguyên thủy.
Bạn có
thể nhấn lặp lên một tệp văn bản nguồn (hoặc dùng Notepad
để mở) để xem nội
dung. Chẳng hạn, hình A9 cho thấy nội dung của file chữ đơn Hán Việt
tên là Data-HanViet-LST.txt,
A10 là file ghi cụm từ phức Hán Việt tên là Tuphuc-HanQNgu-LST.txt. Nói chung, văn bản nguồn gồm có
2 cột:
-
một
cột chữ Hán (có thể ghi chữ Hán hoặc mã Unicode có dạng U+nnnn)
-
một
cột ghi âm Việt (chữ Quốc ngữ).
Nếu cột 1
là chữ Hán và cột 2 là chữ Việt thì tên file phải nêu rõ thứ tự
đó: HanViet hoặc HanQNgu. Còn nếu cột 1 là chữ Việt và cột 2 là
chữ Hán thì tên file phải nêu rõ VietHan (thí dụ file Buddist-VietHan.txt
trong Hình A8).

Hình A9.
Nội dung file ghi chữ Hán Việt. Cột 1 có thể ghi chữ Hán trực tiếp hoặc mã
Unicode của chữ Hán, cột 2 ghi âm đọc tiếng Việt bằng chữ Quốc ngữ.

Hình A10.
File ghi cụm chữ phức Hán Việt.
A4. Làm sao biết được
số lượng chữ đơn hoặc phức trong mỗi kho dữ liệu?
Mỗi kho
dữ liệu được xây dựng từ tất cả các văn bản nguồn ở dạng trơn (*.txt) nằm trong một thư mục riêng dành
cho kho dữ liệu đó. Bạn có thể mở từng file ra để đếm số lượng
chữ. Nhưng việc này không cần thiết vì WinVNKey đã tóm tắt tin tức về
các kho dữ liệu cho bạn. Bạn hãy nhấn nút:
Hộp QLHN | Chọn lựa |
Thông tin
Chẳng
hạn, kho dữ liệu Hán Việt (tức nhập chữ Hán bằng cách gõ âm Việt bằng chữ
Quốc ngữ) có thông tin như miêu tả trong Hình A11.

Hình A11.
Thông tin về kho dữ liệu chữ Hán Việt.
Hình A11
cho thấy thông tin sau đây:
- Kho dữ liệu Hán Việt được
chứa trong một file duy nhất có tên là Han-Viet.dat.
- File này được WinVNKey xây
dựng từ 4 files nguồn sau đây:
1.
Buddhist-VietHan.txt (27364 chữ-âm/entries)
File này chứa các chữ Hán về Đạo Phật, cột 1 là âm chữ
Việt, cột 2 là chữ Hán. Đó là lý do tên file có chứa cụm chữ VietHan.
2.
Data-HanViet-LST.txt (30986 chữ-âm/entries)
File này có chứa 30986 chữ Hán đơn, cột 1 là chữ Hán,
cột 2 là âm chữ Việt, tác giả sưu tầm là Lê Sơn Thanh. Bạn có thể
dùng Notepad để mở file này ra hầu biết thêm chi tiết về tác giả và nội
dung của file.
3.
TuPhuc-HanQNgu-LST.txt (19996 chữ-âm/entries)
File này có chứa 19996 cụm từ phức, cột 1 là chữ Hán,
cột 2 là âm chữ Quốc ngữ, tác giả sưu tầm là Lê Sơn Thanh.
4.
TuPhuc-HanViet-DTK.txt (8981 chữ-âm/entries)
File này có chứa 8981 cụm từ phức, cột 1 là chữ Hán,
cột 2 là âm chữ Việt, tác giả sưu tầm là Đặng Thế Kiệt.
Cần chú ý
rằng khi bạn gõ âm Việt bằng chữ Quốc ngữ rồi gõ tiếp phím mệnh lệnh “/”
thì WinVNkey sẽ đọc trực tiếp kho dữ liệu Han-Viet.dat để lấy danh sách các
chữ Hán. Nói một cách khác, WinVNKey không dùng các files nguồn một
cách trực tiếp. Nếu bạn chỉ sửa chữa các lỗi Hán Nôm ở files nguồn
thì hoàn toàn không thay đổi được cơ sở dữ liệu Han-Viet.dat. Nhưng Han-Viet.dat là một file
không thể sửa chữa (edit) được bằng Notepad. Muốn thay đổi Han-Viet.dat, bạn phải sửa chữa files nguồn,
rồi phải chạy một công cụ khác của WinVNKey để tái tạo lại file
Han-Viet.dat. Đó là chức năng “Cập nhật kho dữ liệu Hán Nôm” được mô tả trong tiết mục tiếp
theo.
A5. Thủ tục tái tạo kho
dữ liệu
Nếu bạn
rành Hán Nôm và thấy kho dữ liệu nào còn thiếu chữ hoặc có chữ sai, bạn có
thể tự động thêm các chữ mới vào hoặc sửa chữa các chữ sai. Sau khi
làm xong, bạn phải tái tạo lại các kho dữ liệu binary vì WinVNKey chỉ đọc
các kho này khi bạn nhập chữ Hán Nôm.
Nói
chung, bạn phải tái tạo lại kho dữ liệu trong các tình huống sau đây:
- khi bạn thay đổi hoặc cập
nhật lại các tệp nguồn vừa kể trên,
- hoặc khi kho dữ liệu bị hư
(corrupt) hay bị xóa mất. Khi kho dữ liệu bị hư, bạn không thể
nào gõ được chữ Hán Nôm.
Thủ tục
để tái tạo lại kho dữ liệu đã được mô tả ở hộp “Thông
tin” ở Hình A11, tiết
mục C. Thủ tục này có thể được tóm tắt như sau (xem Hình A12):
- Hộp QLHN | Chọn
lựa | Cập
nhật kho dữ liệu Hán Nôm
- Chọn kho dữ liệu cần cập nhật
(thí dụ: Han-Viet)
- Mở file để sửa. Có 2
cách sau đây:
-
Hoặc
nhấn chuột trái lên nút “Biên soạn”
rồi chọn file cần sửa (Hình A13).
-
Nhấn
nút có hình mở thư mục (open folder icon) để mở thư mục Han-Viet. Double
click lên text file mà bạn cần thêm bớt hoặc sửa chữa.
- Thông thường Windows sẽ dùng Notepad để mở file ra. Bạn nên
chọn font là “Arial Unicode MS” để có thể thấy được chữ Hán
Nôm. Nếu vẫn thấy ô vuông, bạn hãy chọn thử font khác, chẳng hạn
“HAN NOM A” hoặc “HAN NOM B”.
- Sau khi thêm bớt sửa chữa
xong, save file và đóng Notepad lại.
- Nhấn nút "Xây
dựng".
Quá trình tái tạo thường diễn ra rất nhanh, nhưng có
thể lâu đến 1 phút đối với những kho dữ liệu quá lớn. WinVNKey sẽ
hiện ra một hộp thoại liệt kê diễn tiến cập nhật như Hình A14.
- Sau khi tái tạo xong, hãy tắt
WinVNKey rồi khởi động lại như lời chỉ dẫn ở mục (C) trong hình A14.

Hình A12.
Nhấn nút Chọn
lựa | Cập
nhật kho dữ liệu Hán Nôm
để
hiện ra hộp thoại dùng để tái tạo các kho dữ liệu Hán Nôm.

Hình A13.
Chọn file cần sửa bằng cách nhấn nút Biên soạn.

Hình A14.
Diễn tiến cập nhật sau khi nhấn nút “Xây dựng” ở Hình A13.
|